數據架構簡介
DataArts Studio數據架構以關系建模、維度建模理論支撐,實現規范化、可視化、標準化數據模型開發,定位于數據治理流程設計落地階段,輸出成果用于指導開發人員實踐落地數據治理方法論。
數據架構作為數據治理的一個核心模塊,承擔數據治理過程中的數據加工并業務化的功能。數據架構主要包括數據調研、標準設計、模型設計和指標設計四個部分。數據架構支持DLI、POSTGRESQL、DWS、MRS_Hive數據連接類型。
DataArts Studio數據架構致力于:
- 構建統一的數據分類體系,用于目錄化管理所有業務數據,便于數據的歸類、查找、評價和使用。
- 構建統一的數據標準體系,基于國家或行業標準,用于標準化每一行數據,每一個字段的具體取值,提升數據質量和易用性。
- 構建統一的數據模型體系,通過規范定義和數據建模,自頂向下構建企業數據分層體系,沉淀企業數據公共層和主題庫,便于數據的流通、共享、創造、創新,提升數據使用效率,極大的減少數據冗余、混亂、隔離、不一致以及謬誤等。
模型設計方法概述
根據業務需求抽取信息的主要特征,模擬和抽象出一個能夠反映業務信息(對象)之間關聯關系的模型,即數據模型。數據模型也是可視化的展現企業內部信息如何組織的藍圖。數據模型應滿足三方面要求:能比較真實地模擬業務(場景);容易為人所理解;便于在IT系統中實現。
在DataArts Studio數據架構的數據建模過程中,用到的建模方法主要有以下兩種:
關系建模
關系建模是用實體關系(EntityRelationship,ER)模型描述企業業務,它在范式理論上符合3NF,出發點是整合數據,將各個系統中的數據以整個企業角度按主題進行相似性組合和合并,并進行一致性處理,為數據分析決策服務,但是并不能直接用于分析決策。
用戶在關系建模過程中,可以從以下三個層次去設計關系模型,這三個層次是逐層遞進的,先設計概念模型,再進一步細化設計出邏輯模型,最后設計物理模型。
- 概念模型 :是從用戶的視角,主要從業務流程、活動中涉及的主要業務數據出發,抽象出關鍵的業務實體,并描述這些實體間的關系。
- 邏輯模型 :是概念模型的進一步細化,通過實體、屬性和關系勾勒出企業的業務信息藍圖,是IT和業務人員溝通的橋梁。邏輯數據模型是一組規范化的邏輯表結構,邏輯數據模型是根據業務規則確定的,關于業務對象、業務對象的數據項及業務對象之間關系的基本藍圖。
- 物理模型 :是在邏輯數據模型的基礎上,考慮各種具體的技術實現因素,進行數據庫體系結構設計,真正實現數據在數據庫中的存放,例如:所選的數據倉庫是DWS或MRS_Hive。
維度建模
維度建模是從分析決策的需求出發構建模型,它主要是為分析需求服務,因此它重點關注用戶如何更快速地完成需求分析,同時具有較好的大規模復雜查詢的響應性能。
多維模型是由數字型度量值組成的一張事實表連接到一組包含描述屬性的多張維度表,事實表與維度表通過主/外鍵實現關聯。
典型的維度模型有星形模型,以及在一些特殊場景下使用的雪花模型。
在DataArts Studio數據架構中,維度建模是以維度建模理論為基礎,構建總線矩陣、抽象出事實和維度,構建維度模型和事實模型,同時對報表需求進行抽象整理出相關指標體系,構建出匯總模型。
數據架構總覽
在DataArts Studio控制臺首頁,選擇對應工作空間的“數據架構”模塊,進入數據架構頁面,查看“總覽”,詳見下圖:數據架構總覽。

我的待辦
- 顯示“我的申請”和“待我審核”的數量。
- 單擊每一項上面統計數量將分別跳轉到“我的申請”和“待我審核”頁面。
資產概覽
- 顯示數據架構中所有對象的總量。
- 單擊每個對象名稱后的統計數量將跳轉的該對象的管理頁面。
快捷入口
顯示數據架構數據治理方法的整體流程。單擊流程下的具體操作,可以跳轉到對應的界面。
數據架構流程
- 顯示數據架構流程以及與DataArts Studio其他模塊間的交互關系。關于數據架構流程的詳細描述,請參見 數據架構使用流程。
- 將鼠標移至流程圖上的對象名稱之上,頁面上將顯示對象的描述信息。
- 對于DataArts Studio已支持的對象,單擊對象名稱,可跳轉至該對象的管理頁面。
數據架構信息架構
信息架構是以結構化的方式描述在業務運作和管理決策中所需要的各類信息及其關系的一套整體組件規范。在數據架構的“信息架構”頁面,可以查看和管理所有的表,包括業務表、維度表、事實表、匯總表等資源。
在DataArts Studio控制臺首頁,選擇對應工作空間的“數據架構”模塊,進入數據架構頁面,查看“信息架構”。
在信息架構頁面,可以執行以下操作:
- 搜索
在“信息架構”列表右上方,單擊“高級搜索”,設置表名、類型、數據源等篩選條件,然后單擊“搜索”可以查找指定的表,單擊“表名稱”,可以進入表的詳情頁面,查看表的詳細信息。
- 新建
單擊“新建”,可以新建業務表-邏輯模型、業務表-物理模型、維度表、事實表和匯總表。創建的過程可以參見邏輯模型設計、物理模型設計、新建維度、新建事實表、新建匯總表。
- 導入
單擊“更多 > 導入”,當前僅支持導入業務表。下載表導入模板,填寫模板后,先添加再上傳,上傳成功后,然后單擊“關閉”。有關導入業務表的更多信息,請參見導入導出表。
- 導出
單擊“更多 > 導出”,可以導出業務表-物理模型或DDL。有關導出的更多信息,請參見導入導出表章節中的“導出表或DDL”。
- 同步
單擊“更多 > 同步”,可以同步表到數據目錄,作為技術資產;同步邏輯模型到數據目錄,作為業務資產。
- 修改主題
單擊“更多 > 修改主題”,可以將選中的表更改到其它主題。
- 刪除
單擊“更多 > 刪除”,可以刪除數據表,其中待發布,已發布和待下線狀態的數據表不可被刪除。且數據被引用的數據表不可被刪除。
- 下線
單擊“更多 > 下線”,可以下線已發布且不帶下展的數據表。數據被引用的數據表不支持下線。
說明“帶下展”,指待發布后又重新編輯的數據。
- 發布
單擊“發布”,可發布數據表。待發布、待下線、已發布(不帶下展)狀態的數據表不支持發布。
- 關聯質量規則
單擊“關聯質量規則”,配置下圖所示的相關參數,完成質量規則的關聯。有關關聯質量規則的更多信息,您也可以參考關聯質量規則。

生成異常數據:勾選此項,表示異常數據將按照配置的參數存儲到規定的庫中。