方案概述
更新時間 2023-06-08 01:17:19
最近更新時間: 2023-06-08 01:17:19
分享文章
本章節主要介紹通過數據地圖查看數據血緣關系的方案概述。
什么是數據血緣
大數據時代,數據爆發性增長,海量的、各種類型的數據在快速產生。這些龐大復雜的數據信息,通過聯姻融合、轉換變換、流轉流通,又生成新的數據,匯聚成數據的海洋。
數據的產生、加工融合、流轉流通,到最終消亡,數據之間自然會形成一種關系。我們借鑒人類社會中類似的一種關系來表達數據之間的這種關系,稱之為數據的血緣關系。與人類社會中的血緣關系不同,數據的血緣關系還包含了一些特有的特征:
- 歸屬性 :一般來說,特定的數據歸屬特定的組織或者個人,數據具有歸屬性。
- 多源性 :同一個數據可以有多個來源(多個父親)。一個數據可以是多個數據經過加工而生成的,而且這種加工過程可以是多個。
- 可追溯性 :數據的血緣關系,體現了數據的生命周期,體現了數據從產生到消亡的整個過程,具備可追溯性。
- 層次性 :數據的血緣關系是有層次的。對數據的分類、歸納、總結等對數據進行的描述信息又形成了新的數據,不同程度的描述信息形成了數據的層次。
詳見下圖:數據血緣關系示例

DataArts Studio數據血緣實現方案
- 數據血緣的產生:
在DataArtsStudio平臺,自動分析血緣是通過在數據開發模塊中配置數據處理遷移類型的節點產生的,當前支持采集節點靜態配置產生的血緣和部分節點實例上的血緣。詳情請參見 配置數據血緣章節中的 自動分析血緣。
另外,DataArtsStudio平臺還支持手動配置血緣方式,當用戶手動配置血緣時,自動分析血緣將不生效。詳情請參見 配置數據血緣章節中的 手動配置血緣。
- 數據血緣的展示:
當數據開發模塊中的作業已完成血緣關系配置后,啟動作業調度,并在數據目錄模塊進行元數據采集任務,則可以在數據目錄模塊可視化查看數據血緣關系。