數據目錄
更新時間 2023-12-07 10:58:12
最近更新時間: 2023-12-07 10:58:12
分享文章
本章節主要介紹數據目錄相關問題。
數據目錄組件有什么用?
數據目錄的核心是通過元數據采集任務,采集并展示企業的數據資產地圖,包括所有的元數據信息和數據血緣關系。
數據目錄支持采集哪些對象的資產?
數據目錄目前支持采集的資產有:數據倉庫服務(DWS)、MapReduce服務(MRS HBase)、MapReduce服務(MRS Hive)、MySQL、云數據庫 RDS(DataArts Studio僅支持MySQL和PostgreSQL數據庫)。
什么是數據血緣關系?
大數據時代,數據爆發性增長,海量的、各種類型的數據在快速產生。這些龐大復雜的數據信息,通過聯姻融合、轉換變換、流轉流通,又生成新的數據,匯聚成數據的海洋。
數據的產生、加工融合、流轉流通,到最終消亡,數據之間自然會形成一種關系。我們借鑒人類社會中類似的一種關系來表達數據之間的這種關系,稱之為數據的血緣關系。與人類社會中的血緣關系不同,數據的血緣關系還包含了一些特有的特征:
- 歸屬性 :一般來說,特定的數據歸屬特定的組織或者個人,數據具有歸屬性。
- 多源性 :同一個數據可以有多個來源(多個父親)。一個數據可以是多個數據經過加工而生成的,而且這種加工過程可以是多個。
- 可追溯性 :數據的血緣關系,體現了數據的生命周期,體現了數據從產生到消亡的整個過程,具備可追溯性。
- 層次性 :數據的血緣關系是有層次的。對數據的分類、歸納、總結等對數據進行的描述信息又形成了新的數據,不同程度的描述信息形成了數據的層次。
如圖所示數據血緣關系示例

數據目錄如何可視化展示數據血緣?
數據血緣展示,首先要需要有相關的作業調度,其次要進行元數據采集。