DataArts Studio支持的數據源
更新時間 2025-01-23 15:42:10
最近更新時間: 2025-01-23 15:42:10
分享文章
本章節主要介紹DataArts Studio支持的數據源。
在使用DataArts Studio前,您需要根據業務場景選擇符合需求的云服務或數據倉庫作為數據湖,用于存儲原始數據和數據治理過程中的數據,并進行數據開發、服務和運營。DataArts Studio集成了豐富的數據引擎,支持對接如DLI、DWS、MRS Hive等云上數據湖與數據庫云服務,也支持對接企業傳統數據庫,例如MySQL、PostgreSQL等。
DataArts Studio支持的數據源
DataArts Studio支持的數據源可分為“數據集成組件支持的數據源”和“DataArts Studio其他組件支持的數據源”。
- 數據集成組件支持的數據源。數據集成組件需要集成源數據到數據湖中,因此支持的數據源范圍更廣。
數據集成支持的數據源請參見 支持的數據源。注意,如需在數據集成中使用這些數據源,請先在數據集成中創建對應的數據連接,這些數據連接僅限于在數據集成模塊中使用。
- DataArts Studio其他組件支持的數據源,即為DataArts Studio所支持的數據湖底座。
其他組件支持的數據源如下表所示,數據源的介紹請參見下方數據源簡介。注意,如需在其他組件中使用這些數據源,請先前往DataArts Studio管理中心控制臺創建數據連接,這些數據連接不能在數據集成模塊中使用。
詳見下表 DataArts Studio其他組件支持的數據源
| 數據源類型 | 管理中心 | 數據架構 | 數據開發 | 數據目錄[1] | 數據質量[2] | 數據服務 |
|---|---|---|---|---|---|---|
| 數據倉庫服務(DWS) | √ | √ | √ | √ | √ | √ |
| 數據湖探索(DLI) | √ | √ | √ | √ | √ | √ |
| MapReduce服務(MRS HBase) | √ | × | × | √ | × | × |
| MapReduce服務(MRS Hive) | √ | √ | √ | √ | √ | × |
| MapReduce服務(MRS Kafka) | √ | × | √ | × | × | × |
| MapReduce服務(MRS Ranger) | √ | × | × | × | × | × |
| MySQL | √ | × | × | × | √ | √ |
| MapReduce服務(MRS Spark) | √ | × | √ | × | √ | × |
| 云數據庫RDS(MySQL) | √ | × | √ | √ | √ | √ |
| 云數據庫RDS(PostgreSQL) | √ | √ | √ | √ | √ | × |
| 主機連接 | √ | × | √ | × | × | × |
| MapReduce服務(MRS Presto) | √ | × | √ | × | × | × |
注釋 :
[1] 數據目錄: 數據目錄組件除了上表中列出的數據源外,還支持采集以下數據源的元數據:
- 關系型數據庫如MySQL/PostgreSQL/達夢數據庫DM等(可使用RDS類型連接,采集其元數據)
- 云搜索服務CSS
- 圖引擎服務GES
- 對象存儲服務OBS
[2] 數據質量 :數據質量組件中的質量作業和對賬作業功能不支持對接MRS集群存算分離的場景。
數據源簡介
數據源簡介
| 數據源類型 | 簡介 |
|---|---|
| 數據倉庫服務(DWS) | DWS是基于Shared-nothing分布式架構,具備MPP大規模并行處理引擎,兼容標準ANSI SQL 99和SQL 2003,同時兼容PostgreSQL/Oracle數據庫生態,為各行業PB級海量大數據分析提供有競爭力的解決方案。 |
| 數據湖探索(DLI) | DLI是完全兼容Apache Spark和Apache Flink生態,實現批流一體的Serverless大數據計算分析服務。DLI支持多模引擎,企業僅需使用SQL或程序就可輕松完成異構數據源的批處理、流處理、內存計算、機器學習等,挖掘和探索數據價值。 |
| MapReduce服務(MRS HBase) | HBase是一個開源的、面向列(Column-Oriented)、適合存儲海量非結構化數據或半結構化數據的、具備高可靠性、高性能、可靈活擴展伸縮的、支持實時數據讀寫的分布式存儲系統。 使用MRS HBase可實現海量數據存儲,并實現毫秒級數據查詢。選擇MRS HBase可以實現物流數據毫秒級實時入庫更新,并支持百萬級時序數據查詢分析。 |
| MapReduce服務(MRS Hive) | Hive是一種可以存儲、查詢和分析存儲在Hadoop中的大規模數據的機制。Hive定義了簡單的類SQL查詢語言,稱為HiveQL,它允許熟悉SQL的用戶查詢數據。 使用MRS Hive可實現TB/PB級的數據分析,快速將線下Hadoop大數據平臺(CDH、HDP等)遷移上云,業務遷移 “0”中斷,業務代碼 “0”改動。 |
| MapReduce服務(MRS Kafka) | MapReduce服務可提供專屬MRS Kafka集群。Kafka是一個分布式的、分區的、多副本的消息發布-訂閱系統,它提供了類似于JMS的特性,但在設計上完全不同,它具有消息持久化、高吞吐、分布式、多客戶端支持、實時等特性,適用于離線和在線的消息消費,如常規的消息收集、網站活性跟蹤、聚合統計系統運營數據(監控數據)、日志收集等大量數據的互聯網服務的數據收集場景。 |
| MapReduce服務(MRS Ranger) | Ranger提供一個集中式安全管理框架,提供統一授權和統一審計能力。它可以對整個Hadoop生態中如HDFS、Hive、HBase、Kafka、Storm等進行細粒度的數據訪問控制。用戶可以利用Ranger提供的前端WebUI控制臺通過配置相關策略來控制用戶對這些組件的訪問權限。 |
| MySQL | MySQL是目前最受歡迎的開源數據庫之一,其性能卓越,架構成熟穩定,支持流行應用程序,適用于多領域多行業,支持各種WEB應用,成本低,中小企業首選。 |
| MapReduce服務(MRS Spark) | Spark是一個開源的,并行數據處理框架,能夠幫助用戶簡單的開發快速、統一的大數據應用,對數據進行協處理、流式處理、交互式分析等等。 Spark提供了一個快速的計算、寫入以及交互式查詢的框架。相比于Hadoop,Spark擁有明顯的性能優勢。Spark提供類似SQL的Spark SQL語言操作結構化數據。 |
| 云數據庫RDS | RDS是一種基于云計算平臺的即開即用、穩定可靠、彈性伸縮、便捷管理的在線關系型數據庫服務。 注意,DataArts Studio平臺目前僅支持RDS中的MySQL和PostgreSQL數據庫。 |
| 主機連接 | 通過主機連接,用戶可以在DataArts Studio數據開發中連接到指定的主機,通過腳本開發和作業開發在主機上執行Shell或Python腳本。主機連接保存連接某個主機的連接信息,當主機的連接信息有變化時,只需在主機連接管理中編輯修改,而不需要到具體的腳本或作業中逐一修改。 |
| MapReduce服務(MRS Presto) | Presto是一個開源的用戶交互式分析查詢的SQL查詢引擎,用于針對各種大小的數據源進行交互式分析查詢。其主要應用于海量結構化數據/半結構化數據分析、海量多維數據聚合/報表、ETL、Ad-Hoc查詢等場景。 Presto允許查詢的數據源包括Hadoop分布式文件系統(HDFS),Hive,HBase,Cassandra,關系數據庫甚至專有數據存儲。一個Presto查詢可以組合不同數據源,執行跨數據源的數據分析。 |