功能特性
更新時間 2024-02-19 11:22:07
最近更新時間: 2024-02-19 11:22:07
分享文章
本章節主要介紹數據湖探索(DLI)的功能特性。
功能介紹
DLI用戶可以通過可視化界面、Restful API、JDBC、Beeline等多種接入方式對云上RDS和DWS等異構數據源進行查詢分析,數據格式兼容CSV、JSON、Parquet和ORC主流數據格式。
三大基本功能
- SQL作業支持SQL查詢功能:可為用戶提供標準的SQL語句。
- Flink作業支持Flink SQL在線分析功能:支持Window、Join等聚合函數、地理函數、CEP函數等,用SQL表達業務邏輯,簡便快捷實現業務。
- Spark作業提供全托管式Spark計算特性:用戶可通過交互式會話(session)和批處理(batch)方式提交計算任務,在全托管Spark隊列上進行數據分析。
多數據源分析
- Spark跨源連接:可通過DLI訪問DWS,RDS和CSS等數據源。
- Flink跨源支持與多種云服務連通,形成豐富的流生態圈。數據湖探索的流生態分為云服務生態和開源生態:
- 云服務生態:數據湖探索在Flink SQL中支持與其他服務的連通。用戶可以直接使用SQL從這些服務中讀寫數據。
- 開源生態:通過增強型跨源連接建立與其他VPC的網絡連接后,用戶可以在數據湖探索的租戶獨享隊列中訪問所有Flink和Spark支持的數據源與輸出源,如Kafka、Hbase、ElasticSearch等。
存算分離
用戶將數據存儲到OBS后,DLI可以直接和OBS對接進行數據分析。存算分離的架構下,使得存儲資源和計算資源可以分開申請和計費,降低了成本并提高了資源利用率。
存算分離場景下,DLI支持OBS在創建桶時數據冗余策略選擇單AZ或者多AZ存儲,兩種存儲策略區別如下:
- 選擇多AZ存儲,數據將冗余存儲至多個AZ中,可靠性更高。選擇多AZ存儲的桶,數據將存儲在同一區域的多個不同AZ。當某個AZ不可用時,仍然能夠從其他AZ正常訪問數據,適用于對可靠性要求較高的數據存儲場景。建議優選使用多AZ存儲的策略。
- 選擇單AZ存儲,數據僅存儲在單個AZ中,但相比多AZ更加便宜。
DLI核心引擎:Spark+Flink
- Spark是用于大規模數據處理的統一分析引擎,聚焦于查詢計算分析。DLI在開源Spark基礎上進行了大量的性能優化與服務化改造,不僅兼容Apache Spark生態和接口,性能較開源提升了2.5倍,在小時級即可實現EB級數據查詢分析。
- Flink是一款分布式的計算引擎,可以用來做批處理,即處理靜態的數據集、歷史的數據集;也可以用來做流處理,即實時地處理一些實時數據流,實時地產生數據的結果。DLI在開源Flink基礎上進行了特性增強和安全增強,提供了數據處理所必須的Stream SQL特性。
DLI服務架構:Serverless
DLI是無服務器化的大數據查詢分析服務,其優勢在于:
- 自動擴縮容:根據業務負載,對計算資源進行預估和自動擴縮容。
如何訪問DLI
服務平臺提供了Web化的服務管理平臺,既可以通過管理控制臺和基于HTTPS請求的API(Application programming interface)管理方式來訪問DLI,又可以通過JDBC客戶端連接DLI服務端。
- 管理控制臺方式
提交SQL作業、Spark作業或Flink作業,均可以使用管理控制臺方式訪問DLI服務。
- API方式
如果用戶需要將云平臺上的DLI服務集成到第三方系統,用于二次開發,可以使用API方式訪問DLI服務。