什么是DLI
數據湖探索(Data Lake Insight,簡稱DLI)是完全兼容Apache Spark、Apache Flink生態,提供一站式的流處理、批處理、交互式分析的Serverless融合處理分析服務。用戶不需要管理任何服務器,即開即用。支持標準SQL/Spark SQL/Flink SQL,支持多種接入方式,并兼容主流數據格式。數據無需復雜的抽取、轉換、加載,使用SQL或程序就可以對云上CloudTable、RDS、DWS、CSS、OBS、ECS自建數據庫以及線下數據庫的異構數據進行探索。
DLI支持哪些數據格式
DLI支持如下數據格式:
- Parquet
- CSV
- ORC
- Json
- Avro
DLI中的Spark組件與MRS中的Spark組件有什么區別?
DLI服務的Spark組件是全托管式服務,用戶對Spark組件不感知,僅僅可以使用該服務,且接口為封裝式接口。
MRS服務Spark組件的是建立在客戶的購買MRS服務所分配的虛機上,用戶可以根據實際需求調整及優化Spark服務,支持各種接口調用。
DLI的數據可存儲在哪些地方
DLI服務的數據可存儲在如下地方:
- OBS:SQL作業,Spark作業,Flink作業使用的數據均可以存儲在OBS服務中,降低存儲成本。
- DLI:DLI內部使用的是列存的Parquet格式,即數據以Parquet格式存儲。存儲成本較高。
- 跨源作業可將數據存儲在對應的服務中,目前支持CloudTable,CSS,DCS,DDS,DWS,MRS,RDS等。
DLI表與OBS表的區別
- DLI表表示數據存儲在本服務內部,用戶不感知數據存儲路徑。
- OBS表表示數據存儲在用戶自己賬戶的OBS桶中,源數據文件由用戶自己管理。
- DLI表相較于OBS表提供了更多權限控制和緩存加速的功能,性能相較于外表性能更好,但是會收取存儲費用。
不上傳數據到OBS,如何使用DLI
當前DLI只支持對云上數據分析,數據還是要傳到云上,用戶可以折中處理:將待分析的數據脫敏后上傳到OBS臨時存放,分析完之后將結果導出使用,同時將OBS臨時存放數據刪除。
該方法主要適用于定期(如每天)對增量數據一次性分析統計,然后利用分析結果支撐業務的場景。
對頻繁需要分析的數據,還是建議將數據上傳到云上。
DLI是否支持導入其他租戶共享OBS桶的數據?
支持,但有限制。
在DLI中,同一個租戶下子賬戶共享OBS桶中的數據是支持導入的,但是租戶級別共享OBS桶中的數據無法導入。
Failed to create the database. {"error_code":"DLI.1028";"error_msg":"Already reached the maximum quota of databases:XXX". 提示配額不足,如何處理?
怎樣查看我的配額
-
登錄管理控制臺。
-
單擊頁面右上角的“My Quota”圖標 。
系統進入“服務配額”頁面。
-
您可以在“服務配額”頁面,查看各項資源的總配額及使用情況。
如果當前配額不能滿足業務要求,請參考后續操作,申請擴大配額。
如何申請擴大配額?
目前系統暫不支持在線調整配額大小。如您需要調整配額,請撥打熱線或發送郵件至客服,客服會及時為您處理配額調整的需求,并以電話或郵件的形式告知您實時進展。
在撥打熱線或發送郵件之前,請您準備好以下信息:
- 帳號名,獲取方式如下:
登錄云帳戶管理控制臺,在右上角單擊帳戶名,選擇“我的憑證”,在“我的憑證”頁面獲取“帳號名”。
- 配額信息,包括:服務名、配額類別、需要的配額值。
全局變量的使用中,一個子賬號是否可以使用其他子賬號創建的全局變量
全局變量可用于簡化復雜參數。例如,可替換長難復雜變量,提升SQL語句可讀性。
全局變量的使用具有以下約束限制:
- 只有創建全局變量的用戶才可以使用對應的變量。
- 只有創建全局變量的用戶才可以修改對應的變量。
- 只有創建全局變量的用戶才可以刪除對應的變量。