操作場景
數據湖探索(DataLake Insight,簡稱DLI)提供大數據查詢服務,本章節介紹使用CDM將OBS的數據遷移到DLI,使用流程如下:
1.創建CDM集群
2.創建DLI連接
3.創建OBS連接
4.創建遷移作業
前提條件
- 已經開通了OBS和DLI,并且當前用戶擁有OBS的讀取權限。
- 已經在DLI服務中創建好資源隊列、數據庫和表。
創建CDM集群
參考創建CDM集群,創建CDM集群。
該場景下,如果CDM集群只是用于遷移OBS數據到DLI,不需要遷移其他數據源,則CDM集群所在的VPC、子網、安全組選擇任一個即可,沒有要求,CDM通過內網訪問DLI和OBS。主要是選擇CDM集群的規格,按待遷移的數據量選擇,一般選擇cdm.medium即可,滿足大部分遷移場景。
創建DLI連接
1.單擊CDM集群后的“作業管理”,進入作業管理界面,再選擇“連接管理 > 新建連接”,進入選擇連接器類型的界面。
2.連接器類型選擇“數據湖探索(DLI)”后單擊“下一步”,配置DLI連接參數,如下圖“創建DLI連接”所示。
- 名稱:用戶自定義連接名稱,例如“dlilink”。
- 訪問標識(AK)、密鑰(SK):訪問DLI數據庫的AK、SK。
- 項目ID:DLI所屬區域的項目ID。

3.單擊“保存”回到連接管理界面。
創建OBS連接
1.單擊CDM集群后的“作業管理”,進入作業管理界面,再選擇“連接管理 > 新建連接”,進入選擇連接器類型的界面。
詳見下圖:選擇連接器類型

2.連接器類型選擇“對象存儲服務(OBS)”后,單擊“下一步”配置OBS連接參數。
- 名稱:用戶自定義連接名稱,例如“obslink”。
- OBS服務器、端口:配置為OBS實際的地址信息。
- 訪問標識(AK)、密鑰(SK):登錄OBS的AK、SK。
3.單擊“保存”回到連接管理界面。
創建遷移作業
1.選擇“表/文件遷移 > 新建作業”,開始創建從OBS遷移數據到DLI的任務,如下圖“創建OBS到DLI的遷移任務”所示。

- 作業名稱:用戶自定義作業名稱。
- 源連接名稱:選擇創建OBS連接中的“obslink”。
?桶名:待遷移數據所屬的桶。
?源目錄或文件:待遷移數據的具體路徑。
?文件格式:傳輸文件到數據表時,這里選擇“CSV格式”或“JSON格式”。
?高級屬性里的可選參數保持默認,詳細說明請參見 配置OBS源端參數。
- 目的連接名稱:選擇創建DLI連接中的“dlilink”。
?資源隊列:選擇目的表所屬的資源隊列。
?數據庫名稱:寫入數據的數據庫名稱。
?表名:寫入數據的目的表。CDM暫不支持在DLI中自動創表,這里的表需要先在DLI中創建好,且該表的字段類型和格式,建議與待遷移數據的字段類型、格式保持一致。
?導入前清空數據:導入數據前,選擇是否清空目的表中的數據,這里保持默認“否”。
2.單擊“下一步”進入字段映射界面,CDM會自動匹配源和目的字段。
- 如果字段映射順序不匹配,可通過拖拽字段調整。
- CDM支持遷移過程中轉換字段內容。
3.單擊“下一步”配置任務參數,一般情況下全部保持默認即可。
該步驟用戶可以配置如下可選功能:
- 作業失敗重試:如果作業執行失敗,可選擇是否自動重試,這里保持默認值“不重試”。
- 作業分組:選擇作業所屬的分組,默認分組為“DEFAULT”。在CDM“作業管理”界面,支持作業分組顯示、按組批量啟動作業、按分組導出作業等操作。
- 是否定時執行:如果需要配置作業定時自動執行,請參見 配置定時任務。這里保持默認值“否”。
- 抽取并發數:設置同時執行的抽取任務數。這里保持默認值“1”。
- 是否寫入臟數據:如果需要將作業執行過程中處理失敗的數據、或者被清洗過濾掉的數據寫入OBS中,以便后面查看,可通過該參數配置,寫入臟數據前需要先配置好OBS連接。這里保持默認值“否”即可,不記錄臟數據。
- 作業運行完是否刪除:這里保持默認值“不刪除”。
4.單擊“保存并運行”,回到作業管理界面,在作業管理界面可查看作業執行進度和結果。
5.作業執行成功后,單擊作業操作列的“歷史記錄”,可查看該作業的歷史執行記錄、讀取和寫入的統計數據。
在歷史記錄界面單擊“日志”,可查看作業的日志信息。