操作場景
CDM支持遷移文檔數據庫服務(Document Database Service,簡稱DDS)的數據到其他數據源,這里以數據倉庫服務(Data Warehouse Service,簡稱DWS)為例,介紹如何使用CDM將DDS數據遷移到DWS,流程如下:
1.創建CDM集群并綁定EIP
2.創建DDS連接
3.創建DWS連接
4.創建遷移作業
前提條件
- 已DWS/DDS。
- 已獲取DWS/DDS數據庫的IP地址、端口、數據庫名稱、用戶名、密碼,且該用戶擁有DWS/DDS數據庫的讀、寫和刪除權限。
創建CDM集群并綁定EIP
1.參考創建CDM集群,創建CDM集群。
關鍵配置如下:
- CDM集群的規格,按待遷移的數據量選擇,一般選擇cdm.medium即可,滿足大部分遷移場景。
- 如果DDS和DWS屬于相同的VPC,則創建CDM集群時選擇同一個VPC,不用綁定EIP。子網、安全組可以選擇與其中一個(DDS或DWS)集群的保持一致,再配置安全組規則允許CDM集群訪問另一個服務(DWS或DDS)的集群。
- 如果DDS和DWS不在同一個VPC,則創建CDM集群時選擇與DDS相同的VPC,再將CDM集群 解綁/綁定集群的EIP,CDM通過EIP訪問DWS集群。
2.CDM集群創建完成后,選擇集群操作列的“綁定彈性IP”,CDM通過EIP訪問DWS。如果DDS與DWS在同一個VPC,則不用為CDM集群綁定EIP。
說明如果用戶對本地數據源的訪問通道做了SSL加密,則CDM無法通過彈性IP連接數據源。
創建DDS連接
1.單擊CDM集群后的“作業管理”,進入作業管理界面,再選擇“連接管理 > 新建連接”,進入選擇連接器類型的界面。
2.連接器類型選擇“文檔數據庫服務(DDS)”后單擊“下一步”配置連接參數,參數說明如下表所示。
表DDS連接參數
| 參數名 | 說明 | 取值樣例 |
|---|---|---|
| 名稱 | 根據連接的數據源,用戶自定義便于記憶、區分的連接名稱。 | mongo_link |
| 服務器列表 | DDS集群的地址列表,輸入格式為“數據庫服務器域名或IP地址:端口”。多個服務器列表間以“;”分隔。 | 192.168.0.1:7300;192.168.0.2:7301 |
| 數據庫名稱 | 要連接的DDS數據庫名稱。 | DB_mongodb |
| 用戶名 | 登錄DDS數據庫的用戶名。 | cdm |
| 密碼 | 登錄DDS數據庫的密碼。 | - |
3.單擊“保存”回到連接管理界面。
創建DWS連接
1.單擊CDM集群后的“作業管理”,進入作業管理界面,再選擇“連接管理 > 新建連接”,進入選擇連接器類型的界面。
2.連接器類型選擇“數據倉庫服務(DWS)”后單擊“下一步”配置DWS連接參數,必填參數如下表所示,可選參數保持默認即可。
表 DWS連接參數
| 參數名 | 說明 | 取值樣例 |
|---|---|---|
| 名稱 | 輸入便于記憶和區分的連接名稱。 | dwslink |
| 數據庫服務器 | DWS數據庫的IP地址或域名。 | 192.168.0.3 |
| 端口 | DWS數據庫的端口。 | 8000 |
| 數據庫名稱 | DWS數據庫的名稱。 | db_demo |
| 用戶名 | 擁有DWS數據庫的讀、寫和刪除權限的用戶。 | dbadmin |
| 密碼 | 用戶的密碼。 | - |
| 使用Agent | 是否選擇通過Agent從源端提取數據。 | 是 |
| Agent | 單擊“選擇”,選擇管理Agent章節中的連接Agent中已創建的Agent。 | - |
3.單擊“保存”完成創建連接。
創建遷移作業
1.選擇“表/文件遷移 > 新建作業”,開始創建數據遷移任務。
2.配置作業基本信息:
- 作業名稱:輸入便于記憶、區分的作業名稱。
- 源端作業配置
- 源連接名稱:選擇創建DDS連接中的“mongo_link”。
?數據庫名稱:選擇待遷移數據的數據庫。
?集合名稱:DDS中MongoDB的集合,類似于關系型數據庫中的表名。
- 目的端作業配置
?目的連接名稱:選擇創建DWS連接中的連接“dwslink”。
?模式或表空間:選擇待寫入數據的DWS數據庫。
?表名:待寫入數據的表名,可以手動輸入一個不存在表名,CDM會在DWS中自動創建該表。
?導入前清空數據:任務啟動前,是否清除目的表中數據,用戶可根據實際需要選擇。
3.單擊“下一步”進入字段映射界面,CDM會自動匹配源端和目的端的數據表字段,需用戶檢查字段映射關系是否正確。
- 如果字段映射關系不正確,用戶單擊字段所在行選中后,按住鼠標左鍵可拖拽字段來調整映射關系。
- 導入到DWS時需要手動選擇DWS的分布列,建議按如下順序選取:
a.有主鍵可以使用主鍵作為分布列。
b.多個數據段聯合做主鍵的場景,建議設置所有主鍵作為分布列。
c.在沒有主鍵的場景下,如果沒有選擇分布列,DWS會默認第一列作為分布列,可能會有數據傾斜風險。
- 如果需要轉換源端字段內容,可在該步驟配置,這里選擇不進行字段轉換。
4.單擊“下一步”配置任務參數,一般情況下全部保持默認即可。
該步驟用戶可以配置如下可選功能:
- 作業失敗重試:如果作業執行失敗,可選擇是否自動重試,這里保持默認值“不重試”。
- 作業分組:選擇作業所屬的分組,默認分組為“DEFAULT”。在CDM“作業管理”界面,支持作業分組顯示、按組批量啟動作業、按分組導出作業等操作。
- 是否定時執行:如果需要配置作業定時自動執行,請參見 配置定時任務。這里保持默認值“否”。
- 抽取并發數:設置同時執行的抽取任務數。這里保持默認值“1”。
- 是否寫入臟數據:如果需要將作業執行過程中處理失敗的數據、或者被清洗過濾掉的數據寫入OBS中,以便后面查看,可通過該參數配置,寫入臟數據前需要先配置好OBS連接。這里保持默認值“否”即可,不記錄臟數據。
- 作業運行完是否刪除:這里保持默認值“不刪除”。
5.單擊“保存并運行”,回到作業管理界面,在作業管理界面可查看作業執行進度和結果。
6.作業執行成功后,單擊作業操作列的“歷史記錄”,可查看該作業的歷史執行記錄、讀取和寫入的統計數據。
在歷史記錄界面單擊“日志”,可查看作業的日志信息。