DataArts Studio數據集成是一種高效、易用的數據集成服務,圍繞大數據遷移上云和智能數據湖解決方案,提供了簡單易用的遷移能力和多種數據源到數據湖的集成能力,降低了客戶數據源遷移和集成的復雜性,有效的提高您數據遷移和集成的效率。
數據集成即云數據遷移(Cloud Data Migration,后簡稱CDM)服務,本文中的“云數據遷移”、“CDM”均指“數據集成”。
您可以通過以下方式之一進入CDM主界面:
- 登錄CDM控制臺,單擊“集群管理”,進入到CDM主界面。
- 登錄DataArts Studio控制臺。選擇對應工作空間的“數據集成”模塊,進入CDM主界面。
選擇數據集成詳見下圖

云數據遷移簡介
云數據遷移基于分布式計算框架,利用并行化處理技術,支持用戶穩定高效地對海量數據進行移動,實現不停服數據遷移,快速構建所需的數據架構。
數據集成定位詳見下圖

產品功能
- 表/ 文件/ 整庫遷移
支持批量遷移表或者文件,還支持同構/異構數據庫之間整庫遷移,一個作業即可遷移幾百張表。
- 增量數據遷移
支持文件增量遷移、關系型數據庫增量遷移、HBase/CloudTable增量遷移,以及使用Where條件配合時間變量函數實現增量數據遷移。
- 事務模式遷移
支持當CDM作業執行失敗時,將數據回滾到作業開始之前的狀態,自動清理目的表中的數據。
- 字段轉換
支持去隱私、字符串操作、日期操作等常用字段的數據轉換功能。
- 文件加密
在遷移文件到文件系統時,CDM支持對寫入云端的文件進行加密。
- MD5校驗一致性
支持使用MD5校驗,檢查端到端文件的一致性,并輸出校驗結果。
- 臟數據歸檔
支持將遷移過程中處理失敗的、被清洗過濾掉的、不符合字段轉換或者不符合清洗規則的數據單獨歸檔到臟數據日志中,便于用戶查看。并支持設置臟數據比例閾值,來決定任務是否成功。
CDM遷移原理
用戶使用CDM服務時,CDM管理系統在用戶VPC中發放全托管的CDM實例。此實例僅提供控制臺和Rest API訪問權限,用戶無法通過其他接口(如SSH)訪問實例。這種方式保證了CDM用戶間的隔離,避免數據泄漏,同時保證VPC內不同云服務間數據遷移時的傳輸安全。用戶還可以使用VPN網絡將本地數據中心的數據遷移到云服務,具有高度的安全性。
CDM數據遷移以抽取-寫入模式進行。CDM首先從源端抽取數據然后將數據寫入到目的端,數據訪問操作均由CDM主動發起,對于數據源(如RDS數據源)支持SSL時,會使用SSL加密傳輸。遷移過程要求用戶提供源端和目的端數據源的用戶名和密碼,這些信息將存儲在CDM實例的數據庫中。保護這些信息對于CDM安全至關重要。CDM遷移原理詳見下圖
