數據對賬對于數據開發和數據遷移流程中的數據一致性至關重要,而跨源數據對賬的能力是檢驗數據遷移或數據加工前后是否一致的關鍵指標。
數據質量監控中的對賬作業支持跨源數據對賬能力,可將創建的規則應用到兩張表中進行質量監控,并輸出對賬結果。
前提條件
在DataArts Studio控制臺的數據質量模塊,“數據質量監控 > 對賬作業”頁面創建歸屬目錄。基于某個數據連接創建對賬作業,需要選擇作業歸屬目錄,請參見下圖創建歸屬目錄。

下表是目錄導航欄按鍵說明
| 序號 | 說明 |
|---|---|
| 1 | 新建目錄 |
| 2 | 刷新目錄 |
| 3 | 選擇目錄,單擊右鍵,可新建目錄、刪除目錄和對目錄重命名。 |
創建作業
1.在DataArts Studio控制臺首頁,選擇實例,點擊“進入控制臺”,選擇對應工作空間的“數據質量”模塊,進入數據質量頁面。

2.選擇“數據質量監控 > 對賬作業”。
3.單擊“新建”,在彈出的對話框中,參見下表配置相關參數。
| 參數名 | 說明 |
|---|---|
| 作業名稱 | 對賬作業的名稱,只能包含中文、英文字母、數字、“_”,且長度為1~64個字符。 |
| 描述 | 為更好的識別數據對賬作業 ,此處加以描述信息。描述信息長度不能超過256個字符。 |
| 所屬目錄 | 數據對賬作業的存儲目錄,可選擇已創建的目錄。 |
| 作業級別 | 支持提示,一般,嚴重和致命四種級別,作業級別決定發出通知消息的模板樣式。 |
4.單擊“下一步”,進入規則配置頁面。您需要點擊規則下圖中紅框內按鈕,然后參見以下表“配置模板規則”配置數據對賬規則。您也可選擇添加對賬規則。
打開對賬作業規則配置

配置模板規則
| 模塊 | 參數名 | 說明 |
|---|---|---|
| 基本信息 | 子作業名稱 | 在作業的執行結果中,每條規則對應一個子作業。為便于結果查看和日志定位,建議您補充子作業信息。 |
| 基本信息 | 描述 | 為更好的識別子作業,此處加以描述信息。 |
| 來源對象/目的對象 | 規則類型 | 來源對象的“規則類型”包括“表級規則”,“字段級規則”和“自定義規則”。字段級規則可針對表中的具體字段配置監控規則。此處選擇為表級規則,頁面中其他設置項對應為表級規則配置項。 目的對象的“規則類型”由來源對象的規則類型自動生成。 |
| 來源對象/目的對象 | 數據連接 | 來源對象/目的對象支持的數據源類型:DWS,MRS Hive,DLI,ORACLE、RDS(MySQL、PostgreSQL)。 從下拉列表中選擇已創建的數據連接。 說明 規則都是基于數據連接的,所以在建立數據質量規則之前需要先到管理中心模塊中建立數據連接。 針對通過代理連接的MRS HIVE,需要選擇MRS API方式或者代理方式提交: MRS API方式:通過MRS API的方式提交。歷史作業默認是MRS API提交,編輯作業時建議不修改。 代理方式:通過用戶名、密碼訪問的方式提交。新建作業建議選擇代理提交,可以避免權限問題導致的作業提交失敗。 |
| 來源對象/目的對象 | 數據對象 | 在來源對象選擇的數據表將和右側目的對象的數據表做結果比較。選擇配置的數據對賬規則所應用到的表。 說明 數據表與數據庫強相關,基于已選擇的數據庫。數據庫基于已建立的數據連接。 |
| 來源對象/目的對象 | SQL | 當“規則類型”選擇“自定義規則”時,需要配置該參數。此處需輸入完整的SQL語句,定義如何對數據對象進行數據質量監控。 |
| 計算引擎 | 集群名稱 | 選擇運行對賬作業的引擎。僅數據連接為DLI類型時,此參數有效。 |
| 規則模板 | 模板名稱 | 該參數定義如何對數據對象做數據質量監控。 來源對象的模板名稱包含內置的規則模板和用戶自定義的規則模板。 目的對象的“模板名稱”由來源對象的規則類型自動生成。 說明 模板類型與規則類型強相關,詳情請參見新建規則模板章節中的 系統內置的規則模板一覽表。除去系統內置規則模板外,您也可關聯在新建規則模板中新建的自定義模板。 |
| 規則模板 | 版本 | 僅“模板名稱”選擇為自定義的規則模板時,需要配置該參數。自定義的規則模板發布后,會產生對應的版本號,此處選擇所需的版本。 |
| 計算范圍 | 選擇掃描區域 | 支持選擇“全表掃描”或“條件掃描”,默認為全表掃描。 當僅需計算一部分數據,或需周期性按時間戳運行質量作業時,建議通過設置where條件進行條件掃描。 |
| 計算范圍 | where條件 | 輸入where子句,系統會選擇符合條件的數據進行掃描。 例如需要篩選數據表中“age”字段在(18, 60]區間范圍內的數據時,where條件可設置為如下內容:age > 18 and age <= 60 where條件還支持輸入為SQL動態表達式,例如當需要根據“time”字段篩選數據表中24小時前的數據時,where條件可設置為如下內容: time >= (date_trunc('hour', now()) - interval '24 h') and time <= (date_trunc('hour', now())) |
| 告警條件 | 告警表達式 | 此參數可選,如果您需要針對當前規則設定告警條件,則可以在此配置告警條件的表達式。 配置規則的告警條件后,系統通過“告警參數”的值,結合告警條件進行真假判斷,如果結果為真則進行告警。另外,除了單一告警表達式的結果,您還可以通過邏輯運算符組成組成更復雜的告警條件進行告警。當前表達式中支持如下邏輯運算符,且可以通過“(”和“)”進行包圍: +:相加 -:相減 *:相乘 /:相除 ==:等于 !=:不等于 >:大于 <:小于 >=:大于等于 <=:小于等于 !:非 ll:或 &&:與 例如,對賬作業的來源側和目的側的“規則模板”為“表行數”時,您可以參考如下樣例進行配置: 需要配置來源側表行數小于100時告警,則此處可設置為“ ${1_1} < 100”,其中“${1_1}”為通過告警參數配置的來源側表“總行數”。需要配置來源側表行數不等于目的側表行數時告警,則此處可設置為“ ${1_1}!=${2_1}”,其中“${1_1}”為通過告警參數配置的來源側表“總行數”,“${2_1}”為通過告警參數配置的目的側表“總行數”。需要配置來源側表行數小于100或來源側表行數不等于目的側表行數時告警,則此處可設置為“ (${1_1}<100)||(${1_1}!=${2_1})”,其中“${1_1}”和“${2_1}”分別為通過告警參數配置的來源側表和目的側表的“總行數”,“||”表示滿足兩個條件之一即會告警。 |
| 告警條件 | 告警參數 | 此參數來源于規則模板的輸出結果。您可以單擊界面顯示的參數從而輸入告警表達式中的告警參數,單擊后系統會在“告警表達式”輸入框給出參數的表達式。 例如“規則模板”為“表行數”時,點擊告警參數“總行數”,在“告警表達式”輸入框會顯示為“ ${1_1}”。 |
| 告警條件 | 邏輯運算符 | 可選,本參數支持將單一告警表達式的結果進行邏輯運算,組成更復雜的告警條件。 您可以將鼠標光標放在“告警表達式”輸入框處需要進行邏輯運算的兩個告警表達式之間,然后單擊輸入如下之一運算符。另外,您也可以手動輸入,當前表達式中支持如下邏輯運算符,且可以通過“(”和“)”進行包圍: +:相加 -:相減 *:相乘 /:相除 ==:等于 !=:不等于 >:大于 <:小于 >=:大于等于 <=:小于等于 !:非 ll:或 &&:與 例如,“規則模板”為“表行數”,需要配置來源側表行數小于100或來源側表行數不等于目的側表行數時告警,則此處可設置為“ (${1_1}<100)||(${1_1}!=${2_1})”,其中“${1_1}”和“${2_1}”分別為通過告警參數配置的來源側表和目的側表的“總行數”,“||”表示滿足兩個條件之一即會告警。 |
5.單擊“下一步”,設置訂閱配置信息,如果需要接收SMN通知,打開通知狀態,選擇通知類型和SMN服務主體,如下圖。
訂閱配置

6.單擊“下一步”,選擇調度方式,支持單次調度和周期調度兩種方式,周期調度的相關參數配置請參見下表“配置周期調度參數”。配置完成后單擊“提交”。
說明
單次調度會產生手動任務的實例,手動任務的特點是沒有調度依賴,只需要手動觸發即可。
周期調度會產生周期實例,周期實例是周期任務達到啟用調度所配置的周期性運行時間時,被自動調度起來的實例快照。
周期任務每調度一次,便生成一個實例工作流。您可以對已調度起的實例任務進行日常的運維管理,如查看運行狀態,對任務進行終止、重跑等操作。
只有支持委托提交作業的MRS集群,才支持對賬作業周期調度。支持委托方式提交作業的MRS集群有:
MRS的非安全集群。
MRS的安全集群,集群版本大于 2.1.0,并且安裝了MRS 2.1.0.1以上的補丁。
配置周期調度參數
| 參數名 | 說明 |
|---|---|
| 生效日期 | 調度任務的生效日期。 |
| 調度周期 | 選擇調度任務的執行周期,并配置相關參數。 分鐘 小時 天 周 說明 調度周期選擇分鐘/小時,需配置調度的開始時間、間隔時間和結束時間。 調度周期選擇天,需要配置調度時間,即確定了調度任務于每天的幾時幾分啟用。 調度周期選擇周,需要配置生效時間和調度時間,即確定了調度任務于周幾的幾時幾分啟用。 |
導出對賬作業
系統支持批量導出對賬作業,一次最多可導出200個對賬作業。
1.選擇“數據質量監控 > 對賬作業”,選擇要導出的對賬作業。
2.單擊“導出”,彈出“導出對賬作業”對話框。
3.單擊“導出”,切換到“導出記錄”頁簽。
4.在導出文件列表中,單擊最新導出文件對應的“下載”,可將質量作業的Excel表格下載到本地。
導入對賬作業
系統支持批量導入對賬作業,一次最大可導入1M數據的文件,并且最多200個對賬作業。
1.選擇“數據質量“監控” > 對賬作業”,單擊“導入”,彈出“導入對賬作業”對話框。

2.在“導入配置”頁簽,選擇模板名稱重名策略。
- 終止:如果對賬作業名稱有重復,則全部導入失敗。
- 跳過:如果對賬作業名稱有重復,會忽略后繼續導入。
- 覆蓋:如果對賬作業名稱有重復,會覆蓋現有同名作業。
3.單擊“上傳文件”,選擇準備好的數據文件。
說明
可通過如下兩種方式填寫數據文件:
- (推薦使用)通過“導出”功能,可將數據直接/或修改后批量導入系統。
- 通過“下載Excel模板”,將數據填寫好,再導入至系統中。
4.分別配置數據連接、集群、目錄、主題、的映射資源信息。單擊“導入”,將填好的Excel表格模板導入到系統。

- 數據連接:選擇導入后的數據連接類型。
- 集群:如果數據連接類型是DLI,需要選擇對應的隊列。
- 目錄:選擇導入后的對賬作業存儲目錄。
- 主題:如果配置了消息通知,需要選擇主題。
5.單擊“導入記錄頁簽”,可查看對應的導入記錄。