質量作業可將創建的規則應用到建好的表中進行質量監控。
前提條件
在DataArts Studio控制臺數據質量模塊,“數據質量監控 > 質量作業”頁面創建歸屬目錄。基于某個數據連接創建質量作業,需要選擇作業歸屬目錄,請參見下圖創建歸屬目錄。
新建質量作業的歸屬目錄

下表是導航欄按鍵說明
| 序號 | 說明 |
|---|---|
| 1 | 新建目錄。 |
| 2 | 刷新目錄。 |
| 3 | 選擇目錄,單擊右鍵,可新建目錄、刪除目錄和對目錄重命名。 |
配置流程
- 在DataArts Studio控制臺首頁,選擇實例,點擊“進入控制臺”,選擇對應工作空間的“數據質量”模塊,進入數據質量頁面。
詳見下圖:選擇數據質量

- 選擇“數據質量監控 > 質量作業”。
- 單擊“新建”,在彈出的對話框中,參見下表配置相關參數。
| 序號 | 說明 |
|---|---|
| 1 | 新建目錄。 |
| 2 | 刷新目錄。 |
| 3 | 選擇目錄,單擊右鍵,可新建目錄、刪除目錄和對目錄重命名。 |
- 單擊“下一步”,進入規則配置頁面。您需要點擊規則卡片中的

,然后參見下表配置數據質量規則。默認規則配置完成后,您也可選擇繼續添加更多的質量規則,創建完成后單擊下一步,即可將創建的所有規則應用到已建好的庫或表中。
詳見下圖:打開質量作業規則配置

下表是配置模板規則
| 添加方式 | 配置 | 說明 |
|---|---|---|
| 基本信息 | 子作業名稱 | 在作業的執行結果中,每條規則對應一個子作業。為便于結果查看和日志定位,建議您補充子作業信息。 |
| 基本信息 | 描述 | 為更好的識別子作業,此處加以描述信息。 |
| 來源對象 | 規則類型 | 包括庫級規則、表級規則、字段級規則、跨字段級規則和自定義規則,自定義規則可針對表中的具體字段配置監控規則。 |
| 來源對象 | 數據連接 | 來源對象/目的對象支持的數據源類型:DWS,MRS Hive,DLI,ORACLE、RDS(MySQL、PostgreSQL)。 從下拉列表中選擇已創建的數據連接。 說明 規則都是基于數據連接的,所以在建立數據質量規則之前需要先到管理中心模塊中建立數據連接。 針對通過代理連接的MRS HIVE,需要選擇MRS API方式或者代理方式提交: MRS API方式:通過MRS API的方式提交。歷史作業默認是MRS API提交,編輯作業時建議不修改。 代理方式:通過用戶名、密碼訪問的方式提交。新建作業建議選擇代理提交,可以避免權限問題導致的作業提交失敗。 |
| 來源對象 | 數據庫 | 選擇配置的數據質量規則所應用到的數據庫。 說明 數據庫基于已建立的數據連接。 當“規則類型”選擇“庫級規則”,數據對象選擇對應的數據庫即可。 |
| 來源對象來源對象 | 數據表 | 選擇配置的數據質量規則所應用到的表。 說明 數據表與數據庫強相關,基于已選擇的數據庫。 當“規則類型”選擇“表級規則”,數據對象選擇對應的數據表。 |
| 來源對象 | SQL | 當“規則類型”選擇“自定義規則”時,需要配置該參數。此處需輸入完整的SQL語句,定義如何對數據對象進行數據質量監控。 |
| 來源對象 | 失敗策略 | 選擇是否勾選“忽略規則錯誤”。 |
| 來源對象 | 選擇字段 | 當“規則類型”選擇“字段級規則”,需要配置該參數。此處選擇對應數據表中的字段。 說明 數據質量字段級別校驗不支持對字段名為單個字母(例如:a,b,c,d...等)的字段進行校驗。 |
| 來源對象 | 參考數據對象 | 當“規則類型”選擇“跨字段級規則”,需要配置該參數。此處選擇參考的數據字段。 |
| 來源對象 | 維度 | 當“規則類型”選擇“自定義規則”時,需要配置該參數。將該自定義規則與質量六性(完整性、有效性、及時性、一致性、準確性、唯一性)進行關聯。 |
| 計算引擎 | 集群名稱 | 選擇運行質量作業的引擎。僅數據連接為DLI類型時,此參數有效。 |
| 規則模板 | 模板名稱 | 選擇系統內置的或者用戶自定義的規則模板。 說明 模板類型與規則類型強相關,詳情請參見新建規則模板章節中的 系統內置的規則模板一覽表。除去系統內置規則模板外,您也可關聯在新建規則模板中新建的自定義模板。 |
| 規則模板 | 版本 | 僅“模板名稱”選擇為自定義的規則模板時,需要配置該參數。自定義的規則模板發布后,會產生對應的版本號,此處選擇所需的版本。 |
| 規則模板 | 權重 | 設置規則的權重,支持按照字段級別設置權重。權重范圍:【1-9】,整數。默認值為5。 |
| 計算范圍 | 選擇掃描區域 | 支持選擇“全表掃描”或“條件掃描”,默認為全表掃描。 當僅需計算一部分數據,或需周期性按時間戳運行質量作業時,建議通過設置where條件進行條件掃描。 |
| 計算范圍 | where條件 | 輸入where子句,系統會選擇符合條件的數據進行掃描。 例如需要篩選數據表中“age”字段在(18, 60]區間范圍內的數據時,where條件可設置為如下內容: age > 18 and age <= 60 where條件還支持輸入為SQL動態表達式,例如當需要根據“time”字段篩選數據表中24小時前的數據時,where條件可設置為如下內容: time >= (date_trunc('hour', now()) - interval '24 h') and time <= (date_trunc('hour', now())) |
| 告警條件 | 告警表達式 | 此參數可選,如果您需要針對當前規則設定告警條件,則可以在此配置告警條件的表達式。如果您需要通過多條規則的邏輯運算統一設置告警條件的表達式,此處無需設置,可在下一步的告警配置中統一設置。 配置規則的告警條件后,系統通過“告警參數”的值,結合告警條件進行真假判斷,如果結果為真則進行告警。另外,除了單一告警表達式的結果,您還可以通過邏輯運算符組成組成更復雜的告警條件進行告警。當前表達式中支持如下邏輯運算符,且可以通過“(”和“)”進行包圍: +:相加 -:相減 *:相乘 /:相除 ==:等于 !=:不等于 >:大于 <:小于 >=:大于等于 <=:小于等于 !:非 ll:或 &&:與 例如,“規則模板”為“字段空值”時,您可以參考如下樣例進行配置: 需要配置字段空值大于10時告警,則此處可設置為“ {1}>10”,其中“ {1}”為通過告警參數配置的“空值行數”。需要配置有字段空值率大于80%時告警,則此處可設置為“ {3}>0.8”,其中“ {3}”為通過告警參數配置的“空值率”。需要配置字段空值大于10或字段空值率大于80%時告警,則此處可設置為“( {1}>10)ll ( {3}>0.8)”,其中“ {1}”和“ {3}”分別為通過告警參數配置的“空值行數”和“空值率”,“ll”表示滿足兩個條件之一即會告警。 |
| 告警條件 | 告警參數 | 此參數來源于規則模板的輸出結果。您可以單擊界面顯示的參數從而輸入告警表達式中的告警參數,單擊后系統會在“告警表達式”輸入框給出參數的表達式。 例如“規則模板”為“字段空值”時,點擊告警參數“空值行數”,在“告警表達式”輸入框會顯示為“${1}”。 |
| 告警條件 | 邏輯運算符 | 可選,本參數支持將單一告警表達式的結果進行邏輯運算,組成更復雜的告警條件。 您可以將鼠標光標放在“告警表達式”輸入框處需要進行邏輯運算的兩個告警表達式之間,然后單擊輸入如下之一運算符。另外,您也可以手動輸入,當前表達式中支持如下邏輯運算符,且可以通過“(”和“)”進行包圍: +:相加 -:相減 *:相乘 /:相除 ==:等于 !=:不等于 >:大于 <:小于 >=:大于等于 <=:小于等于 !:非 ll:或 &&:與 例如,“規則模板”為“字段空值”,需要配置字段空值大于10或字段空值率大于80%時告警,則“告警表達式”可設置為“( {1}>10)ll ( {3}>0.8)”,其中“ {1}”和“ {3}”分別為通過告警參數配置的“空值行數”和“空值率”,“ll”表示滿足兩個條件之一即會告警。 |
| 告警條件 | 質量評分 | 當“規則類型”選擇“自定義規則”時,需要配置該參數。 |
| 告警條件 | 生成異常數據 | 開啟“生成異常數據”開關,單擊“選擇庫表”可將質量作業中不符合設定規則的異常數據存儲在異常表中。 說明 自定義模板不支持生成異常數據,自定義規則可通過自定義異常表SQL生成異常數據。 系統內置模板,“表級規則”中的“表行數”模板。“字段級規則”中的“字段平均值”、“字段匯總值”、“字段最大值”、“字段最小值”模板不支持生成異常數據。 當質量作業設置周期調度或重跑時,每次實例運行的掃描的異常數據會持續插入該異常表。建議您定期到該數據湖中清理異常表數據,避免異常數據表超大帶來的成本與性能問題。 |
| 告警條件 | 異常表 | 單擊選擇庫表,可以配置輸出表名的前后綴。 |
| 告警條件 | 輸出配置 | 輸出規則配置:勾選,則可在異常表中顯示質量作業的配置信息,方便查看異常數據產生的源頭。 輸出空值:勾選,則當空值不滿足設定規則時,可在異常表中輸出空值。 |
| 告警條件 | 異常數據數量 | 可選擇輸出全部的異常數據,或者設定數量的異常數據。 |
| 告警條件 | 異常表SQL | 當“規則類型”選擇“自定義規則”時,需要配置該參數。此處需輸入完整的SQL語句,指定輸出哪些數據是異常數據。 |
| 告警條件 | 查看相同規則 | 單擊,創建質量作業時, 能夠根據表和字段判斷規則的重復性。 提示已存在相關子規則和質量作業,您可看到已有規則。 |
| 計算范圍 | 選擇掃描區域 | 用來確定所配置的某條規則應檢查的范圍。 勾選全表掃描,則遍歷所有表。 勾選條件掃描,輸入where條件后,精確定位分區查詢數據,不需要全表掃描查詢。 |
- 單擊“下一步”,設置告警配置信息。如果您在上一步的規則配置中已配置告警表達式,此處會自動帶出已配置的表達式;如果未配置,則您可在此進行配置。多條(2條及以上)子規則時,則可以選擇如下兩種告警配置方式之一進行配置:
a.支持通過子規則的告警條件,分別上報告警。
b.將子規則之間的告警參數值通過數學運算和邏輯運算,設置一個統一的告警條件表達式來表示作業是否告警。
當前表達式中支持如下邏輯運算符,且可以通過“(”和“)”進行包圍:
? +:相加
? -:相減
? *:相乘
? /:相除
? ==:等于
? !=:不等于
? >:大于
? <:小于
? >=:大于等于
? <=:小于等于
? !:非
? ||:或
? &&:與
- 單擊“下一步”,設置訂閱配置信息,如果需要接收SMN通知,打開通知狀態,選擇通知類型和SMN服務主體。
- 單擊“下一步”,選擇調度方式,支持單次調度和周期調度兩種方式,周期調度的相關參數配置請參見表下表。配置完成后單擊“提交”。
說明
單次調度會產生手動任務的實例,手動任務的特點是沒有調度依賴,只需要手動觸發即可。
周期調度會產生周期實例,周期實例是周期任務達到啟用調度所配置的周期性運行時間時,被自動調度起來的實例快照。
周期任務每調度一次,便生成一個實例工作流。您可以對已調度起的實例任務進行日常的運維管理,如查看運行狀態,對任務進行終止、重跑等操作。
只有支持委托提交作業的MRS集群,才支持質量作業周期調度。支持委托方式提交作業的MRS集群有:
MRS的非安全集群。
MRS的安全集群,集群版本大于 2.1.0,并且安裝了MRS 2.1.0.1以上的補丁。
下表是配置周期調度參數
| 參數名 | 說明 |
|---|---|
| 生效日期 | 調度任務的生效日期。 |
| 調度周期 | 選擇調度任務的執行周期,并配置相關參數。 -分鐘 -小時 -天 -周 說明 調度周期選擇分鐘/小時,需配置調度的開始時間、間隔時間和結束時間。開始時間目前支持設置到分鐘級別,進行錯峰調度。 調度周期選擇天,需要配置調度時間,即確定了調度任務于每天的幾時幾分啟用。 調度周期選擇周,需要配置生效時間和調度時間,即確定了調度任務于周幾的幾時幾分啟用。 |
導出質量作業
系統支持批量導出質量作業,一次最多可導出200個質量作業。
- 選擇“數據質量監控 > 質量作業”,選擇要導出的質量作業。
- 單擊“導出”,彈出“導出質量作業”對話框。
- 單擊“導出”,切換到“導出記錄”頁簽。
- 在導出文件列表中,單擊最新導出文件對應的“下載”,可將質量作業的Excel表格下載到本地。
導入質量作業
系統支持批量導入質量作業,一次最大可導入1M數據的文件,并且最多200個質量作業。
- 選擇“數據質量監控 > 質量作業”,單擊“導入”,彈出“導入質量作業”對話框。

- 在“導入配置”頁簽,選擇模板名稱重名策略。
- 終止:如果質量作業名稱有重復,則全部導入失敗。
- 跳過:如果質量作業名稱有重復,會忽略后繼續導入。
- 覆蓋:如果質量作業名稱有重復,會覆蓋現有同名作業。
- 單擊“上傳文件”,選擇準備好的數據文件。
說明可通過如下兩種方式填寫數據文件:
(推薦使用)通過“導出”功能,可將數據直接/或修改后批量導入系統。
通過“下載Excel模板”,將數據填寫好,再導入至系統中。
- 分別配置數據連接、集群、目錄、主題的映射資源信息。

- 數據連接:選擇導入后的數據連接類型。
- 集群:如果數據連接類型是DLI,需要選擇對應的隊列。
- 目錄:選擇導入后的質量作業存儲目錄。
- 主題:如果配置了消息通知,需要選擇主題。
- 單擊“導入”,將填好的Excel表格模板導入到系統。
- 單擊“導入記錄”頁簽,可查看對應的導入記錄。
{1}>10”,其中“
{1}”為通過告警參數配置的“空值行數”。
{3}>0.8”,其中“
{3}”為通過告警參數配置的“空值率”。
{1}>10)ll (