數據質量支持對離線數據的監控,質量規則是數據質量的核心。DataArts Studio系統內置的模板規則共計25種,分為庫級規則、表級規則、字段級規則和跨字段級規則等規則類型,如下表所示。
系統內置的規則模板一覽表
| 規則類型 | 維度 | 模板名稱 | 說明 |
|---|---|---|---|
| 庫級 | 完整性 | 數據庫空值掃描 | 計算數據庫中所有表字段的空值行數。 |
| 表級 | 準確性 | 表行數 | 計算數據表的總行數。 |
| 表級 | 完整性 | 數據表空值掃描 | 計算數據表中所有表字段的空值行數。 |
| 字段級 | 唯一性 | 字段唯一值 | 計算數據表中指定字段的唯一值行數。 |
| 字段級 | 唯一性 | 字段重復值 | 計算數據表中指定字段的重復值行數。 |
| 字段級 | 唯一性 | 多字段唯一性校驗 | 校驗DWS表中多個字段的組合是否唯一,最多支持10個字段的組合。 |
| 字段級 | 完整性 | 字段空值 | 計算數據表中指定字段的空值行數。 |
| 字段級 | 準確性 | 字段平均值 | 計算數據表中指定字段的平均值。 |
| 字段級 | 準確性 | 字段匯總值 | 計算數據表中指定字段的匯總值。 |
| 字段級 | 準確性 | 字段最大值 | 計算數據表中指定字段的最大值。 |
| 字段級 | 準確性 | 字段最小值 | 計算數據表中指定字段的最小值。 |
| 字段級 | 準確性 | 字段長度校驗 | 通過輸入字段長度范圍,校驗DWS表中字段是否在允許范圍內。 |
| 字段級 | 準確性 | 字段值范圍校驗 | 通過輸入字段值范圍,校驗DWS表中字段值是否在允許范圍內。 |
| 字段級 | 準確性 | 字段時間校驗 | 通過輸入字段時間范圍,校驗DWS表中字段時間是否在允許范圍內。 注意,當前僅支持DATE和TIMESTAMP類型的字段,不支持TIME格式。 |
| 字段級 | 有效性 | 身份證校驗 | 通過內置的正則表達式規則,校驗數據表中指定字段的合法情況。 |
| 字段級 | 有效性 | 郵箱校驗 | 通過內置的正則表達式規則,校驗數據表中指定字段的合法情況。 |
| 字段級 | 有效性 | 正則表達式校驗 | 通過輸入自定義的正則表達式,校驗數據表中指定字段的合法情況。 |
| 字段級 | 有效性 | IP地址校驗 | 通過內置的正則表達式規則,校驗數據表中指定字段的合法情況。 |
| 字段級 | 有效性 | 電話格式校驗 | 通過內置的正則表達式規則,校驗數據表中指定字段的合法情況。 |
| 字段級 | 有效性 | 郵編格式校驗 | 通過內置的正則表達式規則,校驗數據表中指定字段的合法情況。 |
| 字段級 | 有效性 | 日期格式校驗 | 通過內置的正則表達式規則,校驗數據表中指定字段的合法情況。 |
| 字段級 | 有效性 | 合法性校驗 | 通過輸入自定義的正則表達式,校驗數據表中指定字段的合法情況。 |
| 字段級 | 有效性 | 枚舉值校驗 | 通過輸入自定義的枚舉值,校驗數據表中指定字段的合法情況。 |
| 跨字段級 | 一致性 | 字段一致性校驗 | 針對相同數據源的不同字段,校驗數據表中指定字段是否與參考字段一致。 |
| 跨字段級 | 準確性 | 跨字段時間校驗 | 針對相同DWS數據源的不同字段,通過輸入大小關系符號,校驗數據表中指定字段是否與參考字段的時間大小關系是否符合預期。 注意,當前僅支持DATE和TIMESTAMP類型的字段,不支持TIME格式。 |
當系統內置規則模板不足以滿足您的需求,您可根據實際需要創建規則。目前創建規則的方式包括規則模板和自定義規則:
- 自定義模板:在“數據質量監控 > 規則模板”處,新建規則模板。新建的規則模板系統會自動劃分為對應的規則類型,為區分系統內置模板,顯示為自定義模板。當前質量作業應用自定義模板時,不支持進行異常數據輸出和質量評分。
- 自定義規則:在創建質量作業時,“規則類型”選擇為“自定義規則”,然后您可以通過輸入完整的SQL語句,定義如何對數據對象進行數據質量監控。
本文以新建自定義模板為例,說明如何創建規則。
1.選擇“數據質量監控 > 規則模板”,單擊“新建”,在彈出的新建規則模板頁面中進行配置。
詳見下圖:新建規則模板

2.在彈出的新建規則模板頁面中輸入規則模板名稱,選擇規則匹配的維度,定義SQL模板并對輸出結果進行說明。
- 維度:數據質量支持從完整性、有效性、及時性、一致性、準確性、唯一性六個維度進行單列、跨列、跨行和跨表的分析。自定義質量規則時,請對此規則進行維度匹配。
- 定義關系:輸入SQL語句,實現對數據的查找。
? 樣例:統計表行數,輸入 select count(${Column1}) from ${Schema_Table1}。其中 ${Column1}通過單擊“添加字段參數”生成, ${Schema_Table1} 通過單擊“添加庫表參數”生成。
- 輸出結果說明:對SQL獲得結果的每一列進行說明,列說明之間用逗號進行分隔。
? 樣例:當定義關系設置為,select max(${Column1}),min(${Column2}) from ${Schema_Table1},則輸出結果說明為“最大值,最小值”。結果說明應該與
關系定義的輸出結果順序一一對應。
詳見下圖:配置規則模板

3.單擊“確定”后,系統默認發布此規則模板,版本名稱默認為V1.0。
管理規則模板
自定義規則模板不支持直接修改已發布的歷史版本。當您有修改需求,可以通過發布新版本以修改規則模板,并可以選擇下線歷史版本且將待下線歷史版本關聯的作業遷移到新版本上。具體請參見如下操作。
1.選擇“數據質量監控 > 規則模板”,在規則模板列表中找到待修改的規則模板,單擊操作列的“發布”。
詳見下圖:發布規則模板

2.支持修改維度,修改輸出結果說明和重新定義關系。
3.單擊“發布新版本”,在提交發布對話框中,重新設置版本名稱,并確認發布。
詳見下圖:發布新版本

4.提交發布后,單擊操作列的“發布歷史”,可以查看該規則模板的發布記錄,支持查看變化信息、修改版本名稱、下線對應版本等。
詳見下圖:發布歷史界面

5.如需下線歷史版本,點擊歷史版本最右側的“下線”按鈕。
- 如果該版本沒有關聯作業,點擊確認即可下線。
- 如果該版本存在關聯作業,需要選擇遷移版本,將新版本與作業關聯后,點擊確認才能完成下線。
詳見下圖:遷移版本并下線

6.發布歷史處支持進行版本比對,直觀展示修改點。
詳見下圖:比對版本

導出規則模板
系統支持將自定義的規則模板批量導出,一次最多可導出200個規則模板。
1.選擇“數據質量監控 > 規則模板”,選擇要導出的自定義規則模板。
2.單擊“導出”,彈出“導出規則模板”對話框。
3.單擊“導出”,切換到“導出記錄”頁簽。
4.在導出文件列表中,單擊最新導出文件對應的“下載”,可將規則模板的Excel表格下載到本地。
導入規則模板
系統支持將自定義的規則模板批量導入,一次最大可導入1M數據的文件,并且最多200個規則模板。
1.選擇“數據質量監控 > 規則模板”,單擊“導入”,彈出“導入規則模板”對話框。


2.在“導入配置”頁簽,選擇模板名稱重名策略。
- 終止:如果模板名稱有重復,則全部導入失敗。
- 跳過:如果模板名稱有重復,會忽略后繼續導入。
3.單擊“上傳文件”,選擇準備好的數據文件。
說明可通過如下兩種方式填寫數據文件:
(推薦使用)通過“導出”功能,可將數據直接/或修改后批量導入系統。
通過“下載Excel模板”,將數據填寫好再導入至系統中。
4.配置目錄的映射資源信息,選擇導入后的規則模板存儲目錄。

5.單擊“導入”,將填好的Excel表格模板導入到系統。
6.單擊“導入記錄”頁簽,可查看對應的導入記錄。