結構化數據的分類分級是產品核心能力。在本模塊,您可以為數據源管理模塊中匯總的數據源綁定分類分級任務,批量調度任務的執行周期和執行次數,查看、確認和導出分類分級結果。
該模塊包括數據打標以及結果發布兩個子模塊,其中共性功能包括:
每個模塊的列表展示了分類分級任務的各種狀態和配置信息,展示字段包括:任務名稱、模版、數據源名稱、梳理狀態、審核進度、審核員、最近審核時間等。用戶可以點擊列表右上角<列設置>,來控制每列的顯示/隱藏狀態。其中:
資產統計:該分類分級任務涉及的表數、字段數和梳理率;
梳理輪次:該分類分級任務的已梳理輪次(總輪數取決于數據量,以及任務打標方式中設置的每輪打標數量)、上輪新增梳理字段(“梳理字段”指字段的分類分級結果經過了人工確認);
執行周期:分類分級任務支持按照特定周期自動執行,默認為手動執行、不限制執行次數,用戶可以通過點擊操作列<任務編輯>或任務列表上方的<批量調度>按鈕進行設置;
執行狀態:分為待執行、執行中、完成、失敗;
審核模式:
審核驗收模式開啟(僅審核員審核):未提交、審核中、審核打回、待發布、發布中、已發布;
審核驗收模式開啟(審核員審核+驗收員審核):未提交、審核中、審核打回、驗收中、驗收打回、待發布、發布中、已發布;
審核驗收模式關閉:未提交、待發布、發布中、已發布。
注意
該模塊默認僅啟動數據打標、結果發布功能頁面,若要啟用任務分配、結果審核以及結果驗收功能頁面,需登錄SysAdmin賬號,進入“系統管理 > 安全設置”頁面,單擊“審核驗收模式”開關并在右側下拉框選擇“審核員審核+驗收員審核”,啟動任務分配、結果審核與結果驗收功能;下拉框中選擇“僅審核員審核”,僅啟動任務分配、結果審核功能。
使用限制
分類分級任務默認僅啟動數據打標、結果發布功能;
若要啟用任務分配、結果審核以及結果驗收功能頁面,需登錄SysAdmin賬號,進入“系統管理 > 安全設置”頁面,單擊“審核驗收模式”開關并在右側下拉框選擇“審核員審核+驗收員審核”,啟動任務分配、結果審核與結果驗收功能;下拉框中選擇“僅審核員審核”,僅啟動任務分配、結果審核功能。
任務分配
任務分配功能能夠將分類分級任務分配給指定的打標員,每個打標員只能看到自己分配的任務。
1.使用安全管理員賬號登錄數據分類分級實例。
2.在左側導航欄選擇“分類分級任務 > 結構化數據”即可進入“結構化數據”頁面,在頁面上方選擇“任務分配”頁簽。
3.單擊頁面左上角的“分配任務”按鈕,在彈出的窗口中填寫相關參數。
| 參數 | 參數說明 | 填寫樣例 |
|---|---|---|
| 任務名稱 | 填寫任務名稱。 | Test |
| 數據源 | 選擇所需數據源;數據源來自數據源管理中添加的數據源,已添加分類分級任務的數據源無法再次添加分類分級任務; 系統默認選擇最新添加且尚未被添加分類分級任務的數據源。 | - |
| 行業模板 | 顯示選中數據源對應的行業模板;該模板與新增數據源時設置的行業模板保持一致,如需修改,請至數據源管理頁面編輯對應數據源配置。 | - |
| 打標員 | 顯示所有用戶名+角色標簽;用戶手動選擇時,沒有數據分類分級任務執行權限的用戶置灰、無法選中,鼠標懸浮提示“無數據分類分級任務執行權限”。 | - |
4.填寫完成后單擊“確認” ,即可完成分類分級任務分配。
注意
審核驗收模式開啟后,數據打標頁的“新增”按鈕將被隱藏,并啟動任務分配頁面,有分配權限的用戶可以使用分配任務、批量分配、刪除任務功能;若審核驗收模式關閉,“新增”按鈕恢保持可見,并關閉任務分配頁面。
數據打標
新增分類分級任務
1.使用安全管理員賬號登錄數據分類分級實例。
2.在左側導航欄選擇“分類分級任務 > 結構化數據”即可進入“結構化數據”頁面。
3.在頁面上方選擇“數據打標”頁簽,進入數據打標頁。
4.單擊頁面左上角的“新增”按鈕,開始新增分類分級任務。
| 配置內容 | 說明 |
|---|---|
| 任務名稱 | 填寫任務名稱。 |
| 數據源 | 選擇所需數據源;數據源來自數據源管理中添加的數據源,已添加分類分級任務的數據源無法再次添加分類分級任務; 系統默認選擇最新添加且尚未被添加分類分級任務的數據源。 |
| 行業模板 | 顯示選中數據源對應的行業模板;該模板與新增數據源時設置的行業模板保持一致,如需修改,請至數據源管理頁面編輯對應數據源配置。 |
| 抽樣策略 | 填寫每張表抽取數據數量(默認值100條,可設置100–1000之間的整數),設置一個較小的數值,有利于提升掃描性能; |
| 執行邏輯 | 選擇執行邏輯,用戶可以選擇使用規則/模型/框架掃描,默認勾選規則掃描和框架掃描;使用模型掃描或框架掃描時,支持設置置信度,使得字段分類分級結果的置信度超過該數值時,字段梳理狀態自動從“未梳理”變更為“已梳理” |
| 打標方式 | 選擇打標方式
該模式為表打標模式,具體如下: 表打標模式:按照系統推薦的數據表順序,對系統自動打標結果進行批量梳理和確認,用戶可以設置每輪打標數量(默認值100張,可設置1-1000之間的整數)。 |
| 執行周期和執行次數 | 執行周期:指數據源同步的周期,可選項包括手動執行(默認狀態)、每天、每周、每月。當周期為“每天”時,可以設置具體執行時間(精確到分鐘);當周期為“每周”“每月”時,可以設置具體的執行日期和時間(精確到分鐘); 執行次數:默認為“手動執行”;支持自定義執行次數。其中,“0”表示已執行次數,“1”表示自定義執行次數。 |
5.填寫完成后單擊“保存”,即可新建分類分級任務。
執行分類分級任務
選擇需要執行的分類分級任務,單擊“操作”列“開始執行”,或勾選若干任務后單擊任務列表上方的“批量執行”按鈕。
說明
- 選擇的任務狀態不能為執行中;
審核進度只能是未提交或已發布;
上述兩個條件中任意一條不滿足,全局提示“選擇的任務狀態不能為執行中或審核發布中”;
建議在數據源管理頁面中的數據源同步后,再執行分類分級任務;未同步的數據源因尚未獲取相關數據,無法真正開啟分類分級流程,系統日志將提示“[XX掃描異常]:請先同步數據源信息”,并自動開始同步數據源,分類分級任務列表中任務執行狀態變更為“同步中”。
分類分級預測
開始執行分類分級任務后,任務會進入分類分級預測狀態中。
分類分級預測中,系統將根據任務編輯中設置的執行邏輯,執行規則匹配、模型分析或框架解析中的一種或若干種掃描邏輯。
掃描中,系統會自動預測字段的分類分級結果。您可以單擊頁面底部的“結果查看”,查看當前分類分級結果。若字段A的分類分級預測結果滿足特定要求(如置信度高于閾值),則其梳理狀態自動變更為“已梳理”,字段A不會進入第二步人工校驗打標的推薦打標列表。
分類分級預測完成后,單擊頁面底部的“下一步”,可進入人工校驗打標環節。
人工校驗打標
系統將根據任務編輯中設置的打標方式及每輪打標數量,按照算法推薦順序呈現一定數量的數據表(“推薦表模式”)或字段(“推薦列模式”)。
人工校驗打標頁面包括任務進度總覽、搜索區、數據表目錄、字段列表、分類分級打標區五部分;
處理完當前表中的所有字段后,自動切換至下一張表;
用戶可以點擊數據表目錄或點擊表上方“<”“>”圖標,手動切換其他表格;
快速打標操作:
1.選中字段:單擊字段所在行(推薦列模式)或字段左側勾選框(推薦表模式),選中字段;
2.快速打標:單擊推薦打標標簽,分類、分級輸入框聯動填入相應信息并自動確認,完成快速打標;
3.手動修改:支持手動修改分類分級結果,修改完成后需單擊“確認”,修改生效。
延遲打標操作:
當選擇內置小模型分析進行分類分級任務時,即可觸發延遲打標功能,延遲打標的操作步驟如下:
1.定位字段:若字段分類分級結果為空,鼠標移動到字段所在行,行右端顯示“延遲打標”;
2.標記延遲打標:單擊“延遲打標”,分類分級列自動填充“延遲打標”標簽(延遲打標字段屬于已處理字段,但仍然不屬于已梳理字段);
3.取消延遲打標:選中字段后快速打標或手動打標,自動取消延遲打標標記;若用戶在結果查看頁修改單個字段的分類分級結果,該字段的延遲打標標記也會自動取消。
說明
您隨時可以通過頁面右上角的“延遲打標字段數”按鈕,查看延遲打標的真實字段數及字段詳情。
其中,若表A中所有字段均被賦予分類分級結果或標記為延遲打標,則后續幾輪人工校驗打標中系統不再推送表A。
打標上下文支持:
界面提供的打標上下文信息主要來自元數據關鍵信息和系統預測結果兩方面。
1.元數據關鍵信息包括但不限于字段列表中的字段名/注釋、表名/注釋、數據樣本;用戶可以使用字段名/注釋、表名/注釋等搜索項,對系統本輪推薦的全部字段進行查詢。
2.系統預測結果可以作為打標參考,有以下兩類來源:
第一步分類分級預測中置信度未達到設置閾值的結果,如模型掃描預測、框架掃描預測、規則掃描預測。前三類提供置信度最高的三個參考結果;
該字段所屬表內常用的分類分級結果,按使用率降序排列,便利用戶根據表內其他字段的打標結果,反推本字段的打標結果。
完成打標操作后,單擊“下一步”進入打標糾錯環節。
打標結果糾錯
在結果糾錯操作中,您需要對系統發現的疑似存在潛在錯誤的字段分類分級結果做最終確認,。
初始結果列是字段的原打標結果,“規則”“框架”“模型”“恒腦”“聚類”等標簽對應該結果的識別方式。糾錯結果列,系統默認提供一個推薦糾錯結果。糾錯方式如下:
1.若初始結果正確、默認糾錯結果錯誤:選中初始結果,單擊“操作”列的“確認”;
2.若初始結果錯誤、默認糾錯結果正確:選中糾錯結果,單擊“操作”列的“確認”;
3.若初始結果和當前糾錯結果均錯誤:單擊糾錯結果旁的修改圖標,在側邊彈窗中修改字段的分類、分級結果,并單擊“確認”,退出后系統自動選中糾錯結果,單擊“操作”列的“確認”;
4.批量糾錯:為字段A選中初始結果或糾錯結果后,系統會自動將字段A加入待確認名單,用戶可以單擊左上方“批量確認”按鈕,批量確認選擇結果;初始結果和糾錯結果列的表頭提供復選框,可用于使未確認結果的字段,快速全選初始結果或糾錯結果。
已確認的字段,其確認按鈕顯示“已確認”并置灰。已確認字段(如確認選擇默認糾錯結果)支持修改確認結果(如改為選擇初始結果或編輯了新的糾錯結果)并重新確認;修改后,若不確認,則以上一次確認的結果為準。
完成打標結果后,單擊頁面下方的“進入下一輪”重復上文中的操作直至出現“結束任務”按鈕完成打標任務。
分類分級結果提交
在確認完分類分級結果后,選擇需要提交的分類分級任務,單擊“操作”列的“更多”,選擇提交任務,或勾選分類分級任務并單擊“批量提交”,即可將提交的任務結果自動同步到結果審核列表頁面。
說明
批量提交選擇的任務只能是“已梳理+審核進度未提交”或“已梳理+審核進度已發布,否則全局提示“選擇的任務狀態不能為未梳理或審核發布中”。在系統管理中未開啟結果審核功能時,成功提交后直接進入待發布狀態,后續通過結果發布實現進一步操作。
結果審核
基于數據打標提交的分類分級任務結果,管理員可以對分類分級任務結果進行審核。
1.使用安全管理員賬號登錄數據分類分級實例。
2.在左側導航欄選擇“分類分級任務 > 結構化數據”即可進入“結構化數據”頁面。
3.在頁面上方選擇“結果審核”頁簽,進入結果審核頁。
4.單擊“操作”列的“結果審核”按鈕,開始數據打標結果審核。
5.在“分類分級結果審核頁”,您可以查看搜索區、字段列表、新增錯誤類型區、編輯區、任務信息概覽五部分。
6.確認審核信息后,根據審核結果選擇“審核不通過”或“審核通過”。