數據清洗
數據清洗可對原始數據進行異常清洗、文本過濾、去重以及隱私信息去除等操作,解決數據規范性、合規性、一致性及重復等問題,提升數據質量,優化模型訓練效果。
數據準備
目前只支持對指令微調類型的標注數據集進行清洗,數據清洗前,請先到「我的數據集-標注數據集」模塊下,創建「大語言-SFT-指令微調」類型的數據集。詳見標注數據集
新建數據清洗任務
從清洗任務列表點擊【新建清洗任務】到新建頁面,填寫任務名稱、選擇數據集、配置字段和算子后提交即可。
處理前數據:僅支持指令微調類型的標注數據集,可點擊【前往導入數據集】,跳轉至「我的數據集」模塊創建數據集。
處理后數據:系統自動新建數據集。
處理數據集字段:默認全選,可自行勾選要清洗的數據集字段。
算子選擇:可選擇刪除敏感信息、刪除無效字符、長度過濾三種清洗算子,可根據數據集內容和實際需求進行開啟或關閉。
集群:選擇所屬集群。
隊列:選擇支持的隊列。
算力申請:
資源規格:默認8C 16G
master節點:管理節點,用于分配數據清洗任務,默認為1。
worker節點:負責執行具體的數據清洗任務,默認為1,可根據數據集大小調整節點數量,節點數量越多清洗任務速度越快,一般小規模數據集節點為1即可。
數據清洗任務管理
通過該模塊功能,可以對數據清洗任務進行管理,包括查看任務詳情、查看結果、刪除、重新啟動等操作。
主要操作項:
查看任務詳情:點擊任務名稱,可跳轉至「數據清洗任務詳情」頁面,點擊【清洗日志】,可查看具體任務日志記錄。
查看數據來源/數據流向:點擊兩個字段下的數據集名稱,即可跳轉至我的數據集頁面,于「標注數據集」分類下,會自動篩選出對應的數據集。
查看結果:點擊跳轉至我的數據集頁面,于「標注數據集」分類下,會自動篩選出結果數據集,清洗完成的數據集為導入完成狀態。
復制:點擊可復制當前數據清洗任務,任務名稱自動變更。
日志:點擊可直接跳轉至任務詳情頁中「清洗日志」分類下。
刪除清洗任務:點擊【刪除】后,確定刪除即可。
重新啟動:當任務被手動終止,或者清洗任務失敗,可點擊重新啟動任務。
終止任務:提交任務后,可手動終止對應清洗任務。
后續操作:
數據清洗任務完成后,可將清洗后的數據集用于模型精調、訓練等任務。