2022年10月16日,第二十次全國代表大會上的報告中提出:加快發展數字經濟,促進數字經濟和實體經濟深度融合,打造具有國際競爭力的數字產業集群。數據是數字經濟發展的關鍵要素,加快推進數據治理工作是保障數字經濟高質量發展的重要前提。
我國經過 30多年的信息化建設,企業和政府部門都圍繞著業務需求建設了眾多的業務系統,從而導致數據的種類和數量大增,看似積累了眾多的數據資產,實則在需要使用時,困難重重。
因為各個業務系統的建設都是圍繞著業務需求來建設的,當業務環境發生變化時,原來的業務系統不能互聯互通,不能滿足跨部門、跨職能、跨組織的協作需求。
各個業務系統所產生的海量數據以復雜而分散的形式存儲,導致數據之間的不一致和沖突等質量問題,從而導致數據在應用過程中的無所適從,難以實現數據的深度利用,從而難以實現業務模式創新和經營風險控制。
因此,企業需要通過系統性的數據治理工作,保證數據的可用性、一致性、完整性、合規性和安全性。確保在整個數據生命周期中,都具有較高的數據質量,將數據價值最大化。
企業和政府部門在使用數據過程中,往往面臨著以下幾類問題和痛點,而數據治理,就是從問題出發,通過平臺工具、數據標準、數倉建模、數據開發、API開發等工具和方法,解決一系列數據問題,實現數據的高可用和高價值。
1 數據孤島問題嚴重
(1)問題現狀
隨著企業和政府部門的不斷發展擴大,各業務模塊的信息化建設工作也在不斷完善。但由于信息化建設的不平衡,造成了“數據孤島”現象的產生。
單位內部不同的部門都有各自的數據,部門之間的數據往往都各自存儲,各自定義,形成不同的子系統。而子系統之間并未建立有效的數據交換服務,各業務系統數據描述標準不一,造成嚴重的數據不一致。各個子系統內所存儲占有的數據,就像一個個孤島,難以和其他數據進行連接互動,彼此無法兼容,大大制約了企業和政府部門業務和管理工作的順暢開展。
(2)數據治理解決方案
為了解決數據孤島問題,需要進行數據集成。通過數據中臺工具將數據從來源端經過抽取 (extract)、轉換 (transform)、加載 (load) 至目的端的過程,目的是將散落和零亂的數據集中存儲起來。
業務大數據來源多樣、要素關系分散,使得業務大數據呈現出跨時間、跨地域、跨模態、跨領域等特征,且碎片化、分散化。不同場景下的數據集可能是結構化的、半結構化的,非結構化的。不同結構的數據需要整合成統一的結構才能夠進行統計和分析。因此數據采集需要對分散在各部門、各系統、各層級等各類型的主題數據進行全方位匯聚。
數據集成是指按照統一的標準規范對多源數據分別采集匯集到統一的大數據平臺的過程。主要可分為數據接入、數據預處理、數據加載等環節。
2 缺乏統一的數據標準
(1)問題現狀
多數企業和政府部門在數據采集、數據資產編目和數據共享、應用開發等領域,缺少統一的數據標準等。沒有指導單位內各部門的業務形成一體化的信息化建設、應用、管理的格局。業務系統各自獨立、煙囪林立的分散狀態,系統對接、數據共享困難。無法將業界最新的技術優勢持續轉換為業務優勢和管理優勢,形成全局效應最大化。
(2)數據治理解決方案
設計一套符合單位業務特色的數據標準,保障業務數據的內外部使用與交換的一致性和準確性的規范性約束,包含數據集的術語、結構、組織,數據存儲,使用目的等。數據標準就是對數據的命名、數據類型、長度、業務含義、計算口徑、歸屬部門等,定義一套統一的規范,保證各業務系統對數據的統一理解、對數據定義和使用的一致性,提升數據質量,為后續業務發展、系統建設提供保障。
3數據融合共享困難
(1)問題現狀
基于單獨業務場景建設數據,相互之間數據不互通,導致不論是中間數據還是結果數據,可能只能被單個業務場景使用。其他業務場景有哪些數據,數據是否適用無法確認。數據無法有效融合共享,具體體現為:
解決問題范圍有限:因為數據不互通,對一個系統或業務的理解有限,無法最大化應用數據的價值。
效率不足:煙囪數據每次都穿透使用貼源數據,沒有公共數據沉淀,無法高效復用。每次都要重復開發,費時費力。
成本不可控:由于大量重復建設,在計算和存儲方面都有大量浪費,例如海量的監控數據,不知道存儲周期設定多久合適,按照存越久越好,造成價值發揮有限,卻花費大量實際成本。
(2)數據治理解決方案
通過設計、開發一套符合企業或政府部門業務特點的大數據倉庫,來解決數據融合共享困難的問題。數據倉庫建設的主要目標是有效地管理數據,有效地管理存儲和使用數據,確保數據一致,數據共享。便于業務管理及分析挖掘數據潛在價值。支撐當前及未來管理及分析應用。
4數據質量不高
(1)問題現狀
隨著企業和政府部門業務和規模的發展,數據類型、數據來源越來越豐富,數據量也隨之快速增長,各單位在數據管理工作和數據流程中面臨著越來越多的數據質量問題。數據問題產生于從數據輸入到數據存儲、管理、使用的各個環節。
數據質量問題可以總結為以下幾點:
數據不規范:因不同的業務系統是在不同的時期,基于不同的業務需求,由不同的廠商設計開發的,甚至很多業務沒有系統支持,大量數據通過手工填報、收集產生的,造成數據沒有按統一格式存儲。數據的內容、格式和展現形式,各不相同。
數據準確性不足:數據和信息的內容是否正確,有沒有無效數據、錯誤數據或超期數據等,沒有統一的校驗和保證。
數據唯一性無法保證:數據是否存在重復,或者數據的某些屬性是否重復無法識別和保證。重復數據是導致業務無法協同、流程無法追溯的重要因素,也是數據治理需要解決的最基本的數據問題。
數據完整性不足:存在數據缺失、丟失,或者不可用的情況。比如模型設計不完整、數據條目不完整、數據屬性不完整等情況。
數據一致性不足:數據的值在信息含義上存在沖突的情況。
(2)數據治理解決方案
通過建立質量保障體系,來解決、規避數據質量不高的問題,包括設計質量保障策略、建立質量稽核規則等。
質量保障策略
質量保障策略主要包括以下4部分內容:
1.數據完整性保障策略
2.數據準確性保障策略
3.數據一致性保障策略
4.數據及時性保障策略
質量稽核規則
要提升數據質量,需要以問題數據為切入點,注重問題的分析、解決、跟蹤、持續優化、知識積累,形成數據質量持續提升的閉環。
首先需要梳理和分析數據質量問題,摸清楚數據質量的現狀;然后針對不同的質量問題選擇適合的解決辦法,制定出詳細的解決方案;接著是問題的認責,追蹤方案執行的效果,監督檢查,持續優化;最后形成數據質量問題解決的知識庫,以供后來者參考。上述步驟不斷迭代,形成數據質量管理的閉環。
5數據難以利用
(1)問題現狀
企業和政府部門當前的業務系統是根據各個業務場景的需求,獨立構建非常多的數據接口與應用產品對接,來滿足各自的業務數據使用需求,造成大量接口的重復建設,修改、運維、監控的成本大。這種做法的問題具體體現在:
1) 數據分布碎片化,互通共享不足:各部門數據建設均聚焦于本部門業務,數據采集、數據管理、數據構成以及數據的應用模式具有典型的領域特征和私有化特征,數據相對封閉,跨部門、跨領域數據的互聯互通性差,數據整體呈碎片化分布。
2) 缺乏深度加工,數據利用不足:多數的數據服務于行政業務、日常統計等基礎應用,缺乏數據深度應用,難于為上層綜合應用提供有效支撐,無法滿足精準化管理的需求。
(2)數據治理解決方案
數據服務是支撐數據應用的重要支撐。學校數據資產只要形成數據服務被各業務部門、業務系統使用,才能體現價值。因此,需要構建可管理、可復用、可監控的統一標準下的數據服務體系,提供統一的 API 接口控制數據的流入及流出,通過數據服務體系快速對接業務系統或應用系統,提升效率。
6數據指標統計困難
(1)問題現狀
受限于數據孤島問題和數據質量問題,各部門日常工作中涉及到的業務指標存在著較多手工統計計算的情況,統計效率低,口徑一致性難以保證,指標數據很驗證共享和應用,發揮其業務價值。
因無法獲取指標數據或指標統計困難,直接影響到業務成果展示、業務分析和業務改進等工作的開展。
(2)數據治理解決方案
基于大數據倉庫的建設和完善,建立多級指標管理體系,為各部門提供統一的指標服務,實現指標口徑統一、查詢便捷、快速支撐業務分析和決策的目標,解決現實工作中數據獲取困難、統計混亂、口徑不一致、責任不清晰等問題。