數據安全專區-數據脫敏能力具有廣泛的數據庫支持、出色的性能和良好的可擴展性。它采用獨特的脫敏與水印/溯源算法,能夠高效處理敏感數據,實現去標識化和匿名化。多種處理方式如固定值替換、置空、亂序、保留統計特征等確保了在不改變現有業務邏輯的前提下,脫敏后的數據仍能保留原有業務邏輯特征。
數據安全專區支持軟硬件一體機或虛擬化部署(保證與生產環境和開發 第三方測試環境前后路由可達即可)。生產庫中的原始數據,經過數據脫敏清洗后離線分發至測試環境,所有敏感數據全部在內存中處理,可保證整個環節敏感數據不落地。
主要功能
敏感數據自動發現
數據脫敏系統內置多種發現規則,支持基于數據內容的識別,不僅依賴于用戶的元數據管理系統、字段名或字段注釋等信息。支持用戶基于自身需求自定義規則,實現對敏感數據的自動發現和標識。
同時數據脫敏系統可和數據分級分類平臺進行對接,可基于行業或法律法規對敏感數據進行分類分級與梳理,便于用戶按照不同級別進行脫敏算法的配置,有效避免數據的過度保護。
支持采用隨機采樣的方式,在采樣的過程中過濾空值及臟數據。如在業務初期數據邏輯定義不規范往往會產生較多臟數據,而傳統的敏感數據檢索方式通常是簡單過濾表中前若干條數據,無法有效避免此類臟數據的干擾。數據脫敏系統的隨機采樣是基于表總行數進行隨機抽取,可有效避免臟數據的干擾,提高敏感數據識別的準確性。數據發現算法除常規的正則表達式、字典等,還加入了NLP算法,開箱即用70多種通用敏感字段識別算法,大幅提升了對敏感數據內容的識別和處理能力。有效避免敏感數據的誤報、漏報。
豐富的脫敏算法支持
數據脫敏系統支持24大類240+種脫敏算法,適用各種業務場景主要算法支持情況如下:
置空:直接將待脫敏的信息以填充空字符或者刪除的形式抹除。
亂序:在結構化數據(例如數據庫)中頗為常用,對于待脫敏的列,不對列的內容進行修改,僅對數據的順序進行隨機打亂。
遮蔽:保留數據一些位置上的信息,對于敏感位置的信息使用指定的字符進行替換。
分割:保留數據一些位置上的信息,對于敏感位置的信息進行刪除。
替換:使用固定值或字典映射表對敏感數據進行替換。
取整:對數值類型和日期時間類型的數據進行取整操作。
哈希:將哈希(或哈希加鹽)編碼后的數據作為脫敏結果輸出。
仿真(保留業務含義):考慮到業務含義,則生成的數據需符合核驗規則,主要包括長度、取值范圍以及校驗規則和校驗位的計算等。
密碼學:根據所選參數指定的密碼學加密算法對數據進行加密。支持的加密算法有: 。
編碼:根據所選參數指定的編碼方式對數據進行編碼。
保留類別頻次特征:主要指的是反映事物類別的數據類型,具有有限個無序的值,或枚舉類型,脫敏后各個類型出現的頻次可保持不變。
保留數值統計特征:支持分布重建、平均、區間、標準化、歸一化、添加噪聲、一致性等算法(對數值型數據在脫敏后可保留數據中的高階統計特征及數據分布特征,仍滿足趨勢分析要求)。
關聯關系保留:支持計算關系保留、亂序關聯保留、身份信息關聯保留等算法(對數據在脫敏后可保留其原始的字段間關聯關系)。
保留原數據:對指定的列的數據不做脫敏處理。
溯源算法:對數據本身添加仿真水印,做到精準溯源。
靈活的數據抽取
用戶可基于自身需要,可靈活配置數據抽取的增量條件,數據脫敏系統可支持的增量條件包括但不限于:基于時間戳、基于主鍵或唯一鍵、基于分區或分片。
水印溯源
支持多種數據水印格式,包括并不限于偽行水印、偽列水印、脫敏水印、內容修改水印、零寬水印:
偽行 偽列水印:通過添加配置比例的數據行或數據列來插入水印信息,當數據泄漏后,通過提取偽行 偽列水印信息來進行泄漏追溯。
脫敏水印:支持基于數據本身特征脫敏水印方式,不影響業務邏輯的同時能有效的避免了水印數據被繞開。
內容修改水印算法:適用于不能影響數據的業務含義并具有較強的業務使用或分析需求的場景,同時隱蔽性要求高。
零寬水印算法:在常見辦公軟件(office等)或數據庫管理軟件(dbeaver等)打開時是不可見的,在可視寬度上是不可感知的,不易單獨選中。更適用于以文件形式發放數據,在文件中的數據內容中添加水印的場景。