數據脫敏
出自 MBA智库百科(https://wiki.mbalib.com/)
數據脫敏(Data Masking)
目錄 |
數據脫敏(Data Masking)又稱數據去隱私化或數據變形,是在給定的規則、策略下對敏感數據進行變換、修改的技術機制,能夠在很大程度上解決敏感數據在非可信環境中使用的問題。根據數據保護規範和脫敏策略.對業務數據中的敏感信息實施自動變形.實現對敏感信息的隱藏。[1]
數據脫敏的原理[2]
數據脫敏在保留數據原始特征的條件下,按需進行敏感信息內容的變換。只有授權的管理員或用戶,在必須知曉的情況下,才可通過特定應用程式與工具訪問數據的真實值,從而降低這些重要數據在共用和移動時的風險。數據脫敏在不降低安全性的前提下,使原有數據的使用範圍和共用對象得以拓展,因而是大數據環境下最有效的敏感數據保護方法。
任何涉及敏感信息的行業都對數據脫敏有著天然的需求。其中,金融、政府和醫療行業首當其衝。相關單位在應用開發、測試、培訓等活動中普遍使用真實數據,導致數據在暴露期間面臨嚴重泄露風險。在數據脫敏的幫助下,企業能夠按照數據使用目標,通過定義精確、靈活的脫敏策略,按照用戶的許可權等級,針對不同類別的數據以不同方式脫敏,實現跨工具、應用程式和環境的迅速、一致性的訪問限制。
數據脫敏的原則[2]
數據脫敏通常遵循的幾條原則包括:
(1)數據脫敏演算法通常應當是不可逆的,必須防止使用非敏感數據推斷、重建敏感原始數據。但在一些特定場合,也存在可恢複式數據脫敏需求。
(2)脫敏後的數據應具有原數據的大部分特征,因為它們仍將用於開發或測試場合。帶有數值分佈範圍、具有指定格式(如信用卡號前四位指代銀行名稱)的數據,在脫敏後應與原始信息相似;姓名和地址等欄位應符合基本的語言認知,而不是無意義的字元串。在要求較高的情形下,還要求具有與原始數據一致的頻率分佈、欄位唯一性等。
(3)數據的引用完整性應予保留,如果被脫敏的欄位是數據表主鍵,那麼相關的引用記錄必須同步更改。
(4)對所有可能生成敏感數據的非敏感欄位同樣進行脫敏處理。例如,在學生成績單中為隱藏姓名與成績的對應關係,將“姓名”作為敏感欄位進行變換。但是,如果能夠憑藉某“籍貫”的唯一性推導出“姓名”,則需要將“籍貫”一併變換。
(5)脫敏過程應是自動化、可重覆的。因為數據處於不停的變化中,期望對所需數據進行一勞永逸式的脫敏並不現實。生產環境中數據的生成速度極快,脫敏過程必須能夠在規則的引導下自動化進行,才能達到可用性要求;另一種意義上的可重覆性,是指脫敏結果的穩定性。在某些場景下,對同一欄位脫敏的每輪計算結果都相同或者都不同,以滿足數據使用方可測性、模型正確性、安全性等指標的要求。
數據脫敏方法[2]
幾種常見的脫敏方法包括:
替換:以虛構的數據代替真值。例如,建立一個較大的虛擬值數據表,對每一真實值記錄產生隨機種子,對原始數據內容進行哈希映射替換。這種方法得到的數據與真實數據非常相似。無效化:以NULL 或***** 代替真值或真值的一部分,如遮蓋信用卡號的後12 位。
置亂:對敏感數據列的值進行重新隨機分佈,混淆原有值和其他欄位的聯繫。這種方法不影響原有數據的統計特性,如最大/ 最小/ 方差等均與原數據無異。
均值化:針對數值型數據,首先計算它們的均值,然後使脫敏後的值在均值附近隨機分佈,從而保持數據的總和不變。通常用於產品成本表、工資表等場合。
反推斷:查找可能由某些欄位推斷出另一敏感欄位的映射,並對這些欄位進行脫敏,如從出生日期可推斷出身份證號、性別、地區的場景。
偏移:通過隨機移位改變數字數據。
FPE:Format Preserving Encryption, 即格式維持的加密是一種特殊的可逆脫敏方法。通過加密密鑰和演算法對原始數據進行加密,密文格式與原始數據在邏輯規則上一致,如都為日期、卡號、結構化值等。通過解密密鑰可以恢複原始數據。
基於其他參考信息進行屏蔽:根據預定義規則僅改變部分回應內容(例如,屏蔽VIP 客戶姓名,但顯示其他客戶等)。
限制返回行數:僅提供響應數據的子集,防止用戶訪問到全部符合要求的數據。