全球专业中文经管百科,由121,994位网友共同编写而成,共计435,895个条目

數據漂白

用手机看条目

出自 MBA智库百科(https://wiki.mbalib.com/)

目錄

什麼是數據漂白

  數據漂白就是通過數據變換的方法去除數據中的敏感信息。不同於數據加密,數據漂白可以是不可逆的過程。

數據漂白的特點

  一個好的數據漂白過程必須具備以下特點:可用性、數據關聯關係、業務規則關係、數據分佈、易用性和可定製。

  可用性是指漂白過的數據看起來要像真實數據,並且具有真實數據的合法性。例如姓名漂白過之後,看起來還應該是一個姓名,如果變成一串無意義的字元串,會讓使用者很不習慣。

  數據關聯關係指的是資料庫內的數據關聯關係,這種關聯關係通常是可見的,能夠從資料庫中找到。例如主外鍵的關聯關係在漂白的時候,如果主鍵漂白,與之連接的外鍵也要作對應性的漂白,即主外建的變換一致,這樣才能夠保障數據關聯關係保持不變。

  業務規則關係是指數據在資料庫之外的業務約束關係,即業務上對數據的約束關係,這種約束關係由業務系統的設計方提供,資料庫中不會有所體現。例如業務規則要求某個欄位有一個檢驗欄位,校驗欄位是通過一個演算法計算出的值。此時,如果漂白了這個欄位,而沒有考慮校驗關係,就會導致漂白過的數據不可用。其他還有出生日期與身份證號是否具有對應關係等。

  數據分佈是指數據中的分佈特征,例如年齡分佈,即各個年齡段的人數分佈。出生日期的變換會影響到數據中的年齡分佈。如果漂白的時候沒考慮保留此分佈,而此數據恰恰需要對年齡分佈作分析,就會受到影響而不准確。

  易用性是指漂白過的數據具有可用性,同時又不泄露敏感信息,同時,演算法及程式過程具有可配置性。可定製指的是用戶在漂白過程中,對於漂白函數的選擇和參數可以定製,選擇自己需要的函數和參數。

數據漂白的方法

  置換類方法。針對某些集合數據,通過置換的方法對數據進行漂白。例如省級的地名共有幾十個,可以建立一個新的地名集合,仍是真實數據中地名的集合,只是順序發生變化,通過置換就可以把真實數據中的地名換成一個新地名。置換可以是直接置換,即把一個現有的地名,通過查表置換成新地名,也可以隨機置換,即通過一個隨機數查詢集合中的地名,替換真實數據中的地名。這類方法也可以用新集合代替現有碼表,以達到數據漂白的目的。

  生成類方法。對email地址、電話號碼等內容的漂白,可以通過演算法隨機生成相應的欄位值,以達到漂白的目的。

  日期類方法。這類方法主要針對日期的變化,如果年齡發生了變化,很可能相應的日期也會隨之變化,否則就會發生不合業務邏輯的數據。

  組合類方法。身份證 號的l ~6位是地址碼 ,7 ~l4位 是出生 f3 期 ,15 ~17位是順 序號 (含性別 ) ,18位是校驗位。身份證號的漂白可 以通過對各個部分分別漂白,再合成 為一個新 的身份證號 的方法 。例如對於 l ~2位的漂白 ,省級地 名可以用置換 的方法 ,出生 日期 、順序號可以在合理的範 圍內隨機生成 ,最後通過計算校驗位形成一個合理的身份證號。但身份證號的漂 白可能會涉及與出生 日期的一致性 ,還可能涉及與性別的一致性 ,這些一致性都可 以通過對應關係解決。還需要考慮的是 ,如果身份證號本身又是一個主鍵 ,就必須保障隨機生成的身份證號不能有重覆 ,否則就會破壞數據的完整性 。組合類方法還可 以生成地址 ,一個 完整的地址包括省 、市 、區 、街道 、門牌等 ,可採用組合類的方法生成不重覆的地址。類似的還有單位 名稱的漂 白,單位名稱也可以分解成行政區劃(中國,江蘇省 ,⋯⋯),行業(石油 ,石化 ,⋯⋯ ) ,名稱 (長江 ,勝利 ,⋯⋯ ) ,經營特點 (發展 ,實業 ,技術 ,餐飲 ,⋯⋯ ) 和公司性質 (有限公 司,貿易公 司 ,⋯⋯ ) 等 ,也 可以通過組合方法進行漂 白。其中 ,姓 名的漂白主要看用戶對姓名要求的高低,直接把姓名替換成一個字元串也是一種漂白,但是用戶要求比較高 ,例如要求姓 名不能有太多重覆且高效率 ,可以將姓名分解成姓 、中問字、第三字,也可以通過組合方法實現漂白。

數據漂白的流程

  一般數據漂白的流程主要包括三個主要過程,即抽取、漂白和分發。

  需要漂白的數據僅僅是真實數據的一部分,即包含了敏感信息的部分。需要將具有敏感信息的數據從真實數據中分離出來。漂白的過程可以與數據抽取在一個過程中完成,主要是對數據進行變換,實現對數據的漂白。分發是把漂白完的數據與未參與漂白的真實數據合併形成一個完整的數據集合,提供給數據的使用方。在整個數據漂白過程中,自動化、漂白方法和漂白參數的可配置性是非常重要的。自動化的過程能夠最大限度地減少人工干預,提高數據流程的穩定性、可靠性;而需要人工干預的部分主要是漂白方法的配置和漂白參數的設定,因為隨著需求的不斷變化,可能需要設定不同的漂白方法和漂白參數,實現針對不同目標的漂白任務,增強數據安全性。

  自動化面臨的挑戰是非法欄位值的問題,例如身份證號內含有空值、短值、非法字元等,針對這些值不僅要考慮漂白過程的穩定性,還需要考慮用戶的需求。有些情況下,測試需要針對某些“合理”的非法字元進行,這就需要在漂白演算法設計的過程中,既保障漂白過程不會因為這些非法欄位值中斷,又要保留這些值,留給測試使用。

參考文獻

  • 張樵.數據漂白簡析(A).中國金融電腦.2010,9
本條目對我有幫助1
MBA智库APP

扫一扫,下载MBA智库APP

分享到:
  如果您認為本條目還有待完善,需要補充新內容或修改錯誤內容,請編輯條目投訴舉報

本条目由以下用户参与贡献

Mis铭,Tracy,苏青荇.

評論(共0條)

提示:評論內容為網友針對條目"數據漂白"展開的討論,與本站觀點立場無關。

發表評論請文明上網,理性發言並遵守有關規定。

打开APP

以上内容根据网友推荐自动排序生成

下载APP

闽公网安备 35020302032707号