匿名化

用手机看条目

出自 MBA智库百科(https://wiki.mbalib.com/)

目錄

什麼是匿名化

  匿名化是指數據挖掘中隱私保護的最主要的一種技術手段。

匿名化的方法

  數據挖掘上保護隱私的方法可以分成以下幾類:

  1、擾動和泛化的方法。擾動是對原數據中正確的數值做一些變換,比如加上一個隨機量,而且當擾動做完後,要保證分析擾動數據的結果和原數據的結果一致。泛化是指從一個合適的範圍內選擇新值將原值替換,例如將日期隨機替換為一年內的某一天。許多未經過處理的數據都包括用戶的姓名、身份證號等,這些屬性在公開前可以直接刪除,也可以看作泛化的一種形式,即把範圍當作無限大。

  2、K匿名化和I多樣性的方法。

  定義準標識符(Quasi-dientifier, QI)是由數據集上若幹個屬性構成的集合,通過準標識符可以充分識別唯一一個個體,例如身份證號。K匿名化通過擾動和泛化的方法使得每一個準標識符都至少對應k個實例,這樣就不能唯一識別,從而保護了用戶的隱私。

  3、分散式隱私保護。大型的數據集可以在被分割後發佈。劃分可以“水平”地進行,例如將數據分成不同的子集分別在不同的地方公開;也可以“豎直”地進行,例如按照屬性劃分成不同的數據集再公開,或者兩者結合起來。例如表1中的信息,可以根據不同的需要只公佈年齡和身體狀況的信息,或者只公佈性別和身體狀況的信息。

  4、降低數據挖掘結果的效果。在很多情況下,即便數據無法被獲取,數據挖掘的結果(比如關聯規則或者分類模型)仍然有可能泄露隱私。為此可以隱藏某些關聯規則或輕微改變分類模型來保護隱私。

  5、差分隱私保護的方法。它是研究人員最近提出的,基本思想是通過添加雜訊的方法,確保刪除或者添加一個數據集中的記錄並不會影響分析的結果;因此,即使攻擊者得到了兩個僅相差一條記錄的數據集,通過分析兩者產生的結果都是相同的,也無法推斷出隱藏的那一條記錄的信息

本條目對我有幫助30
MBA智库APP

扫一扫,下载MBA智库APP

分享到:
  如果您認為本條目還有待完善,需要補充新內容或修改錯誤內容,請編輯條目投訴舉報

本条目由以下用户参与贡献

Tracy,寒曦.

評論(共0條)

提示:評論內容為網友針對條目"匿名化"展開的討論,與本站觀點立場無關。

發表評論請文明上網,理性發言並遵守有關規定。

打开APP

以上内容根据网友推荐自动排序生成

闽公网安备 35020302032707号