匿名化
出自 MBA智库百科(https://wiki.mbalib.com/)
目錄 |
匿名化是指數據挖掘中隱私保護的最主要的一種技術手段。
數據挖掘上保護隱私的方法可以分成以下幾類:
1、擾動和泛化的方法。擾動是對原數據中正確的數值做一些變換,比如加上一個隨機量,而且當擾動做完後,要保證分析擾動數據的結果和原數據的結果一致。泛化是指從一個合適的範圍內選擇新值將原值替換,例如將日期隨機替換為一年內的某一天。許多未經過處理的數據都包括用戶的姓名、身份證號等,這些屬性在公開前可以直接刪除,也可以看作泛化的一種形式,即把範圍當作無限大。
2、K匿名化和I多樣性的方法。
定義準標識符(Quasi-dientifier, QI)是由數據集上若幹個屬性構成的集合,通過準標識符可以充分識別唯一一個個體,例如身份證號。K匿名化通過擾動和泛化的方法使得每一個準標識符都至少對應k個實例,這樣就不能唯一識別,從而保護了用戶的隱私。
3、分散式隱私保護。大型的數據集可以在被分割後發佈。劃分可以“水平”地進行,例如將數據分成不同的子集分別在不同的地方公開;也可以“豎直”地進行,例如按照屬性劃分成不同的數據集再公開,或者兩者結合起來。例如表1中的信息,可以根據不同的需要只公佈年齡和身體狀況的信息,或者只公佈性別和身體狀況的信息。
4、降低數據挖掘結果的效果。在很多情況下,即便數據無法被獲取,數據挖掘的結果(比如關聯規則或者分類模型)仍然有可能泄露隱私。為此可以隱藏某些關聯規則或輕微改變分類模型來保護隱私。
5、差分隱私保護的方法。它是研究人員最近提出的,基本思想是通過添加雜訊的方法,確保刪除或者添加一個數據集中的記錄並不會影響分析的結果;因此,即使攻擊者得到了兩個僅相差一條記錄的數據集,通過分析兩者產生的結果都是相同的,也無法推斷出隱藏的那一條記錄的信息。