匿名化

用手机看条目

出自 MBA智库百科(https://wiki.mbalib.com/)

什麼是匿名化

　　匿名化是指數據挖掘中隱私保護的最主要的一種技術手段。

匿名化的方法

　　數據挖掘上保護隱私的方法可以分成以下幾類：

　　1、擾動和泛化的方法。擾動是對原數據中正確的數值做一些變換，比如加上一個隨機量，而且當擾動做完後，要保證分析擾動數據的結果和原數據的結果一致。泛化是指從一個合適的範圍內選擇新值將原值替換，例如將日期隨機替換為一年內的某一天。許多未經過處理的數據都包括用戶的姓名、身份證號等，這些屬性在公開前可以直接刪除，也可以看作泛化的一種形式，即把範圍當作無限大。

　　2、K匿名化和I多樣性的方法。

　　定義準標識符(Quasi-dientifier, QI)是由數據集上若幹個屬性構成的集合，通過準標識符可以充分識別唯一一個個體，例如身份證號。K匿名化通過擾動和泛化的方法使得每一個準標識符都至少對應k個實例，這樣就不能唯一識別，從而保護了用戶的隱私。

　　3、分散式隱私保護。大型的數據集可以在被分割後發佈。劃分可以“水平”地進行，例如將數據分成不同的子集分別在不同的地方公開;也可以“豎直”地進行，例如按照屬性劃分成不同的數據集再公開，或者兩者結合起來。例如表1中的信息，可以根據不同的需要只公佈年齡和身體狀況的信息，或者只公佈性別和身體狀況的信息。

　　4、降低數據挖掘結果的效果。在很多情況下，即便數據無法被獲取，數據挖掘的結果(比如關聯規則或者分類模型)仍然有可能泄露隱私。為此可以隱藏某些關聯規則或輕微改變分類模型來保護隱私。

　　5、差分隱私保護的方法。它是研究人員最近提出的，基本思想是通過添加雜訊的方法，確保刪除或者添加一個數據集中的記錄並不會影響分析的結果;因此，即使攻擊者得到了兩個僅相差一條記錄的數據集，通過分析兩者產生的結果都是相同的，也無法推斷出隱藏的那一條記錄的信息。

取自"https://wiki.mbalib.com/zh-tw/%E5%8C%BF%E5%90%8D%E5%8C%96"

打开MBA智库App, 阅读完整内容打开App

如果您認為本條目還有待完善，需要補充新內容或修改錯誤內容，請編輯條目或投訴舉報。

本条目由以下用户参与贡献

Tracy,寒曦.

頁面分類: 互聯網

評論(共0條)

提示:評論內容為網友針對條目"匿名化"展開的討論，與本站觀點立場無關。

發表評論請文明上網，理性發言並遵守有關規定。

查看

工具▼

匿名化

出自 MBA智库百科(https://wiki.mbalib.com/)

目錄

什麼是匿名化

匿名化的方法

温馨提示

本条目相关课程

本条目由以下用户参与贡献

評論(共0條)

導航

意见反馈

查看

工具▼

匿名化

出自 MBA智库百科(https://wiki.mbalib.com/)

目錄

什麼是匿名化

匿名化的方法

温馨提示

本條目相關文檔

本条目相关课程

本条目由以下用户参与贡献

評論(共0條)

導航

意见反馈