全球专业中文经管百科,由121,994位网友共同编写而成,共计436,039个条目

匿名化

用手机看条目

出自 MBA智库百科(https://wiki.mbalib.com/)

目录

什么是匿名化

  匿名化是指数据挖掘中隐私保护的最主要的一种技术手段。

匿名化的方法

  数据挖掘上保护隐私的方法可以分成以下几类:

  1、扰动和泛化的方法。扰动是对原数据中正确的数值做一些变换,比如加上一个随机量,而且当扰动做完后,要保证分析扰动数据的结果和原数据的结果一致。泛化是指从一个合适的范围内选择新值将原值替换,例如将日期随机替换为一年内的某一天。许多未经过处理的数据都包括用户的姓名、身份证号等,这些属性在公开前可以直接删除,也可以看作泛化的一种形式,即把范围当作无限大。

  2、K匿名化和I多样性的方法。

  定义准标识符(Quasi-dientifier, QI)是由数据集上若干个属性构成的集合,通过准标识符可以充分识别唯一一个个体,例如身份证号。K匿名化通过扰动和泛化的方法使得每一个准标识符都至少对应k个实例,这样就不能唯一识别,从而保护了用户的隐私。

  3、分布式隐私保护。大型的数据集可以在被分割后发布。划分可以“水平”地进行,例如将数据分成不同的子集分别在不同的地方公开;也可以“竖直”地进行,例如按照属性划分成不同的数据集再公开,或者两者结合起来。例如表1中的信息,可以根据不同的需要只公布年龄和身体状况的信息,或者只公布性别和身体状况的信息。

  4、降低数据挖掘结果的效果。在很多情况下,即便数据无法被获取,数据挖掘的结果(比如关联规则或者分类模型)仍然有可能泄露隐私。为此可以隐藏某些关联规则或轻微改变分类模型来保护隐私。

  5、差分隐私保护的方法。它是研究人员最近提出的,基本思想是通过添加噪声的方法,确保删除或者添加一个数据集中的记录并不会影响分析的结果;因此,即使攻击者得到了两个仅相差一条记录的数据集,通过分析两者产生的结果都是相同的,也无法推断出隐藏的那一条记录的信息

本条目对我有帮助31
MBA智库APP

扫一扫,下载MBA智库APP

分享到:
  如果您认为本条目还有待完善,需要补充新内容或修改错误内容,请编辑条目投诉举报

本条目由以下用户参与贡献

Tracy,寒曦.

评论(共0条)

提示:评论内容为网友针对条目"匿名化"展开的讨论,与本站观点立场无关。

发表评论请文明上网,理性发言并遵守有关规定。

打开APP

以上内容根据网友推荐自动排序生成

官方社群
下载APP

闽公网安备 35020302032707号