全球专业中文经管百科,由121,994位网友共同编写而成,共计435,888个条目

规则提取

用手机看条目

出自 MBA智库百科(https://wiki.mbalib.com/)

目录

什么是规则提取[1]

  规则提取,这种技术是用可理解的规则集来补充黑匣子模型卓越的预测性能。这些方法有效的打开了黑匣子,提供了对黑匣子模型作用情况的深入洞察。它是建立在如下准则之上的:与深层的黑匣子模型相关的提取算法的透明度;所提取的规则或者树的表达力;神经网络的专门训练方法;所提取规则的质量;提取算法的计算复杂性。可用五条准则来评估规则提取算法:可理解性、保真性、准确性、可伸缩性、通用性。

规则提取的准则[1]

  一般来说,人们用五条准则来评估规则提取算法:

  可理解性

  可理解性是人可以理解所提取规则的程度。

  保真性

  保真性准则是指所提取规则与它所提取的黑匣子的相仿的程度,它是分类器和提取规则在类标签上保持一致的测试点的比例来测量。

  准确性

  能够对此前不可见的情况作出准确的预测叫做准确性。

  可伸缩性

  可伸缩性特指模型能够处理大输入空间和大数据集。

  通用性

  通用性是指这个方法要求采用特殊训练法或者对模型架有所限制的程度。

规则提取的内容[1]

  从受训模型上提取符号规则,可以为黑匣子模型添加可理解性。规则提取技术试图打开黑匣子,生成可理解的符号描述,使之具有几乎与模型本身一模一样的预测力。用不可理解的黑匣子模型作为规则提取的入手点,比如支持向量机(SVM)或者神经网络,其好处是它们能够为更为复杂的关系建立模型。

  Andrew等(995)提出了神经网络规则提取技术的分类方法,它完全可以扩大到SVM上(Matens等,2007);它是建立在如下准则之上的:

  ()与深层的黑匣子模型相关的提取算法的透明度。

  (2)所提取的规则或者树的表达力。

  (3)神经网络的专门训练方法。

  (4)所提取规则的质量

  (5)提取算法的计算复杂性。

  透明度准则考虑的是该技术对黑匣子模型的认知。分解法与黑匣子模型的内在机制紧密相关。而指导型算法则是把受训模型看做黑匣子。这些算法不考察内在结构,而是直接提取与模型的输入和输出相关的规则。这些技术通常把受训模型用作训练样本的标签或者分类的评价器(人工生成),然后训练样本再被符号学习算法使用。这些技术背后的道理在于,它们假定受训模型比初始数据集能够更好地表示数据。也就是说,数据更为清洁,免于表面冲突的干扰。因为其模型被看做黑匣子,多数指导型算法都适合于从其他机器学习算法中提取规则。

  所提取规则的表达力取决于用来表达规则的语言。文献中提出了多种类型的规则,其中最主要的有命题规则、M-of-N规则和模糊规则。命题规则是如下形式的简单含义:如果X=a,Y=b,那么类=.M-of-N规则[如果至少M-of-N条件(C,C2,……,CN),那么……]可以被用来表示复杂的分类概念。虽然它们的可理解性是递减的,但是前提条件总是要么真要么假,而模糊规则不是这样,模糊规则的例子是:如果X是低,Y是中,那么类=,低和中是具有对应隶属函数的模糊集。它们具有更大的灵活性,通常用语言学概念表达,让人易于给出解释。然而,给出的解释因人而异,很难做到客观。

参考文献

  1. 1.0 1.1 1.2 库斯曼特,(比)博克.(美)奈斯林著,高级数据库营销 互联网时代持续提高客户终身价值的全新方法与实践,企业管理出版社,2015:177-179
本条目对我有帮助0
MBA智库APP

扫一扫,下载MBA智库APP

分享到:
  如果您认为本条目还有待完善,需要补充新内容或修改错误内容,请编辑条目投诉举报

本条目由以下用户参与贡献

LuyinT.

评论(共0条)

提示:评论内容为网友针对条目"规则提取"展开的讨论,与本站观点立场无关。

发表评论请文明上网,理性发言并遵守有关规定。

打开APP

以上内容根据网友推荐自动排序生成

下载APP

闽公网安备 35020302032707号