文本挖掘

用手机看条目

出自 MBA智库百科(https://wiki.mbalib.com/)

文本挖掘(Text Mining)

目录

什么是文本挖掘

  文本挖掘是指从大量文本数据中抽取事先未知的、可理解的、最终可用的知识的过 程,同时运用这些知识更好地组织信息以便将来参考。直观的说,当数据挖掘的对象完全由文本这种数据类型组成时,这个过程就称为文直观的说,当数据挖掘的对象完全由文本这种数据类型组成时,这个过程就称为文本挖掘。文本挖掘也称为文本数据挖掘。

文本挖掘的内容

  文本挖掘(Text Mining)是一个从非结构化文本信息中获取用户感兴趣或者有用的模式的过程。文本挖掘的主要目的是从非结构化文本文档中提取有趣的、重要的模式和知识。可以看成是基于数据库的数据挖掘或知识发现的扩展。文本挖掘是从数据挖掘发展而来,因此其定义与我们熟知的数据挖掘定义相类似。但与传统的数据挖掘相比,文本挖掘有其独特之处,主要表现在:文档本身是半结构化或非结构化的,无确定形式并且缺乏机器可理解的语义;而数据挖掘的对象以数据库中的结构化数据为主,并利用关系表等存储结构来发现知识。文本挖掘是指从大量文本数据中抽取事先未知的、可理解的、最终可用的知识的过程,同时运用这些知识更好地组织信息以便将来参考。

  文本挖掘的主要用途是从原本未经处理的文本中提取出未知的知识,但是文本挖掘也是一项非常困难的工作,因为它必须处理那些本来就模糊而且非结构化的文本数据,所以它是一个多学科混杂的领域,涵盖了信息技术、文本分析、模式识别统计学数据可视化数据库技术机器学习以及数据挖掘等技术 。文本挖掘是从数据挖掘发展而来,因此其定义与我们熟知的数据挖掘定义相类似。但与传统的数据挖掘相比,文本挖掘有其独特之处,主要表现在:文档本身是半结构化或非结构化的,无确定形式并且缺乏机器可理解的语义;而数据挖掘的对象以数据库中的结构化数据为主,并利用关系表等存储结构来发现知识。因此,有些数据挖掘技术并不适用于文本挖掘,即使可用,也需要建立在对文本集预处理的基础之上。

  文本挖掘是应用驱动的。它在商业智能信息检索、生物信息处理等方面都有广泛的应用;例如,客户关系管理,自动邮件回复,垃圾邮件过滤,自动简历评审,搜索引擎等等。

  文本挖掘的主要支撑技术:自然语言处理和机器学习由于处理的对象是半结构化或非结构化的文档,自然语言处理技术成为实现生物医学文本挖掘的主要技术手段。

  (1)自然语言处理技术自然语言处理是主要研究人与计算机交际中的语言问题的-N学科。“自然语言处理要研制表示语言能力语言应用的模型,建立计算机框架来实现这样的语言模型,提出相应的方法来不断完善这样的语言模型,根据这样的语言模型设计各种实用系统,并探讨这些实用系统的评测技术,更简单直观的说法,就是采用计算机技术来研究和处理自然语言。由于自然语言处理是一个多边缘的交叉学科,除语言学外还涉及计算机科学、数学、统计学、电子工程心理学哲学以及生物学等知识领域,它是在各个相关学科的交融和协作中逐渐成长起来的。在历史上,自然语言处理曾经在计算机科学、电子工程、语言学和心理认知语言学等不同的领域分别进行过研究。1956年以前,人们主要进行自然语言处理的基础性研究工作。

  (2)机器学习方法机器学习研究计算机怎样模拟或实现人类的学习行为以获取新的知识或技能重新组织已有的知识结构使之不断改善自身的性能。它是人工智能领域的一个重要分支。机器学习从研究人类学习行为出发,研究一些基本方法(如:归纳、一般化、特殊化、类比等)去认识客观世界,获取各种知识和技能,以便对人类的认识规律进行探索,深入了解人类的各种学习过程,借助于计算机科学和技术原理建立各种学习模型,从而为计算机系统赋予学习能力。为了实现这一目的的理论、方法和工程构成了机器学习的主要任务。此外,机器学习还有另一个基本目标,就是从理论上探索一些人类尚未发现的新学习方法和途径。学习能力是智能行为的一个非常重要的特征,但至今对学习的机理尚不清楚。人们曾对机器学习给出各种定义。

文本挖掘的过程

  文本挖掘的过程来自各种数据源的文本数据通过挖掘处理到最终用户主要经过三个过程:文档预处理、特征信息提取和数据挖掘。

  (1)文档预处理。当来自各种信息源的文档到达服务器时,首先对文档进行过滤,对文档的类型进行鉴别。根据文档可能类型的特征可分为:结构化文档和非结构化文档。过滤器对不同类型的文档提供不同的文本过滤方法。对于结构化文档,过滤器把文档分成各自的组成部分如:标题、摘要、主要内容、参考目录等。在这一步骤中,不同形式的文档(word、PDF、图片、图像等)都用XML语言转化成新的相同(或相似)的形式,例如(标题)、(作者)、(摘要)和(全文)等。而对于非结构化的文档,必须要通过语言预处理,把它转化为可用算术分析的形式,以便在下一步骤中能对文档进行自动的特征信息提取。它能利用语法知识把句子分解出基本部分,包括名词、动词、形容词、日期、货币、数字等,并从标题或摘要或全部文档中选出新的关键词。

  (2)特征信息提取。特征信息的提取使非结构化数据转化成可以直接记录在数据库中的结构化数据,这为下一步骤的挖掘处理做了充分的准备。特征提取主要是识别文本中代表其特征的词项。提取的特征大部分是文本集中表示的概念,这些概念包含着重要的信息,因此要提前定义哪些信息必须被抽取和被怎样抽取,这需要有较好的专业知识。目前使用的方法主要有向量空间模型布尔模型两种,其中向量空间模型是近年来应用较多并且效果较好的方法之一。

  (3)模式评估与表示为最后一个环节,是利用已经定义好的评估指标对获取的知识或模式进行评价。如果评价结果符合要求,就存储该模式以备用户使用;否则返回到前面的某个环节重新调整和改进,然后再进行新一轮的发现。

相关条目

本条目对我有帮助6
MBA智库APP

扫一扫,下载MBA智库APP

分享到:
  如果您认为本条目还有待完善,需要补充新内容或修改错误内容,请编辑条目

本条目由以下用户参与贡献

寒曦,刘维燎.

评论(共0条)

提示:评论内容为网友针对条目"文本挖掘"展开的讨论,与本站观点立场无关。

发表评论请文明上网,理性发言并遵守有关规定。

MBA智库
打开APP

以上内容根据网友推荐自动排序生成