全球专业中文经管百科,由121,994位网友共同编写而成,共计435,753个条目

文本挖掘

用手机看条目

出自 MBA智库百科(https://wiki.mbalib.com/)

文本挖掘(Text Mining)

目錄

什麼是文本挖掘

  文本挖掘是指從大量文本數據中抽取事先未知的、可理解的、最終可用的知識的過 程,同時運用這些知識更好地組織信息以便將來參考。直觀的說,當數據挖掘的對象完全由文本這種數據類型組成時,這個過程就稱為文直觀的說,當數據挖掘的對象完全由文本這種數據類型組成時,這個過程就稱為文本挖掘。文本挖掘也稱為文本數據挖掘。

文本挖掘的內容

  文本挖掘(Text Mining)是一個從非結構化文本信息中獲取用戶感興趣或者有用的模式的過程。文本挖掘的主要目的是從非結構化文本文檔中提取有趣的、重要的模式和知識。可以看成是基於資料庫的數據挖掘或知識發現的擴展。文本挖掘是從數據挖掘發展而來,因此其定義與我們熟知的數據挖掘定義相類似。但與傳統的數據挖掘相比,文本挖掘有其獨特之處,主要表現在:文檔本身是半結構化或非結構化的,無確定形式並且缺乏機器可理解的語義;而數據挖掘的對象以資料庫中的結構化數據為主,並利用關係表等存儲結構來發現知識。文本挖掘是指從大量文本數據中抽取事先未知的、可理解的、最終可用的知識的過程,同時運用這些知識更好地組織信息以便將來參考。

  文本挖掘的主要用途是從原本未經處理的文本中提取出未知的知識,但是文本挖掘也是一項非常困難的工作,因為它必須處理那些本來就模糊而且非結構化的文本數據,所以它是一個多學科混雜的領域,涵蓋了信息技術、文本分析、模式識別統計學數據可視化資料庫技術機器學習以及數據挖掘等技術 。文本挖掘是從數據挖掘發展而來,因此其定義與我們熟知的數據挖掘定義相類似。但與傳統的數據挖掘相比,文本挖掘有其獨特之處,主要表現在:文檔本身是半結構化或非結構化的,無確定形式並且缺乏機器可理解的語義;而數據挖掘的對象以資料庫中的結構化數據為主,並利用關係表等存儲結構來發現知識。因此,有些數據挖掘技術並不適用於文本挖掘,即使可用,也需要建立在對文本集預處理的基礎之上。

  文本挖掘是應用驅動的。它在商業智能信息檢索、生物信息處理等方面都有廣泛的應用;例如,客戶關係管理,自動郵件回覆,垃圾郵件過濾,自動簡歷評審,搜索引擎等等。

  文本挖掘的主要支撐技術:自然語言處理和機器學習由於處理的對象是半結構化或非結構化的文檔,自然語言處理技術成為實現生物醫學文本挖掘的主要技術手段。

  (1)自然語言處理技術自然語言處理是主要研究人與電腦交際中的語言問題的-N學科。“自然語言處理要研製表示語言能力語言應用的模型,建立電腦框架來實現這樣的語言模型,提出相應的方法來不斷完善這樣的語言模型,根據這樣的語言模型設計各種實用系統,並探討這些實用系統的評測技術,更簡單直觀的說法,就是採用電腦技術來研究和處理自然語言。由於自然語言處理是一個多邊緣的交叉學科,除語言學外還涉及電腦科學、數學、統計學、電子工程心理學哲學以及生物學等知識領域,它是在各個相關學科的交融和協作中逐漸成長起來的。在歷史上,自然語言處理曾經在電腦科學、電子工程、語言學和心理認知語言學等不同的領域分別進行過研究。1956年以前,人們主要進行自然語言處理的基礎性研究工作。

  (2)機器學習方法機器學習研究電腦怎樣模擬或實現人類的學習行為以獲取新的知識或技能重新組織已有的知識結構使之不斷改善自身的性能。它是人工智慧領域的一個重要分支。機器學習從研究人類學習行為出發,研究一些基本方法(如:歸納、一般化、特殊化、類比等)去認識客觀世界,獲取各種知識和技能,以便對人類的認識規律進行探索,深入瞭解人類的各種學習過程,藉助於電腦科學和技術原理建立各種學習模型,從而為電腦系統賦予學習能力。為了實現這一目的的理論、方法和工程構成了機器學習的主要任務。此外,機器學習還有另一個基本目標,就是從理論上探索一些人類尚未發現的新學習方法和途徑。學習能力是智能行為的一個非常重要的特征,但至今對學習的機理尚不清楚。人們曾對機器學習給出各種定義。

文本挖掘的過程

  文本挖掘的過程來自各種數據源的文本數據通過挖掘處理到最終用戶主要經過三個過程:文檔預處理、特征信息提取和數據挖掘。

  (1)文檔預處理。當來自各種信息源的文檔到達伺服器時,首先對文檔進行過濾,對文檔的類型進行鑒別。根據文檔可能類型的特征可分為:結構化文檔和非結構化文檔。過濾器對不同類型的文檔提供不同的文本過濾方法。對於結構化文檔,過濾器把文檔分成各自的組成部分如:標題、摘要、主要內容、參考目錄等。在這一步驟中,不同形式的文檔(word、PDF、圖片、圖像等)都用XML語言轉化成新的相同(或相似)的形式,例如(標題)、(作者)、(摘要)和(全文)等。而對於非結構化的文檔,必須要通過語言預處理,把它轉化為可用算術分析的形式,以便在下一步驟中能對文檔進行自動的特征信息提取。它能利用語法知識把句子分解出基本部分,包括名詞、動詞、形容詞、日期、貨幣、數字等,並從標題或摘要或全部文檔中選出新的關鍵詞。

  (2)特征信息提取。特征信息的提取使非結構化數據轉化成可以直接記錄在資料庫中的結構化數據,這為下一步驟的挖掘處理做了充分的準備。特征提取主要是識別文本中代表其特征的詞項。提取的特征大部分是文本集中表示的概念,這些概念包含著重要的信息,因此要提前定義哪些信息必須被抽取和被怎樣抽取,這需要有較好的專業知識。目前使用的方法主要有向量空間模型布爾模型兩種,其中向量空間模型是近年來應用較多並且效果較好的方法之一。

  (3)模式評估與表示為最後一個環節,是利用已經定義好的評估指標對獲取的知識或模式進行評價。如果評價結果符合要求,就存儲該模式以備用戶使用;否則返回到前面的某個環節重新調整和改進,然後再進行新一輪的發現。

相關條目

本條目對我有幫助22
MBA智库APP

扫一扫,下载MBA智库APP

分享到:
  如果您認為本條目還有待完善,需要補充新內容或修改錯誤內容,請編輯條目投訴舉報

本条目由以下用户参与贡献

寒曦,刘维燎.

評論(共0條)

提示:評論內容為網友針對條目"文本挖掘"展開的討論,與本站觀點立場無關。

發表評論請文明上網,理性發言並遵守有關規定。

打开APP

以上内容根据网友推荐自动排序生成

下载APP

闽公网安备 35020302032707号