全球专业中文经管百科,由121,994位网友共同编写而成,共计436,036个条目

信息抽取

用手机看条目

出自 MBA智库百科(https://wiki.mbalib.com/)

信息抽取(Information Extraction:IE)

目錄

什麼是信息抽取

  信息抽取是為從文本中選擇出的信息創建一個結構化的表示形式,然後將轉換後的結構化、半結構化的信息存儲資料庫里用戶查詢或進一步的分析使用。

信息抽取技術的發展[1]

  美國國防高級研究計劃委員DARP資助的MUC(Message Understanding Conference)會議在1998年的MUC一7[21上首次提出了關係識別任務,其中預先定義了實體名、時間表達式、地點表達式3種子任務。MUC作為信息提取方面的國際性的評測會議,是典型的評測驅動會議,各參賽單位為了獲得較好的評測結果,無不竭盡所能,不斷採用最新的技術,從而從整體上推動了信息抽取技術的不斷發展。

  隨著MUC會議的停辦,美國國家標準技術研究院(NIST)設立了自動內容抽取(ACE)評測會議,將信息抽取技術推向了一個新的高度。ACE評測的目的是對來源不同的語料進行自動處理,自動抽取出其中的實體、關係、事件等內容。ACE白1999年開始籌備,2000正式啟動,到現在已經成功舉辦過9次。於2008年5月舉辦的ACE08[1提出的任務包括兩個方面:對英語和阿拉伯語的單文檔內的實體發現與識別(E—DR)和關係的發現與識別(RDR);對英語和阿拉伯語的跨文檔的實體發現與識別和關係的發現與識別。

信息抽取的作用[2]

  作為一種新興發展起來的Internet信息處理技術,信息抽取在眾多領域表現出強大的功能和美好的發展前景。

  (一)從滿足用戶信息需求的角度來看,信息抽取是其他信息獲取手段的一種有益補充

  隨著Internet的發展,如何從如此巨大的網路信息源中獲取用戶需要的信息(知識)是人工智慧和Internet研究的一個主題。信息檢索嚴格來說是文檔檢索、文本分類、文本過濾、文本聚類等技術,可以從一個大的文檔集合中找出用戶需要的相關文檔,而IE技術卻可以從相關文檔中抽取出粒度更小的關係或事件,滿足用戶更深層次和更細粒度的信息需求。從這個意義上說,IE是上述文檔信息處理技術的一種有益補充。

  (二)從技術實現的角度來看,信息抽取為其他信息獲取技術提供支持

  IE作為一種將非格式化信息轉換為格式化信息的一種手段,它既可以應用於傳統的信息檢索系統之中,也可以集成到一些資料庫應用系統,為進一步的信息處理如資料庫查詢、數據挖掘文本挖掘等打下了基礎。此外,還能對信息檢索(IR)、知識問答(QA)、個性化信息服務等的實現起功能上的支持作用,或者提高它們的性能。

  (三)從工程角度看,信息抽取將對以下應用領域產生重要作用

  1.情報收集。情報部門通常需要監控收集敵對國家、網路輿情、恐怖組織活動的各種文獻資料。傳統上,這種工作需要雇佣大量專門人員閱讀、分析和整理。IE的引入,有利於自動化情報監控,及時發現熱點事件和焦點事件。

  2.科技文獻監控。IE系統也可用來輔助進行科技文獻的監控任務,獲取某學科或技術領域的研究進展情況。例如,對於晶元工藝一些技術參數的抽取,將為有關研究和開發提供有效的支持。

  3.醫療保健服務。醫療保健機構以及健康保險部門可以利用信息抽取系統,獲取病人的癥狀、診斷情況、化驗結果以及治療情況,以便更好地提供醫療服務保險服務

  4.商業信息抽取。可以設計專門的IE系統,分析新聞中的商業信息,抽取諸如有關公司的合併、合併的參與方以及合併涉及的金額等信息,提供決策支持信息。

信息抽取技術的發展趨勢[2]

  經過十幾年來的不斷發展,局限於目前的技術水平,印歐語言在信息抽取方面的研究已經取得了一定的成果,但是中文信息抽取研究相對滯後。目前信息抽取呈現出如下的發展趨勢:

  (一)信息抽取的範圍不斷擴大

  從信息抽取的信息源看,早期的信息抽取主要集中於自由文本,現在的信息抽取則擴展到話語信息抽取和Web頁面信息抽取。從信息抽取的領域看,已從軍事、政治、醫學等領域,擴散到商業科技等領域一且仍有進一步擴大的趨勢。

  (二)信息抽取技術的多樣化

  信息抽取一般與領域性知識有較緊密的關係,因此,最初的信息抽取與子語言的處理技術也極為相似,正規文法、上下文無關文法和自動機技術等應用得較為廣泛。隨著語料庫的成功構建,特別是Web頁面的迅猛增長,基於統計的技術和機器學習方法在信息抽取方面發揮著越來越重要的作用。可以說,信息抽取技術已擺脫了狹義的自然語言理解技術的束縛,向著多樣化的方向發展。

  (三)知識獲取的進一步自動化

  系統在領域間的可移植性問題,關係著信息抽取技術適用範圍的大小。知識的自動獲取就是針對這個問題而提出的,並經歷了手工編碼、半自動獲取和自動獲取三個發展階段,知識的自動獲取已成為信息抽取技術的核心。

信息抽取存在的問題及策略[2]

  信息抽取研究的最終目標是建立具有較高性能和較好可移植性的IE系統。但是,到目前為止,IE並未和IR一樣被廣泛應用。原因在於現有IE系統的性能不高,存在如下問題。

  (一)知識獲取自動化方面的問題

  第一,目前還沒有提出標準的知識框架。領域之間所需知識差別很大,通用的知識框架能幫助快速獲取這些知識;其次,知識的自動獲取範圍較窄。目前僅限於規則模式的自動獲取,而對於如CRYSTAL等至關重要的概念層次等仍由手工編碼完成;第三,自動化的程度仍偏低,要求一定的手工參與。因此,知識獲取自動化仍是研究的重點。

  (二)IE系統中需要的領域相關的模式庫和模式匹配功能相分離

  按照模式匹配方法實現的一個完整的IE系統由兩大功能模塊組成:模式獲取模塊和模式匹配模塊。前者從一個訓練語料中獲取模式並將之放到一個模式庫中;後者從模式庫中取出模式併進行實際的信息抽取。由於採用了這種將模式庫從模式匹配功能模塊中分離出來的作法,當該系統要從各新領域中進行新任務的IE時,只需將模式庫中的模式更新為適合該IE領域任務的模式,而不必修改IE系統的其他功能,大大地改善了系統的可移植性。

  (三)用部分句法分析代替完全句法分析

  自由文本中的事件IE模式只能通過語法和語義兩個方面來對可能含有事件描述的文本片段進行約束,而語法包括詞法和句法。從完成事件IE所需句法信息的層次來看,部分句法分析所能提供的句法信息就足夠了。因而目前最新的IE系統都採用部分句法分析來代替完全句法分析。部分句法分析器僅完成對句子中的名詞群組、動詞群組和介詞群組等的識別,因而分析的正確率高、運行速度快。而完全句法分析器的分析正確率較低、運行速度較慢。

  (四)採用機器學習方法自動獲取IE模式

  採用機器學習方法來學習能夠指導進行事件IE的領域相關模式規則或統計模型,並不斷地改進這些機器學習方法,使得在學習的準備階段、學習的過程中和學習完成後的模式驗證階段減少用戶的工作量並降低對用戶的技能要求。目前最新的做法是只要求用戶提供幾個可以輕易想到的有代表性的IE模式,相應的模式學習方法就可以從一個未經分類的文檔集合中學出更多的模式並同時完成對文檔的相關性分類。

  (五)設計各種跨領域的IE模式表達方式

  針對從自由文本中進行英文事件的IE,人們設計了各種各樣的模式表達方式。無論這些模式表達方式如何不同,它們都充分利用了語法信息和語義信息的概括約束作用,而且當IE系統從一個領域的IE轉向對另一個領域的IE時,這些模式表達方式是同定不變的。

  (六)設計圖形用戶界面

  用戶通過設計圖形用戶界面可以方便、快捷地配置IE系統所需的領域相關知識,從而便於系統從對一個領域的IE轉向對另一個領域的IE。

  (七)使用領域無關的概念層次知識庫的支持

  各種事件IE模式都利用了語法信息和語義信息的概括約束作用。其中,語義信息的概括約束作用是通過將模式中的某些概念元素用它們的上位概念代替來完成的,而這就需要一個概念層次知識庫的支持。這個概念層次知識庫由領域相關的概念知識和領域無關的概念知識兩部分組成,而領域無關部分的概念知識可以直接採用現成的領域無關的概念層次知識庫,需要用戶手工生成的只是領域相關的概念層次知識庫部分,這自然大大減輕了用戶在IE模式獲取過程中的工作量。

  (八)信息抽取系統適應性問題

  目前,在特定的領域構建信息抽取系統,技術上已基本成熟,但知識的自動獲取實際上仍沒有達到完全自動,在構建通用的知識學習器方面,應實現如下目標:

  1.適應新的領域信息。構建系統資源(如詞庫、知識庫等),並設計新的模板使系統可以處理一些特定領域的概念。

  2.適應不同子語言特征。修改語法和詞庫,使系統能處理應用或領域內典型的特定語言結構。

  3.適應不同的文本流派。特定流派的文本(如醫學結論、科學論文、政策報告等)具有特定的辭彙、語法和篇章結構。

  4.適應不同類別的文本。基於Web的文檔可能與新聞報紙之類的文本有著強烈的差別,必須能適應不同的情況。

信息抽取系統的體繫結構[1]

  從廣義上來說,信息抽取不僅是文本的抽取,還有其他形式的信息,總的來說就是從一些海量信息里抽取出一些信息並以結構化的形式來存儲。從狹義上來說,信息抽取主要是針對文本信息的抽取,從原始文本中抽取信息,並依次填入模板的相應槽中。

  基於完全句法分析和淺層句法分析的信息抽取系統的體繫結構可能會有所不同,但大體相同。ClaireCardie提出的基於句法分析的一種信息抽取系統的體繫結構,由右圖所示。

  該結構由5個部分組成:(1)符號化和標註。對文本進行分段、分句,然後進行詞性的標註。(2)句法分析。確定句法成分和語義實體,識別出其中的動詞片語、名詞片語等句法成分,以抽取出與領域相關的各類命名實體。本階段可以採用完全句法分析或者部分句法分析,區別在於是否為每個句子生成完整的、詳細的句法樹。(3)抽取。在抽取過程中,系統識別特定領域的文本中各實體之間的關係,並根據抽取任務將相關的信息抽取出來,填充到輸出模板的槽中。(4)合併,即指代消解。在遇到重覆的實體時,系統首先檢查文本中這兩個實體是否指向同一個實體,如果是則合併。指代消解是個比較困難的過程,其結果直接影響到信息抽取的性能。(5)生成模板。這個階段主要完成模板的生成,是基於領域知識的最好體現。根據領域知識,通過推理判斷,選擇輸出模板的某個槽。當待輸出文本中有不同的事件,如時間、地點等,則需要填入到不同的槽中。

信息抽取和信息檢索之間的關係[2]

  信息抽取與信息檢索都是對信息進行處理的技術,但兩者存在著明顯的差異,主要表現在以下三個方面:

  1.功能不同。信息檢索系統主要是從大量的文檔集合中找到與用戶需求相關的文檔列表;信息抽取系統則旨在從一個文本中直接獲得用戶感興趣的事實信息。

  2.處理技術不同。信息檢索系統通常利用統計及關鍵詞匹配等技術,把文本看成詞的集合,不需要對文本進行深人分析理解;信息抽取往往要藉助自然語言處理技術,通過對文本中的句子以及篇章進行分析處理後才能完成。

  3.適用領域不同。由於採用的技術不同,信息檢索系統通常是領域無關的,而信息抽取系統則是領域相關的,只能抽取系統預先設定好的有限種類的事實信息。信息抽取技術可視為信息檢索技術的一個深化。信息檢索從文檔的集合中尋找與用戶要求相關的文本或段落。信息抽取則是在相關文本或段落的基礎上,發現用戶需要的信息。這兩種技術是互補的,信息抽取系統通常以信息檢索系統的輸出作為輸入。

  反之,也可在信息抽取的基礎上,進行高精度的信息檢索,二者的結合能夠更好地服務於用戶的信息處理需求。

  信息檢索一般對文本的語義不進行分析,而由用戶對文本的語義做出解釋。信息抽取則由系統分析文本的語義在此基礎上給出用戶需要的信息。

參考文獻

  1. 1.0 1.1 閆俊英.信息抽取技術綜述(A).福建電腦.2013,29(5):59~60
  2. 2.0 2.1 2.2 2.3 沈傑.信息抽取技術面臨的挑戰及其策略(A).電腦光碟軟體與應用.2011,8:3~4
本條目對我有幫助11
MBA智库APP

扫一扫,下载MBA智库APP

分享到:
  如果您認為本條目還有待完善,需要補充新內容或修改錯誤內容,請編輯條目投訴舉報

本条目由以下用户参与贡献

Mis铭,寒曦,刘维燎.

評論(共0條)

提示:評論內容為網友針對條目"信息抽取"展開的討論,與本站觀點立場無關。

發表評論請文明上網,理性發言並遵守有關規定。

打开APP

以上内容根据网友推荐自动排序生成

官方社群
下载APP

闽公网安备 35020302032707号