文本情感分析
出自 MBA智库百科(https://wiki.mbalib.com/)
文本情感分析(Sentiment Analysis),又稱意見挖掘
目錄 |
文本情感分析,是指通過計算技術對文本的主客觀性、觀點、情緒、極性的挖掘和分析,對文本的情感傾向做出分類判斷。[1]
簡單而言,文本情感分析是對帶有情感色彩的主觀性文本進行分析、處理、歸納和推理的過程。最初的情感分析源自前人對帶有情感色彩的詞語的分析,如“美好"是帶有褒義色彩的詞語,“醜陋”是帶有貶義色彩的詞語。隨著互聯網上大量的帶有情感色彩的主觀性文本的出現,研究者們逐漸從簡單的情感詞語的分析研究過渡到更為複雜的情感句研究以及情感篇章的研究。[2]
文本情感分析的研究內容[1]
文本情感分析首先需要對文本來源進行處理,對網路文本進行主客觀分類。網路文本信息可以廣義地分成兩種類型:客觀性文本和主觀性文本:
主客觀分類從主客觀混合的文本中將描述事實的客觀性文本與表達意見的主觀性文本區分開來,將主觀語言的文本抽取出來過濾掉不帶情感色彩的文本。這一階段研究的主要目的是為文本情感極性分析提供主觀性文本。
文本情感分析的下一步是對主觀性文本的分析,主要包括文本情感極性分析和文本情感極性強度分析。
- 情感極性分析的任務就是識別主觀文本的情感極性。情感極性分為兩極即正面( Positive)的贊賞和肯定、負面( Negative)的批評與否定,也有一些學者在正面和負面之間加入了中性( Neutra)。
- 情感極性強度分析就是判定主觀文本情感極性強度比如強烈貶抑、一般貶抑、客觀。一般褒揚、強烈褒揚五個類別。
按照文本的顆粒度,文本情感分析可以劃分為針對文本中的詞、句子、篇章三個級別的識別與分析。
- 詞的情感分析是文本情感分析的基礎,它既是判定文本情感的基礎又是句子和篇章情感分析的前提。基於詞的情感分析研究主要有情感詞抽取、情感詞判定、語料庫與情感詞典的研究等。
- 句子的情感分析是文本情感分析的核心:一方面,它綜合了情感詞的分析結果給出全句的情感分析的完整結果;另一方面句子可以視為短篇章子的情感分析的結果在很大程度上決定了篇章的情感分析結果。
- 篇章的情感分析是最不確定性的研究,因為需要綜合篇章的各個粒度下的情感分析結果,結合上下文和領域知識庫做出判斷。
文本情感分析的研究任務[2]
情感分析涉及多項非常有挑戰性的研究任務,大致可將情感分析歸納為3項層層遞進的研究任務,即情感信息的抽取、情感信息的分類以及情感信息的檢索與歸納。
- 情感信息抽取
情感信息抽取是情感分析的最底層的任務,它旨在抽取情感評論文本中有意義的信息單元,其目的在於將無結構化的情感文本轉化為電腦容易識別和處理的結構化文本,繼而供情感分析上層的研究和應用服務。
情感信息抽取旨在抽取情感文本中有價值的情感信息,它可以看作情感分析的基礎任務。i一直以來,學術界對它興趣不減。縱觀目前的研究現狀,有價值的情感信息單元主要有評價詞語(如優秀、好用),評價對象(如GPS、屏幕解析度)、觀點持有者(如國家政府、臺灣當局)等,在對大量的情感文本進行分析之後,不少研究者發現,某些組合搭配對於情感分析的上層任務,如情感信息分類以及情感信息的檢索與歸納有更直接的幫助,如評價搭配(評價對象和評價詞語的搭配,如屏幕解析度-高)、評價短語(程度副詞及其修飾的評價詞語的搭配,如不怎麼-好)等。
- 情感信息分類
情感信息分類則利用底層情感信息抽取的結果將情感文本單元分為若幹類別,供用戶查看,如分為褒、貶兩類或者其他更細緻的情感類別(如喜、怒、哀、樂等)。按照不同的分類目的,可分為主客觀分析和褒貶分析;按照不同的分類粒度,可分為詞語級、短語級、篇章級等多種情感分類任務。
情感信息的分類任務可大致分為兩種:一種是主、客觀信息的二元分類;另一種是主觀信息的情感分類,包括最常見的褒貶二元分類以及更細緻的多元分類。
- 情感信息的檢索與歸納
最高層的情感信息的檢索與歸納可以看作與用戶直接交互的介面,著重強調檢索和歸納兩項應用。該層次的研究主要在前兩項任務即情感信息抽取和分類的結果的基礎上進行進一步的加工處理。
情感分析是一項以應用為導向的研究課題,然而,情感信息抽取和分類後,呈現的結果並不是用戶所能直接使用的,經過大量的調研我們發現,情感分析技術與用戶的交互主要集中於情感信息檢索和情感信息歸納兩項任務上。其中,情感信息檢索旨在為用戶檢索出主題相關,且包含情感信息的文檔,情感信息歸納則針對大量主題相關的情感文檔,自動分析和歸納整理出情感分析結果提供給用戶參考,以節省用戶翻閱相關文檔的時間。因此,情感信息歸納可以看作是情感信息檢索結果的一個深入加工。


