全球专业中文经管百科,由121,994位网友共同编写而成,共计436,047个条目

TDT

用手机看条目

出自 MBA智库百科(https://wiki.mbalib.com/)

TDT(Topic Detection and Tracking,話題檢測與跟蹤)

目錄

TDT概述

  TDT(Topic Detection and Tracking,話題檢測與跟蹤)起源於早期面向事件的檢測與跟蹤Event Detection and Tracking,簡寫為EDT)是近年提出的一項信息處理技術,這項技術旨在幫助人們應對日益嚴重的互聯網信息爆炸問題,對新聞媒體信息流進行新話題的自動識別和已知話題的持續跟蹤。與EDT不同,TDT檢測與跟蹤的對象從特定時間和地點發生的事件擴展為具備更多相關性外延的話題,相應的理論與應用研究也同時從傳統對於事件的識別跨越到包含突發事件及其後續相關報道的話題檢測與跟蹤。

  自從1996年以來,該領域進行了多次大規模評測,為信息識別、採集和組織等相關技術提供了新的測試平臺。由於話題檢測與跟蹤相對於信息檢索數據挖掘信息抽取自然語言處理技術具有很多共性,並且面向具備突發性和延續性規律的新聞語料,因此逐漸成為當前信息處理領域的研究熱點。

TDT應用背景

  隨著信息傳播手段的進步,尤其是互聯網這一新媒體的出現,我們已經擺脫了信息貧乏的桎梏,進入一個信息極度豐富的社會。在目前信息爆炸的情況下,信息的來源已不再是問題,而如何快捷準確的獲取感興趣的信息才是人們關註的主要問題。目前的各種信息檢索、過濾、提取技術都是圍繞這個目的展開的。由於網路信息數量太大,與一個話題相關的信息往往孤立地分散在很多不同的地方並且出現在不同的時間,僅僅通過這些孤立的信息,人們對某些事件難以做到全面的把握。一般的檢索工具都是基於關鍵詞的,返回的信息冗餘度過高,很多不相關的信息僅僅是因為含有指定的關鍵詞就被作為結果返回了,因此人們迫切地希望擁有一種工具,能夠自動把相關話題的信息彙總供人查閱。話題檢測與跟蹤(Topic Detection and Tracking,以下簡稱TDT)技術就是在這種情況下應運而生的。通過話題發現與跟蹤,人們可以將這些分散的信息有效地彙集並組織起來,從而幫助用戶發現事件的各種因素之間的相互關係,從整體上瞭解一個事件的全部細節以及與該事件與其它事件之間的關係。目前此方面的研究已經引起了人們的普遍興趣。

  TDT技術可以用來監控各種語言信息源,在新話題出現時發出警告,在信息安全金融證券、行業調研等領域都有廣闊的應用前景。此外,它還可以用來跟蹤某個話題的來龍去脈,進行歷史性質的研究。

TDT的發展歷程

  話題檢測與跟蹤是一項旨在依據事件對語言文本信息流進行組織、利用的研究,也是為應對信息過載問題而提出的一項應用研究。

  TDT的概念最早產生於1996年,當時美國國防高級研究計劃署(DARPA)根據自己的需求,提出要開發一種新技術,能在沒有人工干預的情況下自動判斷新聞數據流的主題。1997年,研究者開始對這項技術進行初步研究,並做了一些基礎工作(包括建立了一個針對TDT研究的預研語料庫)。當時的研究內容包括尋找內在主題一致的片斷,即給出一段連續的數據流(文本或語音),讓系統判斷兩個事件之間的分界,而且能自動判斷新事件的出現以及舊事件的再現。從1998年開始,在DARPA支持下,美國國家標準技術研究所(NIST)每年都要舉辦話題檢測與跟蹤國際會議,併進行相應的系統評測。2002秋季召開了TDT的第五次會議(即TDT 2002)。這個系列評測會議作為DARPA支持的TIDES(Translingual Information Detection, Extraction and Summarization,跨語言信息檢測、抽取和總結)項目下的兩個系列會議(另一個是文本檢索會議TREC)之一,越來越受到人們的重視。參加該評測的機構包括著名的大學、公司和研究所,如IBM Watson研究中心、BBN公司卡耐基-梅隆大學馬薩諸塞大學賓州大學馬利蘭大學、龍系統公司等。國內這方面的研究開展得要晚一些,1999年國立臺灣大學參加了TDT話題檢測任務的評測,香港中文大學參加了TDT 2000的某些子任務的評測。最近北京大學中科院計算所的研究人員也開始進行這方面的跟蹤和研究。

  TDT會議採用的語料是由會議組織者提供並由語言數據聯盟(Linguistic Data Consortium,以下簡稱LDC)對外發佈的TDT系列語料,目前已公開的訓練和測試語料包括TDT預研語料(TDT Pilot Corpus)、TDT2和TDT3,這些語料都人工標註了若幹話題作為標準答案。TDT2和TDT3收錄的報道總量多達11萬6千篇,從而很大程度上避免數據稀疏問題的影響,同時也能很好地驗證演算法的有效性。總的來看,TDT系列評測會議呈現兩大趨勢:一是努力提高信息來源的廣泛性,不僅包括互聯網上的文本數據,還包括來自廣播、電視的語音數據;二是強調多語言的特性。從1999年開始,TDT會議引入了對漢語話題的評測,2002年又計劃增加阿拉伯語的測試集。

  可以看到,話題檢測與跟蹤和信息抽取研究一樣,其建立與發展是以評測驅動的方式進行的。這種評測研究的方法具有以下一些特點:明確的形式化的研究任務、公開的訓練與測試數據、公開的評測比較。它將研究置於公共的研究平臺上,使得研究之間的比較更加客觀,從而讓研究者認清各種技術的優劣,起到正確引導研究發展方向的目的。

TDT的研究內容

  與一般的信息檢索或者信息過濾不同,TDT所關心的話題不是一個大的領域(如美國的對華政策)或者某一類事件(如恐怖活動),而是一個很具體的“事件(Event)”,如美國911事件、江澤民訪美等等。為了區別於語言學上的概念,TDT評測會議對“話題”進行了定義:所謂話題(Topic),就是一個核心事件或活動以及與之直接相關的事件或活動。而一個事件(Event)通常由某些原因、條件引起,發生在特定時間、地點,涉及某些對象(人或物),並可能伴隨某些必然結果。通常情況下,可以簡單地認為話題就是若幹對某事件相關報道的集合。“話題檢測與跟蹤”則定義為“在新聞專線(Newswire)和廣播新聞等來源的數據流中自動發現主題並把主題相關的內容聯繫在一起的技術 ” 。例如,“俄克拉荷馬城爆炸案”這個主題包括1995年美國聯邦大樓被炸、悼念儀式、州和美國聯邦政府的一系列調查、對Timothy McVeigh的指控等等。這個定義和其它與話題有關的研究不同,那些研究主要處理信息分類問題,比如任何與爆炸有關的事件。處理分類問題需要專門的分類體系,註解起來效率低而且主觀色彩濃厚。TDT與其它研究不同之處還在於它強調新事件的發現,希望找出不在人們意料之中的或沒有人知道如何去查詢的事件。

  NIST為TDT研究設立了五項基礎性的研究任務,包括面向新聞廣播類報道的切分任務;面向已知話題的跟蹤任務;面向未知話題的檢測任務;對未知話題首次相關報道的檢測任務和報道間相關性的檢測任務。

  1、報道切分任務

  報道切分(Story Segmentation Task,簡稱SST)的主要任務是將原始數據流切分成具有完整結構和統一主題的報道。比如,一段新聞廣播包括對股市行情、體育賽事和人物明星的分類報道,SST要求系統能夠模擬人對新聞報道的識別,將這段新聞廣播切分成不同話題的報道。SST面向的數據流主要是新聞廣播,因此切分的方式可以分為兩類:一類是直接針對音頻信號進行切分;另一類則將音頻信號翻錄為文本形式的信息流進行切分。

  2、話題跟蹤任務

  話題跟蹤(Topic Tracking Task,簡稱TT)的主要任務是跟蹤已知話題的後續報道。其中,已知話題沒有明確的描述,而是通過若幹篇先驗的相關報道隱含地給定。通常話題跟蹤開始之前,NIST為每一個待測話題提供1至4篇相關報道對其進行描述。同時NIST還為話題提供了相應的訓練語料,從而輔助跟蹤系統訓練和更新話題模型。在此基礎上,TTT逐一判斷後續數據流中每一篇報道與話題的相關性並收集相關報道,從而實現跟蹤功能。

  3、話題檢測任務

  話題檢測(Topic Detection Task,簡稱TD)的主要任務是檢測和組織系統預先未知的話題,TD的特點在於系統欠缺話題的先驗知識。因此,TD系統必須在對所有話題毫不瞭解的情況下構造話題的檢測模型,並且該模型不能獨立於某一個話題特例。換言之,TD系統必須預先設計一個善於檢測和識別所有話題的檢測模型,並根據這一模型檢測陸續到達的報道流,從中鑒別最新的話題;同時還需要根據已經識別到的話題,收集後續與其相關的報道。

  4、首次報道檢測任務

  在話題檢測任務中,最新話題的識別都要從檢測出該話題的第一篇報道開始,首次報道檢測任務(First-Story Detection Task,簡稱FSD)就是面向這種應用產生的。FSD的主要任務是從具有時間順序的報道流中自動鎖定未知話題出現的第一篇相關報道。大體上,FSD與TD面向的問題基本類似,但是FSD輸出的是一篇報道,而TD輸出的是一類相關於某一話題的報道集合,此外,FSD與早期TDT Pilot中的線上檢測任務(On-line detection)也具備同樣的共性。

  5、關聯檢測任務

  關聯檢測(Link Detection Task,簡稱LDT)的主要任務是裁決兩篇報道是否論述同一個話題。與TD類似,對於每一篇報道,不具備事先經過驗證的話題作為參照,每對參加關聯檢測的報道都沒有先驗知識輔助系統進行評判。因此,LDT系統必須預先設計不獨立於特定報道對的檢測模型,在沒有明確話題作為參照的情況下,自主地分析報道論述的話題,並通過對比報道對的話題模型裁決其相關性。LDT研究可以廣泛地作為TDT中其它各項任務的輔助研究,比如TD與TT等等。

  隨著話題檢測與跟蹤研究的逐步深入與發展,歷次NIST舉行的TDT評測都對該領域內的各項子課題提出了新的設想與方向,因此相應的評測任務也隨之有所更改。比如,TDT2004撤銷了報道切分任務(SST),其原因不僅在於評測語料TDT5中沒有包含廣播類新聞報道,同時也由於應用中的大部分實例片斷本身具備了良好的可區分性。此外,TDT2004將首次報道檢測任務(FSD)轉換成新事件檢測任務(New Events Detection,簡稱NED)。雖然TDT2004對NED與FSD給與了相同的定義,但本文將這兩者定義為目的不同但相互依存的任務。FSD與NED的區別在於前者註重鑒別事件初次報道的時空位置,後者除此之外還需要檢測更多相關於事件的報道併進行彙總。此外,TDT2004首次提出了有指導的自適應話題跟蹤(Adaptive topic tracking,簡稱ATT)和層次話題檢測(Hierarchical topic detection,簡稱HTD)概念。

TDT的實現方法

  構造一個實用化的TDT系統是進行TDT研究的主要目的之一,也是檢驗現有方法優劣的基礎。從參評的數量來看,話題發現和話題跟蹤兩個子任務最受關註。因此我們介紹的實現方法也以這兩個任務為主。總體而言,要實現話題發現與跟蹤功能,需要解決以下主要問題:

  (1)話題/報道的模型化

  (2)話題-報道相似度的計算

  (3)聚類策略

  (4)分類策略(閾值選擇策略)

  顯然,對這種相關性必須做一個界定,不能任由集合無限擴大。為此,TDT會議組織者在構造TDT語料時,對挑選出來的每個話題都定義了相關性判定規則。

本條目對我有幫助42
MBA智库APP

扫一扫,下载MBA智库APP

分享到:
  如果您認為本條目還有待完善,需要補充新內容或修改錯誤內容,請編輯條目投訴舉報

評論(共1條)

提示:評論內容為網友針對條目"TDT"展開的討論,與本站觀點立場無關。
223.104.212.* 在 2020年10月16日 23:11 發表

TDT過時了嗎

回複評論

發表評論請文明上網,理性發言並遵守有關規定。

打开APP

以上内容根据网友推荐自动排序生成

官方社群
下载APP

闽公网安备 35020302032707号