信息過濾

用手机看条目

出自 MBA智库百科(https://wiki.mbalib.com/)

目錄

什麼是信息過濾

  信息過濾是大規模內容處理的另一種典型應用。它是對陸續到達的信息進行過濾操作,將符合用戶需求的信息保留,將不符合用戶需求的信息過濾掉。通常可分為不良信息過濾和個性化信息過濾:不良信息過濾一般指過濾掉暴力反動色情等信息;個性化信息過濾類似於信息檢索,幫助用戶返回感興趣的東西。

信息過濾的理論背景[1]

  信息過濾,也就是所謂的信息的選擇性傳播。與信息檢索不同,信息過濾關註用戶的長線需求(指在一段時間內,比較固定的信息需求),是為非結構化及半結構化的數據設計的,主要用來處理文本信息。其目標是幫助用戶處理大量的信息,對動態的信息流進行篩選,著重於排除用戶不希望得到的信息,基於用戶概型(profile)從輸入的信息流中濾掉數據。在信息過濾中,用戶的需求表示成概型,一個概型是一個數據結構,通常包括一組主題,用以描述用戶感興趣的主題。根據概型對進入系統的文章流進行評價(ranking),用戶在瀏覽結果時,提供相關反饋並及時更新概型。由於反饋的存在,機器學習的方法在信息過濾中已得到廣泛的重視,其中主要的方法有:Bayes學習方法、神經網路方法、決策樹KNN、SVM等。

  信息過濾和信息檢索如同同一硬幣的正反面。大部分信息過濾的的早期研究基於這樣的一種設想:有效的信息檢索技術同樣也是有效的信息過濾技術。許多過濾方法建立在過去成功的檢索方法基礎之上的,如標引、匹配等。1996年Callan等對這一觀點提出了挑戰,其思想為:為了設計和評價有效的信息過濾和信息檢索系統,需要不同的技術和評價方法。尤其是與信息檢索相比,信息過濾需要經過相關反饋學習的更複雜的技術,因此憑藉用戶提供的最少量的信息來預知用戶需求是很重要的。一個需要進行長期和痛苦培訓的信息過濾系統,即使具有過濾性能,也認為是無效的;只有過濾性能良好,同時只需要進行簡短培訓的過濾系統才是有效的。

信息過濾的必要性[2]

  面對互聯網上豐富的信息時,我們希望檢索到的文獻都是我們所需要的。然而,浩如煙海的信息海洋讓人不知所措,超文本的鏈接方式又常讓人誤入歧途,有悖初衷。信息過濾能讓用戶根據自己的需求,主動選擇服務項目與內容,通過過濾機制,快速找到所需的信息。另外用戶自主進行的過濾,可增加帶寬,減少信息的盲流, 避免塞車現象,使網路傳輸更加通暢。

  隨著機讀型信息的大量增加,信息檢索的性質也大大改變。信息檢索系統的使用者面臨兩個方面的問題:文獻數量的急劇增加與它們各自在質量上的巨大差異。日益嚴重的文獻的不均衡性(質量、類型、記錄手段等)意味著用戶現在比以往更需要對文獻進行過濾的工具和幫助他們選擇相關文獻的工具。

信息過濾的三種類型[2]

  Malone,et al.(1987)描述了信息過濾的三種類型:認識(或內容)過濾、經濟過濾和社會群體推薦篩選過濾三種信息過濾形式。基於內容的過濾在信息檢索方面占據主導地位---其典型特征是建立基於關鍵詞的用戶檔案。經濟過濾將變得與電子貨幣、安全支付等技術同等重要。第三種類型即社會群體推薦篩選過濾已從原來的理論研究(強調信息發送者的身份特征的重要性)轉到具體的研究計劃和一些正在應用的系統。這些系統正在使社會群體推薦過濾機制很大程度上建立在用戶評分加權的基礎上---用戶根據事先確定的標準對一篇文獻進行打分。

信息過濾的意義[1]

  1.改善Internet信息查詢技術的需要

  隨著用戶對信息利用效率要求的提高,以搜索引擎為主的現有網路查詢技術受到了挑戰,網路用戶的信息需求與現有的信息查詢技術之間的矛盾日益尖銳,其不足主要有如下幾方面:

  (1)在使用搜索引擎時,只要使用的關鍵詞相同,所得到的結果就相同,它並不考慮用戶的信息偏好和用戶的不同,對專家和初學者一視同仁,同時返回的結果成千上萬良莠不齊,使得用戶在尋找自己喜歡的信息時有如大海撈針;

  (2)網路信息是動態變化的,用戶時常關心這種變化。而在搜索引擎中,用戶只能不斷地在網路上查詢同樣的內容,以獲得變化的信息,這花費了用戶大量的時間。

  因此,在現有情況下,傳統的信息查詢技術已經難以滿足用戶的信息需求,對信息過濾技術的研究日益受到重視,把信息過濾技術用於Internet信息查詢已成為非常重要的研究方向。

  2.個性化服務的基礎

  個性化的實質是針對性,即對不同的用戶採取不同的服務策略,提供不同的服務內容。個性化服務將使用戶以最少的代價獲得最好的服務。在信息服務領域,就是實現“信息找人,按需要服務”的目標。既然是“信息找人”,那什麼信息找什麼人就是關鍵。每個用戶都有自己特定的、長期起作用的信息需求。用這些信息需求組成過濾條件,對資源流進行過濾,就可以把資源流中符合需求的內容提取出來進行服務。這種做法就叫做“信息過濾”,信息過濾是個性化主動服務的基礎。

  3.維護我國信息安全的的迫切需要

  網路為信息的傳遞帶來了極大的方便,也為機密信息的流出和對我國政治、經濟、文化等有害信息的流入帶來了便利。發達國家通過網路進行政治滲透和價值觀、生活方式的推銷,一些不法分子利用電腦網路複製、傳播和查閱一些色情的、種族主義的、暴力的、封建迷信或有明顯意識形態傾向的信息。我國80%的網民在35歲以下;80%的網民具有大專以上文化學歷,而這兩個80%正是我們國家建設發展的主力軍。所以,中國的信息安全問題已迫在眉睫,必須引起我們高度警惕和重視,而信息過濾是行之有效的防範手段。目前主要通過過濾軟體及分級制度對來往信息尤其是越境數據流進行過濾,將不宜出口的保密或寶貴信息資源留在國內,將不符合國情或有害信息擋在網路之外,其中用的較多的為Internet接收控制軟體和網際網路內容選擇平臺PICS(Platform for theInternet Content Selection)。

  4.信息中介(信息服務供應商)開展網路增值服務的手段

  信息中介行業的發展要經過建立最初的客戶資料庫、建立標準豐富檔案內容和利用客戶檔案獲取價值三個階段。其中第一階段和第三階段的主要服務重點都涉及到信息過濾服務。過濾服務過濾掉客戶不想要的推銷信息,信息中介將建立一個過濾器以檢查流入的帶有商業性的電子郵件,然後自動剔除與客戶的需要和偏好不相符的不受歡迎的信息。客戶可提前指定他們想經過過濾服務得到的信息或經過過濾服務排除出去的任何種類的經銷商或產品。對於不受歡迎的垃圾信息,信息中介將會在客戶得到之前把他們過濾掉。

  在網路環境下,儘量減少無效數據的傳輸對於節省網路資源、提高網路傳輸效率具有十分重要的意義。通過信息過濾,可減少不必要的信息傳輸,節省費用,提高經濟效益

參考文獻

  1. 1.0 1.1 梅海燕.信息過濾問題的研究(A).信息檢索技術.2002,2:44~45
  2. 2.0 2.1 尹紅.信息過濾在信息檢索中的應用(A).四川圖書館學報.2002,3:12
本條目對我有幫助7
MBA智库APP

扫一扫,下载MBA智库APP

分享到:
  如果您認為本條目還有待完善,需要補充新內容或修改錯誤內容,請編輯條目

本条目由以下用户参与贡献

Mis铭,寒曦,Tracy,Lin,林晓辰.

評論(共0條)

提示:評論內容為網友針對條目"信息過濾"展開的討論,與本站觀點立場無關。

發表評論請文明上網,理性發言並遵守有關規定。

打开APP

以上内容根据网友推荐自动排序生成