全球专业中文经管百科,由121,994位网友共同编写而成,共计436,047个条目

Web搜索

用手机看条目

出自 MBA智库百科(https://wiki.mbalib.com/)

目錄

什麼是Web搜索

  Web搜索是指採用自動或半自動的方式,遵循一定的策略在Web上搜集和發現信息。實現Web搜索的技術統稱為Web搜索技術,主要包括制定搜索策略、對網頁超鏈接結構進行分析、評價Web信息資源的質量、分析信息資源的內容以及計算Web信息資源與搜索查詢的相關程度等。

  用Web搜索技術建立起來的系統稱為Web搜索系統,搜索引擎(Search Engine)是一種典型的Web搜索系統,也是Web搜索技術發展的重要源頭之一,它主要對發佈在Web上的信息資源進行搜集、整理、組織,形成一個信息資源指引庫,並通過檢索界面將最符合用戶要求的網站或網頁信息提供給用戶,用戶據此單擊相應的網站或網頁地址,從而被導航至相應的網頁。除了搜索引擎之外,還有一些專門的系統,也要用搜索技術來搜集網路上的信息,例如,競爭情報系統為監測競爭對手競爭環境而在網路上搜集相關信息,專題門戶網站要搜集網路上的相關專題信息等,都要用到搜索技術,這類系統或它們實現搜索功能的子系統,都屬於Web搜索系統。

Web搜索的類型[1]

  目前,對Web搜索類型的劃分尚無統一的標準,常用的基本劃分方法有依據搜索的自動化程度進行分類、按搜索策略進行分類和依據搜索對象進行分類等。

  1.依據自動化程度分類

  根據自動化程度的不同,可以將Web搜索分為自動搜索和人工搜索兩種類型。

  1)自動搜索

  自動搜索主要是指依靠“爬行器”這類軟體自動獲取Web資源,目前多數搜索系統都採用這種搜索方式。

  爬行器(Crawler)是指可以在Web漫游,併發現、下載Web頁面的電腦程式,採用此類程式的搜索系統,其網路信息資源的獲取全部由電腦爬行程式自動完成,系統通過爬行器在網上爬行,將搜索到的頁面自動下載加入到本地資料庫中,經處理後供用戶使用,人工參與成分很少。自動搜索的優勢在於自動化程度高、搜索範圍廣、維護費用少、更強調技術上的創新和提高;缺點是返回信息過多,可能包括大量的無關信息,用戶必須從搜索結果中進行篩選,增加了用戶負擔,因此設計高效的爬行機制及合理頁面處理規則是這類搜索技術研究者特別關註的問題。

  現階段,國外具有代表性的此類搜索系統有最為流行的Google(http://www.google.com)、資格最老的Lycos(http://www.1ycos.com)、能提供相關檢索和專家推薦資源的Teoma(http://www.teoma.com)、擁有較強中文檢索能力的Infoseek(http://www.infoseek.com)等;國內代表性的系統有最成功的商業搜索引擎百度(http://www.baidu.com)及最早的搜索引擎天網(http://e.pku.edu.cn)等。

  2)人工搜索

  採用這類技術的系統依靠專職編輯建立分類目錄,並按學科類目組織Web信息資源,支持用戶按類目層次來瀏覽信息,典型代表是目錄式的搜索引擎。

  人工搜索按照既定的類目層次組織Web信息資源,根據編輯人員在訪問了某個Web站點後撰寫的站點描述,人工形成信息摘要,並根據站點的內容和性質將其歸人一個預先分好的類別,也有一些系統接受用戶提交的網站網址和網站描述,當目錄的編輯人員認可該網站及描述後,就會將之添加到合適的類別中。人工搜索系統大多面向網站,而不是網頁,由於加入了人的智力勞動,所以其獲得的信息準確性好、導航質量高;缺點是需要大量人工介入、維護量大、信息量少、信息更新不及時。

  在此類系統中最具代表性的是最早出現的目錄式搜索引擎Yahoo!門戶網站(http://www.yahoo.com)、在美國和澳洲有廣泛影響的Looksmart(http://search.looksmart.com)、允許用戶進行網站提交的Opendireetory(http://dmoz.org)。此外,國內的門戶網站新浪(http://www.sina.com.cn)、搜狐(http://www.sohu.com)、網易(http://www.163.com)等也都採用了這類搜索技術。

  2.按搜索策略進行分類

  根據搜索策略的不同,Web搜索可以分為周期性搜索(Periodic Web Search)和增量式搜索(Incremental Web Search)兩種類型。

  1)周期性搜索

  周期性搜索是指根據系統搜索要求採集足量的信息後停止搜索,當經過一段時間後這些數據過時,就重新進行搜索,用新採集來的信息代替原有的信息,以使採集到的信息與網路上的信息保持一致。

  這種搜索方式的優點在於總體上搜索演算法相對較為簡單,對頁面的採集順序沒有特別的要求,但由於待刷新的頁面太多,時間開銷較大。

  2)增量式搜索

  增量式搜索僅在需要的時候採集新產生的或者已經發生變化了的頁面,對於沒有變化的頁面則不進行採集。

  和周期性信息採集相比,增量式搜索能極大地減少了數據的採集量,進而減小了採集的時間和空間開銷,是搜索技術當前的研究熱點。但增量式信息採集在減小開銷的同時,卻增加了演算法的複雜性和難度,比如如何判斷某個頁面是否發生了變化。同時,為了進一步提高增量式搜索的效率,又面臨著如何根據頁面的變化快慢分配系統的採集能力等新的問題。

  3.依據搜索對象分類

  根據搜索對象不同,Web搜索可以分為通用搜索(General-purpose Search)、專題搜索(Domain-specific Search)、深層搜索(Deep Search)和元搜索(Meta-search)4種類型。

  1)通用搜索

  通用搜索通常以網路中所有領域、各種格式的信息資源為搜索對象。這類搜索返回的結果覆蓋面廣、信息量巨大,但是不能滿足用戶對於特定領域內信息獲取的需要。使用普通搜索技術的主要搜索引擎有Google、AltaVista、Excite等。

  2)專題搜索

  專題搜索也稱為專業搜索、主題搜索、垂直搜索,是為滿足用戶的特定的信息需求而開發的一種搜索技術,它可以針對某一主題(如納米技術)、某一地區(如中國臺灣)、某一類型的信息(如個人簡歷、主頁、電影、音樂、FAQ等)或某一特定群體(如小學生)的信息進行搜索,只返回符合特定要求的網路信息,而不採集那些與主題無關的信息。

  在專題搜索中,除了根據預先定義好的主題進行網路搜索以外,還可以通過用戶興趣制導或與用戶進行交互等靈活手段來採集信息,也就是說,系統本身不預定義主題,而是通過用戶提交的有關興趣等信息或自動跟蹤用戶的瀏覽習慣來獲得用戶的信息需求,然後根據這些需求進行信息搜集,這種技術也稱為個性化搜索。Tomonari Kamba等人在1995年提出了一個互動式、個性化定製的報紙新聞信息爬行器Krakatoa Chronicle,它具有強大的交互能力和可定製能力,是個性化和主題採集引用結合的一個實例

  3)深層搜索

  在網路中存在許多“看不見的網路資源”(The Invisible Web),也被稱為“Deep Web”或“Hidden Web”,這些信息資源不是以網頁(HTML頁)的形式存在的,而是按一定的格式存儲在網路資料庫中的,因而不能通過超鏈接技術獲取,而必須通過動態網頁技術進行訪問。深層搜索就是一種專門獲取這類信息資源的技術,主要包括資源發現和選擇、模擬查詢、結果整合等。

  4)元搜索

  元搜索又稱為集合型搜索,是一種以現有搜索系統為基礎的搜索方法,它不去直接搜索網路上的信息,而是以現有的多個搜索系統(例如搜索引擎)為搜索對象,對現有的搜索系統進行搜索,對結果加以整合,再提供給用戶。

  元搜索系統本身一般不具備存放網頁信息的資料庫,當用戶提交一個查詢請求時,它把用戶的查詢請求轉換成其他搜索引擎能夠接受的命令格式,並行訪問多個搜索引擎,並把結果進行歸併處理後返回給用戶。這類系統的優點是返回結果的信息量更大、更全,而且由於其檢索結果大都建立在獨立搜索引擎排名較靠前的結果之上,檢索結果也更加準確;缺點是無法使用特定搜索引擎的特殊功能,用戶有時需要做更多的篩選工作。

  有代表性的元搜索系統有支持自然語言檢索的Ask Jeeves(http://www.askjeeves.com),集成Web搜索引擎、新聞組搜索引擎及FTP搜索引擎於一身的Dogpile(http://www.dogpile.com)、以聚類方式組織查詢結構的Vivisimo(http://www.vivisimo.com)等。

Web搜索的發展歷程[1]

  在Web未出現之前,網路中文件傳輸就已經相當頻繁了,為了查找大量散佈在FTP主機中的文件,加拿大麥吉爾大學電腦學院的學生Alan Emtage、Peter Deutsch、Bill Wheelan等人於1990年開發了Archie軟體系統。Archie系統依靠腳本程式,定期搜集並分析各個FTP站點中可下載的文件資源信息,並通過對有關信息進行索引,為用戶提供檢索服務。雖然Archie處理的信息資源對象(非HTML文件)與現代Web搜索系統的信息資源對象(HTML文件)不同,但是後來的Web搜索借鑒了Archie信息搜集、建立索引、提供服務的工作方式,這也使得Archie成為現代Web搜索系統的鼻祖。

  Web的出現使得依靠網頁間特有的超鏈接關係獲取信息成為可能。1993年美國內華達大學的Matthew Gray開發出World Wide Web Wanderer,成為世界上第一個利用HTML網頁之間的鏈接關係來檢測Web發展規模的“機器人”(Robot)程式,這種程式後來也被稱為“蜘蛛”(Spider)或“爬行器”(Crawler)。與Archie的不同之處在於,Wanderer是利用HTML文檔之間的鏈接關係,在Web上從一個網頁“爬行”(Crawl)到另一個網頁,並將爬行過的網頁“抓取”(fetch)到本地進行分析。隨著互聯網的迅速發展,基於HTTP訪問的Web技術迅速普及,到1994年初,一些基於“爬行器”原理的Web搜索工具開始涌現,其中以Jump Station、The World Wide Web Worm(Goto的前身,也就是今天的Overture)和Repository-Based Software Engineering (RBSE) spider最負盛名。而第一個現代意義上的搜索引擎是1994年7月由MichaelMauldin創建的Lycos,它將John Leavitt開發的蜘蛛程式接人其索引程式中,推出了基於“機器人”的數據發現技術,支持搜索結果相關性排序,並首次使用了網頁自動摘要技術。在隨後的幾年時間里,搜索引擎如雨後春筍般涌現出來,推動了Web搜索技術的發展。1995年12月,DEC公司推出了Alta Vista搜索引擎,Alta Vista是第一個實現了自然語言檢索的搜索引擎,具備了基於網頁內容分析、智能處理的能力。1995年華盛頓大學碩士生Eric Selberg和Oren Etzioni開發的Metacrawler第一次實現了元搜索,通過調用其他多個搜索引擎的結果,加以整合,統一提供給用戶,是元搜索引擎的開山之作。

  目前,Internet上提供公開服務的各類搜索引擎已達數百家,而服務於特定目的的搜索系統則不計其數,其中,影響最大、使用最為廣泛的外文搜索引擎是Google、中文搜索引擎是“百度”,前者首創了Page Rank演算法,極大地提高了採集頁面的質量,後者則擁有當前世界上最大的中文信息庫。

Web搜索的研究狀況[2]

  Web搜索的研究已經在全球範圍內掀起了高潮。各國學術界、產業界和政府部門都對其給予了高度的關註,得到了各類國家計劃、研究基金和企業項目的大力支持。在我國,國家863計劃、國家973計劃以及國家自然科學基金都在積極開展有關的研究。國際上,SIGIR(Special Interest Groupon Information Retrieval,ACM的年會)、SIGKDD(Special Interest Groupon Knowledge DiscoveryandData mining,ACM的年會)、TREC(Text REtrieval Conference,NIST舉辦的年會和測試)、TDT(Topic Detectionand Tracking,NIST主辦的測試)、MUC(Message Understanding Conferenee,DARPA主辦的測試)、ACE(Automatic Content Extraction,NIST主辦的測試)等國際會議和評測活動十分活躍,吸引了全世界的註意,強有力地推動了研究進展。Web搜索在理論研究方面取得了長足的進步。關於文本搜索,基於Markov過程的N-gram模型和Sahon的向量空間模型(Vector Space Model,VSM)是目前普遍採用的特征表達模型。而詞頻一倒文檔頻度法(TF-IDF)、信息增益法(IG)、CHI統計量法、互信息法(MI)等提供了有效的特征選擇方法。主成分分析、線性鑒別分析和奇異值分解等方法被用於特征降維,並衍生出了潛語義標號(Latent Semantic Index,LSI)的重要概念。Bayes分類器、支撐向量機、自組織映射、k近鄰以及向量相似度等模型提供了多樣性的分類方法。

  關於語音搜索,有兩種不同的技術路線。第一種是先利用ASR(Automatic Speech Recognition)技術將語音文檔轉換成文本文檔,然後再用文本過濾的方法進行處理。TDT測試中的技術就屬於這一類。這類技術的主要問題是系統的精度和速度受到語音識別的制約。第二種是基於音頻檢索、語音關鍵詞定位和語音鑒別(說話人識別、語種鑒別、性別鑒別等)等技術抽取語音文檔的聲學特征向量,然後進行內容識別和過濾。這種技術直接針對內容識別和過濾的任務要求,有更深的研究潛力。關於Web語音內容過濾系統,在TDT技術體系之外,基於音頻檢索的技術比較常見。

  關於圖像搜索的理論研究也取得了許多重要進展。此項研究與物體圖像識別電腦視覺等關係密切。在物體圖像識別和圖像檢索方面,提出了以星群模型(Constellation Model)、二維多解析度隱Markov(馬爾可夫)模型(2DMHMM)和高斯混合離散餘弦變換模型(GMM-DCT)等為代表的有效方法;在視頻檢索和電腦視覺方面,鏡頭切分、故事切分、關鍵幀抽取、場景分析、動態特征抽取、視頻聚類等關鍵技術已經取得許多突破。

  在系統模型研究方面,TREC會議的測試任務發揮了重要的引導作用。早期的研究主要集中在對經典的Ad-hoe檢索系統的模型改進上,目前該方向的研究已經進入了高原期,因而轉向了其他模型。比較重要的包括Novelty、HARD、QA等。Novelty是一種新穎性檢索系統模型,它首先將與查詢相關的文檔排成一個序列,然後逐個文檔抽取與查詢相關的句子,內容相同或類似的句子第一次抽取後就不再抽取。這是一種集成了段落查詢和信息過濾的檢索模型。HARD代表High Accuracy Retrievalfrom Documents,即高精度文檔檢索。它是一種用戶個性化信息檢索模型,系統在反饋查詢結果時會根據不同的用戶以及用戶以往的查詢經歷給出不同的結果。QA代表Question Answering,即問答式檢索。它允許用戶直接提出問題,系統根據問題去尋找答案,而不是文檔。例如,如果用戶提問“哪位美國總統打開了中美交往的大門”,系統要直接回答“尼克鬆”,而不是提供相關文檔。

  此外,TREC的Enterprise檢索和Spam過濾任務也很重要。Enterprise提出了企業檢索也就是內網(Intranet)的檢索任務,它不同於互聯網上的檢索,其研究重點是如何將一個機構內部的信息進行有效的組織和整合,以便對命名實體、主題文件進行檢索,如專家檢索、郵件檢索等。Spam是TREC設立的第一個內容過濾任務,主要目的是推動垃圾信息過濾的研究。

  在多個成功商用搜索引擎等技術的推動下,Web搜索的應用已經普及。除了公眾所熟悉的Web信息檢索應用之外,還包括政府部門的信息內容過濾,國防及安全部門的情報獲取,電子商務系統中的商品信息推薦等。

  雖然研究、開發和應用已經取得了長足的進展,但Web搜索仍然處於發展的初級階段。在理論上,許多核心問題,如用戶需求的把握、文檔內容的理解和提煉、相關文檔的排序數據模型演進的跟蹤等都是懸而未決的開放問題。當前階段,人們的主要努力方向是個性化篩選、多媒體融合、專業性劃分、語義級匹配等。

Web搜索的評價標準[1]

  Web搜索主要為滿足用戶的查找信息需求,旨在以最短的時間為用戶提供最優質的信息,由於Web搜索與傳統文獻檢索有著相似的特點,因此對於Web搜索的評價也可參照傳統文獻檢索的評價標準,並結合Web的特點來進行,主要的評價指標包括搜全率、搜準率和搜索速度。

  1.搜全率

  搜全率指Web搜索系統提供的搜索結果中相關信息文檔數與網路中存在的相關信息文檔數之比,這一指標是Web搜索系統對網路信息覆蓋率的真實反映。與這一指標相關的評價參數包括Web搜索系統對網路信息的有效覆蓋率、搜索結果庫的容量以及搜索結果更新頻率等。這些指標共同決定著Web搜索對特定信息的搜全率。2.搜準率

  搜準率是Web搜索系統提供的搜索結果與搜索目標的匹配程度,具體說是搜索結果中有效信息的文檔數與全部文檔數之比。每一種Web搜索工具,特別是專題搜索工具,為提高搜準率,均精心設計了一套搜索技巧與方法體系,如相關度判斷、網頁評價等。影響搜準率的因素包括Web搜索系統的新網頁的更新機制、重覆信息的過濾機制等。

  3.搜索速度

  Web搜索系統直接跟蹤Web信息,而Web信息具有很強的時效性,因此,對系統的搜索速度有很高的要求。搜索速度一般取決於兩個因素,一個是與帶寬有關的網路速度,另一個是Web搜索系統本身的速度,只有在兩者均獲得可靠的技術支持的情況下,才能保證理想的檢索速度。

Web搜索的科學價值[2]

  Web搜索廣闊的應用領域、巨大的社會經濟作用以及高度的技術挑戰性使其充滿了科學研究價值。

  第一,Web搜索所研究的是一個嶄新的科學問題,即如何在無邊的動態的Web信息中尋找最符合用戶需求的信息。這個問題不僅在尺度上空前巨大,而且約束條件非常不確定。因為系統通常難以瞭解用戶真正的信息需求。用戶總是希望以最簡單的提問或最便捷的操作,如輸入少量關鍵字的方式來表達自己的請求,因而系統得到的指示是十分籠統和模糊的。我們應該認識到,Web搜索在計算規模和約束的不確定性方面已經將人類的科學研究帶到了一個新高度。第

  二,Web搜索既要考慮信息的客觀性,又要考慮信息的主觀性。所謂信息的客觀性,是指信息的數據形式在Web中是客觀存在的,不論面對哪個主體(用戶),承載信息的數據都是相同的。而信息的主觀性是指同樣的數據給用戶提供的信息(量)是不同的。一篇介紹攝影常識的文章對初學者來說可能“很有信息量”,而對一個攝影師來說信息量幾乎為零。在Web搜索中,上述客觀性因素和主觀性因素都會影響搜索結果的正確性(質量)。這種特點在普通的自然科學研究中是很少見的,因此引起了人們更大的研究興趣。

  第三,Web搜索強有力地帶動了相關學科,特別是智能學科的發展。智能學科中的自然語言理解、模式識別機器學習數據挖掘等在Web搜索中找到了巨大的發展空間,近年來已經形成了空前高漲的研究熱潮。例如文本分類、多媒體識別、海量數據挖掘、線上增量機器學習、線上分類和聚類信息抽取、信息摘要、命名實體識別等研究都緊密地與Web搜索聯繫了起來。商用搜索引擎的智能化趨勢也正是在這些研究的基礎上形成的。甚至可以預期Web搜索將成為一個大面積涵蓋智能學科的新興獨立學科。

參考文獻

  1. 1.0 1.1 1.2 李廣建編著.Web信息系統導論.高等教育出版社,2008
  2. 2.0 2.1 郭軍主編.Web搜索.高等教育出版社,2009.08
本條目對我有幫助1
MBA智库APP

扫一扫,下载MBA智库APP

分享到:
  如果您認為本條目還有待完善,需要補充新內容或修改錯誤內容,請編輯條目投訴舉報

本条目由以下用户参与贡献

KAER,jane409,方小莉,Mis铭,寒曦,Tracy,林晓辰,刘维燎,LuyinT,nonameh.

評論(共0條)

提示:評論內容為網友針對條目"Web搜索"展開的討論,與本站觀點立場無關。

發表評論請文明上網,理性發言並遵守有關規定。

打开APP

以上内容根据网友推荐自动排序生成

官方社群
下载APP

闽公网安备 35020302032707号