搜索引擎

用手机看条目

出自 MBA智库百科(https://wiki.mbalib.com/)

搜索引擎(Search Engine)

目錄

什麼是搜索引擎

  搜索引擎是指根據一定的策略、運用特定的電腦程式搜集互聯網上的信息,在對信息進行組織和處理後,為用戶提供檢索服務的系統。網際網路上的信息浩瀚萬千,而且毫無秩序,所有的信息象汪洋上的一個個小島,網頁鏈接是這些小島之間縱橫交錯的橋梁,而搜索引擎,則為用戶繪製一幅一目瞭然的信息地圖,供用戶隨時查閱。

  從使用者的角度看,搜索引擎提供一個包含搜索框的頁面,在搜索框輸入詞語,通過瀏覽器提交給搜索引擎後,搜索引擎就會返回跟用戶輸入的內容相關的信息列表。

  互聯網發展早期,以雅虎為代表的網站分類目錄查詢非常流行。網站分類目錄由人工整理維護,精選互聯網上的優秀網站,並簡要描述,分類放置到不同目錄下。用戶查詢時,通過一層層的點擊來查找自己想找的網站。也有人把這種基於目錄的檢索服務網站稱為搜索引擎,但從嚴格意義上講,它並不是搜索引擎。

搜索引擎的歷史

  1990年初當時萬維網還未出現,為了查詢散佈在各個分散的主機中的文件,曾有過Archie、Gopher等搜索工具,隨著互聯網的迅速發展,基於HTTP訪問的web技術的迅速普及,他們就不再能適應用戶的需要。在1994年1月,第一個既可搜索又可瀏覽的分類目錄EINet Galaxy(Tradewave Galaxy)上線,它還支持Gopher和Telnet搜索。同年4月,Yahoo目錄誕生,隨著訪問量和收錄鏈接數的增長,開始支持簡單的資料庫查詢。這就是我們說的早期的目錄導航系統,他們的缺點是網站收錄/更新都要靠人工維護,所以在信息量劇增的條件下,就不是非常受用了。

  1994年7月,Lycos推出了基於robot的數據發掘技術,並支持搜索結果相關性排序,並且他第一個開始在搜索結果中使用了網頁自動摘要。Infoseek也是同時期的一個重要代表,他們是搜索引擎史上一個重要的進步。

  1995年,一種新的搜索引擎工具出現了——元搜索引擎,第一個元搜索引擎是華盛頓大學的學生開發的Metacrawler。用戶只需提交一次搜索請求,由元搜索引擎負責轉換處理後提交給多個預先選定的獨立搜索引擎,並將從各獨立搜索引擎返回的所有查詢結果,集中起來處理後再返回給用戶。

  1995年12月才登場亮相的AltaVista推出了大量的創新功能使它迅速到達當時搜索引擎的頂峰,它第一個支持自然語言搜索的搜索引擎,具備了基於網頁內容分析,智能處理的能力,第一個實現高級搜索語法的搜索引擎(如AND、OR、NOT等),同時AltaVista還支持搜索新聞群組,搜索圖片等具有劃時代意義的功能。同時期還有inktomi、HotBot等搜索引擎。

  1997年8月Northernlight公司正式推出搜索引擎,它第一個支持對搜索結果進行簡單的自動分類,也是當時擁有最大資料庫的搜索引擎之一。

  1998年10月,Google(中文名谷歌)誕生。它是目前世界上最流行的搜索引擎之一,具備很多獨特而且優秀的功能,並且在界面等實現了革命性創新。

  1999年5月,Fast(Alltheweb)公司發佈了自己的搜索引擎AllTheWeb,它的網頁搜索可利用ODP自動分類,支持Flash和pdf搜索,支持多語言搜索,還提供新聞搜索、圖像搜索、視頻、MP3、和FTP搜索,擁有極其強大的高級搜索功能。它曾經是最流行的搜索引擎之一,後在2003年2月被Overture收購。

  在中文搜索引擎領域,1996年8月成立的搜狐公司是最早參與作網路信息分類導航的網站,曾一度有“出門找地圖,上網找搜狐的”美譽。由於其人工分類提交的局限性,隨著網路信息的暴增,逐漸被基於robot自動抓取智能分類的新一代信息技術取代。

  臺灣中正大學吳升教授所領導的GAIS實驗室1998年1月創立了Openfind中文搜索引擎,是最早開發的中文智能搜索引擎,採用GAIS實驗室推出多元排序(PolyRankTM)核心技術,截止2002年6月,宣佈累計抓取網頁35億,開始進入英文搜索領域。

  北大天網是教育網最流行的搜索引擎,它由北大電腦系網路與分散式系統研究室開發,於1997年10月29日正式在CERNET上提供服務, 2000年初成立天網搜索引擎新課題組,由國家973重點基礎研究發展規劃項目基金資助開發,收錄網頁約6000萬,利用教育網優勢,有強大的ftp搜索功能。

  百度中文搜索由超鏈分析專利發明人、前Infoseek資深工程師李彥巨集和好友徐勇2000年1月創建,目前支持網頁信息檢索、圖片、Flash、音樂等多媒體信息的檢索。並且百度在中文領域第一個開始使用ppc經營模式。

  2002年開始很多公司受搜索市場前景和Google神話的吸引,積極進入搜索引擎市場,謀求一席之地。但是不幸的是他們當中很多公司尤其是不少中國公司採用流氓手段進行自己搜索引擎的推廣工作,常用的手段是瀏覽器劫持、惡意捆綁adware/spyware等等。中搜是由慧聰國際主持開發的,自稱是搜索領域的後起之秀。目前處於起步階段,但是採用流氓軟體手段推廣後,強占了不少用戶的搜索引擎選擇。2003年年底慧聰搜索改名為中國搜索,推出第三代智能搜索引擎。最近中國搜索主推桌面搜索——網路豬,是臭名昭著的流氓軟體之一。

  2003年11月,Yahoo全資收購3721公司。2005年8月,阿裡巴巴Yahoo達成戰略合作,全資收購雅虎中國,並更名為阿裡巴巴雅虎,並將其業務重點全面轉向搜索領域。

  2004年8月3日,搜狐公司推出中文搜索引擎搜狗。

  2006年9月,微軟公司正式推出了擁有自主研發技術的Live Search,宣佈進軍搜索引擎市場,挑戰Google在網路搜索領域的霸主地位。

  2006年12月,網易公司推出中文搜索引擎有道。

  2008年5月,整合搜索引擎搜索島誕生,融合百家之長,號稱中國最好的(山寨)搜索引擎,搜索島是一個面向用戶的以整合中國各個垂直領域最好的搜索引擎建立的。從用戶的角度,搜索島的體驗非常不錯,故其得到了很多網友的喜愛。它的出現也是互聯網開放性的一個體現,也給各大搜索引擎廠商一個啟迪,就是一切為用戶著想,要瞭解並滿足用戶真正的需要。

搜索引擎的組成

  搜索引擎一般由搜索器、索引器、檢索器和用戶介面四個部分組成:

  1、搜索器:其功能是在互聯網中漫游,發現和搜集信息。

  2、索引器:其功能是理解搜索器所搜索到的信息,從中抽取出索引項,用於表示文檔以及生成文檔庫的索引表。

  3、檢索器:其功能是根據用戶的查詢在索引庫中快速檢索文檔,進行相關度評價,對將要輸出的結果排序,並能按用戶的查詢需求合理反饋信息。

  4、用戶介面:其作用是接納用戶查詢、顯示查詢結果、提供個性化查詢項。

搜索引擎的工作原理

  搜索引擎的工作原理,大致可以分為:

  1、搜集信息:搜索引擎的信息搜集基本都是自動的。搜索引擎利用稱為網路蜘蛛的自動搜索機器人程式來連上每一個網頁上的超連結。機器人程式根據網頁鏈到其他中的超鏈接,就象日常生活中所說的“一傳十,十傳百……”一樣,從少數幾個網頁開始,連到資料庫上所有到其他網頁的鏈接。理論上,若網頁上有適當的超連結,機器人便可以遍歷絕大部分網頁。

  2、整理信息:搜索引擎整理信息的過程稱為“建立索引”。搜索引擎不僅要保存搜集起來的信息,還要將它們按照一定的規則進行編排。這樣,搜索引擎根本不用重新翻查它所有保存的信息而迅速找到所要的資料。想象一下,如果信息是不按任何規則地隨意堆放在搜索引擎的資料庫中,那麼它每次找資料都得把整個資料庫完全翻查一遍,如此一來再快的電腦系統也沒有用。

  3、接受查詢:用戶向搜索引擎發出查詢,搜索引擎接受查詢並向用戶返回資料。搜索引擎每時每刻都要接到來自大量用戶的幾乎是同時發出的查詢,它按照每個用戶的要求檢查自己的索引,在極短時間內找到用戶需要的資料,並返回給用戶。目前,搜索引擎返回主要是以網頁鏈接的形式提供的,這樣通過這些鏈接,用戶便能到達含有自己所需資料的網頁。通常搜索引擎會在這些鏈接下提供一小段來自這些網頁的摘要信息以幫助用戶判斷此網頁是否含有自己需要的內容。

  整理信息及接受查詢的過程,大量應用了文本信息檢索技術,並根據網路超文本的特點,引入了更多的信息。

搜索引擎的分類

  1、全文索引

  全文搜索引擎是名副其實的搜索引擎,國外代表有Google,國內則有著名的百度搜索。它們從互聯網提取各個網站的信息(以網頁文字為主),建立起資料庫,並能檢索與用戶查詢條件相匹配的記錄,按一定的排列順序返回結果。

  根據搜索結果來源的不同,全文搜索引擎可分為兩類,一類擁有自己的檢索程式(Indexer),俗稱“蜘蛛”(Spider)程式或“機器人”(Robot)程式,能自建網頁資料庫,搜索結果直接從自身的資料庫中調用,上面提到的Google和百度就屬於此類;另一類則是租用其他搜索引擎的資料庫,並按自定的格式排列搜索結果,如Lycos搜索引擎。

  2、目錄索引

  目錄索引雖然有搜索功能,但嚴格意義上不能稱為真正的搜索引擎,只是按目錄分類的網站鏈接列表而已。用戶完全可以按照分類目錄找到所需要的信息,不依靠關鍵詞(Keywords)進行查詢。目錄索引中最具代表性的莫過於大名鼎鼎的Yahoo新浪分類目錄搜索。

  3、元搜索引擎

  元搜索引擎(META Search Engine)接受用戶查詢請求後,同時在多個搜索引擎上搜索,並將結果返回給用戶。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等,中文元搜索引擎中具代表性的是搜星搜索引擎。在搜索結果排列方面,有的直接按來源排列搜索結果,如Dogpile;有的則按自定的規則將結果重新排列組合,如Vivisimo。

  4、其他非主流搜索引擎形式

  1)集合式搜索引擎:該搜索引擎類似元搜索引擎,區別在於它並非同時調用多個搜索引擎進行搜索,而是由用戶從提供的若幹搜索引擎中選擇,如HotBot在2002年底推出的搜索引擎。

  2)門戶搜索引擎:AOL Search、MSN Search等雖然提供搜索服務,但自身既沒有分類目錄也沒有網頁資料庫,其搜索結果完全來自其他搜索引擎。

  3)免費鏈接列表(Free For All Links,簡稱FFA):一般只簡單地滾動鏈接條目,少部分有簡單的分類目錄,不過規模要比Yahoo!等目錄索引小很多。

搜索引擎的商務模式

  在搜索引擎發展早期,多是作為技術提供商為其他網站提供搜索服務,網站付錢給搜索引擎。後來,隨著2001年互聯網泡沫的破滅,大多轉向為競價排名方式。

  現在搜索引擎的主流商務模式(百度的競價排名、Google的AdWords)都是在搜索結果頁面放置廣告,通過用戶的點擊向廣告主收費。這種模式最早是比爾·格羅斯Bill Gross)提出的。他於1998年6月創立GoTo公司(後於2001年9月更名為Overture),實施這種模式,取得了很大的成功,並且申請了專利。這種模式有兩個特點,一是點擊付費Pay Per Click),用戶不點擊則廣告主不用付費。二是競價排序,根據廣告主的付費多少排列結果。2001年10月,Google推出AdWords,也採用點擊付費和競價的方式。2002年,Overture起訴Google侵犯了其專利。2004年8月,和Yahoo!(Yahoo!於2003年7月收購Overture)達成和解,向後者支付了270萬普通股(合3億美元不到)作為和解費。

  AdSense是Google於2003年推出的一種新的廣告方式。AdSense使各種規模的的第三方網頁發佈者進入Google龐大的廣告商網路。Google在這些第三方網頁放置跟網頁內容相關的廣告,當瀏覽者點擊這些廣告時,網頁發佈者能獲得收入。AdSense在blogger中很受歡迎。同時,Google武斷地刪除一些帳號,引起部分人的不滿。類似的廣告方式,其他搜索引擎也先後推出。雅虎的廣告方式是YPN(Yahoo Publisher Network),YPN除了可以在網頁上顯示與內容相關的廣告以外,還可以通過在RSS訂閱中來顯示廣告微軟廣告計劃叫AdCenter。百度也推出主題推廣。

搜索引擎的未來展望

  隨著互聯網的發展,網上可以搜尋的網頁變得愈來愈多,而網頁內容的質素亦變得良莠不齊,沒有保證。所以,未來的搜索引擎將會朝著知識型搜索引擎的方向發展,期以為搜尋者提供更準確及適用的資料。目前,網上的百科全書如雨後春筍般發展起來;另一方面,近年來亦有不少公司嘗試在搜尋方面改進,務求更符合用戶的要求。當中諸如Copernic Agent之類的搜尋代理就是其中之一。

  在臺灣,威知資訊(WebGenie)是利用文字探勘(Text Mining)技術發展搜尋引擎產品的公司,利用人工智慧演算法,可達成目前搜尋引擎所缺乏的簡易人機互動模式,諸如關聯字提示、動態分類字提示等,算是較另類的搜尋引擎產品。

本條目對我有幫助34
MBA智库APP

扫一扫,下载MBA智库APP

分享到:
  如果您認為本條目還有待完善,需要補充新內容或修改錯誤內容,請編輯條目

評論(共0條)

提示:評論內容為網友針對條目"搜索引擎"展開的討論,與本站觀點立場無關。

發表評論請文明上網,理性發言並遵守有關規定。

MBA智库
打开APP

以上内容根据网友推荐自动排序生成