元搜索引擎
出自 MBA智库百科(https://wiki.mbalib.com/)
元搜索引擎(Meta Search Engine)
目錄 |
什麼是元搜索引擎[1]
元搜索引擎(meta search engine)是一種調用其他獨立搜索引擎的引擎。“元”(meta)為“總的”、“超越”之意,元搜索引擎就是對多個獨立搜索引擎的整合、調用、控制和優化利用。
元搜索引擎的特點[2]
第一,涵蓋較多的搜索資源,可隨意選擇和調用源搜索引擎;
第二,具備儘可能多的可選擇功能,如資源類型(網站、網頁、新聞、軟體、FTP、MP3、圖像等)選擇、返回結果數量控制、結果時段選擇、過濾功能選擇等;
第三,強大的檢索請求處理功能(如支持邏輯匹配檢索、短語檢索、自然語言檢索等)和不同搜索引擎間檢索語法規則、字元的轉換功能(如對不支持“NEAR”算符的搜索引擎,可自動實現由“NEAR”向“AND”算符的轉換等);
第四,詳盡全面的檢索結果信息描述(如網頁名稱、URL、文摘、源搜索引擎、結果與用戶檢索需求的相關度等);
第五,支持多種語言檢索。
元搜索引擎的功能[2]
目前運營的元搜索引擎各具特色,功能各有側重。完全“理想”的尚不多見。一些元搜索引擎在某些方面較為優秀,而其他功能則欠缺或需改進:如大多元搜索引擎不支持多語種,尤其是漢語檢索;一些元搜索引擎實現檢索語法轉換的能力有限,不支持指定欄位檢索,不能充分發揮各個獨立搜索引擎的高級檢索功能;部分元搜索引擎無源搜索引擎列表,用戶不能自主選擇和調用源搜索引擎;大部分元搜索引擎僅支持調用Alta—Vista、Excite、GoTo.corn、Yahoo!、Infoseek、Lycos等常用的搜索引擎,一些大型搜索引擎如NorthernLight、HotBot等被排除在外,人為地限制了搜索資源的利用;在檢索結果上,元搜索引擎只能返回十幾、數十條“相關度”較高的結果,大量可能有價值的源搜索引擎的檢索結果被忽視,影響檢索結果的全面性。元搜索引擎的功能受源搜索引擎和元搜索技術的雙重製約:一方面,源搜索引擎各具特色的強大功能在元搜索引擎中受到限制而不能充分體現.而另一方面,任何一種元搜索技術都不能發掘和利用源搜索引擎的全部功能。
1995年華盛頓大學碩士生EricSelberg和OrenEtzioni推出第一個元搜索引擎——Metacrawler以來,這一新型的網路檢索工具異軍突起,發展迅速,目前可用的元搜索引擎已近百種。儘管元搜索引擎存在著這樣那樣的功能局限,但其以涵蓋較多的搜索資源,能夠在儘可能短的時間內提供相對全面、準確的檢索結果等諸多優異功能受到用戶的青睞,已漸成為一種不可或缺的極具潛力的網路檢索工具。
元搜索引擎的基本構成[3]
獨立搜索引擎根據用戶的查詢請求,按照一定的演算法從索引資料庫中查找對應的信息返回給用戶。為了保證用戶查找信息的精度和新鮮度,搜索引擎需要建立並維護一個龐大的索引資料庫。在獨立搜索引擎中,索引資料庫中的信息是通過一種叫做網路爬蟲(Spider)的程式從互聯網採集而得到網頁。所以一般獨立搜索引擎主要由網路爬蟲、索引與搜索引擎軟體等部分組成。
與獨立搜索引擎相比,元搜索引擎不需要維護龐大的索引資料庫,也不需要網路爬蟲去採集網頁。具體說來,元搜索引擎主要由三部分組成(如圖所示):請求提交代理、檢索介面代理、結果顯示代理。
請求提交代理負責實現用戶個性化的檢索設置要求,包括調用哪些搜索引擎、檢索時間限制、結果數量限制等。檢索介面代理負責將用戶的檢索請求“翻譯”成滿足不同搜索引擎“本地化”要求的格式。結果顯示代理負責所有源搜索引擎檢索結果的去重、合併、輸出處理等。
- 1.請求提交代理
請求提交代理負責將用戶的請求分發給獨立搜索引擎。一般的元搜索引擎設定了它所調用的獨立搜索引擎。有些元搜索引擎讓用戶自己選擇所用的搜索引擎。還有一種通過分析用戶的興趣和網路的實際情況來選擇搜索引擎,這有利於提高用戶查詢的準確度和對用戶的響應速度。
- 2.檢索介面代理
由於不同的搜索引擎所支持的查詢方式不同,如有些搜索引擎支持stemming(詞乾法)方式。即便是同一種方式,也有不同的表達方法,所以必須將元搜索引擎中的查詢請求映射到對應的搜索引擎中,而且不能丟失語義信息。
- 3.結果顯示代理
元搜索引擎的結果一般由網頁標題、內容摘要、所指網頁的URL、相關度、信息返回時間、所採用的引擎標誌等組成。這些搜索結果是多個獨立搜索引擎的並集。元搜索引擎的結果應該具有多種排序方式以滿足不同用戶的需要。元搜索引擎常用的排序方式有:相關度排序、時間排序、功能變數名稱分類排序、搜索引擎排序等。
元搜索引擎把用戶的查詢串分配給幾個指定的獨立搜索引擎,再將各獨立搜索引擎所得的結果分級排序,刪去重覆內容,然後給出查詢結果。也就是說元搜索引擎是建立在獨立搜索引擎之上的搜索引擎。
元搜索引擎的分類[3]
元搜索引擎有多種分類方式,在數據處理方面,元搜索引擎分為並行處理式和串列處理式兩大類。並行處理式元搜索引擎將用戶的查詢請求同時轉送給它調用鏈接的多個獨立型搜索引擎進行查詢處理,串列處理式元搜索引擎將用戶的查詢請求依次轉送給它調用鏈接的每一個獨立型搜索引擎進行查詢處理。
按功能劃分,元搜索引擎包括多線索式搜索引擎和A11-in-One式搜索引擎;按運行方式的差異可分為線上搜索引擎和桌面搜索引擎。
根據請求提交代理、檢索介面代理和結果顯示代理的複雜程度,可以將元搜索引擎分為簡單元搜索引擎和複雜元搜索引擎;根據請求提交代理、檢索介面代理和結果顯示代理所在位置的不同,又可將複雜元搜索引擎分為桌面型元搜索引擎和基於Web的元搜索引擎。
- (1)簡單元搜索引擎。
簡單元搜索引擎實際上並不能稱為搜索引擎,它只是給用戶提供一個搜索引擎列表,用戶可以選擇所用的搜索引擎。用戶輸入查詢請求,然後直接以CGI方式調用對應的搜索引擎。由於具體搜索引擎是由用戶選擇的,而且查詢請求只能發送給一個搜索引擎,所以請求提交代理和檢索介面代理的設計就非常簡單,可以直接設計在靜態網頁中。簡單元搜索引擎不進行搜索結果的處理,這就省去了圖中的結果集成代理。其實將簡單元搜索引擎叫做搜索引擎列表更為恰當。
- (2)桌面型元搜索引擎。
桌面型元搜索引擎以程式的方式提供給用戶。它運行在用戶的機器上,用戶的查詢請求直接由用戶端分發給它所調用的搜索引擎,然後對返回的搜索結果進行集成後以一定的方式顯示。對桌面型元搜索引擎來說,圖中的請求提交代理、檢索介面代理和結果顯示代理都在客戶端。
- (3)基於Web的元搜索引擎。
基於Web的元搜索引擎以Web方式為用戶提供元搜索服務。請求提交代理、檢索介面代理和結果顯示代理都存放在元搜索引擎所在的伺服器端。在這種方式中,用戶的元查詢請求經過伺服器端的請求提交代理和檢索介面代理將查詢請求分發給它所調用的獨立搜索引擎,這些獨立搜索引擎返回的搜索結果由伺服器端的結果顯示代理處理後再返回給用戶。由於Web易用性的特點,基於Web的元搜索引擎使用更為廣泛。
元搜索引擎的工作過程[3]
用戶通過www服務訪問元搜索引擎,並向Web伺服器提出檢索式,當Web伺服器收到查詢任務時,首先訪問結果資料庫,看在近期是否有相同的檢索,如果有則直接返回保存的結果,完成查詢;如果沒有,就將檢索式進行處理,分析並轉化成與所要查找的搜索引擎相應的檢索式格式,然後送至Web處理介面部分。Web處理介面通過並行的方式同時查詢多個搜索引擎,集中所有的查詢結果。根據各引擎的重要性,以及所得結果的相關度,通過演算法對結果進行抽取和排序,並生成最終結果網頁返回給用戶。與此同時,將此次結果保存在結果資料庫中,以備下次查詢參考。這就是整個元搜索引擎的服務過程。
其中對於結果資料庫中記錄的處理,要指定一個生存期,也就是超過一定時間的檢索結果要予以剔除,以保證檢索的時效性。需要指出的是,首先由於大部分搜索引擎互不兼容,相互操作性差,而且用戶介面不一致,使得檢索式處理非常複雜;這不僅要求精確掌握各個搜索引擎在查詢時調用CGI的格式,還要做到將當前檢索式轉化成相應的格式。其次,由於不同搜索引擎反饋的結果頁面格式相差很大,對於這些頁面的處理難度也相當大,一方面要解析頁面找到的查詢結果,同時還要能夠把這些結果的內容抽取出來,目前採用最多的是固定查找和智能判斷相結合的策略。
作為一個元搜索引擎,如何能夠將獲取的信息按照相關度進行排序也是非常複雜的問題,因為不同搜索引擎在本身查詢結果的排序過程中採用的演算法相差很大,甚至有些未知的演算法,而元搜索引擎必須結合這些使用不同排序演算法產生的結果,並以統一的結果形式返回給用戶。這些都是在研究元搜索引擎中遇到的難點,也是能否成功實現一個元搜索引擎的關鍵。