智能搜索引擎
出自 MBA智库百科(https://wiki.mbalib.com/)
目錄 |
智能搜索引擎是根據目前搜索引擎的發展趨勢,除提供傳統的全網快速檢索、相關度排序等基本功能外,還提供用戶角色登記、用戶興趣自動識別、內容的語義理解、智能化信息過濾和推送等功能,為用戶提供一個真正智能化、個性化的網路信息搜集工具。智能搜索引擎利用神經網路、關聯規則、範例推理、模糊聚類、決策樹、粗糙集、隱馬爾科夫模型等技術實現分散式並行檢索,以數據挖掘與知識發現為主要手段,加上自然語言理解、智能搜索代理、多媒體信息檢索等技術的應用,進一步提高系統性能和檢索的精度與效果。
(一)智能化
智能搜索引擎的搜索器可針對特定站點或者遍歷整個互聯網自動完成線上信息的索引,再採取最有效的搜索策略,選擇最佳時機獲取從互聯網上自動收集、整理的信息。智能搜索引擎可以將多個引擎的搜索結果整合,作為一個整體存放在資料庫中,確保找到最全面的信息,並且兼顧信息的關聯性。
(二)個性化
智能搜索引擎可以滿足用戶的個性化需求,協助用戶在海量信息中找到所需的信息,同時為用戶提供方便安全的信息獲取和保存機制,建立用戶虛擬個人資料庫,通過有效分類為用戶提供個性化的服務。
(三)移動化
智能搜索引擎可以通過電子郵件、電話、傳真、行動電話等方式與用戶取得聯繫,不再局限於互聯網上。還可以根據用戶特定時刻的位置信息,選擇最恰當的方法與用戶通信。
(四)主動性
智能搜索引擎通過觀察用戶的行為,主動獲取用戶的專業、風格、知識水平、行為習慣、興趣愛好等相關背景信息,通過不斷的訓練學習,增長智能;同時通過用戶對返回信息的評價,調整自己的行為。
(五)交互性
智能搜索引擎可以通過自然語言與用戶進行交互,實現交互性搜索,以邏輯判斷實現對搜索主題的快速分析,根據用戶的查詢內容,展開多組相關的主題,幫助用戶快速找到相關搜索結果。
下麵介紹智能搜索引擎所涉及的關鍵技術。
(一)自然語言理解技術
自然語言就是人們日常生活中使用的各種通俗語言。中國漢語中存在大量的歧義現象,對一個詞有多種理解。漢語的語音、語調、輕重音及停頓等,一經書面表達就有可能產生歧義;漢語虛詞多,組詞靈活,字在詞語中的位置變化也可能產生歧義。所以自然語言理解的任務就是建立一種能夠像人一樣理解、分析並回答自然語言結果的電腦模型。智能搜索引擎的關鍵技術就是對自然語言的理解,將信息檢索從目前基於關鍵詞層面提高到基於知識層面,對知識必須具有一定的理解和處理能力。其中要使用到漢語分詞技術、短語識別技術、同義詞處理技術等。
1.漢語分詞技術。關鍵詞查詢的前提是將查詢條件分解成若幹個關鍵詞,再以一些關鍵詞來表示文檔。漢語分詞技術可以根據語言資料庫進行彙總,獲取每個關鍵詞出現的概率以及詞與詞之間的關聯信息,再使用正向與逆向最大匹配法進行細分,排除歧義,提高關鍵詞的準確性。
2.短語識別技術。關鍵詞之間的關係不是孤立的,而是互相關聯的,它們聯合起來作為一個短語共同表達一個完整的含義。短語識別技術就是利用詞與詞之間的特點搭配和漢語語法規則,有效地兼顧關鍵詞與它們之間的關係,更加準確地表述查詢請求和文檔信息。例如,傳統的搜索引擎查詢廣西有哪些好玩的地方,輸入“廣西”和“好玩”這兩個關鍵字實施查詢,結果會顯示上萬個網址,其中絕大多數是無關的信息。而智能搜索引擎中,通過短語識別技術,顯示的則是有關廣西旅游景點和娛樂場所的網站信息。
3.同義詞處理技術。通過人工構造同義詞表,建立同義詞資料庫、蘊含詞庫等,在語言資料庫中自動獲取同義詞關係,結合查詢的關鍵詞,主動關聯到與其同義或意思相近的詞語,提高信息匹配的準確度。
(二)智能搜索代理技術
智能搜索代理技術是智能搜索引擎的核心部件,它根據預定的策略和用戶的查詢需求主動地完成信息檢索、篩選和管理,免去了用戶被動搜索的困擾。一方面,智能搜索代理為搜集到的信息建立索引,通過檢索器按照用戶的查詢要求輸入檢索索引庫,並將查詢結果反饋給用戶;另一方面,智能搜索代理根據掌握到的用戶信息對用戶的查詢計劃、興趣、意圖等進行推理和預測,並根據搜索環境的變化及時調整工作計劃,為用戶提供快速有效的查詢結果。
(三)多媒體信息檢索技術
多媒體信息是文本、圖像、視頻和音頻的混合體。多媒體信息檢索是一種基於內容特征的檢索,是對媒體對象的內容及上下語義環境進行的檢索,如圖像中的顏色、紋理、形狀,視頻中的鏡頭、場景、鏡頭的運動,聲音中的音調、響度、音色等。基於內容的檢索突破了傳統的基於文本檢索技術的檢索,直接對圖像、視頻、音頻內容進行分析,抽取特征和語義,利用這些內容特征建立索引併進行快速檢索,可以滿足用戶多層次的需求。
隨著社會的日益信息化,智能搜索引擎已成為一個新的研究、開發領域,它越來越引起人們的重視。智能搜索引擎的發展主要表現在以下幾個方面。
(一)提高信息查詢結果的精度,提高檢索的有效性
用戶使用搜索引擎進行信息查詢,並不關註返回結果的多少,而是看結果是否和自己的需求吻合。對於一個查詢,傳統的搜索引擎動輒返回幾十萬、幾百萬篇文檔,用戶不得不在結果中篩選。智能搜索引擎通過以下三種方法解決查詢結果過多的現象:一是通過各種方法獲得用戶沒有在查詢語句中表達出來的真正用意,包括使用智能代理跟蹤用戶檢索行為,分析用戶模型;使用相關度反饋機制,使用戶告訴搜索引擎哪些文檔和自己的需求相關(及其相關程度),通過多次交互逐步求精。二是用正文分類技術將結果分類,使用可視化技術顯示分類結構,用戶可以只瀏覽自己感興趣的類別。三是進行站點類聚或相近內容類聚,減少信息返回的總量。
(二)提供基於智能搜索代理的信息過濾和個性化服務
智能搜索代理具有解決問題所需的豐富知識、策略和相關數據,能夠進行相關的推理和智能計算,可以在用戶沒有給出十分明確的需求時推測出用戶的意圖、興趣或愛好,並按最佳的方式完成任務,將用戶感興趣的、對用戶有用的信息反饋給用戶。智能搜索代理具有不斷學習、適應信息和用戶興趣動態變化的能力,能自動過濾一些不合理或可能給用戶帶來危害的要求,並且根據環境適當地進行自我調節,提高問題的處理能力,從而提供個性化的服務。
(三)豐富知識資源庫,改進知識搜索引擎技術
知識搜索是在搜索引擎發展進入智能化階段的過程,是建立在明確的知識來源基礎上,根據用戶的身份與訴求,回饋恰當知識結果的搜索引擎。而知識資源庫的豐富程度決定著知識檢索程度的高低,它是實現智能搜索的基礎和核心。目前知識搜索引擎的代表網站主要有:中國知網,它是目前最大的基於互聯網出版的學術知識搜索引擎。通過豐富知識資源庫和改進知識搜索引擎技術,更為強調知識的準確、標準,強調通過互動機制如評價、交流、修改、維護等進行搜索結果的自我學習,對信息進行接受、判斷、提取、分析和概括之後形成自己的知識,保存後成為下一次分析、概括的依據和基礎,從中檢索出對用戶最有價值的信息,以達到知識搜索的智能化。
(四)採用分散式體繫結構提高系統規模和效能
智能搜索引擎的實現可以採用集中式體繫結構和分散式體繫結構。但是當系統規模到達一定程度(如網頁數達到億級)時,必然要採用某種分散式方法,以提高系統效能。分散式搜索引擎在架構和管理上採用“分佈和集中相結合”的模式,具有集中式搜索引擎無法比擬的優勢。通過充分利用伺服器集群的各類資源,達到提高伺服器性能、提升集群總體服務質量的目的。
- 黎麗.淺析智能搜索引擎技術及發展(A).電腦光碟軟體與應用.2011,14
請文明上網,理性發言並遵守有關規定。