個性化元搜索引擎
出自 MBA智库百科(https://wiki.mbalib.com/)
目錄 |
個性化元搜索引擎是元搜索引擎和個性化技術的結合,它一方面能夠提高搜索引擎的查全率,用戶不用同時查詢多個搜索引擎:另一方面它能為不同用戶提供不同的服務,以滿足不同的需求。個性化服務通過收集和分析用戶信息來學慣用戶的興趣和行為,從而達到主動推薦的目的。個性化服務技術能充分提高站點的服務質量和訪問效率,從而吸引更多的訪問者。[1]
個性化元搜索引擎的運作機理[2]
目前元搜索引擎的種類有很多,其中以操作平臺來區分,則分為基於系統軟體的桌面型元搜索引擎和基於互聯網的元搜索引擎,個性化元搜索引擎主要是用戶利用多個獨立搜索引擎進行網路搜索的一個中介,在檢索前,元搜索引擎會通過和用戶進行互動來動態獲取用戶的檢索請求,這種方式將能夠準確的獲取用戶的信息,然後再調用相應的獨立搜索引擎進行搜索,然後個性化元搜索引擎利用自身的技術改進,在模糊查詢以及相關智能演算法技術方面的改進,從而更好的進行索引,篩選和排列,甚至能夠屏蔽一些垃圾網站信息,現在谷歌的熊貓演算法就是一種典型的個性化搜索引擎技術。從提問到結果反饋的這個過程中,個性化搜索引擎將會遵循下麵三個機制進行運行。
1.個性化元搜索的選擇機制
個性化元搜索引擎在執行對關鍵詞的查詢之前,會對搜索引擎列表進行初始化,然後結合動態獲取的用戶需求信息來調用相應的獨立搜索引擎,目前選擇的方式有兩種,分別是系統選擇和用戶選擇,系統性選擇主要是依靠個性化元搜索對各種獨立搜索引擎的功能效率的評價,元搜索引擎系統會自動匹配功效最佳的獨立搜索引擎,而用戶選擇則是用戶通過瀏覽搜索引擎列表的方式來實現自主性選擇,但是對於用戶來說,獨立搜索引擎相對比較複雜,用戶往往無從選擇,不過現在已經有了檢索時間和結果數量等選擇,且具有一定的記憶性,對於這些較為簡單的個性化選擇基本上已經實現。
2.個性化元搜索的轉換機制
這裡主要包括兩部分的內容,第一要把用戶的查詢需求轉化成符合各獨立搜索引擎的標磚查詢語言格式,第二要把個獨立元搜索的查詢結果轉化成統一的輸出格式,因為每一種獨立搜索引擎的檢索演算法和資料庫的結構都會存在相應的差異,不同的獨立搜索引擎的布爾檢索,截詞檢索的演算法和複雜度是不一樣的,而且有的獨立搜索引擎還能夠支持自然語言的查詢,所以這些不同的檢索演算法會產生不一樣的格式,個性化元搜索引擎不僅僅要精確的掌握它們調用CGI的格式,還具備了自然語言等高級查詢能力,對各種獨立搜索引擎的檢索結果進行二次排序,篩重,從而提供給用戶匹配度更好的搜索結果。
3.個性化元搜索引擎的排列機制
我們知道從百度和谷歌上查詢的結果都是以一定順序排列的,這些排列順序會根據網站權重,網站關聯度等決定的,現在也有了針對優化網站排名的SE0職業,這說明元搜索引擎的排序都是遵循著一定的機制原則,只有符合這類機制才能夠讓網站獲得更好的排名,目前個性化元搜索技術對檢索結果的排序分為引用排列和重新排列兩種方式,引用排列指的是直接引用獨立搜索引擎檢索結果進行排序,會根據不同的來源將結果顯示出來,這種方式不需要對結果篩重,只需要將格式轉化過來就可以了,這種方式存在一個缺陷,就是容易將和用戶查詢結果相關度不大的反而排在了相關度大的前面,讓用戶錯過了正確的結果,因此個性化元搜索技術還配置了對結果進行重新排列,同時對結果進行更多的處理,根據更好的自然語言的查詢技術,優化了結果的排序,讓用戶更容易準確的找到相應的內容。
個性化元搜索引擎主要技術分析[2]
個性化元搜索的核心就是能夠提供個性化準確的服務,要解決如何調用其他搜索引擎索引資料庫,如何獲取通過個性化互動獲取的關鍵詞在其他搜索引擎中的查詢結果,以及對這些結果的評價排序和顯示,解決這類問題,目前主要是通過下而四種關鍵技術來實現的。
1.個性化的用戶搜索轉化
個性化元搜索引擎將對單一的搜索框進行革新,會有更多的互動內容讓用戶選擇,而且搜索詞也不再是單一的辭彙或者一個長尾關鍵詞,而是由更多的辭彙組成,當用戶將自己的需求通過個性化的搜索界面輸入之後,元搜索引擎就會對這些辭彙進行語言上的轉換,變成獨立搜索引擎可以檢索的查詢語言表達式,因為不同的獨立搜索引擎會有不同的檢索語法和操作符,因此個性化元搜索還需要對用戶的需求進行相應的轉換,而且這種轉化是智能匹配的,對於用戶來說並不會感到這一點。
2.檢索機制設計和優化技術
對於個性化搜索引擎的初始化方式,以及各個獨立搜索引擎結果平衡的處理等,都需要在檢索機制的設計初期進行規劃,這時候主要會受到檢索的速度以及用戶對檢索結果的滿意度的影響,目前個性化搜索一切寧的初始化主要包括用戶參與,系統智能化確認以及智能隨機處理等方式。而檢索的結果處理則要衡量不同搜索引擎結果之間的相關程度,目前個性化搜索引擎的處理主要是以記錄為單位,然後通過判定某一個記錄在多個獨立搜索引擎中的評價指數,如果多個獨立搜索引擎都推選這個結果,那麼這個記錄就應該排在結果的前面,實際上利用到了物以群分人以類聚的原則,當別人都認為這個結果好,那麼這個結果就應該優先出現,從而實現更加準確的匹配。
3.檢索結果的顯示
這實際上是利用了個性化元搜索的排列機制,目前個性化元搜索基本擯棄了傳統元搜索技術的簡單模式,比如直接引用多個獨立搜索引擎的結果,造成很多頁面的重覆,而是結合了直接引用和動態調整兩個方面技術,當一些重要的結果,往往會採用多方引用,這就是為什麼我們能夠在搜素引擎上依然能夠看到相同內容的原因,另外就是個性化元搜索引擎會對結果進行更多的加工,主要包括兩種方式,一種是對記錄的篩選,對於很多重覆的數據記錄進行刪除,這就是為什麼我們能夠看到互聯網垃圾網站採集的數據很多,為什麼這些垃圾網站的數據並不能夠通過搜索引擎顯示出來的主要原因,另一種就是對結果進行再次排序,這時候個性化元搜索引擎會結合對結果的再次智能化的判斷,識別這些內容網站的本身權重和用戶體驗度,從而進行優先顯示,這就是為什麼很多用戶體驗度好,搜索引擎友好度好的網站內容往往能夠獲得更好的排列的原因所在。
4.分散式資料庫的調用技術
這是個性化元搜索技術的核心,也是非常重要的一部分,因為獨立搜索引擎的資料庫分佈在不同的地域,而且數據的結構也是不一樣的,這時候只能夠依靠分散式數據調用的技術將這些資料庫的查詢結果索引到分散式資料庫中,而個性化元搜索引擎將會利用分佈對象技術來對索引資料庫進行訪問查詢和排序,正是如此,如果某些網站的響應速度慢的話,往往就不會獲得更好的排名,因為不同資料庫的掉用時間的不同,將會影響到顯示的結果。