檢索效果
出自 MBA智库百科(https://wiki.mbalib.com/)
- 檢索效果(Retrieval Result)
目錄 |
檢索效果是指檢索系統檢索的有效程度,它反映了檢索系統的能力,主要包括技術效果和經濟效果兩個方面。評價檢索效果的目的是為了準確地掌握系統的各種性能和水平,找出影響檢索效果的各種因素,以便有的放矢,改進系統的性能,提高系統的服務質量,更好地滿足用戶信息檢索的需求。
檢索效果的評價指標[1]
(1)查全率(Recall ratio),用R表示。查全率就是系統在進行某一檢索時,被檢出的相關文獻量與系統文檔中實有的相關文獻量的比率。
(2)查準率(Precision ratio),用P表示。查準率是指檢出的相關文獻量與檢出文獻的總量的比率,是衡量信息檢索系統精確度的尺度。
(3)漏檢率(Omission ratio),用O表示。漏檢率是漏檢的相關文獻量與在檢索系統中相關文獻總量的比率,是衡量信息檢索系統漏檢文獻的尺度。
(4)誤檢率(Fall-out ratio),用F表示。誤檢率就是指誤檢(檢出不相關)文獻總量的比率,是衡量信息檢索系統誤檢文獻和程度的尺度。
提高檢索效果的方法[1]
- 1.提高用戶使用信息檢索系統的能力
用戶要充分掌握檢索語言、檢索技巧和方法,在使用檢索工具和系統之前,要瞭解其性能與特點。這樣就能靈活、準確地使用這些工具和系統來完成任務。
- 2.選用質量高的檢索系統和工具
檢索工具和系統的收錄範圍、索引語言、標引深度和準確性以及提供的檢索途徑、檢索方法等都是影響檢索結果的重要方面,所以需要不斷地提高檢索工具和系統的質量。
- 3.提高查全率和查準率
- 1)提高查全率
當前,常用的提高查全率的方法有以下6種。
(1)檢索詞的轉換。常見的轉換是同義詞、近義詞、相關詞、單複數及縮寫形式,如果是動詞,還可能有不同的時態。
(2)使用截詞符。我們要學會使用截詞符“?”、“*”。
(3)使用上位詞。使用上位詞即指代範圍更廣的詞。
(4)改變布爾運算符。即將連接兩個或多個檢索詞的AND改為OR,可提高檢出的數囂。
(5)改變檢索項。若要求檢索詞位於標題中,或為關鍵詞或主題,檢出記錄數太少,則可改為要求位於摘要或全文中,檢出記錄數即可增加。
(6)減少限制條件,增加副主題詞。如果前面的檢索中有條件,可放寬或去掉限制條件。
- 2)提高查準率
儘管查準率和查全率之間存在互逆的關係,但用戶還是可以通過採用分類和主題的方式使兩者的比率達到最優。
(1)同時使用分類途徑和主題途徑,提高查全率和查準率。
(2)從主題途徑入手,結合分類途徑對檢索策略進行修正,提高查全率和查準率。
影響檢索效果的因素[2]
查全率與查準率是評價檢索效果的兩項重要指標。查全率和查準率與文獻的存儲與信息檢索兩個方面是直接相關的,也就是說影響查全率與查準率的各種因素主要來自用戶與檢索人員的配合、檢索策略、標引和檢索語言等方面。
- 1.標引的影響
標引人員標引文獻的正確性對查全率與查準率有直接影響。如果提取出來的不是有用信息,則以後查找時查準率會降低;如果有用信息沒有被提取出來,則以後查找時查全率會降低。有用信息提取出來之後,如果將能夠響應的某個查找要求遺漏掉,則用戶從這個查找中就查不到會有該有用信息的文獻,因而查全率會降低。
文獻所能響應的查找要求確定出來之後,在將其轉換成標引詞的過程中,標引人員遺漏了原文的重要概念,從而使查全率降低。選用了不合適的標引詞,使得檢索人員利用這個詞查出的文獻是無關的,因而引起查準率降低;或者檢索人員利用正確的標引詞查找時,有關文獻因標引了不合適的標引詞而查不出來,則導致查全率降低。
- 2.檢索語言的影響
由檢索語言引起的查找失敗有兩種類型:一是因標引詞專指性不足引起的查找失敗,一是因標引詞之間的含糊關係或虛假關係引起的查找失敗。
標引辭彙缺乏控制和專指性不足,是影響查準率的不利因素,但高專指性的標引詞在提高查準率的同時有降低查全率的趨向。這是因為標引詞的數目越多,能夠表達的意義差別也就越細緻,標引就越難於取得一致。
組配規則不嚴密,選詞及詞間關係不規範,或允許使用過多的標引詞,則可能引起虛假組配現象,將使查準率降低。
詞表結構不完整,詞間關係模糊或不正確,標引前後不一致,對查找有很大影響。如果詞表不以某種方式把所有關聯的標引詞集中在一起,那些檢索人員就不能將與查找要求有關的全部標引詞找出來,查全率就會降低。詞表對標引也有很大影響,較好的詞表參照系統和等級結構關係能夠提高查全率。
- 3.檢索策略的影響
所謂檢索策略就是為實現檢索沒目標而制定的全盤計劃和方案,是對整個檢索過程的謀劃和指導,如明確檢索要求、選擇檢索系統(工具)、檢索方法、檢索途徑等程式。為了更好地獲得滿意的檢索效果,在信息檢索過程中需要調整檢索策略。檢索策略主要取決於檢索人員的知識水平與業務能力,因此檢索策略的優劣是影響檢索效率的主觀原因。
此外,文獻庫收錄文獻不全,檢索人員業務不熟練和缺乏耐心,檢索系統不具備截詞功能和反饋功能,檢索時不能全面地描述檢索要求等,就會影響查全率。索引詞不能準確描述文獻主題和檢索要求,檢索式中允許容納的詞數量有限,截詞部位不當,檢索式中使用邏輯“或”不當等,就會影響查準率。