查全率
出自 MBA智库百科(https://wiki.mbalib.com/)
- 查全率(Recall Ratio)
目錄 |
查全率是指檢出的相關文獻量與檢索系統中相關文獻總量的比率,是衡量信息檢索系統檢出相關文獻能力的尺度。
查全率的計算公式[1]
查全率= | 檢索出的相關信息量 |
× 100% |
系統中的相關信息總量 |
查全率的局限性[1]
查全率的局限性主要表現在:它是檢索出的相關信息量與存儲在檢索系統中的全部相關信息量之比,但系統中相關信息量究竟有多少一般是不確知的,只能估計;另外,查全率或多或少具有“假設”的局限性,這種“假設”是指檢索出的相關信息對用戶具有同等價值,但實際並非如此,對於用戶來說,信息的相關程度在某種意義上比它的數量重要得多。
為了保證查全率,在選取檢索詞和制定策略時應從多角度考慮,將與檢索相關的同義詞、反義詞、上下位詞和易錯形式等4種類型的用詞進行相關檢索。另外,同義詞包括了學名與俗名、全稱與簡稱、新稱與舊稱、外文形式及其簡稱、不同的譯名等,還有化學物質的名稱和分子式如“二氧化硫”和“SO2”、不同地區、國家的俗稱如“民樂”(中國大陸)和“國樂”(中國臺灣)及“華樂”(新加坡)、古代名人字型大小等。反義詞可以從相反的角度反映同一個問題,用來作相關檢索也可提高查全率。上下位詞有助於分析信息檢索中學科知識的網路分佈,準確把握主題用詞,能有效控制檢索的深度和廣度。而檢索詞的易錯形式則是主要針對出版、輸入時的誤差採用的檢索辦法,如“高梁”和“高梁”、“豆豉”和“豆鼓”、“針灸”和“針炙”等,如果在檢索時將有關的全稱、簡稱、舊稱、英語全稱、英語縮寫以及簡稱作為檢索用詞,則能有效提高檢索的查全率。
影響查全率的因素[2]
影響查全率的因素從文獻存儲來看,主要有:文獻庫收錄文獻不全;索引辭彙缺乏控制和專指性;詞表結構不完整;詞間關係模糊或不正確;標引不詳;標引前後不一致;標引人員遺漏了原文的重要概念或用詞不當等。此外,從情報檢索來看,主要有:檢索策略過於簡單;選詞和進行邏輯組配不當;檢索途徑和方法太少;檢索人員業務不熟練和缺乏耐心;檢索系統不具備截詞功能和反饋功能,檢索時不能全面地描述檢索要求等。
提高查全率的具體方法[3]
提高查全率首先應正確選詞。選詞就是將主題概念轉變成檢索語言,選詞的廣度和專指度對主題概念的表達起著關鍵作用。提高查全率的指導思想是:選詞應廣泛,即主題詞的選取範圍要廣一些,泛指性要強一些;邏輯算符應選擇具有擴檢意義的“邏輯或”。
- 1.上、下位擴檢法
為了提高文獻檢索的查全率,除選擇恰當的主題詞外,還應該選擇內容範圍更廣的上位詞及更窄的下位詞參與檢索,以擴大檢索範圍。例如,檢索“液體火箭發動機”可用這樣的檢索式:液體火箭發動機OR氫氧發動機OR肼發動機OR火箭發動機。
- 2.同義詞、近義詞擴檢法
許多全文資料庫都支持關鍵詞檢索。利用關鍵詞檢索,用戶不必掌握複雜的敘詞知識,這使檢索變得簡單而直接。由於關鍵詞未經規範處理,它們之間不顯示詞的等級關係和相關關係,這都增加了查全文獻的難度。因此,為了全面地收集文獻,在進行某一專題檢索時不僅要確定較規範的主題詞,還要考慮與該主題詞相關的同義詞或近義詞,即學名與俗稱之間、同一產品的正式命名與俗名之間的相關關係等。反映同一概念的檢索詞越多,則越能保證查全率,如“乙醇”俗名“酒精”,“維生素C”俗稱“維他命C”或“抗壞血酸”,“番茄”俗稱“西紅柿”,“馬鈴薯”俗稱“土豆”,“敵克松”又稱“地可松”等。這類意思一樣但表達方式不同的詞,在檢索中應加以重視。如果不考慮這種情況,在檢索中就會漏掉一些文獻,從而影響查全率。
- 3.增加“邏輯或”組配
文獻檢索中除正確選擇主題詞外,恰當地表達主題詞之間的邏輯關係也是提高查全率的重要方法。在邏輯組配過程中,必須正確地選用邏輯算符來表達檢索項之間的邏輯關係,以真實、確切地反映檢索要求。如果邏輯算符選得不對或不恰當,將會產生漏檢或誤檢,直接影響檢索質量。前面已提到,用“邏輯或”組配可以擴檢,而“邏輯與”組配可以縮檢,因此,提高檢索的查全率必須增加OR組配,減少AND組配。方法之一是選全同義詞,並以OR方式與原詞連接後加入檢索式。例如,檢索“乙醇的生產”方面的文獻,可制訂檢索式:乙醇OR酒精AND生產。