電腦檢索
出自 MBA智库百科(https://wiki.mbalib.com/)
電腦檢索(Computer-based Retrieval)
目錄 |
什麼是電腦檢索[1]
電腦檢索是指人們在電腦檢索網路或終端上,使用特定的檢索指令、檢索詞和檢索策略,從電腦檢索系統的資料庫中檢索出所需要的信息,然後再由終端設備顯示、下載和列印的過程。
電腦檢索的發展[2]
電腦檢索是在電腦技術和通信技術發展的基礎上建立起來的。它產生於20世紀50年代,發展於20世紀80年代中期,20世紀90年代後隨著國際互聯網技術的發展而進入了一個嶄新的時期。回顧電腦文獻信息檢索的發展歷程大致可以概括為批量處理、聯機檢索與網路系統三個階段。
1.批量處理階段
1954年,美國海軍武器實驗站圖書館在一臺電子管電腦上建立了世界上第一個電腦檢索系統。20世紀50年代末,IBM公司利用一臺IBM650電腦成功地編製出關鍵詞索引,並建立了世界上第一個“定題情報檢索”(Selective Dissemination of information,SDI)系統,為用戶定期檢索和提供特定主題的新到文獻(離線檢索,批量處理),並很快得到了推廣應用。
2.聯機檢索階段
進入20世紀60年代,電腦檢索進入了實用和全面發展階段。20世紀60年代末,數據通訊網路出現,大容量電腦分時系統和強功能檢索軟體研製成功,使離線檢索發展到聯機檢索並迅速得到了推廣。20世紀70~80年代,聯機檢索得到迅速發展,一些聯機檢索系統開始向公眾提供商業性服務,如DIAI。OG、ESA、ORBIT、BRS等許多世界著名的聯機檢索系統相繼投人商業性運營。
3.網路系統階段
20世紀90年代,聯機檢索的發展進入了一個重要的轉折時期。隨著互聯網的迅速發展及超文本技術的出現,基於客戶/伺服器的檢索軟體的開發,實現了將原來的主機系統轉移到伺服器上,使客戶、伺服器聯機檢索模式開始取代以往的終端/主機結構,成為聯機檢索的發展趨勢,使聯機檢索進入了又一個嶄新的時期。
電腦技術的不斷進步和信息量成倍地增加,使人們對信息檢索技術的要求也越來越高,尤其是網路技術和多媒體技術的出現,促使信息檢索技術也不斷地發展。目前,信息檢索技術正向兩個方向發展:一是傳統信息檢索向全文文本、多媒體、多載體、多原理等新型信息檢索發展;二是信息資源的網路化和分佈化,向基於概念、超文本信息和多媒體信息檢索技術發展。網路的發展給信息的獲取提供了廣闊的空間,而檢索技術的發展為人們利用信息提供更方便快捷的手段。
電腦檢索的特點[3]
(1)信息量大,信息形式多樣,表現為分散性和無序性。
(2)語言種類繁多。
(3)具有更為廣泛的應用領域。傳統的信息檢索系統往往使用主題詞表進行文檔的標引,檢索系統所處理的文檔也是基於特定應用領域。在網路環境下,信息檢索系統所處理的文檔範圍覆蓋許多不同的學科、不同的應用領域、不同背景的用戶,如何準確地標引和檢索相關文檔,提高用戶的查詢精度成為信息檢索的主要任務之一。
(4)信息發佈具有較強的實時性,信息的更新速度較快。因此,信息檢索系統不僅需要能夠快速標引,同時應能夠將相關信息實時提供給用戶。
(5)檢索操作簡便,界面友好,交互功能強,允許用戶更多地參與信息檢索,費用低。
(6)檢索速度快,原文可獲得性高。
電腦檢索的原理[2]
電腦檢索的原理,與手工檢索的原理在本質上相同,但又有所差別。電腦檢索的基本原理是電腦將輸入電腦檢索系統的用戶提問標識(檢索詞)與已貯存在系統中資料庫內的文獻標識特征(標引詞)進行機械性匹配比較,凡符合給定的比較原則和邏輯運算條件者即為命中文獻信息。手工檢索時,檢索策略是由人腦記憶的,匹配比較是通過人對檢索工具的手翻、眼看、大腦不停思考和判斷而完成的。這種匹配比較具有概念思維性、隨機應變性,可隨時修改檢索策略。而電腦檢索是電腦按照人們給定的檢索策略,在機讀資料庫中進行高速、機械匹配比較而完成的。所以,現在我們所應用的電腦還不具備人的那種概念思維能力,也沒有人腦那種隨機應變能力。它是按照人們給定的字元串去進行機械的匹配比較。
電腦檢索的類型[2]
1.按照檢索的結果分
(1)線索檢索:這種檢索的結果是有關文獻的題錄信息。通常包括文獻題名、著者、出處、文獻內容提要等。檢索者可按照題錄信息提供的線索索取文獻的原文。在生物醫學領域,這種資料庫檢索系統有中國生物醫學文獻資料庫(CBM)、中國中醫葯期刊文獻資料庫、中文生物醫學期刊資料庫(CMCC)等。
(2)全文檢索:這種檢索的結果是有關文獻的全文信息。全文檢索是將文獻全文存儲到資料庫中,並建立了與線索檢索基本相同的檢索途徑。因而在檢索操作上與線索檢索並無本質差異,但得到的檢索結果是文獻原文而不僅僅是其線索。這種資料庫檢索系統有“中國知網”(CNKI)、“萬方數據”、“重慶維普”、“超星數字圖書館”、“讀秀”等。
(3)多媒體檢索:這種檢索的結果是有關文獻的全方位立體信息,如聲音、圖像、圖形、文字等。與一般文本信息相比,多媒體信息具有直觀、形象和內容豐富的特點。因此,在醫學信息檢索中,多媒體檢索是一個重要部分。這種資料庫檢索系統有“愛迪克森多媒體資源庫”、“Primal互動3D解剖學系列資料庫”、“好醫生醫學點播課堂”等。
(4)超文本檢索:這是一種新型的信息檢索方式,是網路技術發展、普及的結果。與上述檢索方式不同,它是通過檢索已經鏈接好的存貯有文本等信息的結點來獲取文獻信息,是網路信息檢索與瀏覽的主要手段。醫學信息的超文本檢索一般採用綜合型或醫學專業型搜索引擎來進行,如谷歌、百度、中醫葯搜索等。
2.按照文獻數據的載體分
(1)光碟檢索:這是一種利用光碟資料庫檢索文獻的方式。其特點是光碟存儲容量大,占據物理空間小,讀取速度快。但只能在區域網中應用,用戶數有限。另外對硬體有一定的要求,特別是隨著光碟資料庫更新量的加大,需增加光碟庫或光碟塔,或增加伺服器容量,硬體費用較高。醫學領域常用的光碟資料庫有中國生物醫學光碟資料庫、中文生物醫學期刊資料庫、MEDLINE等。
(2)網路檢索:這是一種利用網路資料庫檢索文獻的方式。其特點是檢索簡單、靈活、速度快、鏈接方便,不受時間、地域範圍的限制,在開放的信息環境中可實現跨地區跨國界的檢索。現在各種線索性或全文性的資料庫均有網路版,檢索者可通過網路進行有償或無償檢索。網路檢索已經發展成為現代文獻檢索的主要方式。
電腦檢索的程式與策略[4]
進行電腦信息檢索,一般來說要經過以下基本程式:分析檢索課題,選擇檢索系統及資料庫,確定檢索詞,構建檢索提問式,上機檢索並調整檢索策略,輸出檢索結果。
1.分析檢索課題
利用電腦信息檢索系統獲取文獻信息的用戶,一般分為直接用戶和間接用戶兩種類型。直接用戶是指最終使用獲得的信息進行工作的用戶(如科研人員,管理者,決策者等);間接用戶是指專門從事電腦檢索服務的檢索人員。檢索人員在接到用戶的檢索課題時應首先分析研究課題,全面瞭解課題的內容以及用戶對檢索的各種要求,從而有助於正確選擇檢索系統及資料庫,制定合理的檢索策略等。分析檢索課題時應從以下幾方面進行。
(1)弄清用戶信息需求的目的和意圖
在檢索之前,首先必須明確檢索目的,也就是說,要清楚進行信息檢索是為了什麼,收集信息的用途是什麼,因為不同的目的所需的信息內容不同,不同的信息存在的形式也有所不同,那麼所使用的檢索手段和方法也就有所不同,所以明確檢索目的是十分重要的。
(2)分析課題涉及的學科範圍、主題要求
明確檢索信息內容涉及的主要學科範圍,主要考慮所需信息是屬於單一學科、多學科,還是交叉學科的範圍,有針對性地選擇資料庫和文檔。
主題分析,檢索目的和意圖不同,主題分析選取的主題範圍的廣度和深度則不同。若要系統、全面收集文獻信息,選取主題範圍的面要寬一些,泛指性要強一些;若要參考或借鑒文獻信息為某一技術問題提供解決的方案,選取主題範圍的面要窄一些,專指度要高一些。
(3)課題所需信息的內容及其特征
根據課題的內容,深入分析主題內容的目的,是要明確課題檢索的要求,找出課題需要解決的關鍵,從而形成反映課題中心問題的主體概念。認真分析檢索課題所包含的概念及概念與概念之間的邏輯位置關係,選擇能夠確切表達課題的主題詞做檢索詞。當課題比較生疏時,應當首先利用百科全書、圖書等弄清楚概念,瞭解課題的有關專業知識,弄清楚課題的內容和要解決的問題以及解決該問題的初步設想等,進而確定檢索的主題範圍。
(4)課題所需信息的類型,包括文獻類型、出版類型、年代範圍、語種、著者、機構等
(5)課題對查新、查準、查全的指標要求
2.選擇檢索系統和資料庫
在全面分析檢索課題的基礎上,根據用戶要求得到的信息類型、時間範圍、課題檢索經費支持等因素綜合考慮後,選擇檢索系統和資料庫。正確選擇資料庫,是保證檢索成功的基礎。選擇資料庫時必須從以下幾個方面考慮。
(1)資料庫收錄的信息內容所涉及的學科範圍
包括文獻來源的種類、數目及其專業覆蓋面;資料庫中的文獻記錄數量,即資料庫規模的大小。從內容上,考慮資料庫對課題的覆蓋和一致性,比如應綜合考慮資料庫收錄是否齊全、編製質量高低、使用是否方便等因素。
(2)資料庫收錄的文獻類型、數量、時間範圍以及更新周期
在選擇資料庫時,還應考慮資料庫收錄文獻的時間範圍;而更新周期是指從以此文獻出版到被收錄在資料庫中的時間。
(3)資料庫所提供的檢索途徑、檢索功能和服務方式
至於如何選擇資料庫,一是查閱“資料庫目錄”或“資料庫指南”;二是根據系統所提供的資料庫總索引文檔聯機選擇資料庫。
3.確定檢索詞
檢索詞是表達文獻信息需求的基本元素,也是電腦檢索系統中進行匹配的基本單元。檢索詞選擇正確與否,直接影響著檢索結果。在全面瞭解檢索課題的相關問題後。提煉主要概念與隱含概念,排除次要概念,以便確定檢索詞。檢索詞的確定,一般有以下幾種方法:
(1)先選用主題詞
當所選的資料庫具有規範化詞表時,應優先選用該資料庫詞表中與檢索課題相關的規範化主題詞,從而可獲得最佳的檢索效果。
(2)選用資料庫規定的代碼
許多資料庫的文檔中使用各種代碼來表示各種主題範疇,有很高的匹配性。例如,世界專利文摘資料庫中的分類代碼,化學文摘資料庫中的化學物質登記號。
(3)選用常用的專業術語
在資料庫沒有專用的詞表或詞表中沒有可選的詞時,可以從一些已有的相關專業文獻中選擇常用的專業術語作為檢索詞。
(4)選用同義詞與相關詞
同義詞、近義詞、相關詞、縮寫詞、詞形變化等應儘量選全,以提高查全率。
4.構建檢索提問式
檢索提問式是電腦信息檢索中用來表達用戶檢索提問的邏輯表達式,由檢索詞和各種布爾邏輯算符、位置算符、截詞符以及系統規定的其他組配連接符號組成。檢索提問式構建得是否合理,將直接影響查全率和查準率。構建檢索提問式時,應正確運用邏輯組配運算符:
(1)使用邏輯“與”算符可以縮小命中範圍,起到縮檢的作用,得到的檢索結果專指性強。查準率也就高。
(2)使用邏輯“或”算符可以擴大命中範圍,得到更多的檢索結果,起到擴檢的作用,查全率也就高。
(3)使用“非”算符可以縮小命中範圍,得到更切題的檢索效果,也可以提高查準率,但是使用時要慎重,以免把一些相關信息漏掉。
另外,在構建檢索提問式時,還要註意位置算符、截詞符等的使用方法,及各個檢索項的限定要求及輸入次序等。
5.確定檢索策略
所謂檢索策略,就是在分析信息需求實質的基礎上,確定檢索途徑與檢索用詞,並明確各詞之間的邏輯關係與查找步驟的科學安排。據此,可以看出,編製檢索策略實際上包括了選擇檢索詞與編製檢索提問式這兩步,除此之外,一個檢索策略還應該對檢索時可能的檢索結果作出預測,並事先提出相應的對策,這一步中的作業還應包括列印方式、格式、數量的確定。
電腦檢索策略特別是聯機檢索的策略的研究近年來得到人們的廣泛重視,並出現了各種各樣的檢索策略。如:最專指面優先策略、最少記錄面優先策略、積木型概念組策略、引文珠形增長策略和逐次分餾策略。
6.上機檢索並調整檢索策略
構建完檢索提問式後,就可以上機檢索了。檢索時,應及時分析檢索結果是否與檢索要求一致,根據檢索結果對檢索提問式作相應的修改和調整,直至得到比較滿意的結果。
(1)檢索結果信息量過多
產生檢索結果信息量過多的原因可能有以下兩點:一是主題詞本身的多義性導致誤檢;二是對所選的檢索詞的截詞截得太短。在這種情況下,就要考慮縮小檢索範圍,提高檢索結果的查準率。調整檢索策略的方法如下:
①減少同義詞與同族相關詞
②增加限制概念,採用邏輯“與”連接檢索詞
③使用欄位限定,將檢索詞限定在某個或某些欄位範圍
④使用邏輯“非”算符,排除無關概念
⑤調整位置算符,由松變嚴,(F)—(w)
(2)檢索結果信息量過少
造成檢索結果信息量少的原因有以下幾點:首先,選用了不規範的主題詞或某些產品的俗稱,商品名稱作為檢索詞;其二,同義詞、相關詞、近義詞沒有運用全;其三,上位概念或下位概念沒有完整運用。針對這種情況,就要考慮擴大檢索範圍,提高檢索結果的查全率。調整檢索策略的方法如下:
①選全同義詞與相關詞並用邏輯“或”將他們連接起來,增加網羅度;
②減少邏輯“與”的運算,丟掉一些次要的或者太專指的概念;
③去除某些欄位限制;
④調整位置算符,由嚴變松,(w)—(F)。
7.輸出檢索結果
根據檢索系統提供的檢索結果輸出格式,選擇需要的記錄以及相應的欄位(全部欄位或部分欄位),將結果顯示在顯示器屏幕上、存儲到磁碟或直接列印輸出,網路資料庫檢索系統還提供電子郵件發送,至此,完成整個檢索過程。
未來電腦檢索的發展趨勢及要求[3]
(1)提供多維、多層檢索。
(2)具有強大的組配、擴檢、縮檢能力。
(3)擴大標引的範圍,加大文獻檢索點的數量。
(4)不僅提供受控語言檢索,還提供自然語言檢索方法。
(5)開發新的檢索技術,如人工智慧、模糊邏輯、概念檢索等,用戶可以用自然語句提問。
(6)能夠對檢索詞進行加權處理,對檢索結果進行排序。
(7)提供超媒體的檢索。
(8)消除語言不通障礙。
(9)更具個性化的檢索服務。
電腦檢索與手工檢索的異同[5]
1.相同點
(1)二者皆是對用戶信息需求與信息源比較匹配的過程
不論是手工檢索還是電腦信息檢索,都存在用戶信息需求與信息源的比較匹配過程,沒有比較匹配過程,檢索便不稱其為檢索,就會喪失檢索活動的本意。
(2)信息的邏輯組織相同
儘管手工檢索的信息在實體形式及存取方式上有根本的不同,但二者在對信息的邏輯組織方面可以一致,因為信息內部的邏輯關係不決定於信息的實體形式及存取方式。
(3)比較、匹配的對象與方式相同
兩種檢索方式既可以將用戶信息需求與一次信息源直接作比較、匹配來查詢信息,也可以通過將用戶信息需求與一次信息源著錄標引的產物——二次信息源進行比較、匹配,並通過二次信息源與一次信息源間的鏈接來查找一次信息源。
2.不同點
(1)信息源載體形式及記錄方式的不同
前者載體形式主要為磁帶、磁碟、光碟等形式,適用於電腦對信息的存儲與讀取,而後者主要為紙張形式,只適用與人對信息的記錄與閱讀。
(2)信息管理的實現工具與技術不同
電腦信息檢索過程中的信息管理既可以以手工的方式通過電腦對磁性或光碟載體所存儲的信息進行邏輯及實體管理,也可以通過編程等方式利用電腦自動進行信息管理,而手工信息檢索過程中的信息管理則只能通過人工方式對紙張實體的操作。
(3)信息特征著錄標引形成二次信息的過程可以不同
電腦信息檢索既可以以手工錄入的方式形成二次信息,也可以通過編程等方式使電腦進行自動著錄標引以生成二次信息,而手工信息檢索則只能以手工記錄或錄入的方式形成二次信息。
(4)用戶信息需求的提取技術方式不同
在手工信息檢索活動中,用戶一般自己親自利用信息檢索工具進行信息檢索,而在電腦信息檢索過程中,信息檢索的關鍵步驟主要由電腦檢索系統完成,用戶只需要將反映信息需求的檢索標識輸入電腦,在電腦完成檢索後,接收電腦向用戶發送的檢索結果即可。
(5)用戶信息需求與一次信息或二次信息比較匹配方式的不同
在手工信息檢索過程中,用戶通過人腦實現一次信息或二次信息實現信息需求與信息源的匹配,而在電腦信息檢索活動中,用戶的信息需求與一次或二次信息源的匹配工作由電腦完成。
(6)檢索結果生成與發送實現方式不同
手工信息檢索活動中,一般由用戶通過瀏覽一次或二次信息源得出檢索結果,然後由信息源管理者根據用戶的檢索結果提供用戶所需要的信息源。而在電腦信息檢索活動中,用戶的檢索結果由電腦根據用戶的檢索需求及預先設定好的檢索策略將二次信息源所包含的信息發送給用戶,然後用戶根據電腦所提供的二次信息查詢其對應的一次信息,電腦也可以直接將一次信息源的信息提供給用戶。