知識檢索
出自 MBA智库百科(https://wiki.mbalib.com/)
目錄 |
什麼是知識檢索[1]
關於知識檢索的概念迄今為止還沒有形成一個統一的定義,常見的關於知識檢索概念的表述有以下幾種:
① 知識檢索,就是綜合應用信息管理科學、人工智慧、認知科學及語言學等多學科的先進理論與技術,基於知識和知識組織,融合知識處理和多媒體信息處理等多種方法與技術,充分表達和優化用戶需求,能高效存取所有媒體類型的知洪源(文本、圖像、視頻、聲音等),並能準確精選用戶需要的結果。
② 知識檢索是指在知識組織的基礎上,從知識庫中檢索出知識的過程,是一種基於知識組織體系,能夠實現知識關聯和概念語義檢索的智能化的檢索方式。
③ 知識檢索是針對信息檢索中存在的語義性較差、智能性低、知識性較弱等現狀提出的一種基於語義和知識關聯 運用知識處理技術和知識組織技術,實現信息查詢語義化、智能化的一種高級信息檢索方式。
知識檢索的特征[1]
知識檢索的基本特征是在對包含在信息記錄中的知識和知識關聯進行分析,運用知識處理技術和知識組織技術,實現基於語義理解的智能化查洵。而知識組織就是在信息組織的基礎上,依靠專門的技術,按照知識的本質屬性組織知識、建立知識系統的方法和手段。知識檢索是通過對文檔原文信息進行語義上的自然語言處理,析出各種概念信息,形成知識庫,從概念層次上處理用戶的檢索提問式。利用知識檢索不僅能檢索出包含有提問式中的關鍵詞的結果。還能檢索出那些與該詞同屬一類概念的辭彙的結果。知識檢索有以下幾個特點:
(1)利用特定領域可控的概念語義體系,建立層次結構的概念語義體系,具有分析和理解自然語言的能力。知識檢索模型對文檔內容和用戶檢索提問式運用自然語言處理技術進行語義層次上的分析和理解,從中吸取出概念信息和範疇信息。
(2)擁有知識庫。在知識檢索中,文檔內容和提問式都以概念和範疇等知識形式存儲在知識庫中,用來匹配用戶的提問式和推理出滿足用戶需求的新信息。
(3)具有記憶能力。知漢檢索通過記憶機制,將析出的概念信息和範疇信息存儲到知識庫中.並能自動補充與更新,還能進行必要的邏輯推理。
(4)人機介面。知識檢索能根據文檔內容和用戶提問式構造檢索要點並輸入系統,其輸出的是按用戶要求進行加工的結果,並可以自然語言的形式提供給用戶:
知識檢索的知識類型[2]
知識檢索所涉及的知識類型很廣,其中三類知識特別重要。
(1)領域知識。它是描述應用領域中客觀事物的重要知識,例如學科分類知識、元數據和專業概念知識。學科分類知識可以表達事物的本質屬性和事物之間的本質關聯。元數據是各分散式信息源的核心內容的抽象描述。專業概念知識,例如主題詞及其相互關聯知識,是最基本的知識元素,用來表達與修改文獻內容和用戶提問,代替單純的統計方法,可以減少統計評價關鍵詞所產生的副作用。
(2)用戶知識。它包含:用戶的需求、偏好、背景知識,用戶的交互、檢索行為知識,以及用戶對檢索機制和檢索結果的反饋知識。利用用戶知識改進和創新檢索方法,是實現面向用戶的個性化檢索、主動性檢索的根本措施。
(3)專家的專門知識。它是關於知識組織和知識檢索的顯性知識與隱性知識,尤其重要的是隱性的經驗知識,即啟髮式知識。經驗知識是專家將領域知識與具體實踐相結合的產物。這類知識的獲取與共用,將對檢索領域發揮不可估量的作用。
知識檢索的優勢[2]
知識檢索具有明顯的優勢:
① 實現信息服務向知識服務的轉化,向用戶提供潛在內容知識,以及分析、預測後的超前性領域成果或知識;
② 提供主動服務方式,如:主動給用戶以智能輔助,主動學慣用戶知識並自動優化用戶需求,以及主動提供個性化檢索;
③ 面向用戶,檢索機制的模式和界面服務方式均體現面向用戶的思想,依據用戶的需求及其變化,能靈活選擇理想的檢索策略和技術,而不是讓用戶機械地適應固定不變的系統邏輯,並且將繁重的知識信息存取工作從用戶移向了電腦;
④ 集成和綜合應用各類知識和各種高效的智能與非智能技術,全面提高檢索效率。
知識檢索的理論基礎[3]
知識檢索的提出和發展藉助於人工智慧、語言學、信息科學和認知科學等多學科的先進理論與方法,它們為知識檢索的實現,包括知識發現、獲取、組織、呈現以及向用戶個人知識的轉變等各個方面提供了理論指導。國外對此進行了大量研究,並取得了相應的研究成果。
1.人工智慧
人工智慧(Artificial Intelligence)是有關智能代理的設計與執行的科學,關註人腦智能任務如定理證明、外貌識別、疾病診斷等的自動化。“人工智慧依據人類的感知、推理、學習、語言和其他創造性思維活動,為科學、工業、文化領域有效的新研究工具的設計、構造提供有益的幫助。”“人工智慧為自動信息搜索、知識表示、自適應、自主學習以解決問題、設計規劃、自主分析、知識檢索及發現等提供了理論指導。”JVasant Honavar明確提出人工智慧是知識檢索智能化、自動化及其他相關知識活動的理論基礎。
2.語言學
知識與語言之間存在著同構關係,知識是語言所表達的思想內容,語言是知識的表達工具。知識的表現有其特定的語言邏輯,相應的知識檢索也必須遵循這些語言邏輯,語言學(Linguistics)為知識檢索的過程和方法提供了必需的理論依據。InventionMachine Corporation(IMC) 根據語言學規律開發的語言資料庫包括大量的基本詞典與基於演算法的複雜規則,對資料庫中所有信息進行預格式處理(Pre— format)、辭彙分析(Lexical Analysis)、語法分析(Syntactical Analysis)、語義分析(Semantic Analysis)和語用分析(Pragmatic Analysis),實現了機器自動閱讀並理解文檔內容,抽取檢索提問的相關知識返回給用戶,有助於提高知識檢索的速度及準確度。
3.信息科學
信息科學(Information Science)研究人如何生產、搜索、檢索和使用信息,特別是人與信息系統的相互作用。信息科學著重於許多不同性質的過程,包括人所面臨的信息難題,如解決問題的水平、認識水平和知識水平,應用信息檢索系統的查找行為,以及諸如反饋、相關性等互動性問題。Brookes提出的信息科學的基本方程—— △I+(s)=(S+△S)在信息處理和信息改變代理兩個概念之間架起了一座橋梁,提出了信息與知識關係的框架,對研究信息的利用及信息向個體知識的轉化指明瞭方向。
4.認知科學
認知科學(Cognitive Science)以認知過程及其規律為研究對象,研究領域包括:語言習得、閱讀、話語、心理模型、概念和歸納、認知技藝獲得、視覺註意、記憶、行為、電腦及其科學理論等。Belkin的“知識非常態”理論、Dervin的意義建構理論等都註重知識獲取過程中人的認知能力在構建概念體系方面的作用,特別關註在此過程中以用戶知識需求為導向以及雙方的交互作用。因而在構建知識檢索系統時應考慮支持檢索的認知過程和檢索本身的認知過程的最優化方法。
知識檢索的工具[3]
a.語義網(Semantic Web)是對當前互聯網的一種擴展,其通過使用概念本體和標記語言(如XML、RDF、DAML等),使互聯網資源的內容能被機器理解,為用戶提供智能索引、基於語義的知識檢索和知識管理等職能服務。
b.智能代理(Intelligent Agent)是可以在用戶沒有明確具體要求的情況下,根據用戶需要,代替用戶進行各種複雜工作的代理軟體,如信息查詢、篩選、管理,並能推測用戶的意圖,自主制定、調整和執行工作計劃,是實現知識檢索自動化、智能化的基礎技術。
c.語境檢索(Context Retrieva1)集成檢索技術、查詢提問和用戶信息,為用戶需求提供最佳答案。語境檢索涉及三大語境維度:時間維度、社會維度和工作背景維度,提高了檢索的語義、語用匹配程度,一定程度上彌補了傳統檢索技術返回結果相關度差的缺陷。
d.自然語言處理(Natural Language Processing)通過對自然語言文字與話語的語法、語義、語用進行分析,有助於實現基於語義而非關鍵詞的檢索。在知識檢索中的作用表現在結合語境實現詞義消歧,進行文檔信息抽取,從文獻語料庫中抽取明確的自然語言提問答案。此外,自然語言處理已大量應用於自然語言介面,人一機交互模擬人一人交互的認知功能,實現用戶與系統之間更充分的交流、理解、學習與協作。
e.知識可視化(Knowledge Visualization)以科學計算可視化、數據可視化、信息可視化為基礎,是所有可以用來建構和傳達複雜知識的圖解手段。知識可視化的目標在於傳輸見解、經驗、價值觀、期望、觀點、預測等,並以這種方式幫助人們正確地重構、記憶和應用這些知識。知識可視化技術包括6種類型:啟髮式草圖(Heuristic Sketches)、概念圖表(Conceptual Diagrams)、視覺隱喻(Visual Meta—phors)、知識動畫(Knowledge Animations)、知識地圖(Knowledge Maps)、科學圖表(Scientific Charts)。