網路信息挖掘
出自 MBA智库百科(https://wiki.mbalib.com/)
目錄 |
網路信息挖掘就是利用數據挖掘技術,自動地從網路文檔以及服務中發現和抽取信息的過程。它涉及到多個研究領域,除了密切相關的機器學習和自然語言處理領域以外,還有資料庫、信息檢索、人工智慧等研究領域。或者可以理解為網路信息挖掘就是Web數據的挖掘,即利用數據挖掘技術從網站收集的數據中發現潛在的模式和關聯,網路信息挖掘能夠將Web數據轉換變成有用的洞察力和智能,從而來描述站點和訪問站點的人。網路信息挖掘可用於加強網站的導航功能、客戶交互的個性化以及保證網站的可靠性。
網路信息挖掘是一個極其複雜的過程,它不同於傳統的數據倉庫技術平和簡單的知識發現,它面對的海量信息不是全簡單的結構化數據,而常常為半結構化的數據,如文本、圖形、圖像數據,甚至是異構型數據。發現知識的方法可以是數學的,也可以是非數學的;可以是演繹的,也可以是歸納的。
網路信息挖掘大致分為4個步驟:
1.資源發現,即檢索所需的網路文檔。
2.信息選擇和預處理,即從檢索到的網路資源中自動挑選和預先處理得到專門的信息。
3.概括化,即從單個的Web站點以及多個站點之間發現普遍的模式。
4.分析,對挖掘出的模式進行確認。
根據挖掘對象的不同,網路信息挖掘可以分為為網路內容挖掘、網路結構挖掘以及網路用法挖掘三種類型。
1.網路內容挖掘
即從網路的內容/數據/文檔中發現有用信息的過程。網路信息資源類型眾多,從網路信息源的角度看,大量的網路信息資源可以直接從網上抓取、建立索引、實現檢索服務,但是還有一些網路信息是“隱藏”的,如由用戶的提問而動態生成的結果。或是存在DBMS中的數據,或是那些私人數據,它們無法被索引。從而無法提供對它們有效的檢索方式;從資源形式看,網路信息內容是由文本、圖像、音頻、視頻、元數據等形式的數據組成的,因此網路內容挖掘是一種多媒體數據挖掘形式。
2.網路結構挖掘
即挖掘Web潛在的鏈接結構模式。這種思想源於引文分析,即通過分析一個網頁鏈接和被鏈接數量以及對象來建立Web自身的鏈接結構模式。可以用於網頁歸類,並且可以由此獲得有關不同網頁間相似度及關聯度的信息,有助於用戶找到相關主題的權威站點。
3.網路用法挖掘
通過網路用法挖掘,可以瞭解用戶的網路行為數據所具有的意義。網路內容挖掘、網路結構挖掘的對象是網上的原始數據,而網路用法挖掘則面對的是在用戶和網路交互的過程中抽取出來的第二手數據。這些數據包括:網路伺服器訪問記錄、代理伺服器日誌記錄、瀏覽器日誌記錄、用戶簡介、註冊信息、用戶對話或交易信息、用戶提問式等等。運用網路用法挖掘技術能夠從伺服器以及瀏覽器端的日誌記錄中自動地發現隱藏在數據中的模式信息、瞭解系統的訪問模式以及用戶的行為模式,從而作出預測性分析。例如通過評價用戶對某一信息資源所花的瀏覽時間,可以判斷出用戶對該資源感興趣程度;對日誌文件所收集到的功能變數名稱數據,根據國家或域類型(.com,.edu,.gov)進行分類分析;應用聚類分析來識別用戶的訪問動機和訪問趨勢等。這項技術已經有效地運用在電子商務之中。眾所周知,信息的收集、加工、分析或挖掘以及傳播的過程並不是孤立的。
因此,在實際應用中,上述3類挖掘手段可以結合使用。它們的共同目標是充分利用多種網路信息資源,多角度、多層次地挖掘出支持不同商業決策需要的信息和知識。
網路信息挖掘在實際工作中具有重要的實踐意義和廣闊的應用前景,可以應用在科學研究、市場營銷、金融投資、產品製造、教學管理及網路管理等方面。
網路信息挖掘在電子商務中的應用主要是瞭解客戶,針對不同客戶提供不同的產品,提供個性化服務,確定顧客消費的生命周期,制定相應的營銷策略,分析潛在的目標市場,優化電子商務網站的經營模式;應用於電子政務中主要用於民情信息的挖掘分析,為政府重大政策出台提供決策支持,通過對網路各種經濟資源的挖掘,確定未來經濟的走勢,從而制定出相應的政策,這樣可以較大程度地提高政府信息化水平;網路信息挖掘作為一種開發利用網路資源的有力工具,在企業競爭情報系統的工作中發揮重要作用,通過對大量專利數據的分析歸納,發現權威站點和有重要價值的隱藏信息,並能監視和預測用戶的訪問習慣,通過對大量專利數據的分析歸納,挖掘出現有專利的模式和發展趨勢,可以評價企業的競爭能;網路信息挖掘還可以應用於搜索引擎,網路上存在著大量重覆的網頁,通過網路信息挖掘技術判斷出重覆的網頁,並屏蔽掉這些重覆信息,消除了重覆信息的查詢結果界面更加有序且方便於用戶;另外網路信息挖掘還可以應用於數字圖書館建設,主要應用於數字圖書館的信息資源建設、管理系統和個性化服務幾個方面,通過採用網路信息挖掘技術,可以將網路上豐富的信息資源聚集到數字圖書館,通過挖掘、加工和處理涉及信息需求者行為的大量信息,確定需求群體或個體的興趣及需求傾向等,為讀者提供高水平的基於數字化、智能化、個性化的主動服務。