非結構化信息
出自 MBA智库百科(https://wiki.mbalib.com/)
非結構化信息(Unstructured Information)
目錄 |
非結構化信息 指信息的形式相對不固定,常常是各種格式的文件。它是相對結構化信息而言的,從巨集觀上看也是結構化信息的一種形式。諸如電子文檔、電子郵件、網頁、視頻文件、多媒體等.
對於來源繁多的信息資料,專業人士根據信息的格式加以劃分,將其分為結構化信息和非結構化信息兩大類。
結構化信息是可以數字化的數據信息,可以方便地通過電腦和資料庫技術進行管理。無法完全數字化的信息稱為非結構化信息,如文檔文件、圖片、圖紙資料 、縮微膠片等。這些資源中擁有大量的有價值的信息。現在這類非結構化信息正以成倍的速度增長。
另一種定義:
結構化信息,我們通常接觸的資料庫所管理的信息,包括生產、業務、交易、客戶信息等方面的記錄。非結構化信息,專業術語為內容,所涵蓋的信息更為廣泛,可分為:營運內容(operational content):如合約、發票、書信與採購記錄;部門內容(workgroup content):如文書處理、電子錶格、簡報檔案與電子郵件;Web內容:如HTML與XML等格式的信息;多媒體內容(Rich Media Content):如聲音、影片、圖形等。
如果說結構化信息更多的忠實、詳實地記錄了企業的生產交易活動,是顯性的表示,那麼非結構化信息則隱性包含了掌握著企業命脈的關鍵,隱含著許多提高企業效益的機會。對於企業來說,企業內部,以及企業與供應商、客戶、合作伙伴和員工數字化共用所有形式的數據資源,已越來越重要。
90%的信息和知識在“結構化”世界之外,IT應用中還存在著一個“非結構化”的世界。對大多數企業來說,ERP等業務系統所管理的結構化數據只占到企業全部信息和知識的10%左右,其他的90%都是資料庫難以存取到的非結構化信息和知識。來自IDC的分析顯示,雖然很多企業投資不菲建立了諸多業務支撐系統,但仍有72%的管理者認為知識沒有在他們的組織得到重覆利用,88%的人認為他們沒有接觸到企業最佳實踐的機會。Gartner 也曾預言,對非結構化信息和知識的管理將會帶來一個新IT應用潮流。
目前的非結構化信息處理類似於上世紀70年代以前的結構化信息應用。割裂、無法進行數據互操作的應用是其主流。以人們最常用的文檔軟體來看,DOC文檔是MS WORD與WPS的專用格式,永中、中文2000等OFFICE產品廠商則各有各的“自留地”。這種情況下,由於文檔格式的束縛而使信息四分五裂,信息流無法通暢流轉,信息處理更加困難,信息資源因為“信息流的不通暢”而喪失了其應有的巨大價值。
從非結構化到半結構化,從半結構化到結構化,從結構化到關聯數據體系,從關聯數據體繫到數據挖掘,從數據挖掘到故事化呈現,從故事化呈現到決策導向。
互連網上出現的海量信息,大概分為結構化、半結構化和非結構化三種。結構化信息如電子商務信息,信息的性質和量值的出現的位置是固定的;半結構化的信息如專業網站上的細分頻道,其標題和正文的語法相當規範,關鍵詞的範圍相當局限;非結構化的信息如BLOG和BBS,所有內容都是不可預知的。
結構化信息和非結構化信息是 IT應用的兩個世界,它們有著各自不同的應用進化特點和規律。但是,這兩個世界之間還缺少相互連接的橋梁,而這種缺失使企業中不可避免地存在“活動”、“ 信息和知識”的分離,其後果就是:雖然它們都在進行著“知識化”的努力,但兩個世界分離的IT應用模式,註定使其難以真正實現它們的初衷——“在最合適的時間,將最合適的信息傳送給最合適的人”。
構建非結構化信息產業
中國的軟體產業無法在結構化信息產業中獲得主動地位,但歷史並不會停留在這一個領域內。整個信息產業還有更大的市場有待開發:這就是非結構化信息應用。
通俗地說,結構化信息是一些可以用表格來描述的信息。除此之外還有大量的文檔、流媒體信息等非結構化信息。但事實上,現實社會中,非結構化信息占據著80%以上的份額。這部分信息目前仍處於低效率的處理階段,它給世界信息產業發展留下了空間,也給中國軟體產業的跨越式發展帶來了契機。
目前的非結構化信息處理仍處於類似於上世紀70年代以前的結構化信息應用。割裂地、無法進行數據互操作的應用是它的主流。以人們最常用的文檔軟體來看,DOC文檔是MS WORD與WPS的專用格式,永中、中文2000等OFFICE產品廠商則各有各的“自留地”。這種情況下,由於文檔格式的束縛而使信息四分五裂,信息流無法通暢流轉,信息處理更加困難。我們可以想象,有多少信息資源因為“信息流的不通暢”而喪失了其應有的巨大價值。
基於諸如此類的問題和現狀,文檔庫技術的成展成為信息產業下一步發展不可避免的潮流。文檔庫產業也將成為一個比資料庫產業更加重要的核心產業,關係到信息技術的發展進程。文檔庫技術應用意味著文檔信息可以像結構化信息應用操作一樣,文檔信息的構建只要符合一個特定的數學模型,並設計一種可以對所有符合這種數學模型的文檔進行各種操作的標準,文檔應用軟體就可以對所有此類文檔進行相應的操作——就像一個ERP軟體通過SQL操作關係型資料庫時可以不必去考慮你底層用的是DB2還是ORACLE一樣。
一個令人振奮的消息是,北京書生公司近日宣佈推出了其SEP文檔庫技術,並已經形成可以實際應用的文檔模型描述和相應的操作標準——UOML(Unstructured Operation Markup Language,非結構化操作標記語言)。這意味著,中國的企業有可能成為非結構化信息產業發展中核心技術的持有者和標準的制訂者。
可以想象,占整個信息領域20%的結構化信息產業發展帶來了超過千億美元量級的產業,那麼,占整個信息領域80%的非結構化信息產業一旦走上正軌,它將帶來怎樣的市場機會。這是很多人不敢想象的數字!
按照書生董事長王東臨教授的介紹,由書生公司發起的UOML聯盟已經啟動,TRS、中文2000、漢王、中科院軟體所、中標、中科啟信、星火燎原等國內的 IT企業已加入其中,理光、Fatwire、Autonomy等單位也均有意向加入聯盟,正在洽談過程中。作為計劃推進的一部分,加入UOML聯盟的企業將首先實現相關操作的互操作問題。如10家聯盟企業有各自的文檔處理軟體,以往這10種軟體所保存的文檔無法被其他軟體操作,而加入聯盟後的這10種軟體可以操作其他任何一個軟體生成的文檔。由於文檔庫及UOML的應用,這些軟體完成這種改造只需要一兩個小時到一個星期的開發工作(視操作功能而定)。“比如其中有一家加入聯盟的企業只是想讓他的軟體可以打開符合UOML標準的文檔,那他只需要花一天去修改他的軟體。”
這既是文檔庫技術給文檔信息處理帶來的巨大優勢,也是推動非結構化信息產業發展的關鍵。