元數據
出自 MBA智库百科(https://wiki.mbalib.com/)
- 元數據(Metadata)
目錄 |
元數據是關於數據的組織、數據域及其關係的信息,簡言之,元數據就是關於數據的數據。
概念闡述總歸生澀,下麵用幾個簡單的例子來比喻一下:
例1:元數據是“戶口本”。有了“戶口本”,我們不僅能瞭解此人的出生年月等基本信息,還能知曉他的親屬關係。這些信息就構成了對這個人的詳細描述,這些信息就是描述這個人的元數據。
例2:元數據是“圖書目錄”。圖書館中的圖書目錄包含圖書名稱、編號、作者、位置等信息,有了它,圖書管理員就能快速查找圖書。元數據能夠幫助數據管理員管理數據。
例3:元數據是“藏寶圖”,按圖索驥就能找到寶藏。元數據能夠幫助企業盤點自己有哪些數據,以及這些數據的位置、來源、去向、路徑等。
元數據的特點[1]
①元數據是關於數據的結構化的數據,它不一定是數字形式的,可來自不同的資源。
②元數據是與對象相關的數據,此數據使其潛在的用戶不必先具備對這些對象的存在和特征的完整認識。
③元數據是對信息包裹(Information Package)的編碼的描述。
④元數據包含用於描述信息對象的內容和位置的數據元素集,促進了網路環境中信息對象的發現和檢索。
⑤元數據不僅對信息對象進行描述,還能夠描述資源的使用環境、管理、加工、保存和使用等方面的情況。
⑥在信息對象或系統的生命周期中自然增加元數據。
⑦元數據常規定義中的“數據”是表示事務性質的符號,是進行各種統計、計算、科學研究、技術設計所依據的數值,或是說數字化、公式化、代碼化、圖表化的信息。
元數據的分類[2]
按照不同領域和功能,元數據一般來說可分為:技術元數據、業務元數據、操作元數據、管理元數據。由於使用視角不同會影響到對元數據的分類,所以具體的分類標準並不嚴格。(比如數據安全等級指標——從安全部門的視角來看,屬於業務元數據;從開發部門的視角來看,就屬於管理元數據。)
1、技術元數據
技術元數據是用於開發和日常管理數據倉庫時用的數據。它作為數據的結構化,能夠方便電腦、資料庫對數據進行識別、存儲、傳輸和交換。
對開發人員來說,它有助於明確數據的存儲、結構,為應用開發和系統集成打牢基礎;對業務人員來說,它有助於理清數據關係,從而能夠更加快速地找到想要的數據,進而對數據的來源和去向進行分析,支持數據血緣追溯和影響分析。
常見的技術元數據:
- 物理資料庫表名稱、列名稱、欄位長度、欄位類型、約束信息、數據依賴關係等;
- 數據存儲類型、位置、數據存儲文件格式或數據壓縮類型等;
- 欄位級血緣關係、SQL腳本信息、ETL抽取載入轉換信息、介面程式等;
- 調度依賴關係、進度和數據更新頻率等。
2、業務元數據
業務元數據描述的對象,是數據的業務含義、業務規則等。通過對業務元數據的明確,人們對它的理解和使用會變得更加容易。元數據使得數據的二義性不復存在,人們對數據含義能夠產生一致的認知,避免了“自說自話”的情況,進而為數據分析和應用提供支撐。
常見的業務元數據:
- 業務定義、業務術語解釋等;
- 業務指標名稱、計算口徑、衍生指標等;
- 業務規則引擎的規則、數據質量檢測規則、數據挖掘演算法等;
- 數據的安全或敏感級別等。
3、操作元數據
操作元數據描述了數據的操作屬性,比如管理部門、管理責任人等。數據操作屬性的明確,有助於將數據管理責任落實到部門和個人,是數據安全管理的基礎條件。
常見的操作元數據:
- 數據所有者、使用者等;
- 數據的訪問方式、訪問時間、訪問限制等;
- 數據訪問許可權、組和角色等;
- 數據處理作業的結果、系統執行日誌等;
- 數據備份、歸檔人、歸檔時間等。
4、管理元數據
管理元數據包含了數據管理的信息在其中,例如:表的業務屬主、表的技術負責人。
常見的管理元數據:
- 數據的來源;
- 數據的功用;
- 數據的負責人;
- 數據的價值體現等。
元數據的結構[1]
①內容結構。包括描述性元素、技術性元素、管理性元素、復用性元素。
②句法結構。包括元素的分區分層分段組織結構、元素結構描述方法、DTD描述語言、元數據復用方式、與被描述對象的捆綁方式。
③語義結構。包括元素內容編碼規則定義、元素定義、元素語義概念關係、元數據版本管理。
元數據的作用[3]
元數據是網路信息資源描述的重要工具,可以用於網路信息資源管理的各個方面,包括信息資源的建立、發佈、轉換、使用、共用等。元數據在網路信息資源組織方面的作用可以概括為五個方面:描述、定位、搜尋、評估和選擇。
(1)描述作用:根據元數據的定義,它最基本的功能就在於對信息對象的內容和位置進行描述,從而為信息對象的存取與利用奠定必要的基礎。
(2)定位作用:由於網路信息資源沒有具體的實體存在,因此,明確它的定位至關重要。元數據包含有關網路信息資源位置方面的信息,因而由此便可確定資源的位置之所在,促進了網路環境中信息對象的發現和檢索。此外,在信息對象的元數據確定以後,信息對象在資料庫或其他集合體中的位置也就確定了,這是定位的另一層含義。
(3)搜尋作用:元數據提供搜尋的基礎,在著錄的過程中,將信息對象中的重要信息抽出並加以組織,賦予語意,並建立關係,使檢索結果更加準確,從而有利於用戶識別資源的價值,發現其真正需要的資源。
(4)評估作用:元數據提供有關信息對象的名稱、內容、年代、格式、製作者等基本屬性,使用戶在無需瀏覽信息對象本身的情況下,就能夠對信息對象具備基本瞭解和認識,參照有關標準即可對其價值進行必要的評估,作為存取利用的參考。
(5)選擇作用:根據元數據所提供的描述信息,參照相應的評估標準,結合使用環境,用戶便能夠做出對信息對象取捨的決定,選擇適合用戶使用的資源。
元數據的各種解決方案[1]
1.網路資源:Dublin Core、IAFA Template、CDF、Web CoIlections。
2.文獻資料:MARC(with 856 Field),Dublin Core。
3.人文科學:TEI Header(Text encoding initiative Header)。
4.社會科學數據集:ICPSR SGML Codebook。
5.博物館與藝術作品:CIMI(Computer Interchange of Museum Information)、CDWA(Categories for the Description of Works of Art)、RLG REACH Element Set、VRA Core。
6.政府信息:GILS(Government Information Locator Service)。
7.地理空間信息:FGDC/CSDGM(Federal Geographic Data Committee/Content Standard for Digital Geospatial Metadata)。
8.數字圖像:MOA2 metadata、CDL metadata、Open Archives Format、VRA Core NISO/CLIR/RLG Technical Metadata for Images。
9.檔案庫與資源集合:EAD。
10.技術報告:RFC 1807、ibTeX、EELS、EEVL。
11.連續圖像:MPEG-7。