全球专业中文经管百科,由121,994位网友共同编写而成,共计436,015个条目

元數據管理

用手机看条目

出自 MBA智库百科(https://wiki.mbalib.com/)

元數據管理(Metadata management)

目錄

什麼是元數據管理

  元數據管理(Metadata management)是對涉及的業務元數據技術元數據、操作元數據進行盤點、集成和管理。採用科學有效的機制對元數據進行管理,並面向開發人員、業務用戶提供元數據服務,可以滿足用戶的業務需求,為企業業務系統數據分析的開發、維護等過程提供支持[1]

  我們可以從技術、業務和應用三個角度理解元數據管理。

  技術角度:元數據管理涉及企業的數據源系統、數據平臺、數據倉庫數據模型資料庫、表、欄位以及欄位間的數據關係等技術元數據。

  業務角度:元數據管理涉及企業的業務術語表、業務規則、質量規則、安全策略以及表的加工策略、表的生命周期信息等業務元數據。

  應用角度:元數據管理為數據提供了完整的加工處理全鏈路跟蹤,方便數據的溯源和審計,這對於數據的合規使用越來越重要。通過數據血緣分析,追溯發生數據質量問題和其他錯誤的根本原因,並對更改後的元數據進行影響分析。

元數據管理的優勢[2]

  以下是使用專用軟體集中元數據的好處:

  集中式存儲庫可能包含報告和配置等信息。此數據可能存儲在受安全密鑰保護的文件或文件夾中。安全密鑰的存在可確保對文件的訪問受到限制,併為數據提供更高的安全性。

  存儲庫提高了運營效率和管理效率。用戶可以在一個位置檢索、訪問和分析來自多個來源的數據,從而提高工作效率

  集中式元數據還可以節省成本和時間。執行維護的時間和精力更少,便於更準確的數據分析和跟蹤。

  它提供了一個支持模型資料庫,多個用戶可以在其中提供他們的見解。

元數據管理的技術[3]

  從技術層面來看,元數據管理的技術主要包括元數據採集、元數據管理、元數據應用和元數據介面等。

  1、元數據採集

  在數據治理項目中,常見的元數據有數據源的元數據、數據加工處理過程的元數據、數據倉庫或數據主題庫的元數據、數據應用層的元數據、數據介面服務的元數據等。

  元數據採集服務提供各類適配器來滿足以上各類元數據的採集需求,並將元數據整合處理後統一存儲於中央元數據倉庫,實現元數據的統一管理。在這個過程中,數據採集適配器十分重要,元數據採集不僅要能夠適配各種資料庫、各類ETL、各類數據倉庫和報表產品,還需要適配各類結構化或半結構化數據源。

  (1)關係型資料庫

  通過元數據適配器採集來自Oracle、DB2、SQL Server、MySQL、Teradata、Sybase等關係型資料庫的庫表結構、視圖存儲過程等元數據。關係型資料庫一般都提供了元數據的橋接器,例如Oracle的RDBMS,可實現元數據信息的快速讀取。

  (2)2.NoSQL資料庫

  元數據採集工具應支持來自MongoDB、CouchDB、Redis、Neo4j、HBase等NoSQL資料庫中的元數據,NoSQL資料庫適配器多半利用了自身管理和查詢Schema的能力。

  (3)數據倉庫

  對於主流的數據倉庫,可以基於其內在的查詢腳本,定製開發相應的適配器對其元數據進行採集。例如MPP資料庫Greenplum,其核心元數據都存儲在pg_database、pg_namespace、pg_class、pg_attribute、pg_proc這幾張表中,通過SQL腳本就可以對其元數據進行採集。Hive表結構信息存儲在外部資料庫中,同時Hive提供類似show table、describe table之類的語法對其元數據信息進行查詢。

  當然,也可以利用專業的元數據採集工具來採集數據倉庫系統的元數據。

  (4)雲中的元數據

  隨著公有雲的日趨成熟,通過提供安全的雲連接,將雲端企業元數據管理用作核心IT基礎架構的擴展,尤其是在中小企業之間,已經成為現實。雲端企業元數據管理通過各種上下文改善信息訪問,並將實時元數據管理、機器學習模型、元數據API推進流數據管道,可以更好地管理企業數據資產。

  (5)其他元數據適配器

  建模工具:PowerDesigner、ERwin、ER/Studio、EA等建模工具適配器。

  ETL工具:PowerCenter、DataStage、Kettle等ETL工具適配器。

  BI工具:Cognos、Power BI等前端工具中的二維報表元數據採集適配器。

  Excel適配器:採集Excel格式文件的元數據。

  當然,目前市場上的主流元數據產品中還沒有哪一個能做到“萬能適配”,在實際應用過程中都需要進行或多或少的定製化開發。

  2、元數據管理

  從技術的角度看,元數據管理一般包括元模型管理、元數據審核、元數據維護、元數據版本管理、元數據變更管理等功能。

  (1)元模型管理

  元模型管理即基於元數據平臺構建符合CWM規範的元數據倉庫,實現元模型統一、集中化管理,提供元模型的查詢、增加、修改、刪除、元數據關係管理、許可權設置等功能,支持概念模型、邏輯模型、物理模型的採集和管理,讓用戶直觀地瞭解已有元模型的分類、統計、使用情況、變更追溯,以及每個元模型的生命周期管理。同時,支持應用開發的模型管理。

  支持元模型的全生命周期管理。元模型生命周期中有三個狀態,分別是:設計態、測試態和生產態。

  設計態的元數據模型,通常由ERWin、PowerDesigner的等設計工具產生。

  測試態的元數據模型,通常是關係型數據,如Oracle、DB2、MySQL、Teradata等;或非關係型資料庫,如MongoDB、HBase、Hive、Hadoop等。

  生產態的元數據模型,本質上與測試態元數據差異不大。

  通過元數據平臺對應用開發三種狀態的統一管理和對比分析,能夠有效降低元數據變更帶來的風險,為下游ODS、DW的數據應用提供支撐。

  (2)元數據審核

  元數據審核主要是審核採集到元數據倉庫但還未正式發佈到數據資源目錄中的元數據。審核過程中支持對數據進行有效性驗證並修複一些問題,例如缺乏語義描述、缺少欄位、類型錯誤、編碼缺失或不可識別的字元編碼等。

  (3)元數據維護

  元數據維護就是對信息對象的基本信息、屬性、被依賴關係、依賴關係、組合關係等元數據的新增、修改、刪除、查詢、發佈等操作,支持根據元數據字典創建數據目錄,列印目錄結構,根據目錄發現、查找元數據,查看元數據的內容。元數據維護是最基本的元數據管理功能之一,技術人員和業務人員都會使用這個功能查看元數據的基本信息。

  (4)元數據版本管理

  在元數據處於一個相對完整、穩定的時期,或者處於一個裡程碑結束時期,可以對元數據定版以發佈一個基線版本,以便日後對存異的或錯誤的元數據進行追溯、檢查和恢復。

  (5)元數據變更管理

  用戶可以自行訂閱元數據,當訂閱的元數據發生變更時,系統將自動通知用戶,用戶可根據指引進一步在系統中查詢到變更的具體內容及相關的影響分析。元數據管理平臺提供元數據監控功能,一旦監控到元數據發生變更,就在第一時間通知用戶。

  3、元數據應用

  (1)數據資產地圖

  按數據域對企業數據資源進行全面盤點和分類,並根據元數據字典自動生成企業數據資產的全景地圖。該地圖可以告訴你有哪些數據,在哪裡可以找到這些數據,能用這些數據乾什麼。數據資產地圖支持以拓撲圖的形式可視化展示各類元數據和數據處理過程,通過不同層次的圖形展現粒度控制,滿足業務上不同應用場景的圖形查詢和輔助分析需要:

  (2)元數據血緣分析

  元數據血緣分析會告訴你數據來自哪裡,經過了哪些加工。其價值在於當發現數據問題時可以通過數據的血緣關係追根溯源,快速定位到問題數據的來源和加工過程,減少數據問題排查分析的時間和難度。

  (3)元數據影響分析

  元數據影響分析會告訴你數據去了哪裡,經過了哪些加工。其價值在於當發現數據問題時可以通過數據的關聯關係向下追蹤,快速找到有哪些應用或資料庫使用了這個數據,從而最大限度地減小數據問題帶來的影響。這個功能常用於數據源的元數據變更對下游ETL、ODS、DW等應用的影響分析。

  血緣分析是向上追溯,影響分析是向下追蹤,這是這兩個功能的區別。

  (4)元數據冷熱度分析

  元數據冷熱度分析會告訴你哪些數據是企業常用數據,哪些數據屬於僵死數據。其價值在於讓數據活躍程度可視化,讓企業中的業務人員、管理人員都能夠清晰地看到數據的活躍程度,以便他們更好地駕馭數據,處置或激活僵死數據,從而為數據的自助式分析提供支撐。

  (5)元數據關聯度分析

  元數據關聯度分析會告訴你數據與其他數據的關係,以及它們的關係是怎樣建立的。關聯度分析是從某一實體關聯的其他實體及其參與的處理過程兩個角度來查看具體數據的使用情況,形成一張實體和所參與處理過程的網路,如表與ETL程式、表與分析應用、表與其他表的關聯情況等,從而進一步瞭解該實體的重要程度。

  4、元數據介面

  建立元數據查詢、訪問的統一介面規範,以將企業核心元數據完整、準確地提取到元數據倉庫中進行集中管理和統一共用。

  元數據介面規範主要包括介面的編碼方式、介面響應、介面協議、介面安全、連接方式、技術實現、調用方式、報文格式等方面的內容。

元數據管理中的難點[4]

  元數據管理是大數據平臺建設的重要組成部分,是企業實現數據資產,資產服務化的重要基礎,在數據管理大環境下和數據安全、數據質量、數據架構、數據模型等有著千絲萬縷的關係。也是是業務和技術互通的橋梁。因此元數據建設的好壞會對企業整體數據以及管理帶來重要的影響。

  首先是元數據識別,要確定要管理哪些元數據,按元數據的定義來看只要能描述數據的數據都能作為元數據進行管理,但從價值角度講一定要找到對數據業務、數據運維、數據運營、數據創新帶來幫助的元數據進行管理,避免眉毛鼻子一把抓。一般企業元數據建設都是圍繞數據集中的數據平臺進行全鏈路的源、數據平臺、分析系統的元數據數據管理,圍繞這條主線,進一步管理業務元數據和操作元數據。在建設過程中要圍繞本企業數據管理問題域進行虛實結合的建設。

  其次是元模型的構建,元模型其核心結構要穩定,因為元數據的建設不是一蹴而就的,需要慢慢的積累和演變,因此存儲元數據的元模型結構一定要進行抽象出穩定的結構,比如:針對關係抽象出組合關係和依賴關係、針對模型要抽象出每一類型元數據父類或基類以方便其靈活擴展。

  最後是元數據間的關係,從元數據應用的角度來看,光分析元數據的結構對數據分析人員和數據應用的價值還不是那麼的突出。元數據管理的價值主要在其關係的豐富程度,舉個不恰當的例子,猶如一個人如果其社會關係足夠的豐富,那麼其處理各種事情就游刃有餘,元數據也類似數據分析和應用一定是從其關係中探尋出數據的價值進而指導業務或進行數據創新。從長期的實踐中發現,基於信息項或欄位的元數據關係構建是最穩定的。

不同角色對元數據管理的期望[4]

  為了站在不同角色的角度回答這個問題,我們先把企業中與元數據管理項目相關的幾種角色列一列,這裡暫且將這些角色分為企業高管、數據開發人員、數據分析人員、數據管理人員、運維人員、其他業務用戶幾種。

  企業高管:在數據越來越重要的形勢下,高管們比較關心的是企業的整個數據全貌以及數據在全企業中的使用狀況(或者可以說是更註重數據資產與應用層面),但是沒有一個人能直接告訴領導企業中的數據是什麼樣,具體的使用流通情況是什麼,有效的元數據管理能很好地回答企業高管的這些問題。

  數據開發人員:對於數據開發來說,最常見的問題就是大量的重覆工作:明明已經有了一模一樣的介面或者腳本,但是因為是別人寫的,沒有統一標識並管理起來,所以根本就找不到,即使找到了可能也會因為缺少相關的解釋說明,根本無法重覆利用,降低數據開發效率的同時也造成了大量的冗餘。元數據管理能方便數據開發人員查找想重覆利用的信息,而解釋說明恰好可以通過業務元數據管理來實現。

  數據分析人員:數據分析人員通常需要通過較高級的數據統計分析實現公司與戰略決策、業務或考核相關的目標。對於他們來說,錯綜複雜的數據關係、參差不齊的數據質量和業務元數據的缺失是主要問題。元數據管理降低了這些信息的獲取門檻,也為數據質量的問題追溯提供了支持。

  數據管理人員:數據管理人員通常需要負責數據從設計、測試到部署交付的全生命周期管理。對於他們來說,通常需要管理各種版本的數據信息,並管理企業數據的生命周期,如何控制各狀態下數據的協調一致和及時判斷數據處於什麼周期需要做什麼操作是目前急需解決的問題。這可以通過管理企業元數據來實現。

  運維人員:對於運維人員來說,需要時刻保證系統的穩定性,尤其是當企業模型發生變更時,要不斷判斷變更帶來的影響,顯然人工判斷的方式在準確性和實時性上都很難保證,而且對運維人員的業務能力要求較高,很大程度上增加了系統風險。通過元數據管理,當系統變更時,可以根據已經獲取到的系統、表等對象間關係自動分析出變更帶來的影響,用自動化的方式降低維護成本,提升用戶體驗

  其他業務人員:由於業務人員對業務規則業務流程比較熟悉,通常不需要對技術細節有很深入的瞭解,技術門檻往往導致業務人員獲取和理解數據難,因為不瞭解數據存儲情況,也很難技術溝通業務需求,往往最終難到手的數據也不是自己想要的,難以匹配業務的快速發展。

企業進行元數據管理的方式[1]

  企業進行元數據管理可以分為以下幾個部分:

  • 制度保障:企業高層管理者需要給予強有力的支持,並制定相應的規章制度進行保障,這是元數據管理持續推進的動力。
  • 技術與工具:進行元數據管理,離不開技術與工具的支持。選用合適的工具,能讓元數據管理更加輕鬆便捷。以SoData數據機器人為例,這一款一站式解決數據“實時、輕量、多源、異構”需求的數據開發治理工具,建立了元數據管理體系,可以通過元數據管理工具自動採集元數據信息,協助梳理業務系統,通過元數據分析,瞭解數據之間的影響、血緣邏輯,幫助用戶瞭解和管理數據關係和脈絡。

相關條目

參考文獻

本條目對我有幫助4
MBA智库APP

扫一扫,下载MBA智库APP

分享到:
  如果您認為本條目還有待完善,需要補充新內容或修改錯誤內容,請編輯條目投訴舉報

本条目由以下用户参与贡献

上任鹅陈.

評論(共0條)

提示:評論內容為網友針對條目"元數據管理"展開的討論,與本站觀點立場無關。

發表評論請文明上網,理性發言並遵守有關規定。

打开APP

以上内容根据网友推荐自动排序生成

下载APP

闽公网安备 35020302032707号