數據質量管理
出自 MBA智库百科(https://wiki.mbalib.com/)
目錄 |
什麼是數據質量管理[1]
數據質量管理是指為了滿足信息利用的需要,對信息系統的各個信息採集點進行規範,包括建立模式化的操作規程、原始信息的校驗、錯誤信息的反饋、矯正等一系列的過程。
數據質量管理的層次[2]
數據質量管理可分為人工比對、程式比對、統計分析三個層次。
- 1.人工比對
為了檢查數據的正確性,測試人員打開相關資料庫,對轉換前和轉換後的數據進行直接的比對,發現其不一致性,通知相關人員進行糾正。
- 2.程式比對
為了自動化地檢查數據的質量,更好地進行測試對比,程式員編寫查詢比對程式給測試人員使用。測試人員使用此程式對轉換前和轉換後的數據進行比對,發現其不一致性,通知相關人員進行糾正。
- 3.統計分析
為了更加全面地從總體上檢查數據的質量,需要通過統計分析的方法,主要通過對新舊數據不同角度、不同視圖的統計對數據轉換的正確程度進行量化的分析,發現其在某個統計結果的不一致性,通知相關人員進行糾正。
數據質量管理的內容[3]
高質量的數據也就是精確的、一致的和及時可用的數據,是當今組織管理不可缺少的一個因素。組織機構必須努力識別與其決策制定相關的數據,以便制定確保數據準確性和完全性的業務策略和實踐,併為企業範圍的數據共用提供方便。管理數據質量是組織機構的職責,數據管理在規劃和協調工作中常常起著主導作用。改進數據質量的很多方法,例如,全面分析和編檔E-R圖和其他文檔中的所有業務規則、欄位級別的數據完整性約束、安全控制、以及備份和恢復方法。此處激發組織機構對全面數據質量控制計劃的需要,介紹提高數據質量的一些額外過程。
那麼,什麼是高質量的數據呢?Redman(2004)文獻將數據質量概括為“在操作、決策制定和規劃中與預期使用相符”。這就意味著數據沒有缺陷(可訪問的、精確的、及時的、完整的,且各數據源的數據是一致的),並擁有期望的特性(相關聯的、全面的、合適的詳細程度、易讀和易解釋)。
- 1.數據質量的狀況
不能誇大高質量數據的重要性。根據Brauer(2002)文獻:
關鍵業務決策的制定和資源的分配是以資料庫中找到的數據為基礎的。包括改變價格、策劃市場促銷活動、與客戶溝通、圍繞組織機構的各種系統產生的任何數據點設計日常操作。作為這些系統基礎的數據必須是好的數據,否則,還未開始我們就已失敗。如果數據是糟糕的,則無論屏幕顯示有多好、界面有多直觀、性能提高有多快、自動化處理程度有多高、方法有多新穎、系統訪問有多遠,也統統都無濟於事,系統仍然會失敗。如果系統失敗,或至少是提供一些不准確的信息,則即使不會對業務本身產生災難性的影響,也會對每一過程、決策、資源分配、通信、或與系統的交互造成損害。
這裡引用的這一段話實質上重申了這樣一句舊的IT格言,即“垃圾進,垃圾出fgarbage.in,garbage—out,GIGO)”,但在當今的環境中越來越強調這存在著巨大的高風險。
但是,有很強的跡象表明,在當今的很多組織機構中,數據質量的狀況很成問題,甚至令人難以接受。考慮下麵這些評估:
·據專家估計,由於用戶拒絕不可靠的數據,導致多達70%的數據倉庫項目遭到失敗。
·數據倉庫協會的一項調查(Eekerson,2002)表明,美國只有1/4的公司實施了數據質量倡議。
·據估計,糟糕的數據通過使收入受損而會耗費商業機構多達10%~20%的操作總預算。而且,IT部門預算的40%50%之多可能都花在了糾正由糟糕的數據所引起的錯誤上(English,1999)。
·專家認為,由於客戶的死亡、離婚、結婚或調離,客戶文件中的記錄在一個月之內會有2%變得過時(Betts,2002)。
為什麼在過去的幾年中,組織機構資料庫的數據質量會不斷惡化?除其他一些原因之外,下麵是三個重要原因。
- 1.外部數據源
很多數據來源於組織的外部,因此對數據源的控制相對較少。例如,藉助於網際網路,從用戶填寫的W曲表單,一個公司可以收到大量的數據。這樣的數據常常是不准確的或不完全的,甚至是有意弄錯的。(您是否曾在基於Web的表單中輸入過錯誤的電話號碼?因為要求輸入電話號碼,而您又不願意暴露自己的實際電話號碼)。B2B事務的其他數據通過XML渠道獲得,這些數據也可能包含一些不准確的信息。而且,組織機構常常會從外部組織購買文件或資料庫,這些數據來源可能會包含一些不准確的或與內部數據不相容的數據。
- 2.冗餘的數據存儲
很多組織機構允許電子數據表、桌面資料庫、遺留資料庫、數據集市、數據倉庫和其他數據存儲庫等不受控制地激增。這些數據有很多是冗餘的,且充滿了不一致性和不兼容性。
- 3.缺乏組織承諾
由於各種各樣的原因,很多組織機構根本沒有做出承諾或投資資源,以改進他們的數據質量。有些組織完全否認他們存在數據質量問題,而有些組織則意識到他們有數據質量問題,但是擔心解決方案成本太高或他們不能定量確定投資回報。
- 2.數據質量改進
成功地實現質量改進計劃要求組織機構全體成員積極主動地參與並承擔責任。下麵簡短地介紹這樣一個計劃的一些關鍵步驟。
- 1.指導數據質量審計
未建立數據質量計劃的組織機構應該從數據審計著手,以理解數據質量問題的範圍和性質。數據質量審計包括很多過程,但一項簡單的任務是從統計角度生成所有文件的概要。此概要對每個欄位值的設置進行編檔。通過檢查,可以識別出晦澀的和意外的極端值。可以分析數據模式(分佈),以確定此分佈是有意義的。(一個值有意想不到的高頻率則可能表明用戶正在輸入一個容易的數字,或常常使用預設值,因此,準確的數據未被記錄)。可以對照相關的業務規則檢查數據,以確保實施的控制是有效的,且未以某種方式繞開控制(例如,有些系統允許用戶覆蓋“輸入的數據違反了某一規則”這樣的報警消息,如果這種情況發生得太頻繁,則可能是業務規則執行不嚴的一個徵兆)。數據質量軟體可用來檢查有效的地址,併發現冗餘記錄和違反了哪些特定規則,冗餘記錄是由於客戶或不同來源的其他主題的匹配方法不夠充分而產生的。
審計將全面審查對數據輸入和維護的所有過程式控制制。改變敏感數據的規程可能應該涉及到至少由兩個人採取的行動,他們具有不同的責任和義務。主鍵和重要的財務數據就屬於這樣類型。應該對所有欄位定義並實施適當的編輯檢查。應該分析每個數據源(例如,用戶、工作站或源系統)數據處理的錯誤日誌,以識別錯誤和被拒絕事務的模式或高頻率,並應該採取措施提高數據源提供高質量數據的能力。例如,應該阻止用戶將數據輸入到他們不打算使用的欄位中。不使用某一數據的一些用戶可能使用此欄位來存儲他們需要但無合適欄位的數據。這會使使用這些欄位的其他用戶感到迷惑不解,並看到一些預期不該看到的數據。
- 2.建立數據管家計劃
Sarbanes—Oxley2002法案已強制要求組織機構採取措施確保數據的精確性、及時性和一致性。雖然不是法規所要求,但很多組織機構都要求CIO以及CEO和CFO簽署財務報告,認可IT部門構建確保數據質量過程的作用。建立業務信息咨詢委員會有助於建立高質量數據,此委員會應該包括每個主要業務部門的代表,他們有權就業務策略制定決策。這些委員會成員充當IT部門和他們所在業務部門的聯絡員,他們不僅要考慮他們所在職能部門的數據需要,而且還要考慮企業範圍的數據需要。這些成員是他們所掌管數據的行業專家,因此他們需要有強烈的興趣將信息作為公司資源來管理,深入理解組織業務,並具有良好的商談技能。這些成員一般是高級管理人員,有時將他們稱為數據管家(datastewards),他們有責任確保組織機構的應用程式有效地支持組織機構的企業目標。數據管家應該對他們所負責的數據的質量負責,也必須確保獲取的數據是準確的,且在整個組織範圍內是一致的,以使整個組織的用戶都能夠依賴這些數據。數據管家職位是一個角色,而不是一項工作,因此,數據管家不擁有數據,而且數據管家還常常在數據管理領域內承擔其他職責,甚至經常在數據管理領域之外承擔其他職責。
數據管家(Datasteward):有責任確保組織機構應用程式有效地支持組織機構在數據質量方面的企業目標的人。
Seiner(2005)文獻全面概述了數據管家的角色和職責。其角色包括數據管家計劃的監督者、各數據主題領域(例如,客戶、產品等)的管理者、負責每個主題領域數據定義的管家、負責每個主題領域數據的精確而高效的生產/維護的管家、以及負責正確使用每個主題領域數據的管家。
- 3.應用TQM原則和實踐
處於領先地位的組織機構採用全面質量管理(Total Quality Management,TQM)來提高數據質量,這與其他業務領域是一樣的。其中採用的一些TQM理論包括缺陷預防(而不是糾正)、持續改進,以及使用企業數據標準。例如,當發現遺留系統中的數據有缺陷時,比較好的做法是糾正產生此數據的遺留系統,而不是在將此數據轉移到數據倉庫中時試圖糾正它。關於將TQM應用到數據質量改進的深入討論,請參見English(1999)文獻。
- 4.剋服組織障礙
建立企業範圍的數據質量標準並非易事,有些業務結構和實踐甚至可能會抑制數據質量。在有些企業中,組織機構建立彼此競爭的戰略業務部門,則數據共用可能會很困難,因為每個戰略業務部門都會努力保護它們自己的競爭地位。受管制行業(例如,銀行業和電信業)在可共用數據的數量方面可能有法律上的限制。當在刺激性計劃或基於已完成工作量的配額系統指導下輸入數據時,可能會產生維護高數據質量的另一個威脅。對實現數據快速輸入的關註程度可能會勝於對數據輸入準確性的關註程度。如果需要共用的數據來自多個業務部分,則不精確和不一致的數據可能會猛增。必須制定策略處理這些問題。組織機構必須建立數據質量規範,包括為每個人分配職責(包括在工作描述中)以及創建並遵循支持過程。
- 5.應用現代數據管理技術
目前可從商家獲得功能強大的軟體,從技術方面幫助用戶改進數據質量。該軟體經常採用高級技術,例如模式匹配、模糊邏輯和專家系統。這些程式可以用來分析當前數據的質量問題,識別並消除冗餘數據,將來自多個數據源的數據整合在一起,等。第11章在數據抽取、轉換和載入主題中曾討論過其中的一些程式。
- 6.估計投資回報
由於當今對資源的競爭要求,必須使管理層確信數據質量計劃會獲得豐厚的投資回報(ROI)。幸運的是,在當今的組織機構中這並不難做到。這樣的計劃一般具有兩種好處:避免成本和避免喪失機會。
考慮一個簡單的範例。假設一個銀行的客戶文件中有500000個客戶。銀行計劃向所有客戶以郵寄方式直接發送新產品的廣告。假設客戶文件中的錯誤率是10%,包括重覆的客戶記錄、過時的地址等(這種錯誤率並不少見)。如果郵寄的直接成本是5.00美元(包括郵資和材料費),則由於糟糕數據而產生的預期損失是:500000客戶×0.10×$5,即250000美元。
與糟糕數據相關的機會喪失常常大於直接成本。例如,假設平均水準的銀行客戶每年產生2000美元的收入,包括利息和服務費等。5年就等於10000美元。假設銀行實施一個企業範圍的數據質量計劃來改進其客戶關係管理、交叉銷售以及其他相關活動。如果這一計劃使新業務收入凈增加2%(這是一個有根據的猜測),則5年的結果將是顯著的:500000客戶×$10000×0.02,即100000000美元。難怪有時人們說“質量是免費的。”
數據質量管理的策略[4]
數據質量管理與企業架構小組的活動關係密切,因而負責管理數據質量的人員也應該是該小組成員或在該小組指導下工作。無論哪種情況,企業架構小組都應該建立數據質量管理的策略。這個數據質量策略應該:
1.定義數據驗證的方法,包括語法和語義。對於數據驗證應該在何時何地被包括進流程,提供相關指導。
2.定義發現數據質量問題的方法,包括實施基於系統的審計和設置專人來彙報可疑數據質量問題。
3.根據所覺察的業務影響,定義評定數據質量問題修正優先順序的方法。在解決差異的人員有限的情況下,這一做法是必需的。
4.定義調整數據差異的流程,並對每個已報告差異的解決狀態保持跟蹤。
數據質量管理的實施[5]
數據質量管理項目實施對於什麼是符合數據質量標準的高質量數據,可能每一個參與數據處理工作的人都有自己的定義。例如對於客戶經理,高質量的數據是指標準的客戶交往記錄,而對於從事科學研究的人來說,高質量的數據是指清晰地描述數據之間的關聯關係。可見,數據質量標準必鬚根據每一個具體的案例來定義,它是以滿足應用要求為目標的。改善數據質量不是使用一個工具就能夠解決的,最好的方法是首先根據要分析的目標確定數據希望達到的標準,根據這些標準衡量現有的數據集,然後使用各種提高數據質量的技術和方法,持續不斷地提高數據的質量,以達到預定的標準。下麵介紹一種常用的數據質量管理項目的實施流程。
(1)發現數據質量問題,這是實施數據質量管理項目的第一步。
(2)得到高級管理人員的支持,建立項目實施隊伍。
(3)分析與數據質量相關的業務環節。
(4)確定數據質量管理項目成功的標準。
(5)分析現有數據的數據質量,收集數據質量管理需求。
(6)設計項目使用的技術平臺,這可以從軟體供應商那裡購買也可以自行開發。
(7)建立元數據模型。
(8)建立數據質量管理系統架構。
(9)評估數據質量管理程式的運行結果。
美國數據倉庫研究院(TDWl)的教育與研究總監威恩·埃克森,也提出了一個由九個步驟組成的數據質量管理框架。
第一步:推出一個數據質量項目
第二步:制定一個項目計劃
第三步:建立一個數據質量小組
第四、五步:評估商務流程和數據架構
第六步:評估數據質量
第七步:清洗數據
第八步:改進商務實踐
第九步:持續監視數據
另外,為瞭解決數據質量問題,很多業界人土都呼籲建立數據管家制度。除此之外,質量管理方法論還有全面質量管理、ISO質量認證體系、歐洲質量管理基金會的原則、六西格瑪等,都可以從對產品、服務和流程的管理轉到對企業數據的管理中。
不能夠解決數據質量問題是數據倉庫或商務智能項目中一個常見的缺陷。當用戶認識到分析結果中的錯誤或者商務智能應用軟體和數據源系統之間的不一致時,這種負面影響才被髮現。這通常都需要在數據源和支持商務智能環境的資料庫之間進行協調,而且還得重新進行數據提取/轉換的流程。相反,如果一開始就能識別並解決數據質量問題,而且能不間斷地解決這些問題,就既能避免返工又能使項目執行後用戶的接受度更高,從商務智能中獲得的價值也更高。