数据质量管理
出自 MBA智库百科(https://wiki.mbalib.com/)
目录 |
什么是数据质量管理[1]
数据质量管理是指为了满足信息利用的需要,对信息系统的各个信息采集点进行规范,包括建立模式化的操作规程、原始信息的校验、错误信息的反馈、矫正等一系列的过程。
数据质量管理的层次[2]
数据质量管理可分为人工比对、程序比对、统计分析三个层次。
- 1.人工比对
为了检查数据的正确性,测试人员打开相关数据库,对转换前和转换后的数据进行直接的比对,发现其不一致性,通知相关人员进行纠正。
- 2.程序比对
为了自动化地检查数据的质量,更好地进行测试对比,程序员编写查询比对程序给测试人员使用。测试人员使用此程序对转换前和转换后的数据进行比对,发现其不一致性,通知相关人员进行纠正。
- 3.统计分析
为了更加全面地从总体上检查数据的质量,需要通过统计分析的方法,主要通过对新旧数据不同角度、不同视图的统计对数据转换的正确程度进行量化的分析,发现其在某个统计结果的不一致性,通知相关人员进行纠正。
数据质量管理的内容[3]
高质量的数据也就是精确的、一致的和及时可用的数据,是当今组织管理不可缺少的一个因素。组织机构必须努力识别与其决策制定相关的数据,以便制定确保数据准确性和完全性的业务策略和实践,并为企业范围的数据共享提供方便。管理数据质量是组织机构的职责,数据管理在规划和协调工作中常常起着主导作用。改进数据质量的很多方法,例如,全面分析和编档E-R图和其他文档中的所有业务规则、字段级别的数据完整性约束、安全控制、以及备份和恢复方法。此处激发组织机构对全面数据质量控制计划的需要,介绍提高数据质量的一些额外过程。
那么,什么是高质量的数据呢?Redman(2004)文献将数据质量概括为“在操作、决策制定和规划中与预期使用相符”。这就意味着数据没有缺陷(可访问的、精确的、及时的、完整的,且各数据源的数据是一致的),并拥有期望的特性(相关联的、全面的、合适的详细程度、易读和易解释)。
- 1.数据质量的状况
不能夸大高质量数据的重要性。根据Brauer(2002)文献:
关键业务决策的制定和资源的分配是以数据库中找到的数据为基础的。包括改变价格、策划市场促销活动、与客户沟通、围绕组织机构的各种系统产生的任何数据点设计日常操作。作为这些系统基础的数据必须是好的数据,否则,还未开始我们就已失败。如果数据是糟糕的,则无论屏幕显示有多好、界面有多直观、性能提高有多快、自动化处理程度有多高、方法有多新颖、系统访问有多远,也统统都无济于事,系统仍然会失败。如果系统失败,或至少是提供一些不准确的信息,则即使不会对业务本身产生灾难性的影响,也会对每一过程、决策、资源分配、通信、或与系统的交互造成损害。
这里引用的这一段话实质上重申了这样一句旧的IT格言,即“垃圾进,垃圾出fgarbage.in,garbage—out,GIGO)”,但在当今的环境中越来越强调这存在着巨大的高风险。
但是,有很强的迹象表明,在当今的很多组织机构中,数据质量的状况很成问题,甚至令人难以接受。考虑下面这些评估:
·据专家估计,由于用户拒绝不可靠的数据,导致多达70%的数据仓库项目遭到失败。
·数据仓库协会的一项调查(Eekerson,2002)表明,美国只有1/4的公司实施了数据质量倡议。
·据估计,糟糕的数据通过使收入受损而会耗费商业机构多达10%~20%的操作总预算。而且,IT部门预算的40%50%之多可能都花在了纠正由糟糕的数据所引起的错误上(English,1999)。
·专家认为,由于客户的死亡、离婚、结婚或调离,客户文件中的记录在一个月之内会有2%变得过时(Betts,2002)。
为什么在过去的几年中,组织机构数据库的数据质量会不断恶化?除其他一些原因之外,下面是三个重要原因。
- 1.外部数据源
很多数据来源于组织的外部,因此对数据源的控制相对较少。例如,借助于因特网,从用户填写的W曲表单,一个公司可以收到大量的数据。这样的数据常常是不准确的或不完全的,甚至是有意弄错的。(您是否曾在基于Web的表单中输入过错误的电话号码?因为要求输入电话号码,而您又不愿意暴露自己的实际电话号码)。B2B事务的其他数据通过XML渠道获得,这些数据也可能包含一些不准确的信息。而且,组织机构常常会从外部组织购买文件或数据库,这些数据来源可能会包含一些不准确的或与内部数据不相容的数据。
- 2.冗余的数据存储
很多组织机构允许电子数据表、桌面数据库、遗留数据库、数据集市、数据仓库和其他数据存储库等不受控制地激增。这些数据有很多是冗余的,且充满了不一致性和不兼容性。
- 3.缺乏组织承诺
由于各种各样的原因,很多组织机构根本没有做出承诺或投资资源,以改进他们的数据质量。有些组织完全否认他们存在数据质量问题,而有些组织则意识到他们有数据质量问题,但是担心解决方案成本太高或他们不能定量确定投资回报。
- 2.数据质量改进
成功地实现质量改进计划要求组织机构全体成员积极主动地参与并承担责任。下面简短地介绍这样一个计划的一些关键步骤。
- 1.指导数据质量审计
未建立数据质量计划的组织机构应该从数据审计着手,以理解数据质量问题的范围和性质。数据质量审计包括很多过程,但一项简单的任务是从统计角度生成所有文件的概要。此概要对每个字段值的设置进行编档。通过检查,可以识别出晦涩的和意外的极端值。可以分析数据模式(分布),以确定此分布是有意义的。(一个值有意想不到的高频率则可能表明用户正在输入一个容易的数字,或常常使用默认值,因此,准确的数据未被记录)。可以对照相关的业务规则检查数据,以确保实施的控制是有效的,且未以某种方式绕开控制(例如,有些系统允许用户覆盖“输入的数据违反了某一规则”这样的报警消息,如果这种情况发生得太频繁,则可能是业务规则执行不严的一个征兆)。数据质量软件可用来检查有效的地址,并发现冗余记录和违反了哪些特定规则,冗余记录是由于客户或不同来源的其他主题的匹配方法不够充分而产生的。
审计将全面审查对数据输入和维护的所有过程控制。改变敏感数据的规程可能应该涉及到至少由两个人采取的行动,他们具有不同的责任和义务。主键和重要的财务数据就属于这样类型。应该对所有字段定义并实施适当的编辑检查。应该分析每个数据源(例如,用户、工作站或源系统)数据处理的错误日志,以识别错误和被拒绝事务的模式或高频率,并应该采取措施提高数据源提供高质量数据的能力。例如,应该阻止用户将数据输入到他们不打算使用的字段中。不使用某一数据的一些用户可能使用此字段来存储他们需要但无合适字段的数据。这会使使用这些字段的其他用户感到迷惑不解,并看到一些预期不该看到的数据。
- 2.建立数据管家计划
Sarbanes—Oxley2002法案已强制要求组织机构采取措施确保数据的精确性、及时性和一致性。虽然不是法规所要求,但很多组织机构都要求CIO以及CEO和CFO签署财务报告,认可IT部门构建确保数据质量过程的作用。建立业务信息咨询委员会有助于建立高质量数据,此委员会应该包括每个主要业务部门的代表,他们有权就业务策略制定决策。这些委员会成员充当IT部门和他们所在业务部门的联络员,他们不仅要考虑他们所在职能部门的数据需要,而且还要考虑企业范围的数据需要。这些成员是他们所掌管数据的行业专家,因此他们需要有强烈的兴趣将信息作为公司资源来管理,深入理解组织业务,并具有良好的商谈技能。这些成员一般是高级管理人员,有时将他们称为数据管家(datastewards),他们有责任确保组织机构的应用程序有效地支持组织机构的企业目标。数据管家应该对他们所负责的数据的质量负责,也必须确保获取的数据是准确的,且在整个组织范围内是一致的,以使整个组织的用户都能够依赖这些数据。数据管家职位是一个角色,而不是一项工作,因此,数据管家不拥有数据,而且数据管家还常常在数据管理领域内承担其他职责,甚至经常在数据管理领域之外承担其他职责。
数据管家(Datasteward):有责任确保组织机构应用程序有效地支持组织机构在数据质量方面的企业目标的人。
Seiner(2005)文献全面概述了数据管家的角色和职责。其角色包括数据管家计划的监督者、各数据主题领域(例如,客户、产品等)的管理者、负责每个主题领域数据定义的管家、负责每个主题领域数据的精确而高效的生产/维护的管家、以及负责正确使用每个主题领域数据的管家。
- 3.应用TQM原则和实践
处于领先地位的组织机构采用全面质量管理(Total Quality Management,TQM)来提高数据质量,这与其他业务领域是一样的。其中采用的一些TQM理论包括缺陷预防(而不是纠正)、持续改进,以及使用企业数据标准。例如,当发现遗留系统中的数据有缺陷时,比较好的做法是纠正产生此数据的遗留系统,而不是在将此数据转移到数据仓库中时试图纠正它。关于将TQM应用到数据质量改进的深入讨论,请参见English(1999)文献。
- 4.克服组织障碍
建立企业范围的数据质量标准并非易事,有些业务结构和实践甚至可能会抑制数据质量。在有些企业中,组织机构建立彼此竞争的战略业务部门,则数据共享可能会很困难,因为每个战略业务部门都会努力保护它们自己的竞争地位。受管制行业(例如,银行业和电信业)在可共享数据的数量方面可能有法律上的限制。当在刺激性计划或基于已完成工作量的配额系统指导下输入数据时,可能会产生维护高数据质量的另一个威胁。对实现数据快速输入的关注程度可能会胜于对数据输入准确性的关注程度。如果需要共享的数据来自多个业务部分,则不精确和不一致的数据可能会猛增。必须制定策略处理这些问题。组织机构必须建立数据质量规范,包括为每个人分配职责(包括在工作描述中)以及创建并遵循支持过程。
- 5.应用现代数据管理技术
目前可从商家获得功能强大的软件,从技术方面帮助用户改进数据质量。该软件经常采用高级技术,例如模式匹配、模糊逻辑和专家系统。这些程序可以用来分析当前数据的质量问题,识别并消除冗余数据,将来自多个数据源的数据整合在一起,等。第11章在数据抽取、转换和加载主题中曾讨论过其中的一些程序。
- 6.估计投资回报
由于当今对资源的竞争要求,必须使管理层确信数据质量计划会获得丰厚的投资回报(ROI)。幸运的是,在当今的组织机构中这并不难做到。这样的计划一般具有两种好处:避免成本和避免丧失机会。
考虑一个简单的范例。假设一个银行的客户文件中有500000个客户。银行计划向所有客户以邮寄方式直接发送新产品的广告。假设客户文件中的错误率是10%,包括重复的客户记录、过时的地址等(这种错误率并不少见)。如果邮寄的直接成本是5.00美元(包括邮资和材料费),则由于糟糕数据而产生的预期损失是:500000客户×0.10×$5,即250000美元。
与糟糕数据相关的机会丧失常常大于直接成本。例如,假设平均水准的银行客户每年产生2000美元的收入,包括利息和服务费等。5年就等于10000美元。假设银行实施一个企业范围的数据质量计划来改进其客户关系管理、交叉销售以及其他相关活动。如果这一计划使新业务收入净增加2%(这是一个有根据的猜测),则5年的结果将是显著的:500000客户×$10000×0.02,即100000000美元。难怪有时人们说“质量是免费的。”
数据质量管理的策略[4]
数据质量管理与企业架构小组的活动关系密切,因而负责管理数据质量的人员也应该是该小组成员或在该小组指导下工作。无论哪种情况,企业架构小组都应该建立数据质量管理的策略。这个数据质量策略应该:
1.定义数据验证的方法,包括语法和语义。对于数据验证应该在何时何地被包括进流程,提供相关指导。
2.定义发现数据质量问题的方法,包括实施基于系统的审计和设置专人来汇报可疑数据质量问题。
3.根据所觉察的业务影响,定义评定数据质量问题修正优先级的方法。在解决差异的人员有限的情况下,这一做法是必需的。
4.定义调整数据差异的流程,并对每个已报告差异的解决状态保持跟踪。
数据质量管理的实施[5]
数据质量管理项目实施对于什么是符合数据质量标准的高质量数据,可能每一个参与数据处理工作的人都有自己的定义。例如对于客户经理,高质量的数据是指标准的客户交往记录,而对于从事科学研究的人来说,高质量的数据是指清晰地描述数据之间的关联关系。可见,数据质量标准必须根据每一个具体的案例来定义,它是以满足应用要求为目标的。改善数据质量不是使用一个工具就能够解决的,最好的方法是首先根据要分析的目标确定数据希望达到的标准,根据这些标准衡量现有的数据集,然后使用各种提高数据质量的技术和方法,持续不断地提高数据的质量,以达到预定的标准。下面介绍一种常用的数据质量管理项目的实施流程。
(1)发现数据质量问题,这是实施数据质量管理项目的第一步。
(2)得到高级管理人员的支持,建立项目实施队伍。
(3)分析与数据质量相关的业务环节。
(4)确定数据质量管理项目成功的标准。
(5)分析现有数据的数据质量,收集数据质量管理需求。
(6)设计项目使用的技术平台,这可以从软件供应商那里购买也可以自行开发。
(7)建立元数据模型。
(8)建立数据质量管理系统架构。
(9)评估数据质量管理程序的运行结果。
美国数据仓库研究院(TDWl)的教育与研究总监威恩·埃克森,也提出了一个由九个步骤组成的数据质量管理框架。
第一步:推出一个数据质量项目
第二步:制定一个项目计划
第三步:建立一个数据质量小组
第四、五步:评估商务流程和数据架构
第六步:评估数据质量
第七步:清洗数据
第八步:改进商务实践
第九步:持续监视数据
另外,为了解决数据质量问题,很多业界人土都呼吁建立数据管家制度。除此之外,质量管理方法论还有全面质量管理、ISO质量认证体系、欧洲质量管理基金会的原则、六西格玛等,都可以从对产品、服务和流程的管理转到对企业数据的管理中。
不能够解决数据质量问题是数据仓库或商务智能项目中一个常见的缺陷。当用户认识到分析结果中的错误或者商务智能应用软件和数据源系统之间的不一致时,这种负面影响才被发现。这通常都需要在数据源和支持商务智能环境的数据库之间进行协调,而且还得重新进行数据提取/转换的流程。相反,如果一开始就能识别并解决数据质量问题,而且能不间断地解决这些问题,就既能避免返工又能使项目执行后用户的接受度更高,从商务智能中获得的价值也更高。