元数据
出自 MBA智库百科(https://wiki.mbalib.com/)
- 元数据(Metadata)
目录 |
元数据是关于数据的组织、数据域及其关系的信息,简言之,元数据就是关于数据的数据。
概念阐述总归生涩,下面用几个简单的例子来比喻一下:
例1:元数据是“户口本”。有了“户口本”,我们不仅能了解此人的出生年月等基本信息,还能知晓他的亲属关系。这些信息就构成了对这个人的详细描述,这些信息就是描述这个人的元数据。
例2:元数据是“图书目录”。图书馆中的图书目录包含图书名称、编号、作者、位置等信息,有了它,图书管理员就能快速查找图书。元数据能够帮助数据管理员管理数据。
例3:元数据是“藏宝图”,按图索骥就能找到宝藏。元数据能够帮助企业盘点自己有哪些数据,以及这些数据的位置、来源、去向、路径等。
元数据的特点[1]
①元数据是关于数据的结构化的数据,它不一定是数字形式的,可来自不同的资源。
②元数据是与对象相关的数据,此数据使其潜在的用户不必先具备对这些对象的存在和特征的完整认识。
③元数据是对信息包裹(Information Package)的编码的描述。
④元数据包含用于描述信息对象的内容和位置的数据元素集,促进了网络环境中信息对象的发现和检索。
⑤元数据不仅对信息对象进行描述,还能够描述资源的使用环境、管理、加工、保存和使用等方面的情况。
⑥在信息对象或系统的生命周期中自然增加元数据。
⑦元数据常规定义中的“数据”是表示事务性质的符号,是进行各种统计、计算、科学研究、技术设计所依据的数值,或是说数字化、公式化、代码化、图表化的信息。
元数据的分类[2]
按照不同领域和功能,元数据一般来说可分为:技术元数据、业务元数据、操作元数据、管理元数据。由于使用视角不同会影响到对元数据的分类,所以具体的分类标准并不严格。(比如数据安全等级指标——从安全部门的视角来看,属于业务元数据;从开发部门的视角来看,就属于管理元数据。)
1、技术元数据
技术元数据是用于开发和日常管理数据仓库时用的数据。它作为数据的结构化,能够方便计算机、数据库对数据进行识别、存储、传输和交换。
对开发人员来说,它有助于明确数据的存储、结构,为应用开发和系统集成打牢基础;对业务人员来说,它有助于理清数据关系,从而能够更加快速地找到想要的数据,进而对数据的来源和去向进行分析,支持数据血缘追溯和影响分析。
常见的技术元数据:
- 物理数据库表名称、列名称、字段长度、字段类型、约束信息、数据依赖关系等;
- 数据存储类型、位置、数据存储文件格式或数据压缩类型等;
- 字段级血缘关系、SQL脚本信息、ETL抽取加载转换信息、接口程序等;
- 调度依赖关系、进度和数据更新频率等。
2、业务元数据
业务元数据描述的对象,是数据的业务含义、业务规则等。通过对业务元数据的明确,人们对它的理解和使用会变得更加容易。元数据使得数据的二义性不复存在,人们对数据含义能够产生一致的认知,避免了“自说自话”的情况,进而为数据分析和应用提供支撑。
常见的业务元数据:
- 业务定义、业务术语解释等;
- 业务指标名称、计算口径、衍生指标等;
- 业务规则引擎的规则、数据质量检测规则、数据挖掘算法等;
- 数据的安全或敏感级别等。
3、操作元数据
操作元数据描述了数据的操作属性,比如管理部门、管理责任人等。数据操作属性的明确,有助于将数据管理责任落实到部门和个人,是数据安全管理的基础条件。
常见的操作元数据:
- 数据所有者、使用者等;
- 数据的访问方式、访问时间、访问限制等;
- 数据访问权限、组和角色等;
- 数据处理作业的结果、系统执行日志等;
- 数据备份、归档人、归档时间等。
4、管理元数据
管理元数据包含了数据管理的信息在其中,例如:表的业务属主、表的技术负责人。
常见的管理元数据:
- 数据的来源;
- 数据的功用;
- 数据的负责人;
- 数据的价值体现等。
元数据的结构[1]
①内容结构。包括描述性元素、技术性元素、管理性元素、复用性元素。
②句法结构。包括元素的分区分层分段组织结构、元素结构描述方法、DTD描述语言、元数据复用方式、与被描述对象的捆绑方式。
③语义结构。包括元素内容编码规则定义、元素定义、元素语义概念关系、元数据版本管理。
元数据的作用[3]
元数据是网络信息资源描述的重要工具,可以用于网络信息资源管理的各个方面,包括信息资源的建立、发布、转换、使用、共享等。元数据在网络信息资源组织方面的作用可以概括为五个方面:描述、定位、搜寻、评估和选择。
(1)描述作用:根据元数据的定义,它最基本的功能就在于对信息对象的内容和位置进行描述,从而为信息对象的存取与利用奠定必要的基础。
(2)定位作用:由于网络信息资源没有具体的实体存在,因此,明确它的定位至关重要。元数据包含有关网络信息资源位置方面的信息,因而由此便可确定资源的位置之所在,促进了网络环境中信息对象的发现和检索。此外,在信息对象的元数据确定以后,信息对象在数据库或其他集合体中的位置也就确定了,这是定位的另一层含义。
(3)搜寻作用:元数据提供搜寻的基础,在著录的过程中,将信息对象中的重要信息抽出并加以组织,赋予语意,并建立关系,使检索结果更加准确,从而有利于用户识别资源的价值,发现其真正需要的资源。
(4)评估作用:元数据提供有关信息对象的名称、内容、年代、格式、制作者等基本属性,使用户在无需浏览信息对象本身的情况下,就能够对信息对象具备基本了解和认识,参照有关标准即可对其价值进行必要的评估,作为存取利用的参考。
(5)选择作用:根据元数据所提供的描述信息,参照相应的评估标准,结合使用环境,用户便能够做出对信息对象取舍的决定,选择适合用户使用的资源。
元数据的各种解决方案[1]
1.网络资源:Dublin Core、IAFA Template、CDF、Web CoIlections。
2.文献资料:MARC(with 856 Field),Dublin Core。
3.人文科学:TEI Header(Text encoding initiative Header)。
4.社会科学数据集:ICPSR SGML Codebook。
5.博物馆与艺术作品:CIMI(Computer Interchange of Museum Information)、CDWA(Categories for the Description of Works of Art)、RLG REACH Element Set、VRA Core。
6.政府信息:GILS(Government Information Locator Service)。
7.地理空间信息:FGDC/CSDGM(Federal Geographic Data Committee/Content Standard for Digital Geospatial Metadata)。
8.数字图像:MOA2 metadata、CDL metadata、Open Archives Format、VRA Core NISO/CLIR/RLG Technical Metadata for Images。
9.档案库与资源集合:EAD。
10.技术报告:RFC 1807、ibTeX、EELS、EEVL。
11.连续图像:MPEG-7。