数据元
出自 MBA智库百科(https://wiki.mbalib.com/)
数据元(Data Element)
目录 |
数据元即数据元素,是通过定义、标识、表示和允许值等一系列属性描述的数据单元,在一定语境下,构建一个语义正确、独立且无歧义的特定概念语义的信息单元。数据元可理解为数据的基本单元,将若干具有相关性的数据元按一定次序组成一个整体结构,即数据模型。[1]
数据元的组成[1]
数据元由对象类、特性和表示3部分组成,具体如下:
1)对象类(object class):是现实世界或抽象概念中事物的集合,有清楚的边界和含义,因其特性和行为遵循同样的规则而能加以标识;是所要研究、收集和存储其相关数据的实体,如人员、设施、装备、组织、环境和物资等;
2)特性(property):是对象类的所有个体所共有的某种性质,也是对象有别于其他成员的依据,是用来区分和识别事物的一种手段,如人员的姓名、性别、身高、体重和职务,坦克的型号、口径、高度、长度和有效射程等;
3)表示(representation):是值域、数据类型和表示方式的组合,也包括计量单位和字符集等信息。表示是数据元表达方式的一种描述。表示的任何一个组成发生变化将产生不同的表示,如人员的身高用“cm”或用“m”计量,是人员身高特性的两种不同表示。数据元的表示可用表示含义的术语标记,如名称、代码、金额、数量、日期和百分比等。
数据元的基本模型[1]
数据元基本模型如图1所示。
数据元基本模型中,对象类对应于数据模型中的实体,特性和表示对应于数据模型中的属性。图1中的数据元概念和通用数据元含义如下:
1)数据元概念(data element concept):能以数据元形式表示且与任何特定表示无关的一种概念。1种数据元概念由1个对象类和1个特性组成,它与特定的表示无关;1种数据元概念与1个特定的表示结合就成为1个数据元。数据元概念与数据元是1对多的关系,即1个数据元概念可以与多种不同的表示方式结合,组成多个数据元。如人员性别是1个数据元概念,而人员性别名称和人员性别代码是表示该数据元概念的2个数据元。计量单位也是数据元概念的一种表示方式,1种数据元概念采用不同的计量单位表示就产生多个不同的数据元。如坦克全重是1个数据元概念,采用“t”表示和“kg”表示的坦克全重是2个不同的数据元。
2)通用数据元(common data element):独立于任何具体应用而存在的数据元,其主要功能是为应用领域内的数据元设计者提供通用数据元模板。1个通用数据元由1个特性和该特性的1个表示组成,它与特定对象类无关;把1个通用数据元应用于1个特定的对象类时,则与该对象类组成1个数据元。通常,各领域和行业所制定的公用数据元目录中收录数据元均为通用数据元。通用数据元可用于制定数据元的模板,在数据模型设计时,从公共数据元目录中提取合适的通用数据元与给特定对象类结合可形成1个完整的数据元。
数据元与元数据的区别和联系[2]
(1)元数据不可能涵盖理解数据元所要表示的数据所必需的所有信息。例如,一个收集调查资料的组织将会有许多关于如何收集数据的信息。这些诸如样本和问卷设计等常常是理解数据所必要的。但是,样本和问卷设计并不是用来表示和描述数据元的元数据的一部分(源自GB/T18391)。
(2)数据元的相关信息是任何一个(组织的)元数据的一个完整的组成部分。GB厂I1l8391.2至GB/T18391.6是这样描述元数据的:一个组织的数据元必须具备元数据。这些元数据将便于用户理解和共享该组织的数据。
(3)元数据的每一个元素都是一个数据元,用符合数据元标准的元数据属性和描述方法来说明元数据。
(4)将元数据存储于一个库中,并使之条理化就需要建模,建模就需要从数据元的注册系统中或库中获取元数据。
(5)元数据,它是以一种一致、标准的方式来表达的数据元。
(6)元数据与数据元字典格式均由行号、中文名称、英文名称、标识符(短语)、定义、约束/条件、最大出现次数、数据类型、数据的值域等属性组成。不同之处是数据元字典格式中另有语境和同义词名称等属性。
结论:元数据和数据元的定义是从不同角度论述的。由于描述的侧重面不同,元数据和数据元的描述属性也有些区别,但是元数据和数据元的字典格式是基本一致的。有些标准文本中把数据元字典格式称为数据元目录,书写格式不是二维表格形式,不论如何称谓和不同的表示形式,其描述属性是基本相同的。例如,在农村科技信息共享平台的数据元字典(目录)格式中,每一个数据元用11个描述属性:行号、中文名称、英文名称、标识符、定义、同义名称/标识符、语境(数据库)、约束条件、出现次数、数据类型、数据值域。而在科学数据共享技术标准中的元数据字典格式有9个属性。这9个属性两者完全一致,不同之处,前者增加了同义名称/标识符和语境(数据库)两个属性,使之更具有实用性。从元数据和数据元的规范用于实现数据共享的角度出发,两者也没有差异。不论是元数据的应用或数据元的应用,在本文统一用元数据的应用来描述。
啥时走