数据整合与BI应用的元数据标准化

数据整合与BI应用的元数据标准化
数据整合与BI应用的元数据标准化

数据整合与BI应用的元数据标准化

数据是各类信息化应用的核心,如何有效的利用数据,提供由价值的信息、促进共享是目前信息化应用的关键目标之一。在这种情况下,描述并有效利用各类息的元数据就变得更加重要,成为管理和应用各类信息资源的有效手段。因此,在数据整合与BI应用项目中,应科学地、规范地建立一套规范化的元数据标准。

正是有了元数据,才使得数据整合与BI应用的最终用户可以随心所欲地使用数据仓库(数据整合与BI应用的载体),利用数据仓库进行各种管理决策模式的探讨。元数据是数据整合与BI应用项目的灵魂,可以说没有元数据就没有数据整合与BI应用。

1. 元数据的一般概念

元数据(metadata)是关于数据的数据(data about data),是专门用来描述数据的特征和属性,描述和组织信息资源,发现信息资源的语言和工具。

(1)元数据是什么?

数据的数据 (data about data)

结构化数据 (Structured data about data)

用于描述数据的内容(what)、覆盖范围(where, when)、质量、管理方式、数据的所有者(who)、数据的提供方式(how)等信息,是数据与数据用户之间的桥梁;

资源的信息 (Information about a resource)

编目信息 (Cataloguing information)

管理、控制信息(Administrative information)

是一组独立的关于资源的说明(metadata is a set of independent assertions about a resource )

data that defines and describes other data (ISOIEC 11179-32003(E))

传统的书目数据、产品目录、人事档案等都是元数据。元数据可以为各种形态的信息资源提供规范、普遍的描述方法和检索工具,为分布的、由多种资源组成的信息体系提供整合的工具与纽带。离开元数据的数据整合与BI应用项目将是一盘散沙,无法提供有效的检索、处理和应对需求的变化。

(2)元数据与数据的关系

元数据也是数据,其本身也可以作为被描述的对象,这是描述它的数据就是元数据。在信息系统中一般把数据看成是独立的信息单元,不管这里的“数据”是一本书、一个网页、或者一个虚拟的 URL 地址。元数据可以出现在:

数据内部;

独立于数据;

伴随着数据;

与数据包裹在一起。

(3)元数据(metadata)概念提出的背景

“书目”作为元数据的一种形式在以图书为资源存在形式的相关行业应用了千百年,其它许多行业也都有自己的元数据格式,例如名册、账本、药典等等。“元数据”作为一个统一概念的提出首先起因于对电子资源管理的需要。因特网的爆炸式的发展,使人们一时难以

准确地找到自己所需的信息,人们就试图模仿图书馆对图书进行管理的方式,对网页进行编目。坦白地说在这方面至今仍然成效不大,甚至可以说是失败的。但对元数据的研究和应用使人们看到了新的可能性,元数据可以成为下一代万维网——“语义万维网(Semantic Web)”的基石,通过表达语义的元数据,以及表达结构、关系和逻辑的 XMLXMLSRDFRDFSOWL 等形式化描述,计算机能够对于数据所负载的语义进行理解和处理,从而赋予因特网以全球的智慧和惊人的能力。

(4)元数据能解决什么问题?

描述(description)

资源发现 (resources discovery)

认证(authentication)

互操作(interoperability)

数据管理(data management)

访问控制(rights management)

数字化保藏(digital preservation)

内容分级(content rating services)

2. 数据整合与BI应用项目中的元数据

在数据整合与BI应用中,元数据用于构造、维持、管理、和使用数据仓库。元数据在数据仓库的设计、运行中有着重要的作用,它表述了数据仓库中的各对象,遍及数据仓库的所有方面,是数据仓库中所有管理、操作、数据的数据,是整个数据仓库的核心。

在数据整合与BI应用中,元数据是关于数据、操纵数据的进程和应用程序的结构和意义的描述信息,其主要目标是提供数据资源的全面指南。其范围可以是某个特别的数据库管理系统中从现实世界的概念上的一般概括,到详细的物理说明。

在数据库中,元数据是对数据库中各个对象的描述。关系数据库中,这种描述就是对表、列、数据库、观点和其他对象的定义。

从广义上讲,元数据代表定义数据仓库的任何对象,无论它是一个表、一个列、一个查询、一个业务规则,或者是数据仓库内部的数据转移等等。

3. 元数据的基本功能

(1)识别。确认并对要进行组织的信息资源进行个别化描述,使用户能识别被组织的资源对象。

(2)定位。提供信息资源位置的信息,以便用户访问时使用。

(3)检索。通过在描述数据中提供检索点,便于用户对资源的检索和利用。

(4)选择。通过记录信息资源的特征,诸如主题、作者、类型、物理形式、层次和日期等,供用户对信息资源的使用价值进行判断,决定是否使用该资源。

在数据整合与BI应用中,元数据机制主要支持以下五类系统管理功能:

(1)描述哪些数据在数据仓库中;

(2)定义要进入数据仓库中的数据和从数据仓库中产生的数据;

(3)记录根据业务事件发生而随之进行的数据抽取工作时间安排;

(4)记录并检测系统数据一致性的要求和执行情况;

(5)衡量数据质量。

4. 元数据的类型

(1)按元数据的类型分类

关于基本数据的元数据:包括数据源、数据仓库、数据集市和应用程序管理的所有数据。

用于数据处理的元数据

关于企业的组织结构的元数据

(2)按对象级别分类

概念级

逻辑级

物理级

(3)从用户的角度分类

通常把元数据分为技术元数据(Technical Metadata)、业务元数据(Business Metadata)和数据仓库操作型信息。

①技术元数据

包括为数据仓库设计人员和管理员使用的数据仓库数据信息,用于执行数据仓库开发和管理任务。

数据源信息:

转换描述(从操作数据库到数据仓库的映射方法,以及转换数据的算法)

目标数据的仓库对象和数据结构、数据仓库结构的描述,包括仓库模式、视图、维、层次结构和导出数据的定义,以及数据集市的位置和内容

数据清洗和数据增加的规则

数据映射操作

汇总用的算法,包括度量和维定义算法,数据粒度、主题领域、聚合、汇总和预定义的查询与报告

访问权限,备份历史,存档历史,信息传输历史,数据获取历史,数据访问,等等

②业务元数据

业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够“读懂”数据仓库中的数据。业务元数据主要包括以下信息:使用者的业务术语所表达的数据模型、对象名和属性名;访问数据的原则和数据的来源;系统所提供的分析方法及公式和报表的信息。主要包括:企业概念模型:这是业务元数据所应提供的重要的信息,它表示企业数据模型的高层信息、整个企业的业务概念和相互关系。以这个企业模型为基础,不懂数据库技术和SQL语句的业务人员对数据仓库中的数据也能做到心中有数。

多维数据模型:这是企业概念模型的重要组成部分,它告诉业务分析人员在数据集市当中有哪些维、维的类别、数据立方体以及数据集市中的聚合规则。这里的数据立方体表示某主题领域业务事实表和维表的多维组织形式。

业务概念模型和物理数据之间的依赖关系:以上提到的业务元数据只是表示出了数据的业务视图,这些业务视图与实际的数据仓库或数据库、多维数据库中的表、字段、维、层次等之间的对应关系也应该在元数据知识库中有所体现。

支持面向业务概念的浏览、导航

支持动态立即查询(Ad hoc)

数据挖掘

支持数据仓库的其它信息,例如对于信息传输系统包括预约信息、调度信息、传送目标的详细描述、商业查询对象,等

③数据仓库操作型信息

例如,数据历史(快照,版本),拥有权,抽取的审计轨迹,数据用法

(4)从来源的角度分类

工具产生的元数据

源提供的元数据

企业模型

系统导入的元数据

特定的用户产生的元数据

(5)从元数据的目的角度分类

一般可以通过一种更粗的方法来区分元数据:

用于信息的元数据

用于控制的元数据

(6)按照产生使用的时间分类

根据获取或生成的时间,可以分为:

设计时收集的元数据

构建时生成的元数据

l 运行时生成的元数据

根据使用的时间,可以分为:

l 设计时使用的元数据

l 构建使使用的元数据

l 运行时使用的元数据

5 元数据的作用

从元数据的类型和作用来看,元数据实际上是要解决何人在何时、何地为了什么原因及怎样使用数据仓库的问题。再具体化一点,元数据在数据仓库管理员的眼中是数据仓库中的包含了所有内容和过程的完整知识库和文档,而在最终用户(即数据分析人员)眼中,元数据则是数据仓库的信息地图。

数据分析员为了能有效地使用数据仓库环境,往往需要元数据的帮助。尤其是在数据分析员进行信息分析处理时,他们首先需要去查看元数据。元数据还涉及到数据从操作型环境到数据仓库环境中的映射。当数据从操作型环境进入数据仓库环境时,数据要经历一系列重大的转变,包含了数据的转化、过滤、汇总和结构改变等过程。数据仓库的元数据要能够及时跟踪这些转变,当数据分析员需要就数据的变化从数据仓库环境追溯到操作型环境中时,就要利用元数据来追踪这种转变。另外,由于数据仓库中的数据会存在很长一段时间,其间数据仓库往往可能会改变数据的结构。随着时间的流逝来跟踪数据结构的变化,是元数据另一个常见的使用功能。

元数据描述了数据的结构、内容、链和索引等项内容。在传统的数据库中,元数据是对数据库中各个对象的描述,数据库中的数据字典就是一种元数据。在关系数据库中,这种描述就是对数据库、表、列、观点和其他对象的定义;但在数据仓库中,元数据定义了数据仓库中的许多对象——表、列、查询、商业规则及数据仓库内部的数据转移。元数据是数据仓

库的重要构件,是数据仓库的指示图。元数据在数据源抽取、数据仓库开发、商务分析、数据仓库服务和数据求精与重构工程等过程都有重要的作用。因此,设计一个描述能力强并且内容完善的元数据,对数据仓库进行有效地开发和管理具有决定性意义。

更进一步,元数据是保障从各业务系统间数据整合工作顺利完成的重要手段和依据,是保证数据质量的关键,有效的元数据管理可以将不断变化的需求平滑地反映到数据仓库里来。在一个数据整合与BI应用项目中,保证元数据的统一、有效和规范的管理是整个项目成功的关键所在。那么在数据整合与BI应用项目过程不同阶段中的元数据到底该如何进行有效管理,其管理方式和途径都有哪些呢?在在数据整合与BI应用项目过程的不同阶段(如需求分析阶段、模型建立阶段、ETL阶段、数据挖掘和前端展现阶段),其存在形式或者管理的侧重点又有什么不同?元数据的管理应当是在数据整合与BI应用项目过程中要全程关注的焦点和核心;根据以往的经验,总感觉实际的项目中,虽然设计者在起初也会指出这一环节的重要性,不过真正的开发和实施者好像对这一核心环节并未没有形成清醒的认识,或者说没有科学的办法和工具来进行管理,只是以一些文件的形式对元数据进行记录,或许这也是在数据整合与BI应用项目在中国处于初级阶段的一个表现吧? ETL工具里面是自带的有元数据管理工具或者说一套办法,像一些工具里提供的repository就是便于ETL过程中元数据的管理的;不过在一个数据仓库项目里这部分只是一个阶段的元数据管理,并且也仅适用于这个阶段,事实情况是元数据时常要被应用在整个项目的每个阶段,所以,那么有没有可能把整个过程中每个阶段的元数据加以集中存储并有效管理?只有好的工具或者解决办法,才能便于用户理解和接受元数据,从而让用户接受承认数据仓库里数据质量的可靠,才会更快速地响应用户不断变化的需求,同时也便于项目的整体维护。

元数据的概念

元数据的概念 元数据(Metadata),即关于数据的数据,是对数据和信息资源进行描述的信息。通常认为,元数据是为了更为有效地管理和使用数据而对它进行说明的信息。所以元数据与其描述的数据内容有着密切联系,不同领域的数据的元数据在内容 上差异很大。地理空间数据的元数据是地理空间的空间数据和属性数据以外的描述地理信息空间数据集的内容、质量、状态和其它特性的一类数据,它是实现地理空间信息共享的核心标准之一。其中,对空间数据某一特征的描述,称为一个空间元数据元素。空间元数据是一个由若干复杂或简单的元数据项组成的集合。它与非空间元数据的主要区别在于其内容中包含大量与空间位置有关的描述性信息。 研究元数据的作用和意义 元数据可用来帮助数据提供者和数据使用者解决数据转换、沟通和理解的问题。归纳起来,元数据主要有下列几个方面的作用: 1)、用来组织、管理和维护空间数据,建立数据文档,并保证即使其主要工作人员退休或调离时,也不会失去对数据情况的了解 2)、提供数据存储、数据分类、数据内容、数据质量及数据分发等方面的信息,帮助数据使用者查询检索所需地理空间数据 3)、用来建立空间信息的数据目录和数据交换中心,提供通过网络对数据进行查询检索的方法或途径,以及与数据交换和传输有关的辅助信息 4)、通过空间元数据,人们可以接受并理解空间信息,帮助数据使用者了解数据, 以便就数据是否能满足其需求作出正确的判断并与自己的空间信息集成在一起,进行不同方面的科学分析和决策。 元数据是使数据充分发挥作用的重要条件之一。它可以用于许多方面,包括数据文档建立、数据发布、数据浏览、数据转换等。元数据对于促进数据的管理、使用和共享均有重要的作用。元数据对于建立空间数据交换网络是十分重要的,往往网络中心通过设在中心的元数据库可以实时地连接各个分发数据的分节点元数据库,帮助潜在的用户找到其特定应用所需要的数据,实现数据共享。 一个完整的元数据系统通常包括三部分,即元数据标准、元数据管理工具和元数据库。不同的元数据库可能采用不同的管理工具,唯一能够在不同数据管理软件间交换元数据的途径是统一元数据标准,只有在统一的标准前提下,才能跨越操作系统平台和数据库软件平台进行数据的互操作,实现数据共享。 DIF 元数据标准

信息整合-元数据管理

信息集成:元数据管理全景 2009年4月 作者:Kamlesh Mhashilkar,Jaideep Sarkar 翻译:ttnn 讨论组(https://www.360docs.net/doc/6a6641994.html,/group/ttnn)(2010/12)中文译者:Daiyan, Hevin, LL, Zhou jian, Jackie Young, Q

摘要 无论在什么样的组织,商业智能(Business Intelligence , BI)的成功运用很大程度上都取决于有效的元数据(Metadata)管理。高水平的元数据设计,能为所有BI系统的数据充当路标,从而能够对这些数据进行高效地管理、控制变更和分发。 元数据实施最重要的是将系统中各种元数据进行整合利用。明确的元数据范式(Metadata Paradigm)有助于元数据实施,以达成BI系统信息集成的战略目标,并能够延伸到企业信息集成方案中。在某些实施中,元数据的架构和组件需要单独设计和构建,此时需要识别和分离出这些内容,进而构建强健的元数据资料库。本文提供了一个元数据架构和设计的基本准则。 本文描述了BI系统的元数据模型(Metadata Model),可以作为元数据架构设计的基准;并深入探讨了信息集成方案中的元数据全景,精心选用搭配的概念及策略,可以引导人们走向以价值驱动的企业元数据管理(Metadata Management)。

目录 概述 (4) 什么是元数据? (4) 元数据模型 (5) 什么是元数据模型? (6) 企业元数据模型 (7) BI元数据模型 (8) BI技术元数据 (10) BI元数据实施域 (12) 后台元数据 (13) 前台元数据 (17) 对照元数据 (19) 水平与垂直回溯 (20) 水平回溯 (20) 垂直回溯 (22) 元数据管理拓扑结构 (22) 分布式元数据管理 (23) 集中式元数据管理 (24) 联邦式元数据管理 (28) BIDS元数据管理方法论 (33) 框架定义 (34) 规格描述 (36) 详细设计 (36) 元数据管理成熟度模型 (37) 参考文献 (40) 关于作者 (40) 关于译者 (40)

中文数字化期刊的dc 元数据标准设计实例情报科学vol1 21no1 6

中文数字化期刊的DC 元数据标准设计实例 刘廷元 (西南石油学院图书馆,成都610500) 摘 要 文章将元数据标准的使用作为各种不同的数字化期刊仓储资源共享的一种可行性方法进行了论 述。研究集中在三个方面:首先,讨论了数字化期刊采用元数据标准的必要性;其次,讨论了数字化期刊的 DC 元数据定义与限定;最后,提供了一个用DC 111元数据和H TM L 410语法设计的中文数字化期刊元数据 标准实例。 关键词 元数据 标准 数字化期刊 中文期刊 设计 中图分类号 G 35311 文献标识码 A 文章编号 100727634(2003)0620609204 An Exam ple of the DC M etada ta Standard D esign for Ch i nese D ig ita l Journa ls L iu T ingyuan (L ib rary of Sou thw est Petro leum In stitu te ,Chengdu 610500) Abstract T h is article deseribes the u se of m etadata standards as a viab le m ean s fo r shared resou rces among vari ou s differen t digital j ou rnalw arehou ses .O u r study concen trates on th ree con ten ts :F irst ,the article discu ssed under the necessity of u sing the m etadata standard in digital j ou rnals .Second ,the article discu ssed the sem an tic defin iti on and li m itati on of the DC elem en t set fo r digital j ou rnals .F inally ,w e p rovided the m etadata standard of the Ch inese digital j ou rnals and an examp le of the design w ith the DC 1.1m etadata and H TM L 4.0syn tax . Keywords M etadata Standard D igital Jou rnal Ch inese Jou rnal D esign 收稿日期:2002-09-09 数字化信息的结构化存储、有序化组织和高效、准确的 检索,是数字化图书馆与商业数据库共同面临的一个问题。由于WWW 空间的无限扩大,使得解决全球信息资源的无组织问题更加迫切。目前,因特网上既有OCL C 、U nCover 那样庞大的数字化期刊服务,也有BaderL ine 、EBSCO ho st 、P roQ uest D irect 、Sp ringer 数字化期刊、CN K I 中国学术期刊网、维普中文科技期刊、万方中国数字化期刊网这样新兴的数字化全文期刊数据库服务,以及不断增加的上千种的网上出版期刊。然而,这样巨大的期刊信息资源仓储却是以异构方式存在的,它们提供各自不同的信息存储、组织、检索与浏览方法,不能实现跨仓储的统一查找利用,造成了极大的信息资源浪费。 因特网上分布式的异构数字化期刊仓储如同一个没有索引卡片的传统图书馆。但是,如果我们为这些数字化期刊的信息存储、组织、检索与浏览加上一个无形的统一索引目录——元数据标准,网上数字化期刊就会成为一个单一的、虚拟的、有组织的信息集合体,实现全球期刊信息的资源共享和跨仓储无缝查找,使期刊文献检索的查全率和查准率大大提高,从而极大地方便广大读者和用户。 1 数字化期刊采用DC 元数据标 准的必要性 大多数数字化期刊(尤其是全文期刊数据库)都习惯采用自己特有的数字信息储存、检索技术,人为地使自己的产品在使用方式、字段、接口设计等方面造成差异和封闭。强调产品的差异性而又不遵守统一的制作标准与规范,谋求利润最大化而又自我封闭,这就是数字化期刊制作与出版过程中普遍存在的二律悖反现象。正是由于这种分布式的异构与封闭,才阻碍了当今信息资源的透明、公开、可扩展、互操作性、组织性和规模化建设,使数字化期刊在当今知识经济时代难以受到人们更多的喜爱。 具体地说,数字化期刊采用元数据标准的必要性主要有以下四个方面。 (1)元数据描述能够为数字化期刊建立一种计算机普遍 可以理解的框架体系,使数字化期刊资源得以透明、公开。因为元数据描述了数字化信息的内容、权利和外部环境这些基本特征,使得计算机系统可以自动辨识、抽取、分析和整合,进而使得数字化期刊信息简单、有效的被其它信息资源仓储利用。 (2)元数据的描述、标识和语法能够融入因特网通用的 语言中,被迅速地装载或转换进各种索引数据库,使数字化期刊资源具有可扩展和互操作性。一方面,建立在通用标记语言(SG M L )和扩展标记语言(X M L )之上的元数据语言,是国际互联网的通用语言,能够非常方便地被相同的元数据语言装载。另一方面,即使是对于各种不同数字化期刊仓储类型的元数据体系,只要我们以W F 和RD F 为基础,通过语 第21卷第6期 2003年6月     情 报 科 学   V o l 121,N o 16June, 2003

典型的元数据方案

典型的元数据方案 3.1都柏林核心(Dublin core)简介 Dublin core是都柏林元数据核心元素集(Dublin metadata core element set)的简称,在1995年3月,由超级图书馆中心和美国超级计算机应用中心主持,在美国俄亥俄州都柏林召开的第一届元数据研讨会上提出的。其目的就是希望建立一套适合描述网络资源的方法,用来信息识别,查询,组织,检索。 DC元数据简练,易于理解,扩展性强,与其他元数据形式兼容性强。网络资源能够被有效的整合利用,是它成为了一个良好的网络资源描述元数据集合。 DC研讨会已经召开了十届,从理解DC研讨会中我们可以总结出每一节研讨会都推出了一些具体的研究成果,并且在深度,广泛度上都有发展。DC元数据理论不断在实践中完善。 都柏林十次研讨会时间地点及成果如表1

3.2 DC语法的实现 DC在HTML的语法主要是通过“标记”和“标记”来实现的。 以下是一个基于XML和RDF的DC元数据详例: 新华网首页 新华通讯社网络中心 新闻 新华社通讯 上面就是多媒体对象的DC描述,用DC描述网络信息资源十分方便,为了节省篇幅,直接用RDF/XML元数据框架来叙述。相比其他描述程序而言,这里调用了DC标准模式,所以节省了DTD的大段描述。

CELTS-42基础教育教学资源元数据规范1

基础教育教学资源元数据应用规范 (CELTS-41) 教 育信息化技术标准 CELTS-42 基础教育教学资源元数据规范 CELTS-42 CD1.6 教育部教育信息化技术标准委员会 发布

目录 1 概述 (2) 1.1 目的 (2) 1.2 范围 (2) 2 规范性引用文件 (2) 3 术语定义与缩略语 (3) 3.1 本应用规范使用的基础术语 (3) 3.2 缩略语 (5) 4 元数据元素属性定义 (6) 4.1 元数据元素的属性描述 (6) 4.2 数据元素定义的规定 (7) 5 元数据结构 (7) 5.1 元数据的基本结构 (7) 5.2 元数据元素及定义 (7) 6 限定词汇与编目词汇表 (11) 6.1 限定词汇 (11) 6.2 本规范的限定词与编目方式定义 (14) 6.3 受控词汇和编目方案 (22) 6.4 一致性 (29) 7 参考文献 (31) 附录 A 供参考的部分教育学科课程分类第三级词汇表(课程内容) (33) A.1 语文课程内容分类 (33) A.2 数学课程内容分类 (34) A.3 英语课程内容分类 (37) A.4 地理课程内容分类 (38) A.5 历史课程内容分类 (39) A.6 化学课程内容分类 (40) A.7 物理课程内容分类 (43) A.8 生物课程内容分类 (48) A.9 信息技术课程内容分类 (49) A.10 音乐课程内容分类 (50) A.11 美术课程内容分类 (50)

CELTS-42基础教育教学资源元数据规范 1 概述 1.1 目的 本规范提供一个面向基础教育的教学资源数据模型。制定本规范旨在对希望在学校、企业、其他机构和个人的教学资源中使用元数据的用户提供一套资源编目准则,以使读者能快速、有效地在国家基础教育资源库及门户网站中检索到所需的教学资源,广泛地实现资源共享。 1.2 范围 本规范在《CELTS-3学习对象元数据:信息模型规范》(以下简称《学习对象元数据规范》)的基础上,结合我国基础教育的实际,定义了一组面向基础教育的教学资源元数据元素。 本规范依照教育部颁布的《义务教育课程设置实验方案》、《义务教育各学科课程标准(实验稿)》以及《学习对象元数据规范》,同时参考《都柏林核心集元数据(DCMES)》、《中国图书馆图书分类法》、美国GEM项目及澳大利亚EdNA项目的词汇分类方法,定义了一组用于元数据元素编目的受控词汇及相应的词汇表。 本规范通过与《学习对象元数据规范》的元素间映射来实现与CELTS的一致性。 本规范包括﹕ ?概述 ?规范性引用文件 ?术语定义与缩略语 ?元数据元素属性定义 ?元数据结构 ?限定词汇及编目词汇表 ?一致性 ?参考文献 2 规范性引用文件 下列文件中的条款通过本规范的引用而成为本应用规范的条款。凡是注日期的引用文件,其随后所有的修改单(不包括勘误的内容)或修订版均不适用于本应用规范。然而,鼓励根据本标准达成协议的各方研究是否可使用这些文件的最新版本。凡是不注日期的引用文件,其最新版本适用于本应用规范。 ?ISO 639:规定人类语言表示方法的国际标准。 ?ISO 646:规定ASCII字符集的国际标准。 ?ISO 8601:规定日期和时间表示方法的国际标准。 ?ISO 3166:规定国家名称表示方法的国际标准。

《公用数据元目录》标准

科学数据共享通用标准培训系列教材 《公用数据元目录》标准 培训教材 科学数据共享工程办公室 2005年12月

目录 目录.................................................................................................................................- 2 - 一、编制背景.....................................................................................................................- 3 - 二、编制思路.....................................................................................................................- 3 - (一)、国内外数据元标准化情况............................................................................- 4 - (二)、本标准的解决思路........................................................................................- 4 - (三)、本标准的解决方案........................................................................................- 5 - (四)、本标准与其他标准的关系............................................................................- 5 - (五)、本标准的适用范围........................................................................................- 6 - 三、标准总体结构.............................................................................................................- 6 - 四、标准内容要点解析......................................................................................................- 7 - (一)、范围...............................................................................................................- 7 - (二)、术语和定义....................................................................................................- 7 - (三)、数据元的表达格式........................................................................................- 8 - (四)、数据元值的表示方法....................................................................................- 8 - (五)、数据元分组..................................................................................................- 10 - (六)、数据元目录..................................................................................................- 11 - (七)、数据元维护与管理......................................................................................- 11 - (八)、数据元索引..................................................................................................- 11 - 五、标准使用...................................................................................................................- 12 - (一)、数据元目录系统的建立..............................................................................- 12 - (二)、数据元注册系统的建立..............................................................................- 13 - (三)、领域公用数据元目录的制定......................................................................- 13 - (四)、常见问题.........................................................................................................- 19 -

数据整合与BI应用的元数据标准化

数据整合与BI应用的元数据标准化 数据是各类信息化应用的核心,如何有效的利用数据,提供由价值的信息、促进共享是目前信息化应用的关键目标之一。在这种情况下,描述并有效利用各类息的元数据就变得更加重要,成为管理和应用各类信息资源的有效手段。因此,在数据整合与BI应用项目中,应科学地、规范地建立一套规范化的元数据标准。 正是有了元数据,才使得数据整合与BI应用的最终用户可以随心所欲地使用数据仓库(数据整合与BI应用的载体),利用数据仓库进行各种管理决策模式的探讨。元数据是数据整合与BI应用项目的灵魂,可以说没有元数据就没有数据整合与BI应用。 1. 元数据的一般概念 元数据(metadata)是关于数据的数据(data about data),是专门用来描述数据的特征和属性,描述和组织信息资源,发现信息资源的语言和工具。 (1)元数据是什么? 数据的数据 (data about data) 结构化数据 (Structured data about data) 用于描述数据的内容(what)、覆盖范围(where, when)、质量、管理方式、数据的所有者(who)、数据的提供方式(how)等信息,是数据与数据用户之间的桥梁; 资源的信息 (Information about a resource) 编目信息 (Cataloguing information) 管理、控制信息(Administrative information)

是一组独立的关于资源的说明(metadata is a set of independent assertions about a resource ) data that defines and describes other data (ISOIEC 11179-32003(E)) 传统的书目数据、产品目录、人事档案等都是元数据。元数据可以为各种形态的信息资源提供规范、普遍的描述方法和检索工具,为分布的、由多种资源组成的信息体系提供整合的工具与纽带。离开元数据的数据整合与BI应用项目将是一盘散沙,无法提供有效的检索、处理和应对需求的变化。 (2)元数据与数据的关系 元数据也是数据,其本身也可以作为被描述的对象,这是描述它的数据就是元数据。在信息系统中一般把数据看成是独立的信息单元,不管这里的“数据”是一本书、一个网页、或者一个虚拟的 URL 地址。元数据可以出现在: 数据内部; 独立于数据; 伴随着数据; 与数据包裹在一起。 (3)元数据(metadata)概念提出的背景 “书目”作为元数据的一种形式在以图书为资源存在形式的相关行业应用了千百年,其它许多行业也都有自己的元数据格式,例如名册、账本、药典等等。“元数据”作为一个统一概念的提出首先起因于对电子资源管理的需要。因特网的爆炸式的发展,使人们一时难以

国家基础地理信息系统元数据标准(草案)

国家基础地理信息系统(NFGIS)元数据标准草案(初稿) 1. 主题内容与适用范围 本标准提供国家基础地理信息系统(NFGIS)元数据的内容,包括NFGIS数据的标识、内容、质量、状况及其他有关特征。本标准可用于对NFGIS数据集的全面描述、数据集编目及信息交换网络服务。 2. 参考标准 ISO 15046-15地理信息--元数据(CD 2.0) FGDC 地理空间数据元数据内容标准(CSDGM)v.2.0 3. 术语 3.1 元数据 是关于数据的数据,即关于数据的内容、质量、状况和其他特性的信息。也可译为描述数据或诠释数据。 3.2 元数据元素(元数据Element) 元数据最基本的信息单元。 3.3 元数据实体(元数据Entity) 同类元数据元素的集合。 3.4 元数据子集(元数据Section) 相互关联的元数据实体和元素的集合。 3.5 信息交换网络(Clearinghouse) 数据生产者、管理者和用户之间的分布式、电子连接的网络。 3.6 数据志(Lineage) 数据继承信息,包括获取或生产数据使用的原始资料说明、数据处理中的参数、步骤等情况及负责单位的有关信息等。 3.7 引用文献(Citation) 数据集引用或参考使用的资料、数据集、模型、文献等。 4. NFGIS 元数据层次结构和性质 4.1 元数据层次结构 本标准规定NFGIS元数据分为三层:元数据子集、元数据实体和元数据元素。 元数据元素是元数据的最基本的信息单元,元数据实体是同类元数据元素的集合,元数据子

集是相互关联的元数据实体和元素的集合。在同一个子集中,实体可以有两类即简单实体和复合实体,简单实体只包含元素,复合实体既包含简单实体又包含元素,同时复合实体与简单实体及构成这两种实体的元素之间具有继承关系。 4.2 元数据性质 本标准定义三种性质的元数据子集、实体和元素: 必选(Mandatory)──元数据的核心内容,适用于各种被描述对象,是元数据文件必须包含的子集、实体或元素。 一定条件下必选(Conditional )──针对不同的被描述对象特征元数据文件所必须提供的子集、实体或元素。 可选(Optional)──该子集、实体或元素是可选的,由用户决定是否将其包含在元数据文件中。 5. NFGIS 元数据分级和特征 5.1 元数据分级 本标准规定元数据分为两级,即: 基本元数据──提供地理数据源基本文档所需要的最少的元数据元素集。它包括回答下列问题的元数据元素: "是否有特定主题的数据集('什么')?"、"是否有特定地区的数据集('何处')?"、"是否有特定时段的数据集('何时')?" 以及"订购或了解数据集更多情况的联系人('谁')? 完全元数据──提供完整的地理数据源(单独的数据集、数据集系列、各种地理要素)文档所需要的必选的和可选的元数据元素集。它完整地定义全部元数据,以便标识、评价、摘录、使用和管理地理信息。 5.2 元数据特征 本元数据标准定义了8种特征: 5.2.1 名称 赋给元数据实体或元素的标记。 5.2.2 标识码 计算机中使用的定义每个元数据实体和元素的唯一代码。代码结构为: xx xx xx 前两位为元数据子集,两位数字码 中间两位为元数据实体/独立元素,两位数字码 后两位为元数据实体包含的元素,两位数字码

科学数据规范化分析与管理

科学数据规范化分析与管理
中国科学院计算机网络信息中心 胡良霖 2008年05月

提纲
1. 2. 3.
基本概念 科学数据的特点 科学数据规范化
规范化分析 3.2 规范化管理
3.1
4. 5.
示例模型 科学数据规范化工作模式

1. 基本概念
数据(data) 对事实、概念或指令的一种形式化表示,适用于以人 工或自动方式进行通信、解释或处理。 数据集(dataset) 可以标识的数据集合。 注:数据集可以是一个数据库或一个或多个数据文件。 元数据 (metadata)
定义和描述其他数据的数据。
数据模型(data model) 以反应信息结构的某种方式对数据组织的描述。 描述数据、数据关系、数据语义以及一致性约束的概 念工具的集合。[《数据库系统概念》(第三版)]
注:以上概念除特殊注明外均摘自GB/T18391.1-2002《信息技术的规范化与标准化 第一部分:数据 元的规范化与标准化框架》

1. 基本概念
数据元(data element)
用一组属性描述其定义、标识、表示和允许值的数据单元,在 一定语境下,通常用于构建一个语义正确、独立且无歧义的特 定概念语义的信息单元。
注:数据元也是构建元数据和元数据实体的基本单元。
数据元目录(data element directory)
列出并定义了全部相关数据元的一种信息资源。
注:数据元目录可有不同层级,例如,ISO/IEC委员会级、国际协会 级、行业部门级、公司级、应用系统级。
数据元值(data element value)
数据元允许值集合中的一个值。
数据元值的长度(data element value length)
数据元值中字符的数目。
注:按ASCII字符数目计算数据元值的长度,一个汉字相当于2个字符。
注:以上概念释义均出自GB/T18391.1-2002。

元数据的构成方式

元数据的构成方式 (徐枫宦茂盛)通过元数据的描述,能够使信息资源的使用者了解数据的内容、特征、作用、获取方式等信息。 元数据是关于数据的数据,在建立信息资源目录体系的过程中,元数据主要是对信息资源从外部特征进行而非从内部结构进行描述。通俗地讲,元数据就是信息资源的标签或卡片,通过元数据的描述,可以使信息资源的使用者能够了解数据的内容、特征、作用、获取方式等信息,能够对信息资源是否满足特定的应用需求做出适当的评价,并根据评价的结果决定是否采取进一步的措施来获取该信息资源。 元数据是信息资源目录体系建立的基础,构建一个信息资源目录体系首要和基础性的工作就是建立描述各个信息资源的元数据库,元数据库中存储的是描述各种来源、各种类型的信息资源的描述信息。无论用户以何种方式查询信息资源目录,包括以分类目录的形式进行查询、或者以多关键词的形式进行查询,其本质都是对后台元数据库的检索,只是从表现层提供了不同形式的人机查询接口。根据所描述的信息资源对象的不同,可以建立不同的元数据库,分别对各类信息资源进行描述。

元数据的组成 为能够对信息资源进行准确和高效的描述,元数据本身具有自身的逻辑结构。一般来说,元数据本身是层次化、树状结构的。处于树状结构最底端的叶子节点称之为元数据元素,包含了元数据元素的节点称之为元数据实体,当然元数据实体也可以只包含元数据实体。根据实际需求,元数据实体或者元数据元素可以多次出现。例如,信息资源可以有不同的分类,可以按照信息资源的来源进行分类,也可以按照信息资源的不同应用主题进行分类,因此,“信息资源分类”元数据实体就可以出现多次。 元数据一般分三个方面对信息资源进行描述。 一是对信息资源基本内容的描述。包括信息资源的标题、摘要、关键词等基本信息。标题是信息资源的名称,通过标题使用者能够初步掌握信息资源的基本范围。其次,使用者可以通过摘要,了解信息资源的主要内容、用途等各种信息。一般情况下,用户主要通过摘要作为信息资源适用性评价的主要依据。所以,在信息资源元数据的著录过程中,摘要的填写一般都由专业人员完成,只有专业人员才能够对信息资源的内容有准确的把握和深入的理解,能够提供有关信息资源内容的更加权威的解释。根据信息资源对象的不同,描述信息资源基本内容的元数据实体和元数据元素还可

《元数据的作用 [元数据的构成方式]》

《元数据的作用[元数据的构成方式]》 (徐枫宦茂盛)通过元数据的描述,能够使信息资源的使用者了解数据的内容、特征、作用、获取方式等信息。元数据是关于数据的数据,在建立信息资源目录体系的过程中,元数据主要是对信息资源从外部特征进行而非从内部结构进行描述。通俗地讲,元数据就是信息资源的标签或卡片,通过元数据的描述,可以使信息资源的使用者能够了解数据的内容、特征、作用、获取方式等信息,能够对信息资源是否满足特定的应用需求做出适当的评价,并根据评价的结果决定是否采取进一步的措施来获取该信息资源。 元数据是信息资源目录体系建立的基础,构建一个信息资源目录体系首要和基础性的工作就是建立描述各个信息资源的元数据库,元数据库中存储的是描述各种来源、各种类型的信息资源的描述信息。无论用户以何种方式查询信息资源目录,包括以分类目录的形式进行查询、或者以多关键词的形式进行查询,其本质都是对后台元数据库的检索,只是从表现层提供了不同形式的人机查询接口。根据所描述的信息资源对象的不同,可以建立不同的元数据库,分别对各类信息资源进行描述。 元数据的组成 为能够对信息资源进行准确和高效的描述,元数据本身具有自身的逻辑结构。一般来说,元数据本身是层次化、树状结构的。处于树状结构最底端的叶子节点称之为元数据元素,包含了元数据元素的节点称之为元数据实体,当然元数据实体也可以只包含元数据实体。根

据实际需求,元数据实体或者元数据元素可以多次出现。例如,信息资源可以有不同的分类,可以按照信息资源的来源进行分类,也可以按照信息资源的不同应用主题进行分类,因此,“信息资源分类”元数据实体就可以出现多次。 元数据一般分三个方面对信息资源进行描述。 一是对信息资源基本内容的描述。包括信息资源的标题、摘要、关键词等基本信息。标题是信息资源的名称,通过标题使用者能够初步掌握信息资源的基本范围。其次,使用者可以通过摘要,了解信息资源的主要内容、用途等各种信息。一般情况下,用户主要通过摘要作为信息资源适用性评价的主要依据。所以,在信息资源元数据的著录过程中,摘要的填写一般都由专业人员完成,只有专业人员才能够对信息资源的内容有准确的把握和深入的理解,能够提供有关信息资源内容的更加权威的解释。根据信息资源对象的不同,描述信息资源基本内容的元数据实体和元数据元素还可以进行有选择的增加。例如,描述空间信息资源时,可以增加空间参照系、图示表达等元数据实体,描述科学数据资源时需要增加数据质量等元数据实体。 二是对信息资源的获取方式进行描述。包括信息资源的分发者信息、信息资源的在线获取地址信息等。通过提供分发者联系信息,使用者可以直接联系信息资源的分发部门,这对于不能直接在网络上进行数据交换的信息资源获取非常有效。其次,使用者还可以通过信息资源的在线地址来下载、查询、浏览信息资源。使用者甚至可以提供专门的电子订单处理系统,并将入口信息加入到元数据内容中,方便

林业科学数据元数据标准

林业科学数据元数据标准(V3.10版) 1 主题容与适应围 本标准规定了用来描述林业科学数据集及提供信息服务所需要的信息,包括林业科学数据共享元数据容框架和林业科学数据共享元数据标准。提供了有关林业科学数据集的标识、容、分发、数据质量、数据表现、参照系和元数据参考信息等容。 本标准适用于林业科学数据集元数据整理、建库、汇编、发布及共享服务。 本标准的元数据分为两级,即核心元数据和详细元数据。核心元数据规定了描述数据集最关键的信息容。在核心元数据的基础上,考虑林业科学研究的特点,建立满足林业科学数据共享建设的详细元数据。用户可以在核心元数据的基础上,根据具体需求和数据的实际情况选用、扩充详细元数据容,建立相应级别的元数据库。 2 规性引用文件 下列规性引用文件通过本部分的引用而成为本标准的条款。凡是注日期的引用文件,其随后所有的修改单(不包括勘误的容)或修订版均不适用于本标准。但是,鼓励根据本标准达成协议的各方,研究是否可使用这些文件的最新版本。但是不注日期的引用文件,其最新版本适用于本标准。ISO和IEC成员维护目前有效国际标准的注册。 科学数据共享工程技术标准—科学数据共享元数据标准容1.4 SDS/T 2112—2004 科学数据共享工程技术标准 GB/T 1.1—2000 标准化工作导则 GB/T 7408-1994 数据元和交换格式信息交换日期和时间表示方法 GB/T 4880.2-2000 语种名称代码第2部分:3字母代码 GB/T 2260-2002 中华人民国行政区划代码 GB/T 7156-1987 文献等级代码 SDS/T 2111—2004 元数据标准化原则与方法 SDS/T 2122—2004 科学数据共享工程数据分类编码 ISO 19115 地理信息—元数据(Geographic information—Metadata) 3 术语和定义 3.1 数据集dataset 数据集是可以表示的数据集合,数据集可以是数据库,也可以是数据库中的一个(逻辑组成)部分。本标准所指的数据集是指不可再细分的数据集,即可以用一个数据字典能够唯一描述的数据集合。3.2 数据集系列dataset series 数据集系列是同一主题的多个数据集的组合,都符合相同产品规。 3.3 元数据metadata 元数据是关于数据的数据,用来描述数据的容、覆盖围、质量、管理方式、数据的所有者、数据的提供方式等有关信息。 3.4 元数据元素 metadata element

第12章元数据管理-DAMA-DMBOK:数据管理知识体系(第二版)

第十二章 元数据管理 1.简介 元数据的最常见定义,“关于数据的数据”,很容易引起误解。可以归类为元数据的信息种类繁多。元数据包括有关技术和业务流程,数据规则和约束以及逻辑和物理数据结构的信息。它描述了数据本身(例如,数据库,数据元素,数据模型),数据表示的概念(例如,业务流程,应用程序系统,软件代码,技术基础结构)以及数据和概念之间的连接(关系)。元数据可帮助组织了解其数据,系统和工作流程。它可以进行数据质量评估,并且是数据库和其他应用程序管理的组成部分。它有助于处理,维护,集成,保护,审核和管理其他数据。 要了解元数据在数据管理中的重要作用,请想象一个大型图书馆,其中有成千上万的书籍和杂志,但没有卡片目录。没有卡片目录,读者甚至可能不知道如何开始寻找特定的书甚至特定的主题。卡片目录不仅提供必要的信息(图书馆拥有的书籍和材料以及在何处被搁置),还使读者可以使用不同的起点(主题区域,作者或标题)来查找材料。没有目录,很难甚至不可能找到一本书。没有元数据的组织就像没有卡片目录的图书馆。 元数据对于数据管理和数据使用都是必不可少的(请参阅DAMA-DMBOK中对元数据的多个引用)。所有大型组织都会产生和使用大量数据。在整个组织中,不同的个人将具有不同级别的数据知识,但是没有一个人会了解有关数据的所有知识。此信息必须记录在案,否则组织可能会失去有关自身的宝贵知识。元数据提供了捕获和管理有关数据的组织知识的主要方法。 但是,元数据管理不仅是知识管理方面的挑战,而且还存在许多挑战。这也是风险管理的必要。元数据对于确保组织可以识别私有数据或敏感数据以及为自己的利益管理数据生命周期以及满足合规性要求并使风险最小化是必不可少的。 没有可靠的元数据,组织将不知道它拥有什么数据,数据代表什么,它起源于何处,它如何在系统中移动,谁可以访问它,或者对高质量数据意味着什么。没有元数据,组织就无法将其数据作为资产进行管理。确实,没有元数据,组织可能根本无法管理其数据。 随着技术的发展,生成数据的速度也提高了。技术元数据已经成为数据移动和集成方式不可或缺的一部分。ISO的元数据注册标准(ISO / IEC 11179)旨在基于数据的精确定义,在异构环境中启用元数据驱动的数据交换。以XML和其他格式显示的元数据可以使用数据。其他类型的元数据标记允许在交换数据的同时保留所有权,安全要求等指示符(请参见第8章)。 像其他数据一样,元数据也需要管理。随着组织收集和存储数据的能力的增强,元数据在数据管理中的作用越来越重要。要以数据驱动,组织必须以元数据驱动。

元数据的标准

元数据的标准 1、数字图书馆资源组织框架 2. 元数据开发应用框架 元数据的基本意义Metadata(元数据)是“关于数据的数据”; 元数据为各种形态的数字化信息单元和资源集合提供规范、普遍的描述方法和检索工具;元数据为分布的、由多种数字化资源有机构成的信息体系(如数字图书馆)提供整合的工具与纽带。 离开元数据的数字图书馆将是一盘散沙,将无法提供有效的检索和处理。 3. 元数据应用环境 3.1 Metadata的应用目的 (1)确认和检索(Discovery andentification),主要致力于如何帮助人们检索和确认所需要的资源,数据元素往往限于作者、标题、主题、位置等简单信息,Dublin Core是其典型代表。(2)著录描述(Cataloging),用于对数据单元进行详细、全面的著录描述,数据元素囊括内容、载体、位置与获取方式、制作与利用方法、甚至相关数据单元方面等,数据元素数量往往较多,MARC、GILS和FGDC/CSDGM是这类Metadata的典型代表。 (3)资源管理(Resource Administration),支持资源的存储和使用管理,数据元素除比较全面的著录描述信息外,还往往包括权利管理(Rights/Privacy Management)、电子签名(Digital Signature)、资源评鉴(Seal of Approval/Rating)、使用管理(Access Management)、支付审计(Payment and Accounting)等方面的信息。 (4)资源保护与长期保存(Preservation and Archiving),支持对资源进行长期保存,数据元素除对资源进行描述和确认外,往往包括详细的格式信息、制作信息、保护条件、转换方式(Migration Methods)、保存责任等内容。 3.2 Metadata在不同领域的应用根据不同领域的数据特点和应用需要,90年代以来,许多Metadata格式在各个不同领域出现 例如: 网络资源:Dublin Core、IAFA Template、CDF、Web Collections 文献资料:MARC(with 856 Field),Dublic Core 人文科学:TEI Header 社会科学数据集:ICPSR SGML Codebook 博物馆与艺术作品:CIMI、CDWA、RLG REACH Element Set、VRA Core 政府信息:GILS 地理空间信息:FGDC/CSDGM 数字图像:MOA2 metadata、CDL metadata、Open Archives Format、VRA Core、NISO/CLIR/RLG Technical Metadata for Images 档案库与资源集合:EAD 技术报告:RFC 1807 连续图像:MPEG-7 3.3 Metadata格式的应用程度 不同领域的Metadata处于不同的标准化阶段: 在网络资源描述方面,Dublin Core经过多年国际性努力,已经成为一个广为接受和应用的事实标准;在政府信息方面,由于美国政府大力推动和有关法律、标准的实行,GILS已经

相关文档
最新文档