数据仓库技术与应用

数据仓库技术与应用
数据仓库技术与应用

数据仓库技术与应用 LEKIBM standardization office【IBM5AB- LEKIBMK08- LEKIBM2C】

文章编号 :5(2004 03

收稿日期 :27

基金项目 :教育部高等学校骨干教师资助计划项目 (GG 28

作者简介 :项军 (19792 , 男 , 四川绵阳人 , 空军工程大学导弹学院计算机工程系硕士研究生 , 研究方向 :智能信息处理与人工智能 ; 雷英杰 (19562 , 男 , 陕西渭南人 , 教授 , 博士生导师 , 研究方向 :智能信息处理 , 模式识别 , 人工智能。数据仓库技术与应用

项军 , 雷英杰

(空军工程大学导弹学院 , 陕西三原 713800

摘要 :对数据仓库、联机分析处理和数据挖掘等几个概念做了详细的介绍 , 在此基础上提出适用于电信系统应用的设计思想 , 详细介绍了该系统的系统结构、关键技术的实现和各子系统功能。关键词 :数据仓库 ; 联机分析处理 ; 数据挖掘中图分类号 :文献标识码 :A

The T echnique and Application of Data W arehouse

XI ANGJun ,LEI Y ing 2jie

(Missile Institute of Air F orce Engineering University ,Sanyuan 713800,China

Abstract :This paper introduces the concepts of data warehouse ,on 2line analytical processing and data mining ,puts forward the design thought of telecommunication system and briefly introduces the system structure ,the key techniques of the system and the functions of each sub 2system.

K ey w ords :data warehouse ;on 2line analytical processing ;data mining

0引言

近年来 , 随着企业计算机应用的不断深入 , 大部

分企业已经投入了大量的时间和资源建立了庞大而复杂的信息系统 , 积累了大量的宝贵数据资源。面对日益激烈的市场竞争和潜在的金融风险 , 这些企业迫切希望能有一个强而有力的分析工具来帮助他们从这些海量的数据中充分挖掘有意义的信息 , 以辅助高层领导者进行计划和指导决策活动。

数据仓库的目的是为了建立一种体系化的数据存储环境 , 将分析决策所需要的大量数据从传统的操作环境中分离出来 , 使分散、不一致的操作数据转成集成、统一的信息 , 进而支持决策。完整的数据仓库包括三个方面的技术内容 :数据仓库技术、联机分析处理技术和数据挖掘技术。该文对数据仓库技术及其决策支持工具进行了详尽的讨论 , 并提出适用电信行业的方案设计思想。

1数据仓库及其决策支持工具的概述

1. 1数据仓库 (Data W arehouse

根据 W. H. Inm on 的定义:“ 数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合 , 用以支持决策制定过程。” 数据仓库是一个专门的数据仓储对象 [1]。它通过清理、转移、分析、映射和综合 , 形成统一的存储格式 , 最终为用户特别是决策支持者提供对公用数据的更好的访问支持。数据仓库有四个显着特点 [2]:

(1 数据仓库的面向主题性。

主题是一个抽象的概念 , 是在较高的层次上对企业信息系统中的数据综合、归类后进行分析利用的抽象。在逻辑意义上 , 它是对应企业中某一宏观分析领域的分析对象 , 是针对某个决策问题而设置的。

(2 数据仓库的数据是集成的。

数据仓库中存储的数据从原来的分散、异构的数据库数据经过抽取、统一、综合转换成全局统一的定义消除不一致和错误之处。

(3 数据仓库的数据是不可更新的。

数据仓库中的数据通常是一起载入与访问的 , 在

计算机与现代化

2004年第 11期

J IS UAN J I Y U XI ANDAIH UA

总第 111期

数据仓库环境中不进行一般意义上的数据更新。所以数据在一定的时间间隔是稳定的 , 并且能反映企业当前和历史的数据。

(4 数据仓库的数据是随时间变化的。

数据仓库的数据随时间变化不断增加新的数据内容和删去旧的数据内容。数据仓库中含有大量与时间有关的综合数据。

粒度是数据元素中包含的信息的确切性程度 , 分为细粒度和粗粒度 [3]。它深深地影响存放在数据仓库中的数据量的大小 , 影响存储介质大小和查询效率 ; 同时影响数据仓库所能回答的查询类型 , 即所能满足的信息分析的功能需求。

1. 2联机分析处理 (OLAP 技术

O LAP 是 On 2Line Analytical Processing (联机分析处理的首字母缩写 , 是与数据仓库密切相关的一种决策支持工具 , 是使管理人员和分析人员或执行人员能从多角度对原始数据转化出来的 , 能够真正为用户所理解的并真实反映企业特性的信息进行快速、一致、交互的存取 , 从而获得对数据的更深入了解的一类软件技术。其目标是决策支持和多维环境特定的查询和报表需求 , 其技术核心是“维” 这个概念 , 维是人们观察事物的角度 , 所以 O LAP 也可以说是多维数据分析工具的集合。操作数据存储的两种方式分别为多维数据存储和关系数据存储 , 由此形成

了 O LAP 的两种实现结构 :基于多维数据库的 O LAP (M O LAP 实现和基于关系数据库的 O LAP (RO LAP 实现 [4]。 M O LAP 是以多维数据库 (M DD 为基础 ,M DD 将数据存放在一个 n 维数组中 , 存在着大量的稀疏数据 , 在事件发生的部位 , 数据聚合在一起 , 密度很大 , 成为稠密数据 [5]。 M DD 对稀疏数据进行压缩存储 , 以减少存储空间占有量 , 而且数据综合速度快。但多维数据库管理系统缺乏标准且功能不强。

RO LAP 是以成熟的关系数据管理系统上 , 在灵活性和处理数据能力方面有优势。其不足是存放了大量细节数据和较少的综合数据 , 有时需要牺牲效率为代价动态地综合数据。

1. 3数据挖掘 (DM 技术

数据挖掘是一种决策支持过程 , 利用某些特定的知识从企业原有的数据中挖掘出潜在的模式 , 预测客户的行为 , 帮助企业的决策者做出正确的决策。作为分析型工具 ,O LAP 和 DM 在系统中占有相当重要的地位 , 但它们的应用范围和侧重点不同 ,O LAP 是一种验证型的分析工具 , 而 DM 是一种挖掘型的分析工具 , 它能自动地发现隐藏在数据中的模式。从对数据分析的深度的角度来看 ,O LAP 位于较浅的层次 ,DM 所处的位置较深。

尽管 DM 与 O LAP 存在差异 , 但作为数据仓库的工具层的组成部分 , 两者相辅相成 , 相互结合 , 多维数据挖掘 (O LAM 是 O LAP 和 DM 相结合的产物。

2电信系统数据仓库技术应用方案随着电信市场的逐渐开放 , 传统的电信厂商面临着国内外厂商的挑战 , 电信厂商间的竞争将日趋激烈。因此必须依靠技术手段 , 建立一套良好的电信业务管理系统 , 使之能在不断变化的市场需要中把握商机 , 满足需要。建立基于数据仓库的决策支持系统 , 是实现这一目标的保障。以往的电信行业中各个部门已经建立自己的信息系统 , 经过多年的运行 , 已经保存大量的实时系统运行信息、原始营业数据及其它详细资料。但由于这些系统间的分散、独立不仅无法为管理决策提供科学依据 , 也无法满足信息一体化的要求。为了提供全面的客户跟踪和决策分析 , 提出了建立数据仓库的构想。

2. 1系统的体系结构

系统可分为四个部分 :数据源 (包括来自源于电信部门的内部业务数据和其它结构的外部数据、数据仓库系统、决策支持层 (O LAP 工具和 DM 工具和用户界面。它们之间相互作用共同构成层次分明的决策支持系统。如图 1。系统的工作流程 :底层数据源的数据经抽取、转换后进入数据仓库。数据仓库中的多维数据经 O LAP 系统直接提供给一般的管理人员和高层的管理人员。同时数据挖掘工具从数据仓库挖掘出有用的信息可供高层人员做出预测信息性分析。通过用户界面供用户使用

2. 2数据仓库的设计

数据仓库的建立是至关重要的 , 它是管理人员管理决策和预测分析的基础 , 是实现系统功能的关键之一 , 必须保证正确的数据以正确的模式被抽取到数据仓库中。

(1 确定主题。

如表 1不难看出 , 五个主题构成了数据仓库的结构框架。数据仓库中的基层数据随着时间日积月累 , 来源非常复杂 , 不仅有内部数据 , 也有外部数据 , 其数 78

2004年第 11期项军等 :数据仓库技术与应用

据结构也不尽相同 , 必须经过抽取、转换、传输和上载的数据采集过程 , 集成到数据仓库中 , 数据仓库包含原子数据层和具体历史数据。而多维数据库则是对数据进行更高意义的概括。同时 , 按照决策的需要组织成面向主题的二维表 , 每个表描述主题的不同部分的信息 , 而表与表之间通过主码键和公共码键联系。表 1数据仓库的主题域

主题属性组公共码键

客户客户分类、个体客户、集体客户、

客户基本档案信息

客户 I D 号

业务业务类别、业务项目业务号费用客户费用、业务费用计价费用号话费记录话费分类、长途电话、市话、移动通话话费项目号缴费记录缴费项目分类、客户缴费项目缴费项目号 (2 粒度的划分。

考虑到电信部门的数据仓库中拥有大量数据 , 采用双重粒度级来设计。将部门每天的细节操作型数据 (细粒度的数据存放在数据仓库的真实档案层 , 并每隔一个时间周期 (一个月将这些数据从数据仓库中转移到一个价格低廉的存储介质保存。这样可以提高查询内容的范围。将每月的或是每年的综合分析型数据 (粗粒度的数据存放在数据仓库中 , 供分析人员使用 , 这些数据是经常被用到的 , 可以提高查询效率 , 同时节省存储费用。

2. 3 OLAP 系统的建立

O LAP 系统的设计重点在于如何组织数据仓库中的综合性数据 , 如何满足前端用户的多维数据分析需要。基于上面两点考虑 , 选用基于多维数据组织的 O LAP (M O LAP 实现。

(1 综合数据组织。

进行数据汇总查询之前 ,M O LAP 需要预先按概要文件中定义的数据汇总关

系进行计算 , 这个计算通常以批处理方式运行。计算结果存在数据文件中 , 当用户查询时 , 直接调用计算结果 , 速度非常快。 (2 数据访问和生成方式。

利用旋转、切片或切块、向上归纳、向下钻取等操作剖析数据 , 结果可用多种可视化方式呈现 , 并通过报表输出 , 使用户能从多个角度、多侧面观察数据 , 从而深入了解其信息含义 , 为决策打下良好基础。 2. 4建立 DM 应用

在建立应用之前 , 首要任务就是建立一个数据挖掘模型和训练这个模型。实现这个任务有多种方法 , 最容易的一种方法就是利用 S Q L Server 的 Analysis Manager 的数据模型向导 , 这个向导将产生数据挖掘模型和训练查询 , 并通过 O LE DB for DM 接口向数据挖掘供应者发送这个查询。

通过数据挖掘得到的信息 , 可以清楚电信业务中潜在的客户 , 改进对客户服务质量 , 发现新的项目领域。在数据仓库中 , 可以找出关联模式、序列模式和聚类模式。在电信系统中关联模式的发现也就是要找到客户对电信产品和服务的关联 , 这样可以更好组织有效的市场策略和售后服务。序列模式就是通过时间顺序对客户购买习惯做出预测 , 可以更好地做广告 , 进行宣传。聚类模式发现相似特征的

那些客户 , 将他们分类以便有针对性地服务。

2. 5软件平台

(1 从数据源中抽取数据 , 应该先建立系统数据源连接 , 通过在 ODBC 数据源

管理器中建立与源数据的连接。

(2 S Q L Server 2000的 Analysis Services 在 Analysis Manager 内提供了向导、编辑器、工具和信息 , 用于 O 2 LAP 和数据挖掘 , 可以构造用于分析的数据多维

数据集 , 同时还提供对多维数据集信息的快速访问。 (3 用面向对象的语言设计用户界面。

2. 6系统功能模块

(1 管理维护子系统。

由系统管理员设定用户的权限 , 使具有不同权限的用户对不同数据库中的数据进行不同的操作 , 这样就对用户在使用数据仓库的功能上进行了划分。 (2 决策支持子系统。

这是系统的核心部分 , 通过一系列的数据模型将经营效率和问题量化为具体的数据。然后通过这些数据进行比较 , 用来向部门及高层领导及时反映客户、业务和营销等动态信息 , 为综合决策分析起到指导作用。

(3 业务管理子系统。

为各个部门提供详细的数据汇总及查询功能 , 同时详尽反映各部门的业务情况 , 并对各部门的工作给予评价、预测和分析。

3结束语

该文对数据仓库、 O LAP 和 DM 等几个概念做了详细的介绍 , 在此基础上 , 对数据仓库和决策支持工具在电信系统中的应用做了较为深入的分析。此方案提供多角度、多层次查询分析数据和做出决策分析 , 通过 S Q L Server 2000的Analysis Services 和 VB 对这个系统做了实现 , 初步满足了目前电信行业管理的需要 , 为管理者决策分析提供及时准确的信息。 (下转第 91页

88计算机与现代化

2004年第 11期

〈 10〉地磁变化 , 从 000. 0到 180. 0度 ;

〈 11〉地磁变化方向 , 为 E 或 W 。

至于其他几种帧格式 , 除了特殊用途外 , 平时并不常用 , 虽然接收机也在源源不断地向主机发送各种数据帧 , 但在处理时一般先通过对帧头的判断而只对″ $G PRMC ″ 帧进行数据的提取处理。如果情况特殊 , 需要从其他帧获取数据 , 处理方法与之也是完全类似的。由于帧内各数据段由逗号分割 , 因此在处理缓存数据时一般是通过搜寻 ASCII 码″ $″ 来判断是否是帧头 , 在对帧头的类别进行识别后再通过对所经历逗号个数的计数来判断出当前正在处理的是哪一种定位导航参数 , 并作出相应的处理。下面就用 ParseG psData 类的 Parse 对从 G PS 接收机获取的数据进行解析 , 获取我们想要的″ $G PRMC ″ 信息帧 , 并创建 G psData 对象用于处理 , 具体的实现如下 :

public S tring parse (S tring msgS tr

{

int pos =msgS tr. indexO f (″ $G PRMC ″ ;

S tring gprmcS tr =(pos >21 msgS tr. substring (pos :null; if (gprmcS tr !

=null {

gprmcS tr =gprmcS tr. substring (0,70 ;substring (0,gprmcS tr. indexO f (″ , ″ ; gprmcS tr =gprmcS tr. substring (gprmcS tr. indexO f (″ , ″ +1 ; switch (i {

case 0: ype (value ;break ;

case 1: ime (value ;break ;

case 10: (value ;break ; }

}

return gpsData ;

}

现在已将所从 G PS 接收机中获取的信息按照要求提取出来 , 并保存到 G psData 对象中 , 在实际应用中往往要根据需要对其做进一步的运算处理 , 比如从 G PS 接收机中获得的时间信息为格林尼治时间 , 因此需要在获取时间上加 8小时才为我国标准时间。而且 G PS 使用的 WG S -84坐标系也与我国采用的坐标系不同 , 有时也要对此加以变换。而这些变换运算必须通过数值运算完成 , 因此需要将前面获取的字符型变量转化为数值型变量 , 这部分工作可放后面数据处理的部分完成。

2结束语

本文对 G PS 全球定位系统的定位导航信息的接收和参数数据的提取进行了讨论 , 同时给出了用 Java 语言实现对串口通信编程和数据处理的代码 , 并对程序设计作了简要的讲述。通过本文的设计方法可以从 G PS 接收机中完整地接收 G PS 定位导航信息 , 并提取所需定位参数 , 为后面各种应用的数据处理 (包括 GIS 系统、 RS 系统等等提供数据保障。

参考文献 :

[1]袁安存 . 全球定位系统 (G PS 原理与应用 [M].大连 :大连海事大学出版社 ,1999.

[2]刘大杰 , 施一民 . 全球定位系统 (G PS 的原理与数据处理 [M].上海 :同济大学出版社 ,1996.

[3]李洪涛 . G PS 应用程序设计 [M ].北京 :科学出版社 , 1999.

[4]毋河海 . 地理信息系统 (GIS 空间数据结构与处理技术 [M].武汉 :测绘出版社 ,1997.

(上接第 88页

参考文献 :

[1]赵培英 , 等 . 提高数据仓库中查询性能的一种并行多表连接算法 [J].计算机工程 ,2002,28(10 :114~116. [2] W H Inm on. 数据仓库 [M].北京 :电子工业出版社 ,2000. [3]彭晓东 , 等 . 基于数据仓库的综合决策支持系统的设计

研究 [J].计算机工程与设计 ,2003,24(5 :15~18.

[4]王珊 , 等 . 数据仓库技术与联机分析处理 [M].北京 :科学出版社 ,1998.

[5]宋擒虎 , 等 . 数据仓库技术研究 [J].计算机工程 ,2002,28 (1 :125~127.

19

2004年第 11期王缓缓等 :用 Java 实现 G PS 全球定位系统定位数据的提取

数据仓库技术在医院信息系统中的应用

数据仓库技术在医院信息系统中的应用 本文介绍了数据仓库技术的发展历程及特点,对数据仓库技术在医院信息管理平台的应用进行了分析,并对医院信息平台使用数据仓库技术提出了建议,为数据仓库技术在医院的建设及使用提供了一定有价值的参考。 标签:数据仓库;医院信息;应用 数据仓库可为所有类型的数据起到支持与集合作用,也是企业发展过程中对决策定制必须要用到的。数据仓库作为独立的数据存储,对企业业务报告进行分析以及作出决策等提供一定支持,对业务流程、所花费成本以及质量等进行控制的一种系统。 1 数据仓库技术 数据仓库由数据仓库之父比尔·恩门(Bill Inmon)于1990年提出,主要功能是将组织透过资讯系统之联机事务处理(OLTP)经年累月所累積的大量资料,透过数据仓库理论所特有的资料储存架构,有系统的进行分析整理,以利于各种分析方法如联机分析处理(OLAP)、数据挖掘(Data Mining)的进行,并进而支持如决策支持系统(DSS)、主管资讯系统(EIS)的创建,帮助决策者能快速有效的从大量资料中,分析出有价值的资讯,有利于决策拟定及快速回应外在环境变动,帮助建构商业智能(BI)[1]。数据仓库技术主要对数据库中获得的信息进行研究和分析,以找出解决方法,因此,数据仓库最大的特点就是具有集成性、稳定性和实时性。 2 数据仓库的特点 数据仓库最大的特点就是可以在数据库存储大量数据的情况下,还可以对数据进行深度挖掘,以对企业在决策问题上提供支持。数据仓库同其他系统大型数据库不同,数据仓库存在的最主要目的就是为企业所得数据进行分析与查询,以为企业提供数据依靠,所以在所用的存储量上较多。数据仓库为了能为企业提供更多前端应用服务,在其实际应用过程中还存在以下几点特点: 2.1对数据仓库要求效率过高数据库对数据进行分析也是有其规律的,分别按照年、季、月、周、日为周期对数据进行分析。以日周期为例,对数据仓库的要求上尤其高,要求其分析数据的频率能够在客户所要求的时间内得出结果。但对于大型企业来说,每天企业所涉及的数据量非常多,如果数据仓库使用不恰当则会延误客户的需求,进而给企业造成影响。 2.2对数据质量要求严格数据仓库所收集到的各种信息必须保证准确,如果在某一数据或者某一代码中出现错误,那么往往就会造成部分数据失真。在数据仓库实际使用过程中所涉及环节较多,且内容复杂,因此,在为客户所提供的数据信息上仍会有错误数据存在,使客户作出错误的判断,进而对企业造成损失。

数据仓库技术及其在金融行业的应用

数据库技术及其在金融行业的应用 1. 前言 数据库仓库(DW)技术从1991年开始出现,经过多年的摸索和应用,目前在一些发达国家已经建设得比较成熟,为企业综合与灵活的分析型应用提供了强大的数据支撑,为管理层的分析决策和操作层的智能营销提供了技术保证,为企业带来了多方面的收益。而在国内,数据库仓库仍处于尝试或初级建设阶段。 国内的金融行业,随着外部监管和信息披露的压力、内部管理和决策分析的需要,在建设分析类应用时,也正在逐渐从孤立的数据层向统一的数据仓库层规划和转移。建立数据仓库能够减少对数据层的重复投资和资源浪费、统一数据标准、监管和提高数据质量、消除信息孤立、支持综合分析和灵活及时的分析型应用、适应管理和发展、提高业内竞争力。 本文对数据库技术做一个概括性的介绍,并对国内外金融行业数据仓库技术的应用现状做一个简单分析。 2. 数据仓库概念 2.1. DW的提出 2.1.1. 需求 业务系统的建设与逐渐完善,巨量数据信息的积累。 分析类需求不断增加,传统分析类应用造成巨大的资源浪费和管理困难。 业务数据平台异构、数据来源口径多、标准不统一、信息孤立。 整合部门级应用,建设企业级应用,满足综合分析、复杂查询、智能营销等高级需求。 2.1.2. DW概念的提出 MIT在20世纪70年代对业务系统和分析系统的处理过程进行研究,结论是只能采用完全不同的架构和设计方法。 1988年,IBM为解决全企业数据集成问题,提出了信息仓库的概念,确立了原理、架构和规范。但没有进行实际的设计。 1991年,Bill Inmon提出了数据仓库概念,并对为什么建设数据仓库和如何建设数据仓库进行了论述。Bill Inmon被称为数据仓库之父。

数据仓库与数据挖掘

数据仓库与数据挖掘 摘要 数据挖掘是一新兴的技术,近年对其研究正在蓬勃开展。本文阐述了数据仓库及数据挖掘的相关概念.做了相应的分析,同时共同探讨了两者共同发展的关系,并对数据仓库与挖掘技术结合应用的发展做了展望。用Data Miner作为对数据挖掘的工具,给出了应用于医院的数据仓库实例。指出了数据挖掘技术在医疗费用管理、医疗诊断管理、医院资源管理中具有的广泛应用性,为支持医院管理者的分析决策作出了积极探索。 Abstract The Data Mine is a burgeoning technology,the research about it is developing flourishing.In this paper,it expatiates and analyses the concepts of Data Warehouse and Data Mine Together,discussing the connections of how to expand the two technologies,and combining the two technologies with prospect.The data warehouse supports the mass data on the further handling and recycling.The paper points out the use of data mining in patient charge control,medical quality control, hospital resources allocation management. It helps the hospital to make decisions positively 关键字:数据仓库;数据挖掘;医院信息系统 Key words:Data Warehouse;Data Mine;Hospital information system

数据仓库技术与应用

数据仓库技术与应用 LEKIBM standardization office【IBM5AB- LEKIBMK08- LEKIBM2C】

文章编号 :5(2004 03 收稿日期 :27 基金项目 :教育部高等学校骨干教师资助计划项目 (GG 28 作者简介 :项军 (19792 , 男 , 四川绵阳人 , 空军工程大学导弹学院计算机工程系硕士研究生 , 研究方向 :智能信息处理与人工智能 ; 雷英杰 (19562 , 男 , 陕西渭南人 , 教授 , 博士生导师 , 研究方向 :智能信息处理 , 模式识别 , 人工智能。数据仓库技术与应用 项军 , 雷英杰 (空军工程大学导弹学院 , 陕西三原 713800 摘要 :对数据仓库、联机分析处理和数据挖掘等几个概念做了详细的介绍 , 在此基础上提出适用于电信系统应用的设计思想 , 详细介绍了该系统的系统结构、关键技术的实现和各子系统功能。关键词 :数据仓库 ; 联机分析处理 ; 数据挖掘中图分类号 :文献标识码 :A The T echnique and Application of Data W arehouse XI ANGJun ,LEI Y ing 2jie (Missile Institute of Air F orce Engineering University ,Sanyuan 713800,China Abstract :This paper introduces the concepts of data warehouse ,on 2line analytical processing and data mining ,puts forward the design thought of telecommunication system and briefly introduces the system structure ,the key techniques of the system and the functions of each sub 2system. K ey w ords :data warehouse ;on 2line analytical processing ;data mining 0引言

数据仓库设计的21条原则

数据仓库设计的21条原则:7个步骤,7个禁忌和7种思路(转) 高效实现数据仓库的七个步骤 数据仓库和我们常见的RDBMS系统有些亲缘关系,但它又有所不同。如果你没有实施过数据仓库,那么从设定目标到给出设计,从创建数据结构到编写数据分析程序,再到面对挑剔的用户的评估,整个过程都会带给你一种与以往的项目完全不同的体验。一句话,如果你试图以旧有的方式创建数据仓库,那你所面对的不是预算超支就是所建立的数据仓库无法良好运作。 在处理一个数据仓库项目时需要注意的问题很多,但同时也有很多有建设性的参考可以帮助你更顺利的完成任务。开放思维,不断尝试新的途径,对于找到一种可行的数据仓库实现方法来说也是必需的。 1. 配备一个全职的项目经理或你自己全面负责项目管理 在通常情况下,项目经理都会同时负责多个项目的实施。这么做完全是出于资金和IT资源方面的考虑。但是对于数据仓库项目的管理,绝对不能出现一人身兼数个项目的情况。由于你所处的领域是你和你的团队之前没有进入过的领域,有关数据仓库的一切-数据分析、设计、编程、测试、修改、维护-全都是崭新的,因此你或者你指派的项目经理如果能全心投入,对于项目的成功会有很大帮助。 2. 将项目管理职责推给别的项目经理 由于数据仓库实现过程实在是太困难了,为了避免自虐,你可以在当前阶段的项目完成后就将项目管理职责推给别的项目经理。当然,这个新的项目经理一定要复合第一条所说的具有全职性。为什么要这么做呢?首先,从项目经理的角度看,数据仓库实施过程的任何一个阶段都足以让人身心疲惫。从物理存储设备的开发到Extract-Transform-Load的实现,从设计开发模型到OLAP,所有阶段都明显的比以前接触的项目更加困难。每个阶段不但需要新的处理方法、新的管理方法,还需要创新性的观点。所以将管理职责推给别的项目经理不但不会对项目有损害,还可以起到帮助作用。 3.与用户进行沟通 这里所讲的内容远比一篇文章本身要重要的多。你必须明白,在数据仓库的设计阶段,那些潜在用户自己也不清楚他们到底需要数据仓库为他们做什么。他们在不断的探索和发现自己的需求,而你的开发团队也在和客户的接触中做着同样的事情。更加频繁的与客户接触,多做记录,并让你的团队更关注于项目需求讨论的结果而不是讨论的过程本身。 既然你和客户的交流是为了了解存储的数据是何种类型以及如何有效存储数据,你也许需要(和你的用户一起)采用一种新的方法观察数据,而不是直接处理数据。你可以尝试从中找出隐藏的信息,比如在一段时期内的数字涨落等。不要试图追寻项目需求的答案,而是要让答案找上门来。 4. 以技术/信息库作为领导 由于数据仓库实施的各个阶段都有很大不同,因此你需要有人能起到维持整个项目的连续进行的作用,不过这个职责并不需要那种全职性。项目实施有三个重要方面:架构、技术和业务。将架构作为重点可以保证在整个项目中,数据仓库的架构从物理层往上,都会受到良好的维护。而我们应该将技术作为重点,因为开发团队和关键用户都在使用他们以前从未用过的工具,必须有人监督开发过程以及工具使用的一致性。 最后,在数据仓库的应用过程中浮现出来的业务需求必须被详细分析和记录,以促机开发过程持续下去。如果用户不能很好的与开发人员以及其它用户沟通,那么数据分析和度量方面的开发进程就会延期,所以必须有人关注业务方面的开发,推动开发进入更高级别。 5. 跳出反复修改程序的陷阱 第一次实现的数据仓库肯定不会是最终交付的版本。为什么呢?实际上在真正见到产品前,你无法确定

数据仓库在证券业的应用

数据仓库在证券业的应用 随着数据仓库技术的发展,在线分析、数据挖掘已渐渐获得了券商的青睐,但数据仓库在证券业中却鲜有成功的案例,大部分券商对数据仓库也都持观望的态度,对数据仓库的应用仅限于研究阶段。那么究竟数据仓库的“行”在何处:它可以为我们带来什么?为什么“不行”:它的应用为什么不能达到其预期的效果?怎样才能使数据仓库从“不行”的模式转到到“行”的模式?本文试对此进行探讨,并认为数据的集中统一是数据仓库应用的基础;确立合理的数据模型是数据仓库应用的核心;高效的应用系统是数据仓库应用的动力;良好的外部环境是数据仓库成功应用的外部保障。 数据仓库的“行” 这里所说的数据仓库的“行”主要是指数据仓库可以做什么,它的使用能为证券业带来哪些好处,为什么对券商来说是一个行之有效的工具。 数据仓库(Data Warehouse)是在数据库基础上发展而来的,是一个面向主题的、集成的、稳定的、不同时期的数据集合,用以支持企业经

营管理中的决策过程。它通常由三个部分构成:数据仓库、联机分析处理及数据挖掘,它们之间具有极强的互补关系。数据仓库用来对大量的数据按一定的结构进行组织存储;联机分析处理则可进行灵活丰富的多维分析与查询,可以从不同的角度去分析企业的运作情况,并对未来进行预测;数据挖掘则是对现有数据进行深层次的研究分析,从中找出对经营管理有用的结论。 由上述对数据仓库的叙述,不难看出特别是对券商这种数据密集型的企业而言,数据仓库技术的应用在以下三个方面有其得天独厚之处和现实的意义: 提升客户服务虽然大部分券商已积累了大量的客户信息和交易数据,但现在还没有办法对客户的贡献度、盈亏情况、持仓情况及操作习惯等进行统计和分析,为客户提供针对其个人习惯的投资组合建议。而通过建立数据仓库,为客户资料的统计分析提供基本的信息源和辅助工具,已成为券商提高市场竞争能力和客户服务水平的关键。 提高资产质量数据仓库中强大的分析和预测功能为此提供了有力的支持,可根据股市行情走势、上市公司的资料以及宏观微观经济数据等对

数据仓库与数据挖掘期末综合复习

数据仓库与数据挖掘期 末综合复习

数据仓库与数据挖掘期末综合复习 第一章 1、数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。 2、元数据是描述数据仓库内数据的结构和建立方法的数据,它为访问数据仓库提供了一个信息目录,根据数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。 3、数据处理通常分成两大类:联机事务处理和联机分析处理。 4、多维分析是指以“维”形式组织起来的数据(多维数据集)采取切片、切块、钻取和旋转等各种分析动作,以求剖析数据,使拥护能从不同角度、不同侧面观察数据仓库中的数据,从而深入理解多维数据集中的信息。 5、ROLAP是基于关系数据库的OLAP实现,而MOLAP是基于多维数据结构组织的OLAP实现。 OLAP技术的有关概念: OLAP根据其存储数据的方式可分为三类:ROLAP、MOLAP、HOLAP 6、数据仓库按照其开发过程,其关键环节包括数据抽取、数据存储与管理和数据表现等。 7、数据仓库系统的体系结构根据应用需求的不同,可以分为以下4种类型:两层架构、独立型数据集合、以来型数据结合和操作型数据存储和逻辑型数据集中和实时数据仓库。8、操作型数据存储实际上是一个集成的、面向主题的、可更新的、当前值的(但是可“挥发”的)、企业级的、详细的数据库,也叫运营数据存储。 9、“实时数据仓库”以为着源数据系统、决策支持服务和仓库仓库之间以一个接近实时的速度交换数据和业务规则。 10、从应用的角度看,数据仓库的发展演变可以归纳为5个阶段:以报表为主、以分析为主、以预测模型为主、以运营导向为主和以实时数据仓库和自动决策为主。 11、什么是数据仓库?数据仓库的特点主要有哪些? 数据仓库通常是指一个数据库环境,而不是支一件产品,它是提供用户用于决策支持的当前和历史数据,这些数据在传统的数据库中通常不方便得到。数据仓库就是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,通常用于辅助决策支持。 数据仓库的特点包含以下几个方面: (1)面向主题。操作型数据库的数据组织是面向事务处理任务,各个业务系统之间各自分离;而数据仓库中的数据是按照一定的主题域进行组织。 (2)集成的。面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的。也就是说存放在数据仓库中的数据应使用一致的命名规则、格式、编码结构和相关特性来定义。 (3)相对稳定的。操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓库的数据主要供单位决策分析之用,对所涉及的数据操作主要是数据查询和加载,一旦某个数据加载到数据仓库以后,一般情况下将作为数据档案长期保存,几乎不再做修改和删除操作,也就是说针对数据仓库,通常有大量的查询操作及少量定期的加载(或刷新)操作。 (4)反映历史变化。操作型数据库(OLTP)主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包含较久远的历史数据,因此总是包括一个时间维,以便可以研究趋势和变化。数据仓库系统通常记录了一个单位从过去某一时点(如开始启用数据仓库系统的时点)到目前的所有时期的信息,通过这些信息,可以对单位的发展历程和未来趋势做出定量分析和预测。 12、数据挖掘的概念 数据挖掘,就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程,简单的说,数据挖掘就是从大量数据中提取或“挖掘”知识,又被称为数据库中的知识发现。数据挖掘的方法:直接数据挖掘、间接数据挖掘。

数据仓库技术制定方案

数据仓库制定方案 在当下的数据仓库系统安全控制模块中,我国数据仓库安全分为不同的等级。总体来说,我国的数据仓库安全性是比较低。为更好的健全计算机数据仓库体系,进行数据仓库安全体系的研究是必要的。很多软件都是因为其比较缺乏安全性而得不到较大范围的应用,归根结底是数据仓库安全性级别比较低。为满足现阶段数据仓库安全工作的需要,有利于数据仓库保密性的控制,保证这些数据存储与调用的一致性。 当前数据仓库安全控制过程中,首先需要对这些数据进行可用性的分析,从而有利于避免数据仓库遭到破坏,更有利于进行数据仓库的损坏控制及其修复。其次为了保证数据仓库的安全性、效益性,也离不开对数据仓库整体安全性方案的应用。最后必须对数据仓库进行的一切操作进行跟踪记录,以实现对修改和访问数据仓库的用户进行追踪,从而方便追查并防止非法用户对数据仓库进行操作。 2.1数据仓库安全整体规划 本方案通过对电力行业敏感信息泄露安全威胁的分析,对数据仓库安全进行整体设计与规划,通过全系列数据仓库安全产品相互之间分工协作,共同形成整体的防护体系,覆盖了数据仓库安全防护的事前诊断、事中控制和事后分析。 制定严密可行的实施计划,整个工程严格按照计划进行;公司质量控制部利用ISO9000质量管理规范对工程的软件开发及实施全过程进行监督和控制;建立完善的软件开发和工程实施的文档体系。对程序进行测试,对各个模块之间的关联情况下可能出现的问题进行严密的测试,并不断完善在测试过程中暴露出来的问题。在这过程中质量控制小组将全程参与,确保软件质量。 需求调研是数据仓库开发的最重要的环节之一,在调研的过程中能否真实、准确地描述客户的需求,对于数据仓库的开发有着举足轻重的影响。与客户沟通不够导致对同一个事物的描述或者理解有分歧和差异,或者调研过程中流于表面文字,而没有进入实际的操作,都可能造成在需求调研的过程中造成对需求不精确的理解。失之毫厘,谬之千里,需求调研的微小差异可能会在软件的开发过程中造成较大的偏差,直接影响了工程的建设质量。为此我们为需求调研工作分配

数据仓库建设步骤

数据仓库建设步骤 1.系统分析,确定主题 确定一下几个因素: 操作出现的频率,即业务部门每隔多长时间做一次查询分析。 在系统中需要保存多久的数据,是一年、两年还是五年、十年 用户查询数据的主要方式,如在时间维度上是按照自然年,还是财政年。 用户所能接受的响应时间是多长、是几秒钟,还是几小时。 2.选择满足数据仓库系统要求的软件平台 选择合适的软件平台,包括数据库、建模工具、分析工具等。有许多因素要考虑,如系统对数据量、响应时间、分析功能的要求等,以下是一些公认的选择标准: 厂商的背景和支持能力,能否提供全方位的技术支持和咨询服务。 数据库对大数据量(TB级)的支持能力。 数据库是否支持并行操作。 能否提供数据仓库的建模工具,是否支持对元数据的管理。 能否提供支持大数据量的数据加载、转换、传输工具(ETT)。 能否提供完整的决策支持工具集,满足数据仓库中各类用户的需要。 3.建立数据仓库的逻辑模型 具体步骤如下: 1)确定建立数据仓库逻辑模型的基本方法。 2)基于主题视图,把主题视图中的数据定义转到逻辑数据模型中。 3)识别主题之间的关系。 4)分解多对多的关系。 5)用范式理论检验逻辑数据模型。 6)由用户审核逻辑数据模型。 4.逻辑数据模型转化为数据仓库数据模型 具体步骤如下: 1)删除非战略性数据:数据仓库模型中不需要包含逻辑数据模型中的全部数据项,某些用于操作 处理的数据项要删除。 2)增加时间主键:数据仓库中的数据一定是时间的快照,因此必须增加时间主键。 3)增加派生数据:对于用户经常需要分析的数据,或者为了提高性能,可以增加派生数据。

4)加入不同级别粒度的汇总数据:数据粒度代表数据细化程度,粒度越大,数据的汇总程度越高。 粒度是数据仓库设计的一个重要因素,它直接影响到驻留在数据仓库中的数据量和可以执行的 查询类型。显然,粒度级别越低,则支持的查询越多;反之,能支持的查询就有限。 5.数据仓库数据模型优化 数据仓库设计时,性能是一项主要考虑因素。在数据仓库建成后,也需要经常对其性能进行监控,并随着需求和数据量的变更进行调整。 优化数据仓库设计的主要方法是: 合并不同的数据表。 通过增加汇总表避免数据的动态汇总。 通过冗余字段减少表连接的数量,不要超过3~5个。 用ID代码而不是描述信息作为键值。 对数据表做分区。 6.数据清洗转换和传输 由于业务系统所使用的软硬件平台不同,编码方法不同,业务系统中的数据在加载到数据仓库之前,必须进行数据的清洗和转换,保证数据仓库中数据的一致性。 在设计数据仓库的数据加载方案时,必须考虑以下几项要求: 加载方案必须能够支持访问不同的数据库和文件系统。 数据的清洗、转换和传输必须满足时间要求,能够在规定的时间范围内完成。 支持各种转换方法,各种转换方法可以构成一个工作流。 支持增量加载,只把自上一次加载以来变化的数据加载到数据仓库。 7.开发数据仓库的分析应用 建立数据仓库的最终目的是为业务部门提供决策支持能力,必须为业务部门选择合适的工具实现其对数据仓库中的数据进行分析的要求。 信息部门所选择的开发工具必须能够: 满足用户的全部分析功能要求。数据仓库中的用户包括了企业中各个业务部门,他们的业务不同,要求的分析功能也不同。如有的用户只是简单的分析报表,有些用户则要求做预 测和趋势分析。 提供灵活的表现方式。分析的结果必须能够以直观、灵活的方式表现,支持复杂的图表。 使用方式上,可以是客户机/服务器方式,也可以是浏览器方式。 事实上,没有一种工具能够满足数据仓库的全部分析功能需求,一个完整的数据仓库系统的功能可能是由多种工具来实现,因此必须考虑多个工具之间的接口和集成性问题,对于用户来说,希望看到的是一致的界面。 8.数据仓库的管理

数据仓库与数据挖掘课后习题答案

数据仓库与数据挖掘 第一章课后习题 一:填空题 1)数据库中存储的都是数据,而数据仓库中的数据都是一些历史的、存档的、归纳的、计算的数据。 2)数据仓库中的数据分为四个级别:早起细节级、当前细节级、轻度综合级、高度综合级。3)数据源是数据仓库系统的基础,是整个系统的数据源泉,通常包括业务数据和历史数据。4)元数据是“关于数据的数据”。根据元数据用途的不同将数据仓库的元数据分为技术元数据和业务元数据两类。 5)数据处理通常分为两大类:联机事务处理和联机事务分析 6)Fayyad过程模型主要有数据准备,数据挖掘和结果分析三个主要部分组成。 7)如果从整体上看数据挖掘技术,可以将其分为统计分析类、知识发现类和其他类型的数据挖掘技术三大类。 8)那些与数据的一般行为或模型不一致的数据对象称做孤立点。 9)按照挖掘对象的不同,将Web数据挖掘分为三类:web内容挖掘、web结构挖掘和web 使用挖掘。 10)查询型工具、分析型工具盒挖掘型工具结合在一起构成了数据仓库系统的工具层,它们各自的侧重点不同,因此适用范围和针对的用户也不相同。 二:简答题 1)什么是数据仓库?数据仓库的特点主要有哪些? 数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支

持管理决策。 主要特点:面向主题组织的、集成的、稳定的、随时间不断变化的、数据的集合性、支持决策作用 2)简述数据挖掘的技术定义。 从技术角度看,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含在其中的、人们不知道的、但又是潜在有用的信息和知识的过程。 3)什么是业务元数据? 业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够读懂数据仓库中的数据 4)简述数据挖掘与传统分析方法的区别。 本质区别是:数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先前未知、有效和实用三个特征。 5)简述数据仓库4种体系结构的异同点及其适用性。 a.虚拟的数据仓库体系结构 b.单独的数据仓库体系结构 c.单独的数据集市体系结构 d.分布式数据仓库结构

数据仓库的开发设计过程

数据仓库之路 FAQ FAQ目录 一、与数据仓库有关的几个概念 (3) 1.1 目录 (3) 二、数据仓库产生的原因 (8) 三、数据仓库体系结构图 (11) 四、数据仓库设计 (12) 4.1 数据仓库的建模 (12) 4.2 数据仓库建模的十条戒律: (13) 五、数据仓库开发过程 (14) 5.1 数据模型的内容 (14) 5.2 数据模型转变到数据仓库 (14)

5.3 数据仓库开发成功的关键 (15) 六、数据仓库的数据采集 (16) 6.1 后台处理 (17) 6.2 中间处理 (17) 6.3 前台处理 (18) 6.4 数据仓库的技术体系结构 (18) 6.5 数据的有效性检查 (20) 6.6 清除和转换数据 (20) 6.7 简单变换 (22) 6.8 清洁和刷洗 (24) 6.9 集成 (25) 6.10 聚集和概括 (27) 6.11 移动数据 (27) 七、如何建立数据仓库 (30) 7.1 数据仓库设计 (31) 7.2 数据抽取模块 (32) 7.3 数据维护模块 (33)

一、与数据仓库有关的几个概念 1.1 目录 ?Datawarehouse ?Datamart ?OLAP ?ROLAP ?MOLAP ?ClientOLAP ?DSS ?ETL ?Adhocquery ?EIS ?BPR ?BI ?Datamining ?CRM ?MetaData Data warehouse 本世纪80年代中期,“数据仓库之父”William H.Inmon先生在其《建立数据仓库》一书中定义了数据仓库的概念,随后又给出了更为精确的定义:数据仓

元数据管理

1.前言 数据仓库中的数据是从许多业务处理系统中抽取、转换而来,对于这样一个复杂的企业数据环境,如何以安全、高效的方式来对它们进行管理和访问就变得尤为重要。解决这一问题的关键是对元数据进行科学有效的管理。元数据是关于数据、操纵数据的进程和应用程序的结构和意义的描述信息,其主要目标是提供数据资源的全面指南。元数据不仅定义了数据仓库中数据的模式、来源以及抽取和转换规则等,而且整个数据仓库系统的运行都是基于元数据的,是元数据把数据仓库系统中的各个松散的组件联系起来,组成了一个有机的整体。2.元数据 2.1 元数据的概念 按照传统的定义,元数据(Metadata)是关于数据的数据。在数据仓库系统中,元数据可以帮助数据仓库管理员和数据仓库的开发人员非常方便地找到他们所关心的数据;元数据是描述数据仓库内数据的结构和建立方法的数据,可将其按用途的不同分为两类:技术元数据(Technical Metadata)和业务元数据(Business Metadata)。 技术元数据是存储关于数据仓库系统技术细节的数据,是用于开发和管理数据仓库使用的数据。

业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够“读懂”数据仓库中的数据。业务元数据主要包括以下信息:使用者的业务术语所表达的数据模型、对象名和属性名;访问数据的原则和数据的来源;系统所提供的分析方法以及公式和报表的信息。 2.2 元数据的作用 在数据仓库系统中,元数据机制主要支持以下五类系统管理功能:(1)描述哪些数据在数据仓库中;(2)定义要进入数据仓库中的数据和从数据仓库中产生的数据;(3)记录根据业务事件发生而随之进行的数据抽取工作时间安排;(4)记录并检测系统数据一致性的要求和执行情况;(5)衡量数据质量。 与其说数据仓库是软件开发项目,还不如说是系统集成项目[1],因为它的主要工作是把所需的数据仓库工具集成在一起,完成数据的抽取、转换和加载,OLAP分析和数据挖掘等。 3.数据仓库元数据管理现状 元数据管理的主要任务有两个方面:一是负责存储和维护元数据库中的元数据;二是负责数据仓库建模工具、数据获取工具、前端工具等之间的消息传递,协调各模

数据仓库技术知识

一、数据仓库 数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。 1、数据仓库是面向主题的;操作型数据库的数据组织面向事务处理任务,而数据仓库中的数据是按照一定的主题域进行组织。主题是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。 2、数据仓库是集成的,数据仓库的数据有来自于分散的操作型数据,将所需数据从原来的数据中抽取出数据仓库的核心工具来,进行加工与集成,统一与综合之后才能进入数据仓库; 数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。 数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。 数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到当前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。 3、数据仓库是不可更新的,数据仓库主要是为决策分析提供数据,所涉及的操作主要是数据的查询; 4、数据仓库是随时间而变化的,传统的关系数据库系统比较适合处理格式化的数据,能够较好的满足商业商务处理的需求。稳定的数据以只读格式保存,且不随时间改变。 5、汇总的。操作性数据映射成决策可用的格式。 6、大容量。时间序列数据集合通常都非常大。 7、非规范化的。Dw数据可以是而且经常是冗余的。 8、元数据。将描述数据的数据保存起来。 9、数据源。数据来自内部的和外部的非集成操作系统。 二、数据仓库的特点要求 数据仓库,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,它并不是所谓的“大型数据库”。数据仓库的方案建设的目的,是为前端查询和分析作为基础,由于有较大的冗余,所以需要的存储也较大。为了更好地为前端应用服务,数据仓库往往有如下几点特点: 1. 效率足够高。 数据仓库的分析数据一般分为日、周、月、季、年等,可以看出,日为周期的数据要求的效率最高,要求24小时甚至12小时内,客户能看到昨天的数据分析。由于有的企业每日的数据量很大,设计不好的数据仓库经常会出问题,延迟1-3日才能给出数据,显然不行的。

数据仓库和LOAP应用技术

数据仓库和LOAP应用技术 传统数据库以及OLTP(On-Line Transaction Processing联机事务处理)在日常的管理事务处理中获得了巨大的成功,但是对管理人员的决策分析要求却无法满足。 因为,管理人员常常希望能够通过对组织中的大量数据进行分析,了解业务的发展趋势。而传统数据库只保留了当前的业务处理信息,缺乏决策分析所需要的大量的历史信息。 为满足管理人员的决策分析需要,就需要在数据库的基础上产生适应决策分析的数据环境——数据仓库(Data Warehouse)。 数据仓库系统是一个信息提供平台,是决策支持系统和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。从功能结构化分,数据仓库系统至少应该包含数据获取(Data Acquisition)、数据存储(Data Storage)、数据访问(Data Access)三个关键部分。其体系结构如下: 业务处理系统即是数据库去实现的即时记录的功能,在数据准备区进行ETF处理,数据经过抽取、转换之后加载到数据仓库中,因此也说数据仓库是利用的已经存在的历史记录去整合,是利用原有数据分析下一步行动的决策,是有风险的。分析完主题和数据元后建立数据模型(概念模型、逻辑模型、物理模型)并形成事实表和纬度表,然后通过粒度分析将历史记录先抽取整合,然后再根据决策者可能用到的数据集合分解成若干记录,以备不同决策者使用;再利用OLAP工具技术进行数据的分析导出。当然,这些都在了解了管理者即客户的需求之后进行的,或者是由企业的管理者自己进行的技术应用或分析。 模型设计的过程如下:

数据仓库是管理决策分析的基础,要有效地利用数据仓库的信息资源,必须要有强大的工具对数据仓库的信息进行分析决策。 On-line Analytical Processing(在线分析处理或联机分析处理)就是一个应用广泛的数据仓库使用技术。它可以根据分析人员的要求,迅速灵活地对当量的数据进行复杂的查询处理,并以直观的容易理解的形式将查询结果提供给各种决策人员,使他们能够迅速准确地掌握企业的运营情况,了解市场的需求。具体的说,OLAP(联机分析处理)是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。(OLAP委员会的定义) OLAP的目标是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是“维”这个概念,因此OLAP也可以说是多维数据分析工具的集合。OLAP是连接数据仓库和用户的桥梁,通过OLAP服务器用户可以很方便的浏览信息,进行决策!按照数据的存储方式进行分类,OLAP分为MOLAP,ROLAP,HOLAP三类。 OLAP支持最终用户进行动态多维分析、预测分析;切片和切块并在屏幕上显示,从宏观到微观,对数据进行深入分析;可查询底层的细节数据,在观察区域中选转,进行不同维之间的比较,在OLAP中有变量、维、维的层次、维成员、多维数组、数据单元等基本概念降,变量是从现实系统中抽象出来的,用于描述数据的实际含义;维是观察者观察数据的特定角度;维的层次是数据的某个维还可以存在细节程度不同的多个描述方面,称为维的层次;维成员是维的一个取值。如果一个维是多层次的,那么维成员就是不同维层次取值的组合。例如时间维具有年、月、日这三个层次,分别在年、月、目上各取一个值组合起来,就得到了时间维的一个维成员,如:2005年6月6日;多维数据集是决策支持的支柱,也是OLAP的核心,有时也称为立方体或超立方体。 0LAP使用三层的体系结构:数据库服务器、0LAP服务器和客户端工具。 第一层是数据仓库服务器,它实现与基层运营的数据库系统的连接,完成企业级数据一致和数据共享的工作。 第二层是OLAP服务器,它根据最终客户的请求实现分解成OLAP分析的各种动作,并使用数据仓库中的数据完成这些动作。

浅谈数据仓库中的元数据管理技术

浅谈数据仓库中的元数据管理技术 孙力君仇道霞方峻峰宋楠 山东省烟草公司信息中心 摘要:数据仓库是数据库的发展方向之一,对企业管理和决策支持起着重要的辅助作用。简要介绍了数据仓库和元数据的基本概念,重点阐述了元数据的概念、作用、CWM标准、来源,并就元数据具体应用进行了初步的研究和探讨。 关键词:数据仓库;元数据; 1. 引言 随着市场竞争的越来越激烈,烟草行业的信息化建设不断的深入发展,全行业形成了“以信息化带动烟草行业现代化建设”的基本共识,明确了“统一标准、统一平台、统一数据库、统一网络”,逐步实现系统集成、资源整合、信息共享的信息化建设总体要求,走过了“由基础性向应用性、由局部性向全局性、由分散性向集中性建设”的三个转变历程,初步形成了“数字烟草”的行业信息化建设格局,既对行业数据中心的建设提出了迫切的要求,也为行业数据中心建设奠定了坚实的基础。 随着数据库技术尤其是数据仓库技术的发展,人类能更容易获得自己需要的数据和信息,由于元数据是数据仓库中非常重要的组成部分,因此讨论和研究元数据在数据仓库中的作用和应用,具有非常重要的意义。 元数据管理是山东烟草数据中心建设的重要组成部分,元数据管理平台为用户提供高质量、准确、易于管理的数据,它贯穿数据中心构建、运行和维护的整

个生命周期。同时,在数据中心构建的整个过程中,数据源分析、ETL过程、数据库结构、数据模型、业务应用主题的组织和前端展示等环节,均需要通过相应的元数据的进行支撑。元数据管理的生命周期包括元数据获取和建立、元数据的存储、元数据浏览、元数据分析、元数据维护等部分。 通过元数据管理,形成整个系统信息数据资的准确视图,通过元数据的统一视图,缩短数据清理周期、提高数据质量以便能系统性地管理数据中心项目中来自各业务系统的海量数据,梳理业务元数据之间的关系,建立信息数据标准完善对这些数据的解释、定义,形成企业范围内一致、统一的数据定义,并可以对这些数据来源、运作情况、变迁等进行跟踪分析。完善数据中心的基础设施,通过精确把握经营数据来精确把握瞬息万变的市场竞争形式,使山东烟草在市场竞争中保持优势。 总的来说,元数据管理平台集成相关的元数据,形成企业的全局数据视图,提供企业级共享元数据的平台,是烟草业务系统的基础设施,对业务系统的发展、应用和数据质量的提升有着深远影响。 2.数据仓库概述 目前有关数据仓库的概念有多种,其中最经典的,引用最为广泛的定义是W.H.Inmon在《Building the Data Warehouse》一书中给出的,他指出:“数据仓库是面向主题的、集成的、随时间变化的、非易失的数据集合,用于支持管理层的决策过程”。[1] 之所以要引入数据仓库,是因为随着信息时代的到来,如何从大量已存在的数据中提取出自己所感兴趣的信息并进行分析和预测越来越成为企业管理者和决策者所关心的问题。为了更好的进行管理和决策,许多企业都选择了数据仓库,利用数据仓库可以对各种源数据进行抽取、清理、加工

(整理)数据仓库技术简介

数据仓库技术简介 数据仓库是近年来兴起的一种新的数据库应用。在各大数据库厂商纷纷宣布产品支持数据仓库并提出一整套用以建立和使用数据仓库的产品是,业界掀起了数据库热。比如INFORMIXGONGSIDE公司的数据仓库解决方案;ORACLE公司的数据仓库解决方案;Sybase公司的交互式数据仓库解决方案等等。这同时也引起了学术界的极大兴趣,国际上许多重要的学术会议,如超大型数据库国际会议(VLDB),数据工程国际会议(Data Engineering)等,都出现了专门研究数据仓库(Data Warehousing,简记为DW)、联机分析处理(On-Line Analytical Processing,简记为OLAP)、数据挖掘(Data Mining, 简记为DM)的论文。对我国许多企业而言,在建立或发展自己的信息系统常常困扰于这样的问题:为什么要在原有的数据库上建立数据仓库?数据仓库能否代替传统的数据库?怎样建立数据仓库?等等。本章将简要介绍一下用到的数据仓库技术背景,并在下一章结合数据清理系统设计实例,更深一步阐述数据仓库技术在现实中的重大意义 一.从数据库到数据仓库 传统的数据库技术是以单一的数据资源,即数据库为中心,进行事务处理、批处理、决策分析等各种数据处理工作,主要的划分为两大类:操作型处理和分析型处理(或信息型处理)。操作型处理也叫事务处理,是指对数据库联机的日常操作,通常是对一个或一组纪录的查询和修改,主要为企业的特定应用服务的,注重响应时间,数据的安全性和完整性;分析型处理则用于管理人员的决策分析,经常要访问大量的历史数据。而传统数据库系统优于企业的日常事务处理工作,而难于实现对数据分析处理要求,已经无法满足数据处理多样化的要求。操作型处理和分析型处理的分离成为必然。 近年来,随着数据库技术的应用和发展,人们尝试对DB中的数据进行再加工,形成一个综合的,面向分析的环境,以更好支持决策分析,从而形成了数据仓库技术(Data Warehousing,简称DW)。作为决策支持系统(Decision-making Support System,简称DSS),数据仓库系统包括: 数据仓库技术; 联机分析处理技术(On-Line Analytical Processing,简称OLAP); 数据挖掘技术(Data Mining,简称DM); 数据仓库弥补了原有的数据库的缺点,将原来的以单一数据库为中心的数据环境发展为一种新环境:体系化环境。 1.什么是数据仓库 业界公认的数据仓库概念创始人W.H.Inmon在《建立数据仓库》一书中对数据仓库的定义是:数据仓库就是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程 数据仓库中的数据面向主题,与传统数据库面向应用相对应。主题是一个在较高层次上将数据归类的标准,每一个主题对应一个宏观的分析领域:数据仓库的集成特性是指在数据进入数据仓库之前,必须经过数据加工和集成,这是建立数据仓库的关键步骤,首先要统一原始数据中的矛盾之处,还要将原始数据结构做一个从面向应用向面向主题的转变;数据仓

数据仓库中元数据的管理

数据仓库中元数据的管理M etadata M anagem en t i n a Data W arehouse 同济大学计算机科学与工程系(上海200092) 史金红 吴永明 【摘要】 介绍了数据仓库中四种基本类型的元数据,说明了不同类型元数据的收集和维护方法,并着重对分布式元数据的集成和管理进行了详细的阐述。 关键词:数据仓库,数据商场,决策支持,元数据 【Abstract】 T h is p ap er in troduces fou r typ es of m etadata and the m ethods of co llecting and m ain tain ing them.It focu ses on the m etadata m anagem en t and in tegrity. Key words: da ta warehouse,da ta mart, dec ision support,m etada ta 1 引言 随着社会的发展和计算机技术的进步,人们已不满足于用计算机只作简单的数据处理和事务处理。进一步用现有的数据进行分析和推理,从而为决策提供依据的需求导致了决策支持系统(D SS)的出现。90年代以来计算机技术、网络技术和数据库技术的迅速发展为D SS提供了必要的技术环境, OL T P和办公自动化普遍应用积累的大量数据为D SS提供了必要的数据基础,日趋激烈的市场竞争促进了各级管理和决策人员对D SS的实际需求,因此自从1991年W.H.Inm on提出数据仓库的概念和1993年E.F.Codd提出OLA P概念以来,已有许多商品化的数据仓库管理系统和联机分析处理工具软件面市。以上诸因素的共同作用促成许多公司、机构纷纷为提高自己的竞争能力建立数据仓库系统以进行决策支持。 元数据是成功的数据仓库的重要组成部分,它可以帮助数据仓库项目小组明确而全面地理解潜在数据源的物理布局以及所有数据元的业务定义,帮助数据仓库用户有效地使用仓库中的信息,帮助数据库管理员了解某些表的变化将对数据仓库产生怎样的影响以及不同商业过程对应的应用等等。项目小组在开发过程中应当识别元数据并将它收入到元数据商店中,实施适当的过程捕作企业数据结构和应用的变化,从而修改相应的元数据,并向用户提供适当的工具访问元数据。 2 元数据的基本类型 元数据按照其用户可以分为技术元数据和商业元数据。技术元数据提供给数据仓库的技术人员,数据仓库技术人员在仓库的开发和维护中使用这类元数据。商业元数据是商业用户在仓库中寻找他们所需商业信息的一个辅助。但是,技术人员可能也需要访问几种类型的商业元数据,如和商业用户讨论信息需求和建立企业的数据模型。同样,商业用户也需要尝试高水平的技术元数据。 元数据按其内容可以分为四个基本类型: 1)关于数据仓库潜在数据来源的信息,包括现有的业务系统、可得到的外部数据和目前手工维护的信息。例如,一个组织可以从中识别数据来源的潜在仓库数据源有:几个现有的应用程序,由财务部门保存的基于PC机的电子报表,从某一卖主处购买的销售数据,目前由顾客服务部门在纸上保存的顾客联系记录。 2)关于数据模型的信息,包括业务实体、关系、企业规则和企业数据模型。 3)关于业务数据与仓库数据结构间的映射信息。只要那些来源中的一个数据元与仓库建立了映射关系,就应该记录下这些数据元间的逻辑联系以及发生的任何变换或变动。 4)关于数据仓库中信息的使用情况。了解这类信息对更好地调整仓库性能、更多地利用现有查询以及理解仓库中的信息怎样用于解决企业问题是很重要的。 3 元数据的收集和维护 在适当的时间收集适当的元数据是成功实施元数据驱动的数据仓库的基础。为保证较高的准确

相关文档
最新文档