数据仓库成功案例

数据仓库成功案例３

兴业证券数据仓库系统

编者按：兴业证券选择了Sybase的数据仓库解决方案，以帮助其成功地实现交易数据的集中处理和分析。该系统的应用采用三层式数据仓库结构，使系统具有优越的处理性能、高度可扩展性、开放性、灵活性和可管理性。

用户背景

兴业证券作为一家综合类专业证券公司、中国证券业协会理事单位，在福建省乃至全国的证券界都具有一定的影响力。公司总部设在福州，在上海也设立了区域管理总部，已经初步构建了辐射全国的业务经营机构网络。在中国加入WTO之后，兴业证券也面临着新的挑战和机遇。如何将现有的优势充分发挥并创造新的竞争优势，从而加强其在证券行业的领先地位，是兴业证券面临的重要课题。

从2001年7月开始，Sybase公司与兴业证券合作，共同开发兴业证券数据仓库和决策支持系统，帮助兴业证券总部实现对营业部集中管理和数据集中基础上的决策支持。

系统目标

兴业证券对现有信息系统的要求：

* 对各个营业部交易数据汇总整合信息来源，从而提高决策信息的及时性、准确性、全局性、一致性；

* 建立全面、统一、科学的日常决策分析报表/查询系统；

* 深层次的信息加工，分析客户、市场、风险等主题项目，充分利用兴业证券的丰富数据；

* 系统必须保证系统中每一条信息的安全性，对信息的访问进行安全性控制，这样才能充分保证信息不会泄漏，以维护证券市场的秩序；

* 建立具有高处理能力和高扩展能力的数据仓库平台，以适应管理和处理日益庞大的市场数据的要求。

数据仓库系统将帮助兴业证券充分利用信息资源，为兴业证券提供坚实的信息基础以迎接上述的业务挑战和机遇。

建立数据仓库系统的目标：

* 为各业务部门、兴业证券的领导层提供有效的决策管理信息支持，提高业务效率、

优化资金资源配置，在稳健与开拓并重的基础上获取丰厚利润，保障兴业证券的健康发展和日益壮大；

* 通过及时、有效、高价值的市场分析，为证券经纪和自营业务系统以及公司客户提供高质量的信息，为上市公司和投资者营造良好的融资和投资小环境，以提升兴业证券的品牌和信誉；

* 通过对经纪业务和自营业务的风险(挪用资金风险/信用风险/结算风险等等)的有机分析，配合建立整体风险防范机制，有效地预防和控制风险；

* 随着日后证券行业业务的延伸和深化、衍生金融产品/服务的增加，数据仓库系统将通过相关的分析指标体系对数据进行深层次处理，不断发展新的信息资讯，全面支持并提高兴业证券在证券市场的竞争实力。

系统选型

项目采用分步实施方式，第一阶段将实现：

* 数据仓库系统的中心信息数据库的设计和建立；

* 账户资金、交易情况等数据资料的定期抽取和转换；

* 自动化处理和分发日常决策分析数据/报表，支持动态信息查询；

* 实现重要专题分析，可选的专题包括利润分析、风险控制和客户分析。

数据仓库系统的应用采用三层式数据仓库结构，使系统具有优越的处理性能、高度可扩展性、开放性、灵活性和可管理性。为了满足这些功能要求，在最终的数据系统选型中，兴业证券借鉴了Sybase公司在证券行业的成功经验，选择了Sybase的数据仓库解决方案，以帮助其成功地实现交易数据的集中处理和分析。通过数据仓库系统监控所属营业部的业务运作情况和在总部保存营业部全部数据，并实时采集营业部的业务数据，可以及时发现营业部经营风险，同时在全公司业务数据的基础上通过数据分析，充分实现总部数据统计查询，为公司的决策者提供快速有效的各种报表和分析方式，以提高公司的市场反应速度和竞争力水平。同时，公司财务会计部、经纪业务部的人员可以摆脱日常报表生成的烦琐工作，从而能够从事更为重要的对公司市场数据的分析工作。数据仓库系统的主要用户包括公司的总裁、副总裁、各业务总监，以及公司的财务会计部、风险控制部、经纪业务部、资产管理部和各分支机构。

兴业证券数据仓库系统结构图

系统介绍

功能:根据上述业务需求，兴业证券公司数据仓库系统的内容应包括：托管资产结构分析；托管资产流动分析；资金变动分析；证券变动分析；成交数据分析；佣金收入分析；客户数据分析；客户流动分析；市场份额数据分析；委托数据分析；客户盈利能力分析；客户行为分析；财务数据分析；营业部考评指标分析。

目标：①日常的决策支持查询，包括报表查询和可变参数查询；②专题分析，从多个不同的角度动态分析客户、风险、利润等问题；③数据挖掘，研究行情、个股、客户、利润等数据中蕴含的内在关系。

分析对象包括账户类型、资金证券流水、经纪人、资金账户和营业部等。

特点：在实施的过程中，兴业数据仓库系统主要有以下几项特点：①对信息能够进行分类、存储、管理和查询，并通过数据相关特性和对文字信息的全文检索功能，实现组合查询；②应用在线分析技术实现数据信息的动态分析和动态表格生成，并支持A.时点数据额查询、简报、累加、下挖；B.各分类之间的比较，按不同的方向切割旋转；

C.增减变动的情况，（含比某日、比某月的平均值）、趋势分析；

D.不同方式的图形呈现；③使用数据挖掘，分析数据之间的相互关系；④通过支持C/S和WEB的技术，实现各类信息的显示，便于使用者能够通过客户端、浏览器或者个人电子邮件方便地访问各种信息。

解决方案

在该系统和这些分析功能的背后，是Sybase数据仓库解决方案中的Adaptive Server IQ在发挥强大的支持作用。该产品是Sybase 特意设计的数据仓库存储与管理系统，它突破了传统技术的很多限制，可以为用户提供灵活的查询功能和快速的响应能力，从而支持多用户环境下的交互式分析。

在兴业证券数据仓库系统实施的过程中，Adaptive Server IQ 所体现的特性包括下列优势：

* 垂直的数据存储减少磁盘I/O高达98%，消除表扫描并提供高达100倍以上的查询响应；

* 优秀的压缩技术使数据只占到传统数据库规模的20%；

* 即席查询优化器自动地选择最快的访问方式来解决问题并消除持续的DBA基于查询的调试；

* 高取值度的Bit-Wise索引技术能够对关系型数据做快速动态的聚集计算以及按范围搜索；

* 低取值度的位图技术允许对记录做快速统计和过滤；

* 非竞争并行化技术允许快速响应多个用户的查询；

* 并行的备份和加载技术提供对大数据容量的支持并在备份期间给予并发用户对

数据库的读访问；

* 标准的开放接口支持广泛的流行查询工具。

在中心机房用一台IBM 的RS/6000作为数据仓库存储ASIQ的运行主机，同时用另一台IBM的小型机作为系统的备机，当主机发生故障时自动接管业务。在中心还需要配置一台PC SERVER，用于FTP SERVER和作为数据抽取采集机，放置从各营业部抽取上来的数据，并运行数据抽取/转换/装载的程序，把这些数据做必要的清洗、转换、过滤和汇总，再装载入RS/6000上运行的ASIQ。

在中心内部网上还需要有一些PC。一台做数据仓库管理和维护；一台做数据仓库前端决策分析。

商业收益

通过应用Sybase IQ实施兴业证券的数据仓库系统，大致收到以下几个方面的效果：

第一，提供及时准确的报表和图形分析，帮助公司领导层加深对交易业务、市场变化和客户行为更深层次的认识，辅助决策分析；

第二，为公司经营提供风险控制服务，把原来营业部的黑箱运作变得明朗化，从而发现风险、化解风险；

第三，降低财务部、经纪部门业务人员报表制作的工作量，提供真实准确的数据平台，使他们从繁重的制表业务中解脱出来，能够进行更深层次的服务；

第四，服务于公司的客户经纪人制度，提升为客户提供的服务质量和丰富为客户服务的内容，真正地实现对客户个性化服务，同时对经纪人和营业部的营业指标和业绩有准确客观的考评。

未来计划

兴业证券数据仓库建设的第二阶段将逐步实现深层次的数据仓库系统的数据挖掘和决策分析，充分利用数据仓库的丰富数据资源，适应不同层次的客户需求。例如：

* 挖掘交易数据中隐含的规律，为客户提供有效的推荐信息；

* 分析市场动向，提供给管理层作为决策辅助信息；

* 建立客户信息库，分析客户投资倾向和客户群类；

* 为兴业证券的网站兴网（https://www.360docs.net/doc/745799450.html,）和呼叫中心提供客户数据，提升公司提供给股民的个性化服务的质量。

用户点评

数据仓库系统由于数据容量大，可以存放5年内的客户委托成交数据和1－2年内的客户资金和证券信息的托管数据，适合于对营业部交易量统计做趋势分析和客户托管资产在一段时间的盈亏分析。

数据仓库投入使用前，交易系统必须承担一定的数据查询和分析任务，占用了宝贵的交易系统的资源。数据仓库系统上马后，相当一大部分的统计分析工作可以由数据仓库系统来完成，OLTP系统和OLAP系统各司其职、互为补充。

公司领导可以通过数据仓库系统的报表了解公司自营和资产管理业务的每只股票的持仓量、在每只股票上的盈亏、每天的证券买卖盈亏情况，以提高决策响应的速度和有效性。

（本资料素材和资料部分来自网络，仅供参考。请预览后才下载，期待您的好评与关注！）

数据仓库实例

计算机
王莹

本例采用的是SQl Server2005所提供的商业智能服务和工具，主要包括Analysis Services(分析服务)， Integration Services(集成服务),Reporting Services(集成服务)和Bussiness Intelligence Developer Studio(BIDS)。

分析服务(Analysis Services) SQL Server 分析服务（SSAS）是一个用于分析数据仓库中数据的工具，它包括了OLAP和数据挖掘工具。在SQL Server 2005数据库系统中，Analysis Services工具以服务器的方式为用户提供管理多维数据立方体的服务。Analysis Services可以把数据仓库中的数据组织起来，经过预先的聚集运算，加入到多维立方体中（即建立立方体），然后对复杂的分析型访问做出迅速的回答。

集成服务(Integration Services) SQL Server 集成服务（SSIS）被定位成一个能生成高性能数据集成解决方案(包括数据仓库中数据的提取、转换和加载（ETL））的平台。其集成的含义主要就是指把ETL集成在一起。SSIS通过一个统一的环境向用户提供了数据转换服务（DTS）所能提供的所有功能，并且大大减少了用户花在编写程序和脚本上的精力和时间。 SSIS的基本功能包括：
? ? ? ? ? ? 合并来自异类数据源中的数据填充数据仓库和数据集市整理数据和将数据标准化精确和模糊的查找功能将商业智能置入数据转换过程使管理功能和数据加载自动化

数据库与数据仓库的区别是什么

数据库与数据仓库的区别是什么简而言之，数据库是面向事务的设计，数据仓库是面向主题设计的。数据库一般存储在线交易数据，数据仓库存储的一般是历史数据。数据库设计是尽量避免冗余，一般采用符合范式的规则来设计，数据仓库在设计是有意引入冗余，采用反范式的方式来设计。数据库是为捕获数据而设计，数据仓库是为分析数据而设计，它的两个基本的元素是维表和事实表。维是看问题的角度，比如时间，部门，维表放的就是这些东西的定义，事实表里放着要查询的数据，同时有维的ID。单从概念上讲，有些晦涩。任何技术都是为应用服务的，结合应用可以很容易地理解。以银行业务为例。数据库是事务系统的数据平台，客户在银行做的每笔交易都会写入数据库，被记录下来，这里，可以简单地理解为用数据库记帐。数据仓库是分析系统的数据平台，它从事务系统获取数据，并做汇总、加工，为决策者提供决策的依据。比如，某银行某分行一个月发生多少交易，该分行当前存款余额是多少。如果存款又多，消费交易又多，那么该地区就有必要设立ATM了。显然，银行的交易量是巨大的，通常以百万甚至千万次来计算。事务系统是实时的，这就要求时效性，客户存一笔钱需要几十秒是无法忍受的，这就要求数据库只能存储很短一段时间的数据。而分析系统是事后的，它要提供关注时间段内所有的有效数据。这些数据是海量的，汇总计算起来也要慢一些，但是，只要能够提供有效的分析数据就达到目的了。数据仓库，是在数据库已经大量存在的情况下，为了进一步挖掘数据资源、为了决策需要而产生的，它决不是所谓的“大型数据库”。那么，数据仓库与传统数据库比较，有哪些不同呢?让我们先看看W.H.Inmon关于数据仓库的定义:面向主题的、集成的、与时间相关且不可修改的数据集合。 “面向主题的”:传统数据库主要是为应用程序进行数据处理，未必按照同一主题存储数据;数据仓库侧重于数据分析工作，是按照主题存储的。这一点，类似于传统农贸市场与超市的区别—市场里面，白菜、萝卜、香菜会在一个摊位上，如果它们是一个小贩卖的;而超市里，白菜、萝卜、香菜则各自一块。也就是说，市场里的菜(数据)是按照小贩(应用程序)归堆(存储)的，超市里面则是按照菜的类型(同主题)归堆的。 “与时间相关”:数据库保存信息的时候，并不强调一定有时间信息。数据仓库则不同，出于决策的需要，数据仓库中的数据都要标明时间属性。决策中，时间属性很重要。同样都是累计购买过九车产品的顾客，一位是最近三个月购买九车，一位是最近一年从未买过，这对于决策者意义是不同的。 “不可修改”:数据仓库中的数据并不是最新的，而是来源于其它数据源。数据仓库反映的是历史信息，并不是很多数据库处理的那种日常事务数据(有的数据库例如电信计费数据库

数据仓库模型的设计

2.5数据仓库模型的设计数据仓库模型的设计大体上可以分为以下三个层面的设计151: .概念模型设计; .逻辑模型设计; .物理模型设计; 下面就从这三个层面分别介绍数据仓库模型的设计。 2.5.1概念模型设计进行概念模型设计所要完成的工作是: <1>界定系统边界 <2>确定主要的主题域及其内容概念模型设计的成果是，在原有的数据库的基础上建立了一个较为稳固的概念模型。因为数据仓库是对原有数据库系统中的数据进行集成和重组而形成的数据集合，所以数据仓库的概念模型设计，首先要对原有数据库系统加以分析理解，看在原有的数据库系统中“有什么”、“怎样组织的”和“如何分布的”等，然后再来考虑应当如何建立数据仓库系统的概念模型。一方面，通过原有的数据库的设计文档以及在数据字典中的数据库关系模式，可以对企业现有的数据库中的内容有一个完整而清晰的认识;另一方面，数据仓库的概念模型是面向企业全局建立的，它为集成来自各个面向应用的数据库的数据提供了统一的概念视图。概念模型的设计是在较高的抽象层次上的设计，因此建立概念模型时不用考虑具体技术条件的限制。 1.界定系统的边界数据仓库是面向决策分析的数据库，我们无法在数据仓库设计的最初就得到详细而明确的需求，但是一些基本的方向性的需求还是摆在了设计人员的面前: . 要做的决策类型有哪些? . 决策者感兴趣的是什么问题? . 这些问题需要什么样的信息? . 要得到这些信息需要包含原有数据库系统的哪些部分的数据? 这样，我们可以划定一个当前的大致的系统边界，集中精力进行最需要的部分的开发。因而，从某种意义上讲，界定系统边界的工作也可以看作是数据仓库系统设计的需求分析，因为它将决策者的数据分析的需求用系统边界的定义形式反映出来。 2，确定主要的主题域在这一步中，要确定系统所包含的主题域，然后对每个主题域的内

数据仓库的数据质量

（一）数据质量的衡量标准、好处和问题数据质量的好坏是决定一个数据仓库成功的关键，但是需要从那些方面衡量数据仓库中数据的质量呢?可以从下列方面衡量系统中的数据质量：准确性：存储在系统中的关于一个数据元素的值是这个数据元素的正确值；域完整性：一个属性的数值在合理且预定义的范围之内；数据类型：一个数据属性的值通常是根据这个属性所定义的数据类型来存储的；一致性：一个数据字段的形式和内容在多个源系统之间是相同的。冗余性：相同的数据在一个系统中不能存储在超过一个地方；完整性：系统中的属性不应该有缺失的值；重复性：完全解决一个系统中记录的重复性的问题；结构明确：在数据项的结构可以分成不同部分的任何地方，这个数据项都必须包含定义好的结构；数据异常：一个字段必须根据预先定义的目的来使用；清晰：一个数据元素必须有正确的定义，也就是需要一个正确的命名；时效性：用户决定了数据的时效性；有用性：数据仓库中的每一个数据元素必须满足用户的一些需求；符合数据完整性的规则：源系统中的关系数据库中存储的数据必须符合实体完整性及参考完整性规则。既然数据质量是成功的关键，那么，提高数据质量有那些好处：对实时信息的分析：高质量的数据提供及时的信息，是为用户创造的一个重要益处；

更好的客户服务：完整而准确的信息能够大大提高客户服务的质量；更多的机会：数据仓库中的高质量数据是一个巨大的市场机会，它给产品和部门之间的交叉销售打开了机会的大门；减少成本和风险：如果数据质量不好，明显的风险就是战略决策可能会导致灾难性的后果。提高生产率：用户可以从真个企业的角度来看待数据仓库的信息，而全面的信息促使流程和真个操作更顺畅，从而提高生长率；可靠的战略决策制定：如果数据仓库的数据是可靠而高质量的，那么基于这些信息进行的决策就是好的决策。在数据处理过程中，会有那些数据质量问题：字段中的虚假值数据值缺失对字段的非正规使用晦涩的值互相冲突的值违反商业规则主键重用标志不唯一不一致的值不正确的值一个字段多种用途

数据仓库数据库设计的心得总结

数据仓库数据库设计的心得总结数据仓库是企业商业智能分析环境的核心，它是建立决策支持系统的基础。一个良好的数据仓库设计应该是构建商业智能和数据挖掘系统不懈的追求。下面把数据仓库数据库设计的心得做一小结。一透彻理解数据仓库设计过程商业智能和数据挖掘归根到底是“从实践中来，到实践中去”。也就是说现实需求决定系统需求，业务数据决定系统构架，最终使用的时候又必须作用于现实需求，同时通过决策的行为影响业务。那么可以把数据仓库的设计看做是前一部分，即“从实践中来”，数据仓库的应用可以看做是“到实践中去”。把“从实践中来”这个过程进行抽象，数据仓库的设计就是“客观世界→主观世界→关系世界”的过程。在前面几节完成了6个任务：选择被建模主题的商业过程、确定事实表的粒度、区分每一个事实表的维和层、区分事实表的度量、确定每一个维表的属性、在D BMS中创建和管理数据仓库。实际上这些任务都可以归结到从客观世界到关系世界的过程。那么把这个过程再进行归纳，可以得到如图3-61所示的综合了模型、方法和过程的示意图。图3-61 数据仓库设计过程的模型和方法示意图二把握设计的关键环节

如果将时间、精力、金钱和人事优先花在前面的20%，那么这20%会创造出80% 的价值。这就是有名的2/8原则。下面将介绍在数据仓库设计中，哪些因素是属于这20%的范围。 1．需求需求分析在任何如见项目中都是最为重要的因素之一。企业模型是从企业的各个视点对企业数据需求及数据间关系的抽象。通过将企业模型映射到数据库系统，可以很快地了解现有数据库系统完成了企业模型中的哪些部分，还缺少哪些部分。然后再将企业模型映射到数据仓库系统，发现企业需要的（或可以构造的）主题。通过这样的过程完成对企业数据需求和现有数据的了解，达到明了原有系统和需要建设的主题域间共性的目的。 2．关键性能指标（KPI）一般而言，一个决策支持系统最重要的就是要呈现决策数据。而KPI就是决策过程中要显示的数据结果的部分，如销售数量、销售金额、毛利和运费等数值部分的数据。这些KPI是通过与相关的维表进行连接而映射出来的。在分析星形模式时，往往要首先确定KPI。 3．信息对象信息对象是指在每个分析过程中那些会影响到决策的因素。以销售分析为例，时间、产品、员工与客户就是影响决策的大因子，而每个因子又可以分离出多个分层结构，如时间可分为年、季度、月、周和日等，员工可分为年龄层、年龄、年薪层、年薪和员工所在城市等，也就是影响决策的详细因子。这些都是信息对象。从这里我们可以看出，每个大因子如时间、产品、员工与客户等就可以构成如时间维表、产品维表、员工维表与客户维表等。而时间维表又可分为年、季度和日等字段。在分析和设计这些信息对象组成的维度时，需要注意维的唯一性和公用性，千万不要在不同的主题中定义多个表示同一内容的维，如果有可能，一个维表要尽量被多个主题共享。 4．数据粒度在数据仓库的每个主题中，都必须考虑事实数据的粒度。粒度的具体划分将直接影响到数据仓库中的数据量及查询质量。在数据仓库开始进行分析时。就需要建立合适的数据粒度模型，指导数据仓库设计和其他问题的解决。如果数据粒度定义不当，将会影响数据仓库的使用效果，使数据仓库达不到设计数据仓库的目的。 5．数据之间的联系在数据仓库中，不同主题的数据之间的物理约束或许不再存在，但无论这些数据如何变化，要知道必须有一些“键”在逻辑上保持着不同数据之间的联系，这样

数据仓库基本架构

数据仓库的基本架构 xiaoyi发表于 2013-07-31 23:57 来源：网站数据分析数据仓库的目的是构建面向分析的集成化数据环境，为企业提供决策支持（Decision Support）。其实数据仓库本身并不“生产”任何数据，同时自身也不需要“消费”任何的数据，数据来源于外部，并且开放给外部应用，这也是为什么叫“仓库”，而不叫“工厂”的原因。因此数据仓库的基本架构主要包含的是数据流入流出的过程，可以分为三层——源数据、数据仓库、数据应用：从图中可以看出数据仓库的数据来源于不同的源数据，并提供多样的数据应用，数据自上而下流入数据仓库后向上层开放应用，而数据仓库只是中间集成化数据管理的一个平台。数据仓库从各数据源获取数据及在数据仓库内的数据转换和流动都可以认为是ETL（抽取Extra, 转化Transfer, 装载Load）的过程，ETL是数据仓库的流水线，也可以认为是数据仓库的血液，它维系着数据仓库中数据的新陈代谢，而数据仓库日常的管理和维护工作的大部分精力就是保持ETL的正常和稳定。下面主要简单介绍下数据仓库架构中的各个模块，当然这里所介绍的数据仓库主要是指网站数据仓库。数据仓库的数据来源

其实之前的一篇文章已经介绍过数据仓库各种源数据的类型——数据仓库的源数据类型，所以这里不再详细介绍。对于网站数据仓库而言，点击流日志是一块主要的数据来源，它是网站分析的基础数据；当然网站的数据库数据也并不可少，其记录这网站运营的数据及各种用户操作的结果，对于分析网站Outcome这类数据更加精准；其他是网站内外部可能产生的文档及其它各类对于公司决策有用的数据。数据仓库的数据存储源数据通过ETL的日常任务调度导出，并经过转换后以特性的形式存入数据仓库。其实这个过程一直有很大的争议，就是到底数据仓库需不需要储存细节数据，一方的观点是数据仓库面向分析，所以只要存储特定需求的多维分析模型；另一方的观点是数据仓库先要建立和维护细节数据，再根据需求聚合和处理细节数据生成特定的分析模型。我比较偏向后面一个观点：数据仓库并不需要储存所有的原始数据，但数据仓库需要储存细节数据，并且导入的数据必须经过整理和转换使其面向主题。简单地解释下： (1).为什么不需要所有原始数据？数据仓库面向分析处理，但是某些源数据对于分析而言没有价值或者其可能产生的价值远低于储存这些数据所需要的数据仓库的实现和性能上的成本。比如我们知道用户的省份、城市足够，至于用户究竟住哪里可能只是物流商关心的事，或者用户在博客的评论内容可能只是文本挖掘会有需要，但将这些冗长的评论文本存在数据仓库就得不偿失；

数据仓库项目常见管理问题

1.项目管理问题 1．企业经历过两次失败的数据仓库建设，现在是第三次，人们普遍认为这次也将会失败。项目经理应该作些什么来消除人们对数据仓库的消极看法？ 2．企业的业务系统方，即OLTP方的工作人员对数据仓库方不配合，比如对数据仓库的源数据申请置之不理。项目经理应该如何来应付这种情况？ 3．企业的管理层变动较频繁，支持数据仓库的企业领导可能会离开，面对这种情况，项目经理应该如何应付？ 4．企业雇佣一家咨询公司来实现一个数据仓库，但是企业的CIO认为数据仓库的建设是对其职位和权威的挑战，不断给咨询人员和项目设置障碍。咨询人员应该如何来应付这种情况？ 5．企业管理层希望试验系统（原型系统）具有和生产系统相同级别的数据质量。项目经理应该如何做，才能让管理层相信，试验系统不必和生产系统具有相同级别的数据质量？ 6．用户部门领导对共享数据不配合或者只在表面上配合。他们希望能够控制谁能查看什么数据以及什么时候可以查看。数据仓库团队怎样才能让部门领导把数据的访问权共享出来？ 7．建立好的数据几乎满足所有的成功标准。但是企业的高级管理层对数据仓库的反应很冷淡。数据仓库团队应该如何应付这种情况？ 2.项目需求问题 1．数据仓库项目已经开发了6个月的时间，在项目的开发过程中，数据仓库团队发现业务源系统正在被重写，业务系统在不断的变化，一个新的系统开发出来预计只有8个月的寿命。数据仓库团队应该如何应付这种情况？ 2．源系统和数据仓库系统同期建设。但是源系统在不断的变化中，而且源系统的开发团队没有将变化告知数据仓库团队，数据仓库团队在测试过程中出现故障才发现这些变化。这种没有告知有可能是故意的。数据仓库团队应该如何来应付这种情况？ 3．数据仓库项目开始时，企业制定了一套有效的数据仓库目标。但是，随着时间的流逝，企业又制定了一些决策，采取了一些行动，这些决策和行动与最初的目标背道而驰。数据仓库团队应该如何应付这种情况? 4．数据仓库项目进展十分顺利，但是根本没有办法判断项目将来是否能够成功。要想为数据仓库确立一个完全合适的目标是不可能的。企业应该如何来面对这种状况？

《数据仓库数据平台与数据中台对比》

数据仓库数据平台与数据中台对比在大数据时代，凡是AI类项目的落地，都需要具备数据、算法、场景、计算力四个基本元素，缺一不可。处理大数据已经不能仅仅依靠计算力就能够解决问题，计算力只是核心的基础，还需要结合不同的业务场景与算法相互结合，沉淀出一个完整的智能化平台。数据中台就是以云计算为数据智能提供的基础计算力为前提，与大数据平台提供的数据资产能力与技术能力相互结合，形成数据处理的能力框架赋能业务，为企业做到数字化、智能化运营。目前，外界与业内很多人对于数据中台的理解存在误区，一直只是在强调技术的作用，强调技术对于业务的推动作用，但在商业领域落地的层面上，更多时候技术的发展和演进都是需要跟着业务走，技术的发展和进步需要基于业务方的需求与数据场景应用化的探索来反向推动。这个也就是为什么最近知乎、脉脉都在疯传阿里在拆“大中台”？个人猜想，原因是没有真正理解中台的本质，其实阿里在最初建设数据中台的目的主要是为了提升效率和解决业务匹配度问题，最终达到降本增效，所以说“拆”是假的，在“拆”的同时一定在“合”，“拆”的一个方面是企业战略布局层面上的规划，架构升级，如果眼界不够高，格局不够大，看到的一定只是表面；另一方面不是由于组织架构庞大而做“拆”的动作，而是只有这样才能在效率和业务匹配度上，做到最大利益化的解耦。

数据中台出现的意义在于降本增效，是用来赋能企业沉淀业务能力，提升业务效率，最终完成数字化转型。前一篇数据中台建设的价值和意义，提到过企业需要根据自身的实际情况，打造属于自己企业独有的中台能力。因为，数据中台本身绝对是不可复制的，从BCG矩阵的维度结合各家市场资源、市场环境、市场地位以及业务方向来看，几乎所有企业的战略目标都是不一样的。如果，有人说能把中台卖给你、对于中台的解读只讲技术，不讲业务，只讲产品，不讲业务，不以结合企业业务目标来解决效率和匹配度为目的的都有耍流氓嫌疑。数据中台的使命和愿景是让数据成为如水和电一般的资源，随需获取，敏捷自助，与业务更多连接，使用更低成本，通过更高效率的方式让数据极大发挥价值，推动业务创新与变革。为了进一步统一大家的认知，更加清晰的认识数据中台出现的意义，本篇按顺序介绍如下: ? ? ? ? 数据中台演进的过程数据仓库、数据平台和数据中台的概念数据仓库、数据平台和数据中台的架构数据仓库、数据平台和数据中台的区别与联系

浅析数据库(DB)、操作数据存储(ODS)和数据仓库(DW)的区别与联系

浅析数据库(DB)、操作数据存储(ODS)和数据仓库(D W)的区别与联系文章背景：相信大部分刚接触上面三个概念的同学，都多多少少会有些迷惑，现在我就给大家简单分析下这三者的关系，希望大家对这三者的概念理解有所帮助吧。本文主要从下面两类关系来叙述上面三者的关系： 1. 数据库（DB）和数据仓库（DW）的区别与联系 2. 操作数据存储（ODS）和数据仓库（DW）的区别与联系数据库与数据仓库的区别与联系数据库与数据仓库基础概念：数据库：传统的关系型数据库的主要应用，主要是基本的、日常的事务处理，例如银行交易。数据仓库：数据仓库系统的主要应用主要是OLAP（On-Line Analytical Proces sing），支持复杂的分析操作，侧重决策支持，并且提供直观易懂的查询结果。 OLTP和OLAP概念补充：数据处理大致可以分成两大类：联机事务处理OLTP（on-line transaction proc essing）、联机分析处理OLAP（On-Line Analytical Processing）。 OLTP是传统的关系型数据库的主要应用，主要是基本的、日常的事务处理，例如银行交易。 OLAP是数据仓库系统的主要应用，支持复杂的分析操作，侧重决策支持，并且提供直观易懂的查询结果。

OLTP 系统强调数据库内存效率，强调内存各种指标的命令率，强调绑定变量，强调并发操作； OLAP 系统则强调数据分析，强调SQL执行市场，强调磁盘I/O，强调分区等。举一个具体的例子：（转自知乎作者：陈诚），个人觉得例子描述的很清晰举个最常见的例子，拿电商行业来说好了。基本每家电商公司都会经历，从只需要业务数据库到要数据仓库的阶段。第一阶段，电商早期启动非常容易，入行门槛低。找个外包团队，做了一个可以下单的网页前端+ 几台服务器+ 一个MySQL，就能开门迎客了。这好比手工作坊时期。第二阶段，流量来了，客户和订单都多起来了，普通查询已经有压力了，这个时候就需要升级架构变成多台服务器和多个业务数据库（量大+分库分表），这个阶段的业务数字和指标还可以勉强从业务数据库里查询。初步进入工业化。第三阶段，一般需要3-5 年左右的时间，随着业务指数级的增长，数据量的会陡增，公司角色也开始多了起来，开始有了CEO、CMO、CIO，大家需要面临的问题越来越复杂，越来越深入。高管们关心的问题，从最初非常粗放的：“昨天的收入是多少”、“上个月的PV、UV 是多少”，逐渐演化到非常精细化和具体的用户的集群分析，特定用户在某种使用场景中，例如“20~30岁女性用户在过去五年的第一季度化妆品类商品的购买行为与公司进行的促销活动方案之间的关系”。这类非常具体，且能够对公司决策起到关键性作用的问题，基本很难从业务数据库从调取出来。原因在于： 1. 业务数据库中的数据结构是为了完成交易而设计的，不是为了而查询和分析的便利设计的。 2. 业务数据库大多是读写优化的，即又要读（查看商品信息），也要写（产生订单，完成支付）。因此对于大量数据的读（查询指标，一般是复杂的只读类型查询）是支持不足的。

浅谈数据仓库中的元数据管理技术

浅谈数据仓库中的元数据管理技术孙力君仇道霞方峻峰宋楠山东省烟草公司信息中心摘要：数据仓库是数据库的发展方向之一，对企业管理和决策支持起着重要的辅助作用。简要介绍了数据仓库和元数据的基本概念，重点阐述了元数据的概念、作用、CWM标准、来源，并就元数据具体应用进行了初步的研究和探讨。关键词：数据仓库；元数据； 1. 引言随着市场竞争的越来越激烈，烟草行业的信息化建设不断的深入发展，全行业形成了“以信息化带动烟草行业现代化建设”的基本共识，明确了“统一标准、统一平台、统一数据库、统一网络”，逐步实现系统集成、资源整合、信息共享的信息化建设总体要求，走过了“由基础性向应用性、由局部性向全局性、由分散性向集中性建设”的三个转变历程，初步形成了“数字烟草”的行业信息化建设格局，既对行业数据中心的建设提出了迫切的要求，也为行业数据中心建设奠定了坚实的基础。随着数据库技术尤其是数据仓库技术的发展，人类能更容易获得自己需要的数据和信息，由于元数据是数据仓库中非常重要的组成部分，因此讨论和研究元数据在数据仓库中的作用和应用，具有非常重要的意义。元数据管理是山东烟草数据中心建设的重要组成部分，元数据管理平台为用户提供高质量、准确、易于管理的数据，它贯穿数据中心构建、运行和维护的整

个生命周期。同时，在数据中心构建的整个过程中，数据源分析、ETL过程、数据库结构、数据模型、业务应用主题的组织和前端展示等环节，均需要通过相应的元数据的进行支撑。元数据管理的生命周期包括元数据获取和建立、元数据的存储、元数据浏览、元数据分析、元数据维护等部分。通过元数据管理，形成整个系统信息数据资的准确视图，通过元数据的统一视图，缩短数据清理周期、提高数据质量以便能系统性地管理数据中心项目中来自各业务系统的海量数据，梳理业务元数据之间的关系，建立信息数据标准完善对这些数据的解释、定义，形成企业范围内一致、统一的数据定义，并可以对这些数据来源、运作情况、变迁等进行跟踪分析。完善数据中心的基础设施，通过精确把握经营数据来精确把握瞬息万变的市场竞争形式，使山东烟草在市场竞争中保持优势。总的来说，元数据管理平台集成相关的元数据，形成企业的全局数据视图，提供企业级共享元数据的平台，是烟草业务系统的基础设施，对业务系统的发展、应用和数据质量的提升有着深远影响。 2.数据仓库概述目前有关数据仓库的概念有多种，其中最经典的，引用最为广泛的定义是W.H.Inmon在《Building the Data Warehouse》一书中给出的，他指出：“数据仓库是面向主题的、集成的、随时间变化的、非易失的数据集合，用于支持管理层的决策过程”。[1] 之所以要引入数据仓库，是因为随着信息时代的到来，如何从大量已存在的数据中提取出自己所感兴趣的信息并进行分析和预测越来越成为企业管理者和决策者所关心的问题。为了更好的进行管理和决策，许多企业都选择了数据仓库，利用数据仓库可以对各种源数据进行抽取、清理、加工

数据仓库系统建设方案详细

河北省工商银行数据仓库系统建设方案建议书

北京世纪明日网络科技有限公司二零零零年三月河北省工商银行数据仓库系统建设方案目录第一章前言 1.1数据仓库发展史 1.2竞争日趋激烈的金融市场 1.3中国专业银行面临的挑战 1.4中国专业银行实施数据仓库的意义 1.5中国专业银行实施数据仓库已具备的条件第二章数据仓库总体概述 2.1 数据仓库基础 2.2 数据仓库技术概述 2.3 一个可扩展数据仓库的基本框架

2.4 一个数据仓库实施流程第三章系统体系结构设计 3.1系统设计指导思想 3.2 方案总体框架图 3.3 系统体系结构设计 3.4 系统方案的组成第四章银行数据仓库的建设 4.1 面向应用的OLTP系统和面向主题的OLAP系统 4.2 个性化服务的定义 4.3 业务探索/业务发掘 4.4 建立市场客户信息基础 4.5 利用数据仓库实现的基本模块 4.6 更高层次的开发应用 4.7 综合信息发布第五章方案实施建议 5.1 开发模式 5.2 组织机构 5.3 项目实施进程

5.4 项目进度计划第六章产品报价 6.1 软件产品报价 6.2 硬件产品报价 6.3 项目开发实施费用第一章前言 1.1 数据仓库发展史相对于许多行业而言，信息处理技术还是一门新兴的技术，但是其发展速度却几乎是最快的。随着计算机硬件技术的飞速发展，软件技术也是日新月异。许多企业和机构已经建立了相对完善的OLTP（联机事物处理）系统。随着时间的推移，这些系统中积累了大量的历史数据，其中蕴含了许多重要的信息。通过对这些历史数据的分析和综合处理，可以找到那些对企业发展至关重要的业务信息，从而帮助有关主管和业务部门作出更加合理的决策。70年代中期出现的MIS（管理信息系统）实际上就是在这种背景下产生的。但MIS具有极大的局限性。首先，它是按预先定义好的流程对数

全面认识数据仓库

全面认识数据仓库 1.前言随着我行信息科技工作进入后蓝图时代，后线分析系统注1建设的需求会越来越高，将在快速响应、高效实施、灵活应变、信息统一、全局分析、深度挖掘、监管有力、报送及时、降低成本等方面提出更多新的挑战。面对蓝图成功投产后新的产品体系，如何统一规划全辖数据资源、整合后线产品架构、准备各项技术预研可能是将来信息科技工作的一个重心。数据仓库（DW）是各行业后线系统发展的一个重要方向，它在克服部门级应用的局限（数据分隔注2、重复存储、重复中间加工过程注3、维护工作繁琐、资源重复投入等）、满足全辖基础数据共享、提供全局分析视角和应用组件、支持快捷灵活和低成本的开发部署等方面有着不可替代的功能和地位。数据仓库本身有着不同视角的概念解释，大可涵盖整个企业级应用架构，小可专注于单纯的数据建模与存储；数据仓库涉及重多相关技术，如ETL、数据模型设计、多维分析、数据挖掘等；数据仓库建设可能是一个复杂高难的全局性项目，正确的实施路径、策略、方法与有效的质量管理是项目成败的关键；另外，数据仓库系统实施后的管理与维护，也是保证各类后线应用系统长期顺利运行的重要因素。针对这些数据仓库相关的概念、技术、策略、方法等，可能并不是每个人都有比较全面的了解。因此有必要对这些做一个系统的介绍，使大家对数据仓库有一个全面清晰的认识。

2.数据仓库入门介绍 ?应用需求背景随着联机事务处理（OLTP）业务系统的深入应用，企业各类业务数据不断积累和丰富，越来越需要从大量数据中提取有价值的信息，以辅助决策和指导经营。管理信息系统（MIS）和早期的决策支持系统注4（DSS）主要是基于传统的数据库技术和事务处理环境，这种系统结构随着业务系统建设规模的扩大、数据量的巨增和数据复杂度的提高，已无法满足综合分析型应用的需求，造成数据丰富而信息贫乏的困境。首先，人们逐渐认识到，分析处理和事务处理具有极不相同的性质，事务处理通常是对数据库进行联机的查询和修改操作，每笔交易的响应时间和数据的安全完整是关键；而分析型处理往往是对大规模历史数据的批量加工计算，数据的规范统一和整体时间窗口是重要关注点。因此直接采用传统数据库技术和使用事务处理环境来支持分析型系统是不合适和失败的。两类系统的特点比较见表-1：表-1 另一方面，企业的各类应用系统是在不同时期通常由各部门或分支机构面向

数据仓库和数据库

数据仓库和数据库有什么区别？通常情况下基于业务数据库数据分析人员也能完成数据分析需求，但是为什么要建数据仓库？没有数据仓库时，我们需要直接从业务数据库中取数据来做分析。业务数据库主要是为业务操作服务的，虽然可以用于分析，但需要很多额度的调整。一，业务数据库中存在的问题基于业务数据库来做分析，主要有以下几个问题：结构复杂，数据脏乱，难以理解，历史缺失，数据量大时查询缓慢。结构复杂业务数据库通常是根据业务操作的需要进行设计的，遵循3NF范式，尽可能减少数据冗余。这就造成表与表之间关系错综复杂。在分析业务状况时，储存业务数据的表，与储存想要分析的角度表，很可能不会直接关联，而是需要通过多层关联来达到，这为分析增加了很大的复杂度。数据脏乱因为业务数据库会接受大量用户的输入，如果业务系统没有做好足够的数据校验，就会产生一些错误数据，比如不合法的身份证号，或者不应存在的Null值，空字符串等。理解困难业务数据库中存在大量语义不明的操作代码，比如各种状态的代码，地理位置的代码等等，在不同业务中的同一名词可能还有不同的叫法。这些情况都是为了方便业务操作和开发而出现的，但却给我们分析数据造成了很大负担。各种操作代码必须要查阅文档，如果操作代码较多，还需要了解储存它的表。同义异名的数据更是需要翻阅多份文档。缺少历史出于节约空间的考虑，业务数据库通常不会记录状态流变历史，这就使得某些基于流变历史的分析无法进行。比如想要分析从用户申请到最终放款整个过程中，各个环节的速度和转化率，没有流变历史就很难完成。大规模查询缓慢当业务数据量较大时，查询就会变得缓慢。二，数据仓库解决方案上面的问题，都可以通过一个建设良好的数据仓库来解决。业务数据库是面向操作的，主要服务于业务产品和开发。而数据仓库则是面向分析的，主要服务于我们分析人员。评价数据仓库做的好不好，就看我们分析师用得爽不爽。因此，数据仓库从产品设计开始，就一直是站在分析师的立场上考虑的，致力于解决使用业务数据进行分析带来的种种弊端。数据仓库解决的问题结构清晰，简单数据仓库不需要遵循数据库设计范式，因此在数据模型的设计上有很大自由。数据模型一般采用星型模型，表分为事实表和维度表两类。其中事实表位于星星的中心，存储能描述业务状况的各种度量数据。

数据仓库中元数据的管理

数据仓库中元数据的管理M etadata M anagem en t i n a Data W arehouse 同济大学计算机科学与工程系(上海200092) 史金红　吴永明【摘要】　介绍了数据仓库中四种基本类型的元数据,说明了不同类型元数据的收集和维护方法,并着重对分布式元数据的集成和管理进行了详细的阐述。关键词:数据仓库,数据商场,决策支持,元数据【Abstract】　T h is p ap er in troduces fou r typ es of m etadata and the m ethods of co llecting and m ain tain ing them.It focu ses on the m etadata m anagem en t and in tegrity. Key words:　da ta warehouse,da ta mart, dec ision support,m etada ta 1　引言随着社会的发展和计算机技术的进步,人们已不满足于用计算机只作简单的数据处理和事务处理。进一步用现有的数据进行分析和推理,从而为决策提供依据的需求导致了决策支持系统(D SS)的出现。90年代以来计算机技术、网络技术和数据库技术的迅速发展为D SS提供了必要的技术环境, OL T P和办公自动化普遍应用积累的大量数据为D SS提供了必要的数据基础,日趋激烈的市场竞争促进了各级管理和决策人员对D SS的实际需求,因此自从1991年W.H.Inm on提出数据仓库的概念和1993年E.F.Codd提出OLA P概念以来,已有许多商品化的数据仓库管理系统和联机分析处理工具软件面市。以上诸因素的共同作用促成许多公司、机构纷纷为提高自己的竞争能力建立数据仓库系统以进行决策支持。元数据是成功的数据仓库的重要组成部分,它可以帮助数据仓库项目小组明确而全面地理解潜在数据源的物理布局以及所有数据元的业务定义,帮助数据仓库用户有效地使用仓库中的信息,帮助数据库管理员了解某些表的变化将对数据仓库产生怎样的影响以及不同商业过程对应的应用等等。项目小组在开发过程中应当识别元数据并将它收入到元数据商店中,实施适当的过程捕作企业数据结构和应用的变化,从而修改相应的元数据,并向用户提供适当的工具访问元数据。 2　元数据的基本类型元数据按照其用户可以分为技术元数据和商业元数据。技术元数据提供给数据仓库的技术人员,数据仓库技术人员在仓库的开发和维护中使用这类元数据。商业元数据是商业用户在仓库中寻找他们所需商业信息的一个辅助。但是,技术人员可能也需要访问几种类型的商业元数据,如和商业用户讨论信息需求和建立企业的数据模型。同样,商业用户也需要尝试高水平的技术元数据。元数据按其内容可以分为四个基本类型: 1)关于数据仓库潜在数据来源的信息,包括现有的业务系统、可得到的外部数据和目前手工维护的信息。例如,一个组织可以从中识别数据来源的潜在仓库数据源有:几个现有的应用程序,由财务部门保存的基于PC机的电子报表,从某一卖主处购买的销售数据,目前由顾客服务部门在纸上保存的顾客联系记录。 2)关于数据模型的信息,包括业务实体、关系、企业规则和企业数据模型。 3)关于业务数据与仓库数据结构间的映射信息。只要那些来源中的一个数据元与仓库建立了映射关系,就应该记录下这些数据元间的逻辑联系以及发生的任何变换或变动。 4)关于数据仓库中信息的使用情况。了解这类信息对更好地调整仓库性能、更多地利用现有查询以及理解仓库中的信息怎样用于解决企业问题是很重要的。 3　元数据的收集和维护在适当的时间收集适当的元数据是成功实施元数据驱动的数据仓库的基础。为保证较高的准确

《××项目数据仓库数据质量报告》

版本号：数据仓库数据质量报告项目名称：

变更记录变更审阅

一、引言 1．编写目的这部分说明文档编写目的，描述本系统特点及使用数据仓库技术实现的业务目标。 2．背景这部分是项目背景描述。 3．参考资料这部分列出本文档引用资料的名称，并说明文档上下级关系。 4．术语定义及说明这部分列出本文档中使用的术语定义、缩写及其全名。二、数据质量评估工作范围 1．本次数据质量评估的目标这部分明确本次数据质量评估的目标，这些目标可能包括： ●识别数据质量的关键问题，以使这些问题可以通过源数据系统数据弥补、数据补充系统或者是ETL流程进行清洗等手段解决 ●建立管理和控制机制，并使之能在短期和长期均发挥监控数据环境的作用 ●建立在信贷信息数据仓库中管理及维护数据的长期计划 2．本次项目确定的数据质量标准这部分将《软件需求说明书》中制定本项目数据质量标准复制到这里，作为本次数据质量评估交付时的标准。 3．参与本次评估的人员组成这部分详细说明参与本次数据质量评估的人员组成和职责分工。 4．数据质量评估方法这部分说明本次项目使用的数据质量评估方法，包括记录评估结果的表格样式、数据质量评估工作的流程、数据质量评估结果的认证流程、评估结果的交付流程等。

三、数据质量评估结果 1．数据源数据质量评估结果这部分将《初级数据质量分析报告》作为附件添加到文档后。 2．数据仓库数据清洗转换规则这部分根据《初级数据质量分析报告》的结果记录数据仓库数据清洗转换的规则，只针对重点数据域设计作出说明。四、数据质量监控维护方案 1．数据质量监控团队组织这部分将尽可能地定义数据质量监控团队人员的组成、角色和分工。 2．数据仓库数据质量问题管理这部分记录明确执行数据仓库数据质量监控和修改流程的触发条件，包括质量问题的类型及质量分类的标准等。 3．数据仓库数据质量监控管理计划这部分是针对可以预见的数据质量问题提出监控管理的计划，包括沟通途径、会议计划、管理流程等。 4．数据仓库数据质量修正方案这部分将可能使用的数据质量修正方案列在其中，必要时需要提供详细的数据修改流程和计算公式。通用的修正方案包括在数据源中修改、在ETL程序中修改、在数据仓库里修改和使用数据补录程序修改。

数据仓库与数据库的区别

数据仓库与数据库的区别数据仓库的出现，并不是要取代数据库。目前，大部分数据仓库还是用关系数据库管理系统来管理的。数据库是面向事务的设计，数据仓库是面向主题设计的。数据库一般存储在线交易数据，数据仓库存储的一般是历史数据。数据库设计是尽量避免冗余，数据仓库在设计是有意引入冗余。数据库是为捕获数据而设计，数据仓库是为分析数据而设计。数据仓库（Data Warehouse）是一个面向主题的（Subject Oriented）、集成的（Integrate）、相对稳定的（Non-Volatile）、反映历史变化（Time Variant）的数据集合，用于支持管理决策面向主题：而数据仓库中的数据是按照一定的主题域进行组织。集成：对原有分散的数据库数据经过系统加工,整理得到的消除源数据中的不一致性相对稳定：一旦某个数据进入数据仓库以后只需要定期的加载、刷新反映历史变化通过这些信息，对企业的发展历程和未来趋势做出定量分析预测数据仓库建设是一个工程，是一个过程，而不是一种可以购买的产品企业数据处理方式: 以联机事务处理形式信息，以联机分析处理形式处理信息，并利用信息进行决策；在信息应用过程中管理信息。 OLAP基本概念从动态的多维角度分析数据，对数据进行钻取，以获得更为精确的信息数据库设计是信息系统开发和建设中的核心技术。信息技术基础设施的定义 ? ?可以从技术和服务两个角度来定义信息技术基础设施从技术角度来看，信息技术基础设施---运营整个企业所必需的硬件设施和软件系统的集合。

?从服务角度定义信息技术基础设施更为恰当，信息技术基础设施是整个企业范围内由管理层所决定的包括人和技术能力的服务的组合。信息技术的普及性已经达到相当成熟的阶段 ?信息技术本身对企业来说不可或缺；尽管能为整个行业带来彻底的变化，但它已经不能为单个企业提供战略性的竞争优势；因为资源的稀缺性。?另一方面，不同企业应用信息技术的能力差异很大 ?企业在利用信息技术改进业务流程、创新业务、管理技巧

大数据仓库建设方案设计

第1章数据仓库建设 1.1数据仓库总体架构专家系统接收增购项目车辆TCMS或其他子系统通过车地通信传输的实时或离线数据，经过一系列综合诊断分析，以各种报表图形或信息推送的形式向用户展示分析结果。针对诊断出的车辆故障将给出专家建议处理措施，为车辆的故障根因修复提供必要的支持。根据专家系统数据仓库建设目标，结合系统数据业务规范，包括数据采集频率、数据采集量等相关因素，设计专家系统数据仓库架构如下：数据仓库架构从层次结构上分为数据采集、数据存、数据分析、数据服务等几个方面的内容：数据采集：负责从各业务自系统中汇集信息数据，系统支撑Kafka、Storm、Flume

及传统的ETL采集工具。数据存储：本系统提供Hdfs、Hbase及RDBMS相结合的存储模式，支持海量数据的分布式存储。数据分析：数据仓库体系支持传统的OLAP分析及基于Spark常规机器学习算法。数据服务总线：数据系统提供数据服务总线服务，实现对数据资源的统一管理和调度，并对外提供数据服务。 1.2数据采集专家系统数据仓库数据采集包括两个部分内容：外部数据汇集、内部各层数据的提取与加载。外部数据汇集是指从TCMS、车载子系统等外部信息系统汇集数据到专家数据仓库的操作型存储层（ODS）；内部各层数据的提取与加载是指数据仓库各存储层间的数据提取、转换与加载。 1.2.1外部数据汇集专家数据仓库数据源包括列车监控与检测系统（TCMS）、车载子系统等相关子系统，数据采集的内容分为实时数据采集和定时数据采集两大类，实时数据采集主要对于各项检测指标数据；非实时采集包括日检修数据等。根据项目信息汇集要求，列车指标信息采集具有采集数据量大，采集频率高的特点，考虑到系统后期的扩展，因此在数据数据采集方面，要求采集体系支持高吞吐量、高频率、海量数据采集，同时系统应该灵活可配置，可根据业务的需要进行灵活配置横向扩展。本方案在数据采集架构采用Flume+Kafka+Storm的组合架构，采用Flume和ETL 工具作为Kafka的Producer，采用Storm作为Kafka的Consumer，Storm可实现对海量数据的实时处理，及时对问题指标进行预警。具体采集系统技术结构图如下:

数据仓库元数据管理

1.1.1 第一章元数据概论企业的计算机系统每年会产生很多数据，很多企业面临着这样的困境，难以有效的管理大量的、繁杂的、不一致的数据，并方便地访问、利用这些数据进行辅助决策。建立数据仓库提供一个方法，把数据转化为有用的、可信赖的信息，支持商业决策。建立数据仓库一个重要的工作是元数据管理。元数据（Metadata）就是数据的数据，用于建立、管理、维护和使用数据仓库。。元数据管理是企业级数据仓库中的关键组件，贯穿于建立数据仓库的整个过程。元数据使得用户可以掌握数据的历史情况，如数据从哪里来？流通时间有多长？更新频率是多大？数据元素的含义是什么？对它已经进行了哪些计算、转换和筛选等等。在需求不确定情况下，在瞬间万变的商业环境下，元数据可以更好的支持需求的变化，降低项目风险。通常把元数据分为技术元数据（Technical Metadata）和业务元数据（Business Metadata）。技术元数据是描述关于数据仓库技术细节的数据，这些元数据应用于开发、管理和维护数据仓库；业务元数据从商业和业务的角度描述数据仓库的数据，提供了良好的语义层定义，业务元数据使业务人员能够更好的理解数据仓库分析出来的数据。元数据贯彻于建立数据仓库的整个过程，不只是ETL过程需要元数据的支持。图1 元数据的应用在使用元数据的同时，随着数据仓库市场的发展，业界出现许多数据仓库管理和分析的工具，各种工具使用不同的元数据标准来表示和处理，不同系统之间的迁移、数据交换变得困难。于是，我们希望用一种单一的元数据标准，使得各种组织的元数据具有单一的元模型（MetaModel），因此，需要建立一种标准使得不同的数据仓库和商业智能系统之间可以相互交换元数据。 1.1.2 第二章元数据标准 1.1. 2.1 一、元数据标准CWM OMG于2001年颁布元数据标准CWM 1.0（Common Warehouse Metamodel Version 1.0）。CWM定义一个描述数据源、数据目的、转换、分析的元数据框架，以及定义建立和管理数据仓库的过程和操作，提供使用信息的继承。目前宣布支持CWM的厂商包括：IBM、Oracle、Hyperion、Dimension EDI、Genesis IONA、HP、NCR和Unisys等。 CWM基于3个工业标准： UML - Unified Modeling Language，OMG建模标准； MOF - Meta Object Facility，OMG建立元模型和模型库的标准，提供在异构环境下的数据交换的接口； XMI - XML Metadata Interchange，OMG元数据交换标准。 UML在CWM中得到充分的应用，担任3个不同的角色： 1），UML用来做为与MOF对应的meta-metamodel。UML相当于MOF Model,，UML Notation和OCL(Object Constraint Language)，被用来做为建模语言、图形符号、约束语言，