两种数据仓库架构简介

两种数据仓库架构简介
分类: DW
目前来说,数据仓库架构比较成熟并已经形成理论的主要有两个,一个是Corporate Information Factory,简称CIF,中文一般翻译为企业信息工厂,代表人物是Bill Inmon。另一个是Mutildimensional Architecture,简称MD,中文一般翻译为多维体系结构,代表人物是Ralph Kimball。

企业信息工厂主要包括集成转换层(Integrated and TransformationLayer)、操作数据存储(Operational Data Store)、数据仓库(Enterprise DataWarehouse)、数据集市(Data Mart)、探索仓库(Exploration Warehouse)等部件。

多维体系结构分为后台(Back Room)和前台(Front Room)两部分。后台主要负责数据准备工作,称为数据准备(StagingArea),前台主要负责数据展示工作,称为数据集市(Data Mart)。而数据仓库是一个虚拟的部件,它指的是全部数据集市的集合。

两个数据仓库架构各有优缺点,一种比较流行的做法是合用两种架构,即建立CIF的数据仓库和MD的数据集市。CIF模式架构建设周期较长且设计复杂,初始阶段建立企业级数据模型和数据标准以及相关的数据清洗整合工作,需要花费大量的人力和时间,但是一旦建立起企业级数据模型,数据的完整性和一致性问题就能够得到根本解决,针对需求变化易于扩展,后续的成本较低。MD模式架构首先着重于某几个业务过程进行构建,以增量演进的方式简化企业级数据仓库的实现过程,启动成本和设计方法较为简单,通过维度建模方式将原子层和汇总层合二为一,可以快速创建分析应用,但是企业级的稳定性和数据集市之间数据的一致性需要持续维护一致性维度来保证,后续扩展数据集市的工作量较大。

在实际的数据仓库实施过程中,出于项目成本和项目进度等方面的综合考虑,一般采用混合的数据仓库架构方法。这种架构采用了CIF架构和MD架构相结合的设计方法构建数据仓库,按照“松耦合、层次化”的基本架构原则进行实施。混合数据仓库架构方法的主要技术特点包括按照业务需求分步构建、分层次保存数据、整合原子级的数据标准、维护一致性维度等。

相关文档
最新文档