提高数据仓库中数据质量的研究毕业设计(论文)

提高数据仓库中数据质量的研究毕业设计(论文)
提高数据仓库中数据质量的研究毕业设计(论文)

HUNAN UNIVERSITY 毕业设计(论文)

设计论文题目:提高数据仓库中数据质量的研究学生姓名:

学生学号:

专业班级:

学院名称:

指导老师:

学院院长:

提高数据仓库中数据质量的研究

摘要

数据仓库是一个面向主题的、集成的、相对稳定的、能够反映历史变化并且能够支持管理决策的数据的集合。维护数据仓库中数据的正确性是非常重要的环节,而ETL

是构建数据仓库的重要组成部分,要占据60%左右的工作量。提高数据仓库中的数据质量有利于保障数据仓库的可靠性,也有利于企业长期的总结和应用数据。提高数据质量的方法很多,鉴于本项目在实际工程应用中的经验总结和实践积累,本文主要侧重于利用ETL调度以及校验的方式来提高数据仓库中的数据质量。

首先,利用ETL调度原理实现数据的自动化调度,使数据成为一个流动的数据流,数据所在的数据库作为ETL流的起点,保存最终高质量数据的数据仓库作为ETL数据流的终点。

其次,对于已经形成ETL数据流的数据生成流实例信息,对完成ETL流程处理的数据构造历史信息,从而保证能够对ETL流进行监控。

再次,构造ETL流程的处理逻辑,这是构造高质量数据的核心部分,根据实际的经验构造自动化的校验程序,使数据流流过时校验程序能够纠正错误数据,最终达到获得高质量数据的目的。

最后,经过EMC项目的实施情况证明,非法数据在以ETL流的形式流经校验程序时都能够按照提前设定得到处理,保证了数据仓库中数据的稳定性。

关键词:ETL,EMC(ETL管理中心),数据仓库

The Research in Improving the Quality of Data in the Data Warehouse

Abstract

Author: Gao Zhongshan

Tutor: Shen Yuxiang Data Warehouse is a data collection which is subject-oriented, integrated, and relatively stable. It can reflect the changes of history and support the management decision. It is an important segment to maintain the accuracy of the data warehouse. However, ETL is an important part to build data warehouse and occupy about 60 percent of the load. The improvement of the quality in the data warehouse helps to guarantee the reliability and also help the enterprise to summarize and use the data for a long period of time. There are many methods to improve the quality of data. However, in the view of the experience summary and practice accumulation in the practical application, the paper mainly focuses on the ETL dispatcher and way of check to improve data quality of data warehouse.

First of all, the automation of data management which is realized by ETL principle make the data into a data stream., the database where the data exists become as starting point of ETL, saving the data warehouse with ultimate high-quality data as the end of ETL.

Second, for the data which the ETL data flow has been formed to generate example, for the data which complete ETL processes structure to handling historical information, thus ensuring that the ETL flow can monitoring.

Third, building the processing logic of ETL tectonic processes is the core of constructing high-quality data, constructing the automated calibration procedures based on the actual experience, so that the calibration procedures can correct erroneous data when passing by, and finally achieving the goal of access the high-quality data.

Finally, the implementation of the EMC project has proved that the illegal data in the form of ETL run through calibration procedures can be handled in accordance with the set in advance, ensuring the stability of data in warehouse data.

Key words: ETL, EMC (ETL Manage Center), Data WareHouse

目录

1. 绪论 (1)

1.1 研究背景 (1)

1.2 国内外研究现状 (2)

1.3 本文的主要研究内容和内容组织 (3)

2. 数据仓库以及ETL (4)

2.1 数据仓库(Data WareHouse, DW) (4)

2.2 ETL(Extract, Transform, loading) (6)

2.2.1 ETL简介 (6)

2.2.2 ETL过程特点 (6)

2.2.3 数据质量保证 (7)

2.2.4 元数据:拓展新星应用 (8)

3. EMC项目中的ETL应用 (10)

3.1 业务背景 (10)

3.2 实例概述 (12)

3.3 总体流程 (13)

3.4 接口表 (13)

3.4 企业数据迁移(EDM)模型层 (14)

3.5 事实表层 (15)

3.6 数据集市(DM)层 (15)

3.7 多维分析(OLAP)层 (16)

3.8 总体处理流程、反馈过程 (16)

4. EMC中数据调度校验的应用 (17)

4.1 需求分析 (18)

4.1.1 需求设计描述 (18)

4.1.2 功能性需求描述(按功能模块进行说明) (18)

4.1.3 非功能性需求描述 (19)

4.2 系统总体设计 (19)

4.2.1 系统总体功能设计图 (19)

4.2.2 系统总体功能设计图说明 (20)

4.2.3 系统功能设计描述 (21)

4.3 概要设计 (21)

4.3.1 概要功能设计图 (21)

4.3.2 功能性描述(按功能模块) (22)

4.4 后台调度流程 (24)

4.4.1 ETL任务调度概述 (24)

4.4.2 任务/任务组实例化 (25)

4.4.3 任务实例调度 (26)

4.5 后台校验流程 (27)

4.5.1 功能 (28)

4.5.2 数据结构 (28)

4.5.3 流程 (28)

4.5.4 重要函数 (30)

5. 效果说明和总结 (38)

致谢 (39)

参考文献 (40)

1. 绪论

1.1 研究背景

随着全球经济一体化进程的推进以及我国的经济快速增长,大多数行业的市场竞争激烈加剧。这对企业管理和经营决策的制定的时效性、科学性、准确性提出了很高的要求。只有以数据为基础,从基于经验的分析到基于准确事实的洞察,才能有效保证企业服务质量、营销成功率和管理水平,节约企业营销成本,最终使企业利润和客户满意度的最大化。数据仓库正是在这种大环境下应运而生了。

随着我国电信体制改革的深化,行业垄断格局已被打破,国内通信市场形成了电信、移动、联通、网通、铁通等多元化竞争局面,竞争日趋激烈。电信运营商的经营理念也逐渐从“以产品为中心”转移到“以客户为中心”了。而面对客户的多样化、层次化、个性化的需求,大众化营销已经失去了其优势,基于客户信息、客户价值和行为,深入数据分析的洞察力营销、精确化营销的理念逐渐被各大电信运营商所接受。商务活动的主动权被交到了客户手中,而保持原有的客户对电信公司来说变的至关重要。在过去多年中电信行业建立了计费帐务系统、综合结算系统、97系统、10000号系统、大客户系统等多种业务支撑系统,然而各个系统相对独立,数据分散不一致。这就产生了数据依赖系统存在、缺少完整统一的客户视图、数据共享缺少统一的标准共享困难、数据对闭环的业务流程支撑程度较弱等问题。基于此现状,电信公司确定整合客户数据并以客户为中心实行统一视图的目标,那么建设本企业的数据仓库就势在必行了,而同时保证数据仓库中数据的质量的有效性就成为了一个重点研究的问题。

科学决策是现代企业的管理的核心与基础,但高质量的数据是正确决策的前提。要提供有质量保证数据,数据的抽取、转换和装载过程特别是转换过程相当重要。针对电信业务种类多,业务更新快,数据来源广的特点,ETL过程就变得充满挑战性。

庆幸的是,已经有很多成熟的ETL工具,它们几乎能够自动完成数据的ETL过程。但用户显然不放心这样一个重要的过程对他们来说完全是“透明化”的,加上多用户多任务必然会带来线程(或进程)的同步或互斥问题。所以本文将以ETL框架设计为基础出发。同时为了便于理解整个框架,来详细介绍ETL过程管理的具体流程和方法。

同时,本文将流程的控制过程用可视化效果表现出来,提供流程定义和流程监控功

能,并最终生成多维表。

1.2 国内外研究现状

在企业信息化建设过程中,随着技术的发展,原有的信息系统不断被功能更强大的新系统所取代,从两层结构到三层结构,从Client/Serve:到Browser/Server,在新旧系统的切换过程中,必然面临一个数据迁移的问题。

原有的旧系统从启用到被新系统取代,在其使用期间往往积累了大量珍贵的历史数据,其中许多历史数据都是新系统顺利启用所必须的。另外,这些历史数据也是执行决策分析的重要依据。数据迁移,就是将这些历史数据进行清洗、转换,并装载至新系统中的过程。数据迁移主要适用于一套旧系统切换到另一套新系统,或多套旧系统切换到同一套新系统时,需要将旧系统中的历史数据转换到新系统中的情况。银行、电信、税务、工商、保险以及销售等领域发生系统切换时,一般都需要进行数据迁移对于多对一的情况,例如由于信息化建设的先后,造成有多个不同的系统同时运行,但相互间不能做到有效信息共享,所以就需要一套新系统包容几套旧系统的问题。

数据迁移对系统切换乃至新系统的运行有着十分重要的意义,数据迁移的质量不仅仅是新系统成功运行的重要前提,同时也是新系统今后稳定运行的有力保障。如果数据迁移失败,新系统将不能正常启用;如果数据迁移的质量较差,没能屏蔽全部的垃圾数据,对新系统将会造成很大的隐患,新系统一旦访问这些垃圾数据,可能会由这些垃圾数据产生新的错误数据,严重时还会导致系统异常。

相反,成功的数据迁移可以有效地保障新系统的顺利运行,能够继承珍贵的历史数据。无论对于一个公司还是一个部门,历史数据都是十分珍贵的一种资源,如公司的客户信息、银行的存款记录、税务部门的纳税资料等。

早期的数据迁移工作往往是由程序人员手工编写存储过程完成的,对编写人员的技术要求很高,而且随着系统的升级换代、人员变动等原因使系统维护变得十分困难随着计算机技术的发展与进步,逐渐出现了使用特定的ETL工具来完成数据迁移过程。目前很多数据库厂商纷纷推出针对其数据仓库产品的ETL解决方案,如Oracle公司的Warehouse Builder等。这些工具具有功能强大,提供图形化界面以利于用户操作,易与第三方软件集成等优点,但其高昂的价格,复杂的操作往往让人望而却步。

表1.1对手工编码与使用ETL工具实现数据迁移工作进行了比较。

表1.1 人工编码与ETL工具比较

对比项手工编码ETL工具灵活性最灵活比较灵活

难易程度要求一定的技术水平相对容易

管理和维护较难容易

性能和效率取决于编写者水平较高

开发周期较长较短

工作量较重中等

价格相对较低较高

目前国内外关于ETL领域的研究非常活跃,主要涉及以下几个方面:

1、建立一种通用的与领域无关的工具框架;

2、在自动化异常检测和清洗处理间增加人工判断处理以提高处理精度;

3、对海量数据集进行并行处理;

4、如何消除合并后数据集中以及重复数据;

5、研究高效的数据异常检测算法以避免扫描整个庞大的数据集。

在我国,对ETL的研究开发甚少,还没有一个成型的、完善的ETL工具应用于数据仓库的系统中。

1.3 本文的主要研究内容和内容组织

本次设计主要采用的技术手段是:利用ETL在构造数据仓库中的原理,通过构造ETL 数据流来实现数据的自动化处理,通过编写校验程序来处理数据流中非法数据,从而保证数据仓库中数据的高质量。

本文结构分为五章,第一章为绪论,主要介绍该课题的背景,过内外发展概况以及应用的技术以及论文的组织结果等;第二章为基础技术介绍,主要根据项目需要用到的数据仓库、ETL等技术做详细的介绍;第三章将根据EMC项目情况讲解ETL的应用情况;第四章重点讲解调度和校验过程,使读者能够更清晰的了解EMC项目中的实现方法;第五章将根据实际应用对提高数据质量的效果做进一步的说明并总结获得结论。

2. 数据仓库以及ETL

2.1 数据仓库(Data WareHouse, DW)

目前,数据仓库一词尚没有一个统一的定义,著名的数据仓库专家W.H.Inmon在其著作《Building the Data Warehouse》一书中给予如下描述:数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-V olatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。数据仓库的概念可以从两个层次予以理解:首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。根据数据仓库概念的含义,数据仓库拥有以下四个特点:

1、面向主题:操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。

2、集成的:面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。

3、相对稳定的:操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。

4、反映历史变化:操作型数据库主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。

企业数据仓库的建设,是以现有企业业务系统和大量业务数据的积累为基础。数据

仓库不是静态的概念,只有把信息及时交给需要这些信息的使用者,供他们做出改善其业务经营的决策,信息才能发挥作用,信息才有意义。而把信息加以整理归纳和重组,并及时提供给相应的管理决策人员,是数据仓库的根本任务。因此,从产业界的角度看,数据仓库建设是一个工程,是一个过程,而不是一个产品。

图2.1所示为数据仓库的基本体系结构图:

图2.1 数据仓库基本体系结构图 1、数据源:是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内部信息和外部信息。内部信息包括存放于RDBMS 中的各种业务处理数据和各类文档数据。外部信息包括各类法律法规、市场信息和竞争对手的信息等等;

2、数据的存储与管理:是整个数据仓库系统的核心。数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式。要决定采用什么产品和技术来建立数据仓库的核心,则需要从数据仓库的技术特点着手分析。针对现有各业务系统的数据,进行抽取、清理,并有效集成,按照主题进行组织。数据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库(通常称为数据集市)。

3、OLAP 服务器:对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次的分析,并发现趋势。其具体实现可以分为:ROLAP 、MOLAP 和HOLAP 。ROLAP 基本数据和聚合数据均存放在RDBMS 之中;MOLAP 基本数据和聚合数据均存放于多维数据库中;HOLAP 基本数据存放于RDBMS 之中,聚合数据存放于多维数据库中。 分析工具 归纳工具 … 数据挖掘

OLAP

数据仓库

元数据 数据源 数据源 数据源

数据集

数据集

ETL

4、前端工具:主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以及各种基于数据仓库或数据集市的应用开发工具。其中数据分析工具主要针对OLAP 服务器,报表工具、数据挖掘工具主要针对数据仓库。

2.2 ETL(Extract, Transform, loading)

2.2.1 ETL简介

在数据仓库的构建中,问题最多,工作量最大的是从各种数据源抽取(Extract),转换(Transform)和装载(Loading)数据的操作。数据仓库中的数据往往来自不同时期,不同硬件平台,不同操作系统等,数据源的多样性造成了“脏数据”(Dirty data)的大量存在,这些“脏数据”产生的原因主要有:

1、数据库之间缺乏统一的标志,即表示同一对象的数据库记录的记不唯一;

2、不同组织采用不同的格式表示数据,这对数据的整合也造成一定的困难,典型的例子就是日期型的数据;

3、输入大量的数据时,总会或多或少出现一些错误;

4、存在不一致的数据。数据仓库要不断地装载这些存在“脏数据”的数据,如果不能保证装载数据的质量,那么势必会降低数据仓库中数据的质量,对数据仓库的后续操作造成影响,降低数据挖掘的质量。

为了提高数据质量,需要在数据源与数据仓库之间架一座桥梁,同时还要在桥梁上设立“检查站”,对经过的数据进行检查,去除不符合要求的数据,这就是ETL工具的功能。而把数据的ETL过程当成一个个进程或job,对其进行调度,就是ETL调度过程。

ETL是数据仓库获得高质量数据的重要环节,它是数据仓库中数据的入口,一个设计良好,功能强大的ETL工具和一个高效有效的调度模块对于构建一个数据清洁,结构良好的数据仓库有着重要的意义。

2.2.2 ETL过程特点

ETL的过程就是数据流动的过程,数据从异构数据源流向统一的目标数据库。其间,数据的抽取、清洗、转换和装载形成串行或并行的过程。ETL的核心是T过程,也就是转换,而抽取和装载一般可以作为转换的输入和输出,或者作为一个单独的部件,其复杂程度没有转换部件高。与OLTP系统中的单条记录的insert、update和select等操作相

比,ETL过程一般都是批量操作,其装载多采用批量装载工具,一般都是DBMS系统自身附带的工具,例如Oracle SQLLoader和DB2的Autoloade等。下面从ETL元数据等几个方面探讨ETL过程的特点:

1、ETL元数据。元数据是描述数据的数据,它的含义非常广泛,这里仅指ETL的元数据,主要包括每次转换前后的数据结构和转换的规则。ETL元数据还包括形式参数的管理,形式参数是ETL单元定义的参数,相对还有实参,它是运行时指定的参数,实参不在元数据管理范围之内。

2、转换规则的定义方法。提供函数集,包括日期处理函数、字符串处理函数等。提供常用规则方法,提供规则定义语言的描述规则。

3、对数据的快速索引。一般都是利用Hash技术,将参照关系表提前装入内存,在转换时查找这个Hash表。Datastag中有Hash文件技术,Powermart也有类似的功能。

4、数据流程的控制。具有可视化的流程编辑工具,提供流程定义和流程监控功能。流程调度的最小单位是ETL单元实例,ETL单元是不能细分的ETL过程,该过程由开发者来控制,如可以将抽取、转换定义为一个ETL单元,但此时抽取和转换只能同时运行,而如果将他们分作两个单元,可以分别运行,这有利于错误恢复操作。ETL单元究竟应该细分到什么程度应该依据具体应用来看,目前还没有很好的细分策略。可以规定将装载一个表的功能作为一个ETL单元,但这样的ETL单元之间会有很多共同的操作,例如两个单元共用一个Hash表,则需要这个Hash表装入内存两次。尽可能将ETL 单元的工作简单化、独立化是定义ETL单元的基本标准。

2.2.3数据质量保证

虽然数据清洗可以提高数据质量,但数据质量问题是无法根治的,只能采取特定的手段去尽量避免,而且必须要定义出度量方法来衡量数据的质量。对于数据源的质量问题,客户对此更加关心,如果在源头不能保证比较干净的数据,那么后面分析功能的可信度会大为降低。数据源系统也在不断进化过程中,客户的操作也在逐渐规范中。下面探讨一下对数据源质量和ETL处理质量的应对方法。

在数据仓库模型维表中,通常有一条记录,表示“未知”,“未知”含义过于广泛,任何可能出错的数据,NULL数据甚至是规则没有涵盖到的数据,都转成-1记录。这是一种处理脏数据的方法,但这也是一种掩盖事实的方法。例如写一个函数FileOpen(filename),没有返回标明错误原因的错误码而只返回一种错误码,如-1。显

然这是一种不好的设计,对于调用者来说,需要依据这个错误码进行某些判断,不同的错误都有相应的处理逻辑。数据仓库中也是如此,所以,应该将不同的数据质量类型处理结果分别转换成不同的值,比如在转换后,-1表示无法关联,-2表示NULL数据等。这只是处理数据格式的错误,对于数据一致性和业务逻辑合理性问题仍有待进一步研究。

必须有一个数据质量的度量方法,对于数据质量有明确的定义。通常的席量方法是设定一个误差范围,例如指标的误差范围不能高于5%等,对系统本身来说必须要有这样的度量方法,但对于ETL过程中的数据质量,其度量方法更为严格,理论上,要求输入输出的指标应该完全一致。但是完全一致只是理想,有误差的数据不可避免。对于有误差的数据,必须找到原因。

对于ETL过程中产生的质量问题必须有数据验证机制,其目的是能够在ETI,过程中监控数据质量,产生报警。下面是保证数据质量的几点建议:

1、提供前端的统一界面。将开发实施人员当作用户,为之提供友好的用户界面。以OLAP的方式提供界面,将测试统计出来的指标结果反映给开发人员,使开发人员可以根据统计结果查找错误原因。

2、数据清洗框架的设计。数据验证不是一次性工作,而是每次ETL过程中都必须做的。因此,必须有一个框架,使验证过程自动化,并提供扩展手段,让实施人员能够增加验证范围。这样一个框架起到了规范化操作的作用,开发实施人员可以将主要精力放在验证脚本的编写上,而不必过多关注验证如何融合到流程中,如何展现等工作。

3、规范流程。很多ETL数据质量问题是由于人工处理导致的,其中最主要原因是流程不规范。对于同一个ETL过程,使用的ETL工具不同,实施的人员不同,产生的结果也会不同,因此有必要为ETL的开发与实施工作制定相应的操作和开发规范。规范流程是提高实施效率的关键工作。

2.2.4 元数据:拓展新星应用

对业务数据本身及其运行环境的描述与定义的数据,称之为元数据(metadata)。元数据是描述数据的数据。从某种意义上说,业务数据主要用于支持业务系统应用的数据,而元数据则是企业信息门户、客户关系管理、数据仓库、决策支持和B2B等新型应用所不可或缺的内容。

元数据的典型表现为对象的描述,即对数据库、表、列、列属性(类型、格式、约

束等)以及主键/外部键关联等等的描述。特别是现行应用的异构性与分布性越来越普遍的情况下,统一的元数据就愈发重要了。“信息孤岛”曾经是很多企业对其应用现状的一种抱怨和概括,而合理的元数据则会有效地描绘出信息的关联性。

而元数据对于ETL的集中表现为:定义数据源的位置及数据源的属性、确定从源数据到目标数据的对应规则、确定相关的业务逻辑、在数据实际加载前的其他必要的准备工作,等等,它一般贯穿整个数据仓库项目,而ETL的所有过程必须最大化地参照元数据,这样才能快速实现ETL。

3. EMC项目中的ETL应用

3.1 业务背景

电信行业内应用数据仓库技术意义非凡,由于电信业内早有大量成熟的数据库应用系统,如“电信业务计算机综合管理系统”、“本地网管系统”、“财务管理系统”、“计费账务系统”、“112障碍管理系统”、“收费销账系统”等,通过这些系统产生了大量的业务处理数据。而许多的历史数据都被存储在磁带、光盘中,或是分布在不同的硬件、数据库内,要查询一次历史数据时,费力费时,更不用说把不同业务部门的数据来关联比较分析了,同时也会遇到如数据类型不匹配、数据定义不同、数据不一致、数据冗余等多种问题。

如果我们针对电信业的特点和发展需求,对这些数据进行结构上的重组,按更有利于决策分析的角度去设计,就会使我们企业的宝贵资源——数据,实现真正的信息价值。根据行家们的预测,可以有几个方面分析。

1、固定电话话费行为分析

举个例子,固定电话的热装冷用一直是令各电信公司头疼的事,如果能对用户历年来大量的长话、网话和信息台的详细清单数据和用户的档案资料等相关数据进行关联分析,通过对用户的分类,从消费能力、消费习惯、消费周期等诸方面对用户的话费行为进行分析和预测,一定会为企业的相关解决措施提供依据和帮助。

对话费行为的分析还可以是通过对通话起止时间及通话时长分析可得到各类用户的通话时段分布情况及日消费高峰、月消费高峰;长话的消费时间、消费次数、什么地方的用户消费能力较高、什么地方的用户消费能力偏低;以及话费流失的分析。

2、优惠策略预测仿真

优惠促销固然可以开拓市场,但如果优惠策略不恰当,结果可能适得其反。利用数据仓库技术实现优惠策略在模型上的仿真,根据优惠策略进行模拟计费和模拟出帐,其仿真结果将提示所制定的优惠策略是否合适,并可按情况进行调整、优化,使优惠策略获得最大的成功。

3、欠费和动态防欺诈行为分析

欠费问题一直是电信面临的一个严重问题。催费、停机、拆机这样的举措是层出不

穷,但对于恶意欠费的用户并不能制止,相反却会使一些偶尔欠费的用户怨声载道。

欠费和动态防欺诈行为分析就是在总结各种骗费、欠费行为的内在规律后,在数据仓库的基础上建立一套欺骗行为和欠费行为规则库,当用户的话费行为与该库中规则吻合或相似就发出告警,同时该系统还可以在此规则库的基础上分析各种欺骗和欠费行为,从而演绎出可能的欺骗和欠费行为,加以论证后自动加入规则库。另外,欠费和动态防欺诈行为分析不仅仅是被动式的预防分析,它可以主动地进行统计分析。欠费和动态防欺诈行为分析能及时预警各种骗费、欠费,使企业损失尽量减少。同时通过用户的缴费销账情况、社会类别、占用资源等,分析用户的信誉度,对不同信誉度用户给予不同的服务及优惠。

4、客户关系管理(CRM)分析

在电信行业内,赢得一个新客户比保留一个老客户所付出的代价要高得多。因此,提高服务质量,赢得客户的忠诚对企业生存发展意义重大。但是电信的客户群体非常庞大,而且客户对服务的要求也越来越高,作好服务工作不再是漂亮的营业员会微笑就可以完成的事了,必需要利用先进的数据仓库技术,对用户进行客户关系管理分析,也就是CRM(Customer Relation Manage)。具体内容包括:利用用户资料和一切可能有助于进行客户分析管理的资料进行客户概况分析,客户忠诚度分析,客户利润分析,客户性能分析,客户未来分析,客户产品分析,客户促销分析;通过对这些数据的分析,提供既能留住老客户又能吸引新客户的决策信息。

5、经营成本与收入分析

作为一个在市场经济中运作的企业,无疑以获得最大的经济效益为企业运作的核心目标之一,当然还应兼顾社会效益、客户服务等方面。经营成本与收入分析就是对各种类型的经济活动进行成本核算,比较可能的业务收入(通信业务收入、其他收益)与各种费用(业务成本、管理费用、税收、其他支出)之间的收支差额,分析经济活动的曲线,得到相应的改进措施和办法,从而降低成本、减少开支、提高收入。

6、网络管理和网络优化分析

中国电信目前大都建成了省网管中心和各地的网管集中操作维护中心,对网络进行管理,它们包含的数据是调整、优化固定网络结构,提高全网通话质量的根本依据。网络管理和网络优化分析就是在对目前网络管理中大量的数据进行分析、聚类,从而为提高全网质量、优化网络结构,进行网络规划提供可靠的保证。

网络管理和优化分析将在以下三个方面对现行系统进行扩展:扩大并细化数据源;

增加数据量;丰富统计分析类型。

7、动态报表 由于业务和管理的需求不断变化,许多需求在系统设计之初不曾想到,报表输出已成为一个日益突出的矛盾,报表形成困难和制表人员工作量极大增加是目前亟待解决的问题。动态报表就是利用数据仓库技术中元数据的思想,将报表元素分解成基本构件,实现对数据按用户轴、时间轴、地域轴、通话类型轴等,对用户的呼叫量,消费量等进行分析统计,形成各种各样的报表即动态报表。

目前,应用数据仓库技术,改善企业决策支持模式,并取得最大的投资回报,已经成为大多数成功企业的共识,作为当今发展最快,吸收新技术最快的电信企业,原始数据正在快速地积累和膨胀,如何保存并利用好这些珍贵的资源,将其中蕴藏的信息转化为生产力,将成为业内人士所关注的又一个技术热点。

3.2实例概述

由于经营分析系统维护的主要工作量在ETL 过程处理上,因此事先建立一个通用先进的ETL 处理过程,将会给系统维护工作带来事半倍功的效果。

本章将通过对EMC 产品实际系统进行分析对ETL 进行详细的讲述,达到实现ETL 过程图形化、流程化和可配置化的效果。图3.1为ETL 过程总体逻辑图: 检验规则

任务数据源配置

任务调度引擎

生成任务

调度执行生成数据校验报表配置结果监控

地域\状态

正常单停双停合肥

27254243 西城区

673219 庐阳区

7301211 东城区

53917 瑶海区

783816肥东县

451117 三河区

15432 城关区

29785肥西县

5601311 长丰区

23143 大沥区32998校验报表

图3.1 ETL 过程总体逻辑图

3.3总体流程 经营分析系统的数据来源于各源系统,并按层次分组处理,而实际上源系统是千差万别的,为了便于系统开发,数据源和各后续处理过程,设立了接口表层,将源系统中不同数据源在接口表层进行统一。图3.2概要描述了ETL 的总体流程: 接口表EDM 规范

模型表数据集市表

事实表

多维

数据源

图3.2 ETL 总体流程

3.4接口表

接口表沿用营销分析时的标准,作少量调整,在ETL 监控、管理过程中按业务、按层次模式展示。在监控界面可以查看各层状态。将本树状格式做成元数据,与ETL 过程关联,每原子节点对应的任务需包含稽核、执行历史、执行状态三要素。如图 3.3所示 按本地网

接口表A 本地网按业务帐单

资源

帐户产品

……按频率按月按日

稽核报表稽核确认历史查询状态查询合肥-用户数稽核异常:长丰区正常用户数偏少图3.3 接口表数据源树

接口表数据源树按配置的元数据生成,方便后续地域的变更和业务扩展。数据频率可以按日、按周、按月(甚至可以按3天)等,都根据配置实时生成。ETL 程序根据配

置的间隔时间取数据。

稽核报表按维度配置统计表,例如产品、资源按地域统计到达数、帐单按产品、地域统计量收,(选项需求:有历史数据可以增加统计的同比和环比)。

关于维度和代码的稽核,需要统计代码缺失、各代码值的记录分布、零记录数的代码。

状态与稽核报表的结果关联,由稽核人员评估。稽核报表举例:如表3.1所示。

表3.1 校验报表

校验报表

地域\状态正常单停双停

合肥2725 42 43

市区673 21 9

长丰区730 12 11

肥东区539 1 7

肥西区783 8 16

蚌埠451 11 7

怀远县154 3 2

固镇县297 8 5

芜湖560 13 11

南陵县231 4 3

繁昌县329 9 8

稽核结果:⊙正常○数据异常异常说明(可空):提交

3.4企业数据迁移(EDM)模型层

进入标准:接口层各原子节点对应的任务无异常。

EDM模型层按域-实体组织任务,采用统一模式(可以是定制的ETL程序或编写好的DataStage Jobs)从接口层处理数据,形成处理日志。EDM模型层的域-实体关系保存在数据库表中以生成处理过程的任务清单。

EDM模型层稽核采用处理日志评估模式。

处理日志记录了处理的数据源、目的表处理的记录数,正常信息、异常信息等内容。

如图3.4所示: 按域

EDM 模型参与人按实体客户群

客户

员工角色

……

图3.4 EDM 模型图

稽核表举例:如表3.2。

表3.2 稽核报表 域――实体

处理过程 状态 TB_PRD_PRD_INST 处理记录数:231,237 正常

EDM 模型层的任务调度由专门后台程序根据业务规则执行。这些业务规则以元数据的形式保存在一些表中。

3.5事实表层

进入标准:EDM 模型层的各必要的原子节点对应的任务无异常。某原子节点是否必要,可在EDM 模型层的域-实体关系保存的数据库表中描述。

事实表层按事实表组织任务,采用统一模式(可以是定制的通用事实表ETL 处理程序)从EDM 模型层处理数据,形成处理日志。要处理的事实表和处理逻辑保存在数据库表中以生成处理过程的任务清单。处理事实表的扩充可以增加一条记录描述事实表和处理逻辑,处理程序自动能处理并生成事实表。

通用事实表ETL 处理程序可以借鉴四川项目组目前的锁定对象ETL 过程模型的设计。

事实表层稽核采用处理日志评估模式。

3.6数据集市(DM )层

进入标准:事实表层的各原子节点对应的任务无异常。

数据集市层按集市表(DM 表,一般表名以DM_开头)组织任务,采用统一模式(可以是定制的通用集市表ETL 处理程序)从事实表层处理数据,形成处理日志。要处理的集市表和处理逻辑保存在数据库表中以生成处理过程的任务清单。处理集市表的扩充

数据仓库的数据质量

(一)数据质量的衡量标准、好处和问题 数据质量的好坏是决定一个数据仓库成功的关键,但是需要从那些方面衡量数据仓库中数据的质量呢?可以从下列方面衡量系统中的数据质量: 准确性:存储在系统中的关于一个数据元素的值是这个数据元素的正确值; 域完整性:一个属性的数值在合理且预定义的范围之内; 数据类型:一个数据属性的值通常是根据这个属性所定义的数据类型来存储的; 一致性:一个数据字段的形式和内容在多个源系统之间是相同的。 冗余性:相同的数据在一个系统中不能存储在超过一个地方; 完整性:系统中的属性不应该有缺失的值; 重复性:完全解决一个系统中记录的重复性的问题; 结构明确:在数据项的结构可以分成不同部分的任何地方,这个数据项都必须包含定义好的结构; 数据异常:一个字段必须根据预先定义的目的来使用; 清晰:一个数据元素必须有正确的定义,也就是需要一个正确的命名; 时效性:用户决定了数据的时效性; 有用性:数据仓库中的每一个数据元素必须满足用户的一些需求; 符合数据完整性的规则:源系统中的关系数据库中存储的数据必须符合实体完整性及参考完整性规则。 既然数据质量是成功的关键,那么,提高数据质量有那些好处: 对实时信息的分析:高质量的数据提供及时的信息,是为用户创造的一个重要益处;

更好的客户服务:完整而准确的信息能够大大提高客户服务的质量; 更多的机会:数据仓库中的高质量数据是一个巨大的市场机会,它给产品和部门之间的交叉销售打开了机会的大门; 减少成本和风险:如果数据质量不好,明显的风险就是战略决策可能会导致灾难性的后果。 提高生产率:用户可以从真个企业的角度来看待数据仓库的信息,而全面的信息促使流程和真个操作更顺畅, 从而提高生长率; 可靠的战略决策制定:如果数据仓库的数据是可靠而高质量的,那么基于这些信息进行的决策就是好的决策。 在数据处理过程中,会有那些数据质量问题: 字段中的虚假值 数据值缺失 对字段的非正规使用 晦涩的值 互相冲突的值 违反商业规则 主键重用 标志不唯一 不一致的值 不正确的值 一个字段多种用途

数据库与数据仓库的区别是什么

数据库与数据仓库的区别是什么 简而言之,数据库是面向事务的设计,数据仓库是面向主题设计的。 数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。 数据库设计是尽量避免冗余,一般采用符合范式的规则来设计,数据仓库在设计是有意引入冗余,采用反范式的方式来设计。 数据库是为捕获数据而设计,数据仓库是为分析数据而设计,它的两个基本的元素是维表和事实表。维是看问题的角度,比如时间,部门,维表放的就是这些东西的定义,事实表里放着要查询的数据,同时有维的ID。 单从概念上讲,有些晦涩。任何技术都是为应用服务的,结合应用可以很容易地理解。以银行业务为例。数据库是事务系统的数据平台,客户在银行做的每笔交易都会写入数据库,被记录下来,这里,可以简单地理解为用数据库记帐。数据仓库是分析系统的数据平台,它从事务系统获取数据,并做汇总、加工,为决策者提供决策的依据。比如,某银行某分行一个月发生多少交易,该分行当前存款余额是多少。如果存款又多,消费交易又多,那么该地区就有必要设立ATM了。 显然,银行的交易量是巨大的,通常以百万甚至千万次来计算。事务系统是实时的,这就要求时效性,客户存一笔钱需要几十秒是无法忍受的,这就要求数据库只能存储很短一段时间的数据。而分析系统是事后的,它要提供关注时间段内所有的有效数据。这些数据是海量的,汇总计算起来也要慢一些,但是,只要能够提供有效的分析数据就达到目的了。 数据仓库,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,它决不是所谓的“大型数据库”。那么,数据仓库与传统数据库比较,有哪些不同呢?让我们先看看W.H.Inmon关于数据仓库的定义:面向主题的、集成的、与时间相关且不可修改的数据集合。 “面向主题的”:传统数据库主要是为应用程序进行数据处理,未必按照同一主题存储数据;数据仓库侧重于数据分析工作,是按照主题存储的。这一点,类似于传统农贸市场与超市的区别—市场里面,白菜、萝卜、香菜会在一个摊位上,如果它们是一个小贩卖的;而超市里,白菜、萝卜、香菜则各自一块。也就是说,市场里的菜(数据)是按照小贩(应用程序)归堆(存储)的,超市里面则是按照菜的类型(同主题)归堆的。 “与时间相关”:数据库保存信息的时候,并不强调一定有时间信息。数据仓库则不同,出于决策的需要,数据仓库中的数据都要标明时间属性。决策中,时间属性很重要。同样都是累计购买过九车产品的顾客,一位是最近三个月购买九车,一位是最近一年从未买过,这对于决策者意义是不同的。 “不可修改”:数据仓库中的数据并不是最新的,而是来源于其它数据源。数据仓库反映的是历史信息,并不是很多数据库处理的那种日常事务数据(有的数据库例如电信计费数据库

人工智能在物联网中的应用毕业论文

毕业设计 设计(论文)题目:人工智能在物联网中的应用 专业班级:物联网141 学生姓名:周钟婷 指导教师:李生好 设计时间:2017.5.8——2017.6.9 重庆工程职业技术学院

重庆工程职业技术学院毕业设计(论文)任务书 任务下达日期:2017.5.8 设计(论文)题目:人工智能在物联网中的应用 设计(论文)主要内容和要求: 1.显示器件:引领TFT-LCD技术的创新和发展,致力于加快AMOLED、柔性显示、增强 现实、虚拟现实等新型显示器件及薄膜传感器件的进步。 2.智慧系统:以“物联网和人工智能”为主要方向,以用户为中心,基于在显示、人 工智能和传感技术优势,发展智能制造、智慧屏联、智慧车联、智慧能源四大物联网解决方案。 3.智慧健康服务:将显示技术、信息技术与医学、生命科技跨界结合,发展信息医学, 提供物联网智慧健康产品及服务。 教学团队主任签字:指导教师签字: 年月日年月日

重庆工程职业技术学院毕业设计(论文)指导教师评语评语: 成绩: 指导教师签名: 年月日

重庆工程职业技术学院毕业设计(论文)答辩记录

目录 摘要................................................... (1) 第一章目前人工智能技术的研究和发展状况......... . (2) 第二章显示器件事业技术应用 (2) 第三章智慧系统事业技术应用 (2) 3.1智能制造 (2) 3.2智慧屏联 (2) 3.3智慧能源 (2) 3.4智慧车联 (3) 第四章智慧健康服务事业技术应用.................... .. (3) 第五章目前人工智能发展中所面临的难题.......... . (3) 5.1计算机博弈的困难................... .. (3) 5.2机器翻译所面临的问题................... . (4) 5.3自动定理证明和GPS的局限.......... (4) 5.4模式识别的困惑 (5) 第六章人工智能的发展前景 (5) 6.1人工智能的发展趋势 (5) 6.2人工智能的发展潜力大 (5) 结束语 (6) 参考文献 (6)

现代简约室内家居毕业设计论文

美术与设计学院毕业创作(设计)说明 类别《室内空间设计》 姓名: 学号: 作品名称: 专业/届别: 指导老师: 职称:

中文摘要 本次设计为149平的家具设计图,是表达业主一种的生活态度。现代简约家居设计,是年轻喜爱的简约而很有个性、功能性的一种设计风格,该方案所选用的设计风格为现代简约风格,就是通过对比度,和空间的明亮感给人一种温馨时尚的浪漫气息。 本次设计根据业主要求,以人为本不仅从居住的舒适性方面进行考虑,更考虑业主一天劳累奔波,通过颜色明亮让他回到家可以更快的缓解工作压力,忘却不悦越心情,符合业主的心里,摒弃一切复杂的装饰。 关键词:家居设计、现代简约风格、简约时尚 目录 摘要.................................................................................I 前言 (1) 第一章室内设计的概述 (2) 第二章设计风格与构思 (3) 设计风格 (3) 设计构思 (4) 第三章设计作品陈述 (5) 客厅设计 (5) 主卧室设计 (5) 书房设计 (6) 餐厅设计 (7)

第四章总结 (8) 参考文献 (9) 附录 (10) 致谢 (15) 绪论(前言) 在经济迅猛发展的今天,人们对居住空间的使用功能与审美功能提出了更新、更高的要求,人们可以根据自身喜好充分运用各种内饰与材料来创造个性化的室内空间。 如今消费者更多追求的是环保化、个性化、简洁化的设计风格。并且追求的是一种对当今文化内涵的诠释,一种个性的表现。人们对自己的生活环境需求在不断提高。渴望得到一种简洁大方,崇尚舒适的空间,以此来转换精神的空间。 本课题主要是通过对业主生活需求,从外型上,功能上,颜色布局和材料的选择配上合理设计,让业主业主不仅能感受到时尚现代简约而不简单的设计,又能让业主感受到家的温馨和港湾,让业主能回到家感受到宽敞明亮,忘却工作上的疲惫和都市的喧哗。 第一章室内设计概述 室内设计也称为室内环境设计,室内环境是与人们生活关系最为密切的环节。室内空间是根据空间的使用情况、所处的环境和相应的要求,运用科学的技术手段和设计方案,改造出功能合理、居住舒适、满足人们物质和精神需求的室内空间环境。这一空间环境具有利用价值,更能满足人们的功能要求,也反应了历史、建筑特色等因素。环境设计不仅给我们提供功能适宜空间,更重要的是提高了人们的生活

数据仓库数据库设计的心得总结

数据仓库数据库设计的心得总结 数据仓库是企业商业智能分析环境的核心,它是建立决策支持系统的基础。一个良好的数据仓库设计应该是构建商业智能和数据挖掘系统不懈的追求。下面把数据仓库数据库设计的心得做一小结。 一透彻理解数据仓库设计过程 商业智能和数据挖掘归根到底是“从实践中来,到实践中去”。也就是说现实需求决定系统需求,业务数据决定系统构架,最终使用的时候又必须作用于现实需求,同时通过决策的行为影响业务。那么可以把数据仓库的设计看做是前一部分,即“从实践中来”,数据仓库的应用可以看做是“到实践中去”。把“从实践中来”这个过程进行抽象,数据仓库的设计就是“客观世界→主观世界→关系世界”的过程。 在前面几节完成了6个任务:选择被建模主题的商业过程、确定事实表的粒度、区分每一个事实表的维和层、区分事实表的度量、确定每一个维表的属性、在D BMS中创建和管理数据仓库。实际上这些任务都可以归结到从客观世界到关系世界的过程。那么把这个过程再进行归纳,可以得到如图3-61所示的综合了模型、方法和过程的示意图。 图3-61 数据仓库设计过程的模型和方法示意图 二把握设计的关键环节

如果将时间、精力、金钱和人事优先花在前面的20%,那么这20%会创造出80% 的价值。这就是有名的2/8原则。下面将介绍在数据仓库设计中,哪些因素是属于这20%的范围。 1.需求 需求分析在任何如见项目中都是最为重要的因素之一。企业模型是从企业的各个视点对企业数据需求及数据间关系的抽象。通过将企业模型映射到数据库系统,可以很快地了解现有数据库系统完成了企业模型中的哪些部分,还缺少哪些部分。然后再将企业模型映射到数据仓库系统,发现企业需要的(或可以构造的)主题。通过这样的过程完成对企业数据需求和现有数据的了解,达到明了原有系统和需要建设的主题域间共性的目的。 2.关键性能指标(KPI) 一般而言,一个决策支持系统最重要的就是要呈现决策数据。而KPI就是决策过程中要显示的数据结果的部分,如销售数量、销售金额、毛利和运费等数值部分的数据。这些KPI是通过与相关的维表进行连接而映射出来的。在分析星形模式时,往往要首先确定KPI。 3.信息对象 信息对象是指在每个分析过程中那些会影响到决策的因素。以销售分析为例,时间、产品、员工与客户就是影响决策的大因子,而每个因子又可以分离出多个分层结构,如时间可分为年、季度、月、周和日等,员工可分为年龄层、年龄、年薪层、年薪和员工所在城市等,也就是影响决策的详细因子。这些都是信息对象。从这里我们可以看出,每个大因子如时间、产品、员工与客户等就可以构成如时间维表、产品维表、员工维表与客户维表等。而时间维表又可分为年、季度和日等字段。在分析和设计这些信息对象组成的维度时,需要注意维的唯一性和公用性,千万不要在不同的主题中定义多个表示同一内容的维,如果有可能,一个维表要尽量被多个主题共享。 4.数据粒度 在数据仓库的每个主题中,都必须考虑事实数据的粒度。粒度的具体划分将直接影响到数据仓库中的数据量及查询质量。在数据仓库开始进行分析时。就需要建立合适的数据粒度模型,指导数据仓库设计和其他问题的解决。如果数据粒度定义不当,将会影响数据仓库的使用效果,使数据仓库达不到设计数据仓库的目的。 5.数据之间的联系 在数据仓库中,不同主题的数据之间的物理约束或许不再存在,但无论这些数据如何变化,要知道必须有一些“键”在逻辑上保持着不同数据之间的联系,这样

数据库和数据仓库的区别

简而言之,数据库是面向事务的设计,数据仓库是面向主题设计的。数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。 数据库设计是尽量避免冗余,一般采用符合范式的规则来设计,数据仓库在设计是有意引入冗余,采用反范式的方式来设计。 数据库是为捕获数据而设计,数据仓库是为分析数据而设计,它的两个基本的元素是维表和事实表。维是看问题的角度,比如时间,部门,维表放的就是这些东西的定义,事实表里放着要查询的数据,同时有维的ID。 单从概念上讲,有些晦涩。任何技术都是为应用服务的,结合应用可以很容易地理解。以银行业务为例。数据库是事务系统的数据平台,客户在银行做的每笔交易都会写入数据库,被记录下来,这里,可以简单地理解为用数据库记帐。数据仓库是分析系统的数据平台,它从事务系统获取数据,并做汇总、加工,为决策者提供决策的依据。比如,某银行某分行一个月发生多少交易,该分行当前存款余额是多少。如果存款又多,消费交易又多,那么该地区就有必要设立ATM了。 显然,银行的交易量是巨大的,通常以百万甚至千万次来计算。事务系统是实时的,这就要求时效性,客户存一笔钱需要几十秒是无法忍受的,这就要求数据库只能存储很短一段时间的数据。而分析系统是事后的,它要提供关注时间段内所有的有效数据。这些数据是海量的,汇总计算起来也要慢一些,但是,只要能够提供有效的分析数据就达到目的了。 数据仓库,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,它决不是所谓的“大型数据库”。那么,数据仓库与传统数据库比较,有哪些不同呢?让我们先看看W.H.Inmon关于数据仓库的定义:面向主题的、集成的、与时间相关且不可修改的数据集合。 “面向主题的”:传统数据库主要是为应用程序进行数据处理,未必按照同一主题存储数据;数据仓库侧重于数据分析工作,是按照主题存储的。这一点,类似于传统农贸市场与超市的区别—市场里面,白菜、萝卜、

《人工智能及应用》论文

重庆理工大学 专业选修课课程考察报告《人类智能与人工智能的思考》 课程名称:《人工智能及应用》学生姓名: 学号: 提交时间:2016年12月12日

[摘要] 计算机技术的高速发展使得计算机的运算速度可以超过人脑的运算速度,同时出现了诸如进行人机对弈等高度智能的计算机,那么是否意味着人工智能能够达到或超过人类智能的程度呢?本文将对此进行分析、思考。 [关键词] 计算机;人类智能;人工智能;算法;思维 进入2l世纪,计算机硬件和软件更新的速度越来越快,计算机这个以往总给人以冷冰冰的机器的形象也得到了彻底的改变。人机交互的情形越来越普遍,计算机被人类赋予了越来越多的智能因素。伴随着人类把最新的计算机技术应用于各个学科,对这些学科的认知也进入了日新月异的发展阶段,促使大量的新的研究成果不断涌现。例如:“人机大战”中深蓝计算机轻松的获胜、人类基因组排序工作的基本完成、人类大脑结构性解密、单纯器官性克隆的成功实现等等。随着计算机这个人类有史以来最重要的工具的不断发展,伴随着不断有新理论的出现,人类必须重新对它们进行分析和审视。由于近几年生物学和神经生理学等许多新的研究成果的出现,对于人工智能与人类智能之间的关系引起了人们更多的思考。本文以比较的方法分析人类智能与人工智能二者的异同,并从马克思主义哲学的角度再次对人工智能与人类智能的进行了分析。 一、人类智能与人脑思维 我们知道所有的动物都有中枢神经控制系统,有了这一套系统也就有了思维。思维在不同的生物之间具有不同的功能,在低等动物中思维的作用更多的是本能控制,高等动物除了本能控制以外还有为适应环境所工作,人类思维则具有了改造环境所进行的工作。人类的思维起源于对周围事物的认识,最初是形象思维过程,等人们发现各个事物之间的相互关系之后,就开始了逻辑思维过程,随着对事物之间相互关系的分门别类和对周围世界认识的加深,又有形式逻辑,数理逻辑,抽象逻辑等等。人类自身的智能是人类思维活动中表现出来的能力,大脑是人类认知和智能活动的载体,思维是大脑对客观事物的本质及其内在联系的概括和反映。人类智能的也就是人类思维的结果。但是直到现在,科学家对于人脑的结构以及人脑的思维过程一直处于研究阶段,当然,随着时间的推移和科学技术水平的提高,有一天人类应该会破解自身的思维过程。

现代简约风格毕业设计论文

本次设计在设计中运用简洁的造型、明快的基调、和谐的陈设搭配,将人与家居环境融合起来,并体现现代家居生活的品质,以舒适作为室内装饰的出发点,舍弃复杂的造型和繁复的装饰,使总体空间大气、优雅而又整洁、宁静。 色彩在室内装饰中是另一个重要的元素,虽然色彩的存在离不开具体的物体,但它却具有比较形态、材质、大小更强的视觉感染力,视觉效果更直接,根据空间使用者的职业和年龄,以及空间的氛围需求选择不同的色彩,以此创造相应的室内空间个性。 在这个设计方案中现代简约风格在设计中得到了淋漓尽致的诠释。这种风格的家居没有花哨的装修,没有让人眼花缭乱的物件,摒弃了一切繁复的装饰。 关键词室内装饰简洁色彩 一、设计定位 本次设计的案例中没有浓烈的色彩,没有烦琐装饰的居室风格。人在其中,能获得一种解放,一种不被环境包围的释然。于是,人和家具便脱离了空间的概念和谐相处,这就是现代简约居室的魅力。 简约的居室一定不是花哨的,给人的感觉不是浓妆艳抹,而是宁静利索。简约的用色定义并不是只用单一种颜色,但是一般来讲,简约空间里的主题颜色不要超过两种,最好是一种,作为点缀的颜色面积一定要小,在整体设计中起到画龙点睛

的作用,但最好不要“喧宾夺主”。 家装提倡天然的装饰材料,没有艳丽的色彩,没有过多的修饰,整体设计横平竖直,还原材料的本体。天然石材如大理石、花岗岩等,天然木材,这些材料来源于自然,拉近了人和材料、人和自然的距离,给人一种亲切感,整体极简现代。 以自然为本、力求简洁是本案的设计定位。 二、设计过程及分析 根据以上原则,方案初步在设计初期的展开过程中,首先对原始图框进行深入的分析,划分所需的功能区域,整体地对平面设计功能做出一个结构功能划分图。 1.客厅 由此确定了整个起居室的大致功能的布置,根据人的视觉及风水学的要求,摆放家具,并留出宽阔的位子方便人的流动。 此次设计的客厅简洁大方,大气中也能透着家庭的温馨,米黄色的背景搭配黑色胡桃木的装饰体现了主人多元化的审美观。以简约为主的装饰。直接体现家庭成员利落的生活态度。仅有的一件装饰品便是墙上的装饰画,它的应用充分反映出主人的喜好和品位,并将客厅的色彩和比例元素纳入其中,整体关系协调,使客厅的气氛得到了升华。规划出一个全家人都喜欢的居家风格,让客厅成为全家人最喜欢的聚会场所,因此客厅的装饰变的尤为重要。

《数据仓库数据平台与数据中台对比》

数据仓库数据平台与数据中台对比 在大数据时代,凡是AI类项目的落地,都需要具备数据、算法、场景、计算力四个基本元素,缺一不可。处理大数据已经不能仅仅依靠计算力就能够解决问题,计算力只是核心的基础,还需要结合不同的业务场景与算法相互结合,沉淀出一个完整的智能化平台。数据中台就是以云计算为数据智能提供的基础计算力为前提,与大数据平台提供的数据资产能力与技术能力相互结合,形成数据处理的能力框架赋能业务,为企业做到数字化、智能化运营。 目前,外界与业内很多人对于数据中台的理解存在误区,一直只是在强调技术的作用,强调技术对于业务的推动作用,但在商业领域落地的层面上,更多时候技术的发展和演进都是需要跟着业务走,技术的发展和进步需要基于业务方的需求与数据场景应用化的探索来反向推动。这个也就是为什么最近知乎、脉脉都在疯传阿里在拆“大中台”?个人猜想,原因是没有真正理解中台的本质,其实阿里在最初建设数据中台的目的主要是为了提升效率和解决业务匹配度问题,最终达到降本增效,所以说“拆”是假的,在“拆”的同时一定在“合”,“拆”的一个方面是企业战略布局层面上的规划,架构升级,如果眼界不够高,格局不够大,看到的一定只是表面;另一方面不是由于组织架构庞大而做“拆”的动作,而是只有这样才能在效率和业务匹配度上,做到最大利益化的解耦。

数据中台出现的意义在于降本增效,是用来赋能企业沉淀业务能力,提升业务效率,最终完成数字化转型。前一篇数据中台建设的价值和意义,提到过企业需要根据自身的实际情况,打造属于自己企业独有的中台能力。 因为,数据中台本身绝对是不可复制的,从BCG矩阵的维度结合各家市场资源、市场环境、市场地位以及业务方向来看,几乎所有企业的战略目标都是不一样的。如果,有人说能把中台卖给你、对于中台的解读只讲技术,不讲业务,只讲产品,不讲业务,不以结合企业业务目标来解决效率和匹配度为目的的都有耍流氓嫌疑。数据中台的使命和愿景是让数据成为如水和电一般的资源,随需获取,敏捷自助,与业务更多连接,使用更低成本,通过更高效率的方式让数据极大发挥价值,推动业务创新与变革。 为了进一步统一大家的认知,更加清晰的认识数据中台出现的意义,本篇按顺序介绍如下: ? ? ? ? 数据中台演进的过程数据仓库、数据平台和数据中台的概念数据仓库、数据平台和数据中台的架构数据仓库、数据平台和数据中台的区别与联系

人工智能论文3500字

研究生课程论文 人工智能前沿 论文题目:人工智能技术在求机器人工作 空间的应用 课程老师:罗亚波 学院班级:汽研1602班 学生姓名:张小涵 学号:15 2016年10月

人工智能技术在求机器人工作空间的应用 摘要 人工智能的发展迅速,现在已经渗透到机器人的全方位分析与机器人的工作空间的计算中,其对机器人的应用起着越来越重要的作用。元素限制法由三个限制元素构成,分别为杆长限制、转角限制、连杆的干涉。在初步确定限制元素后即可得到边界条件,即可得到工作空间。圆弧相交法由运动学反解过程、工作空间的几何描述以及工作空间的计算过程组成。两者各有其优缺点,都就是可取的求工作空间的方法。 关键词:人工智能元素限制圆弧相交工作空间 Abstract With the rapid development of artificial intelligence, it has been applied to the analysis of the robot and the working space of the robot、It plays a more and more important role in the application of the robot、The element restriction method is composed of three elements, which are the length of the rod, the restriction of the angle and the interference of the connecting rod、 Boundary conditions can be obtained after the preliminary determination of the limiting element、 The arc intersection method is composed of the process of the inverse kinematics of the kinematics, the geometric description of the working space and the calculation process of the working space、 Both have their own advantages and disadvantages, are desirable for the working space of the method、Key words: artificial intelligence element limit arc intersection working space

室内设计--毕业设计说明书(现代简约风格).

中文摘要 随着国民经济的的快速发展和人民生活水平的不断提高,城市生活节奏的加快,在住房状况不断改善的同时,人们对室内装潢的要求也越来越高,各种装潢材料层出不穷令人眼花缭乱,现代人生活越来越追求时尚、舒适、环保和健康,而流行中的简约主义更体现出人们个性化的一面。本文简要的阐述和分析了三室一厅现代室内设计的新宠“简约主义风格”。 现代简约风格,简洁和实用是其基本特点,也是其基本理念。简约风格已经大行其道几年了,仍旧保持较猛的势头,这是因为人们装修时在经济、实用的同时,体现了一定的文化品味。而简约风格不仅注重居室的实用性,而且还体现出了工业化社会生活的精致与个性,符合现代人的生活品位。 关键词:现代时尚,简洁,实用 目录 中文摘要 (1) 引言 (3) 一.课题研究的主要内容 (4) 二. 课题风格的含义 (5) 三. 课题研究的意义和目的 (5) 四. 设计方案实现 (6) 五. 设计原理 (7) 六. 设计过程 (8) 结束语 (9) 致谢 (10) 参考文献 (11) 引言 有人说设计就是纯粹的艺术,张扬个性,我认为这是不全面的。随着国民经济的快速发展和人民生活水平的不断提高,在住房状况不断改善的同时,人们对室内装潢的要求也越来越高,各种装潢材料层出不穷令人眼花缭乱,但是如果采用不适当的装潢材料和家庭用品甚至各种电器,就很可能造成室内环境污染。 所以设计,是解决生活、行为问题。 我其实很反对室内设计做得中看不中用,我觉得不该刻意去搞什么概念,因为那不是真正地在反映我们的生活状态,离生活其实太远太远,仅仅是用来展示的。然而其实设计就像我的导师经常说的那样,就是要解决我们的生活问题,或者是行为问题,这才叫设计。

浅谈数据仓库中的元数据管理技术

浅谈数据仓库中的元数据管理技术 孙力君仇道霞方峻峰宋楠 山东省烟草公司信息中心 摘要:数据仓库是数据库的发展方向之一,对企业管理和决策支持起着重要的辅助作用。简要介绍了数据仓库和元数据的基本概念,重点阐述了元数据的概念、作用、CWM标准、来源,并就元数据具体应用进行了初步的研究和探讨。 关键词:数据仓库;元数据; 1. 引言 随着市场竞争的越来越激烈,烟草行业的信息化建设不断的深入发展,全行业形成了“以信息化带动烟草行业现代化建设”的基本共识,明确了“统一标准、统一平台、统一数据库、统一网络”,逐步实现系统集成、资源整合、信息共享的信息化建设总体要求,走过了“由基础性向应用性、由局部性向全局性、由分散性向集中性建设”的三个转变历程,初步形成了“数字烟草”的行业信息化建设格局,既对行业数据中心的建设提出了迫切的要求,也为行业数据中心建设奠定了坚实的基础。 随着数据库技术尤其是数据仓库技术的发展,人类能更容易获得自己需要的数据和信息,由于元数据是数据仓库中非常重要的组成部分,因此讨论和研究元数据在数据仓库中的作用和应用,具有非常重要的意义。 元数据管理是山东烟草数据中心建设的重要组成部分,元数据管理平台为用户提供高质量、准确、易于管理的数据,它贯穿数据中心构建、运行和维护的整

个生命周期。同时,在数据中心构建的整个过程中,数据源分析、ETL过程、数据库结构、数据模型、业务应用主题的组织和前端展示等环节,均需要通过相应的元数据的进行支撑。元数据管理的生命周期包括元数据获取和建立、元数据的存储、元数据浏览、元数据分析、元数据维护等部分。 通过元数据管理,形成整个系统信息数据资的准确视图,通过元数据的统一视图,缩短数据清理周期、提高数据质量以便能系统性地管理数据中心项目中来自各业务系统的海量数据,梳理业务元数据之间的关系,建立信息数据标准完善对这些数据的解释、定义,形成企业范围内一致、统一的数据定义,并可以对这些数据来源、运作情况、变迁等进行跟踪分析。完善数据中心的基础设施,通过精确把握经营数据来精确把握瞬息万变的市场竞争形式,使山东烟草在市场竞争中保持优势。 总的来说,元数据管理平台集成相关的元数据,形成企业的全局数据视图,提供企业级共享元数据的平台,是烟草业务系统的基础设施,对业务系统的发展、应用和数据质量的提升有着深远影响。 2.数据仓库概述 目前有关数据仓库的概念有多种,其中最经典的,引用最为广泛的定义是W.H.Inmon在《Building the Data Warehouse》一书中给出的,他指出:“数据仓库是面向主题的、集成的、随时间变化的、非易失的数据集合,用于支持管理层的决策过程”。[1] 之所以要引入数据仓库,是因为随着信息时代的到来,如何从大量已存在的数据中提取出自己所感兴趣的信息并进行分析和预测越来越成为企业管理者和决策者所关心的问题。为了更好的进行管理和决策,许多企业都选择了数据仓库,利用数据仓库可以对各种源数据进行抽取、清理、加工

人工智能结课论文

内蒙古科技大学2014/2015 学年第一学期《人工智能》结课报告 课程号:76807376-01 考试方式:结课报告 使用专业、年级:计算机应用2012-3,4 任课教师:陈淋艳 班级:12级计算机3班 学号:1276807336 姓名:王志鹏

目录 前言 (3) 一、专家系统简介 (4) 二、关键字: (5) 三、专家系统概念和理论 (6) 四、专家系统的发展概况 (7) 五、专家系统的应用分析 (8) 六、专家系统的发展前景 (12) 七、专家系统的总结 (13) 八、学习心得 (14) 参考文献 (15)

前言 人工智能是经过40多年发展起来的一门综合性学科,它旨在研究如何利用计算机等现代工具设计模拟人类智能行为的系统。在众多的人工智能应用领域中,专家系统是30多年来发展起来的一种最具代表性的智能应用系统,它旨在研究如何设计基于知识的计算机程序系统来模拟人类专家求解专门问题的能力。专家系统是人工智能中最活跃的一个分支,是人工智能发展最重要的推动力。 由于人类对自身的思维规律和智能行为仍在探索中,因此,人工智能与专家系统仍然是一门开放的年轻学科。近几年来,人工智能与专家系统的研究越来越深入,新的思想、新的理论以及新的方法与技术不断涌现,新的研究成果不断充实着这一研究领域,尤其是模糊逻辑与神经网络及其结合的研究已成为当前人工智能或智能模拟的重要研究方向,学术论文数以千计,应用成果迭出。

一、专家系统简介 摘要:自从1965年世界上第一个专家系统DENDRAL问世以来,专家系统的技术和应用,在短短的30年间获得了长足的进步和发展。特别是20世纪80年代中期以后,随着知识工程技术的日渐丰富和成熟,各种各样的实用专家系统如雨后春笋般地在世界各地不断涌现。构建专家系统用到的思维方式可能是各种认知工具中最难的,因为它需要形式推理与逻辑推理,建构专家系统需要智力上的参与和挑战。本文首先介绍了专家系统的概念和理论及发展概况,并着重分析他们的应用和发展前景。

《××项目数据仓库数据质量报告》

版本号: 数据仓库数据质量报告 项目名称:

变更记录 变更审阅

一、引言 1.编写目的 这部分说明文档编写目的,描述本系统特点及使用数据仓库技术实现的业务目标。 2.背景 这部分是项目背景描述。 3.参考资料 这部分列出本文档引用资料的名称,并说明文档上下级关系。 4.术语定义及说明 这部分列出本文档中使用的术语定义、缩写及其全名。 二、数据质量评估工作范围 1.本次数据质量评估的目标 这部分明确本次数据质量评估的目标,这些目标可能包括: ●识别数据质量的关键问题,以使这些问题可以通过源数据系统数据弥补、数据补充系统或者是ETL流程进行清洗等手段解决 ●建立管理和控制机制,并使之能在短期和长期均发挥监控数据环境的作用 ●建立在信贷信息数据仓库中管理及维护数据的长期计划 2.本次项目确定的数据质量标准 这部分将《软件需求说明书》中制定本项目数据质量标准复制到这里,作为本次数据质量评估交付时的标准。 3.参与本次评估的人员组成 这部分详细说明参与本次数据质量评估的人员组成和职责分工。 4.数据质量评估方法 这部分说明本次项目使用的数据质量评估方法,包括记录评估结果的表格样式、数据质量评估工作的流程、数据质量评估结果的认证流程、评估结果的交付流程等。

三、数据质量评估结果 1.数据源数据质量评估结果 这部分将《初级数据质量分析报告》作为附件添加到文档后。 2.数据仓库数据清洗转换规则 这部分根据《初级数据质量分析报告》的结果记录数据仓库数据清洗转换的规则,只针对重点数据域设计作出说明。 四、数据质量监控维护方案 1.数据质量监控团队组织 这部分将尽可能地定义数据质量监控团队人员的组成、角色和分工。 2.数据仓库数据质量问题管理 这部分记录明确执行数据仓库数据质量监控和修改流程的触发条件,包括质量问题的类型及质量分类的标准等。 3.数据仓库数据质量监控管理计划 这部分是针对可以预见的数据质量问题提出监控管理的计划,包括沟通途径、会议计划、管理流程等。 4.数据仓库数据质量修正方案 这部分将可能使用的数据质量修正方案列在其中,必要时需要提供详细的数据修改流程和计算公式。通用的修正方案包括在数据源中修改、在ETL程序中修改、在数据仓库里修改和使用数据补录程序修改。

人工智能论文

重庆理工大学 专业选修课课程考查报告 《AI的发展与未来》 课程名称:《人工智能及应用》 专业:软件工程 学号: 学生姓名: 提交时间:2017年5月5日

进入人工智能 人工智能的话题,在近年尤其火热,很多人是因为在2016年看到AlphaGo打败了世界围棋冠军李世石。这使得大家对人工智能非常感兴趣,同时也有很多人思考人工智能是否应该继续无节制地发展下去?人们会担忧将来人工智能发展到一定的高度可能会取代人类。包括霍金、比尔·盖茨这样伟大的人物也怀疑人工智能。 我们谁都无法下结论说到底该不该发展人工智能,所以我们先来了解一下什么是人工智能,否则我们只会在对人工智能的恐惧中无法获得理性认知。 人工智能似乎没有明确的定义。人工智能就是研究如何使计算机去做过去只有人才能做的智能工作[1],这是美国麻省理工学院的温斯顿教授认为的人工智能。人工智能大概来说可能是有几个部分,首先是感知,感知是包括视觉、语音、语言;然后是决策,做一些预测,做一些判断;那当然如果你要做一套完整的系统,就像机器人或是自动驾驶,它会需要一个反馈[2]。 人工智能的发展 通过了解人工智能发展的主要里程碑,可能会更加直观的了解人工智能。在感知方面,比如我国的科大讯飞。该企业使命是让机器能听会说,能理解会思考;用人工智能建设美好世界[3]。正如他们的企业使命,讯飞语音识别软件现在已经能听懂人们所说的,而且正确率相当高,如果要打很多字完全可以不动手,直接念一遍就都以文字的形式输出来。以前电视里播的现场直播都是没有字幕的,现在已经可以在直播的时候也可以看到实时字幕。可见语音识别给我们带来了巨大的便利。还如微软的小冰,你可以在微信关注她,并且同她聊天,还可以和她语音聊天,她甚至可以为你唱歌。现在小冰会的东西越来越多,也越来越智能。 决策方面,从早期MicrosoftOffice里的工具到Google广告的推荐,然后到金融行业的很多智能决策公司的出现,进步迅速。现在的gamil,有时候收到email,Google会跳出来问要不要发回复,有时候它连回复都帮你写好了,而且写的很精确。这也是人工智能的体现。可能以后我们讲话都不用,助理能帮我们搞定。最后是反馈,比如无人驾驶汽车,它通过车载传感系统感知道路环境,并根据感知所获得的道路、车辆位置和信息,控制车辆的转向和速度,自动规划行车路线并控制车辆到达预定目标的。从而使车辆能够安全、可靠地在道路上行驶。 深度学习及其应用领域 提到人工智能就不得不提深度学习,它是一种神经网络,它的特点是使用了多层网络,能够学习抽象概念,同时融入自我学习,而且收敛相对快速。收敛快速可能是一种技巧,不见得是一个理论,但是有一批人通过它解决了很多重要的问题。简单的来说,如果我们有很多笑脸,然后我们把笑脸的像素输入到一个神经网络里面去,最后你那儿希望让机器能识别这是姚明,那是马云,但是因为你这个深度学习的网络很深,要一次性学会这么多也会比较困难,所以就需要用到一个比较快速收敛的技巧——自我学习。通过自我学习,机器会逐步从大量的样本中逐层抽象出相关的概念,然后做出理解,最终做出判断和决策。深度学习或者是任何的机器学习,它是不是超越人类的能力表现,如果超越的话,可能很多应用就会产生。比如在机场,如果机器识别人脸的准确度超过人,那么那些边防的人就可能不需要那么多。这并不是说机器不会犯错,而是说既然人不能比机器做的更好,那不妨就用机器取代。

现代简约风格毕业论文

浅析简约风格在室内设计中的运用前言: 20世纪90年代,简约主义自北欧的瑞典兴起,它凭借简单而实用的形式、天然绿色的材料,成为瑞典先锋设计的主流。简约起源于现代派的极简主义. 有人说起源于现代派大师,德国包豪斯学校的第三任校长米斯.凡德罗。他提倡LESS IS MORE.在满足功能的基础上作到最大程度的简洁.,这符合了世界大战后各国经济萧条的因素,得到人们的一致推崇。简约主义发展至今,虽然在造型上做到没有任何装饰,减少到几乎无以复加,但是很注意简单的几何造型的典雅,因此达到简单但是丰富的效果。进人二十一世纪,随着材料学的发展,绿色设计、可持续发展性设计等思想的发展,简约主义又一次进人了大众的视野。 一、现代简约风格的发展 简约主义源于20世纪初期的西方现代主义,是由上个世纪80年代中期对复古风潮的叛逆和极简美学的基础上发展起来的。90年代初期,开始融入室内设计领域。简约风格的特色是将设计的元素、色彩、照明、原材料简化到最少的程度,但对色彩、材料的质感要求很高。因此,简约的空间设计通常非常含蓄,往往能达到以少胜多、以简胜繁的效果.以简洁的表现形式来满足人们对空间环境那种感性的、本能的和理性的需求,这是当今国际社会流行的设计风格——简洁明快的简约主义。而现代人快节奏、高频率、满负荷,已让人到了无可复加的接受地步。人们在这日趋繁忙的生活中,渴望得到一种能彻底放松、以简洁和纯净来调节转换精神的空间,这是人们在互补意识支配下,所产生的亟欲摆脱繁琐、复杂、追求简单和自然的心理。 图(一) 远古时期,中国的木构架建筑东方古印度的石窟建筑欧洲古希腊古罗马的石砌建筑等等装饰与构件紧密结合,与建筑主体溶为一体然而十七世纪初欧洲巴罗克时代和十八世纪中叶的洛可可时代,开始了室内装饰与建筑主体的分离,外部的建筑主体与内部的装修在使用年限上不匹配,因而导致建筑主体与室内装饰的分离,在营造法国宫廷建筑和贵族宅邸时,新的职业“装饰工匠”诞生了,对建筑物的内部频繁不断地进行改装,不动建筑主体,更换建筑“服装”的时期已经到来巴罗克式建筑

人工智能论文机器学习与大数据

《人工智能》课程结课论文课题:机器学习与大数据 姓名: 学号: 班级: 指导老师: 2015年11月13日

机器学习与大数据 摘要 大数据并不仅仅是指海量数据,而更多的是指这些数据都是非结构化的、残缺的、无法用传统的方法进行处理的数据。大数据时代的来临,随着产业界数据量的爆炸式增长,大数据概念受到越来越多的关注。然而随着大数据“越来越大”的发展趋势,我们在分析和处理的过程中感觉到的困难也愈加的多了。这个时候我们想到了机器学习。机器学习几乎无处不在,即便我们没有专程调用它们,它们也经常出现在大数据应用之中,大数据环境下机器学习的创新和发展也倍加受到了关注。 关键词:大数据;机器学习;大数据时代 Machine learning and big data Abstract Big data is not only refers to the huge amounts of data, and to talk about these data are structured, broken, can't use the traditional method of processing of the era of big data, with the industry to the explosion of data volumes, large data concept is more and more , as the data, the development trend of "growing" in the process of analysis and processing we feel is more time we thought about the machine learning is almost everywhere, even if we don't have to call them specially, they are also often appear in the big data applications, large data machine learning under the environment of innovation and the development also has received

数据仓库中的数据清洗

数据仓库中的数据清洗 刘玉① 陈金雄② ①福州大学物理与信息工程学院,350002,福州市工业路523号 ②南京军区福州总医院,350025,福州市西二环北路156号 关键词 数据清洗 二次清洗 数据仓库 摘 要 以病种分析为例,介绍了在数据仓库中数据清洗的方法——二次清洗法,二次清洗完成的工作是不同的,第一次的清洗主要负责清洗源数据中的“脏数据”,第二次清洗则负责维度的提取。 1 引言 随着时间的发展,医院信息系统中积累了大量的业务数据,越来越多的医院选择建立数据仓库以提取其中有用的信息,用于分析和决策。病种分析就是当前比较热门的主题,可以通过病种分析主题考察单病种的治愈质量、平均费用、平均住院日及单病种的病人构成情况,有利于单病种的合理限价,提高医院的竞争力。病种分析的星型结构见图1。病种分析中涉及到众多的数据,数据的准确与否直接关系着决策质量的好坏。为了能够准确的决策,必须对进入数据仓库的数据进行清洗。 图1 病种分析主题的星型结构(事实表中红色的字段为其度量) 由于数据的清洗需要占用系统较多的资源,为了不影响“军卫一号”日常的处理速度,同时保证数据尽可能的准确,我们采用了“二次清洗”的方法:将源数据抽取至数据缓冲区时进行第一次的数据清洗;将数据缓冲区的数据送入数据仓库时进行第二次的清洗,两次清洗的作用范围是不同的[1]。清洗的过程见图2。 事实表 SYM_ID AGE_ID ADD_ID SEX_ID CHARGE_ID CHARGE_DEPT DISCHARGE_DETP DOCTOR_ID 数量 平均住院日 平均费用科室维 DEPT ID 地理维 ADD ID 病种维 SYM ID 费别维 CHARGE ID 医生维 DOCTOR ID 性别维 SEX ID 年龄维 AGE ID

相关文档
最新文档