TERADATA数据库

TERADATA数据库
TERADATA数据库

TERADATA数据库

1.表属性: Set / Multiset

●Set Table 不允许记录重复

●MultiSet Table 允许记录重复

●默认值:Set Table

> Create Table... AS ... 生成的目标表属性默

●对SET Table 进行INSERT 操作,需要检查是否存在重复记录

> 相当的耗资源

> 若真要限定唯一性,可以通过UPI 或USI 实现

●建议:Teradata中都用MultiSet

2.主索引(PI) 设置

●PI 影响数据的存储与访问,其选择标准:

> 不同值尽量多的字段(More Unique Values)

> 使用频繁的字段:包括值访问和连接访问

> 少更新

> PI 字段不宜太多

> 最好是手动指定PI

3.分区索引(PPI) 设置

●PPI (Partition Primary Index ,分区索引),把具有相同分区值的数据聚簇

存放在一起;类似于SQL Server 的聚簇索引(Cluster Index ),Oracle 的聚簇表(Cluster Table )。

●利用PPI ,可以快速插入/ 访问同一个Partition (分区)的数据。

●Partition 上不要使用表达式,否则Partition 不能被正确使用。

> Substring(T1. tx_date from 1 for 6) ='200709'

> cast( '200710' || '01' as date) 写法错误,PPI 不起作用

4.临时表

1)可变临时表

●在spool缓冲区中物化。

●不使用数据字典和交易锁。

●在cache中保留表的定义。

●在一个会话中,能够被多个查询使用。

●可以随时被手动删除,会话结束时自动删除。

●使用CREATE VOLATILE TABLE语句创建。

●使用ON COMMIT PRESERVE ROWS,允许会话中的其他查

询使用这个可变临时表。

●缺省是ON COMMIT DELETE ROWS,意味着查询提交

后,数据被删除。

●LOG指示维护交易日志,NO LOG的性能更好。缺省是LOG。

●一个会话中,最多有64个可变临时表。

●每个可变临时表必须有唯一的名称。

●不同会话可以使用同样的可变临时表名称

●表名不能与此用户已有的对象重名

●DELETE DATABASE/USER (不能删除可变临时表)

例子:

create volatile multiset table vt_RETAIN_ANLY_MON as

( select col1,col2, …

from …

where …group by ….

) with data PRIMARY INDEX (PI_Cols)

ON COMMIT PRESERVE ROWS;

2)全局临时表

●全局临时表与可变临时表有不同的地方:

z 基础定义是永久的,保存在数据字典中。

z 要物化表,要有相应SQL的权限。

z 空间要占用用户的“临时空间(temporary space)”。

z 每个会话最多可以物化32全局临时表。

z 系统重启动后,还存在。

●全局临时表与可变临时表有相似的地方:

z 对会话而言,每个实例是本地的。

z 会话结束后,物化的表被自动删除。(但基础定义仍然存储在数据字典中)

z 都有LOG 和ON COMMIT PRESERVE/DELETE选项。

z 物化表中内容与其他会话不共享。

z 在会话开始时,表被清空。

●使用CREATE GLOBAL TEMPORARY命令创建

5.数据类型

●非日期字段与日期字段char & date 的转换与关联

●数值运算时,确保运算过程中不丢失计算精度。

例: CAST(100/3.00 AS DEC(5,2))

●字符( 串) 与数字相比较

比较规则: 1) 比较两个值( 字段) ,它们的类型必须一样!

2) 当字符( 串) 与数字相比较时,先把字符( 串) 转换成数字,再进行比较。

6.SQL语句性能优化

●减少目标列,可以少消耗SPOOL 空间,从而提高SQL 的效率

●根据Where 条件先进行过滤数据集,再进行连接(JOIN) 等操作

●用Case When 替代UNION

●用OR 替代UNION

●去掉多余的Distinct 与Group by

> Distinct 是去除重复的操作

> Group by 是聚集操作

> 某些情况下,两者可以起到相同的作用

> 两者的执行计划不一样,效率也不一样

> 建议:使用Group by

●Union vs. Union all

> Union 与Union all 的作用是将多个SQL 的结果进行合并

> Union 将自动剔除集合操作中的重复记录,需要耗更多资源

> Union all 则保留重复记录,一般建议使用Union all 。

> 第一个SELECT 语句,决定输出的字段名称,标题,格式

> 要求所有的SELECT 语句:

1) 必须要有同样多的表达式数目;

2) 相关表达式的域必须兼容

●先Group by 再join

> 先汇总再连接,可以减少参与连接的数据集大小,减少比较次数,从而提高效率。

例如:假设历史表(History )有 1 亿条记录

1)以下SQL ,需要进行 1 亿×90 次比较

SELECT H.product_id,sum(H.account_num)

FROM History H , Calendar DT

WHERE H.sale_date = DT.calendar_date AND DT.quarter = '3'

GROUP BY 1;

2)以下SQL ,则只需要 1 亿× 1 次比较

SELECT H.product_id, SUM(H.account_num)

FROM History H ,

( SELECT min(calendar_date) min_date,max(calendar_date) max_date

FROM Calendar

WHERE quarter = '3'

) DT

WHERE H.sale_date BETWEEN DT.min_date and DT.max_date

GROUP BY 1;

●提取公共SQL 形成临时表

●多表关联条件

7.连接条件过于复杂

8.缺乏统计信息

传统的数据库的优劣势v1.0

1.传统数据库的优劣势 数据库技术产生于20世纪60年代末期,是计算机领域中最重要的技术之一,是一种比较理想的管理技术。数据库(Data Base)可以看作是与现实世界有一定相似的模型,是认识世界的基础,是集中、统一存储和管理某个领域信息的系统,它根据数据间的自然联系而构成,数据较少冗余,且具有较高的数据独立性,能为多种应用服务。而传统的数据库是指关系型数据库,如MySQL、Oracle、SqlServer等。 1.传统数据库的优势 ●灵活性和建库的简单性:从软件开发的前景来看,用户与关系数据库编 程之间的接口是灵活与友好的。目前在多数RDDMS产品中使用标准查询 语言SQL,允许用户几乎毫无差别地从一个产品到另一个产品存取信息。 与关系数据库接口的应用软件具有相似的程序访问机制,提供大量标准 的数据存取方法。 ●结构简单:从数据建模的前景看,关系数据库具有相当简单的结构(元 组),可为用户或程序提供多个复杂的视图。数据库设计和规范化过程也 简单易行和易于理解。由于关系数据库的强有力的、多方面的功能,已 经有效地支持许多数据库纳应用。 ●易于维护:丰富的完整性(实体完整性、参照完整性和用户定义的完整性) 大大减低了数据冗余和数据不一致的概率。 2.传统数据库的劣势 ●数据类型表达能力差:从下一代应用软件的发展角度来看,关系数据 库的根本缺陷在于缺乏直接构造与这些应用有关的信息的类型表达能 力,缺乏这种能力将产生以下有害的影响,例如:大多数RDBMS产品 所采用的简单类型在重构复杂数据的过程中将会出现性能问题;数据 库设计过程中的额外复杂性;RDBMS产品和编程语言在数据类型方面 的不协调。 大多数现代的RDBMS产品已成熟地用于商务和财政方面,而这些领域不要求很高和很复杂的数据模型。虽然这些产品多多少少克服了 一些以上所述的缺点,但从理论上看关系数据模型不直接支持复杂的

Teradata数据库配置说明

1.Teradata Client安装说明 1、安装程序地址:ftp://10.3.7.141/ 2、点击Setup.exe,开始运行安装程序 3、出现如下安装启动画面: 4、选择Custom安装方式(请不要选择Typical)

5、选择安装组件 请依次选择以下程序: 6、点击Next直至完成

2.Teradata数据库配置说明 1)测试数据库说明 2)配置ODBC 1、打开odbc数据源管理器、选择系统dsn页点击【添加】按钮

2、选择T eradata驱动程序,点击【Finish】按钮 3、填DB Source、T eradata Info、Uername、Password等选项点击【ok】按钮完成。

说明: ●Data Source:odbc的名称 ●Teradata Server Info Name(s):Teradata数据库的IP地址 ●Username:用户名 ●Password:密码 ●Default Database:默认数据库 3)配置HOST文件 1、打开系统目录-system32-Drivers-etc(如XP系统: C:\Windows\system32\drivers\etc)下的hosts文件 2、填写T eradata数据库的CLI接口地址:如 127.0.0.1 localhost 10.3.7.9 cpcimtcop1 说明: 第一部分为Teradata的ip地址,后面为任意名字和cop1、cop2的组合

3.Teradata客户端配置 1) Teradata Administrator配置 选择菜单T ools/Options 修改General选项,选中用SQL Assistant代替查询窗口选项。

Teradata分析

1、 T eradata 优势 ,能否打数据并发 1)优势 以下是部分Teradata 客户数据仓库管理的内容,可说明Teradata 系统的强大处理能力: ? 多达千亿行数据的数据库表格 ? 每天数据加载超过30亿条记录 ? 每天捕获3000万笔客户交易 ? 每天为消费者在线提供150万种个性化产品和服务 ? 每小时处理100万次数据库查询 ? 每天响应1万个并发数据仓库用户 ? 业务查询响应时间仅为40-50毫秒 2)并发问题: 机制 :Teradata 巨表数据存放机制好像是每个节点均匀分布表中一部分数据,当查询的时候每个节点并行查询,结果汇总到某个节点反馈给查询者。这个复杂查询的实例形象地说明了Teradata 的多维并行处理机制。 M ulti-S tep 并 行 并 行 作1. 搜 索 LineItem 2. 搜 索 O rders 3. 联 接 Lineitem & O rders 并 行P R O C 同 时 与 各 自 相 关 据 图8-16 T eradata 内部并行处理机制说明 这里假设系统配置有4个虚拟处理器(VPROC),某个复杂查询被优化器分解成了7个步骤,

图中SUPPLIERS、PARTS、PARTSUPP等为数据库中表的名字。在每个步骤执行时,4个VPROC 同时处理与各自相关的数据块,例如搜索SUPPLIERS表,该表的记录是通过HASH算法均匀分布在四个VPROC各自负责的磁盘中的,搜索时4个VPROC将同时进行,把相关的记录搜索出来,这就是所谓的查询并行。 例子: 例如:使用NCR 5300服务器,2个节点,存储为2TB,RAID1,在业务高峰期,系统并发查询用户在300个以上,最高到1000个,此时系统响应速度有些缓慢大概业务查询响应时间30秒,峰值过后速度就加快了。主要进行的操作就是表之间的关联查询,4张表,每张6-7千万条记录,ETL加载的数据量不算太大。 2、T eradata内外部集建立原则 针对实际的应用,采用内外部集市可以有效的发挥起各自的优势: 1)松耦合原则 介于要将整个系统划分为数据和应用层,相互存在很多密切关联,在设计库表时要充分考虑数据和应用的相互影响,做到应用不影响到数据的处理,数据处理不直接针对应用的松耦合技术架构 2)任务明确原则 数据处理层和应用层在处理具体业务时,必然存在既可以在数据层处理有可以在应用层处理的问题,需要在设计时充分讨论业务需求,做到责任明确,任务单一,各负其责。 3、teradata比较oracle的优缺点 Teradata是专为数据仓库OLAP设计的,主要用来进行数据的综合分析和处理, Oracle更多的适合联机事务处理的OLTP应用,针对DW 数据仓库从以下几个角度对teradata进行分析: 1、数据管理能力(Data Management) 数据自动分配 Teradata中只有一种基于HASH算法的数据分配机制,当要插入一条记录时,根据主索引计算出相应的AMP,该条记录即通过此AMP存到其对应的磁盘上。由于主索引值的不同,一个表的各条记录将通过各AMP均匀地分布到各个磁盘上。分配过程完全自动进行,不需要DBA干预,这一点和其它OLTP DBMS有很大的区别。Teradata的HASHING算法经过长期的发展,已经十分完善。它采用了一个类似矩阵的HASH MAP,将计算出来的HASH值通过此矩阵

数据仓库厂商比较

一、数据仓库厂商简介 1、IBM IBM,即国际商业机器公司,1911 年创立于美国,是全球最大的信息技术和业务解决方案公司,目前拥有全球雇员31 万多人,业务遍及160 多个国家和地区。2004 年,IBM 公司的全球营业收入达到九百六十五亿美元. 在过去的九十多年里,世界经济不断发展,现代科学日新月异,IBM 始终以超前的技术、出色的管理和独树一帜的产品领导着全球信息工业的发展,保证了世界范围内几乎所有行业用户对信息处理的全方位需求。众所周知,早在1969 年,阿波罗宇宙飞船载着三名宇航员,肩负着人类的使命,首次登上了月球;1981 年哥伦比亚号航天飞机又成功地飞上了太空。这两次历史性的太空飞行都凝聚着IBM 无与伦比的智慧。 IBM 与中国的业务关系源远流长。早在1934 年,IBM 公司就为北京协和医院安装了第一台商用处理机。1979 年,在中断联系近30 年之后,IBM 伴随着中国的改革开放再次来到中国。同年在沈阳鼓风机厂安装了中华人民共和国成立后的第一台IBM 中型计算机。 随着中国改革开放的不断深入,IBM 在华业务日益扩大。80 年代中后期,IBM 先后在北京、上海设立了办事处。1992 年IBM 在北京正式宣布成立国际商业机器中国有限公司,这是IBM 在中国的独资企业。此举使IBM 在实施其在华战略中迈出了实质性的一步,掀开了在华业务的新篇章。随后的1993 年,IBM 中国有限公司又在广州和上海建立了分公司。到目前为止,IBM 在中国的办事机构进一步扩展至哈尔滨、沈阳、深圳、南京、杭州、成都、西安、武汉、福州、重庆、长沙、昆明和乌鲁木齐等16 个城市,从而进一步扩大了在华业务覆盖面。伴随着IBM 在中国的发展,IBM 中国员工队伍不断壮大,目前已超过5000 人。除此之外,IBM 还成立了8 家合资和独资公司,分别负责制造、软件开发、服务和租赁的业务。 IBM 非常注重对技术研发的投入。1995 年,IBM 在中国成立了中国研究中心,是IBM 全球八大研究中心之一,现有150 多位中国的计算机专家。随后在1999 年又率先在中国成立了软件开发中心,现有近2000 位中国软件工程师专攻整合中间件,数据库,Linux 等领域的产品开发。 二十多年来,IBM 的各类信息系统已成为中国金融、电信、冶金、石化、交通、商品流通、政府和教育等许多重要业务领域中最可靠的信息技术手段。IBM 的客户遍及中国经济的各条战线。 与此同时,IBM 在多个重要领域占据着领先的市场份额,包括:服务器、存储、服务、软件和笔记本电脑等。 取诸社会,回馈社会,造福人类,是IBM 一贯奉行的原则。IBM 积极支持中国的教育事业并在社区活动中有出色的表现。 IBM 与中国高校合作关系的开始可追溯到1984 年,当年IBM 为中国高校作了一系列计算机设备硬件和软件的捐赠。1995 年 3 月,以IBM 与中国国家教委(现教育部)签署合作谅解备忘录为标志,“IBM 中国高校合作项目”正式启动,这一长期全面合作关系的基本宗旨是致力于加强中国高校在信息科学技术领域的学科建设和人才培养。10 年来,IBM 中国高校合作项目不断向着更高的水平、更深的层次和更广的领域发展,对中国高校信息技术相关专业的学科建设和人才培养起到了积极的推动作用。 自1995 年以来,IBM 已向中国高校捐赠了价值人民币10.1 亿元的计算机设备、软件及服务。此外,通过与教育部在基础教育领域的合作,IBM 向中国教育机构捐赠的设备总价值达人民币3177 万元。迄今为止,IBM 对中国教育机构的捐赠已高达人民币10.4 亿元。 在高校合作项目方面,目前IBM 已与50 多所中国知名高校建立了合作关系。30 万人次学生参加了IBM 技术相关课程的学习和培训,3.7 万人次学生获得IBM 全球专业技术认证证书,3000 人次教师参加了IBM 组织的不同形式的师资培训。 除了在高等教育领域与中国教育界进行合作之外,IBM 还将合作范围积极拓展到基础教育领域。继2001 年IBM KidSmart“小小探索者”儿童早期智力开发工程引入中国以来,IBM 已经连续4 年在中国开展了这一项目。目前IBM 已与遍及全国各省、市、自治区共38 个城市的近400 所幼教机构进行合作,

九大数据仓库方案特点比较

九大数据仓库方案特点比较 九大数据仓库方案特点 IBM、Oracle、Sybase、CA、NCR、Informix、Microsoft、和SAS等有实力的公司相继(通过收购或研发的途径)推出了自己的数据仓库解决方案,BO和Brio等专业软件公司也在前端在线分析处理工具市场上占有一席之地。 下面针对这些数据仓库解决方案的性能和特点做分析和比较。IBM IBM公司提供了一套基于可视数据仓库的商业智能(BI)解决方案,包括:Visual Warehouse(VW)、Essbase/DB2 OLAP Server 5.0、IBM DB2 UDB,以及来自第三方的前端数据展现工具(如BO)和数据挖掘工具(如SAS)。其中,VW是一个功能很强的集成环境,既可用于数据仓库建模和元数据管理,又可用于数据抽取、转换、装载和调度。Essbase/DB2 OLAP Server支持“维”的定义和数据装载。 Essbase/DB2 OLAP Server不是ROLAP(Relational OLAP)服务器,而是一个(ROLAP和MOLAP)混合的HOLAP服务器,在Essbase完成数据装载后,数据存放在系统指定的DB2 UDB数据库中。严格说来,IBM自己并没有提供完整的数据仓库解决方案,该公司采取的是合作伙伴战略。例如,它的前端数据展现工具可以是Business Objects的BO、Lotus的Approach、Cognos的Impromptu或IBM的Query Management Facility;多维分析工具支持Arbor Software的Essbase和IBM(与Arbor 联合开发)的DB2 OLAP服务器;统计分析工具采用SAS系统。Oracle Oracle数据仓库解决方案主要包括Oracle Express和Oracle Discoverer两个部分。 Oracle Express由四个工具组成:Oracle Express Server是一个MOLAP (多维OLAP)服务器,它利用多维模型,存储和管理多维数据库或多维高速缓存,同时也能够访问多种关系数据库;Oracle Express Web Agent通过CGI或Web插件支持基于Web的动态多维数据展现;Oracle Express Objects前端数据分析工具(目前仅支持Windows平台)提供了图形化建模和假设分析功能,支持可视化开发和事件驱动编程技术,提供了兼容Visual Basic语法的语言,支持OCX和OLE;Oracle Express Analyzer是通用的、面向最终用户的报告和分析工具(目前仅支持Windows平台)。Oracle Discoverer即席查询工具是专门为最终用户设计的,分为最终用户版和管理员版。在Oracle数据仓库解决方案实施过程中,通常把汇总数据存储在Express多维数据库中,而将详细数据存储在Oracle 关系数据库中,当需要详细数据时,Express Server通过构造SQL语句访问关系数据库。但目前的Express还不够灵活,数据仓库设计的一个变化往往导致数据库的重构。另外,目前的Oracle 8i和Express 之间集成度还不够高,Oracle 8i和Express之间需要复制元数据,如果Oracle Discoverer (或BO)需要访问汇总数据,则需要将汇总数据同时存放在Oracle和Express中,系统维护比较困难。值得注意的是,刚刚问世的Oracle 9i把OLAP和数据挖掘作为重要特点。 Sybase Sybase提供的数据仓库解决方案称为Warehouse Studio,包括数据仓库的建模、数据抽取与转换、数据存储与管理、元数据管理以及可视化数据分析等工具。其中,Warehouse Architect 是PowerDesigner中的一个设计模块,它支持星形模型、雪花模型和ER模型;数据抽取与转换工具包括PowerStage、Replication Server、Carleton PASSPORT,PowerStage是Sybase提供的可视化数据迁移工具。Adaptive Server Enterprise是Sybase企业级关系数据库,Adaptive Server IQ是Sybase公司专为数据仓库设计的关系数据库,它为高性能决策支持系统和数据仓库的建立作了优化处理,Sybase IQ支持各种流行的前端展现工具(如Cognos Impromptu、Business Objects、Brio Query 等);数据分析与展现工具包括PowerDimensions、EnglishWizard、InfoMaker、PowerDynamo等,PowerDimensions是图形化的OLAP分析工具,它支持SMP和多维缓存技术,能够集成异构的关系型数据仓库和分布式数据集市,从而形成单一的、新型的多维模式;数据仓库的维护与管理工具包括Warehouse Control Center、Sybase Central、Distribution Director,其中Warehouse Control Center 是为数据仓库开发人员提供的元数据管理工具。Sybase提供了完整的数据仓库解决方案

TeraData数据库学习笔记

处理节点(node)、用于节点间通信的内部高速互联(InterConnection)和数据存储介质(一般是磁盘阵列)。每个节点都是SMP结构的单机,节点的物理和逻辑结构如图1所示单个节点就是一个就是一个smp 处理单元,一台多CPU或多核的计算机。硬件包括CPU、内存、用于安装操作系统和应用软件的本地磁盘,与外界交互的网卡及bynet端口;节点网卡一种是与IBM MainFrame链接的Channel Adapter,另一种是局域网网卡,通常一个节点只有一种网卡,但有很多块网卡,分别用于不同的连接(比如:备份等)和冗余。 多个节点一起构成MPP系统,多个节点之间的内部高速互联时通过BYNET的硬件实现 Shared Nothing Architecture The Teradata Database virtual processors, or vprocs (which are the PEs and AMPs), share the components of the nodes (memory and cpu). The main component of the "shared-nothing" architecture is that each AMP manages its own dedicated portion of the system's disk space (called the vdisk) and this space is not shared with other AMPs. Each AMP uses system resources independently of the other AMPs so they can all work in parallel for high system performance overall. Modul-2 一个关系数据库是存储在关系数据库管理系统里的相关联的表的集合。“管理系统”这个词,指的是一个关系数据库需要软件来提供象事物处理完整性、安全性和日志的功能。Teradata是一个关系数据库管理系统。 关系数据库不用访问路径去查找数据,数据通过数据值来连接。数据连接由一个列与另外一个表中的

TERADATA数据库

TERADATA数据库 1.表属性: Set / Multiset ●Set Table 不允许记录重复 ●MultiSet Table 允许记录重复 ●默认值:Set Table > Create Table... AS ... 生成的目标表属性默 ●对SET Table 进行INSERT 操作,需要检查是否存在重复记录 > 相当的耗资源 > 若真要限定唯一性,可以通过UPI 或USI 实现 ●建议:Teradata中都用MultiSet 2.主索引(PI) 设置 ●PI 影响数据的存储与访问,其选择标准: > 不同值尽量多的字段(More Unique Values) > 使用频繁的字段:包括值访问和连接访问 > 少更新 > PI 字段不宜太多 > 最好是手动指定PI 3.分区索引(PPI) 设置 ●PPI (Partition Primary Index ,分区索引),把具有相同分区值的数据聚簇 存放在一起;类似于SQL Server 的聚簇索引(Cluster Index ),Oracle 的聚簇表(Cluster Table )。 ●利用PPI ,可以快速插入/ 访问同一个Partition (分区)的数据。 ●Partition 上不要使用表达式,否则Partition 不能被正确使用。 > Substring(T1. tx_date from 1 for 6) ='200709' > cast( '200710' || '01' as date) 写法错误,PPI 不起作用 4.临时表 1)可变临时表 ●在spool缓冲区中物化。 ●不使用数据字典和交易锁。 ●在cache中保留表的定义。 ●在一个会话中,能够被多个查询使用。

数据仓库TERADATA加载工具FASTLOAD

数据仓库Teradata的装载工具Fastload 秦大林,庞涛 1.简介: Teradata作为数据仓库行业的老大,其对数据并行处理能力令人钦佩,而Fastload工具填充数据的速度绝对可以让任何人惊讶。本文就Fastload工具的使用作一介绍,希 望能帮助读者快速掌握这个工具的使用。 Fastload支持批处理的脚本编写方式,也支持交互式的方式。其功能就是从数据文件中把大批数据快速插入Teradata数据库。在数据仓库建设阶段对ETL 是非常重要的手段,平均比其他第三方ETL工具快3倍以上。另外Fastload 也提供了错误-恢复执行功能,能够继续先前由于各种原因停下来没有完成的工 作。 Fastload能够从主机、专线、或者一般的TCP/IP连接的计算机节点上运行。 使用限制:必须是空表,并且该表上没有外健,也没有除了UPI或者NUPI以外的索引。还有要注意的一点,就是即使要上载的表是MULITISET(允许重复纪 录)的,FASTLOAD也不会将重复的纪录装入。 2.Fastload运行过程介绍 共有2个步骤,数据装载和数据排序过程 装载过程:接收从数据源文件传来的大量数据,并且按照HASH算法把数据进行分布,分布到对应的AMP里面去。数据记录被写入没有排序的数据块中。 数据排序:把装载步骤生成的大量数据块进行排序操作,并且把数据块写入磁盘。 3.支持的文件格式 在使用FASTLOAD时候,数据源文件有很严格的规则。 FASTLOAD支持5种文件格式 1.D ATA文件:使用FASTEXPORT或者BTEQ生成的数据文件。(用.export data file=… 命令生成)。 2.I NDICDATA文件:和第一种的区别在于文件包含了NULL的信息 (用.export indicdata file=…命令生成)。 3.V ARTEXT文件:变长的纪录字段,每个字段之间用某个特定的字符分隔。 4.无格式文件:需要指定某个字段的起始位置和长度,还要指定换行符的长度(需要注意的是UNIX里面用一个字节长度表示换行,WINDOWS里面是2个)例如文件格式为: 2003+ 01 +470000000542+0010+470000000659+Jan 2003+ 11 +470000000543+0011+470000000660+Jan 2003+ 23 +470000000544+0012+470000000661+Jan 就必须这样定义字段(WINDOWS环境) define SERV_ID (char(12)), deliml(char(1)), CUST_ID (char(4)), delim2(char(1)), CONTRACT (char(12)), delim3(char(1)), C_DATE (char(11)), delim4(char(1)), newlinechar(char(2))

数据仓库详细分析和说明

数据仓库详细分析和说明 发表于2016/4/5 15:12:22 609人阅读 分类:大数据神经网络 数据仓库是企业统一的数据管理的方式,将不同的应用中的数据汇聚,然后对这些数据加工和多维度分析,并最终展现给用户。它帮助企业将纷繁浩杂的数据整合加工,并最终转换为关键流程上的KPI,从而为决策/管理等提供最准确的支持,并帮助预测发展趋势。因此,数据仓库是企业IT系统中非常核心的系统。 根据企业构建数据仓库的主要应用场景不同,我们可以将数据仓库分为以下四种类型,每一种类型的数据仓库系统都有不同的技术指标与要求。 传统数据仓库

图1:传统数据仓库的架构 企业会把数据分成内部数据和外部数据,内部数据通常分为两类,OLTP交易系统以及OLAP分析系统数据,他们会把这些数据全部集中起来,经过转换放到数据库当中,这些数据库通常是Teradata、Oracle、DB2数据库等。然后在这上面对数据进行加工,建立各种主题模型,再提供报表分析业务。一般来说,数据的处理和加工是通过离线的批处理来完成的,通过各种应用模型实现具体的报表加工。 实时处理数据仓库

随着业务的发展,一些企业客户需要对一些实时的数据做一些商业分析,譬如零售行业需要根据实时的销售数据来调整库存和生产计划,风电企业需要处理实时的传感器数据来排查故障以保障电力的生产等。这类行业用户对数据的实时性要求很高,传统的离线批处理的方式不能满足需求,因此他们需要构建实时处理的数据仓库。数据可以通过各种方式完成采集,然后数据仓库可以在指定的时间窗口内对数据进行处理,事件触发和统计分析等工作,再将数据存入数据仓库以满足其他一些其他业务的需求。因此,实时数据仓库增强了对实时性数据的处理能力要求,也要求系统的架构在技术层面上需要革命性的调整。 关联发现数据仓库 在一些场景下,企业可能不知道数据的内联规则,而是需要通过数据挖掘的方式找出数据之间的关联关系,隐藏的联系和模式等,从而挖掘出数据的价值。很多行业的新业务都有这方面的需求,如金融行业的风险控制,反欺诈等业务。上下文无关联的数据仓库一般需要在架构设计上支持数据挖掘能力,并提供通用的算法接口来操作数据。 数据集市 数据集市一般是用于某一类功能需求的数据仓库的简单模式,往往是由一些业务部门构建,也可以构建在企业数据仓库上。一般来说数据源比较少,但往往对数据分析的延时有很高的要求,并需要和各种报表工具有很好的对接。 数据仓库架构的挑战 到了移动互联时代,传统架构的数据仓库遇到了非常多的挑战,因此也需要对它的架构做更多的一些演变。 首先最大的问题是数据增长速度非常迅速,导致原有的数据仓库在处理这些数据存在架构上的问题,无法通过业务层面的优化来解决。譬如,一个省级农信社的数据审计类的数据通常在十几TB,现有基于关系数据库或者MPP的数据仓库方案已经无法处理这么大数据,亟需一种新的更强计算能力的架构设计来解决问题。 其次,随着业务的发展,数据源的类型也越来越多。很多行业的非结构化数据的

相关主题
相关文档
最新文档