集团大数据平台项目案例分析

集团大数据平台项目案例分析

目录

1综述 ------------------------------------------------------------------------------------------------ 3

1.1项目背景 --------------------------------------------------------------------------------------------- 3

1.2建设目标 --------------------------------------------------------------------------------------------- 3

1.3相关案例介绍--------------------------------------------------------------------------------------- 4

1.3.1四川移动经分系统云化 ---------------------------------------------------------------------- 4

1.3.2重庆移动大数据平台 ------------------------------------------------------------------------- 8

1.3.3江苏电信2014年大数据基础平台项目------------------------------------------------- 9

1.3.4江苏电信2014年大数据经营支撑平台项目 ---------------------------------------- 13

1.3.5浙江联通大数据能力平台 ----------------------------------------------------------------- 20

1.3.6湖北移动大数据平台 ----------------------------------------------------------------------- 24

1.3.7山东移动2015年大数据平台项目 ----------------------------------------------------- 27

1.3.8上海移动2015年大数据平台管控项目----------------------------------------------- 29

1.3.9中信银行股份有限公司电子银行实时风险监控系统 ----------------------------- 31

1.3.10中信银行集团数据共享应用项目 --------------------------------------------------- 33

1.3.11成都农商行大数据操作平台项目 --------------------------------------------------- 34

1.3.12恒丰银行数据标准实施案例 ---------------------------------------------------------- 37

1.3.13CNTV(中国网络电视台)用户画像案例 ----------------------------------------- 38

1.3.14泰康人寿家族关系图谱案例 ---------------------------------------------------------- 40

1综述

1.1项目背景

互联网、云计算、物联网、及时通讯工具和社交网络的兴起和普及,特别是大数据技术的应用,正深刻改变着当前市场格局。2012年1月,达沃斯世界经济论坛发布的《大数据,大影响:国际发展的新可能》的报告宜称,大数据已成为与货币和黄金一样的一种新的经济资产类别。2012年3月29日,美国总统办事室(EOP)公布了《大数据研究和发展规划》,把大数据研发应用从商业行为提升到国家战略层面。

在这种新形式下,大数据项目将会作为整个集团的跨公司、跨部门、跨内外的数据综合服务平台,承载着互联网+业务的核心枢纽。该平台的主要建设目标是为集团及其全部相关机构提供全栈大数据服务,包括技术平台、数据应用及产品、数据服务。该平台的建设目标并不仅仅局限于使用大数据技术构建数据分析系统,而是基于云计算、云服务的理念,打造集团“数据即服务”的平台理念。通过整合集团、子公司、互联网+平台、第三方等数据,通过授权机制为集团本部、各子公司、合作伙伴、投资方等提供经营、决策等所需的相关大数据能力和数据服务。

1.2建设目标

本期项目建设目标:

1.为集团及其全部相关机构提供全栈式大数据服务,包括技术平台、数据应

用及产品、数据服务;

2.基于云计算、云服务的理念,打造集团“能力、数据即服务”的平台理念;

3.为集团本部、各子公司、合作伙伴、投资方等提供经营、决策等所需的相

关大数据基础能力和数据服务。

1.3相关案例介绍

1.3.1四川移动经分系统云化

1.3.1.1场景描述

通过大量的X86服务器,构建计算能力、存储能力比较大的云平台,将BASS 平台的营帐、详单接口全面云化,并对ODS层进行汇总,形成DWD层,屏蔽将来ODS层变化带来的影响,传统仓库仅仅存储部分常用数据,并提供部分应用访问层。

建设内容:

1、数据模型部分重构

分析新旧接口,建立DWD轻度汇总层;

汇总层模型重构;

设计用户统一视图、标签库。

2、云平台建设

详单数据存储在云平台中;

详单数据按应用进行处理和存储;

涉及到访问详单明细的应用向云平台迁移的改造;

详单数据处理后的以用户中心使用行为指标汇总层数据输送至传统仓库;

3、统一调度平台建设

支撑云平台相关作业及云ETL调度;

数据量:

每天总共500G左右,共17种Boss详单

每天2-3亿条语音详单,文件总大小约100G;

每天6-7亿条短信详单,文件总大小约300G

其它总共100G左右

1.3.1.2技术方案

图四川经分云化系统技术架构图

1、Hadoop平台承担所有数据源的ETL;

2、ETL后的详单不需要入库,直接存放在Hadoop平台上;

3、存放在Hadoop平台的详单类直接进行汇总;

4、各类BASS,VGOP,ESOP的模型计算迁移到Hadoop平台实现。

1.3.1.3实施效果

已上线应用:

云化业务启动时间上线试用时间正式运行时间区县动态划分2012年4月2012年6月2012年8月电子渠道朋友圈业务推荐分析2012年7月2012年7月2012年9月双机双卡用户分析2012年8月2012年8月2012年10月长号活性短号非活性用户分析2012年9月2012年9月2012年10月交往圈汇总2012年9月2012年9月2012年10月新增用户的来源分析2012年10月2012年11月2012年12月离网用户的去向分析2012年10月2012年11月2012年12月

成都宽表2 2013年4月2013年5月2013年6月成都宽表3 2013年4月2013年5月2013年6月成都宽表4 2013年4月2013年5月2013年6月表四川移动经分云化已上线应用列表

正在实施:

17类详单数据的加载,完成ODS—>DWD—>DW的转换、汇总

区县动态划分中的详单汇总部分

实施效果:

云化业务数据量传统模式云平台模式

区县动态划分先清洗、汇总当天的

语音话单,2.5亿条

左右,100G;

汇总结果再同月初

到前一天的结果集

进行再次汇总,数据

量每天增加,从第一

天的8000W到最后

一天的3亿左右,数

据量大约50G(字段

少一些)

传统模式下,两次汇

总都不能在仓库或

集市中一次全量执

行,只能分地市执

行,两个操作在月末

分析时需要3个小

时左右

通过云平台,可以全

省一次性进行,在目

前9台服务器的情

况下,可以半个小时

完成所有的汇总操

作;

电子渠道朋友圈业务推荐分析先清洗、汇总语音、短

信详单,得出用户的交

往圈,1个月有75亿

语音详单,25亿短信

详单,在清洗出需要字

段的情况下,仍然达到

1.5T的数据量;

再挖掘出朋友圈,查询

朋友圈的业务开通情

况,关联的营帐数据量

大概2G;

当时是新需求,基于传

统模式进行评估,只能

在数据集市分地市、分

天进行汇总聚会,预计

时间同双卡用户分析

大致一样,需要8-10

基于云平台进行一次

汇总出交往圈、再挖掘

出朋友圈,再关联业务

办理情况,得出目标数

据,目前只需要8-10

小时,效率提升10倍

以上;

此分析全部通过云平

台实现;

双机双卡用户分析提取统计基准月的联

调、电信的新增用户数

据;这个只有10M左

右;

提取基准月前一月和

后一月的详单数据,总

共2.5T数据;

进行数据清洗、挖掘、

匹配,得出结果数据,

100M以内

在3个集市上分地市、

分天进行数据汇总、分

析,分析过程中,容易

造成回滚、日志、临时

表空间满,需要人工干

预,最终得到分析结

果,一般需要8-10天;

基于云平台可以一次

性全省汇总分析,目前

每个月只需要8-10小

时;

长号活性短号非活性用户分析提取当前月1-18日语

音和短信详单记录,大

约800G;

分析出100W左右条记

录,50M左右数据

以前需要在仓库上分

天进行统计汇总,大约

需要3天时间;

基于云一次性汇总,耗

时6小时左右

交往圈模型基于1个月的语音详

单数据,大约1.2T数

据;

结果数据大约20亿记

录,200G

仓库无法分析出

通过平台汇总分析,大

约8小时

新增来源分析基于3个月交往圈的

汇总数据,大约600G;

结果数据100M以内

仓库无法分析出

通过平台汇总分析,大

约10小时

离网去向分析基于3个月交往圈的

汇总数据,大约600G;

结果数据100M以内

仓库无法分析出

通过平台汇总分析,大

约10小时

成都宽表2基于1个月的语音详

单数据,大约1.2T数

据;

基于1个月的GPRS详

单,大约3T数据;

基于1个月短信、彩信

数据,大约100G

输出4个汇总中间表,

共大约5G数据

仓库和成都数据集市

无法汇出,该宽表最近

半年一直无法上线;

大约4小时

成都宽表3基于1个月的语音详

单数据,大约1.2T数

据;

基于1个月的GPRS详

单,大约3T数据;

输出1个汇总中间表,

数据每天都在增加,月

初1-2G,月末接近10G

仓库和成都数据集市

无法汇出,该宽表最近

半年一直无法上线;

每天大约1小时

成都宽表4基于1个月的语音详

单数据,大约1.2T数

据;

基于1个月的GPRS详

单,大约3T数据;

基于1个月短信、彩信

数据,大约100G

输出1个汇总中间表,

数据每天都在增加,月

初3-5G,月末接近15G

仓库和成都数据集市

无法汇出,该宽表最近

半年一直无法上线;

每天大约2小时表:四川移动经分云化实施效果表

1.3.2重庆移动大数据平台

1.3.

2.1整体架构

构建基于HADOOP的,统一数据接入、统一数据存储计算、统一数据开放共享的,服务于重庆移动全公司的企业级大数据平台。

①统一数据接口:实现数据接入的统一管理,可扩展

②统一数据计算和存储:科学部署热、冷、快、慢数据的计算和存储要求;

并实现结构化、半结构化、非结构化的数据处理和存储要求。

③统一数据开放共享:通过统一数据封装和数据开发服务,对外提供开放的

数据共享服务。

④统一平台管控:提供数据的统一管理、数据服务的统一管控。

1.3.

2.2平台部署

图平台部署图

1.3.3江苏电信2014年大数据基础平台项目

1.3.3.1整体建设方案

建设统一的大数据平台,实现对江苏电信所有数据的统一管控和运营。对平台进行统一的规划,对数据进行集约式管理,整合平台资源,提高资源利用率,减少重复功能建设,优化并创新系统架构,实现数据存储量与效益的同步提升。

图功能架构图

1.3.3.2整体技术架构

图技术架构图

大数据采集平台:实现海量原始数据的安全、高效的采集、传输和存储 大数据基础平台:

? 大数据基础设施:基于X86和开源软件提供海量数据的存储和计

算能力

? 基础平台管控系统:实现基础平台和应用的隔离,无需访问基础

平台即可实现应用的开发、测试、运行和维护

大数据数据平台

? 数据处理平台:对数据进行加工处理,生成应用所需要的结果数

? 数据开放平台:提供多种方式访问应用所需要的结果数据 ? 数据平台管理系统:提供全流程、全生命周期的数据管理能力;

支持大数据中心的经营管理

大数据管理功能架构

图 大数据管理功能架构图

以大数据基础平台提供的底层管理功能为基础,向应用提供开发、测试、运行、运维全生命周期的管理功能,实现平台的集中管理和应用多租户部署。

安全管理:针对每个应用创建不同用户账号,设置其对HDFS 、M/R 、Hbase 、

Hive 等数据和服务的访问权限,并在基础平台上进行自动化部署; 应用管理:通过图形化界面提供应用程序的提交、测试、部署和运行管

理等功能

基础平台管理

系统

安全管理

应用管理

资源管理

任务管理

数据管理

系统管理

资源管理:针对每个应用设置其可使用的存储和计算资源,并实时采集、监控应用对资源的使用情况;当资源不足时自动调整资源分配策略保证

平台的平稳运行

任务管理:提供统一的任务定义、执行和监控机制,支持任务依赖、异常处理、账期管理等功能;向外部应用提供任务管理API接口以创建、

删除、更新任务;

数据管理:对平台存储的各种数据提供创建/删除、导入/导出、备份/恢复、查询/统计等功能;

系统管理:提供图形化的安装、配置、监控和告警功能;支持在线扩容、关键服务的启停;提供统一的升级和补丁管理

1.3.3.3大数据核心平台架构

图大数据核心平台架构图

Hadoop集群

主要由以下部分组成:

HDFS:基于X86和本地磁盘的分布式文件系统;

HBase:支持实时I/O操作的海量K/V数据库;

Yarn资源管理:集群的资源管理者;

M/R并行计算:提供Map/Reduce编程模型;

Hive:提供基于SQL语句的编程模型;

Spark:基于内存的实时计算模型;

非结构化、半结构的数据存入企业级大数据平台的HDFS;海量需要大规模并行计算的结构化数据也需要存储在HDFS上。存放数据主要包括:清单级DPI 数据,信令数据,以及各个业务系统处理汇总后的相关数据等。HDFS文件系统

实现基于权限分配的数据共享。

平台对业务使用数据的目的不同提供不同的存储方式,以提高资源的利用和整个平台的性能,最终体现为业务的高性能。

生产查询类

生产查询类数据对平台有较高的实时响应能力,要能够在规定时间范围内返回查询结果,建议规划此类数据建立主键后存入:HBase。HBase能够按照主键,对外提供快速的查询服务。

生产分析类

此类数据属于统计类数据,对平台资源有着较高的要求,此类业务对平台资源占有时间长,因此,可将此类数据规划入Hive,便于进行分析及相关数据的统计。

Storm实时流计算集群

Storm集群用于对实时性要求比较高的数据计算,包括:

位置信令数据的实时处理等

基于X86的关系数据库集群

基于X86的关系数据库集群主要用于关系型数据的存储,主要是业务系统需要直接访问的计算后的结果数据。

大数据平台元数据以及配置文件等信息存入此数据库,业务系统的统计要素以及业务系统的配置文件亦可存入此数据库,平台提供指导,业务侧根据需要进行规划。

1.3.4江苏电信2014年大数据经营支撑平台项目

1.3.4.1整体建设方案

江苏电信大数据中心由以下部分组成:

图功能架构图

大数据采集平台:原始数据安全、高效的采集、传输和存储;

大数据基础平台:

?大数据基础设施:基于X86和开源软件提供存储和计算能力;

?基础平台管理系统:平台集中管控;基础平台和应用的隔离;应用

的多租户部署;

大数据数据平台

?数据处理平台:为安全、效率、管理的目的,由公共数据处理和应

用特定处理组成;

?数据开放平台:提供批量、实时的数据开放接口和标签服务;

?数据平台管理系统:数据处理平台和开放平台的管理;支持大数据

中心的经营管理;

1.3.4.2本项目建设目标

大数据经营支撑平台的建设目标是:

数据的安全:数据的脱敏/加密、访问控制和批量导出、实时访问等进行统一的配置、执行和监控

处理的高效和灵活:避免重复性计算以节省硬件资源,又要确保对数据处理具有足够的灵活性

大数据经营支撑平台由数据处理平台、数据开放平台和数据管控系统三部分组成。其中:

数据处理平台:公共数据处理+应用特定处理

公共数据处理程序:向应用系统开放数据处理规则,满足各个应用对底层数据特定的处理需求

应用特定处理程序:通过“基础平台管理系统”实现应用程序的部署和调度执行

数据开放平台:

批量数据共享:定时和一次性的批量数据的分发,支持导出到FTP服务器、关系数据库、hadoop集群等

实时数据服务:提供API调用框架,支持API接口的动态注册、自动化部署和调用控制

标签服务:提供图形化操作界面,实现标签生命周期管理和基于标签的统计、查询

数据平台管理系统:

提供处理平台和开放平台的管理能力;支持大数据中心的经营管理

图:数据平台管理系统构成图

1.3.4.3系统的数据架构

大数据中心的数据架构如下图所示:

图大数据中心数据架构图

DPI数据:互联网企业只能分析自身流量数据,行为分析准确;DPI数据记录用户所有上网行为数据,但分析用户的搜索、浏览、评价、收藏、购买等行为的难度大

AAA数据:公网IP地址和宽带账号、手机号码的实时映射关系,准确性高;电信运营商独有的用户ID识别能力,以公网IP作为查询条件对外提供数据服务,既方便外部用户的访问,又因为公网IP的时效性避免泄露电信数据资产信令数据:实时采集、分析网络位置信令数据定位手机用户位置,支持位置营销、O2O营销等;通过通话、短信接通率等可以辅助评估用户的状态互联网数据:通过微博等APP账号关联固网账号和手机号码,实现用户跨终端行为跟踪;爬取用户浏览、撰写的互联网内容,深入了解用户的喜好和产品、行业的舆情状况

数据仓库数据:用户资料、通话/短信详单、交往圈等数据,也有助对用户的深度洞察

1.3.4.4系统部署方案

图系统部署方案图

平台建设整体部署如上图所示,包括接口机、大数据平台、Web服务器、学习系统、K-V数据库以及应用程序服务器。

1、接口机

(1)F tp服务器:文件接口机,支持FTP服务器获取批量数据,

(2)消息中间件:消息接口机传输实时消息数据,保证消息的实时可靠传输。

2、大数据平台

大数据平台核心层包含三部分内容:

(1) Hadoop集群:

Hadoop集群是分布式的、易扩展的大数据存储、管理、监控平台,是所有业务数据以及应用的支撑平台。

(2) Storm集群

Storm集群是分布式的、可靠的实时消息传输、分析、计算平台。它以拓扑的形式对不同的业务数据进行处理。

(3)基于X86关系数据库

用于存放元数据、配置文件数据以及统计要素,也作为存放客户标签/规则的数据库。

3、爬虫服务器

爬虫服务器主要用于部署爬虫模块,通过抓取URL的技术,从Internet 网络抓取海量URL,并进行简单的处理后用于文本分析。

4、学习系统

学习系统即算法系统,包含两部分内容:

(1)文本分析

通过文本分析算法对从外网获取的URL的文本内容进行挖掘,进而获取能代表文本内容类别的关键词句。

(2)机器学习

基于平台资源,通过已有数据以及机器学习算法,构建文本分类模型,实现对网页内容的快速分类。

(3)数据挖掘

深度分析电信数据,提炼和优化用户模型。

(4)多维分析

对电信数据从多角度关联分析,挖掘有用信息。

5、K-V数据库

K-V数据库属于大数据平台的扩展部分,能够快速响应外部请求,并实时对外提供数据。

6、应用程序服务器

支撑运行于大数据平台的所有业务,是所有应用程序的载体。

1.3.4.5平台技术架构

图平台技术架构图

1、大数据基础平台

基于X86和开源软件的互联网化技术路线,实现企业方位内共享数据中心,构建大数据基础平台,使用Hadoop集群技术和Storm实时计算技术实现对海量数据的批量和实时处理。

2、算法库

算法库中引入多维分析、数据挖掘、文本分析、机器学习等实现对数据的深度挖掘和分析。

3、对外服务

由K-V数据库、消息接口、Web服务器等构成对外服务接口,提供实时查询、报表输出以及数据可视化功能,对内、对外实现数据运营。

(1)K-V数据库:保存人群数据库(即用户标签信息),采用内存数据库,实现高并发查询;

(2)消息接口:实现事件消息触发,为营销推广提供接口;

(3)Web服务器:提供访问接口,实现数据查询、配置等应用;

(4)报表展示:实现对数据直观形象的展示;

数据可视化:用于用户行为轨迹展示。

1.3.5浙江联通大数据能力平台

1.3.5.1建设目的

浙江联通大数据运能力平台建设目标是实现对浙江联通所有数据的统一管控和运营。对平台进行统一的规划,对数据进行集约式管理,整合平台资源,提高资源利用率,减少重复功能建设,优化并创新系统架构,实现数据存储量与效益的同步提升。

开放

实现平台对所有业务开放,包括对内业务和对外业务,但对内

业务和对外业务有区别的进行管理。

开源

系统架构采用开源软件,减少软件成本,提高系统的技术先进行和可维护性。

共享

平台只有一个,采用统一的分布式管理架构,所有业务系统共享此平台,包括系统资源和平台存储数据。

独立于应用

平台建设不依赖任何应用,但平台能够支撑多种应用,对应用实现统一的管理和监控。

超前于应用

平台建设考虑可扩展性和对未来可能业务的支撑。

1.3.5.2整体架构

产品整体架构如下图:

相关文档
最新文档