基于Hadoop的海量数据处理模型研究和应用

电子设计工程

Electronic Design Engineering

第24卷Vol.24第14期No.142016年7月Jul.2016

收稿日期：2015-07-27

稿件编号：201507171

作者简介：陈锐忠（1985—），男，广东揭阳人，博士，工程师。研究方向：电力信息化、计算机体系结构。

当今社会中，Web 是最大的信息系统，它的价值主要来自于众多用户产生的数据，那么，如何在具有多样性、传输条件不确定性等特点的海量数据中提取出有价值的信息，这对程序员是一个很大的挑战与难题。随着时代进步以及网络技术的发展，人们处理数据的能力也越来越强大。海量数据对计算机以及服务器都是一个巨大的考验，在处理海量数据问题的过程中有很多困难，针对处理海量数据的问题，主要是将有用的数据从海量数据库中提取出来，最后将有价值信息的数据导入数据库中用于进一步的挖掘。因为Hadoop 的模型可以允许程序员不具备开发经验就可以处理大量的系统资源，所以利用Hadoop 的优势以及结合Hadoop 的技术研究，文中提出了一种基于Hadoop 的海量数据处理[1]。

1分布式系统关键技术

文中所提到的分布式系统指的是分布式软件系统，它的

目的是将复杂的大任务分为若干个小任务来处理，最后通过一系列的方法从这些任务中得到结果，并且将这些结果总结成为最后的结果。而且，在所提到的分布式系统处理任务的过程中，这些任务之间并不具有依赖性，相反，相互直接比较独立，也就是说每一个任务的处理并不会受上一个任务处理结果的影响。所以，它的特点是不要求实时性，并且在过程中允许发生错误[2-3]。

Hadoop 的整体构架

2.1

Hadoop 核心组件

Hadoop 核心组件主要包含两部分，分别是Hadoop Map/

Reduce 和Hadoop DFS 。

Map/Reduce 是一个将比较大的分布式计算转变为一个

对数据集合进行操作的编程模型。该模型框架借助于计算机群，将用户定义的任务分布到群众的各点上的计算机中进行任务执行。该模型计算包括两个阶段，分别是map 阶段和

reduce 阶段。

Map 阶段，模型架构会将所得到的数据切分开，使其变

为一段一段的，然后将所得到的各个片段按照一定的顺序，一一对应的分配给相对应的map 任务。每一个服务器都会对

基于Hadoop 的海量数据处理模型研究和应用

陈锐忠1，2，魏理豪1，2，梁哲恒1，2，邹小武3

（1.南方电网公司信息化评测重点实验室，广东广州510000；2.广东电网有限责任公司信息中心，广东广州510000；

3.赛迪顾问股份有限公司广东广州510500）

摘要：文中针对如何从海量数据中提取有用价值信息这一开发应用问题，通过分析现有计算和存储技术，并且结合

Hadoop 的技术研究，设计了一种海量数据处理模型，该模型是以Hadoop 技术为基础的。文中先介绍了分布式系统，

然后描述了Hadoop 架构，最后介绍了本设计的海量数据处理模型。该模型通过一系列设计可以有效的缓解了网络压力，同时它不需要程序员具有相应专业的经验就可以对超大系统进行整理并且获得所需资源。该模型具有高效率、低成本以及易维护的特性。

关键词：Hadoop ；海量数据；分布式；数据预处理中图分类号：TM933.4

文献标识码：A

文章编号：1674-6236（2016）14-0101-03

Research and application of mass data processing model based on Hadoop

CHEN Rui -zhong 1，2，WEI Li -hao 1，2，LIANG Zhe -heng 1，2，ZOU Xiao -wu 3

（1.CSG Key Laboratory of Software Testing ，Guangzhou 510000，China ；2.Guangdong Power Grid Information Center ，

Guangzhou 510000，China ；https://www.360docs.net/doc/a016751489.html,ID Consulting Co.，Ltd ，Guangzhou 510500，China ）

Abstract:In this paper ，we design a data processing model based on Hadoop technology ，which is based on the analysis of the existing computing and storage technology ，and combining with the technology of Hadoop.This paper first introduces the distributed system ，then describes the Hadoop architecture ，and finally describes the design of mass data processing model.Through a series of design ，the model can effectively alleviate the pressure of the network ，while it does not need to have the corresponding professional experience with the corresponding professional experience can be a large system to collate and get the required resources.The model has the characteristics of high efficiency ，low cost and easy maintenance.Key words:hadoop ；massive data ；distributed ；data pre -process

-101-