基于Hadoop的网络用户行为分析

工程硕士学位论文

目录

摘要 ............................................................ I Abstract ........................................................... II 插图索引 ........................................................... IV 附表索引 ............................................................ V 第1章绪论 (1)

1.1 课题的研究背景及意义 (1)

1.1.1课题研究背景 (1)

1.1.2校园网用户行为研究的重要性 (2)

1.1.3课题研究意义 (3)

1.2 国内外研究现状 (4)

1.2.1分布式技术研究现状 (5)

1.2.2网络用户数据挖掘和行为分析现状 (5)

1.2.3聚类分析研究现状 (7)

1.3本文研究内容及其结构 (7)

1.3.1本文研究的主要内容 (7)

1.3.2本文结构安排 (8)

第2章相关理论知识 (10)

2.1 Hadoop生态系统 (10)

2.1.1 Hadoop集群概述 (10)

2.1.2 Hadoop生态系统组成 (10)

2.1.3 HDFS分布式文件系统 (11)

2.1.4 MapReduce分布式计算框架 (13)

2.1.5 Hive分布式数据仓库系统 (14)

2.1.6 Sqoop工具 (19)

2.2网络用户行为分析的相关理论 (20)

2.2.1网络用户行为的概念和分类 (20)

2.2.2网络用户行为分析方法 (20)

2.3聚类分析理论 (21)

第3章用户行为数据处理方法研究 (22)

3.1用户行为分析过程设计 (22)

3.1.1分析过程设计思路 (23)

3.1.2用户行为分析流程 (23)

3.2数据预处理 (24)

3.2.1数据集结构和特点 (25)

i

基于Hadoop的网络用户行为分析

3.2.2数据的导入/导出与数据存储 (26)

3.2.3数据清洗 (26)

3.2.4数据集成和转换 (27)

3.3用户行为分析方法 (29)

3.3.1 用户分类 (29)

3.3.2不同时段在线人数分析 (30)

3.3.3在线时间长度分析 (33)

3.3.4使用网络流量分析 (36)

3.3.5学生异常网络行为统计分析 (39)

3.3.6用户访问目的地址分析 (43)

第4章用户行为数据聚类研究 (46)

4.1 K-Means聚类算法应用于行为数据分析 (46)

4.1.1算法的基本思想 (46)

4.1.2算法的实现流程 (46)

4.1.3算法的时间复杂度 (47)

4.1.4 K-means算法应用于行为数据分析 (47)

4.2 K-means聚类算法的MapReduce并行化实现 (48)

4.2.1 K-Means算法的分布式实现 (48)

4.2.2 K-Means聚类算法MapReduce化的思路 (49)

4.2.3用MapReduce实现K-Means算法 (50)

4.3用户行为数据聚类研究 (51)

第5章实验结果分析 (54)

5.1 实验平台部署 (54)

5.1.1 硬件配置 (54)

5.1.2软件配置 (54)

5.1.3实验环境搭建 (54)

5.2 实验结果分析 (56)

第6章总结与展望 (58)

6.1本文研究工作总结 (58)

6.2下一步的工作方向 (59)

参考文献 (60)

致谢 (64)

ii

工程硕士学位论文

摘要

网络已经成为人们学习、工作和生活中必不可少的重要组成部分。校园网作为高校教学、科研和信息服务的基础平台,已经成为衡量高校信息化建设和智慧校园建设的重要指标之一。随着校园网中各种网络应用的增多,产生了以日志形式存在的海量网络用户行为数据。与此同时,校园网规模的日益扩大和用户人数的增长,给校园网优化升级和日常运维管理带来了许多问题。另外,学生用户过度使用网络不仅给自身的学习、生活和身心健康带来了巨大危害,而且为高校学生教育管理工作提出了新的要求。因此,校园网用户网络行为分析,有助于高校网络管理部门制定和完善更加合理有效的网络管理制度和日常运维策略;为广大师生提高安全、快速和可靠的网络环境;有助于高校学生管理部门及时了解和发现学生的思想动态和学习状况等有用信息。

本文在西北民族大学校园网基础上,以校园网络核心交换机H3C-12508 网络镜像端口用户访问网络的点击流日志和深蓝计费网关Srun3000的用户登录数据作为研究对象,主要针对校园网用户中学生用户在线行为展开研究。

本文主要研究工作如下:1. 搭建了包含Hive和Sqoop子项目的分布式Hadoop实验环境;2. 在Hadoop集群下,预处理校园网用户行为数据和进行用户类别划分;3. 采用HiveQL查询技术,对校园网用户群体行为从五个方面展开研究,即不同时段在线用户人数分析、用户在线时间长度分析、用户访问的目的地址分析、用户在线流量分析和学生异常行为分析。用户访问的目的地址分析中,为了加快目的地址统计和排序的速度,编写了一个Linux Shell脚本用于目的地址统计和排序,并取得了良好的运行效果。通过对不同年级、不同培养层次和不同学院学生用户在线时长、使用网络流量和在线人数等方面进行对比研究,并对不同学生用户群体中出现网络行为异常的原因作了初步的探讨和分析,给出了具有针对性的意见和建议;4. 对学生用户群体行为展开聚类分析。首先利用K-means 聚类算法并行化的思路,找出了该算法的实现方法;接着编写Mapper函数和Reducer函数实现K-means算法;最后,从用户在线时长、下行流量和上行流量角度出发,对用户网络行为进行聚类研究,将用户划分为5个类别,并对每个类别产生的原因和其特征进行了深入细致的分析。

总之,上述校园网用户行为研究,对于高校网络管理和学生管理具有重要的参考价值和指导意义。

关键词:校园网;MapReduce;用户网络行为;HiveQL技术;K-means聚类

I

相关主题
相关文档
最新文档