网络用户的网页访问行为分析架构

网络用户的网页访问行为分析架构
网络用户的网页访问行为分析架构

2018年9月25日第2卷第9期

现代信息科技

Modern Information Technology Sep.2018

Vol.2No.9

15网络用户的网页访问行为分析架构

张雁,刘才铭

(乐山师范学院计算机科学学院,四川乐山 614000)

摘要:浏览网页是互联网用户的重要上网行为,分析网络用户的网页访问行为可以为优化网络管理提供依据。本文建立了一种网络用户的网页访问行为的分析架构,以访问网页时产生的网络数据流为数据源,分析网页数据包的传输规律,通过网络活动的关键特征信息构建网页访问行为,从网页访问行为历史记录信息中生成新的网页访问行为类型,采用网页访问行为特征库识别网页访问行为类型。

关键词:网页访问行为;网页数据包;行为分析;行为特征;行为记录

中图分类号:TP393 文献标识码:A 文章编号:2096-4706(2018)09-0015-03

Analysis Architecture for Web Page Browsing Behavior of Network Users

ZHANG Yan,LIU Caiming

(School of Computer Science,Leshan Normal University,Leshan 614000,China)Abstract:Browsing web pages is an important behavior of surfing the internet to network users. The analysis of web page browsing behaviors of network users can provide bases for the optimization of network management. An analytical architecture for web page browsing behavior of network users is constructed in this paper. The regular pattern of transmitting web page packages is analyzed with the data source which are network traffics generated by browsing web pages. Web page browsing behaviors are constructed through key features of network activities. New classes of web page browsing behaviors are sought out from the historical behavior records. The behavior type is recognized through the behavior feature library.

Keywords:Web page browsing behavior;Web page package;behavior analysis;behavior feature;behavior record

0 引言

访问网页是网络用户频繁产生的网络活动,这些网页访问活动反映了用户使用互联网的情况,它们构成了特定的网页访问行为。网页访问行为表现为网络用户访问网页的活动及其动态变化规律,可以按照访问的网页内容对其进行分类,而网页访问行为的类型就隐藏在访问网页时形成的网络数据流中。

网页表现为一个或多个HTML(超文本标记语言)文件,HTML是网页内容架构的基础,它将文本、图形、语音、视频、邮件等资源包罗其中,让用户能够便捷地实现互联网访问。在W3C(万维网联盟)于2014年10月公开发布HTML5标准(HTML第5版)[1]后,更多的应用被移植到网页上,尤其是在移动互联网领域,基于网页的移动终端APP更是得到了快速的发展,这促使网页数量和网页访问活动数量迅猛增加。

网站是网页运行的载体,它已成为互联网最关键的应用之一。中国互联网络信息中心(CNNIC)于2017年1月发布《第39次中国互联网络发展状况统计报告》,该报告指出,截止2017年12月,我国的网站数量约为533余万个,年增长10.6%,而网页的数量更是惊人,已超过2600亿个,年增长10.3%[2]。

与日俱增的网页访问活动构成了重要的用户上网行为大数据,它反映了用户的常用互联网内容使用情况,对网页访问行为进行有效的分析,可以为网络管理提供科学的依据,还可以为网络行为的安全审计提供数据来源。分析网页访问行为的方法主要有以下几个方面:以网页访问日志为基础分析用户浏览行为习惯[3]、挖掘分析网站的运行日志文件发现用户访问行为特征和潜在规律[4]、抽取网页的HTML源代码特征进行分析[5]。目前还缺乏通过访问网页时产生的网络数据流分析网页访问行为的方法,也没有通用的分析架构。

本文建立了一种网页访问行为分析的架构,该架构以网络数据流为数据基础,通过提取网页数据包的关键特征信息,构建反映用户真实网页访问活动的网页访问行为数据,同时,分析网页访问行为的记录数据,识别网页访问行为的类型,从而发现网络用户访问网页的活动规律。

1 分析架构

本文以网络用户访问网页时产生的网络数据流为数据基础,分析网页访问行为信息,目的在于识别出用户访问网页的行为类型,其分析架构如图1所示。该架构由5个操作模

收稿日期:2018-06-14

基金项目:四川省应用基础研究计划项目(省部级)“基于免疫的大规模网络行为异常检测技术研究”(项目编号:2015JY0105);四川省教育厅科研项目(市厅级)“基于免疫的网页访问行为模式构建和识别技术研究”(项目编号:18ZA0233)。

相关主题
相关文档
最新文档