基于目的分析的作弊页面分类

96中文信息学报

业相关的查询时能获得返回结果页面中的高排名,所以能得到用户更高的交易量。在最好情况下,搜索引擎优化帮助网站设计者产生结构精巧且富含相应关键字或查询词的内容。很不幸地,一些搜索引擎优化采用了作弊的方法,超出了产生相关页面的范围:他们尝试通过用各种各样相关或不相关的,但受欢迎的查询词来装载页面,从而提高该页面所属的级别,或者合成很多页面来构造很多的链接关系以提高某页面的PageRank[43值等。网络作弊(webspam)是指采取一些迷惑、欺骗搜索引擎的手段,使某些web页面在搜索引擎检索结果中的排名高于实际应得排名的行为[5]。通过作弊手段获得虚假排名的无实际价值的网页被称为垃圾页面,如图1所示为典型的垃圾页面。

图1垃圾网页示例

网络作弊的结果首先是降低了检索结果的质量,降低了用户对检索结果的体验度和信任度。其次是使搜索引擎的索引结果因为这些几乎无用的垃圾页面而大量膨胀,增加了处理每个检索的空间和时间上的开销。

通过对1.5亿个页面进行采样分析,Fetterly等认为该数据集中至少有8.1%的页面是垃圾页面L1们;而GyOngyi和Garcia—Molina则根据实验估计出Web中大约有10%~15%的垃圾页面∞]。从这些数据可以看出,网络作弊已经严重地干扰了搜索引擎正常的检索过程,“反作弊”已经成为当前网络搜索引擎的几个重大任务之一[4]。

而目前的反作弊研究所采用的作弊页面识别方法,主要是基于页面的内容和链接,提取有用特征,然后用机器学习等方法进行训练,用得到的模型进行作弊页面的判别。但作弊方法是多种多样且随时变化的,而特征的提取需要根据作弊手段的变化而变化,因此这种方法不具备通用性和及时性。从之前的分析可以看出,产生作弊页面的根源是利益,而作弊页面都有各自不同的目的,即获得利益的不同渠道,分析这些渠道可以大大缩小作弊页面研究的研究类别数目,同时又能确实地抓住这些不会不断变化的页面特征。本文主要通过对真实网络数据中的垃圾网页进行分析,给出基于作弊目的的垃圾页面分类体系和相应比例等,为基于作弊目的的垃圾页面识别提供帮助。

本文的组织方式如下:第二部分介绍已有的相关工作,阐明现有作弊页面识别的主要方法和存在问题;第三部分给出基于作弊目的分析得出的新作弊页面分类体系;第四部分讨论各目的类型现状和所占比例等;最后给出结论和今后工作的方向。

2相关工作概述

2.1网络作弊技术

根据Gyongyi在论文¨]中提到的网络作弊分类体系,作弊技术被分为两大类别:内容作弊和链接作弊。

内容作弊指的是生成HTML的一些特殊文本域的内容,以使作弊页面和一些查询相关联的技术[6]。通常被用于作弊的HTML域主要包括页面标题域、Meta域的关键字、URI。域和超链接锚文本等。热门关键词通常被大量或重复地填充在这些域中,以欺骗搜索引擎的内容相关算法从而获得较高的相关度值。

利用链接的作弊者则通过构造大量链接结构来提高在超链接结构分析算法中的分值。搜索引擎常用一些链接算法如PageRank[6]和HITS【71等来评价网页的重要性,因此,作弊者通过构造链接农场、链接蜜罐、作弊链接互换等方式来生成假的链接关系图以欺骗这些算法。

除了GyOngyi提出的这两类作弊方法外,之后又出现了许多新的作弊技术。例如隐藏技术,即使搜索引擎网络爬虫抓到的网页内容和用户用浏览器看到的内容不同,可以通过使一些内容对用户不可

见或Clocking技术[80来欺骗搜索引擎的爬虫。还

2期余慧佳等:基于目的分析的作弊页面分类97

有一种很常见的作弊手段是重定向‘9|,当用户想查看某页面时,浏览器可能被重定向到一个第三方作弊站点。HTTP状态码、META域刷新和JavaS—cript脚本等都是实现作弊的常用手段。的分析,给出基于作弊目的的较合理分类和大致分布情况,为基于作弊目的的识别算法提供依据和导向。

2.2作弊页面识别算法

3定义与分类

作弊的方法是多种多样的,并随时都在改进和变化,而作弊识别算法一般都是在某种作弊方法兴起一段时间后,针对该作弊特点设计或训练出来的。然后作弊者又会根据已有的识别算法对作弊方法进行改进,如此反复。为了与作弊者进行斗争,提高搜索引擎效果和用户体验,研究者们已经提出了许多方法来识别作弊页面。

基于内容的作弊页面通常可以通过提取页面内容的有用特征来进行识别,如FetterlyLl们等和Ntoulas/113等使用的方法。更多的反作弊研究是针对链接作弊的,其中最早开始对链接结构进行分析的是Davison[12]和Amitay[131等。Z.GyOngyi等人提出用TrustRank算法来更好地将好的页面和垃圾页面分离开L1引。在TrustRank算法的基础上,又逐步产生了进一步的链接分析算法,如AntiTrustRank【l明和TruncatedPageRank【l叫算法等。同时,与内容作弊页面识别方法类似的机器学习方法同样也适用于链接作弊页面识别,只需选择适当的链接关系特征即可‘17]。此外,wu及Davison在文献[8]中提出了一种针对“包裹”(Clocking)作弊方式的识别算法,抓取网页的不同版本的页面内容并进行比较以识别出Clocking作弊页面,并在之后继续对算法进行了改进。

这些反作弊算法虽然能识别多种特定的作弊页面,而且许多算法能取得不错的识别效果,但因为总有新的作弊方法出现,这些算法无法识别各种类型的作弊页面,只是针对某一种或几种,因此无法及时识别新类型作弊页面,从而使得搜索引擎的返回结果中一直存在作弊页面,且一些情况下排在很靠前的位置。

为了解决目前的识别方法缺乏通用性和及时性的问题,BenczOr等人[181开始尝试对作弊目的即获利方式相关的一些简单特征进行分析,并将其添加到原有识别系统中提高了识别性能。Wang等[10J则通过重定向分析来将作弊者和广告联系起来,以进行重定向作弊页面的识别。可见,基于作弊目的的识别是反作弊研究发展的重要趋势之一,但目前相关研究还很少。本文即根据对真实网络数据3.1作弊页面

大规模地生成作弊页面(如搜索引擎优化SE0),需要较高的制造成本,对搜索引擎和用户的影响最大,也是我们反作弊研究中主要识别目标,而这一类页面的终极目标基本都是获得经济利益,但获得盈利的渠道却是不同的,例如通过吸引用户点击广告赚钱和通过用户下载收费的手机铃声赚钱是两种不同的盈利模式,而这些不同的盈利模式就是本文中要分析和归类的对象,即作弊者制作某垃圾页面的最直接目的,本文中称为“作弊目的”。

前面提到过,作弊技术是多种多样的,通常被混合地用于生成作弊页面,更重要地,作弊者可以根据已有的识别算法随时调整、使用新的作弊技术,这使得针对作弊技术的识别算法不仅时效性差,而且容易失效,无法长期连续地与作弊者进行抗衡。而相比作弊技术来说,作弊者常用的盈利模式即作弊目的种类数量要少得多,且不会经常快速地发生根本性的改变,因为盈利模式与网络行为中多个利益群体有关,作弊者无法直接操纵盈利模式的变化。为了达到作弊目的,作弊者可能使用多种作弊技术(如图2所示),若基于作弊目的,则无需考虑复杂的作弊技术,因此,从作弊目的着手无论从操作性、通用性还是时效性上说都是一个更好的选择。

作弊页面(SpamPages)

作弊技述T。

图2相对种类繁多且变化多端的作弊技术,作弊

目的种类更少且更加稳定,易于分析

攀蒜一一一一一一

98中文信息学报

3.2作弊目的分类

对于作弊者来说,生成各种作弊页面的终极目的一般都是获得利益,就是赚钱。虽然作弊的方法多种多样,但终极目的都是一样的,只是通过哪种渠道来赚钱会有所区别。而我们在此考虑的作弊目的,所指的就是生成作弊页面的直接目的,即作弊者想通过怎样的渠道来赚钱。比如说,如果为了通过广告的收益来赚钱,就会在作弊页面中嵌入广告,而页面显现出来的直接目的就是让用户去点击广告。

我们分类的主要根据,就是作弊者在生成不同作弊页面的时候,最直接的希望达到的目的是什么,即通过怎样的方式来达到最终获得利益的终极目标。因此,分类过程是先查看和分析大量作弊页面数据的形式和直接目的,例如想要通过广告和想要通过彩铃赚钱的作弊页面就是不同目的的作弊页面。然后分析最常见的可以归类的获利类型和渠道,并根据作弊页面体现出来的特征,对直接作弊目的进行总结和归类。

通过对搜狗搜索引擎(www.sogou.com)获得的作弊页面数据进行抽样查看和分析,我们给出了几种常见的作弊目的类别。

1.广告类:

广告类作弊页面的直接目的是获得更多流量以引导用户点击网页中嵌入的广告,然后从广告商或代理商处获得收益。每次点击有一定数量收益,点击越多,获利越大。将广告嵌入网页的主要方式有以下几种:

a)JavaScript嵌入的列表型(Google,Alibaba,Baidu等):

这是目前嵌入广告的最主要形式。因为许多代理商整合大量广告商的广告后,制作现成的Java-Script提供给网站,并且可以根据网站的不同内容对嵌入广告内容进行调整。这样网站只需几个简单的JavaScript语句,就可以将与自己网站内容相关的广告列表嵌入页面内,当用户点击这些广告时,代理商会有相应记录,并按点击次数付酬使网站获得收入。例如,对于Google广告,每次点击可获得0.1美分;而Alimama广告每点击一次可获得更高利润等。如图3所示为一个Google广告列表的垃圾页面:

图3广告列表型作弊页面

b)视频类

这种嵌入方式比较新,通常是将广告视频放在网页显著位置,因为有动画可以更加吸引用户点击,盈利方式与JavaScript相同。

c)广告联盟

这跟广告代理不同,是由一些网站或公司构成的联盟,互相进行广告和链接,引导流量,互惠互利。

2.增值服务类:增值服务主要指需要付费的各种服务,这类作弊网站的目的是通过提高搜索引擎结果排名来使更多的用户使用其增值服务以获得利润。

2期余慧佳等:基于目的分析的作弊页面分类99

a)无线增值服务

这是最常见的增值服务,随着手机的普及,与手机有关的无线增值业务的用户需求很多,因此能获利更多。于是,这类网页通常用JavaScript嵌入、关键词堆砌或重定向等作弊方式提高排名增大流量。当用户定制相应服务时则向网站提供相应费用。最常见的无线增值服务有以下几种:

i彩铃,铃声下载

¨点歌

m小说、软件下载

b)收费电影

3.Blog类:

由于Blog的普及和方便,以及Blog在搜索引擎的相关查询排名中经常可能排到相对较前的位置,利用Blog作弊现象现在越来越多,以页面级为主,主要以在日志或标签中堆砌关键词为手段,提高排名,为别的站点引导流量或进行广告。

通常要引导到的目标站点链接会嵌在日志中,用图片和广告、链接等方式直接引导流量到目的地,但是也有纯粹通过复制大量热门新闻来提高该页面在搜索引擎排名的情况,这种作弊目的主要是先让页面排名提前,然后再修改内容达到原本引导流量的目的。

随着目前博客网站都支持用户自己嵌入Java—Script,因此许多Blog作弊页面的布局都很相似,都是用JavaScript批量生成的,分布在不同的博客网站上。例如,图4中的作弊页面并没有直接的链接引导,只是在标签(Tags)栏中加入很多热门关键词和复制热门新闻来先提高排名,形式相同的Blog网页在几个大博客站中都有发现,只是更换了不同的热门关键词。

图4复制新闻,标签中填入热门词的Blog作弊页面

以上几类都是出现较为频繁的作弊目的类型,例如图5所示。

分别体现了作弊者想通过高排名带来的高流量从不

同途径获得利益的盈利模式。基于作弊目的的作弊

页面识别工作可以主要从以上几种类型着手。

4数据分析与比例

我们所用的数据是从搜狗搜索引擎(WWW.SO—gou.corn)在2008年5月期间人工过滤、标注出的作弊页面中抽取了422个作弊页面进行作弊目的的标注;标注标准就是第三部分中的分类体系,总体比

图5作弊目的类型比例分布

从图5中可以看出,以广告为目的的垃圾页面

在总体数据中所占比例超过一半,是最常见的作弊

基于目的分析的作弊页面分类

作者:余慧佳, 刘奕群, 张敏, 马少平, 茹立云, YU Hui-jia, LIU Yi-qun, ZHANG Min , MA Shao-ping, RU Li-yun

作者单位:智能技术与系统国家重点实验室,清华信息科学与技术国家实验室(筹),清华大学计算机系,北京,100084

刊名:

中文信息学报

英文刊名:JOURNAL OF CHINESE INFORMATION PROCESSING

年,卷(期):2009,23(2)

被引用次数:1次

参考文献(18条)

1.Wang,Y;Ma,M;Niu,Y;Chen,H Spam double-funnel:Connecting web spammers with advertisers 2007

2.Wu,B;Davison,B Cloaking and redirection:a preliminary study.In First International Workshop on Adversarial Information Retrieval on the Web(Chiba,Japan,May 2005) 2005

3.Kleinberg.J.M Authoritative sources in a hyperlinked environment[外文期刊] 1999(05)

4.Brin,S;Page,L The anatomy of a large-scale hypertextual Web search engine 1998

5.Gyongyi,Z;Garcia-Molina,H Web spam taxonomy 2005

6.Henzinger,M;Motwani,R;Silverstein.C Challenges in Web Search Engines 2002

7.Silverstein,C;Marais,H;Henzinger,M Analysis of a very large web search engine query log[外文期刊] 1999

8.Benczur,A;B? ro,I;Csalogany,K;Sarlos T Web spam detection via commercial intent analysis 2007

9.Saraeevic,T Evaluation of evaluation in information retrieval 1995

10.Becchetti,L;Castillo,C;Donatol,D;Leonardi,S.Baeza-Yates,R Using Rank Propagation and Probabilistic Counting for Link Based Spam Detection 2006

11.Krishnan,V;Raj,R Web Spam Detection with Anti-Trust-Rank 2006

12.Gy(ō)ngyi,Z;Garcia-Molina,H;Pedersen,J Combating web spam with trustrank

13.Amitay,E;Carmel,D;Darlow,A;Lempel,R,Softer,A The connectivity sonar:detecting site functionality by structural patterns 2003

14.Davison B Recognizing nepotistic links on the Web.[Technical Report WS-00-01]

15.Ntoulas,A;Najork,M;Manasse,M;Fetterly,D Detecting spam web pages through content analysis 2006

16.Fetterly,D;Manasse,M;Najork,M Spam,damo spam,and statistics:Using statistical analysis to locate spam web pages 2004

17.中国互联网络信息中心2005.第16次中国互联网络发展状况统计报告

18.中国互联网络信息中心第19次中国互联网络发展状况统计报告 2007

引证文献(1条)

1.王倩.刘奕群.马少平.茹立云面向用户互联网访问日志的异常点击分析[期刊论文]-中文信息学报 2010(3)

本文链接:https://www.360docs.net/doc/071435103.html,/Periodical_zwxxxb200902014.aspx

相关主题
相关文档
最新文档