华东理工大学硕士学位论文

华东理工大学硕士学位论文（个人研究精简了一下，不是很明白研究内容，只是大概理解了格式和在论文中各部分应该写的方向和大概要点）

中文搜索引擎中网页排序模型的优化与实现

摘要

由于网页质量千差万别，对网页进行基于网络链接图的质量排序变成了现代搜索引擎的一个重要部件。本文详细介绍了两种目前使用较为广泛的网页排序算法，并采用了

PageRank算法应用于实际系统。在对网页排序模块的实现进行优化时，我们系统分析了造成大规模稀疏矩阵一向量乘法运算低效的原因，并结合网络链接图的实际情况提出了几种

不同的优化策略。然后，我们采用了其中五种优化策略作了实验性能比较，并综合考虑各种优化策略的运算效率和存储量需求，选择了适合实际系统的优化策略。同时，我们提出

Pa‘geRank算佳在实现时的一个变通处理一除汇。最后，本文阐述了搜索引擎未来的发展趋势。

关键词:搜索引擎PageRanky 网络链接图一稀疏矩阵汇点

文摘

英文文摘

作者声明

第1章绪论

1.1.引言

1.2.搜索引擎的整体架构

1.3.超链接的网络结构

第2章网页排序算法

2.1.筛选出高质量页面的规则前提

2.2.查询与权威信息源

2.3.Web 环境下页面链接关系的利用

2.4.网页排序算法

2.4.1.HITS 算法

2.4.2.PageRank 算法

2.5.关于网页质量的几个问题

第3章高效的PageRank 算法的实现

3.1.稀疏矩阵-向量乘法运算的优化

3.1.1.底层分析

3.1.2.分块技术

3.1.3.软件优化

3.2.网络链接图中汇点的消除

3.2.1.什么是除汇

3.2.2.如何除汇

第4章优化实现与实验数据分析

4.1.PageRank 的基本实现技术

4.2.分块策略

4.3.优化实现

4.3.1.不包含零元的固定大小分块策略的实现

4.3.2.行压缩存储策略的实现

4.3.3.限定长度行压缩存储策略的实现

4.3.4.针对网络链接图的稀疏矩阵存储策略的实现

4.3.

5.矩阵重排策略的实现

4.4.实验数据分析

4.4.1.运算效率分析

4.4.2.存储量需求分析

4.4.3.实际应用

第5章网络信息检索技术未来的发展

参考文献

致谢

第1章绪论

1.1引言

Internet正以200%的用户增长率迅速发展，成为人们工作和生活不可缺少的信息来

源。到目前为止，Google上可索引的网络页面数达13.2'7亿(U，而且每天以几百万的数度

递增。与此同时，Web文件具有分布、动态变化、结构复杂等特点，使得用户根本无法

了解庞大的、瞬息万变的信息资源。由此，人们在信息海洋中搜索自己所需要的信息的能

力显得愈发重要。传统的信息搜索技术荃于较规范的信息库，相对于Web上的信息总量，

总数规模比较小。同时，由于网络信息固有的特点，同在网络上的不同页面，不能受到相

同的对待，这就是网页重要性的问题。因此，在网络信息获取及检索过程中，有必要引入

页面外因素加以综合考虑，如信息源的名望、质量和引用数等。

网络信息检索的发展已初具规模。搜索引擎成了人们在网上检索信息的必要工具。现

行的搜索引擎有索引基于Web机器人的Altavista,InfoSeekGuide,Excite和Google等;

还有基于分层结构和模板的Yahoo和ALIWEB等121除搜索引擎外，还有其它诸如软件

代理和合作过滤系统等信息检索技术。有人已经将机器自学习与信息检索结合起来以提高

信息检索的效能3()4(1

在经典的信息检索系统中，系统的性能一般由三方面评定:查全率，查准率，前功

个页面的查准率。在网络信息检索系统中，网页的质盘千差万别，所以检索结果仅与主题

相关还远远不够。现代搜索引攀重视的，己不再是简单地向用户提供与查询条目相关的页

面信息，利用网络链接结构来提高检索结果质童的方法开始获得重视.

网络爬行器(WebCrawler)的创始人Pinkerton曾打过这样一个比方:“来设想一下

我们走进一个图书馆并对管理员说旅‘游’，图书管理员会给你一个白脸”。当然，管理员

实际上不会木无表情地盯着你，而是会向你多问一些问题以得到对问题更好的理解。

不幸的是，搜索引擎不会像图书管理员那样问问题以集中搜索范围，也不能像人类那

样可以依仗判断或经验。因此，网页基于相关性(Relativity)的排序变得非常重要。

本课题是在己有的对中文搜索引擎原型的开发基础上，对网页排序模块进行开发。对

网页排序算法进行研究，实现及实现手段上的优化。目前存在的系统FlyingSender在Linux

下用C/C++实现，基本模块已经完成。我们将在此基础上开展对网络信息检索技术的进一

步研究。

论文首先简单介绍了搜索引擎的整体构架，阐述网页排序模块在整个系统中的位置。

其次详细介绍了两种网页排序算法一一HITS算法和PageRank算法(在实际系统中我们

采用后者)。接着，我们从对优化的实现入手，主要探讨了大规模稀疏矩阵户向量乘法运算

如何在运算时间和空间消耗上达到高效，并提出了几个自己的观点;同时提出PageRank算法在实现时的一个变通处理—除汇。然后，我们用详实的实验数据对各种稀疏矩阵-

向量乘法运算的优化策略作了详细比较，并根据实验结果结合运算效率和存储量消耗选择

了适合实际系统的优化策略。最后，我们对网络信息检索技术的未来发展作了初步探讨。

1.2.搜索引擎的整体架构

搜素引擎的结构和工作流程如下(参看图1.1).-

图1.1搜索引擎的塞本结构

I、从一组自定义的种子页面开始，域名解析器(URLResolver)将域名转化为绝对

URL地址即IP地址，提交给搜索机器人(Crawler).

我们在整体测试中发现，如果让域名解析器逐个解析域名，它将成为整个系统的

瓶颈。于是我们在本地设置了一个DNS服务器，并采用异步10和多线程的方法，尽

量让程序使用CPU的资源，减少对网络或硬盘的操作次数，从而提高了整个模块的

效率。

····

参考文献

[1]https://www.360docs.net/doc/dd12412421.html,/

[2)RichardK.Belew,JudeW.Shavlik.MachineLearningandInformationRetrieval

https://www.360docs.net/doc/dd12412421.html,/

[3]H.Chen.MachineLearningforInformationRetrieval:NeuralNetworks,Symbolic

LearningandGeneticAlgorithms.JASIS.April1995,46(3):194-216

(4]JunghooCho,HectorGarcia-Molina.TheEvolutionoftheWebandImplicationforan

IncrementalCrawler.Stanford,CA94305,1999

[5]RFC1320TheMD4Message-DigestAlgorithm

汇6]http/:/https://www.360docs.net/doc/dd12412421.html,/webmasters/rank.html

(71NeeranM.Karnik,AnandR.Tripathi.DesignIssuesinMobileAgentProgramming Systems.UniversityofMinnesota.1998

[8]DIGITAL EQUIPMENT CORPORA TION.AltaVista search engine.http:H

https://www.360docs.net/doc/dd12412421.html,/

(9]JonM.Kleinberg.AuthoritativeSourceinaHyperlinkedEnvironment.Poceedingofthe

MinthAnnuaACM-SIAMSymposiumonDiscreteAlgorithms.1998,668-677

[101WilliamGoffman.AMathematicalProfessionalSocietySignalstheMaturingof

ScientometricsandInformetrics.TheScientist.Aug1995,9(16)

[川JamesE.Pitkow.CharaterizingWorlderWideWebEcologies.PhDthesis.GeorgiaInstitue

ofTechnology.June1997

[12]PeterPirolli,JamesPitkowandRamanaRao.SilkrfomaSow'sEar:ExtractingUsable

StructurerfomtheWeb.InMichaelJ.Tauber,VictiruaBellotti,RobinJeffries,Jock

D.MackinlayandJakobNielsen,editors,ProceedingsoftheConferenceonHumanFactors

inComputingSystems:CommonGround.April1996:118-125

(13]RonWeiss,BienvenidoVelez,MarkA.Sheldon,ChanathipManprempre,

PeterSzilagyi,

AndrzejdudaandDavidK.Gifford.HyPursuit:AHierarchicalNetwork

SearchEngine

thatExploitsContent-LinkHypertextClustering.InProceedingsofthe7'ACM

ConferenceonHypertext.March1996:180-193

[14JEllenSpertus.Parasite:MiningStructuralInformationontheWeb.InProceedingsofthe SixthInternationalWWWConference.SantaClaramUSA,April1997

[15)SougataMukhe巧eaandJamesD.Foley.ShowingtheContextofNodesintheWorldWide

Web.InProceedingsofACM CHI'95ConferenceonHumanFactorsin

Computing

Systems,volume2ofShortPapers:WebBrowsing.1995,326-327

致谢

在长达两年半的研究生学习期间，我们将一个最初理论上的设想转化为工程上的初步实现，并对运算性能进行了优化，为将来进一步展开研究奠定了基础。在此，我十分感谢我的导师邵志清教授在研究过程中给予我悉心的指导、全力的支持和不断的鼓励.

在硕士研究生的学习期间，我还十分感谢计算机系各位老师为我们创造的良好学习氛围，多次的学术讨论会不仅让我们了解了其他同学的工作，也进一步扩宽了知识面，提高了科研能力。