垂直搜索引擎关键技术的研究与实现

东北大学硕士学位论文第1章绪论

第1章绪论

1.1研究背景

随着科技的发展和互联网用户的增多,互联网的内容也在成倍的增长。根据中国

互联网络信息中心在2013年1月15日发布的第31次《中国互联网络发展状况统计报告》显示,截止至2012年12月,仅中国就有网站268万个和网页1227亿个【lj。互联网作为新兴的公共信息的载体,已经成为了一个具有海量信息的庞大的数据源。面对如此浩瀚的数据,仅靠人工查阅而获得感兴趣的内容的方法需要耗费大量的时间和精力。于是,通用搜索引擎应运而生。通用搜索引擎是指收集了互联网上几千万到几十

亿个网页并对网页中的每一个词(即关键i百-1)进行索引,建立索引数据库的全文搜索引

擎【21。通用搜索引擎的服务对象是普通互联网用户,其强调的是信息搜索的全面性和

快速型,因此它从根本地服务定位上就无法满足特定用户的专业信息检索需求。例如,

企业用户需要从互联网获取领域相关的数据进行分析,以作为经营和辅助决策的基础。

这就对搜索的结果提出了专业性的需求和网页数据的结构化的需求。通用搜索引擎无论是在数据采集、网页数据解析与存储,以及数据索引和检索过程中都缺少领域知识

价值。

面向主题的垂直搜索技术针对Web中某个主题的信息进行抓取,然后进行定向字段抽取、结构化或半结构化数据集成与存储,最后为用户提供索引与检索服务,满足Web用户专业化信息检索的需求。垂直搜索技术能够彻底避免通用搜索引擎的噪音数据量大、查询不准确、查询深度不够等问题。从实现技术上来讲,垂直搜索引擎与通用搜索引擎最大的不同在于专业知识库的引入,而专业知识库来自于Web页面的解析结果。可以说,垂直搜索引擎与通用搜索引擎在Web页面解析方面具有深刻的区别。

通用搜索引擎中,Web页面解析单元的主要任务包括:Web页面判重、抽取Web页面摘要和Web页面的净化。过去,人们主要关心Web页面解析的效率、Web页面判重的准确率、抽取的Web页面摘要的可读性等等指标。然而,在面向主题的垂直搜索引擎中,Web页面解析需要完成更多的功能。例如,在抽取Web页面内容的基础上,

进一步判别Web页面的主题相关性,实现语义层次的Web资源过滤。更为重要的是,

垂直搜索引擎中的网页解析单元应该将Web页面内容中的结构化数据抽取出来,作为专业知识抽取的数据源。

本文即以此为应用背景,重点研究垂直搜索技术引擎中网页主题的识别技术、Web

一1一

相关主题
相关文档
最新文档