基于垂直搜索引擎的主题爬虫技术

龙源期刊网 https://www.360docs.net/doc/678611957.html,

基于垂直搜索引擎的主题爬虫技术

作者:肖馥莉

来源:《电子技术与软件工程》2016年第19期

摘要

由于信息技术的不断提升,互联网技术的发展也是日新月异,越来越多的人们开始体验互联网所能带来的一些福利的同时,也参与到其中,成为网络信息的发布者和传播者。所以,传统搜索引擎的局限性也将体现出来,针对与这一问题,垂直搜索引擎在特定的领域进行了细化和延伸,以此来弥补传统搜索引擎所带来的不足,它利用主题爬虫技术对网络上某个或者多个主题的相关信息进行爬取、信息整合并且索引,这样就可以有效的采集页面信息,与此同时也节省了网络资源和系统资源。

【关键词】垂直搜索引擎主题爬虫网络

1 主题爬虫概述

1.1 通用爬虫

网络爬虫是一个能够自动浏览WWW的网络机器人,主要目的是为了进行网络索引。网上的任何信息数据都是需要用爬虫来获得的,不论是用通用搜索引擎还是垂直搜索引擎。

1.2 主题爬虫

主题爬虫和通用爬虫有着本质的区别,通用爬虫不筛选主题等任何信息,全盘接受,而主题爬虫则需要有特定的目标,并进行与此目标相关的定向爬行,以此来对互联网上的网页进行筛选索引。在进行爬行之前,首先要对网页的主题进行相关性分析,若和指定的主题有一定的相关性,则将网页进行保存,再利用垂直搜索进行索引;否则放弃该网页。

1.3 主题爬虫的体系结构

主题爬虫系统是在一个繁杂的网络环境下,爬行尽可能多的与主题相关的一些资源信息,过滤删除无关的资源信息,以此来提高爬虫的性能、扩大资源的利用率并且能够更好地位垂直搜索引擎服务。

2 搜索引擎基本原理

搜索引擎是一个非常繁杂的系统,一般来说,现在的大规模搜索引擎都采用网页搜集、网页预处理和查询服务这三个阶段作为工作流程,如图1所示。

相关文档
最新文档