基于CSS视觉分块的Web碎片信息抽取算法

龙源期刊网 https://www.360docs.net/doc/9014611578.html,

基于CSS视觉分块的Web碎片信息抽取算法

作者:向程冠熊世桓

来源:《计算机光盘软件与应用》2013年第16期

摘要:为进一步解决在半结构化的Web页面中抽取Web碎片信息的困难,针对Web页

面设计的目的是给用户显示相关的信息,浏览器只是呈现的中间手段,在抽取Web碎片信息时应该“以人为本”,从“人”的视觉效果出发,将Web页面按照CSS视觉效果进行分块,提出一种基于CSS视觉分块的Web碎片信息抽取算法。以随机输入的1000个Web碎片信息站点作为实验对象,实验结果表明,算法具有良好的性能,达到了较高的召回率与查准率。

关键词:Web;Web碎片信息;CSS;信息抽取

中图分类号:TP391

随着网络技术的发展,互联网的信息呈现方式正在发生日新月异的变化,微博的出现使人们随时随地都可以分享自己的信息。同时,微博的出现也正在改变着人们关注信息的习惯,网民们获取信息的方式越来越“碎片化”,从传统的“一对多”的信息分享方式变成的“多对多”的信息分享方式。也就是说,在信息碎片化的时代,每个人都是信息的制造者,也是信息的获取者。由于每个人均可以通过碎片信息发布平台(如新浪微博、腾讯微博)发布信息,使得碎片信息出现了很大的随意性,信息的构成不再像传统方式的规范化,而出现了多元化、异构化及碎片化。在进行碎片信息抽取的时候,由于其本身可能只是“只言片语”,就有可能被当成信息“噪声”过滤了,因此给信息的抽取与整合带来了一定的困难,针对碎片信息所固有的特点,考虑到信息的分享者是“人”,而非浏览器本身,对信息的抽取应该从浏览器给人的视觉分块出发,提出了一种基于CSS视觉分块的Web碎片信息抽取算法。首先对Web信息抽取的技术进行分析,其次基于CSS视觉分块的Web碎片信息抽取算法,然后通过实验对提出的算法进行验证与分析,最后对算法进行总结。

1 Web信息抽取技术

Web信息抽取的目的就是便于检索或者数据挖掘,从松散的、半结构化的Html网页中抽取出有价值的、隐含的数据信息,并将其结构化存入数据库中。这一概念最早是由Gwiederhold提出的[1]。相应地,Web碎片信息抽取就可以引申为:从无结构或半结构的Web 碎片信息网页制取出用户关心的、有价值的信息片段,并形成结构化数据的过程[2]。

目前,有很多研究者在研究Web信息抽取的技术,力求达到准确、高效的效果。纵观目前关于Web信息抽取的研究成果,不难发现,抽取的效果取决于是否能准确找出Web页面中

相关主题
相关文档
最新文档