基于CSS视觉分块的Web碎片信息抽取算法

龙源期刊网 https://www.360docs.net/doc/9014611578.html,

作者：向程冠熊世桓

来源：《计算机光盘软件与应用》2013年第16期

摘要：为进一步解决在半结构化的Web页面中抽取Web碎片信息的困难，针对Web页

面设计的目的是给用户显示相关的信息，浏览器只是呈现的中间手段，在抽取Web碎片信息时应该“以人为本”，从“人”的视觉效果出发，将Web页面按照CSS视觉效果进行分块，提出一种基于CSS视觉分块的Web碎片信息抽取算法。以随机输入的1000个Web碎片信息站点作为实验对象，实验结果表明，算法具有良好的性能，达到了较高的召回率与查准率。

关键词：Web；Web碎片信息；CSS；信息抽取

中图分类号：TP391

随着网络技术的发展，互联网的信息呈现方式正在发生日新月异的变化，微博的出现使人们随时随地都可以分享自己的信息。同时，微博的出现也正在改变着人们关注信息的习惯，网民们获取信息的方式越来越“碎片化”，从传统的“一对多”的信息分享方式变成的“多对多”的信息分享方式。也就是说，在信息碎片化的时代，每个人都是信息的制造者，也是信息的获取者。由于每个人均可以通过碎片信息发布平台（如新浪微博、腾讯微博）发布信息，使得碎片信息出现了很大的随意性，信息的构成不再像传统方式的规范化，而出现了多元化、异构化及碎片化。在进行碎片信息抽取的时候，由于其本身可能只是“只言片语”，就有可能被当成信息“噪声”过滤了，因此给信息的抽取与整合带来了一定的困难，针对碎片信息所固有的特点，考虑到信息的分享者是“人”，而非浏览器本身，对信息的抽取应该从浏览器给人的视觉分块出发，提出了一种基于CSS视觉分块的Web碎片信息抽取算法。首先对Web信息抽取的技术进行分析，其次基于CSS视觉分块的Web碎片信息抽取算法，然后通过实验对提出的算法进行验证与分析，最后对算法进行总结。

1 Web信息抽取技术

Web信息抽取的目的就是便于检索或者数据挖掘，从松散的、半结构化的Html网页中抽取出有价值的、隐含的数据信息，并将其结构化存入数据库中。这一概念最早是由Gwiederhold提出的[1]。相应地，Web碎片信息抽取就可以引申为：从无结构或半结构的Web 碎片信息网页制取出用户关心的、有价值的信息片段，并形成结构化数据的过程[2]。

目前，有很多研究者在研究Web信息抽取的技术，力求达到准确、高效的效果。纵观目前关于Web信息抽取的研究成果，不难发现，抽取的效果取决于是否能准确找出Web页面中