基于XML的Web内容挖掘应用研究

华北电力大学(保定)

硕士学位论文

基于XML的Web内容挖掘应用研究

姓名:丁娟

申请学位级别:硕士

专业:计算机应用技术

指导教师:王保义

20061231

华北电力大学硕士学位论文

于这类信息处理,一般按照建立异常信息模型、识别异常信息、更改异常信息的步骤来进行,可采取的方法主要有回归分析和页面分类删除。

数据准备是进行数据挖掘的前提,在进行Web挖掘以前也需要对Web信息进行处理,这可能会占据Web挖掘大部分的工作量,因此也受到众多数据挖掘研究者和公司的重视,目前已有不少软件解决数据准备的问题。图2-5显示了是某公司软件产品中对于地址信息的处理过程n训。

第一步,转换。该部分的主要功能是在Web页面上发现有关地址信息,进行分析后以确定格式,进行初步存储。

第二步,剖析。对于初步获取的信息,将其元素化,比如区分出姓名、街道等,进行标准化存储。

第三步,解码。对于上一步的结果进彳亍分析,根据系统数据库或者某些规则,判断所得数据是否合理。

第四步,匹配。将获取的人名、地址、电话等信息一一对应存储到数据库,供下一步数据挖掘工作使用。

‘profi|e

‘Investigate

at

Analyze

▲Form缸

‘Scan/Clean

‘R∞阳c2.3.3Web文本挖掘‘Elementize‘

,ItClass由‘

‘Standardize

‘Correct‘

矗Transform

‘Nameand‘

Address

wrieyAddress‘

GIobalPostal●

Codes‘

Ad&ess‘

Correction‘

Append

Census‘

data

图2-5Trillium软件数据准备的框架

Duplicates

Business

Pcrsonal

Houschold

Identify/Lind

Pass/Fail/

Suspect

Web文本挖掘是采用计算语言学的原理对Web文本信息进行抽取的研究和实践。Web文本挖掘可以对Web文档集合的内容进行总结、分类、聚类、关联分析以及趋势预测等,与通常的平面文本挖掘有类似之处,但是,Web文档中的标记给文

相关主题
相关文档
最新文档