基于XML的Web内容挖掘应用研究
华北电力大学(保定)
硕士学位论文
基于XML的Web内容挖掘应用研究
姓名:丁娟
申请学位级别:硕士
专业:计算机应用技术
指导教师:王保义
20061231
华北电力大学硕士学位论文
于这类信息处理,一般按照建立异常信息模型、识别异常信息、更改异常信息的步骤来进行,可采取的方法主要有回归分析和页面分类删除。
数据准备是进行数据挖掘的前提,在进行Web挖掘以前也需要对Web信息进行处理,这可能会占据Web挖掘大部分的工作量,因此也受到众多数据挖掘研究者和公司的重视,目前已有不少软件解决数据准备的问题。图2-5显示了是某公司软件产品中对于地址信息的处理过程n训。
第一步,转换。该部分的主要功能是在Web页面上发现有关地址信息,进行分析后以确定格式,进行初步存储。
第二步,剖析。对于初步获取的信息,将其元素化,比如区分出姓名、街道等,进行标准化存储。
第三步,解码。对于上一步的结果进彳亍分析,根据系统数据库或者某些规则,判断所得数据是否合理。
第四步,匹配。将获取的人名、地址、电话等信息一一对应存储到数据库,供下一步数据挖掘工作使用。
‘profi|e
‘Investigate
at
Analyze
▲Form缸
‘Scan/Clean
‘R∞阳c2.3.3Web文本挖掘‘Elementize‘
,ItClass由‘
‘Standardize
‘Correct‘
矗Transform
‘Nameand‘
Address
wrieyAddress‘
GIobalPostal●
Codes‘
Ad&ess‘
Correction‘
Append
Census‘
data
图2-5Trillium软件数据准备的框架
Duplicates
Business
Pcrsonal
Houschold
Identify/Lind
Pass/Fail/
Suspect
Web文本挖掘是采用计算语言学的原理对Web文本信息进行抽取的研究和实践。Web文本挖掘可以对Web文档集合的内容进行总结、分类、聚类、关联分析以及趋势预测等,与通常的平面文本挖掘有类似之处,但是,Web文档中的标记给文