Web文本挖掘技术研究

第37卷第5期2000年5月计算机研究与发展J0URNAL 0F C0MPUTER RESEARC~g DEVEL0PMENT Vol.379No.5

May 2000原稿收到日期:1999-05-11;修改稿收到日期:2000-01-26.王继成9男91973年生9博士研究生9研究方向为信息检索与挖掘.潘金贵9男91952年生9教授9研究方向为中间件~agent 技术.张福炎9男91939年生9教授9博士生导师9研究方向为数字化图书馆~多媒体技术.

Web 文本挖掘技术研究

王继成潘金贵张福炎

(南京大学计算机科学与技术系南京210093D

(南京大学软件新技术国家重点实验室

南京210093D 摘要

作为从浩瀚的Web 信息资源中发现潜在的~有价值知识的一种有效技术9Web 挖掘正悄然兴起9倍受关

注.目前9Web 挖掘的研究正处于发展阶段9尚无统一的结论9需要国内外学者在理论上开展更多的讨论.同时9Web 挖掘系统的开发对其研究也将起到很大推进作用.首先探讨了Web 挖掘的有关理论9从Web 挖掘的定义~

Web 挖掘与Web 信息检索的关系~Web 挖掘任务的分类与功能等方面加以阐述.然后重点分析了Web 文本挖掘

的方法9包括:文本的特征表示~文本分类与文本聚类.在此基础上简单介绍了一个Web 文本挖掘系统原型Web-

Miner .WebMiner 采用了多agent 体系结构9将多维文本分析与文本挖掘这两种技术有机地结合起来9以帮助用户

快速~有效地挖掘Web 上的~TML 文档.

关键词Web 挖掘9文本挖掘9文本分类9文本聚类9多维文本分析

中图法分类号

TP 391;TP 393RESEARCH 0N WEB TEXT MINING

WANG Ji -Cheng 9PAN Jin -Gui 9and Z~ANG Fu -Yan

(D6Pc7tH6nt 0f C0HP/t67SCz6nC6cnC T6C n0l0gy 9Ncnjzng unz z 67s zty 9Ncnjzng 210093D

(Stct6K 6y L c b 07ct07y f07N0z 6l S0ft z c76T6C n0l0gy 9Ncnjzng unz z 67s zty 9Ncnjzng 210093D

Ab Stract With the f lood o f in f or m ation on the Web 9Web m ining i S a ne W re S ear c h i SS ue W hi c h

dra WS great intere S t f ro m m any c o mm unitie S .Currently 9there i S no agree m ent about Web m in-

ing yet .I t need S m ore di Sc u SS ion a m ong Sc ienti S t S in order to de f ine W hat it i S e x a c tly .Mean-

W hile 9the de v elo pm ent o f Web m ining S y S te m W ill p ro m ote it S re S ear c h in turn .I n thi S p a p er 9a

S y S te m i c di Sc u SS ion about the p rin c i p le o f Web m ining i S p re S ented 9in c luding the de f inition 9the

relation S hi p bet W een in f or m ation m ining and retrie v al on the Web 9the ta x ono m y and f un c tion .

Then the m ethod S o f te x t m ining on the Web are di Sc u SS ed in detail and a p rototy p e o f Web te x t

m ining S y S te m WebMiner i S introdu c ed .WebMiner i S a m ulti -agent S y S te m W hi c h c o m bine S te x t

m ining and m ulti -di m en S ion te x t analy S i S in order to hel p u S er in m ining ~TML do c u m ent S on the

Web e ff i c iently and e ff e c ti v ely .

K e y wordS

Web m ining 9te x t m ining 9te x t c ategori Z ation 9te x t c lu S tering 9m ulti -di m en S ion te x t

analy S i S 1引言

在Web 迅猛发展的同时9我们不能忽视信息爆炸的问题9即信息极大丰富而知识相对匮乏.据估计9

Web 已经发展成为拥有3亿页面的分布式信息空间9而且这个数字仍以每4至6个月翻一倍的速度增加 1I .

415计算机研究与发展2OOO年

在这些大量~异质的Web信息资源中,蕴含着具有巨大潜在价值的知识.人们迫切需要能够从Web上快速~有效地发现资源和知识的工具.Web上的搜索引擎部分地解决了资源发现问题,但由于精确度不高等原因,其效果远不能使人满意.此外,搜索引擎的目的在于发现Web上的资源,就Web上的知识发现而言,即使检索精度再高,搜索引擎也不能够胜任.为此,我们需要开发比信息检索层次更高的新技术.为了从大量数据的集合中发现有效~新颖~有用~可理解的模式,数据库领域采用了数据挖掘技术[2].但是,数据挖掘的绝大部分工作所涉及的是结构化数据库,很少有处理Web上的异质~非结构化信息的工作.Web挖掘作为数据挖掘的一个新主题,引起了人们的极大兴趣.同时,它也是一个富于争议的研究方向.目前,对于Web挖掘的含义~功能等尚无统一的结论,需要国内外学者在理论上开展更多的讨论以进行精确地定义.此外,Web挖掘系统的开发对其研究也将起到很大推进作用.

在本文中,我们对Web挖掘技术作了系统性的研究.给出了Web挖掘的定义,讨论了Web挖掘与传统的数据挖掘以及Web信息检索之间的关系;对Web挖掘的任务进行了分类,重点讨论了Web文本挖掘和结构挖掘的功能;分析了Web文本挖掘的方法,包括文本的特征表示~文本分类和文本聚类.最后,简单介绍了我们设计的一个Web文档挖掘系统原型WebMiner.

2Web挖掘与Web信息检索

2.1Web挖掘的定义

Web挖掘是一项综合技术,涉及Web~数据挖掘~计算机语言学~信息学等多个领域.不同研究者从自身的领域出发,对Web挖掘的含义有着不同的理解,项目开发也各有其侧重点.例如,有些计算机语言学家认为,Web文档为自然语言理解提供了丰富的语料,可以从中自动地学习词语的意义,以进行词义辨析或确定词语所属的概念[B].我们从更为一般的角度出发,对Web挖掘作如下定义.

定义1.Web挖掘是指从大量Web文档的集合C中发现隐含的模式p.如果将C看作输入,将p看作输出,那么Web挖掘的过程就是从输入到输出的一个映射,C-p.

Web挖掘从数据挖掘发展而来,因此其定义与我们熟知的数据挖掘定义[2]相类似.但是,Web挖掘与传统的数据挖掘相比有许多独特之处.首先,Web挖掘的对象是大量~异质~分布的Web文档.我们认为,以

Web作为中间件对数据库进行挖掘,以及对Web服务器上的日志~用户信息等数据所开展的挖掘工作,仍属于传统的数据挖掘的范畴.其次,Web在逻辑上是一个由文档节点和超链构成的图,因此Web挖掘所得到的模式可能是关于Web内容的,也可能是关于Web结构的.此外,由于Web文档本身是半结构化或无结构的,且缺乏机器可理解的语义,而数据挖掘的对象局限于数据库中的结构化数据,并利用关系表格等存储结构来发现知识,因此有些数据挖掘技术并不适用于Web挖掘,即使可用也需要建立在对Web文档进行预处理的基础之上.这样,开发新的Web挖掘技术,以及对Web文档进行预处理以得到关于文档的特征表示,便成为Web挖掘研究的重点.

2.2Web信息检索的定义

定义2.Web信息检索,是指从大量Web文档的集合C中找到与给定的查询请求g相关的~恰当数目的文档子集S.Web信息检索的过程也对应于一个映射Z,(C,g)-S.

从6O年代以来,信息检索领域在索引模型~文档内容表示~匹配策略等方面取得了许多研究成果.这些成果被成功地应用在Web上,产生了搜索引擎,例如Yahoo1,Alta-vista等.搜索引擎工作的一般流程包括,使用Robot搜集Web文档~对文档集合建立倒排索引~分析用户的查询请求~匹配文档与查询请求以计算二者之间的相似度~对查询结果进行排序以及用户相关度回馈[4].

2.3Web上的挖掘与信息检索

Web上的挖掘和信息检索是两种不同的技术,其区别主要表现在以下几个方面.

(1)方法论不同.信息检索是目标驱动的,用户需要明确提出查询要求;而挖掘是机会主义的,其结果独立于用户的信息需求,也是用户所无法预知的;

(2)着眼点不同.信息检索着重于文档中显式存储的字词和链接;而挖掘试图更多地理解其内容和结构;

(3)目的不同.信息检索的目的在于帮助用户发现资源即从大量文档中找到满足其查询请求的文档子集;而挖掘是为了揭示文档中隐含的知识;

(4)评价方法不同.信息检索使用精度(precision )和召回率(recall )来评价其性能要求返回尽可能多的相关文档同时不相关的文档尽可能少.而挖掘采用收益(gain )~置信度(certainty )~简洁性(simplicity )等来衡量所发现知识的有效性~可用性和可理解性;

(5)使用场合不同.有时信息检索系统返回太多的结果以致用户无法一一浏览有时用户没有明确的信息需求有时用户希望发现文档集合中所具有的结构~趋势~含义在这些场合下就需要使用挖掘技术.

尽管Web 挖掘是比信息检索层次更高的技术但它并不是用来取代信息检索技术二者是相辅相成的.一方面这两种技术各有所长有各自适用的场合;另一方面我们可以利用Web 挖掘的研究成果来提高信息检索的精度和效率改善检索结果的组织使信息检索系统发展到一个新的水平.

Web 挖掘的任务3.1Web 挖掘任务的分类

在逻辑上我们可以把Web 看作是位于物理网络之上的一个有向图G =(N E ) 其中节点集N 对应于Web 上的所有文档而有向边集E 则对应于节点之间的超链.对节点集作进一步的划分 N ={N l N l }.所有的非叶节点N l 是HTML 文档其中除了包含文本以外还包含了标记以指定文档的属性和内部结构或者嵌入了超链以表示文档间的结构关系.叶节点N l 可以是HTML 文档也可以是其它格式的文档例如Postscript 等文本文件以及图形~音频等媒体文件.如图1所示.N 中每个节点都有一个URL 其中包含了关于该节点所位于的Web 站点和目录路径的结构信息.

Web 上信息的多样性决定了Web 挖掘任务的多样性.按照处理对象的不同我们将Web 挖掘分为两大类,内容挖掘和结构挖掘.前者指的是从Web 文档的内容信息中抽取知识而后者指的是从Web 文档的结构信息中推导知识.Web 内容挖掘又分为对文本文档(包括te t HTML 等格式)和多媒体文档(包括im-age audio video 等媒体类型)的挖掘.Web 结构挖掘不仅仅局限于文档之间的超链结构还包括文档内部的结构~文档URL 中的目录路径结构等.如图2所示.在本文中我们仅对Web 上的文本挖掘和结构挖掘加以

讨论下文中提及的

文档指的是文本文档不包括多媒体文档.有关Web 上的多媒体挖掘感兴趣的读者可以参见文献[5] 其中介绍了一个简单的Web 多媒体挖掘系统原型

图挖掘的分类

文本挖掘技术研究

615计算机研究与发展2OOO年

上的文档进行分类,这大大影响了索引的页面数目(Yahoo1索引的覆盖范围远远小于Alta-vista等搜索引擎).利用文本分类技术可以对大量文档进行快速~有效地自动分类.目前,文本分类的算法有很多种,比较常用的有TFIDF[7]和Naive Bayes[8]等方法.

文本聚类与分类的不同之处在于,聚类没有预先定义好的主题类别,它的目标是将文档集合分成若干个簇,要求同一簇内文档内容的相似度尽可能地大,而不同簇间的相似度尽可能地小.~earst等人的研究已经证明了聚类假设,即与用户查询相关的文档通常会聚类得比较靠近,而远离与用户查询不相关的文档[9].因此,我们可以利用文本聚类技术将搜索引擎的检索结果划分为若干个簇,用户只需要考虑那些相关的簇,大大缩小了所需要浏览的结果数量.目前,有多种文本聚类算法,大致可以分为两种类型,以G-~AC等算法为代表的层次凝聚法[1O],以k-means等算法为代表的平面划分法[11].文献[12]介绍了将G-~AC和k-means集合起来的Buckshot方法和Fractionation方法.

关联分析是指从文档集合中找出不同词语之间的关系.Brin提出了一种从大量文档中发现一对词语出现模式的算法,并用来在Web上寻找作者和书名的出现模式,从而发现了数千本在Amazon网站上找不到的新书籍[13].Wang等人以Web上的电影介绍作为测试文档,通过使用OEM模型从这些半结构化的页面中抽取词语项,进而得到一些关于电影名称~导演~演员~编剧的出现模式[14].

分布分析与趋势预测是指通过对Web文档的分析,得到特定数据在某个历史时刻的情况或将来的取值趋势.Feldman等人使用多种分布模型对路透社的两万多篇新闻进行了挖掘,得到主题~国家~组织~人~股票交易之间的相对分布,揭示了一些有趣的趋势[15].Wtthrich等人通过分析Web上出版的权威性经济文章,对每天的股票市场指数进行预测,取得了良好的效果[16].

需要说明的是,Web上的文本挖掘和通常的平面文本挖掘的功能和方法比较类似,但是,Web文档中的标记,例如,<~eading>等蕴含了额外的信息,我们可以利用这些信息来提高Web文本挖掘的性能. 3.3Web结构挖掘由于Web中包含的结构信息处理起来比较困难,因此通常的Web搜索引擎等工具仅将Web看作是一个平面文档的集合,而忽略了其中的结构信息.Web结构挖掘的目的在于揭示蕴含在这些文档结构信息中的有用模式.文档之间的超链反映了文档间的某种联系,例如包含~从属等.超链中的标记文本(anchor)对链宿页面也起到了概括作用,这种概括在一定程度上比链宿页面作者所作的概括(页面的标题)要更为客观~准确. Craven等人使用一阶学习方法对Web页面间的超链类型进行分类,以判断页面间的members-of-project, department-of-persons等关系;同时,他们还利用超链中的标记文本对链宿页面进行分类,取得了较好的效果[17].超链还反映了文档间的引用关系,一个页面被引用的次数体现了该页面的重要性.Brin等人通过综合考虑页面的引用次数和链源页面的重要性来判断链宿页面的重要性,从而设计出能够查询与用户请求相关的权威页面的搜索引擎[18].每个Web页面并不是原子对象,其内部有或多或少的结构.Spertus对Web页面的内部结构作了研究,相关的其它页面[19].Dipasguo使用提出了一些启发式规则,并用于寻找与给定的页面集合{P1,-,P n}~TML结构树对Web页面进行分析,得到其内部结构特征,从而学习公司的名称和地址等信息在页面中的出现模式[2O].Web页面的URL可能会反映页面的类型,也可能会反映页面之间的目录结构关系.Spertus提出了与Web页面URL有关的启发式规则,并用于寻找个人主页,或者寻找改变了位置的Web页面的新位置[19].目前,与Web挖掘有关的各种项目涉及了上述任务的某个方面[6~8,1O~13,15,16],也有一些项目综合考虑了Web的内容和结构因素,将文本挖掘与结构挖掘结合起来,以取得更好的效果[14,17~2O].尽管与多媒体信息相比,文本信息显得比较普通,但文本仍然是记载和传播信息的最主要媒体.此外,文本挖掘又相对容易取得技术突破,其中的许多研究成果也可以为多媒体挖掘和结构挖掘所借鉴.因此对文本挖掘技术的研究具有十分重要的意义和广泛的应用前景.下面,我们重点对Web文本挖掘的方法和系统设计进行讨论.4 文本挖掘方法在Web 文本挖掘中,文本的特征表示是挖掘工作的基础,而文本分类和聚类是两种最重要~最基本的挖掘功能O4O 1文本的特征表示与数据库中的结构化数据相比,Web 文档具有有限的结构,或者根本就没有结构O 即使具有一些结构,也是着重于格式,而非文档内容O 不同类型文档的结构也不一致O 此外,文档的内容是人类所使用的自然语言,计算机很难处理其语义O 文本信息源的这些特殊性使得现有的数据挖掘技术无法直接应用于其上O 我们需要对文本进行预处理,抽取代表其特征的元数据O 这些特征可以用结构化的形式保存,作为文档的中间表示形式O文本特征指的是关于文本的元数据,分为描述性特征,例如文本的名称~日期~大小~类型等;以及语义性特征,例如文本的作者~机构~标题~内容等O 描述性特征易于获得,而语义性特征则较难得到O W 3C 近来制定的XML [21],RDF [22]等规范提供了对Web 文档资源进行描述的语言和框架O 在此基础上,我们可以从半结构化的Web 文档中抽取作者~机构等特征O对于内容这个难以表示的特征,我们首先要找到一种能够被计算机所处理的表示方法O 矢量空间模型(VSM )是近年来应用较多且效果较好的方法之一[23]O 在该模型中,文档空间被看作是由一组正交词条矢量所张成的矢量空间,每个文档c 表示为其中的一个范化特征矢量V (c )=(t 1,I 1(c );~;t z ,I z (c );~;t n ,I n (c )),其中t z 为词条项,I z (c )为t z 在c 中的权值O 可以将c 中出现的所有单词作为t z ,也可以要求t z 是c 中出现的所有短语,从而提高内容特征表示的准确性O I z (c )一般被定义为t z 在c 中出现频率tf z (c )的函数,即I z (c )= (tf z (c ))O 常用的有:布尔函数 =1,tf z (c)Z 1O,tf z < L (c)=O;平方根函数 =tf z ~(c);对数函数 =1Og (tf z (c )+1);TFIDF 函数 =tf z (c )>1Og N n ()z,其中,N 为所有文档的数目,n z 为含有词条t z 的文档数目O 4O 2文本分类文本分类是一种典型的有教师的机器学习问题,一般分为训练和分类两个阶段,具体过程如下O训练阶段:(1)定义类别集合C ={C 1,~,C z ,~,C m },这些类别可以是层次式的,也可以是并列式的;(2)给出训练文档集合S ={S 1,~,S j ,~,S n },每个训练文档S j 被标上所属的类别标识C z ;(3)统计S 中所有文档的特征矢量V (S j ),确定代表C 中每个类别的特征矢量V (C z );分类阶段:(4)对于测试文档集合T ={c 1,~,c k ,~,c 1}中的每个待分类文档c k ,计算其特征矢量V (c k )与每个V (C z )之间的相似度Szm (c k ,C z );(5)选取相似度最大的一个类别arg max C z E CSzm (c k ,C z )作为c k 的类别O 有时也可以为c k 指定多个类别,只要c k 与这些类别之间的相似度超过某个预定的阈值O 如果c k 与所有类别的相似度均低于阈值,那么通常将该文档放在一边,由用户来做最终决定O 对于类别与预定义类别不匹配的文档而言,这是合理的,也是必须的O 如果这种情况经常发生,则说明需要修改预定义类别,然后重新进行上述训练与分类过程O在计算Szm (c k ,C z )时,有多种方法可供选择O 最简单的方法是仅考虑两个特征矢量中所包含的词条的重叠程度,即Szm(c k ,C z )=n (c k ,C z )n U (c k ,C z ),其中,n (c k ,C z )是V(c k )和V(C z )具有的相同词条数目,n U (c k ,C z )是V(c k )和V(C z )具有的所有词条数目;最常用的方法是考虑两个特征矢量之间的夹角余弦,即Szm(c k ,C z )=V(c k )-V(C z )V(c k )>V(C z )O 7155期王继成等:Web 文本挖掘技术研究4.3文本聚类文本聚类是一种典型的无教师的机器学习问题.目前的文本聚类方法大致可以分为层次凝聚法和平面划分法两种类型.对于给定的文档集合D ={d 19 9d z 9 9d n }9层次凝聚法的具体过程如下,(1)将D 中的每个文档d z 看作是一个具有单个成员的簇6z ={d z }9这些簇构成了D 的一个聚类C ={619 96z 9 96n };(2)计算C 中每对簇(6z 96j )之间的相似度Szm (6z 96j );(3)选取具有最大相似度的簇对arg max 6z 96j E CSzm (6z 96j )9并将6z 和6j 合并为一个新的簇6k =6z U 6j 9从而构成了D 的一个新的聚类C ={619 96n 1};(4)重复上述步骤9直至C 中剩下一个簇为止.该过程构造出一棵生成树9其中包含了簇的层次信息9以及所有簇内和簇间的相似度.层次聚类方法是最为常用的聚类方法9它能够生成层次化的嵌套簇9且准确度较高.但是9在每次合并时9需要全局地比较所有簇之间的相似度9并选择出最佳的两个簇9因此运行速度较慢9不适合于大量文档的集合.平面划分法与层次凝聚法的区别在于9它将文档集合水平地分割为若干个簇9而不是生成层次化的嵌套簇.对于给定的文档集合D ={d 19 9d z 9 9d n }9平面划分法的具体过程如下.D 确定要生成的簇的数目k ;@按照某种原则生成k 个聚类中心作为聚类的种子S ={S 19 9S j 9 9S k };对D 中的每个文档d z 9依次计算它与各个种子S j 的相似度Szm (d z 9S j );@选取具有最大相似度的种子arg max S j E SSzm (6z 9S j )9将d z 归入以S j 为聚类中心的簇6j 9从而得到D 的一个聚类C ={619 96k }.@重复步骤@ @若干次9以得到较为稳定的聚类结果.该方法的运行速度较快9但是必须事先确定k 的取值9且种子选取的好坏对聚类结果有较大影响.5Web 文本挖掘系统原型Webminer我们在对Web 挖掘技术进行系统研究的理论基础之上9设计了一个Web 文本挖掘系统原型Webminer(如图3所示).Webminer 采用了多agent 的体系结构9将多维文本分析与文本挖掘这两种技术有机地结合起来9以帮助用户快速有效地挖掘Web 上的HTmL 文档.以下给出系统组件和系统行为的简要描述.年内容进行分类.(4D 文本聚类agent ;利用其内部知识库对文档集合(或者其中的部分子集D 的内容进行聚类.(5D 多维文本分析引擎;WebMiner 引入了文本超立方体模型和多维文本分析技术为用户提供关于文档的多维视图.多维文本分析引擎还具有统计分析功能从而能够揭示文档集合的特征分布和趋势.此外多维文本分析引擎还可以对大量文档的集合进行特征修剪包括横向文档选择和纵向特征投影两种方式.(6D 用户接口agent ;在用户与多维文本分析引擎之间起着桥梁作用.它为用户提供可视化接口将用户的请求转化为专用语言传递给多维文本分析引擎并将多维文本分析引擎返回的多维文本视图和文档展示给用户.每个agent 作为系统的一个组件能够完成相对独立的工作.这些部件可以位于同一台计算机上也可以分布在网络中的多台计算机上.此外由于系统高度模块化因此易于加入新的部件.同时各个agent 之间通过相互协作来完成挖掘的全过程.其中多维文本分析引擎以文本预处理为基础以文本挖掘为支撑.文本超立方体中的维来自于文本预处理所得到的文本特征属性例如时间~作者等.而文档主题类别的生成以及文档之间关系的聚类分析又依赖于文档挖掘技术.反过来多维文本分析引擎又为文本挖掘提供了有效的可视化手段和特征修剪工具.文档集合的特征修剪结果可以展现给用户也可以作为挖掘对象输入到文本分类agent 和文本聚类agent .如图3所示.5.2系统行为用户通过与系统中各个组件进行交互来实现Web 文本挖掘的全过程.首先用户给出搜集策略(例如起始URL 列表~指定主题或者网络域等D 以指导文本搜集agent 进行Web 文档的搜集.然后文本预处理a-gent 从搜集到的Web 文档中抽取描述性特征和语义性特征.此后用户有多种方案供选择包括;使用多维分析引擎对文档特征进行多维分析得到多维文档视图(每个视图对应于文档集合的一个子集D ;按照预定义的类别层次对文档集合(或者其中的部分子集D 的内容进行分类;当预定义的类别层次与文档集合的内在层次不符合时用户可以修改或重新创建文本分类agent 的预定义类别层次和训练文档或者利用文本聚类a-gent 对文档集合进行聚类得到文档簇;由于簇也是文档的集合因此当用户对某个簇感兴趣而这个簇中又包含很多文档时可以再次使用文本聚类agent 将簇进一步划分为子簇直到每个簇中包含的文档数目适中为止.用户与系统的交互存在多次反复直到获得满意的结果为止.6结束语在Web 信息充斥的情况下 Web 挖掘是一个具有极大潜力的研究方向.一些国际会议例如KDD 97~I CAI 99等已经或即将举行有关Web 挖掘的专题讨论对其理论~体系结构~算法等展开研究.本文对Web 挖掘的定义~任务~功能作了系统性的研究着重分析了Web 文本挖掘的方法并设计了一个Web 文本挖掘系统原型WebMiner .在该领域仍有许多问题值得探讨包括;适用于大规模文档集合的有效算法利用XML 规范对Web 文档元数据进行描述和抽取设计更多的Web 挖掘部件以丰富WebMiner 的功能等这些将是我们下一步研究要解决的问题.参考文献1Lawrence S et al .Searching the World Wide Web .Science 1998 28O(536OD ;98*1OO 2Fayyad U et al .The KDD process for extracting useful knowledge from volumes of data .Communications of the ACM 1996 39(11D ;27*343Hahn U Schnattinger K .Deep knowledge discovery from natural language texts .In ;Proc of the 3rd Int l Conf on Knowledge Discoveryand Data Mining .Newport Beach 1997.175*1784Gudivada V N et al .Information retrieval on the World Wide Web .IEEE Internet Computing 1997 1(5D ;58*685Za l -ane O R Han et al .MultiMedia -miner ;A system prototype for multimedia data mining .In ;Proc of 1998ACM -SIGMOD Conf onManagement of Data .Seattle 1998.581*5839155期王继成等;Web 文本挖掘技术研究025计算机研究与发展2000年6Pirolli P,Schank P et al.Scatter/gather browsing communicates the topic structure of a very large text collection.In,Proc of the ACM SIGC~I Conf on~uman Factors in Computing Systems.1996.http,//https://www.360docs.net/doc/911770281.html,/sigs/sigchi/chi96/proceedings/papers/pirolli/pp-txt.htm7邹涛,王继成等.基于WWW的资料搜集系统的设计与实现.情报学报,1999,18(3),195~201(Zou Tao,Wang Jicheng et al.The design and implementation of an information gathering system on the Web.Journal of the China Soci-ety for Scientific and Technical Information(in Chinese),1999,18(3),195~201)8Choon Yang Ouek.Classification of world wide web documents[Senior~onors dissertation.School of Computer Science,Camegie Mel-lon University,19979~earst M A,Pedersen J.Reexamining the cluster hypothesis,Scatter/gather on retrieval results.In,Proc of the19th Annual Int l ACM/SIGIR Conf.Zurich,1996.76~8410Willet P.Recent trends in hierarchical document clustering,A critical https://www.360docs.net/doc/911770281.html,rmation Processing and Management,1988,24,577~ 59711Rocchio J J.Document retrieval systems Optimization and evaluation[Ph D dissertation.~arvard University,Cambridge,MA, 196612Cutting D et al.Scatter/gather,A cluster-based approach to browsing large document collections.In,Proc of the15th Annual Int l ACM/SIGIR Conf.Copenhagen,1992.318~32913Brin S.Extracting patterns and relations from the World Wide Web.In,Proc of WebDB Workshop at EDBT 98.Valencia,199814Wang Ke,Liu~uiging.Schema discovery from semi-structured data.In,Proc of the3rd Int l Conf on Knowledge Discovery and Data Mining.Newport Beach,199715Feldman R,Dagan I.Knowledge discovery in textual databases(KDT).In,Proc of the1st Int l Conf on Knowledge Discovery.Montre-al,1995.112~11716Wtthrich B,Permunetilleke D,Leung S et al.Daily prediction of major stock indices from textual WWW data.In,Proc of the4th Int l Conf on Knowledge Discovery.New York,199817Craven M,Slattery S,Nigam K.First-order learning for Web mining.In,Proc of the10th European Conf on Machine Learning.Chem-nitz,199818Brin S et al.The anatomy of large-scale hypertextual web search engine.In,Proc of the Seventh Int l World Wide Web Conf.1998.http,//decweb.ethz.ch/www7/1921/com1921.htm19Spertus E.ParaSite,Mining structural information on the web.In,Proc of the Sixth Int l World Wide Web Conf.1997.http,//decweb.ethz.ch/www6/Technical/paper206/paper206.html20DiPasguo https://www.360docs.net/doc/911770281.html,ing~TML formatting to aid in natural language processing on the World Wide Web[Senior~onors dissertation.School of Computer Science,Canegie Mellon University,199821Bray T,Paoli J,Sperberg-McOueen C M.Extensible Markup Language(XML)1.0specification.World Wide Web Consortium Recom-mendation.1998.http,//https://www.360docs.net/doc/911770281.html,/TR/REC-xml/22Lassila O,Swick R R.Resource Description Framework(RDF)Model and Syntax Specification.World Wide Web Consortium Recom-mendation.1999.http,//https://www.360docs.net/doc/911770281.html,/TR/REC-rdf-syntax/23Salton G,Wong A,Yang C S.A vector space model for automatic https://www.360docs.net/doc/911770281.html,munications of the ACM,1975,18(5),613~620Web文本挖掘技术研究作者：王继成，潘金贵，张福炎， WANG Ji-Cheng， PAN Jin-Gui， ZHANG Fu-Yan作者单位：南京大学计算机科学与技术系,南京,210093;南京大学软件新技术国家重点实验室,南京,210093刊名：计算机研究与发展英文刊名：JOURNAL OF COMPUTER RESEARCH AND DEVELOPMENT年，卷(期)：2000,37(5)被引用次数：321次参考文献(23条)https://www.360docs.net/doc/911770281.html,wrence S Searching the World Wide Web[外文期刊] 1998(5360)2.Fayyad U The KDD process for extracting useful knowledge from volumes of data[外文期刊] 1996(11)3.Hahn U;Schnattinger K Deep knowledge discovery from natural language texts[外文会议] 19974.Gudivada V N Information retrieval on the World Wide Web[外文期刊] 1997(05)5.Za?ane O R;Han J MultiMedia-miner:A system prototype for multimedia data mining 19986.Pirolli P;Schank P Scatter/gather browsing communicates the topic structure of a very large text collection 19967.邹涛;王继成基于WWW的资料搜集系统的设计与实现[期刊论文]-情报学报 1999(03)8.Choon Yang Quek Classification of world wide web documents 19979.Hearst M A;Pedersen J Reexamining the cluster hypothesis:Scatter/gather on retrieval results 199610.Willet P Recent trends in hierarchical document clustering:A critical review 198811.Rocchio J J Document retrieval systems-Optimization and evaluation 196612.Cutting D Scatter/gather:A cluster-based approach to browsing large document collections 199213.Brin S Extracting patterns and relations from the World Wide Web 199814.Wang Ke;Liu Huiqing Schema discovery from semi-structured data 199715.Feldman R;Dagan I Knowledge discovery in textual databases(KDT) 199516.Wüthrich B;Permunetilleke D;Leung S Daily prediction of major stock indices from textual WWW data 199817.Craven M;Slattery S;Nigam K First-order learning for Web mining 199818.Brin S The anatomy of large-scale hypertextual web search engine 199819.Spertus E ParaSite: Mining structural information on the web 199720.DiPasquo D Using HTML formatting to aid in natural language processing on the World Wide Web 199821.Bray T;Paoli J;Sperberg-McQueen C M Extensible Markup Language (XML)1.0 specification. World Wide Web Consortium Recommendation 1998https://www.360docs.net/doc/911770281.html,ssila O;Swick R R Resource Description Framework(RDF)Model and Syntax Specification. World Wide Web Consortium Recommendation 199923.Salton G;Wong A;Yang C S A vector space model for automatic indexing 1975(05)本文读者也读过(2条)1.谌志群.张国煊.CHEN Zhi-qun.ZHANG Guo-Xuan文本挖掘研究进展[期刊论文]-模式识别与人工智能2005,18(1)2.梅馨.邢桂芬文本挖掘技术综述[期刊论文]-江苏大学学报(自然科学版)2003,24(5)引证文献(321条)1.贾丙静.吴长勤.葛华Web文本聚类的研究与实现[期刊论文]-长春师范学院学报（自然科学版） 2011(3)2.贾丙静.王传安.王亚军.吴长勤基于属性重要性的Web文本聚类研究[期刊论文]-重庆文理学院学报：自然科学版 2011(3)3.欧金冬一种改进的Web日志预处理技术及其实现[期刊论文]-科技信息 2010(9)4.张金辉.钟声Web数据挖掘在电子商务中的应用[期刊论文]-电脑知识与技术 2010(10)5.张霞.王建东.顾海花一种改进的页面相似性度量方法[期刊论文]-计算机工程与应用 2010(19)6.湛燕.陈昊使用粒子群优化算法学习聚类算法的参数[期刊论文]-大众科技 2010(6)7.艾伟.孙四明.张峰基于本体的Web文本挖掘与信息检索[期刊论文]-计算机工程 2010(22)8.姚轶浅谈网络文本挖掘分类[期刊论文]-科技风 2009(3)9.刘科基于KNN算法的文本分类[期刊论文]-科技经济市场 2009(6)10.冯华基于网络文本分类技术的应用研究[期刊论文]-科协论坛（下半月） 2009(11)11.朱海基于多智能体的用户偏好系统研究[期刊论文]-商场现代化 2008(32)12.张霞基于文本过滤的Web页面检索研究[期刊论文]-电脑知识与技术 2008(26)13.梅林增加动态网页对搜索引擎可见度的策略[期刊论文]-甘肃科技 2008(1)14.高淑琴Web文本分类技术研究现状述评[期刊论文]-图书情报知识 2008(3)15.修雅慧.邓文新基于多Agent的Web文本挖掘模型[期刊论文]-科技创新导报 2008(10)16.宋昌磊浅析数据挖掘技术[期刊论文]-中国水运（学术版） 2007(7)17.吴星玮.饶培伦文本挖掘中运用自组织特征映射算法分析中国人类工效学研究状况[期刊论文]-人类工效学2007(1)18.张逸清.刘文才聚类数的确定[期刊论文]-计算机与数字工程 2007(2)19.郑煜.钱榕Web文本聚类算法WTCA的研究与实现[期刊论文]-计算机工程与应用 2007(4)20.李霞AGENT技术在Internet中的应用[期刊论文]-山东省农业管理干部学院学报 2007(6)21.王娜.李云松基于概念格的文本挖掘[期刊论文]-计算机技术与发展 2006(1)22.陆宜梅Web搜索技术现状分析[期刊论文]-沈阳大学学报 2006(2)23.刘进锋.荣冈Web文本挖掘在辅助研究中的应用[期刊论文]-情报科学 2006(3)24.吴岳芬.刘洪辉WEB文本挖掘的研究[期刊论文]-电脑知识与技术（学术交流） 2006(4)25.王圆.孙铁利.李杨Web文本挖掘中的特征表示和特征提取[期刊论文]-电脑知识与技术（学术交流） 2006(5)26.范彦彬基础教育资源搜索引擎中自动文摘技术研究[学位论文]硕士 200627.张茂元.卢正鼎.邹春燕一种基于语境的中文分词方法研究[期刊论文]-小型微型计算机系统 2005(1)28.武勇.杨名利.张昭涛基于数据挖掘的Web挖掘系统设计研究[期刊论文]-邢台职业技术学院学报 2005(3)29.胡永晖.李向军.孟志青使用关联规则提高Web访问速度的一种方法[期刊论文]-西安文理学院学报（自然科学版） 2005(4)30.鲍丽红.王威Web数据挖掘的分析与探索[期刊论文]-天水师范学院学报 2005(5)31.钱立三WEB日志挖掘在远程开放教育中的应用[期刊论文]-安徽广播电视大学学报 2005(3)32.冯珺Web文本聚类技术的研究和应用[学位论文]硕士 200533.聂哲特征提取搜索系统的设计与实现[期刊论文]-计算机应用与软件 2004(2)34.周涛.李军.陆惠玲WEB数据挖掘技术研究[期刊论文]-汉中师范学院学报 2004(3)35.王仁武.陈家训一种基于Web数据挖掘的ICRM系统设计与实现[期刊论文]-计算机应用与软件 2004(8)36.张脂平.林世平Web文本挖掘中特征提取算法的分析及改进[期刊论文]-福州大学学报（自然科学版）2004(z1)37.杨炳儒.李岩.郑川WWW上智能信息搜索技术研究[期刊论文]-系统工程与电子技术 2003(7)38.黄晓斌基于网络的文献知识发现系统研究[期刊论文]-情报科学 2003(2)39.暴海龙.李金林专利检索中的IPC和主题词识别方法研究[期刊论文]-北京理工大学学报(社会科学版)2003(5)40.湛燕.杨芳.王熙照基于遗传算法学习聚类算法的中心个数[期刊论文]-计算机工程与应用 2003(16)41.宋敏青数据挖掘在Web中的研究与应用[期刊论文]-现代情报 2002(3)42.李岩.陈新中.杨炳儒基于Web挖掘的智能门户搜索引擎的研究[期刊论文]-计算机工程与应用 2002(4)43.胥桂仙.许建潮.连远锋.李昱翠文本挖掘中的特征表示及聚类方法[期刊论文]-吉林工学院学报(自然科学版) 2002(3)44.邓英.李明Web数据挖掘技术及工具研究[期刊论文]-计算机工程与应用 2001(20)45.周前.肖建华全文检索中的文本学习技术研究[期刊论文]-湖南工程学院学报(自然科学版) 2001(2)46.杨丽.陈荔.徐琳基于Web挖掘的SDN企业供需合作伙伴决策研究[期刊论文]-科技管理研究 2011(4)47.杜尔斌.李翔.林祥改进的KNN文本分类算法[期刊论文]-信息安全与通信保密 2011(4)48.温丽梅基于对新时期开发信息监控系统的分析[期刊论文]-黑龙江科技信息 2011(12)49.吴国祥网络挖掘研究综述[期刊论文]-电脑知识与技术 2011(32)50.程东波XML DTD数据映射方案的研究[期刊论文]-计算机光盘软件与应用 2010(5)51.范列数据挖掘及其工具的选择[期刊论文]-大众商务（下半月） 2010(3)52.李川Web文本挖掘及其分类技术研究[期刊论文]-数字技术与应用 2010(7)53.薛峰数据挖掘在数字图书馆中的应用[期刊论文]-山东教育学院学报 2010(4)54.张静Web数据挖掘技术研究与应用[期刊论文]-电脑知识与技术 2010(15)55.刘卓.徐斌分层聚类算法在文本挖掘中的应用[期刊论文]-网络安全技术与应用 2010(7)56.孙瑶琴基于内容的中文网页自动分类系统[期刊论文]-中国校外教育（理论） 2009(7)57.韩毅.周晏基于SVM的Web文本分类[期刊论文]-科技信息 2009(17)58.徐慧.陶宏电子商务中的智能挖掘技术及其应用研究[期刊论文]-漯河职业技术学院学报 2009(5)59.杨成基于XML的网页信息提取系统的研究与设计[期刊论文]-电脑知识与技术 2009(26)60.单蓉文本聚类算法的比较研究[期刊论文]-内江科技 2008(12)61.郑雅婷.张鹰Web文本挖掘技术在网上购物中的应用[期刊论文]-牡丹江师范学院学报（自然科学版）2008(4)62.吕震宇.赵爽.林永民kNN在文本分类中的应用研究[期刊论文]-计算机与现代化 2008(11)63.朱颢东.蔡乐才.刘忠英一种改进的文本特征选择算法[期刊论文]-现代电子技术 2008(8)64.胡健.杨炳儒.宋泽锋.钱榕基于非结构化数据挖掘结构模型的Web文本聚类算法[期刊论文]-北京科技大学学65.王炼.孙艳.伯绍波.何凌面向决策支持的交通运输信息平台研究[期刊论文]-交通科技 2007(1)66.李盛瑜.何文一种对聊天文本进行特征选取的方法研究[期刊论文]-计算机科学 2007(5)67.龚月瑛Web信息挖掘现状及应用前景[期刊论文]-科技情报开发与经济 2007(20)68.潘钧面向Web日志的语义聚类算法[期刊论文]-计算机应用研究 2007(7)69.袁军鹏.朱东华.李毅.李连宏.黄进文本挖掘技术研究进展[期刊论文]-计算机应用研究 2006(2)70.董德民.何钦铭面向电子商务的Web挖掘技术及其应用研究[期刊论文]-计算机工程与设计 2006(1)71.郭玉滨Web文本挖掘技术及其应用的研究[期刊论文]-电脑知识与技术（学术交流） 2006(3)72.周云真.舒建文.王平根数据挖掘在基于WEB的智能远程教育中的应用[期刊论文]-文教资料 2006(27)73.胥桂仙.朴泰雄.杨丹丹.徐小博.高旭中文文本挖掘中最长频繁序列的发现算法[期刊论文]-中央民族大学学报(自然科学版) 2004(1)74.胥桂仙.杨丹丹.高旭.陈立新中文文本挖掘中姓名特征提取技术的研究[期刊论文]-中央民族大学学报(自然科学版) 2003(4)75.尹桂秀一种中文文本自动分类方法的研究[期刊论文]-情报理论与实践 2002(2)76.王连军Web文本挖掘浅析[期刊论文]-现代图书情报技术 2002(6)77.周源远.王继成.郑刚.张福炎Web页面清洗技术的研究与实现[期刊论文]-计算机工程 2002(9)78.陈建华.包煊Web挖掘系统的设计与实现[期刊论文]-计算机工程 2002(8)79.王伟平.王斌.陈松乔.陈建二Web智能搜索多Agent系统结构及相关技术[期刊论文]-计算机工程 2002(3)80.胥桂仙.苏筱蔚.陈淑艳中文文本挖掘中的无词典分词的算法及其应用[期刊论文]-吉林工学院学报(自然科学版) 2002(1)81.杨斌.孟志青一种文本分类数据挖掘的技术[期刊论文]-湘潭大学自然科学学报 2001(4)82.杨丽Web挖掘在电子商务中的应用研究[期刊论文]-管理观察 2011(18)83.杨丽Web挖掘在电子商务中的应用研究[期刊论文]-管理观察 2011(17)84.吴育芳.陆春华Web文本挖掘研究[期刊论文]-晋图学刊 2010(3)85.刘卓K-最邻近算法在文本自动分类中的应用[期刊论文]-苏州市职业大学学报 2010(2)86.刘典型.欧阳柳波基于RTTI的特殊网页文本提取技术研究[期刊论文]-计算机应用与软件 2010(9)87.卜文娟.张蕾基于概念图的中文FAQ问答系统[期刊论文]-计算机工程 2010(14)88.张亦辉.石冰.李新基于向量空间模型的中文文档预处理系统设计[期刊论文]-山东科学 2010(5)89.严丽丽.陈鹤年一种基于支持向量机和遗传算法的启发式多层文本分类算法[期刊论文]-软件导刊 2010(10)90.胡静.蒋外文.朱华Web文本挖掘中数据预处理技术研究[期刊论文]-现代计算机（专业版） 2009(3)91.张筱丹Web文本挖掘的研究[期刊论文]-科技信息 2009(4)92.张楠.于波基于概念格的Web文本挖掘方法[期刊论文]-大庆石油学院学报 2009(3)93.熊回香.许颖颖关联规则挖掘在网络信息检索中的应用[期刊论文]-情报杂志 2008(12)94.彭耶萍.肖大光个性化信息检索中的文本分类方法[期刊论文]-电脑知识与技术 2008(29)95.李淑领网络社区中的虚拟身份挖掘[期刊论文]-沧州师范专科学校学报 2008(3)96.刘凌霞.宋强.陈向东Web数据挖掘在电子商务中的应用研究[期刊论文]-网络安全技术与应用 2008(7)97.张涛.邓军现代远程教育个性化Web挖掘研究[期刊论文]-科学技术与工程 2007(5)98.宋庆伟.向阳一种基于自组织映射神经网络的Web页面个性化推荐模型[期刊论文]-计算机应用与软件99.王志明.沙莎Web文本挖掘技术在新闻主题检测中的应用研究[期刊论文]-长沙大学学报 2007(5)100.ZHANG Liang.CHEN Zhao-xiong.HUANG He-yan Design and Implementation of FAQ Automatic Return System Based on Similarity Computation[期刊论文]-武汉大学学报（英文版） 2006(1)101.张亮.冯冲.陈肇雄.黄河燕基于语句相似度计算的FAQ自动回复系统设计与实现[期刊论文]-小型微型计算机系统 2006(4)102.曹龄兮.李建华.娄悦基于多次权重鉴别的信息雷达及应用[期刊论文]-现代计算机（专业版） 2006(2) 103.李立耀基于页面链接结构Page Rank算法的改进--有向访问模型[期刊论文]-福建师大福清分校学报2006(2)104.魏松.钟义信.王翔英中文Web文本挖掘系统WebTextMiner开发[期刊论文]-计算机应用研究 2006(6) 105.巩固.张虹Web数据挖掘分析[期刊论文]-电脑知识与技术(学术交流) 2006(6)106.岳文信息检索算法在Web中的应用与研究[学位论文]硕士 2006107.易高翔.程耕国Web文本挖掘研究[期刊论文]-武汉科技大学学报（自然科学版） 2005(1)108.梁开健Web挖掘在现代远程教育中的应用[期刊论文]-微机发展 2005(8)109.王海涌.郑丽英.刘丽艳基于文本表示的特征项权值确定方法研究[期刊论文]-甘肃科学学报 2005(3) 110.李智辉.卢苇Web文本主题挖掘技术研究[期刊论文]-计算机教育 2005(11)111.李健.马力.武波一种基于Web文本聚类的用户兴趣发现模型的研究[期刊论文]-现代电子技术 2004(23) 112.陈治平.林亚平.李军义智能门户搜索引擎技术[期刊论文]-计算机工程 2004(3)113.包骏杰Web数据挖掘研究[期刊论文]-重庆教育学院学报 2004(3)114.陈新中.李岩.杨炳儒.谢永红.张运涛Web日志挖掘技术进展[期刊论文]-系统工程与电子技术 2003(4) 115.Li Jun-e.ZHOU Dong-ru Evaluation Method of Web Site Structure Based on Web Structure Mining[期刊论文]-武汉大学学报（英文版） 2003(3)116.何瑗.蒋明.肖建华.符江东.徐洁磐SISE:一个基于机器学习的中文专题搜索引擎[期刊论文]-计算机工程2002(10)117.陈福集数据挖掘在Internet信息导航系统中的应用研究[期刊论文]-电信科学 2000(9)118.孙学军Web文本数据挖掘技术及其在电子商务中的应用[期刊论文]-菏泽学院学报 2011(2)119.吕岚基于层次聚类算法的WEB文本挖掘技术研究[期刊论文]-福建电脑 2011(3)120.陈锋敏基于云端的Web数据挖掘预取技术研究[期刊论文]-统计与决策 2010(22)121.刘伟丽.张德贤基于Web文本挖掘的远程教育个性化服务应用研究[期刊论文]-福建电脑 2009(5)122.李甲林Web数据挖掘技术研究综述[期刊论文]-电脑知识与技术 2009(36)123.许伟佳基于向量空间模型的文档聚类研究[期刊论文]-电脑知识与技术 2009(25)124.姚行艳.蔡乐才.莫再峰基于向量空间模型的路径相似度蚁群算法研究[期刊论文]-四川理工学院学报(自然科学版) 2008(5)125.喻金平.董芳芳面向Web的数据挖掘技术[期刊论文]-商场现代化 2007(3)126.区力.王新旭.陈敏Web文本挖掘技术在电力EIP的应用研究[期刊论文]-现代计算机（专业版） 2007(10) 127.薛丽敏.陆小龙.刘春生一种网络监控实现方案研究[期刊论文]-现代电子技术 2007(18)128.姜亚莉.关泽群用于Web文档聚类的基于相似度的软聚类算法[期刊论文]-计算机工程 2006(2)129.宋晓莉.靖恒昌.吴作勇.张世举.普杰信基于Agent的个性化智能Web信息检索[期刊论文]-河南科技大学学报（自然科学版） 2005(4)130.沈记全.张行文基于Multi-Agent的Web文本挖掘系统[期刊论文]-福建电脑 2005(11)131.边小勇面向电子商务的Web数据挖掘技术的研究[学位论文]硕士 2005132.鹿小明文本挖掘及其在信息检索中的应用[期刊论文]-情报资料工作 2004(6)133.段鹏.谷雨.范菁.张天军Agent技术在网络环境中的应用[期刊论文]-云南民族学院学报(自然科学版)2003(2)134.刘振岩.王万森.陈立平WEB信息检索与WEB数据挖掘[期刊论文]-微机发展 2003(7)135.唐菁.沈记全.杨炳儒基于Web的文本挖掘系统的研究与实现[期刊论文]-计算机科学 2003(1)136.刘丽珍.宋瀚涛.陆玉昌Web使用挖掘的应用研究[期刊论文]-计算机科学 2003(9)137.沈记全.唐菁.杨炳儒Web文本挖掘系统及其分类算法的研究与实现[期刊论文]-计算机工程 2003(17) 138.陈定权Web结构挖掘研究[期刊论文]-情报理论与实践 2003(1)139.王一蕾.林世平Web文本挖掘三种技术的比较[期刊论文]-福建电脑 2003(12)140.刘向东数据挖掘技术浅析[期刊论文]-电脑学习 2002(2)141.高立敏.李俊.肖艳芹基于Web的网络信息挖掘技术研究[期刊论文]-电脑知识与技术 2010(16)142.钟晓旭.胡学钢基于数据挖掘的Web招聘信息相关性分析[期刊论文]-安徽建筑工业学院学报（自然科学版） 2010(4)143.赵雄峰一种高效检索XML文档的倒排索引技术[期刊论文]-电脑知识与技术 2010(30)144.朱颢东.钟勇一种新的基于多启发式的特征选择算法[期刊论文]-计算机应用 2009(3)145.邹洵基于小世界特性的网格资源发现算法[期刊论文]-现代计算机（专业版） 2008(12)146.阮忠.邓春燕Web文本挖掘的方法及其应用研究[期刊论文]-农业网络信息 2008(9)147.白翎雁.才书训Web文本挖掘及相关技术研究[期刊论文]-沈阳工程学院学报(自然科学版) 2008(3) 148.王焱梁Web数据挖掘技术应用[期刊论文]-职业时空（综合版） 2007(4)149.蒋引娣数字图书馆数据挖掘的基础研究[期刊论文]-图书馆学研究 2007(4)150.邹腊梅.肖基毅.龚向坚Web文本挖掘技术研究[期刊论文]-情报杂志 2007(2)151.蒋引娣数字图书馆数据挖掘的基础研究[期刊论文]-现代情报 2007(8)152.许高建基于Web的文本挖掘技术研究[期刊论文]-计算机技术与发展 2007(6)153.王珍珍关于文本挖掘中文本分类与文本聚类的研究[期刊论文]-科技信息（科学·教研） 2007(6) 154.贾可亮.樊孝忠.张禹基于HowNet语义相似度的FAQ研究[期刊论文]-计算机应用 2007(9)155.于春燕Web行情数据的抽取研究[期刊论文]-电脑知识与技术（学术交流） 2007(21)156.朱凌云.赵韩.高先圣Web挖掘在网络营销中的应用研究[期刊论文]-情报杂志 2006(1)157.郑泠Web数据挖掘技术应用[期刊论文]-科技经济市场 2006(12)158.谭义红.陈治平.林亚平基于兴趣挖掘的非结构化P2P搜索机制研究与实现[期刊论文]-计算机应用 2006(5) 159.谭义红.李学勇.陈治平关联规则挖掘在Web信息检索中的应用[期刊论文]-计算机工程 2006(9)160.崔鹏一种基于支持向量机的直推式WEB挖掘[学位论文]硕士 2006161.王国森基于页面链接挖掘的Internet信息资源检索[期刊论文]-图书情报工作 2005(9)162.易高翔.程耕国数据挖掘在Web智能化中应用研究[期刊论文]-计算机工程与设计 2005(1)163.刘明吉基于协同演化的文本特征获取算法[期刊论文]-计算机工程 2005(4)164.付克志基于Web的文本信息检索算法的研究[学位论文]硕士 2005165.李健聚类分析及其在文本挖掘中的应用[学位论文]硕士 2005166.梁中杰互联网信息采集分析系统的研究及实现[学位论文]硕士 2005167.胥桂仙.高旭.于绍娜关联规则算法在中文文本挖掘中的应用研究[期刊论文]-中央民族大学学报（自然科学版） 2004(4)168.王成云.王乐乐基于页面链接挖掘的Web教育信息检索[期刊论文]-情报科学 2004(4)169.徐海霞聚类分析在Web文本挖掘中的应用[期刊论文]-情报杂志 2004(12)170.钟茂生面向用户兴趣的网页信息过滤系统研究[期刊论文]-科技广场 2004(10)171.高波.张忠能.查志琴基于文字链接比的网页分类的研究[期刊论文]-计算机工程与应用 2004(27)172.湛燕.陈昊.袁方.王丽娟文本挖掘研究进展[期刊论文]-河北大学学报(自然科学版) 2003(2)173.武旭.须德基于向量空间模型的文本自动分类系统的研究与实现[期刊论文]-北方交通大学学报 2003(2) 174.胡明.王小虎.刘钢基于页面链接挖掘的Web信息检索[期刊论文]-情报杂志 2003(9)175.姜宁.宫秀军.史忠植高维特征空间中文本聚类研究[期刊论文]-计算机工程与应用 2002(10)176.苏群.申瑞民.张同珍.孙健远程教育中流媒体的同步标准设计及其智能型点播系统的实现[期刊论文]-计算机工程 2002(10)177.唐菁.张前.陈泓婕.刘宁.杨炳儒基于Web的文本挖掘[期刊论文]-计算机工程与应用 2002(21)178.陈新中.李岩.谢永红.杨炳儒Web挖掘研究[期刊论文]-计算机工程与应用 2002(13)179.李爱国.白冰基于内容图像检索的Web搜索器[期刊论文]-郑州大学学报（理学版） 2009(2)180.翁勍力.施水才.赵捧未基于元搜索的聚类挖掘引擎[期刊论文]-情报杂志 2007(9)181.张亮.冯冲.陈肇雄.黄河燕基于语句相似度计算的FAQ自动回复系统设计与实现[期刊论文]-小型微型计算机系统 2006(4)182.徐家树.覃征.杨盾基于BP神经网络的Web页面分类算法[期刊论文]-微电子学与计算机 2006(5)183.林璇基于数据仓库技术的电子商务系统[期刊论文]-韩山师范学院学报 2006(3)184.钟配蓉基于Web挖掘的文本预处理研究及应用[学位论文]硕士 2006185.张宁.贾自艳.史忠植使用KNN算法的文本分类[期刊论文]-计算机工程 2005(8)186.王刚.骆祥峰基于SEBI系统的多智能体通信机制研究[期刊论文]-小型微型计算机系统 2004(2)187.王斌.王建新.张尧学.陈松乔一种基于多Agent的Internet上JavaBean构件挖掘方法[期刊论文]-小型微型计算机系统 2003(12)188.曹文娟书目控制方法在网络信息组织中的应用[期刊论文]-图书情报工作 2003(11)189.霍艳蓉.孙成权网络信息挖掘及其在竞争情报工作中的应用[期刊论文]-情报杂志 2003(2)190.陈福集.杨善林一种基于KDD的Web搜索引擎框架[期刊论文]-情报学报 2002(3)191.刘明吉.王秀峰.饶一梅.黄亚楼Web文本信息的特征获取算法[期刊论文]-小型微型计算机系统 2002(6) 192.张波.王继成.王强.张福炎Web图像清洗技术的研究与实现[期刊论文]-计算机研究与发展 2002(11) 193.王欢.武刚.杨抒基于文本分类的林业Web黄页分类系统[期刊论文]-计算机系统应用 2012(1)194.叶俊.胡同森数据挖掘技术及其在电子商务中的应用[期刊论文]-丽水学院学报 2010(2)195.查志琴基于行模式的网页信息提取算法[期刊论文]-常州工学院学报 2007(4)196.陈福集电子政务系统中面向公众的个性化信息服务模型[期刊论文]-运筹与管理 2005(4)197.刘敏钰.薛鸿民Web数据挖掘系统的设计及关键技术研究[期刊论文]-航空计算技术 2005(1)198.贝雨馨基于意义信息增益的文本特征项权重计算方法[学位论文]硕士 2004199.王颖楠.滕飞.解莉.孙俏Web挖掘技术[期刊论文]-吉林工学院学报(自然科学版) 2002(1)200.曾昭江网站数据采集原理及防范策略[期刊论文]-福建电脑 2011(4)201.罗泽碧.谢庆生基于web数据挖掘的协同过滤推荐算法[期刊论文]-贵州大学学报（自然科学版） 2009(1) 202.万程.王东结果页面信息的提取和结果筛选算法的研究[期刊论文]-计算技术与自动化 2008(3)203.琚生根.陈黎.骆学春.王东方基于角色的个性化WEB日志挖掘模型研究[期刊论文]-四川大学学报（自然科学版） 2008(2)204.张向锋.丁斗章基于免疫学习算法的Web数据挖掘方法[期刊论文]-上海电机学院学报 2007(3)205.高明.韩海涛Mylibrary用户个性化特征分析的方法研究[期刊论文]-图书馆工作与研究 2006(6)206.姜霞.张晓伟基于XML的Web挖掘技术研究[期刊论文]-电脑知识与技术（学术交流） 2005(7)207.赵丹面向Web挖掘的数据预处理研究[学位论文]硕士 2005208.郭伟.胡明艳基于Web源的客户需求获取及分析方法[期刊论文]-计算机集成制造系统 2004(9)209.刘卓基于KNN算法的中文文本自动分类[学位论文]硕士 2004210.周炘.邓蓉基于XML的Web数据挖掘模型设计与研究[期刊论文]-计算机与现代化 2010(11)211.余胜.李绍滋.郭锋.张帆特征表示方法在中医食疗上的应用[期刊论文]-厦门大学学报(自然科学版)2009(3)212.于振雷基于相关度模型的个性化元搜索引擎设计与实现[学位论文]硕士 2006213.雷育生.甘仞初.杜顶基于用户偏好的垂直网站自适应结构研究[期刊论文]-计算机工程 2005(24)214.李建东Web页面访问模式的研究[学位论文]硕士 2005215.张莉网页自动分类技术研究[学位论文]硕士 2005216.戴军湘基于Web日志挖掘的自适应网站推荐系统框架研究[学位论文]硕士 2005217.刘春梅通用Web日志挖掘系统(CWLMS)设计实现[期刊论文]-防灾技术高等专科学校学报 2004(2)218.余轶军.陈纯.余轶民.林怀忠Web multimedia information retrieval using improved Bayesian algorithm[期刊论文]-浙江大学学报（英文版） 2003(4)219.刘丽珍.宋瀚涛.陆玉昌网站结构和内容对Web使用挖掘的影响[期刊论文]-计算机科学 2003(6)220.谭义红.林亚平向量空间模型中完全加权关联规则的挖掘[期刊论文]-计算机工程与应用 2003(13) 221.刘明吉.饶一梅.王秀峰.黄亚楼基于模糊近似度的Web文本过滤模型[期刊论文]-计算机科学 2001(12) 222.吴林旭.姚跃华.黄晶基于蚁群优化在Web数据挖掘分类模型的实现[期刊论文]-计算机工程与科学 2009(3) 223.唐凯基于内容和分层结构的XML文件自动分类方法[期刊论文]-计算机工程与应用 2007(3)224.牛莹基于Web挖掘的个性化电子商务推荐系统研究[学位论文]硕士 2006225.李锐弢有效的Web股票信息系统建模方法的研究[学位论文]硕士 2006226.刘应东中文文本自动聚类系统的研究[学位论文]硕士 2005227.王津涛.席华Web访问信息挖掘的关键技术与应用实践[期刊论文]-教育信息化 2004(3)228.瞿继合基于Web的数据挖掘技术研究[学位论文]硕士 2004229.沈丽宁网络信息资源的深加工[期刊论文]-情报科学 2003(8)230.童毕建基于点击流技术的个性化信息服务应用研究[学位论文]硕士 2006231.蒋红芬模糊聚类算法的改进及其在文本聚类中的应用[学位论文]硕士 2005232.李建东Web页面访问模式的研究[学位论文]硕士 2005233.姜波基于粗糙集理论的知识约简的研究与应用[学位论文]硕士 2005234.赵洪杰基于Web挖掘的报刊检索日志分析系统设计[学位论文]硕士 2005235.钟敏娟.林亚平.陈治平基于超链接和标记文本的信息检索算法[期刊论文]-小型微型计算机系统 2004(7) 236.邓三鸿.杨建林.潘有能.任皓企业门户网站中的数据挖掘研究[期刊论文]-情报学报 2003(1)237.胡健.邓志娟一种基于知识发现的拓展型竞争情报系统[期刊论文]-计算机与现代化 2008(12)238.张伟Web数据挖掘及其在电子商务中的应用[学位论文]硕士 2007239.陈志雄养老保险的数据分析与数据挖掘[学位论文]硕士 2005240.陈振基于关联规则分类的web用户兴趣预测[学位论文]硕士 2005241.孙华梅Web使用挖掘的理论与方法研究[学位论文]博士 2005242.何彬网络化产品设计信息过滤器的设计与可靠性[学位论文]硕士 2005243.刘艳青基于Web的个性化信息检索研究[学位论文]硕士 2004244.于戈.王大玲.鲍玉斌.王丹.杨晓春.宋宝燕.王国仁Internet上支持高质量E-Services的个性化技术的研究[期刊论文]-计算机科学 2001(12)245.应晓敏.窦文华智能Web浏览器及其关键技术[期刊论文]-计算机科学 2001(9)246.马延敏.徐威.何斌"4D"产品生产质量管理及质量控制方法研究[期刊论文]-科技创新导报 2010(8)247.孙梅数字图书馆知识服务系统用户协作平台的研究[学位论文]硕士 2006248.王丽娜WEB日志挖掘的研究和实现[学位论文]硕士 2005249.鄢琨网络教育资源的Web挖掘和标准化研究[学位论文]硕士 2004250.王斌.王建新.张尧学.陈松乔一种基于多Agent的Internet上JavaBean构件挖掘方法[期刊论文]-小型微型计算机系统 2003(12)251.张海玉基于Web使用挖掘的个性化推荐系统[学位论文]硕士 2006252.徐益军电子商务公共服务平台下的Web挖掘系统研究[学位论文]硕士 2006253.蒋红芬模糊聚类算法的改进及其在文本聚类中的应用[学位论文]硕士 2005254.胡小睿基于Web挖掘的搜索引擎技术研究[学位论文]硕士 2005255.张茂元.卢正鼎.邹春燕一种基于语境的中文分词方法研究[期刊论文]-小型微型计算机系统 2005(1)256.张清军基于位置的服务（LBS）中的文本挖掘研究[学位论文]博士 2005257.张乐分布式网上信息实时监控和动态采集系统[学位论文]硕士 2005258.张国梁中文搜索引擎研究[学位论文]硕士 2003259.马瑞民.衣治安WEB上超文本数据导航方法的研究[期刊论文]-情报学报 2001(5)260.姚晨光基于Web文本挖掘的专业搜索引擎研究与设计[学位论文]硕士 2007261.张文.唐锡晋.吉田武稔AIS-基于文本挖掘的增强型Web信息处理技术[期刊论文]-系统工程理论与实践2010(1)262.柯慧燕Web文本分类研究及应用[学位论文]硕士 2006263.夏绪虎基于Web文本挖掘技术的智能检索系统的研究与实现[学位论文]硕士 2005264.金花一种新的Web日志挖掘算法的研究[学位论文]硕士 2005265.王刚.骆祥峰基于SEBI系统的多智能体通信机制研究[期刊论文]-小型微型计算机系统 2004(2)266.张日崇基于web的个性化挖掘方法[学位论文]硕士 2004267.梅馨.邢桂芬文本挖掘技术综述[期刊论文]-江苏大学学报(自然科学版) 2003(5)268.李胜利用Web挖掘技术提高Web检索质量[学位论文]硕士 2005269.王敏Web文本聚类算法在基于竞争情报的智能决策支持系统中的应用[学位论文]硕士 2005270.袁宁基于XML的文本数据挖掘的研究[学位论文]硕士 2004271.张向荣空间数据的存储、检索与可视化研究[学位论文]硕士 2006272.宋洪芳Web数据挖掘在电子商务中的应用研究[学位论文]硕士 2005273.郭健特定领域Web链接关系拓扑图的生成研究[学位论文]硕士 2005274.谌志群.张国煊文本挖掘与中文文本挖掘模型研究[期刊论文]-情报科学 2007(7)275.教巍巍基于Web挖掘的个性化用户兴趣模型的研究[学位论文]硕士 2006276.张海龙Web挖掘技术在东亚植物遗传资源管理系统中的应用研究[学位论文]硕士 2005277.宋爱波.董逸生.陈静基于Weblog的模式发现及应用的研究[期刊论文]-小型微型计算机系统 2002(11) 278.车德文数据挖掘在政府数据中心中的应用[学位论文]硕士 2005279.魏新基于支持向量机的中文文本分类研究[学位论文]硕士 2004280.王恩贵数据仓库和数据挖掘在钢铁企业中的应用[学位论文]硕士 2005281.张兆中WEB文本挖掘的聚类分析[学位论文]硕士 2005282.贝雨馨基于意义信息增益的文本特征项权重计算方法[学位论文]硕士 2004283.游家富基于数据仓库的武钢决策支持系统的研究与开发[学位论文]硕士 2005284.郭长旺企业智能化竞争情报系统的构建与运行研究[学位论文]硕士 2005285.林建方Web页面链接文本信息抽取与分类的研究[学位论文]硕士 2005286.魏新基于支持向量机的中文文本分类研究[学位论文]硕士 2004287.夏梁盛基于知识管理的信息系统研究[学位论文]硕士 2005288.陈定权Web信息检索技术最新进展[期刊论文]-现代图书情报技术 2002(2)289.范彦彬基础教育资源搜索引擎中自动文摘技术研究[学位论文]硕士 2006290.张清军基于位置的服务（LBS）中的文本挖掘研究[学位论文]博士 2005291.马力一种基于模糊相似粗糙集的Web搜索优化方法[学位论文]硕士 2005292.陈慧芳文本分类中特征向量空间降维方法研究[学位论文]硕士 2005293.卜学仕Web挖掘系统研究[学位论文]硕士 2005294.宿瑶行政决策支持系统设计与实现[学位论文]硕士 2005295.胡旭昶文本聚类分析研究及在中文新闻系统中的应用[学位论文]硕士 2006296.熊华平数据库新技术及其集成在油田勘探开发中的应用研究[学位论文]博士 2005297.李万武基于贝叶斯理论的数据挖掘在高校信息管理的应用研究[学位论文]硕士 2005298.祝翠玲基于无监督聚类和朴素贝叶斯分类的文本分类方法研究[学位论文]硕士 2005299.林建方Web页面链接文本信息抽取与分类的研究[学位论文]硕士 2005300.陈伍一基于客户端的网络服务性能测试与工具研究[学位论文]硕士 2004301.董静中文网页形式自动分类[学位论文]硕士 2006302.丁二玉基于Web挖掘的Web个性化技术研究[学位论文]硕士 2004303.姚洪波基于Web的用户访问模式挖掘系统的研究[学位论文]硕士 2005304.梁伟Web使用挖掘在电子商务推荐系统中的应用研究[学位论文]硕士 2004305.李涛基于Agent的网上考试系统的设计与实现[学位论文]硕士 2006306.郭健特定领域Web链接关系拓扑图的生成研究[学位论文]硕士 2005307.张全力面向产品设计的中文web文本信息处理研究[学位论文]硕士 2005308.刘进锋动态关联规则的理论与应用研究[学位论文]硕士 2006309.曹志娟自动问答系统中的问题理解与信息检索研究[学位论文]硕士 2005310.田娟基于谱图理论的机器学习研究[学位论文]硕士 2004311.姜园.张朝阳.仇佩亮.戚玉鹏对聚类算法普遍存在问题的解决办法[期刊论文]-电路与系统学报 2004(3) 312.吴艳玲基于SVM的网页分类器的研究[学位论文]硕士 2004313.苏晶结合站点内容和结构的个性化推荐技术的研究与实现[学位论文]硕士 2006314.刘皛分类技术在大肠早癌诊断系统中的应用研究[学位论文]硕士 2006315.谌志群.张国煊文本挖掘研究进展[期刊论文]-模式识别与人工智能 2005(1)316.程传鹏基于分类的智能信息检索研究与实现[学位论文]硕士 2005317.简琤峰基于J2EE/XML的异构信息网上交换构建技术研究与应用[学位论文]博士后 2004318.吴翔产品4D信息模型的基础技术研究[学位论文]博士 2005319.张亮面向开放域的中文问答系统问句处理相关技术研究[学位论文]博士 2005320.袁方面向智能信息检索的Web挖掘关键技术研究[学位论文]博士 2006321.朱明互联网信息智能搜索与获取方法研究[学位论文]博士 2001本文链接：https://www.360docs.net/doc/911770281.html,/Periodical_jsjyjyfz200005001.aspx</div> <div class="pagiv"> </div> <div class="rtopicdocs"> <div class="coltitle">相关主题</div> <div class="relatedtopic"> <div id="tabs-section" class="tabs"> <ul class="tab-head"> <li id="4902846"><a href="/topic/4902846/" target="_blank">web文本挖掘</a></li> <li id="11302513"><a href="/topic/11302513/" target="_blank">web使用挖掘</a></li> </ul> </div> </div> </div> </div> <div id="rightcol" class="viewcol"> <div class="coltitle">相关文档</div> <ul class="lista"> <li><a href="/doc/8310463669.html" target="_blank">文本挖掘与Web挖掘</a></li> <li><a href="/doc/d513617713.html" target="_blank">数据挖掘中的文本挖掘ppt</a></li> <li><a href="/doc/748289662.html" target="_blank">Web文本挖掘技术探析</a></li> <li><a href="/doc/b614315475.html" target="_blank">Web文本挖掘中数据预处理技术研究</a></li> <li><a href="/doc/3914949681.html" target="_blank">文本挖掘与Web 数据挖掘</a></li> <li><a href="/doc/f612241062.html" target="_blank">文本挖掘.</a></li> <li><a href="/doc/bd2020101.html" target="_blank">web文本挖掘</a></li> <li><a href="/doc/274581821.html" target="_blank">文本挖掘论文：WEB文本信息的提取</a></li> <li><a href="/doc/ed18554594.html" target="_blank">web文本挖掘</a></li> </ul> <div class="coltitle">最新文档</div> <ul class="lista"> <li><a href="/doc/0f19509601.html" target="_blank">幼儿园小班科学《小动物过冬》PPT课件教案</a></li> <li><a href="/doc/0119509602.html" target="_blank">2021年春新青岛版(五四制)科学四年级下册 20.《露和霜》教学课件</a></li> <li><a href="/doc/9b19184372.html" target="_blank">自然教育课件</a></li> <li><a href="/doc/3019258759.html" target="_blank">小学语文优质课火烧云教材分析及课件</a></li> <li><a href="/doc/d819211938.html" target="_blank">(超详)高中语文知识点归纳汇总</a></li> <li><a href="/doc/a419240639.html" target="_blank">高中语文基础知识点总结(5篇)</a></li> <li><a href="/doc/9d19184371.html" target="_blank">高中语文基础知识点总结(最新)</a></li> <li><a href="/doc/8a19195909.html" target="_blank">高中语文知识点整理总结</a></li> <li><a href="/doc/8519195910.html" target="_blank">高中语文知识点归纳</a></li> <li><a href="/doc/7f19336998.html" target="_blank">高中语文基础知识点总结大全</a></li> <li><a href="/doc/7119336999.html" target="_blank">超详细的高中语文知识点归纳</a></li> <li><a href="/doc/6619035160.html" target="_blank">高考语文知识点总结高中</a></li> <li><a href="/doc/6719035161.html" target="_blank">高中语文知识点总结归纳</a></li> <li><a href="/doc/4a19232289.html" target="_blank">高中语文知识点整理总结</a></li> <li><a href="/doc/3b19258758.html" target="_blank">高中语文知识点归纳</a></li> <li><a href="/doc/2619396978.html" target="_blank">高中语文知识点归纳(大全)</a></li> <li><a href="/doc/2b19396979.html" target="_blank">高中语文知识点总结归纳(汇总8篇)</a></li> <li><a href="/doc/1419338136.html" target="_blank">高中语文基础知识点整理</a></li> <li><a href="/doc/ed19066069.html" target="_blank">化工厂应急预案</a></li> <li><a href="/doc/bd19159069.html" target="_blank">化工消防应急预案(精选8篇)</a></li> </ul> </div> </div> <script> var sdocid = "9177301f6edb6f1aff001f57"; </script> <div class="clearfloat"></div> <div id="footer"> <div class="ft_info"> <a href="https://beian.miit.gov.cn">闽ICP备16038512号-3</a> <a href="/tousu.html" target="_blank">侵权投诉</a> ©2013-2023 360文档中心,www.360docs.net | <a target="_blank" href="/sitemap.html">站点地图</a> 本站资源均为网友上传分享，本站仅负责收集和整理，有任何问题请在对应网页下方投诉通道反馈 </div> <script type="text/javascript">foot()</script> </div> </body> </html>