文本分类方法研究

文本分类方法研究
文本分类方法研究

毕业论文

题目:文本分类方法研究

姓名:贾云璠

院系:理学院物理系

专业:物理学

年级: 2013级

学号: 201341021 指导教师:郑伟

二〇一七年六月

摘要

近些年来,随着信息技术的发展与应用,互联网上的数据错综复杂,面对如此纷繁复杂的数据,需要借助数据挖掘对数据进行处理来实现对数据的分类,以便查询和搜索,实现数据的最大利用价值。

文本分类在信息处理方面占有重要的作用,到目前为止,有很多种方法:KNN SVM 决策树,以及贝叶斯等算法可以帮助我们快速的对文本进行自动分类,本文主要研究KNN SVM两种方法,在比较这两种分类对中文文本分类的基础之上,分析了K 临近算法和支持向量机的优缺点,因SVM和KNN具有互补的可能性,提出了SVM和KNN组合[1]的算法。实验表明:SVM和KNN有很好的分类效果。

关键词:文本分类,SVM、KNN,线性组合

Abstract

In recent years, with the development of information technology and application, the complexity of the data on the Internet in the face of so complicated data, need with the help of data mining, data processing to implement the data classification, in order to query and search, and realize the maximum utilization of the data value.

Chinese text classification plays an important role in Chinese information processing, for example, Chinese information retrieval and search engine, KNN SVM decision tree, and the bayesian algorithm can be applied to Chinese text classification, based on the research analysis compares the two kinds of KNN and SVM classification method, and the experimental comparison of the two algorithms of Chinese text classification effect, on the basis of analyzing the K near the advantages and disadvantages of the algorithm and support vector machine (SVM), found that the SVM and KNN has the possibility of complementary, SVM and KNN algorithm of linear combination is presented.

Key words: Text classification, SVM, KNN, linear combination

目录

摘要..................................................................................................................................... I I Abstract ..............................................................................................................................III 1 引言 (1)

1.1文本分类背景和意义 (1)

1.2文本分类的应用领域和发展趋势 (1)

2 文本分类主要过程 (2)

2.1文本分类的定义过程及评价 (2)

2.2关于文本分词 (2)

2.3特征项权重(向量空间) (3)

2.4特征项选择(常用的降维方法) (5)

3 常用的文本分类方法 (10)

3.1k临近分类器 (10)

3.2支持向量机分类器 (11)

4 实验及结果分析 (15)

4.1实验质量评估指标 (15)

4.2试验目的 (16)

4.2实验条件 (16)

4.3实验结果分析 (16)

总结 (18)

致谢 (19)

1 引言

1.1文本分类背景和意义

随着互联网的飞速发展,网络上的信息的数量也快速地增长。据统计,截止到2014年12月,我国网页数量达到1899亿个,静态网页和动态网页数量都处于不断增长的趋势,依照这样的速度发展下去,我国网络信息的容量会呈现出爆增的状态。信息量的确在不断增长,而人们的信息分析和信息利用能力是有限的,如何在这样的海量数据信息中找到对于自己有价值的信息,就成为人们关注的焦点。从单一客体网页的角度来看,保证做好合理的规划和安排,基于人工判断的模式显然难以完成如此大量的工作,此时就需要依靠更加先进,更加高效的分类方式。

信息资源的无限增长给信息处理提出了亟待解决的难题。一方面,数字化信息资源数量高速增长;另一方面,人们获取有价值信息的需求也在不断提高。如何在浩瀚而又复杂的信息中检索出有效的信息,一直是信息处理领域追求的目标。在信息处理领域,关于信息资源的加工和组织方法较多,其中文本的自动分类是比较关键的技术,并且有广泛的应用。文本自动分类是根据文本的语义,将大量的文本自动分门别类。有序的分类能够为人们浏览和查找信息提供许多便捷。因此,不断推进文本自动分类技术的发展迫在眉睫。

1.2文本分类的应用领域和发展趋势

文本分类能够有效的组织管理杂乱的信息,这一特性在现代很多科技领域很受欢迎,例如Internet、网络图书馆、网络安全、电子邮件等。在Internet中引入文本分类系统,基于关键词,在搜索页输入要查找的内容,电脑系统可以自动判定与之相关的类别并可以快速、准确、全面的搜索出想要的答案,查询速度和精度以及稳定性也是非常的高效,这为我们的生活提供了方便。

图书馆的信息资源可谓成千上万,能够快速高效的查询到我们想要的信息,如果单纯的一个个搜索,会花很长的时间。将文本自动分类技术应用到图书馆领域,

这样不仅阅读者在寻找自己想要的图书也会很高效,而且减少图书管理员的时间进行整理和查询使查询更加简单方便。大数据规模巨大,随处可见,分布广泛,动态衍变,带来数据复杂性的挑战,因此文本分类技术的发展就显得尤为必要。在网络安全方面,文本分类技术可以对信息进行访问,将不良信息剔除,为用户带来很多方便。在电子邮件方面,文本分类系统可以将邮件进行分门别类。

2 文本分类主要过程

2.1文本分类的定义过程及评价

文本分类的过程,可以将其看做为映射的过程。从无序到有序的历程中,不仅仅可以实现一对一的映射,还可以实现一对多的映射。此时,完全可以以数学映射的概念来诠释文本分类。下图为文本分类的流程图:

图2.1文本分类流程示意图

2.2关于文本分词

文章是由字,词,句,段,篇构成的。词是构成文章的基础,首先需要对文章

进行分词,然后将词表示成空间向量,最后进行计算。最后分类结果的好坏由分词

的好坏直接决定,分词的标准是越细越好,词语提取越准确越好,nlpir 的分词效果

较其他分词工具更准确些,更权威。

2.3特征项权重(向量空间)

2.3.1布尔框架(Booolean weighting )

单一特征词i ,为了对于其权重实现界定,就会采取特定的界定手段,在此环节,

其界定机制为:

权值定义为:

W ik =

分析:此种方法只是显示了特征词是否存在,出现的次数不能很好的反应分类的

效果,因此我们选用下面的方法。 2.3.2TF-IDF 计算权值算法

TF-IDF (term frequency –inverse document frequency ),IF 词频:假设实

际的词汇为“中国”,这个“中国”词汇在整个文章中会出现多少次,这个次数代

表的就是词频。IDF 频率代表的是:为收集对应信息,给定了80篇文章,而实际数

据库中有120篇文档,此时可以计算出其比重为:0.67。

上述两个概念可以诠释如下的问题:单一词汇,在某篇文章中出现的次数越大,

此时其IF 取值也不会小;但是从宏观数据库角度来看,如果其在数据库中的次数多,

此时自身权重反而不会太大,甚至出现下跌的情况。

TF (词频)计算公式

1 特征词i 出现在文档k 中 0 特征词i 未出现在文档k 中

公式2-1

公式2-2

分子代表的是:词汇在文章中的出现次数多少;分母代表的是:全部词汇在文

章中出现的次数是多少。依照实际设定原则,如果同样的词出现两次,分母是不会

进行叠加处理的。

举例1:在一篇科普类文章中,“鸟儿”在文中出现次数是7,文章中的总词数是

1000,则“鸟儿”这个词的词频为:TF=7/1000=0.7%

IDF(反文档频率)计算公式

公式2-3

D ;数据库中篇章数量多少;Si 代表的是,在数据库中出现词汇I 的文章数量多

少。

TF-IDF 最后得到i 的权值公式为

公式2-4

举例3:综合例1,例2,那么地球这个词,在语料库中的权值为:

TF*IDF=0.007*3=0.021

TF-IDF 计算权值的好处分析:

实例:“地球” 、“的”、 “公转”在所指定的一篇文章中出现的次数分别是

7,100,5,如果只采用IF 计算方法,如果文章有1000词,三个词的频率为:

0.007,0.1,0.005,三个词加起来对这篇文章的贡献值为0.112,我们知道在并不能

表征这篇文章的特征,而所占比例很小的飞行和鸟儿则可以表征。因此只用IF 值存

在漏洞,于是我们引入IDF ,语料库中含有的总文章数为105其中鸟儿文章数为10^2,

在的文章数为10^5

,含有飞行的文章数为10^3,那么有如下公式:

W (鸟儿)=0.007*lg(10^5/10^2)=0.021

i i S D lg

IDF =i

i i i i S D lg Q M IDF TF W *=*=Q

M TF i

i =

W (在)=0.100*lg(10^5/10^5)=0

W(飞行)=0.005*lg(10^5/10^3)=0.010

2.4特征项选择(常用的降维方法)

当空间向量形成之后,由于一篇文章的文本分词很多,对应的空间向量长度很长,

如果直接运用分类算法,计算时间较长,效果也不是很好。为了保证实际效果,会

以减少向量长度的方式来应对。一般情况下,此时采取的手段主要有:基于信息的

降维方式,要么以增益的方式,要么以互信息的方式来进行;期望交叉熵的方法;

量化理论下的X^2统计;定性视角下的文本证据等。

对于个别算法,不适用降维直接对向量进行计算,效果也不错。但对于大多数算

法来说,运用降维之后处理比较好。

2.4.1信息增益方法

我们现在先来介绍一下信息熵的概念。 )X (P 2log )P(X H(X)i n

1i i *-=∑= 公式2-5

称为事件X 的的信息熵。

现在选班长进行投票,小明和小红的实力相当,X 表示从两人之间随便选取一

个的概率为1/2。计算得到信息熵为:

H (X )=-0.5*(-1)-0.5*(-1)=0.5*2=1

如X 表示从四个人中选班长,每个人被选中的机会相等,则此时的概率为1/4。

计算得到信息熵为:

H (X )=-4*0.25*log2(0.25)=2

如果有八个候选班长,计算得到的信息熵为:

H (X )=-8*0.125*log2(0.125)=3

由此可知,可选的结果越多,H (X )的值越大。信息熵值越低,事件结果发生

越稳定。

综合上述多种降维方法,实际运用最为频繁的就是信息增益,其取得的效果也是

比较客观的。

信息t 的信息增益的公式为:

同样此处我们选择以“中国”词汇来解释上述的公式字母含义,首先我们确定

t 代表的就是词汇“中国”。那么:

P(t)代表的是:选定词汇“中国”在文本中出现的可能性;

)t (P -

代表的是:不包含选定词汇“中国”的本本出现可能性; P(Ci)代表的是:在选择的篇章中,可以将其界定为Ci 的可能性;

P(Ci|t)代表的是:本来牵涉特征词“中国”,并且可以将其归结到Ci 的可能

性;

P (Ci/t -)代表的是:不牵涉特征词“中国”,但是可以将其归纳到Ci 的可能

性。

之所以选择信息增益的手段来处理,是因为其自身具备其他方式难以企及的优

势:对于类别没有太多的要求,对于篇章也没有要求,基于总文库和类别进行类别

规划,这种设定可以使得计算效果处于良好的状态。所选定的信息增益值越大,该

词对文章就更重要,反之信息增益值越小,所选的词就不那么重要,除去那些不重

要的词,剩下的词相对来说就减少了,达到了降维的目的,有利于提升分类的速度。

2.4.2互信息方法

互信息[8]可以这样去理解:单一信息群体中,不同的信号因素之间存在关联,以

依赖属性最为明显。存在交互的两个信息元素,我们将其称作为互信息。在文本分

类的过程中,可以运用互信息去诠释文本的关联属性。

互信息的计算公式如下:

)

t |C (P log )t |C (P )t (P )

t |C (P log )t |C (P )t (P )

C (P log )C (P )

t |C (H )C (H t IG i 2n 1i i i 2n

1

i i i 2n

1i i -

=--==∑∑∑++-=-=)(

)

t (logP -)C |t (P log )t (P )C |t (P log

)C (P )t (P )C |t (P *)C (P log

)C (P )t (P )C t (P log

C ,t MI i i i i i i i i ===?=)( 公式2-6 注:P (t ∩Ci )为特征词t 与类别Ci 同时出现,P(t)表示包括选定词t 的文本

出现的概率,其中P(Ci)表示所选篇章属于Ci 的概率。

互信息在此机制中效能的发挥,并非是一帆风顺的。如果在实际的条件下,临界

特征出现,就会对于其有效性产生负面影响。从量化的角度来看,在特征取值相同

的时候,稀有特征往往会凌驾到普通特征之上。此时,如果采用互信息评估,其就

具备明显的倾向性,由此得出的信息检索结论参考性也不大,甚至户对于实际决策

产生不良影响。因此,互信息在文本分类中应用不是很广泛。

2.4.3期望交叉熵方法

期望交叉熵的优势在于:没必要去关注特征词是否会出现,自身并没有在此环

节的局限性。一般情况下,计算出来的取值越大,其实际的文本类别会呈现出不断增长的趋势。

期望交叉熵的算法公式为:

∑==n 1i )

Ci (P )t |Ci (P log )t |Ci (P )t (P t ECE )

( 公式2-7

用这种方法,所选定的特征词与类别关系越大,期望交叉熵值越大;所选定

的特征词与类别关系越小,期望交叉熵值越小。

2.4.4X^2统计方法

X^2统计方法使用十分普遍,在各个领域都可以看到其运用案例。在文本类别

划分的过程中,其倡导在探究文本类别与特征词之间关联性的基础上来判定。如果

实际的相关度不断提升,此时的表征作用也会不断凸显出来。

X^2统计方法的计算公式:

)

D C ()B A ()D B ()C A ()CB AD (N )C (P )C (P )t (P )t (P )]c ,t (P )c ,t (P )c ,t (P )c ,t (P [N )c ,t (Hi C 2

2

+?+?+?+-?=????-??=

------ 公式2-8

上述公式中,不同字母代表的含义是不一样的。详细来讲:

A :特征词和Ci 同时出现的可能性;

B :会出现t ,但是并没有出现Ci ,将这样的情况进行统计,得出的数据;

C :t 没有出现,但是Ci 出现了的,将这样的情况进行统计得出的结论;

D :t 不出现,Ci 也不出现,将这样的情况进行统计得出的数据。

在下列表格信息中,实际的临界点显示了如下的信息:三高疾病与性别之间的关

已知在H 成立的条件下P (X2>=6.635)=0.01

现在X2=11.863远大于6.635,概率不超过0.01。

运用上述公式可得X2=11.863,我们有99%的把握认为是否患肺癌疾病与吸烟有

关。

|ad-bc|越小,代表肺癌患病与吸烟之间的关联不是很大,或者说其关联的程度

处于较小的状态;相反如果实际的取值比较大,其代表的是这两者之间的关联是比

较大的。

2.4.5文本证据权方法

文本证据权方法,是基于比较文本概率和特征词的属性来探究,在某个类别条

件概念出现差异的时候,可以依照这样的方案来进行量化,继而获得权重数据。

文本证据权的计算公式如下:

))t |C (P 1)(C (P ))

C (P 1)(t |C (P log )C (P )t (P )

C (P )C (P 1())t |C (P 1()t |C (P log )C (P )t (P )C (Od )t |C (Od log )C (P )t (P t WET i i i i 2

m 1

i i i i i i 2m 1i i i i 2

m 1

i i --=-?-==∑∑∑===)( 公式2-9

3 常用的文本分类方法

前面部分为文本分类做了知识铺垫,也讲述了将文本处理成向量形式的方

法。选择分类器作为研究切入点,对于其运行机制进行探究,继而延伸到文本分

类手段上,对于常用到的四种算法进行概述。其中本章主要研究K 临近算法(KNN)

和支持向量机算法(SVM)。

3.1k 临近分类器

3.1.1KNN 算法概述

KNN(K-临近算法)首先锁定目标点,然后寻找其周围临近点,计算各临近点与

目标点之间的距离,比较得出距离最近的临界点,则目标点就从属于临界点所在的

类别。通俗的说:目标点归属于距其最近的临界点的类别,即跟着那个最近的点走。

3.1.2KNN 算法概述

KNN 算法的运作机制为:目标文本确定收,需要在实际文本集合中去寻找

文本相关的,继而将其界定为文本类别。实际上,其需要历经如下几个步骤:

Step1:基于特征属性,实现训练文本向量的确定,给予详细的描述,为后期的

算法奠定基础;

Step2:依照特征词汇属性对于实际文本的向量进行探究,继而形成有效认

Step3:在训练文本集合中寻找上述相关的文本,此时需要依靠公式来进行计量: Pi 表示第i 篇档的特征向量

Pj 代表的是:在对于第j 篇章中特征向量进行探究之后,实现对应维数M 的

确定;sim(Pi,Pj)代表的是:在对于第j 和第i 文档属性进行判定,找到两者之间

的相似度,继而实现维度的推动。

Step4:权值的计算公式为:

)W )(W (W W )P ,P (im S m 1

k 2jk m

1k 2ik m

1

k jk ik j i ∑∑∑===?=

C,S(P

=公式3-1

)

)

sim

C,di

(y)

d,S(

j∑

i

j

上述公式中,y(di,cj)是判断di这个文本是否属于类别,属于类别,则其值为1,反之其值为0。Sim关注的是两者之间的相似性,如果这个取值处于比较高的状态,就会对于实际的权值产生极大程度的影响。

Step5:依照实际获取到的结果,对于文本属性进行探究,由此完成实际的类别划分工作。

KNN方法的优势在于:存储文本集合的相关信息,完全可以在忽略分类器的背景下,实现分类文本的再次操作。处于特定分类情境中,无论是待分类文本,还是分类文本,都需要进入到相似度考量中去。由此导致实际的计算量处于比较大的状态。但是这样的工作量带来的好处在于:使得文本集合中文本类别分布不均衡的问题得到的调整,此时整个类别呈现出很强的稳定性特点。

3.2支持向量机分类器

3.2.1SVM算法概述

支持向量机的数学描述:

w·x-b=0 表示一个超平面的公式,其中w表示垂直平面的一个向量,x是超平面上的点,位移不断的改变b的取值会构成很多个平行于本平面的平面,之后我们从这些平面中选取2个平面:

公式3-2

上式运用在线性空间的原理类似,当在高维时涉及到的n-1维超平面,问题变得很复杂,此公式发挥了巨大作用。

3.2.2SVM构造分类器

(1)线性可分

在介绍复杂问题之前,先进行简单问题的铺垫。用一条直线将图中黑白两类点进行分开:

图3.1 多条线性划分图示

我们知道:一个平面内有无数条直线,显而易见,使两个类别划分的越开,这条直线越好。可以使用下面的方法:

图3.2向两边延伸 图3.3只想向量机M 距离图示

直线画出之后,在两边进行延伸,平行线与实际之间之间的距离在不断变大,直到和空间类别中的某一个点相交,要求是两边都相交,然后求M 的取值,当然满足条件使得M 的取值越大,证明划分的越开,划分效果越好,M 的取值 定义为:M=2/||W||。||W||表示二范数,就是在没有特殊条件下,实际向量的长度范围,计算出来的M 的最大值,就是W 的最小值,这两者之间就形成了这样的对应关系。

用公式形象的表示为:

2||w ||2

1min ||w ||1max 公式3-3 此式还有一个约束条件,如下:

公式3-4

∑=-+?-=n 1

i i T i i 2)1)b x w (y (||w ||21)a ,b ,w (L 公式3-5 (2)线性不可分

在文本分类中,上述用一条直线或空间平面直接对其划分的线性可分情况,存在很多弊端,只适用于理想情况。对于真实的情况,不可能向上述那样简单,而是在空间的多个区域有零散的分布,针对这种情况,要引入惩罚函数,如下图所示:

图3.4 曲线划分图示 图3.5 惩罚函数引入图

第一种方法:可以用一条曲线进行划分;

第二种方法:基于惩罚因子理论,实现对于直线的处理,其实际的处理依据为下述公式:

0,1)b x w (y ,t ,s ,C ||w ||21min i i R 1

i i T i i 2≥εε-≥+ε+∑= 公式3-6

上述公式可以对于不归属原本类别的点以及其可能导致后果进行分析,简而言之不可能因此出现太多的差错。

(3)映射函数(核函数)

上述两种情况是在很鲜明的划分很多点的情况下进行的划分,还是比较理想。处于实际运作环境中,样本与样本之间的关联需要格外关注,站在数学映射的角度来探究,超平面划分就成为最佳的选择,可以使得其映射到更加高维度格局中。具体可以参见下图:

本身的样本是二维的x,y坐标平面,现在引入第三位坐标z,根据映射关系,就可以很容易的用一个平面进行划分了,如下图所示:

图3.6 三维空间映射图示

(4)SVM进行分类

如上面三种方法,均是svm分类器的构造,当确定某一种划分之后,一个新的样本到达时,就可以对这个样本所处的区间,继而选择将样本纳入到对应类别体系中去。运算流程中有诸多的点,此时可以在不用降维的前提下开展运算,这样可以保证两两类别划分变得更加精确。但是遇到多种类别的情况,要么可以以直线的方式来处理,要么可以以立体维度的空间来处理。

(5)SVM分类评价

这种评价机制的特点在于:向量机算法优势明显,可以以更加好的方式呈现出来,整个计算过程也比较简单,实际的应用实践案例比较多。基于映射的方式,实现高维空间的过度,可以诱导出最理想的平面,继而将其渗透到分类决策中去,可以发挥出最大的效能,不用涉及各个向量的测度,不用计算遍历每个向量,在一定程度上,可以避免因维数而带来的各种困难。

4 实验及结果分析

4.1实验质量评估指标

评价:召回率(查全率)、准确率(查准率)、F1值(综合准确率)

查全率(Recall ratio)=检查出的相关信息量/检索到以及未检索到的相关信息总量。

查准率(Presion ratio):实际需求信息的规模与查出来的信息规模之比。 为了更好的理解查全率和查准率的概念,需要引入多个变量来进行

a--->程序归类正确的文章篇数

b--->程序把文章分配到某个类别,而实际文章并不在这个类别

c--->文本本身在某个类别,但是程序并没有将文章归入

d--->程序和语料库归类都不在某个类的文章数。

此时再去理解查全率和查准率,就可以获得相对精确的解答。由此得出公式中的分母,就是数据库中拥有的所有信息量。

F1值:制定有效的评价机制,在获得系统数据结构之后,进行定向判定。此时,会使用到多个评价参数:综合分类率,综合准确率,召回率。详细来讲,可以运用如下的公式来诠释三者之间的:

22(+1)+p r F p r ααα??=? 公式4-1 接着,依照如下公式来计算F 1:

12p r F p r ??=+

表4.1 F1值计算公式示意图

4.2试验目的

不同的特征选择方法有一定的差异,这就导致了文本分类过程中应用的效率差异。再者,基于不同的选择方法,实现分类机制的构建,由此得到的结果也是多样化的。因此,从大量的方法组合中找出效率高的搭配就显得尤为重要了,文本分类的关键技术之间的相互影响能够很好地反应到分类的效果上,所以通过分类效果的研究就能够找出优秀的方法组合方式

我们取KNN和SVM在各自最优组合的前提之下,挑选出SVM和KNN两者结合的最优方法,对SVM和KNN进行线性组合,看其对文本分类是否有良好的效果。

4.3实验条件

window xp 系统下,VC++ 6.0程序实现。采用中科院自主研发的Txtcat系统。它基于KNN和SVM两种算法进行训练和对文本分类。另外与语料库选择方面,是实现与复旦大学之间的合作,保证了该语料库的丰富性。搜狗语料包括健康、教育、经济、军事、劳动与就业、旅游、体育、文学、新资讯等十类。

4.4实验结果分析

根据以往实验鉴定,基于SVM和KNN算法各自较优组合条件下,不论是在复旦大学语料下,还是在搜狗语料下,在空间维度为

基于机器学习的文本分类方法

基于机器学习算法的文本分类方法综述 摘要:文本分类是机器学习领域新的研究热点。基于机器学习算法的文本分类方法比传统的文本分类方法优势明显。本文综述了现有的基于机器学习的文本分类方法,讨论了各种方法的优缺点,并指出了文本分类方法未来可能的发展趋势。 1.引言 随着计算机技术、数据库技术,网络技术的飞速发展,Internet的广泛应用,信息交换越来越方便,各个领域都不断产生海量数据,使得互联网数据及资源呈现海量特征,尤其是海量的文本数据。如何利用海量数据挖掘出有用的信息和知识,方便人们的查阅和应用,已经成为一个日趋重要的问题。因此,基于文本内容的信息检索和数据挖掘逐渐成为备受关注的领域。文本分类(text categorization,TC)技术是信息检索和文本挖掘的重要基础技术,其作用是根据文本的某些特征,在预先给定的类别标记(label)集合下,根据文本内容判定它的类别。传统的文本分类模式是基于知识工程和专家系统的,在灵活性和分类效果上都有很大的缺陷。例如卡内基集团为路透社开发的Construe专家系统就是采用知识工程方法构造的一个著名的文本分类系统,但该系统的开发工作量达到了10个人年,当需要进行信息更新时,维护非常困难。因此,知识工程方法已不适用于日益复杂的海量数据文本分类系统需求[1]。20世纪90年代以来,机器学习的分类算法有了日新月异的发展,很多分类器模型逐步被应用到文本分类之中,比如支持向量机(SVM,Support Vector Machine)[2-4]、最近邻法(Nearest Neighbor)[5]、决策树(Decision tree)[6]、朴素贝叶斯(Naive Bayes)[7]等。逐渐成熟的基于机器学习的文本分类方法,更注重分类器的模型自动挖掘和生成及动态优化能力,在分类效果和灵活性上都比之前基于知识工程和专家系统的文本分类模式有所突破,取得了很好的分类效果。 本文主要综述基于机器学习算法的文本分类方法。首先对文本分类问题进行概述,阐述文本分类的一般流程以及文本表述、特征选择方面的方法,然后具体研究基于及其学习的文本分类的典型方法,最后指出该领域的研究发展趋势。 2.文本自动分类概述 文本自动分类可简单定义为:给定分类体系后,根据文本内容自动确定文本关联的类别。从数学角度来看,文本分类是一个映射过程,该映射可以是一一映射,也可以是一对多映射过程。文本分类的映射规则是,系统根据已知类别中若干样本的数据信息总结出分类的规律性,建立类别判别公式或判别规则。当遇到新文本时,根据总结出的类别判别规则确定文本所属的类别。也就是说自动文本分类通过监督学习自动构建出分类器,从而实现对新的给定文本的自动归类。文本自动分类一般包括文本表达、特征选取、分类器的选择与训练、分类等几个步骤,其中文本表达和特征选取是文本分类的基础技术,而分类器的选择与训练则是文本自动分类技术的重点,基于机器学习的文本分来就是通过将机器学习领域的分类算法用于文本分类中来[8]。图1是文本自动分类的一般流程。

文本分类综述

山西大学研究生学位课程论文(2014 ---- 2015 学年第 2 学期) 学院(中心、所):计算机与信息技术学院 专业名称:计算机应用技术 课程名称:自然语言处理技术 论文题目:文本分类综述 授课教师(职称):王素格(教授) 研究生姓名:刘杰飞 年级:2014级 学号:201422403003 成绩: 评阅日期: 山西大学研究生学院 2015年 6 月2日

文本分类综述 摘要文本分类就是在给定的分类体系下,让计算机根据给定文本的内容,将其判别为事先确定的若干个文本类别中的某一类或某几类的过程。文本分类在冗余过滤、组织管理、智能检索、信息过滤、元数据提取、构建索引、歧义消解、文本过滤等方面有很重要的应用。本文主要介绍文本分类的研究背景,跟踪国内外文本分类技术研究动态。介绍目前文本分类过程中的一些关键技术,以及流形学习在文本分类中降维的一些应用。并且讨论目前文本分类研究面临的一些问题,及对未来发展方向的一些展望。 关键词文本分类;特征选择;分类器;中文信息处理 1.引言 上世纪九十年代以来,因特网以惊人的速度发展起来,到现在我们进入大数据时代互联网容纳了海量的各种类型的数据和信息,包括文本、声音、图像等。这里所指的文本可以是媒体新闻、科技、报告、电子邮件、技术专利、网页、书籍或其中的一部分。文本数据与声音和图像数据相比,占用网络资源少,更容易上传和下载,这使得网络资源中的大部分是以文本(超文本)形式出现的。如何有效地组织和管理这些信息,并快速、准确、全面地从中找到用户所需要的信息是当前信息科学和技术领域面临的一大挑战。基于机器学习的文本分类系统作为处理和组织大量文本数据的关键技术,能够在给定的分类模型下,根据文本的内容自动对文本分门别类,从而更好地帮助人们组织文本、挖掘文本信息,方便用户准确地定位所需的信息和分流信息。 利用文本分类技术可以把数量巨大但缺乏结构的文本数据组织成规范的文本数据,帮助人们提高信息检索的效率。通过对文本信息进行基于内容的分类,自动生成便于用户使用的文本分类系统,从而可以大大降低组织整理文档耗费的人力资源,帮助用户快速找到所需信息。因此文本分类技术得到日益广泛的关注,成为信息处理领域最重要的研究方向之一。 2.文本分类技术的发展历史及现状 2.1文本分类技术发展历史 国外自动分类研究始于1950年代末,早期文本分类主要是基于知识工程,通过手工定义一些规则来对文本进行分类,这种方法费时费力,还需要对某一领域有足够的了解,才能提炼出合适的规则。H.P.Luhn在这一领域进行了开创性的研究,他将词频统计的思想用于文本分类中。这一时期,主要是分类理论的研究,并将文本分类应用用于信息检索。在这一段时期,提出了很多经典文本分类的数学模型。比如1960年Maron在Journal of ASM上发表了有关自动分类的第一篇论文“On relevance Probabilitic indexing and informarion retriral”,这是Maron和Kuhns提出概的率标引(Probabilitic indexing )模型在信息检

文本情感分类研究综述

Web文本情感分类研究综述 王洪伟/刘勰/尹裴/廖雅国 2012-9-27 14:55:59 来源:《情报学报》(京)2010年5期【英文标题】Review of Sentiment Classification on Web Text 【作者简介】王洪伟,男,1973年生,博士,副教授/博士生导师,研究方向:本体建模和情感计算,E-mail:hwwang@https://www.360docs.net/doc/7a17354311.html,。同济大学经济与管理学院,上海200092; 刘勰,男,1985年生,硕士研究生,研究方向:数据挖掘与情感计算。同济大学经济与管理学院,上海200092; 尹裴,女,1986年生,硕士研究生,研究方向:商务智能。同济大学经济与管理学院,上海200092; 廖雅国,男,1954年生,博士,教授,研究方向:人工智能与电子商务。香港理工大学电子计算学系,香港 【内容提要】对用户发表在Web上的评论进行分析,能够识别出隐含在其中的情感信息,并发现用户情感的演变规律。为此,本文对Web文本情感分类的研究进行综述。将情感分类划分为三类任务:主客观分类、极性判别和强度判别,对各自的研究进展进行总结。其中将情感极性判别的方法分为基于情感词汇语义特性的识别和基于统计自然语言处理的识别方法。分析了情感分类中的语料库选择和研究难点。最后总结了情感分类的应用现状,并指出今后的研究方向。

Analyzing the users' reviews on the Web can help us to identify users' implicit sentiments and find the evolution laws of their emotion. To this end, this paper is a survey about the sentiment classification on the Web text. We divided the process of classification into three categories:subjective and objective classification,polarity identification and intensity identification and respectively summarize the resent research achievements in these fields. We also sorted the methods of polarity identification into two types: one is based on the emotional words with semantic characteristics, while the other statistic methods of natural language processing. What is more, the choice of corpus and potential research problems are discussed. At last, this paper summarized the status quo of application and pointed out the direction of future research. 【关键词】Web文本/情感分类/综述/主观性文本Web texts/Sentiment classification/Survey/Subjective text 随着互联网的流行,Web文本成为我们获取信息、发表观点和交流情感的重要来源。特别是随着Web2.0技术的发展,网络社区、博客和论坛给网络用户提供了更宽广的平台来交流信息和表达意见。这些文章和言论往往包含有丰富的个人情感,比如对某部大片的影评,对某款手机的用户体验等,其中蕴含着巨大的商业价值。如何从这些Web文本中进行情感挖掘,获取情感倾向已经成为当今商务智能领域关注的热点。所谓情感分析(sentiment analysis),就是确定说话人或作者对某个特定主题的态度。其中,态度可以是他们的判断或者评估,他们(演说、写作时)的情绪状态,或者有意(向受众)传递的情感信息。因此,情感分

文本分类方法研究

毕业论文 题目:文本分类方法研究 姓名:贾云璠 院系:理学院物理系 专业:物理学 年级: 2013级 学号: 201341021 指导教师:郑伟 二〇一七年六月

摘要 近些年来,随着信息技术的发展与应用,互联网上的数据错综复杂,面对如此纷繁复杂的数据,需要借助数据挖掘对数据进行处理来实现对数据的分类,以便查询和搜索,实现数据的最大利用价值。 文本分类在信息处理方面占有重要的作用,到目前为止,有很多种方法:KNN SVM 决策树,以及贝叶斯等算法可以帮助我们快速的对文本进行自动分类,本文主要研究KNN SVM两种方法,在比较这两种分类对中文文本分类的基础之上,分析了K 临近算法和支持向量机的优缺点,因SVM和KNN具有互补的可能性,提出了SVM和KNN组合[1]的算法。实验表明:SVM和KNN有很好的分类效果。 关键词:文本分类,SVM、KNN,线性组合

Abstract In recent years, with the development of information technology and application, the complexity of the data on the Internet in the face of so complicated data, need with the help of data mining, data processing to implement the data classification, in order to query and search, and realize the maximum utilization of the data value. Chinese text classification plays an important role in Chinese information processing, for example, Chinese information retrieval and search engine, KNN SVM decision tree, and the bayesian algorithm can be applied to Chinese text classification, based on the research analysis compares the two kinds of KNN and SVM classification method, and the experimental comparison of the two algorithms of Chinese text classification effect, on the basis of analyzing the K near the advantages and disadvantages of the algorithm and support vector machine (SVM), found that the SVM and KNN has the possibility of complementary, SVM and KNN algorithm of linear combination is presented. Key words: Text classification, SVM, KNN, linear combination

文本分类综述1

文本分类综述 1. 引言 1.1 文本分类的定义 文本分类用电脑对文本集按照一定的分类体系或标准进行自动分类标记,与文本分类相近的概念是文本聚类。文本聚类是指,由机器将相似的文档归在一起。与文本分类的区别在于,文本分类是监督学习,类别是事先规定好的,文本聚类是无监督学习,由计算机把类似文本归在一起,事先并不划定好类别。 基于统计的文本分类算法进行文本分类就是由计算机自己来观察由人提供的训练文档集,自己总结出用于判别文档类别的规则和依据。 文本分类的基本步骤是:文本表示->特征降维->分类器训练>文本分类 1.2 文本分类的基本思路 文本分类基本方法可以归结为根据待分类数据的某些特征来进行匹配,选择最优的匹配结果,从而实现分类。 计算机并不认识文档,因此首先就要设法如何转化一篇文档为计算机所接受,转化方法要与文本有对应关系。对于计算机文本分类而言,这是最重要的步骤。 其次要制定出一定的评判标准,根据文档表示结果对文本进行分类 1.3 文本分类目前的研究热点 2. 文本表示 利用计算机来解决问题,首先就是要找到一种使计算机能够理解方法来表述问题,对文本分类问题来说,就是要建立一个文档表示模型。 一般来说,利用文档中的语义信息来表示文档比较困难,因此直接采用词频来表示文档,不过也出现了许多利用语义的文档表示方法。 2.1 向量空间模型(VSM) VSM模型是目前所用的较多的文本表示模型,这种模型把文本看作是一个特征项的集合。特征项可以是词,也可以是人为所构造的合理的特征。

2.2 词袋模型 词袋模型是VSM 模型在文本分类问题中的一个最简单的应用。对于一篇文档,最直观的方法就是使用词和短语作为表示文本的特征。对于英文文章来说,各个单词之间己经用空格分开,可以直接获取特征词,不过由于英语中存在词形的变化,如:名词的单复数、动词的时态变化、词的前缀和后缀变化等,所以会需要一个抽取词干的过程。对于中文来说,因为词和词之间没有停顿,所以需要借助于词典来统计特征词。对于文本分类来说,常用的方法为TF 即词频法。 具体操作为: 对文本,北京理工大学计算机专业创建于1958年,是中国最早设立的计算机专业的大学之一。对于该文档,词袋为{北京、理工、大学、计算机、专业、创建、1958、中国、最早、设立}相应的向量为{1,1,2,2,2,1,1,1,1},这种统计特征词词频当作文档特征的方法也称为TF 法,为了防止这种方法统计出的特征使得文本长度影响到分类结果,要把它做归一化处理,最容易想到的归一化做法是除以文本长度。 另外还有另一个指标IDF 指标,衡量词的重要性,一个词在一篇文本中出现的频率越高,同时在总的训练文本中出现的频率越低,那么这个词的IDF 值越高。 操作: 总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到,公式表示为 ,idf 衡量了一个词的重要程度,因此tf ×idf 可以更好的来表示文本。 2.3 其他模型 3. 特征降维 文本所形成的不加处理的特征向量维数很高,以词袋模型为例,一方面,很多文章只有几千词,而一个分词词典所包含的词有数万个,如果不加处理,把所有词都表示出来,是极大的浪费,另一方面,若依照分词词典建立向量,事实上是无法使用的,因此需要对文档特征进行降维处理。把不用的特征去掉,保留区分度高的词语。特侦降维可以有两种思路,特征选择和特征提取,其中,特征选择是指在原有特征的基础上,选择一部分特征来表示文本,特征性质不变,例如||log()|:| i j D idf j t d =∈

文本分类概述备课讲稿

第一章绪论 1.1 研究背景 当今的时代,是一个信息技术飞速发展的时代。随着信息技术的飞速发展,科学知识也在短时间内发生了急剧的、爆炸性的增长。 据1998 年的资料显示[1],70年代以来,全世界每年出版图书50万种,每一分钟就有一种新书出版。80 年代每年全世界发表的科学论文大约500 万篇,平均每天发表包含新知识的论文为1.3万-1.4 万篇;登记的发明创造专利每年超过30万件,平均每天有800-900件专利问世。近二十年来,每年形成的文献资料的页数,美国约1,750 亿页。另据联合国教科文组织所隶属的“世界科学技术情报系统”曾做的统计显示,科学知识每年的增长率,60 年代以来已从9.5%增长到10.6%,到80年代每年增长率达12.5%。据说,一位化学家每周阅读40 小时,光是浏览世界上一年内发表的有关化学方面的论文和著作就要读48 年。而2005 年的资料显示[2],进入20 世纪后全世界图书品种平均20年增加一倍,册数增加两倍。期刊出版物,平均10 年增加一倍。科技文献年均增长率估计为13%,其中某些学科的文献量每10 年左右翻一番,尖端科技文献的增长则更快,约2-3 年翻一番。 同时,伴随着Internet 的迅猛发展,网站和网页数也在迅速增长,大约每年翻一番。据估计,目前全世界网页数已高达2000 亿,而Google 宣称其已索引250 亿网页。在我国,中国互联网络信息中心从2001 年起每年都对中文网页总数作统计调查,统计结果显示,中文网页总数已由2001年4月30日的159,460,056 个发展到2005年12月31日的24亿个,增长之快可见一斑[3,4]。 从这些统计数字可以看出,我们被淹没在一个多么浩大的信息海洋里!然而信息的极大丰富并没有提高人们对知识的吸收能力,面对如此浩瀚的信息,人们越来越感觉无法快速找到需要的知识。这就是所谓的“信息是丰富的,知识是贫乏的”。 如何在这样一个巨大的信息海洋中更加有效的发现和使用信息以及如何利用这个信息宝库为人们提供更高质量和智能化的信息服务,一直是当前信息科学和技术领域面临的一大挑战。尽管用户对图像、音频和视频等信息资源的需求也

文本分类中的特征提取和分类算法综述

文本分类中的特征提取和分类算法综述 摘要:文本分类是信息检索和过滤过程中的一项关键技术,其任务是对未知类别的文档进行自动处理,判别它们所属于的预定义类别集合中的类别。本文主要对文本分类中所涉及的特征选择和分类算法进行了论述,并通过实验的方法进行了深入的研究。 采用kNN和Naive Bayes分类算法对已有的经典征选择方法的性能作了测试,并将分类结果进行对比,使用查全率、查准率、F1值等多项评估指标对实验结果进行综合性评价分析.最终,揭示特征选择方法的选择对分类速度及分类精度的影响。 关键字:文本分类特征选择分类算法 A Review For Feature Selection And Classification Algorithm In Text Categorization Abstract:Text categorization is a key technology in the process of information retrieval and filtering,whose task is to process automatically the unknown categories of documents and distinguish the labels they belong to in the set of predefined categories. This paper mainly discuss the feature selection and classification algorithm in text categorization, and make deep research via experiment. kNN and Native Bayes classification algorithm have been applied to test the performance of classical feature detection methods, and the classification results based on classical feature detection methods have been made a comparison. The results have been made a comprehensive evaluation analysis by assessment indicators, such as precision, recall, F1. In the end, the influence feature selection methods have made on classification speed and accuracy have been revealed. Keywords:Text categorization Feature selection Classification algorithm

文本情感分析研究现状

文本情感分析研究现状 机器之心专栏 作者:李明磊 作为NLP 领域重要的研究方向之一,情感分析在实际业务场景中 存在巨大的应用价值。在此文中,华为云NLP 算法专家李明磊为 我们介绍了情感分析的概念以及华为云在情感分析方面的实践和 进展。 基本概念 为什么:随着移动互联网的普及,网民已经习惯于在网络上表达意见和建议,比如电商网站上对商品的评价、社交媒体中对品牌、产品、政策的评价等等。这些评价中都蕴含着巨大的商业价值。比如某品牌公司可以分析社交媒体上广大民众对该品牌的评价,如果负面评价忽然增多,就可以快速采取相应的行动。而这种正负面评价的分析就是情感分析的主要应用场景。 是什么:文本情感分析旨在分析出文本中针对某个对象的评价的正负面,比如「华为手机非常好」就是一个正面评价。情感分析主要有五个要素,(entity/实体,aspect/属性,opinion/观点,holder/观点持有者,time/时间),其中实体和属性合并称为评价对象(target)。情感分析的目标就是从非结构化的文本评论中抽取出这五个要素。

图1 情感分析五要素 举例如下图: 图2 情感分析五要素例子 上例中左侧为非结构化的评论文本,右侧为情感分析模型分析出的五个要素中的四个(不包括时间)。其中实体「华为手机」和属性「拍照」合并起来可以作为评价对象。评价对象又可细分为评价对象词抽取和评价对象类别识别。如实体可以是实体词和实体类别,实体词可以是「餐馆」、「饭店」、「路边摊」,而实体类别是「饭店」;属性可以是属性词和属性类别,如属性词可以是「水煮牛肉」、「三文鱼」等,都对应了属性类别「食物」。实体类别和属性类别相当于是对实体词和属性词的一层抽象和归类,是一对多的关系。词和类别分别对应了不同的

Web文本情感分类研究综述

情报学报  ISSN1000-0135 第29卷第5期931-938,2010年10月 JOURNALOFTHECHINASOCIETYFORSCIENTIFIC ANDTECHNICALINFORMATIONISSN1000-0135Vol.29 No.5,931-938October 2010 收稿日期:2009年6月29日 作者简介:王洪伟,男,1973年生,博士,副教授桙博导,研究方向:本体建模和情感计算,E-mail:hwwang@tongji.edu.cn。刘勰,男,1985年生,硕士研究生,研究方向:数据挖掘与情感计算。尹裴,女,1986年生,硕士研究生,研究方向:商务智能。廖雅国,男,1954年生,博士,教授,研究方向:人工智能与电子商务。 1) 本文得到国家自然科学基金项目(70501024,70971099);教育部人文社会科学资助项目(05JC870013);上海市重点学科建设项目(B310);香港研究资助局项目(polyU5237桙08E)资助。 doi:10.3772桙j.issn.1000-0135.2010.05.023 Web文本情感分类研究综述 1) 王洪伟1  刘 勰1  尹 裴1  廖雅国 2 (1畅同济大学经济与管理学院,上海200092;2畅香港理工大学电子计算学系,香港) 摘要 对用户发表在Web上的评论进行分析, 能够识别出隐含在其中的情感信息,并发现用户情感的演变规律。为此,本文对Web文本情感分类的研究进行综述。将情感分类划分为三类任务:主客观分类、极性判别和强度判别,对各自的研究进展进行总结。其中将情感极性判别的方法分为基于情感词汇语义特性的识别和基于统计自然语言处理的识别方法。分析了情感分类中的语料库选择和研究难点。最后总结了情感分类的应用现状,并指出今后的研究方向。 关键词 Web文本 情感分类 综述 主观性文本 LiteratureReviewofSentimentClassificationonWebText WangHongwei1 ,LiuXie1 ,YinPei1 andLiuN.K.James 2 (1畅SchoolofEconomicsandManagement,TongjiUniversity,Shanghai200092;2畅DepartmentofComputing,HongKongPolytechnicUniversity,HongKong) Abstract Analyzingtheusers’reviewsontheWebcanhelpustoidentifyusers’implicitsentimentsandfindtheevolution lawsoftheiremotion.Tothisend,thispaperisasurveyaboutthesentimentclassificationontheWebtext.Wedividedtheprocessofclassificationintothreecategories:subjectiveandobjectiveclassification,polarityidentificationandintensity identificationandrespectivelysummarizetheresentresearchachievementsinthesefields.Wealsosortedthemethodsofpolarityidentificationintotwotypes:oneisbasedontheemotionalwordswithsemanticcharacteristics,whiletheotherstatisticmethodsof naturallanguageprocessing.Whatismore,thechoiceofcorpusandpotentialresearchproblemsarediscussed.Atlast,thispaper summarizedthestatusquoofapplicationandpointedoutthedirectionoffutureresearch. Keywords Webtexts,sentimentclassification,survey,subjectivetext 随着互联网的流行,Web文本成为我们获取信 息、发表观点和交流情感的重要来源。特别是随着Web2畅0技术的发展,网络社区、博客和论坛给网络用户提供了更宽广的平台来交流信息和表达意见。这些文章和言论往往包含有丰富的个人情感,比如 对某部大片的影评,对某款手机的用户体验等,其中 蕴含着巨大的商业价值。如何从这些Web文本中进行情感挖掘,获取情感倾向已经成为当今商务智能领域关注的热点。所谓情感分析(sentimentanalysis),就是确定说话人或作者对某个特定主题的 — 139—

文本分类的常见方法

文本分类的常见方法

文本分类的过程: (1)选择训练文本。好的训练文本对分类器的最终结果起到至关重要的作用。 (2)选择文本特征。对训练样本和测试样本进行数据预处理,包括分词、去停用词、消除噪音等。目前的文本分类研究,主要选取一些具有代表性的词、词组、短语来表示文本。(3)建立文本表示模型。为了便于计算机理解和计算相关的文本属性,需要对文本进行表示,其中向量空间模型(Vector Space Model VSM)运用最为广泛。 (4)选择分类方法。文本分类的核心部分,不同的分类方法原理不同需要处理的数 据也不同。经典分类算法有朴素贝叶斯(Naive Bayes NB)、K-近邻(K-Nearest Neighbor KNN)、决策树(Decision Tree DTree)、算数平均质心(Arithmetical Average Centroid AAC)、支持向量机(Support Vector Machine SVM)。 (5)分类结果的评估。目前主流的评估标准准确率、召回率和F1值。

选择文本特征 我们需要将文档转换为计算机可以衡量、运算的形式。现在运用最广泛的形式:将文档映射入向量空间。具体流程如图1。 张三说的确实在理。李四买了一张三角桌子。 张三/说/的/确实/在理。 李四/买/了/一张/三角/桌子。 对中文文档进行分词 中文分词系统:盘古、Lucene 张三、在理 李四、三角、桌子 去除停顿词 在理、三角、桌子 特征项提取 评判的标准:信息增益、期望交叉熵 互信息、开放检验 这样就将一篇文章映射成了为了向量空间中的一个向量。在把文章都映射完成后,我们可以根据自己不同的需求,在向量空间中进行运算。比如计算两篇文章的相似度:我们把向量的起点都映射到原点,则我们可以比较向量的长度、向量的夹角、向量两个终点的距离等等;我们还可以宏观的观察大量的向量在向量空间中的分布情况,对大量聚集在一起的向量抽取它们的共性:计算他们的中心、他们整体的方向等。其实数学模型很好,只不过限于计算机的存储、运算水平,向量空间的维度过高、文档数量过大、计算复杂度过高会使得模型的计算机实现变得困

引文文本分类与实现方法研究综述

引文文本分类与实现方法研究综述 引文文本一般是指引文脚注所在的句子或与上下文句子的集合[1],能提供施引文献与被引文献之间关系的重要信息,具有重要的研究价值和意义。目前围绕引文文本的研究主要有引文文本分类、引用动机调查、引文主题抽取3个方向[2-5]。相对而言,引文动机调查和主题抽取的理论和方法比较成熟,而关于引文文本分类的研究文献数量众多,分类标准和实现方法各有不同,没有统一的模式[6]。近几年来,国内关于引文文本的研究文献逐渐增多,如文献[6]对引文文本分析方法的主要步骤和相关研究进展进行了综述;文献[7]概述了引文文本类型识别的步骤和实践进展;文献[8]尝试从概念、研究范畴、步骤和功能系统地构建引用内容(文本)分析的理论。然而这些文献中较少对不同的引文文本分类标准的特点进行归纳,对不同的分类方法的优缺点也没有系统梳理和对比。因此,本文拟在前人研究的基础上对中英文相关文献进行研读、梳理,系统总结归纳现有引文文本的各种分类标准及特点,对比分析引文文本分类实现方法的优缺点,理清引文文本分类的主要应用领域,剖析当前存在的问题,并对未来的研究重点进行展望。 1 引文文本的分类标准

引文文本的分类标准,主要是指科学家对引文文本进行内容分类分析时采取的角度或维度。在对引文文本分类的相关研究中,1993年,M.X.Liu[2]将相关研究的分析目的归纳为3个方面:提高检索效率,研究引用功能,研究引用质量。2004年,H.D.White[9]从情报学和语言学的不同学科角度,探讨了不同学科对引文文本分类方法的不同研究角度。2013年,祝清松等[7]在对引文类型标注方法进行综述的基础上将分类标注定为引用功能和观点倾向两类。笔者通过对主要综述性文献的比较和其他相关文献的广泛研读,认为引文文本的分类方式主要可分为以下5种类型。 1.1 基于引用功能的分类 引用功能是指被引文献在施引文献中起到的作用和产生的意义,早期对引用功能的研究以描述性讨论为主,功能定义比较单一,主要观点认为引文是对前人研究工作价值的肯定,是对知识产权的维护[10-14]。其中,具有代表性的是M.J.Moravicsik 与P.Murugesan[15]从4个不同维度对引文文本进行分类,特别是第一个维度——将引文文本分为概念性引用、操作性引用和其他功能的引用,超过一半的引用(53%)为概念的引用,仅有7%的引用属于其他功能的引用。其对引用功能的划分比较粗略,没

人工智能的文本分类方法简述

人工智能的文本分类方法简述 摘要:本文阐述了一些基本的文本分类的方法,以及一些改进的文本文类的方法,并包含了一些文本分类的实际应用。其中着重阐述了贝叶斯分类以及一些其他的的文本分类方法。最后提出了现在文本分类方法中存在的一些问题。 关键词:文本分类;贝叶斯方法;数据挖掘;分类算法。 0 引言 文本分类是指在给定分类体系下, 根据文本内容(自动) 确定文本类别的过程。20世纪90年代以前,占主导地位的文本分类方法一直是基于知识工程的分类方法, 即由专业人员手工进行分类。目前在国内也已经开始对中文文本分类方法进行研究, 相比于英文文本分类, 中文文本分类的一个重要的差别在于预处理阶段: 中文文本的读取需要分词, 不像英文文本的单词那样有空格来区分。从简单的查词典的方法, 到后来的基于统计语言模型的分词方法, 中文分词的技术已趋于成熟。并在信息检索、Web文档自动分类、数字图书馆、自动文摘、分类新闻组、文本过滤、单词语义辨析以及文档的组织和管理等多个领域得到了初步的应用。 人工智能的基本方法就是对人类智能活动的仿真。小样本数据可以看作是一种先验知识不完全的数据集。人类在处理类似的决策问题时,通常采用的策略为: 1,利用多专家决策来提高决策的可信度; 2,专家的决策技能在决策的过程中可以得到不断的增强,即专家具有学习功能; 3,在专家的技能得到增强的基础上,再进行决策可以提高决策的正确性。 这种方法同样适用于小样本数据的分类识别。通过对上述方法的仿真,本文提出了智能分类器,它不仅可以对未知样本进行分类,同时它还具有多专家决策、预分类和学习功能。 1 分类的基本概念 分类就是根据数据集的特点找出类别的概念描述, 这个概念描述代表了这类数据的整体信息,也就是该类的内涵描述,并使用这种类的描述对未来的测试数据进行分类。 分类的过程一般分为两个步骤:第一步, 通过已知数据集建立概念描述模型; 第二步, 就是利用所获得的模型进行分类操作。 对各种分类方法的评估可以根据以下几条标准进行: 1)预测准确率,指模型能够正确预测未知数据类别的能力; 2)速度,指构造和使用模型时的计算效率; 3) 鲁棒性,指在数据带有噪声或有数据遗失的情况下,模型仍能进行正确预测的能力; 4) 可扩展性, 指对处理大量数据并构造相应有效模型的能力; 5) 易理解性, 指所获模型提供的可理解程度。 2 常用的分类算法

国内外文本分类研究计量分析与综述

国内外文本分类研究计量分析与综述一 发表于《图书情报工作》2011年第55卷第6期:78-142,欢迎大家下载、参考和交流 胡泽文王效岳白如江 山东理工大学科技信息研究所淄博255049 [摘要]运用文献计量分析方法、计算机统计分析技术、社会网络分析软件对文本分类领域的历史文献进行计量分析及可视化,通过绘制文献数量分布图、核心关键词的共现网络,挖掘文本分类领域的发展趋势、目前研究概况、热点及未来研究趋势等信息,并对文本分类领域研究热点和未来研究趋势进行综述。 [关键词]文本分类计量分析社会网络分析可视化图谱 [分类号]G250TP391 Q uantitative A nalysis and Review of Text Classification Research at Home and Abroad Hu Zewen Wang Xiaoyue Bai Rujiang Institute of Scientific and Technical Information,Shandong University of Technology,Zibo255049,China [Abstract]This paper carries out the quantitative analysis and visualization to the historical literatures of text classification domain by using the bibliometric analysis method,the computer statistic analysis technology and the social network analysis software.By drawing the literature quantity distribution map and co-occurrence network of the core keywords,excavates the development trends,the current research situations,hotspots and the future research trends etc in text classification domain,and makes a review on the research hotspots and future research trends. [Keywords]text classification quantitative analysis social network analysis visualizing map 1引言 随着数字化文档信息总量的快速增长,大规模文本处理已经成为一个挑战。传统向量空间模型表征文本的方法逐渐呈现出一些问题,比如忽视词间语义关系,不能解决同义词、多义词、词间上下位关系等问题,为解决这些问题,国内外学者开始从概念或语义层次上对文本自动分类方法展开广泛的研究,出现一些新的文本分类方法,如基于词典或概念的文本分类、基于本体或语义的文本分类等。随着文本分类领域的快速发展,文本分类领域的总体发展趋势、研究概况、热点及未来发展趋势如何,将是我们关注的焦点。因此关于文本分类领域文献信息的计量分析与综述具有重要的理论、现实和指导意义。 2样本与方法 样本数据检索情况如表1所示,共检索到1851篇国内外相关文献。在方法运用上,利用文献数量分析方法对国内外文本分类领域的发展趋势进行对比分析;利用Excel2007、SQL语句的数据处理与统计分析功能、社会网络分析软件Ucinet和NetDraw[1]的数据分析及可视化功能等,对文本分类文献中的关键词进行词频统计与分析、共现频次统计与分析,绘制国内外文本分类领域研究概况和热点的可视化图谱。据此可以解读国内外文本分类领域的发展趋势、研究概况、热点等信息。 表1样本数据的检索情况 数据库检索入口检索词时间范围文献数量 一本文系国家社科基金项目“海量网络学术文献自动分类研究”(项目编号:10BTQ047)和教育部人文社会科学研究项目“基于本体集成的文本分类关键技术研究”(项目编号:09YJA870019)的研究成果之一。

基于卷积神经网络的文本分类研究综述

第34卷第3期2019年5月 内蒙古民族大学学报(自然科学版) Journal of Inner Mongolia University for Nationalities Vol.34No.3 May2019 基于卷积神经网络的文本分类研究综述 裴志利1,阿茹娜2,姜明洋2,卢奕南3 (1.内蒙古民族大学计算机科学与技术学院,内蒙古通辽028043;2.内蒙古民族大学数学学院,内蒙古通辽028000;3.吉林大学计算机科学与技术学院,吉林长春130012) [摘要]随着互联网及其相关技术的高速发展,网络数据呈现出井喷式的增长,其中主要以文本的形式大量 存在,数据在这种增长趋势下,文本分类已经成为越来越重要的研究课题.如今,采用深度学习技术对文本进 行表示受到研究者的极大关注.如采用卷积神经网络对文档进行表示和分类等自然语言处理.本文主要对基 于卷积神经网络的文本分类方法进行了研究,介绍了几个具有代表性的卷积神经网络模型结构.最后提出了 对基于该方法文本分类的展望. [关键词]卷积神经网络;文本分类;深度学习 [中图分类号]TP393[文献标识码]A[文章编号]1671-0815(2019)03-0206-05 Survey of Text Classification Research Based on Convolutional Neural Networks PEI Zhi-li1,Aruna2,JIANG Ming-yang2,LU Yi-nan3 (1.College of Computer Science and Technology,Inner Mongolia University for Nationalities,Tongliao028043,China; 2.College of Mathematics,Inner Mongolia University for Nationalities,Tongliao028000,China; 3.College of Computer Science and Technology,Jilin University,Changchun130012,China) Abstract:With the rapid development of the Internet and related technologies,network data has shown a spurt growth trend,which mainly exists in the form of text.Under this growth trend,text classification has become an increasingly important research topic.The use of deep learning technology to express the text has received great attention.For example, natural language processing such as convolutional neural network is used to represent and classify documents.The text classification method based on convolutional neural network is investigated.Several representative convolutional neural network model structures are introduced.Finally,the prospect of text classification based on this method is proposed. Key wrrds:Convolutional neural network;Text classification;Deep learning 0引言 随着网络媒体的出现,用户生成的内容以飞快的速度填充数据资源,这些数据的自动处理引起了研究者的巨大关注.文本分类是自然语言处理领域的重要任务,包括情感分析、对话分析、文献综述、机器翻译等[1].文本分类具有多种方法,传统的机器学习分类算法有支持向量机算法(Support Vector Machine,SVM)[2]、朴素贝叶斯算法(Naive Bayesian Classifier,NBC)[3]、决策树算法(Decision Tree,DT)[4]、K-最近邻算法(K-Nearest Neighbor,KNN)[5]等,采用传统算法文本分类时需要人工进行特征提取,耗费时间和精 基金项目:国家自然科学基金项目(61672301);内蒙古自治区“草原英才”工程产业创新人才团队(2017);内蒙古自治区科技创新引导奖励资金项目(2016);内蒙古民族大学特色交叉学科群建设项目(MDXK004);2019年度内蒙古自治区高等学校“青年科技英才支持计划”(NJYT-19-B18) 作者简介:裴志利,内蒙古民族大学计算机科学与技术学院教授,博士. DOI:10.14045/https://www.360docs.net/doc/7a17354311.html,ki.15-1220.2019.03.005

相关文档
最新文档