SVM入门(十)将SVM用于多类分类

SVM入门(十)将SVM用于多类分类
SVM入门(十)将SVM用于多类分类

SVM入门(十)将SVM用于多类分类

从SVM的那几张图可以看出来,SVM是一种典型的两类分类器,即它只回答属于正类还是负类的问题。而现实中要解决的问题,往往是多类的问题(少部分例外,例如垃圾邮件过滤,就只需要确定“是”还是“不是”垃圾邮件),比如文本分类,比如数字识别。如何由两类分类器得到多类分类器,就是一个值得研究的问题。

还以文本分类为例,现成的方法有很多,其中一种一劳永逸的方法,就是真的一次性考虑所有样本,并求解一个多目标函数的优化问题,一次性得到多个分类面,就像下图这样:

多个超平面把空间划分为多个区域,每个区域对应一个类别,给一篇文章,看它落在哪个区域就知道了它的分类。

看起来很美对不对?只可惜这种算法还基本停留在纸面上,因为一次性求解的方法计算量实在太大,大到无法实用的地步。

稍稍退一步,我们就会想到所谓“一类对其余”的方法,就是每次仍然解一个两类分类的问题。比如我们有5个类别,第一次就把类别1的样本定为正样本,其余2,3,4,5的样本合起来定为负样本,这样得到一个两类分类器,它能够指出一篇文章是还是不是第1类的;第二次我们把类别2 的样本定为正样本,把1,3,4,5的样本合起来定为负样本,得到一个分类器,如此下去,我们可以得到5个这样的两类分类器(总是和类别的数目一致)。到了有文章需要分类的时候,我们就拿着这篇文章挨个分类器的问:是属于你的么?是属于你的么?哪个分类器点头说是了,文章的类别就确定了。这种方法的好处是每个优化问题的

规模比较小,而且分类的时候速度很快(只需要调用5个分类器就知道了结果)。但有时也会出现两种很尴尬的情况,例如拿一篇文章问了一圈,每一个分类器都说它是属于它那一类的,或者每一个分类器都说它不是它那一类的,前者叫分类重叠现象,后者叫不可分类现象。分类重叠倒还好办,随便选一个结果都不至于太离谱,或者看看这篇文章到各个超平面的距离,哪个远就判给哪个。不可分类现象就着实难办了,只能把它分给第6个类别了……更要命的是,本来各个类别的样本数目是差不多的,但“其余”的那一类样本数总是要数倍于正类(因为它是除正类以外其他类别的样本之和嘛),这就人为的造成了上一节所说的“数据集偏斜”问题。

因此我们还得再退一步,还是解两类分类问题,还是每次选一个类的样本作正类样本,而负类样本则变成只选一个类(称为“一对一单挑”的方法,哦,不对,没有单挑,就是“一对一”的方法,呵呵),这就避免了偏斜。因此过程就是算出这样一些分类器,第一个只回答“是第1类还是第2类”,第二个只回答“是第1类还是第3类”,第三个只回答“是第1类还是第4类”,如此下去,你也可以马上得出,这样的分类器应该有5 X 4/2=10个(通式是,如果有k个类别,则总的两类分类器数目为k(k-1)/2)。虽然分类器的数目多了,但是在训练阶段(也就是算出这些分类器的分类平面时)所用的总时间却比“一类对其余”方法少很多,在真正用来分类的时候,把一篇文章扔给所有分类器,第一个分类器会投票说它是“1”或者“2”,第二个会说它是“1”或者“3”,让每一个都投上自己的一票,最后统计票数,如果类别“1”得票最多,就判这篇文章属于第1类。这种方法显然也会有分类重叠的现象,但不会有不可分类现象,因为总不可能所有类别的票数都是0。看起来够好么?其实不然,想想分类一篇文章,我们调用了多少个分类器?10个,这还是类别数为5的时候,类别数如果是1000,要调用的分类器数目会上升至约500,000个(类别数的平方量级)。这如何是好?

看来我们必须再退一步,在分类的时候下功夫,我们还是像一对一方法那样来训练,只是在对一篇文章进行分类之前,我们先按照下面图的样子来组织分类器(如你所见,这是一个有向无环图,因此这种方法也叫做DAG SVM)

这样在分类时,我们就可以先问分类器“1对5”(意思是它能够回答“是第1类还是第5类”),如果它回答5,我们就往左走,再问“2对5”这个分类器,如果它还说是“5”,我们就继续往左走,这样一直问下去,就可以得到分类结果。好处在哪?我们其实只调用了4个分类器(如果类别数是k,则只调用k-1个),分类速度飞快,且没有分类重叠和不可分类现象!缺点在哪?假如最一开始的分类器回答错误(明明是类别1的文章,它说成了5),那么后面的分类器是无论如何也无法纠正它的错误的(因为后面的分类器压根没有出现“1”这个类别标签),其实对下面每一层的分类器都存在这种错误向下累积的现象。。

不过不要被DAG方法的错误累积吓倒,错误累积在一对其余和一对一方法中也都存在,DAG方法好于它们的地方就在于,累积的上限,不管是大是小,总是有定论的,有理论证明。而一对其余和一对一方法中,尽管每一个两类分类器的泛化误差限是知道的,但是合起来做多类分类的时候,误差上界是多少,没人知道,这意味着准确率低到0也是有可能的,这多让人郁闷。

而且现在DAG方法根节点的选取(也就是如何选第一个参与分类的分类器),也有一些方法可以改善整体效果,我们总希望根节点少犯错误为好,因此参与第一次分类的两个类别,最好是差别特别特别大,大到以至于不太可能把他们分错;或者我们就总取在两类分类中正确率最高的那个分类器作根节点,或者我们让两类分类器在分类的时候,不光输出类别的标签,还输出一个类似“置信度”的东东,当它对自己的结果不太自信的时候,我们就不光按照它的输出走,把它旁边的那条路也走一走,等等。

大Tips:SVM的计算复杂度

使用SVM进行分类的时候,实际上是训练和分类两个完全不同的过程,因而讨论复杂度就不能一概而论,我们这里所说的主要是训练阶段的复杂度,即解那个二次规划问题的复杂度。对这个问题的解,基本上要划分为两大块,解析解和数值解。

解析解就是理论上的解,它的形式是表达式,因此它是精确的,一个问题只要有解(无解的问题还跟着掺和什么呀,哈哈),那它的解析解是一定存在的。当然存在是一回事,能够解出来,或者可以在可以承受的时间范围内解出来,就是另一回事了。对SVM来说,求得解析解的时间复杂度最坏可以达到O(N s v3),其中N sv是支持向量的个数,而虽然没有固定的比例,但支持向量的个数多少也和训练集的大小有关。

数值解就是可以使用的解,是一个一个的数,往往都是近似解。求数值解的过程非常像穷举法,从一个数开始,试一试它当解效果怎样,不满足一定条件(叫做停机条件,就是满足这个以后就认为解足够精确了,不需要继续算下去了)就试下一个,当然下一个数不是乱选的,也有一定章法可循。有的算法,每次只尝试一个数,有的就尝试多个,而且找下一个数字(或下一组数)的方法也各不相同,停机条件也各不相同,最终得到的解精度也各不相同,可见对求数值解的复杂度的讨论不能脱开具体的算法。

一个具体的算法,Bunch-Kaufman训练算法,典型的时间复杂度在O(N sv3+LN sv2+dLN s v)和O(dL2)之间,其中N sv是支持向量的个数,L是训练集样本的个数,d是每个样本的维数(原始的维数,没有经过向高维空间映射之前的维数)。复杂度会有变化,是因为它不光跟输入问题的规模有关(不光和样本的数量,维数有关),也和问题最终的解有关(即支持向量有关),如果支持向量比较少,过程会快很多,如果支持向量很多,接近于样本的数量,

就会产生O(dL2)这个十分糟糕的结果(给10,000个样本,每个样本1000维,基本就不用算了,算不出来,呵呵,而这种输入规模对文本分类来说太正常了)。

这样再回头看就会明白为什么一对一方法尽管要训练的两类分类器数量多,但总时间实际上比一对其余方法要少了,因为一对其余方法每次训练都考虑了所有样本(只是每次把不同的部分划分为正类或者负类而已),自然慢上很多。

基于支持向量机的图像分类研究

目录 摘要 (2) Abstract (3) 1 引言 (3) 1.1 概述 (4) 1.2 统计学习理论 (4) 1.3 支持向量机及其发展简史 (5) 1.4 研究内容及其现实意义 (6) 2 持向量机模型的建立 (7) 2.1 SVM核函数 (7) 2.2 核函数的选择 (8) 2.3 SVM算法简介 (8) 2.4 SVM学习算法的步骤 (9) 3 图像内容的描述及特征提取 (10) 3.1 图像内容的描述模型 (10) 3.2 颜色特征的描述 (10) 3.2.1 颜色的表示和颜色模型 (10) 3.2.2 颜色直方图 (11) 3.2.3 累积颜色直方图 (12) 3.2.4 主色 (12) 3.3 纹理特征的描述 (12) 4 基于SVM的图像分类方法研究 (13) 4.1 分类系统的结构 (13) 4.1.1 特征提取模块 (13) 4.1.2 SVM分类模块 (13) 4.2 特征提取策略 (14) 4.3 实验 (14) 4.3.1 三种核函数的选择比较实验 (14) 4.3.2 基于颜色特征的图像分类 (17) 4.3.3 基于纹理特征的图像分类 (17) 4.3.4 基于综合特征的图像分类 (17) 5 结论 (18) 参考文献 (19)

摘要 支持向量机(SVM)方法是建立在统计学习理论基础之上的,克服了神经网络分类和传统统计分类方法的许多缺点,具有较高的泛化性能。但是,由于支持向量机尚处在发展阶段,很多方面尚不完善,现有成果多局限于理论分析,而应用显得较薄弱,因此研究和完善利用支持向量机进行图像分类对进一步推进支持向量机在图像分析领域的应用具有积极的推动作用。本文研究了图像的颜色、纹理等特征对利用支持向量机进行图像分类的影响。对支持向量机在图像分类中的应用作了较全面的研究。对三种核函数进行了对比实验,实验表明二项式核函数较高斯核函数和sigmoid核函数具有更强的泛化能力;同时,通过实验分析了特征选取对向量机性能的影响,发现综合特征有利于分类效果的提高。在以上研究的基础上,我们建立了一个基于svM的图像分类实验平台,讨论了系统的组成模块和功能,给出了一些图像分类实例,并验证了前述理论研究的结果。 关键词:统计学习理论支持向量机图像分类特征提取

基于libsvm的gist和phog特征的图像分类研究

研究生技术报告题目:基于libsvm的图像分类研究 编号:20132098 执笔人:刘金环 完成时间:2013-11-23

摘要 随着科学技术的飞速发展,机器学习与人工智能技术的不断创新,人们对特定信息检索的需求逐渐增加,使得如何对资源进行合理有效的分类成为一个关键问题。支持向量机(SVM)是一种建立在统计学习理论基础之上的机器学习方法,由于其基于小样本训练的优越性,被广泛应用于模式识别的各个领域,在图像检索、人脸识别等中充分了体现了其优越性,越来越受到广泛的关注和重视。 本文主要介绍了基于libsvm分类器的分类问题。本文以gist和phog特征为例简单实现了图像的分类问题,并通过查询准确性对这两种分类方法进行对比和分析。由仿真结果可知,gist特征分类要好于phog的特征分类,仿真效果较为理想。

目录 1 课题意义..................................................................................................... 错误!未定义书签。 2 技术要求及性能指标................................................................................. 错误!未定义书签。3方案设计及算法原理.................................................................................. 错误!未定义书签。 3.1基于libsvm的gist特征提取分类.............................................. 错误!未定义书签。 3.1.1算法原理 (1) 3.1.2设计框图 (2) 3.2基于libsvm的phog特征提取分类.............................................. 错误!未定义书签。 3.2.1算法原理.............................................................................. 错误!未定义书签。 3.2.2设计框图.............................................................................. 错误!未定义书签。4代码及相关注释. (4) 4.1基于libsvm的gist特征提取分类仿真结果 (6) 4.1.1代码及注释 (9) 4.1.2测试结果 (9) 4.2基于libsvm的phog特征提取分类仿真结果 (9) 4.2.1代码及注释 (9) 4.2.2测试结果 (12) 4.3基于libsvm的gist特征分类不同训练集测试结果.................. 错误!未定义书签。 4.3.1代码及注释.......................................................................... 错误!未定义书签。 4.3.2测试结果 (14) 5实验结果分析.............................................................................................. 错误!未定义书签。6总结 ............................................................................................................. 错误!未定义书签。

SVM分类方法在人脸图像分类中的应用

SVM分类方法在人脸图像分类中的应用 摘要:本文首先简要综述了人脸识别技术中不同的特征提取方法和分类方法;然后介绍了支持向量机(SVM)的原理、核函数类型选择以及核参数选择原则以及其在人脸分类识别中了应用,最后通过在构建的人脸库上的仿真实验观测观测不同的特征提取方法对人脸识别率的影响、不同的学习样本数对人脸识别率的影响、支持向量机选用不同的核函数后对人脸识别率的影响、支持向量机选用不同的核参数后对人脸识别率的影响。 一、人脸识别简介 人脸识别也就是利用计算机分析人脸图象,进而从中提取出有效的识别信息,用来“辨认”身份的一门技术。人脸识别技术应用背景广泛,可用于公安系统的罪犯身份识别、驾驶执照及护照等与实际持证人的核对、银行及海关的监控系统及自动门卫系统等。 常见的人脸识别方法包括基于KL变换的特征脸识别、基于形状和灰度分离的可变形模型识别、基于小波特征的弹性匹配、基于传统的部件建模识别、基于神经网络的识别、基于支持向量机的识别等。其中特征脸方法、神经网络方法、基于支持向量机的方法等是基于整体人脸的识别,而基于提取眼睛等部件特征而形成特征向量的方法就是基于人脸特征的识别。 虽然人类的人脸识别能力很强,能够记住并辨别上千个不同人脸,可是计算机则困难多了。其表现在:人脸表情丰富;人脸随年龄增长而变化;人脸所成图象受光照、成象角度及成象距离等影响;而且从二维图象重建三维人脸是病态过程,目前尚没有很好的描述人脸的三维模型。另外,人脸识别还涉及到图象处理、计算机视觉、模式识别以及神经网络等学科,也和人脑的认识程度紧密相关。这诸多因素使得人脸识别成为一项极富挑战性的课题。 通常人类进行人脸识别依靠的感觉器官包括视觉、听觉、嗅觉与触觉等。一般人脸的识别可以用单个感官完成,也可以是多感官相配合来存储和检索人脸。而计算机的人脸识别所利用的则主要是视觉数据。另外计算机人脸识别的进展还受限于对人类本身识别系统的认识程度。研究表明,人类视觉数据的处理是一个

毕业设计(论文)-基于SVM的图像分类系统设计文档

LANZHOU UNIVERSITY OF TECHNOLOGY 毕业设计 题目基于SVM的图象分类系统 学生姓名 学号 专业班级计算机科学与技术3班 指导教师 学院计算机与通信学院 答辩日期

摘要 支持向量机(SVM)方法是建立在统计学习理论基础之上的,克服了神经网络分类和传统统计分类方法的许多缺点,具有较高的泛化性能。但是,由于支持向量机尚处在发展阶段,很多方面尚不完善,现有成果多局限于理论分析,而应用显得较薄弱,因此研究和完善利用支持向量机进行图像分类对进一步推进支持向量机在图像分析领域的应用具有积极的推动作用。 本文通过支持向量机技术和图像特征提取技术实现了一个图像分类实验系统。文中首先引入了支持向量机概念,对支持向量机做了较全面的介绍;然后,讨论了图像特征的描述和提取方法,对图像的颜色矩特征做了详细的描述,对svm分类也做了详细的说明;最后讨论了由分类结果所表现的一些问题。测试结果表明,利用图像颜色矩特征的分类方法是可行的,并且推断出采用综合特征方法比采用单一特征方法进行分类得到的结果要更令人满意。 关键词:支持向量机图像分类特征提取颜色矩

Abstract The support vector machine (SVM) method is based on statistical learning theory foundation, overcome the neural network classification and traditional statistical classification method of faults, and has high generalization performance. But, because the support vector machine (SVM) is still in the development stage, many still not perfect, the existing results more limited to the theoretical analysis, and the use of appear more weak and therefore study and improve the use of support vector machines to image classification support vector machine to further advance in the application of image analysis play a positive role in promoting. In this paper, support vector machine (SVM) technology and image feature extraction technology implements a image classification experiment system. This paper first introduces the concept of support vector machine (SVM), the support vector machine (SVM) made a more comprehensive introduction; Then, discussed the image characteristics of description and extraction method, the image color moment features described in detail, also made detailed instructions for the SVM classification; Finally discussed the classification results of some problems. Test results show that using the torque characteristics of the image color classification method is feasible, and deduce the comprehensive characteristic method than using single feature method to classify the results are more satisfactory. Keywords: support vector machine image classification feature extraction Color Moment

基于自适应特征选择和SVM的图像分类的研究

第27卷第1期计算机应用与软件V01.27No.12010年1月ComputerApplicationsandSoftwareJan.2010 基于自适应特征选择和SVM的图像分类的研究 潘崇朱红斌 (丽水学院计算机与信息工程学院浙江丽水323000) 摘要提出多特征结合的图像分类方法,分别提取颜色特征和LBP纹理特征,同时提出Adaboost算法对特征进行选择,选择最能表示图像的特征,这样既降低了特征的维数,又提高了分类的精度。最后对基于SVM的多类图像分类方法进行了研究,提出在二类支持向量机的基础上构造多类分类器的方法,实验结果表明,提出的方法能够很好地用于图像分类。 关键词图像分类支持向量机特征选择Adaboost算法 oNIMAGECLASSIFICATIONBASEDoNADAPTIVEFEATURESELECTIoN ANDSUPPORTVECTORMACHINE PanChongZhuHongbin (CollegeofComputerandInformationEngineering,LishuiUniversity,Lishui 323000,撕昭,China) AbstractAnimageclassificationmethodofmulti.featuremergeneeisproposedinthispaper,itextractsrespectivelythecolourfeatureandLBPtexturefeature,meanwhileAdaboostalgorithmisputforwardforfeatureselecting.Bychoosingthefeaturewhichrepresentsimagethebest.itc明bothreducefeature’Sdimensionandimproveclassificationprecision.Intheendofthispaper,themethodofmulti。classimageclas?sificationbasedonsupportvectormachineisstudied,andtheapproachofconstructingthemulti-classclassifierbasedontwo。classSVMisproposed.Experimentalresultsshowthattheproposedapproach hasgoodperformanceinimageclassification? KeywordsImageclassificationSupportvectormachineFeatureselectionAdaboostalgorithm 0引言 随着数字图像处理技术的发展和实际应用的需要,图像分类识别技术应运而生。例如从遥感图像中识别出各种农作物、森林资源、矿产资源等,用人工地震波形图寻找有油的岩层结构,根据医学x光图像分析各种病变,邮政系统中的信函自动分拣等等,都需要对图像中的各种对象进行区别分类。图像的计算机分类,是模式识别技术在图像领域中的具体运用,它的目的是研制能够自动处理图像信息的计算机系统,以便代替人们完成图像的分类和识别的任务【1.21。 基于内容的|冬I像分类对图像数据库的检索、图像过滤、图像识别等具有霞要意义,研究人员已做了一些有意义的工作。文献[3]中基于图像的颜色和主方向特征利用KNN分类器实现了室内/室外的图像分类。文献[4]使用支持向量机分类器实现r基于颜色直方图的图像分类系统。文献[5]中利用Bayes-tan分类器实现了基于空间颜色矩和边缘方向直方图的室内/室外、城市/自然风景图像分类。这些方法都只用到了图像的颜色特征,由于各种对象的复杂性以及干扰因素的多样性,使得这些分类方法的分类精度较低。 本文提出多特征结合的图像分类方法,分别采用颜色特征和LBP纹理特征,同时采用Adaboost对特征进行选择,选择最能表示图像的特征,这样既降低了特征的维数,又提高J,分类的精度。最后提fIj在一类支持向量机的基础|二构造多类分类器的方法,实验表明,提出的方法具有良好的分类性能。1自适应特征选择 1.1特征 本文采用二种不同类型特征空间中的特征:颜色特征和LBP纹理特征。这二种特征均可以进行快速计算。 1.1.1颜色特征 我们采用文献[6]据出的颜色特征空间中的方法,颜色特征空间: Fl兰{埘1R+硼2G+tl,381wj∈[一2,一1,0,+I,+2]}(1)式中埘。对应于一2到2之间的整数,这样的组合可以达到53种,但最终选择了其中的49种特征作为我们的颜色特征旧1。 1.1.2LBP纹理特征 LBP(1_x,calbinarypaRern)"1作为纹理算子可以很好地用来分析图像纹理特征。假定给定图像函数l(x,Y),为了刻画图像像素点在某邻域内的灰度变化,考虑像素点的mxm邻域,LBP纹理算子计算公式如下: 2m一1 LBP(x。,儿)=∑s(,P一,c)2’ 其中Ic、L分别为中心(‰,Y。)处及邻域内各像素点的灰度值,s(茁)为一个二值函数,定义如下: 收稿日期:2008—08—23。潘崇,硕士,主研领域:图形图像,嵌入式系统。 万方数据

相关文档
最新文档