机器学习算法总结_决策树(含代码)

第六章提升算法

6.1 引言

当做重要决定时，大家可能都会考虑吸取多个专家而不是一个人的意见。机器学习处理问题时也是如此，这就是提升算法背后的思路，提升算法是对其它算法进行组合的一种方式，接下来我们将对提升算法，以及提升算法中最流行的一个算法AdaBoost 算法进行介绍，并对提升树以及简单的基于单层决策树的Adaboost 算法进行讨论。

提升方法是一种常用的统计学习方法，应用广泛且有效，在分类问题上，它通过改变训练样本的权重，学习多个分类器，并将这些分类器进行线性组合，提高分类性能。一个分类器在训练数据上能够获得比其他分类器更好的拟合，但是在训练数据外的数据集上却不能很好的拟合数据，这时就称为该分类器出现了过拟合（overfitting ）。提升算法能够有效地防止过拟合现象的发生。

图1 过拟合现象示意图

提升算法是一种为了拟合自适应基函数模型（adaptive basis-function models, ABM ）的贪心算法，自适应基函数模型可表达为：

()()01M

m m m f X w w X φ==+∑ （6-1）

其中，m φ是一种分类算法或者回归算法，被称为弱分类器（weak learner ）或者基分类器（base learner ）。也可以表达为如下形式：

1()(;)M

m m m f X b X βγ==∑ （6-2）

提升算法的目的是对以下公式的优化：

min (,())N

i i f

i L y f x =∑ （6-3）

其中，?(,)L y y 称为损失函数（loss function ），f 是ABM 模型。不同的损失函数有着不同

的性质，对应不同的提升算法，如表1所示。

将(2)式代入(3)式可得如下表达式：

,11min ,(;)m m

i m i m i m L y x βγβφγ==??

???

∑∑ （6-4）因为学习的是加法模型，如果能够从前向后，每一步只学习一个基分类器及其系数，那

么就可以简化优化的复杂度，具体推导过程如下所示：

(),1

min ,(;)m m

i m i m i L y x βγβφγ=∑ （6-5）

表1 常见损失函数以及相应提升算法

名称损失函数

导数

算法平方误差 21

(())2

i i y f x - ()i i y f x -

[]|i y x E

L2Boosting 绝对误差 ()i i y f x -

sgn(())

i i y f x -

(|)i median y x

Gradient boosting 指数损失 ()

exp ()i i y f x -

()

exp ()i i i y y f x --

log 21i i ππ- AdaBoost 对数损失

()log 1i i

y f e -+

i i y π-

log 21i i

ππ-

LogitBoost

()arg min (,(;))N

i i i f X L y f x γ

γ==∑ （6-6）

1,1

(,)argmin (,()(;))N

m m i m i i i L y f x x βγ

βγβφγ-==+∑ （6-7）

1()()(;)m m m m f X f X X βφγ-=+ （6-8）

算法不进行回溯对参数进行修改，因此该算法称为前向分步算法。

6.2 AdaBoost 算法

AdaBoost （Adaptive boosting ）算法，也称为自适应提升算法。训练数据中的每个样本，并赋予其一个权重，这些权重构成向量D 。一开始，这些权重都初始化为相等值，首先

在训练数据上训练出一个弱分类器并计算该分类器的错误率，然后在同一数据集上再次训练弱分类器。再次训练分类器的过程中，将会重新调整每个样本的权重，其中上一次分对的样本权重会降低，而上一次分错的样本权重会提高。

图2 AdaBoost 算法示意图

给定一个二类分类的训练数据集1122{(,),(,),,(,)}N N T x y x y x y =，其中，每个样本点由实例

与标记组成，实例n i x R χ∈?，标记{1,1}i y Y ∈=-+，χ是实例空间，Y 是标记集合。损失函数可以表达为：

1,1

()exp[(()())]exp(())N N

m i m i i i m i i i i L y f x x w y x φβφβφ-===-+=-∑∑ （6-9）

其中，,1exp(())i m i m i w y f x --，{}1,1i y ∈-+，则可以有如下推导：

()

,,,,()

()

()(())i i i i N N

m i m i m i m i i i m

y x y x i i L e w e w e e w I y x e w β

ββ

βφ

φφ---=≠===+=-≠+∑∑∑∑ （6-10）

其中，11

log

2m m m

err err β-=，,1,1(())

i m i m i i m N i m

i w I y x err w φ==≠=∑∑，m

err 称为分类误差率。则可以得到第

m 个分类器：

1()()()m m m f X f X X βφ-=+ （6-11）

计算第m+1个分类器的参数可以通过下式得到：

()(2(())1)2(()),1,,,m i m i m i m i m i m i m y x I y x I y x i m i m i m i m w w e w e w e e βφβφβφβ-≠-≠-+=== （6-12）

总结起来Adaboost 算法主要有以下7步。 1 1i w N = 2 for 1:m M =do

3 Fit a classifier ()m X φ to the training set using weights w

4 Compute ,11(())

i m i m i i m N i

i w I y x err w φ==≠=∑∑

5 Compute 1log (2)m

m m m m

err err ααβ-== 6 Set (())

m i m i I y x i i w w e α

φ≠←

7 Return 1()sgn ()M

m m m f x X αφ=?

?=??

∑ 算法结束条件是训练错误率为0或者弱分类器数目达到用户指定的值。在具体应用AdaBoost 算法时，可以将其总结为以下的一般流程：

(1) 收集数据：可以使用任意方法；

(2) 准备数据：依赖于所使用弱分类器的类型，这里k-近邻、决策树、朴素贝叶斯、逻辑

回归、支持向量机等任意分类算法都可以作为本部分弱分类器； (3) 分析数据：可使用任意方法；

(4) 训练算法：AdaBoost 算法大部分时间都用在训练上，分类器将多次在同一数据集上训练弱分类器； (5) 测试算法：计算分类错误率；

(6) 使用算法：同支持向量机类似，AdaBoost 算法预测两个类别中的一个，如果想应用多分类，需要做与支持向量机类似的相应修改。

6.3 提升树

分类与回归树（Classification and regression trees, CART ）又称为决策树（decision tree ），使用分类数与回归树作为基本分类器的提升方法，称为提升树（Boosting tree ）。

图3 决策树示意图

决策树模型将空间分为数个互不相交的区域,1,,j R j J =，每一个区域作为树的叶子节点，并为每个区域分配一个参数j γ：

()j j

x R f x γ∈?= （6-13）

因此决策树则可以表达为如下形式：

()()1;J

j j j T x I x R γ=Θ=∈∑ （6-14）

其中，1{,}J j j R γΘ=，该参数由最小化经验风险计算得到：

1arg min (,)j j

j j j x R L y γΘ

=∈Θ=∑

∑

（6-15）

决策树模型是一种传统的学习方法，易于被理解，相比较人工神经网络，我们能够清晰地了解如何构建决策树，而且决策树模型无信息丢失。但是决策树模型也存在不稳定的缺点，训练样本较小的变化会导致结果的较大差异。为解决这一问题，研究者主要通过提升算法来对决策树模型进行优化，即所谓的提升树（Boosting tree ），其基本算法思路为，构建多个决策树，多个决策树决策结果的加权平均对样本的变化不敏感。

提升树模型是一系列的决策树的和：

()1();M

M m m f x T x ==Θ∑ （6-16）

引入前向分步算法：

11?argmin (,()(;))m

m i m i i m

i L y f x T x -Θ=Θ=+Θ∑ （6-17）已知1()m f x -求得1{,}m

J m jm jm R γΘ=，已知jm R 求jm γ：

1?arg min

(,())jm

i jm

jm i m i jm x R L y f x γγγ-∈=+∑

（6-18）

6.4 基于单层决策树的AdaBoost 算法

单层决策树（decision stump ，也称决策树桩）是一种简单的决策树，仅基于单个特征来做决策，由于这棵树只有一次分裂过程，因此它实际上就是一个树桩。利用Python 对单

层决策树进行实现，代码如下：

def stumpClassify(dataMatrix,dimen,threshVal,threshIneq): retArray = ones((shape(dataMatrix)[0],1)) if threshIneq == 'lt':

retArray[dataMatrix[:,dimen] <= threshVal] = -1.0 else:

retArray[dataMatrix[:,dimen] > threshVal] = -1.0 return retArray

def buildStump(dataArr,classLabels,D):

dataMatrix = mat(dataArr); labelMat = mat(classLabels).T m,n = shape(dataMatrix)

numSteps = 10.0; bestStump = {}; bestClasEst = mat(zeros((m,1)))

minError = inf

for i in range(n):

rangeMin = dataMatrix[:,i].min(); rangeMax = dataMatrix[:,i].max();

stepSize = (rangeMax-rangeMin)/numSteps

for j in range(-1,int(numSteps)+1):

for inequal in ['lt', 'gt']:

threshVal = (rangeMin + float(j) * stepSize)

predictedVals = stumpClassify(dataMatrix,i,threshVal,inequal)

errArr = mat(ones((m,1)))

errArr[predictedVals == labelMat] = 0

weightedError = D.T*errArr

if weightedError < minError:

minError = weightedError

bestClasEst = predictedVals.copy()

bestStump['dim'] = i

bestStump['thresh'] = threshVal

bestStump['ineq'] = inequal

return bestStump,minError,bestClasEst

上述程序包含两个函数。第一个函数stumpClassfy()是通过阈值比较对数据进行分类的，所有的阈值一边的数据会分到类别-1，而在另一边的数据分到类别+1.该函数可以通过数组过滤来实现，首先将返回数组的全部元素设置为1，然后将所有不满足不等式要求的元素设置为-1，可以给予数据集中的任意元素进行比较，同时也可以将不等号在大于、小于之间切换。

第二个函数buildStump()将会遍历stumpClassfy()函数所有可能的输入，并找到数据集上最佳的单层决策树。在确保输入数据符合矩阵格式之后，整个函数就开始执行了，然后函数将构建一个称为bestStump的空字典，这个字典用语存储给定权重向量D时所得到的最佳单层决策树的相关信息。变量numSteps用于在特征的所有可能值上进行遍历。而变量minError则在一开始就初始化成正无穷大，之后用语寻找可能的最小错误率。

三层嵌套的for循环是程序最主要的部分。第一层for循环在数据集所有特征上遍历。考虑到数值型的特征，我们就可以通过计算最小值和最大值来了解应该需要多大的不畅。然后，第二层for循环再在这些值上遍历。甚至将阈值设置为整个取值范围之外也是可以的。因此在取值范围之外还应该有两个额外的步骤，最后一个for循环则是在大于和小于之间切换不等式。

上述单层决策树的生成函数是决策树的一个简化版本，即是所谓的弱学习器（弱分类器）。到现在为止，我们已经建立了单层决策树，并生成了程序，做好了过渡到完整AdaBoost算法，如下所示：

def adaBoostTrainDS(dataArr,classLabels,numIt=40):

weakClassArr = []

m = shape(dataArr)[0]

D = mat(ones((m,1))/m) #init D to all equal

aggClassEst = mat(zeros((m,1)))

for i in range(numIt):

bestStump,error,classEst = buildStump(dataArr,classLabels,D)

alpha = float(0.5*log((1.0-error)/max(error,1e-16)))

bestStump['alpha'] = alpha

weakClassArr.append(bestStump)

expon = multiply(-1*alpha*mat(classLabels).T,classEst)

D = multiply(D,exp(expon))

D = D/D.sum()

aggClassEst += alpha*classEst

aggErrors = multiply(sign(aggClassEst) != mat(classLabels).T,ones((m,1)))

errorRate = aggErrors.sum()/m

print "total error:",errorRate

if errorRate == 0.0: break

return weakClassArr

伪代码可以简单总结为以下步骤：

对每次迭代：

利用buildStump( )函数找到最佳的单层决策树

将最佳单层决策树加入到单层决策树组

计算alpha

计算新的权重向量D

更新累积类别估计值

如果错误率等于0.0，则退出循环

该AdaBoost算法的输入参数包括数据集、类别标签以及迭代次数numIt，其中numI是在整个AdaBoost算法中唯一需要用户指定的参数。AdaBoost算法的核心在于for循环，该循环运行numIt次，或者知道训练错误率为0为止。循环中的第一件事就是利用前面介绍的buildStump()函数建立一个单层决策树，同时返回的还有最小的错误率以及估计的类别向量。

然后则需要计算的则是alpha值，该值会告诉总分类器本次单层决策树输出结果的权重，其中的语句max(error, 1e-16)用语确保在没有错误时，不会发生除零溢出，而后，alpha值加入到bestStump字典中，该字典又添加到列表中。该字典包含分类所需要的所有信息。接下来则是计算下一次迭代中的新权重向量D，在训练错误率为0时则提前结束for 循环。图4则为我们所得到的一组弱分类器及其权重。

图4 弱分类器

如图5所示，为不同弱分类器数，所得的分类结果，可以看到，弱分类器越多，在训练集上分类错误率越低，分类效果越好，但是并不是弱分类器越多，对测试数据的分类效果越好。

图5 不同数量弱分类器分类结果

6.5 小结

提升方法通过组合多个弱分类器的分类结果，获得了比简单的单分类器更好的分类结果。目前还存在利用不同分类器的集成方法，但是本章仅介绍了利用同一分类器的集成方法。

多个分类器组合可能会进一步凸显单分类器的不足，比如过拟合问题。如果分类器之间差别显著，那么多个分类器组合就可能会缓解这一问题。分类器之间的差别可以使算法本身

或者是应用于算法上的数据的不同。

决策树算法研究及应用概要

决策树算法研究及应用? 王桂芹黄道华东理工大学实验十五楼206室摘要:信息论是数据挖掘技术的重要指导理论之一,是决策树算法实现的理论依据。决策树算法是一种逼近离散值目标函数的方法,其实质是在学习的基础上,得到分类规则。本文简要介绍了信息论的基本原理,重点阐述基于信息论的决策树算法,分析了它们目前主要的代表理论以及存在的问题,并用具体的事例来验证。关键词:决策树算法分类应用 Study and Application in Decision Tree Algorithm WANG Guiqin HUANG Dao College of Information Science and Engineering, East China University of Science and Technology Abstract:The information theory is one of the basic theories of Data Mining,and also is the theoretical foundation of the Decision Tree Algorithm.Decision Tree Algorithm is a method to approach the discrete-valued objective function.The essential of the method is to obtain a clas-sification rule on the basis of example-based learning.An example is used to sustain the theory. Keywords:Decision Tree; Algorithm; Classification; Application 1 引言决策树分类算法起源于概念学习系统CLS(Concept Learning System,然后发展到ID3

人工智能之机器学习常见算法

人工智能之机器学习常见算法摘要机器学习无疑是当前数据分析领域的一个热点内容。很多人在平时的工作中都或多或少会用到机器学习的算法。这里小编为您总结一下常见的机器学习算法，以供您在工作和学习中参考。机器学习的算法很多。很多时候困惑人们都是，很多算法是一类算法，而有些算法又是从其他算法中延伸出来的。这里，我们从两个方面来给大家介绍，第一个方面是学习的方式，第二个方面是算法的类似性。学习方式根据数据类型的不同，对一个问题的建模有不同的方式。在机器学习或者人工智能领域，人们首先会考虑算法的学习方式。在机器学习领域，有几种主要的学习方式。将算法按照学习方式分类是一个不错的想法，这样可以让人们在建模和算法选择的时候考虑能根据输入数据来选择最合适的算法来获得最好的结果。监督式学习：在监督式学习下，输入数据被称为训练数据，每组训练数据有一个明确的标识或结果，如对防垃圾邮件系统中垃圾邮件非垃圾邮件，对手写数字识别中的1，2，3，4等。在建立预测模型的时候，监督式学习建立一个学习过程，将预测结果与训练数据的实际结果进行比较，不断的调整预测模型，直到模型的预测结果达到一个预期的准确率。监督式学习的常见应用场景如分类问题和回归问题。常见算法有逻辑回归（LogisTIc Regression）和反向传递神经网络（Back PropagaTIon Neural Network）非监督式学习：在非监督式学习中，数据并不被特别标识，学习模型是为了推断出数据的一些内在结构。常见的应用场景包括关联规则的学习以及聚类等。常见算法包括Apriori算法以及k-Means 算法。半监督式学习：在此学习方式下，输入数据部分被标识，部分没有被标识，这种学习模型可以用来进行预

决策树算法介绍(DOC)

3.1 分类与决策树概述 3.1.1 分类与预测分类是一种应用非常广泛的数据挖掘技术，应用的例子也很多。例如，根据信用卡支付历史记录，来判断具备哪些特征的用户往往具有良好的信用；根据某种病症的诊断记录，来分析哪些药物组合可以带来良好的治疗效果。这些过程的一个共同特点是：根据数据的某些属性，来估计一个特定属性的值。例如在信用分析案例中，根据用户的“年龄”、“性别”、“收入水平”、“职业”等属性的值，来估计该用户“信用度”属性的值应该取“好”还是“差”，在这个例子中，所研究的属性“信用度”是一个离散属性，它的取值是一个类别值，这种问题在数据挖掘中被称为分类。还有一种问题，例如根据股市交易的历史数据估计下一个交易日的大盘指数，这里所研究的属性“大盘指数”是一个连续属性，它的取值是一个实数。那么这种问题在数据挖掘中被称为预测。总之，当估计的属性值是离散值时，这就是分类；当估计的属性值是连续值时，这就是预测。 3.1.2 决策树的基本原理 1.构建决策树通过一个实际的例子，来了解一些与决策树有关的基本概念。表3-1是一个数据库表，记载着某银行的客户信用记录，属性包括“姓名”、“年龄”、“职业”、“月薪”、......、“信用等级”，每一行是一个客户样本，每一列是一个属性（字段）。这里把这个表记做数据集D。银行需要解决的问题是，根据数据集D，建立一个信用等级分析模型，并根据这个模型，产生一系列规则。当银行在未来的某个时刻收到某个客户的贷款申请时，依据这些规则，可以根据该客户的年龄、职业、月薪等属性，来预测其信用等级，以确定是否提供贷款给该用户。这里的信用等级分析模型，就可以是一棵决策树。在这个案例中，研究的重点是“信用等级”这个属性。给定一个信用等级未知的客户，要根据他/她的其他属性来估计“信用等级”的值是“优”、“良”还是“差”，也就是说，要把这客户划分到信用等级为“优”、“良”、“差”这3个类别的某一类别中去。这里把“信用等级”这个属性称为“类标号属性”。数据集D中“信用等级”属性的全部取值就构成了类别集合：Class={“优”，

机械优化设计复习总结.doc

1. 优化设计问题的求解方法:解析解法和数值近似解法。解析解法是指优化对象用数学方程（数学模型）描述，用数学解析方法的求解方法。解析法的局限性：数学描述复杂，不便于或不可能用解析方法求解。数值解法：优化对象无法用数学方程描述，只能通过大量的试验数据或拟合方法构造近似函数式，求其优化解；以数学原理为指导，通过试验逐步改进得到优化解。数值解法可用于复杂函数的优化解，也可用于没有数学解析表达式的优化问题。但不能把所有设计参数都完全考虑并表达，只是一个近似的数学描述。数值解法的基本思路：先确定极小点所在的搜索区间，然后根据区间消去原理不断缩小此区间，从而获得极小点的数值近似解。 2. 优化的数学模型包含的三个基本要素：设计变量、约束条件（等式约束和不等式约束）、目标函数（一般使得目标函数达到极小值）。 3. 机械优化设计中，两类设计方法：优化准则法和数学规划法。优化准则法：x ;+, = c k x k （为一对角矩阵）数学规划法：X k+x =x k a k d k {a k \d k 分别为适当步长\某一搜索方向一一数学规划法的核心） 4. 机械优化设计问题一般是非线性规划问题，实质上是多元非线性函数的极小化问题。重点知识点：等式约束优化问题的极值问题和不等式约束优化问题的极值条件。 5. 对于二元以上的函数，方向导数为某一方向的偏导数。函数沿某一方向的方向导数等于函数在该点处的梯度与这一方向单位向量的内积。梯度方向是函数值变化最快的方向（最速上升方向），建议用单位向暈表示，而梯度的模是函数变化率的最大值。 6. 多元函数的泰勒展开。 7. 极值条件是指目标函数取得极小值吋极值点应满足的条件。某点取得极值，在此点函数的一阶导数为零，极值点的必要条件：极值点必在驻点处取得。用函数的二阶倒数来检验驻点是否为极值点。二阶倒数大于冬，取得极小值。二阶导数等于零时，判断开始不为零的导数阶数如果是偶次，则为极值点，奇次则为拐点。二元函数在某点取得极值的充分条件是在该点岀的海赛矩阵正定。极值点反映函数在某点附近的局部性质。 8. 凸集、凸函数、凸规划。凸规划问题的任何局部最优解也就是全局最优点。凸集是指一个点集或一个区域内，连接英中任意两点的线段上的所有元素都包含在该集合内。性质：凸集乘上某实数、两凸集相加、两凸集的交集仍是凸集。凸函数：连接凸集定义域内任意两点的线段上，函数值总小于或等于用任意两点函数值做线性内插所得的值。数学表达:/[^+（l-a ）x 2]