最小二乘法的综述及算例

最小二乘法的综述及算例
最小二乘法的综述及算例

题目:最小二乘法的综述及算例院系:航天学院自动化

班级:

学号:

学生签名:

指导教师签名:

日期:2011年12月6日

目录

1.综述 (3)

2.概念 (3)

3.原理 (4)

4.算例 (6)

5.总结 (10)

参考文献 (10)

1.综述

最小二乘法最早是由高斯提出的,这是数据处理的一种很有效的统计方法。高斯用这种方法解决了天文学方面的问题,特别是确定了某些行星和彗星的天体轨迹。这类天体的椭圆轨迹由5个参数确定,原则上,只要对它的位置做5次测量就足以确定它的整个轨迹。但由于存在测量误差,由5次测量所确定的运行轨迹极不可靠,相反,要进行多次测量,用最小二乘法消除测量误差,得到有关轨迹参数的更精确的值。最小二乘法近似将几十次甚至上百次的观察所产生的高维空间问题降到了椭圆轨迹模型的五维参数空间。

最小二乘法普遍适用于各个科学领域,它在解决实际问题中发挥了重要的作用。它在生产实践、科学实验及经济活动中均有广泛应用。比如说,我们引入等效时间的概念,根据Arrhenius 函数和指数函数研究水化热化学反应速率随温度的变化,最后采用最小二乘法回归分析试验数据,确定绝热温升和等效时间的关系式。

为了更好地掌握最小二乘法,我们引入以下两个问题:

(1)假设已知一组二维数据(i i y x ,),(i=1,2,3···n ),怎样确定它的拟合曲线y=f(x)(假设为多项式形式f(x)=n n x a x a a +++...10),使得这些点与曲线总体来说尽量接近?

(2)若拟合模型为非多项式形式bx

ae y =,怎样根据已知的二维数据用最小二乘线性拟合确定其系数,求出曲线拟合函数? 怎样从给定的二维数据出发,寻找一个简单合理的函数来拟合给定的一组看上去杂乱无章的数据,正是我们要解决的问题。

2.概念

在科学实验的统计方法研究中,往往要从一组实验数(i i y x ,)(i=1,2,3···m )中寻找自变量x 与y 之间的函数关系y=F(x).由于观测数据往往不准确,此时不要求y=F(x)经过所有点(i i y x ,),而只要求在给定i x 上误差i δ=F (i x )i y -(i=1,2,3···m )按某种标准最小。

若记δ=(

)δδδm

T

2

,1,就是要求向量δ的范数δ

最小。如果用最大范数,计算上困

难较大,通常就采用Euclid 范数2

δ

作为误差度量的标准。

关于最小二乘法的一般提法是:对于给定的一组数据(i i y x ,) (i=0,1,…m)要求在函数空间Φ=span{

n ???,....,,10}中找一个函数S*(x),使加权的误差平方和22

δ

=

2

)

)()((i

i

m

i i

y x S x -∑=ω最小,其中,0)(>=i x ω是[a,b]上的权函数,

它表示反应数据(i i y x ,)在实验中所占数据的比重。

我们说,S(x)=)()()(1100x a x a x a n n ???+++ (n

在研究两个变量之间的关系时,可以用回归分析的方法进行分析。当确定了描述两个变

量之间的回归模型后,就可以使用最小二乘法估计模型中的参数,进而建立经验方程。 为了通过试验数据来估计参数的值,可以采用许多统计方法,而最小二乘法是目前最常用、最基本的。

3.原理

1.最小二乘法原理

简单地说,最小二乘的思想就是要使得观测点和估计点的距离的平方和达到最小.这里的“二乘”指的是用平方来度量观测点与估计点的远近(在古汉语中“平方”称为“二乘”),“最小”指的是参数的估计值要保证各个观测点与估计点的距离的平方和达到最小.

在我们研究两个变量(x, y)之间的相互关系时,通常可以得到一系列成对的数据(x1, y1.x2, y2... xm , ym);将这些数据描绘在x -y 直角坐标系中,若发现这些点在一条直线附近,可以令这条直线方程如(式1-1)。 Y= a0 + a1 X (式1-1) 其中:a0、a1 是任意实数

为建立这直线方程就要确定a0和a1,应用《最小二乘法原理》,将实测值Yi与利用(式1-1)计算值(Y=a0+a1X)的离差(Yi-Y计)的平方和〔∑(Yi - Y计)2〕最小为“优化判据”。

令:

φ = ∑(Yi - Y计)2 (式1-2)

把(式1-1)代入(式1-2)中得:

φ = ∑(Yi - a0 - a1 Xi)2 (式1-3)

当∑(Yi-Y)平方最小时,可用函数φ 对a0、a1求偏导数,令这两个偏导数等于零。

亦即:

m a0 + (∑Xi ) a1 = ∑Yi (式1-4)

(∑Xi ) a0 + (∑Xi2 ) a1 = ∑(Xi, Yi) (式1-5)

得到的两个关于a0、a1为未知数的两个方程组,解这两个方程组得出:

a0 = (∑Yi) / m - a1(∑Xi) / m (式1-6)

a1 = [m∑Xi Yi - (∑Xi ∑Yi)] / [m∑Xi2 - (∑Xi)2 )] (式1-7)

这时把a0、a1代入(式1-1)中,此时的(式1-1)就是我们回归的元线性方程即:数学模型。

在回归过程中,回归的关联式是不可能全部通过每个回归数据点(x1, y1. x2, y2...xm,ym),为了判断关联式的好坏,可借助相关系数“R”,统计量“F”,剩余标准偏差“S”进行判断;“R”越趋近于 1 越好;“F”的绝对值越大越好;“S”越趋近于0 越好。

R = [∑XiYi - m (∑Xi / m)(∑Yi / m)]/ SQR{[∑Xi2 - m (∑Xi / m)2][∑Yi2 - m (∑Yi / m)2]} (式1-10) *

在(式1-1)中,m为样本容量,即实验次数;Xi、Yi分别任意一组实验X、Y的数值。

从计算的角度看,最小二乘法与插值法类似,都是处理数据的算法.但从创设的思想看,二者却有本质的不同。前者寻求一条曲线,使其与观测数据“最接近”,目的是代表观测数据的趋势;后者则是使曲线严格通过给定的观测数据,其目的是通过来自函数模型的数据来近似刻画该函数.在观测数据带有测量误差的情况下,就会使得这些观测数据偏离函数曲线,结果使得与观测数据保持一致的插值法不如最小二乘法得到的曲线更符合客观实际。

最小二乘法公式

∑(X--X平)(Y--Y平)=∑(XY--X平Y--XY平+X平Y平)=∑XY--X平∑Y--Y平∑X+nX 平Y平=∑XY--nX平Y平--nX平Y平+nX平Y平=∑XY--nX平Y平

∑(X --X平)^2=∑(X^2--2XX平+X平^2)=∑X^2--2nX平^2+nX平^2=∑X^2--nX平^2

Y=kX+b: k=((XY)平--X平*Y平)/((X^2)平--(X平)^2);b=Y平--kX平X平=1/n∑Xi;(XY)平=1/n∑XiYi

2.什么时候用最小二乘法

在研究两个变量之间的关系时,可以用回归分析的方法进行分析。当确定了描述两个变量之间的回归模型后,就可以使用最小二乘法估计模型中的参数,进而建立经验方程.

例如,在现实世界中,这样的情形大量存在着:两个变量X和Y(比如身高和体重)彼此有一些依赖关系,由X可以部分地决定Y的值,但这种关系又是不确定的.人们常常借助

统计学中的回归模型来寻找两个变量之间的关系,而模型的建立当然是依据观测数据.首先通过试验或调查获得x 和Y 的一组对应关系(x 1,Y 1),(x 2,Y 2),…,(x n ,Y n ),然后回答下列5个问题:

1. 这两个变量是否有关系?(画出散点图,作直观判断)

2. 这些关系是否可以近似用函数模型来描述?(利用散点图、已积累的函数曲线形状的知识和试验数据,选择适当的回归模型,如一元线性模型y =b 0+b 1x ,二次函数模型y =b 0+b 1x +b 2x 2

等)

3. 建立回归模型.

4. 对模型中的参数进行估计,最小二乘法是这些参数的一种常用估计方法.

5. 讨论模型的拟合效果.

在上述第3步中,设所建立的回归模型的一般形式是εθ+=

)|(x f Y ,其中Y 称

为响应变量,x 称为解释变量或协变量;)|(θx f 是一个由参数θ决定的回归函数;ε是一个不可观测的随机误差.为了通过试验数据来估计参数θ的值,可以采用许多统计方法,而最小二乘法是目前最常用、最基本的.由θ的估计值∧

θ决定的方程)|(∧

=θx f y 称为经

验回归方程或经验方程.

教科书中涉及的回归模型是最简单的一元线性模型

ε++=

x Y b b

10

此时模型的拟合效果可以通过Pearson 相关系数

来描述。事实上,在线性回归模型中可以证明相关指数等于相关系数的平方.

4.算例

例题一

一组测量数据{(i i y x ,),i=0,1,2,…,m},基于最小二乘原理,求得变量x 和y 之间的函数关系f(x,A),使它最佳地逼近已知数据。其中A=(n a a a ,...,,10)是一些待定参数。 为了是问题的提法更有一般性,通常把最小二乘法中的22

δ

都考虑为加权平方和,即

2

2δ=20

))()((i i m

i i y x f x -∑=ω

其中,0)(>=i x ω是[a,b]上的权函数,它表示反应数据(i i y x ,)在实验中所占数据的比重。 选择参数A 使得加权平方和最小,即求满足

0)(,))()((min ))(*)((2

2

>=-=-∑∑==i i

i m

i i i i m

i i x y x f x y x f x ωωω(1) 的f*(x)。

要使(1)最小,它转换为求多元函数

∑∑==-=m i n

j i i j j i n x f x a x a a a I 0

20

10])()()[(),,(?ω ,

的极小点),(*

*1*0n a a a 问题。 由求多远函数极值的必要条件,有

∑∑====-=??m i i k n j i i j j i k n k x x f x a x a I

00

).,,1,0(0)(])()()[(2 ??ω 若记∑==m

i i k i j i k j x x x 0

)()()(),(??ω??,

∑==≡=m

i k i k i i k n k d x x f x f 0

),,,1,0()()()(),( ?ω?

可改写为

∑===n

j k j k j

n k d a 0

).,,1,0(),( ??

(2)

此方程成为法方程。它也可以写成矩阵形式

????

????????====),(),(),(),(),(),(),(),(),(,),,,(,),,(,

10

1110

1010001010n n n n n n T

n T n G d d d d a a a a d Ga ?????????????????? ,其中

由于0?,1?n ? 线性无关,故0≠G ,方程组(2)存在唯一解

a

a k

k

*=(i=1,2,3···n ),

从而得到函数f(x)的最小二乘法解为

)()()()(**

1*10*0x a x a x a x S n n ???+++=

可以证明,这样得到的对于任何多项式形式的)(x S ,都有

∑∑==-≤-m

i i

i

i

m i i

i

i

x f x S x x f x S x 0

2

2

)]

()([*)()]()(*)[(ωω

故)(*x S 确实所求最小二乘解。

以上法方程是一种实现方法,对于多项式拟合,我们还可以这样求。

设f(x,A)=n n x a x a a +++...10 ,由最小二乘法确定其系数n a a a ,...,,10,假设每个数据点的权为 1 ,令20

1102

10)...(),...,,(i n i m

i m

i n i

n y x a x a a e

a a a -+++==∑∑==?最小,则有:

0)...(20

10=-+++=??∑=i m

i n i n j i j y x a a a x a ?

(j=0,1,2,…n ) 即:

i m

i m

i j i j n i

n j i

j i

y x x

a x a x

a ∑∑==++=+++0

1

10)...

得方程组:?????????

???????????=?????????????????????????

?????????

?

+∑∑∑∑∑∑∑∑∑∑∑=====+==+====m

i i n i m i i i m i i n m i n i m

i n i

m

i n i m

i n i m

i i

m i i

m

i n i

m

i i

y x y x y a a a a x x

x x x

x

x x m 00

0210020

101

10200

1

此方程称为多项式拟合的法方程。令

X=????

??????

??????????

+∑∑∑∑∑∑∑∑==+==+====m i n i m

i n i

m

i n i m

i n i m

i i

m i i

m

i n

i

m

i i

x x

x x x

x x x m 020

10

1

10200

1

Y=?????????

???????????∑∑∑===m i i n

i m i i

i m i i y x y x y 00

0 A=??????????????n a a a a 210 则得: XA=Y ,从而A=Y X 1

-

例题二

试根据上述数据定出经验公式).(τf y =

τm e k y =

解:由化学反应速度的理论知, 经验公式应取其中k , m 为待定常数.

对其取对数得k m y ln ln +=τ

k b m a X y Y ln ,,,ln 令====τ

b X a Y +=

因此a , b 应满足法方程组:

()a k k ∑=81

2τ()b k k ∑=+81

τ∑==8

1

ln k

k k y τ ()a k k ∑=81

τb 8+∑==8

1

ln k

k y 经计算得

994.2801081836=+b a 714.238108=+b a

解得: 364.4,104.0=-=b a

,57.78,104.0==-=∴b e k m

所求经验公式为

τ104.057.78-=e y

其均方误差为

135.07

1=M

通过计算确定某些经验公式类型的方法: 观测数据:),,1,0(),(n i y x i i =

),,2,1(,令11n i y y y x x x i i i i i i =-=?-=?++

,定值若

)1(≈??i

i

x y b x a y +=则考虑 ,定值ln ln 若

)2(≈??i

i

x y b x a y =则考虑

a x

b y ln ln ln 转化为+= 用最小二乘

法确定a,b

,定值ln 若

)3(≈??i

i

x y x b e a y =则考虑

a x

b y ln ln 转化为+=

5、总结

最小二乘法是指使因变量估计值与实测值间的相对误差平方和为最小。在研究两个变量之间的关系时,我们可以用回归分析的方法进行分析。当确定了描述两个变量之间的回归模型后,就可以使用最小二乘法估计模型中的参数,进而建立数学模型,然后通过MA TLAB 求解模型。

通过本文实例模型(非多项式形式bx

ae y =)的求解,我们学会了怎样从给定的二维数据出发,寻找一个简单合理的函数来拟合给定的一组看上去杂乱无章的数据。如何巧妙地运用最小二乘法解决数据拟合问题,这不仅对我们在今后的学习有一定的帮助,而且在生产实践、科学实验中也起到了一定的作用。

参考文献

[1] 李庆杨主编. 数值方法(第4版)[M].华中科技大学出版社,2006.

[2] 刘琼荪编. 数学实验 [M]. 北京:高等教育出版社,2004年7月. P135-P145.

[3]刘卫国等编注.MATLAB 程序设计教程(第一版)[M].北京:中国水利水电出版社,2005:1-300.

利用Eviews软件进行最小二乘法回归实例

例题中国居民人均消费支出与人均GDP(1978-2000),数据(例题1-2),预测,2001年人均GDP为4033.1元,求点预测、区间预测。(李子奈,p50)解答: 一、打开Eviews软件,点击主界面File按钮,从下拉菜单中选择Workfile。 在弹出的对话框中,先在工作文件结构类型栏(Workfile structure type)选择固定频率标注日期(Dated – regular frequency),然后在日期标注说明栏中(Date specification)将频率(Frequency)选为年度(Annual),再依次填入起止日期,如果希望给文件命名(可选项),可以在命名栏(Names - optional)的WF项填入自己选择的名称,然后点击确定。 此时建立好的工作文件如下图所示:

在主界面点击快捷方式(Quick)按钮,从下拉菜单中选空白数据组(Empty Group)选项。 此时空白数据组出现,可以在其中通过键盘输入数据或者将数据粘贴过来。 在Excel文件(例题1-2)中选定要粘贴的数据,然后在主界面中点击编辑(Edit)按钮,从下拉菜单中选择粘贴(Paste),数据将被导入Eviews软件。

将右侧的滚动条拖至最上方,可以在最上方的单元格中给变量命名。 二、估计参数 在主界面中点击快捷方式(Quick)按钮,从下拉菜单中选择估计方程(Estimate Equation) 在弹出的对话框中设定回归方程的形式。

在方程表示式栏中(Equation specification ),按照被解释变量(Consp )、常数项(c )、解释变量(Gdpp )的顺序填入变量名,在估计设置(Estimation settings )栏中选择估计方法(Method )为最小二乘法(LS – Least Squares ),样本(Sample )栏中选择全部样本(本例中即为1978-2000),然后点击确定,即可得到回归结果。 以上得到的回归结果可以表示为: 201.1190.3862(13.51)(53.47)Consp GDPP =+? 如果你试图关闭回归方程页面(或Eviews 主程序),这时将会弹出一个对话框,询问是否删除未命名的回归方程,如下图所示

最小二乘法及其应用..

最小二乘法及其应用 1. 引言 最小二乘法在19世纪初发明后,很快得到欧洲一些国家的天文学家和测地学家的广泛关注。据不完全统计,自1805年至1864年的60年间,有关最小二乘法的研究论文达256篇,一些百科全书包括1837年出版的大不列颠百科全书第7版,亦收入有关方法的介绍。同时,误差的分布是“正态”的,也立刻得到天文学家的关注及大量经验的支持。如贝塞尔( F. W. Bessel, 1784—1846)对几百颗星球作了三组观测,并比较了按照正态规律在给定范围内的理论误差值和实际值,对比表明它们非常接近一致。拉普拉斯在1810年也给出了正态规律的一个新的理论推导并写入其《分析概论》中。正态分布作为一种统计模型,在19世纪极为流行,一些学者甚至把19世纪的数理统计学称为正态分布的统治时代。在其影响下,最小二乘法也脱出测量数据意义之外而发展成为一个包罗极大,应用及其广泛的统计模型。到20世纪正态小样本理论充分发展后,高斯研究成果的影响更加显著。最小二乘法不仅是19世纪最重要的统计方法,而且还可以称为数理统计学之灵魂。相关回归分析、方差分析和线性模型理论等数理统计学的几大分支都以最小二乘法为理论基础。正如美国统计学家斯蒂格勒( S. M. Stigler)所说,“最小二乘法之于数理统计学犹如微积分之于数学”。最小二乘法是参数回归的最基本得方法所以研究最小二乘法原理及其应用对于统计的学习有很重要的意义。 2. 最小二乘法 所谓最小二乘法就是:选择参数10,b b ,使得全部观测的残差平方和最小. 用数学公式表示为: 21022)()(m in i i i i i x b b Y Y Y e --=-=∑∑∑∧ 为了说明这个方法,先解释一下最小二乘原理,以一元线性回归方程为例. i i i x B B Y μ++=10 (一元线性回归方程)

最小二乘法原理

最小二乘法原理 1. 概念 最小二乘法多项式曲线拟合,根据给定的m 个点,并不要求这条曲线精确地经过这些点,而是曲线y=f(x)的近似曲线y= φ(x)。 2. 原理 给定数据点pi(xi,yi),其中i=1,2,…,m 。求近似曲线y= φ(x)。并且使得近似曲线与y=f(x)的偏差最小。近似曲线在点pi 处的偏差δi= φ(xi)-yi ,i=1,2,...,m 。 常见的曲线拟合方法: 1. 是偏差绝对值最小 11min (x )y m m i i i i i φδφ===-∑∑ 2. 是最大的偏差绝对值最小 min max (x )y i i i i φδ?=- 3. 是偏差平方和最小 2211min ((x )y )m m i i i i i φδ?===-∑∑ 按偏差平方和最小的原则选取拟合曲线,并且采取二项式方程为拟合曲线的方法,称为最小二乘法。 推导过程: 1. 设拟合多项式为: 01...k k y a a x a x =+++ 2. 各点到这条曲线的距离之和,即偏差平方和如下: 2 2 011(...)m k i i k i i R y a a x a x =??=-+++??∑ 3. 为了求得符合条件的a 值,对等式右边求ak 偏导数,因而我们得到了: 011 2(...)0m k i k i i y a a x a x =??--+++=??∑ 011 2(...)0m k i k i i y a a x a x x =??--+++=??∑

…….. 0112( 0 k k i k i i y a a x a x x =??--+++=??∑ 4. 将等式简化一下,得到下面的式子 01111...n n n k i k i i i i i a n a x a x y ===+++=∑∑∑ 2 1011111...n n n n k i i k i i i i i i i a x a x a x y x +====+++=∑∑∑∑ …… 12011111...n n n n k k k k i i k i i i i i i i a x a x a x y x +====+++=∑∑∑∑ 5. 把这些等式表示成矩阵形式,就可以得到下面的矩阵: 11102111111121111.........n n n k i i i i i i n n n n k i i i i i i i i i n n n n k k k k k i i i i i i i i i n x x y a a x x x x y a x x x x y ===+====+====??????????????????????=?????????????????????? ∑∑∑∑∑∑∑∑∑∑∑ 6. 将这个范德蒙矩阵化简后得到: 0111122 21...1...1...k k k k n n n a y x x a y x x a y x x ??????????????????=????????????????????

偏最小二乘法

偏最小二乘法 ( PLS)是光谱多元定量校正最常用的一种方法 , 已被广泛应用 于近红外 、 红外 、拉曼 、核磁和质谱等波谱定量模型的建立 , 几乎成为光谱分析中建立线性定量校正模型的通用方法 〔1, 2〕 。近年来 , 随着 PLS 方法在光谱分析尤其是分子光谱如近红外 、 红外和拉曼中应用 的深入开展 , PLS 方法还被用来解决模式识别 、定量校正模型适用性判断以及异常样本检测等定性分析问题 。 由于 PLS 方法同时从光谱阵和浓度阵中提取载荷和得分 , 克服主成分分析 ( PCA)方法没有利用浓度阵的缺点 , 可有效降维 , 并消除光谱间可能存在的复共线关系 , 因此取得令人非常满意的定性分析结果 〔3 ~ 5〕 。 本文主要介绍PLS 方法在光谱定性分析方面的原理及应用 实例 。 偏最小二乘方法(PLS-Partial Least Squares))是近年来发展起来的一种新的多元统计分析法, 现已成功地应用于分析化学, 如紫外光谱、气相色谱和电分析化学等等。该种方法,在化合物结构-活性/性质相关性研究中是一种非常有用的手段。如美国Tripos 公司用于化合物三维构效关系研究的CoMFA (Comparative Molecular Field Analysis)方法, 其中,数据统计处理部分主要是PLS 。在PLS 方法中用的是替潜变量,其数学基础是主成分分析。替潜变量的个数一般少于原自变量的个数,所以PLS 特别适用于自变量的个数多于试样个数的情况。在此种情况下,亦可运用主成分回归方法,但不能够运用一般的多元回归分析,因为一般多元回归分析要求试样的个数必须多于自变量的个数。 §§ 6.3.1 基本原理 6.3 偏最小二乘(PLS ) 为了叙述上的方便,我们首先引进“因子”的概念。一个因子为原来变量的线性组合,所以矩阵的某一主成分即为一因子,而某矩阵的诸主成分是彼此相互正交的,但因子不一定,因为一因子可由某一成分经坐标旋转而得。 在主成分回归中,第一步,在矩阵X 的本征矢量或因子数测试中,所处理的仅为X 矩阵,而对于矩阵Y 中信息并未考虑。事实上,Y 中亦可能包含非有用的信息。所以很自然的一种想法是,在矩阵X 因子的测试中应同时考虑矩阵Y 的作用。偏最小二乘正是基于这种思想的一种回归方法。 偏最小二乘和主成分分析很相似,其差别在于用于描述变量Y 中因子的同时也用于描述变量X 。为了实现这一点,在数学上是以矩阵Y 的列去计算矩阵X 的因子,与此同时,矩阵Y 的因子则由矩阵X 的列去预测。其数学模型为: E P T X +'=F Q U Y +'=

最小二乘法及其应用

最小二乘法及其应用 最小二乘法是一个比较古老的方法,早在十八世纪,就由高斯首先创立并成功地应用于天文观测和大地的测量工作中。此后,近三百年来,它已被广泛应用于科学实验与工程技术中。随着现代电子计算机的普及与发展,这个古老的方法更加显示出其强大的生命力。 最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。最小二乘法还可以用于曲线拟合,其他一些优化问题也可通过最小化能量或最大化熵用最小二乘法来表达。 最小二乘法拟合曲线的基本原理是:成对等精度地测得一组数据x,只(i=l,2,…,n),试找出一条最佳的拟合曲线,使得这条拟合曲线上的各点的值与测量值的差的平方和在所有拟合曲线中最小。所谓“拟合”,即不要求所作的曲线完全通过所有的数据点,只要求所得的曲线能反映数据的基本趋势。曲线拟合的几何解释是:求一条曲线,使数据点均在离此曲线的上方或下方不远处。 用最小二乘法拟合的曲线较为精确,接近于实际曲线。因而,最小二乘法拟合曲线在实际生活和科学研究中有着重要的意义,并渗透到各个领域,在物理、气象、化学、医学等方面有着广泛的应用。例如,在物理方面,我们通常通过实验测得数据,然后根据这些实验数据拟合曲线,从而总结出某种现象的规律或者变化趋势,进而采取相应的措施避免或加强其变化程度。这对于指导我们了解物理现象,并深刻理解物理知识是非常有帮助的。又如,在气象方面,在温室效应的研究中,科学家们通过对1860年到1980年的11个地球平均温度增加值的分析,利用最小二乘法进行曲线拟合,通过精确计算,建立了地球平均温度增加值与时间之间的函数关系。从而得出在2080年左右,地球的平均温度会比1980年上升约6℃,从而会引起诸如冰川后退、海平面上升等一系列严重的环境问题。到时极地冰盖就会融化,从而引起大量的洪水泛滥和大片的陆地被淹没,这一认识对进行环境质量评价和提出保护地球的措施具有重要的理论意义。

1、曲线拟合及其应用综述

曲线拟合及其应用综述 摘要:本文首先分析了曲线拟合方法的背景及在各个领域中的应用,然后详细介绍了曲线拟合方法的基本原理及实现方法,并结合一个具体实例,分析了曲线拟合方法在柴油机故障诊断中的应用,最后对全文内容进行了总结,并对曲线拟合方法的发展进行了思考和展望。 关键词:曲线拟合最小二乘法故障模式识别柴油机故障诊断 1背景及应用 在科学技术的许多领域中,常常需要根据实际测试所得到的一系列数据,求出它们的函数关系。理论上讲,可以根据插值原则构造n 次多项式Pn(x),使得Pn(x)在各测试点的数据正好通过实测点。可是, 在一般情况下,我们为了尽量反映实际情况而采集了很多样点,造成了插值多项式Pn(x)的次数很高,这不仅增大了计算量,而且影响了函数的逼近程度;再就是由于插值多项式经过每一实测样点,这样就会保留测量误差,从而影响逼近函数的精度,不易反映实际的函数关系。因此,我们一般根据已知实际测试样点,找出被测试量之间的函数关系,使得找出的近似函数曲线能够充分反映实际测试量之间的关系,这就是曲线拟合。 曲线拟合技术在图像处理、逆向工程、计算机辅助设计以及测试数据的处理显示及故障模式诊断等领域中都得到了广泛的应用。 2 基本原理 2.1 曲线拟合的定义 解决曲线拟合问题常用的方法有很多,总体上可以分为两大类:一类是有理论模型的曲线拟合,也就是由与数据的背景资料规律相适应的解析表达式约束的曲线拟合;另一类是无理论模型的曲线拟合,也就是由几何方法或神经网络的拓扑结构确定数据关系的曲线拟合。 2.2 曲线拟合的方法 解决曲线拟合问题常用的方法有很多,总体上可以分为两大类:一类是有理论模型的曲线拟合,也就是由与数据的背景资料规律相适应的解析表达式约束的曲线拟合;另一类是无理论模型的曲线拟合,也就是由几何方法或神经网络的拓扑结构确定数据关系的曲线拟合。 2.2.1 有理论模型的曲线拟合 有理论模型的曲线拟合适用于处理有一定背景资料、规律性较强的拟合问题。通过实验或者观测得到的数据对(x i,y i)(i=1,2, …,n),可以用与背景资料规律相适应的解析表达式y=f(x,c)来反映x、y之间的依赖关系,y=f(x,c)称为拟合的理论模型,式中c=c0,c1,…c n是待定参数。当c在f中线性出现时,称为线性模型,否则称为非线性模型。有许多衡量拟合优度的标准,最常用的方法是最小二乘法。 2.2.1.1 线性模型的曲线拟合 线性模型中与背景资料相适应的解析表达式为: ε β β+ + =x y 1 (1) 式中,β0,β1未知参数,ε服从N(0,σ2)。 将n个实验点分别带入表达式(1)得到: i i i x yε β β+ + = 1 (2) 式中i=1,2,…n,ε1, ε2,…, εn相互独立并且服从N(0,σ2)。 根据最小二乘原理,拟合得到的参数应使曲线与试验点之间的误差的平方和达到最小,也就是使如下的目标函数达到最小: 2 1 1 ) ( i i n i i x y Jε β β- - - =∑ = (3) 将试验点数据点入之后,求目标函数的最大值问题就变成了求取使目标函数对待求参数的偏导数为零时的参数值问题,即: ) ( 2 1 1 = - - - - = ? ?∑ = i i n i i x y J ε β β β (4)

最小二乘法的原理及其应用

最小二乘法的原理及其应用 一、研究背景 在科学研究中,为了揭示某些相关量之间的关系,找出其规律,往往需要做数据拟合,其常用方法一般有传统的插值法、最佳一致逼近多项式、最佳平方逼近、最小二乘拟合、三角函数逼近、帕德(Pade)逼近等,以及现代的神经网络逼近、模糊逼近、支持向量机函数逼近、小波理论等。 其中,最小二乘法是一种最基本、最重要的计算技巧与方法。它在建模中有着广泛的应用,用这一理论解决讨论问题简明、清晰,特别在大量数据分析的研究中具有十分重要的作用和地位。随着最小二乘理论不断的完善,其基本理论与应用已经成为一个不容忽视的研究课题。本文着重讨论最小二乘法在化学生产以及系统识别中的应用。 二、最小二乘法的原理 人们对由某一变量t或多个变量t1…..tn 构成的相关变量y感兴趣。如弹簧的形变与所用的力相关,一个企业的盈利与其营业额,投资收益和原始资本有关。为了得到这些变量同y之间的关系,便用不相关变量去构建y,使用如下函数模型 , q个相关变量或p个附加的相关变量去拟和。 通常人们将一个可能的、对不相关变量t的构成都无困难的函数类型充作函数模型(如抛物线函数或指数函数)。参数x是为了使所选择的函数模型同观测值y相匹配。(如在测量弹簧形变时,必须将所用的力与弹簧的膨胀系数联系起来)。其目标是合适地选择参数,使函数模型最好的拟合观测值。一般情况下,观测值远多于所选择的参数。 其次的问题是怎样判断不同拟合的质量。高斯和勒让德的方法是,假设测量误差的平均值为0。令每一个测量误差对应一个变量并与其它测量误差不相关(随机无关)。人们假设,在测量误差中绝对不含系统误差,它们应该是纯偶然误差,围绕真值波动。除此之外,测量误差符合正态分布,这保证了偏差值在最后的结果y上忽略不计。 确定拟合的标准应该被重视,并小心选择,较大误差的测量值应被赋予较小的权。并建立如下规则:被选择的参数,应该使算出的函数曲线与观测值之差的平方和最小。用函数表示为:

Matlab最小二乘法曲线拟合的应用实例

MATLAB机械工程 最小二乘法曲线拟合的应用实例 班级: 姓名: 学号: 指导教师:

一,实验目的 通过Matlab上机编程,掌握利用Matlab软件进行数据拟合分析及数据可视化方法 二,实验内容 1.有一组风机叶片的耐磨实验数据,如下表所示,其中X为使用时间,单位为小时h,Y为磨失质量,单位为克g。要求: 对该数据进行合理的最小二乘法数据拟合得下列数据。 x=[10000 11000 12000 13000 14000 15000 16000 17000 18000 19000 2 0000 21000 22000 23000]; y=[24.0 26.5 29.8 32.4 34.7 37.7 41.1 42.8 44.6 47.3 65.8 87.5 137.8 174. 2] 三,程序如下 X=10000:1000:23000; Y=[24.0,26.5,29.8,32.4,34.7,37.7,41.1,42.8,44.6,47.3,65.8,87.5,137.8,17 4.2] dy=1.5; %拟合数据y的步长for n=1:6 [a,S]=polyfit(x,y,n); A{n}=a;

da=dy*sqrt(diag(inv(S.R′*S.R))); Da{n}=da′; freedom(n)=S.df; [ye,delta]=polyval(a,x,S); YE{n}=ye; D{n}=delta; chi2(n)=sum((y-ye).^2)/dy/dy; end Q=1-chi2cdf(chi2,freedom); %判断拟合良好度 clf,shg subplot(1,2,1),plot(1:6,abs(chi2-freedom),‘b’) xlabel(‘阶次’),title(‘chi2与自由度’) subplot(1,2,2),plot(1:6,Q,‘r’,1:6,ones(1,6)*0.5) xlabel(‘阶次’),title(‘Q与0.5线’) nod=input(‘根据图形选择适当的阶次(请输入数值)’); elf,shg, plot(x,y,‘kx’);xlabel(‘x’),ylabel(‘y’); axis([8000,23000,20.0,174.2]);hold on errorbar(x,YE{nod},D{nod},‘r’);hold off title(‘较适当阶次的拟合’) text(10000,150.0,[‘chi2=’num2str(chi2(nod))‘~’int2str(freedom(nod))])

最小二乘法的本原理和多项式拟合

第一节 最小二乘法的基本原理和多项式拟合 一 最小二乘法的基本原理 从整体上考虑近似函数)(x p 同所给数据点),(i i y x (i=0,1,…,m)误差 i i i y x p r -=)((i=0,1,…,m) 的大小,常用的方法有以下三种:一是误差 i i i y x p r -=)((i=0,1,…,m)绝对值的最大值i m i r ≤≤0max ,即误差 向量 T m r r r r ),,(10 =的∞—范数;二是误差绝对值的和∑=m i i r 0 ,即误差向量r 的1— 范数;三是误差平方和∑=m i i r 02 的算术平方根,即误差向量r 的2—范数;前两种方法简单、自然,但不便于微分运算 ,后一种方法相当于考虑 2—范数的平方,因此在曲线拟合中常采用误差平方和∑=m i i r 02 来 度量误差i r (i=0,1,…,m)的整 体大小。 数据拟合的具体作法是:对给定数据 ),(i i y x (i=0,1,…,m),在取定的函数类Φ中,求Φ∈)(x p ,使误差i i i y x p r -=)((i=0,1,…,m)的平方和最小,即 ∑=m i i r 0 2 =[]∑==-m i i i y x p 0 2 min )( 从几何意义上讲,就是寻求与给定点),(i i y x (i=0,1,…,m)的距离平方和为最 小的曲线)(x p y =(图6-1)。函数)(x p 称为拟合 函数或最小二乘解,求拟合函数)(x p 的方法称为曲线拟合的最小二乘法。 在曲线拟合中,函数类Φ可有不同的选取方法. 6—1 二 多项式拟合 假设给定数据点),(i i y x (i=0,1,…,m),Φ为所有次数不超过)(m n n ≤的多项式构成的函数类,现求一 Φ ∈=∑=n k k k n x a x p 0 )(,使得 [] min )(0 02 02 =??? ??-=-=∑∑∑===m i m i n k i k i k i i n y x a y x p I (1) 当拟合函数为多项式时,称为多项式拟合,满足式(1)的)(x p n 称为最小二乘 拟合多项式。特别地,当n=1时,称为线性拟合或直线拟合。

最小二乘法原理及应用【文献综述】

毕业论文文献综述 信息与计算科学 最小二乘法的原理及应用 一、国内外状况 国际统计学会第56届大会于2007年8月22-29日在美丽的大西洋海滨城市、葡萄牙首都里斯本如期召开。应大会组委会的邀请,以会长李德水为团长的中国统计学会代表团一行29人注册参加了这次大会。北京市统计学会、山东省统计学会,分别组团参加了这次大会。中国统计界(不含港澳台地区)共有58名代表参加了这次盛会。本届大会的特邀论文会议共涉及94个主题,每个主题一般至少有3-5位代表做学术演讲和讨论。通过对大会论文按研究内容进行归纳,特邀论文大致可以分为四类:即数理统计,经济、社会统计和官方统计,统计教育和统计应用。 数理统计方面。数理统计作为统计科学的一个重要部分,特别是随机过程和回归分析依然展现着古老理论的活力,一直受到统计界的重视并吸引着众多的研究者。本届大会也不例外。 二、进展情况 数理统计学19世纪的数理统计学史, 就是最小二乘法向各个应用领域拓展的历史席卷了统计大部分应用的几个分支——相关回归分析, 方差分析和线性模型理论等, 其灵魂都在于最小二乘法; 不少近代的统计学研究是在此法的基础上衍生出来, 作为其进一步发展或纠正其不足之处而采取的对策, 这包括回归分析中一系列修正最小二乘法而导致的估计方法。 数理统计学的发展大致可分 3 个时期。① 20 世纪以前。这个时期又可分成两段,大致上可以把高斯和勒让德关于最小二乘法用于观测数据的误差分析的工作作为分界线,前段属萌芽时期,基本上没有超出描述性统计量的范围。后一阶段可算作是数理统计学的幼年阶段。首先,强调了推断的地位,而摆脱了单纯描述的性质。由于高斯等的工作揭示了最小二乘法的重要性,学者们普遍认为,在实际问题中遇见的几乎所有的连续变量,都可以满意地用最小二乘法来刻画。这种观点使关于最小二乘法得到了深入的发展,②20世纪初到第二次世界大战结束。这是数理统计学蓬勃发展达到成熟的时期。许多重要的基本观点和方法,以及数理统计学的主要分支学科,都是在这个时期建立和发展起来的。这个时期的成就,包含了至今仍在广泛使用的大多数统计方法。在其发展中,以英国统计学家、生物学家费希尔为代表的英国学派起了主导作用。③战后时期。这一时期中,数理统计学在应用和理论两方面继续获得很大的进展。

普通最小二乘法(OLS)

普通最小二乘法(OLS ) 普通最小二乘法(Ordinary Least Square ,简称OLS ),是应用最多的参数估计方法,也是从最小二乘原理出发的其他估计方法的基础,是必须熟练掌握的一种方法。 在已经获得样本观测值i i x y ,(i=1,2,…,n )的情况下 (见图中的散点),假如模型()的参数估计量已经求得到, 为^0β和^ 1β,并且是最合理的参数估计量,那么直线方程(见 图中的直线) i i x y ^ 1^0^ββ+= i=1,2,…,n 应该能够最 好地拟合样本数据。其中^i y 为被解释变量的估计值,它是由参数估计量和解释变量的观测值计算得到的。那么,被解释变量的估计值与观测值应该在总体上最为接近,判断的标准是二者之差的平方和最小。 ),()(1022101ββββQ u x y Q i i n i i ==--=∑∑= ()()),(min ????1021 10212?,?1100ββββββββQ x y y y u Q n i i n i i i =--=-==∑∑∑== 为什么用平方和因为二者之差可正可负,简单求和可能将很大的误差抵消掉,只有平方和才能反映二者在总体上的接近程度。这就是最小二乘原则。那么,就可以从最小二乘原则和样本观测值出发,求得参数估计量。 由于 2 1 ^1^012 ^ ))(()(∑∑+--=n i i n i i x y y y Q ββ= 是^0β、^1β的二次函数并且非负,所以其极小值总是存在的。根据罗彼塔法则,当Q 对^0β、^ 1β的一阶偏导数为0时,Q 达到最小。即

0011001100?,?1 ?,?0 =??=??====ββββββββββQ Q 容易推得特征方程: ()0)??(0?)??(1011 10==--==-=--∑∑∑∑∑==i i i i n i i i i i i n i i e x x y x e y y x y ββββ 解得: ∑∑∑∑∑+=+=2^ 1^0^1^0i i i i i i x x x y x n y ββββ () 所以有:???? ?????-=---=--=∑∑∑∑∑∑∑=======x y x x y y x x x x n y x y x n n i i n i i i n i i n i i n i i n i i n i i i 10121 21121111??)())(()()()(?βββ () 于是得到了符合最小二乘原则的参数估计量。 为减少计算工作量,许多教科书介绍了采用样本值的离差形式的参数估计量的计算公式。由于现在计量经济学计算机软件被普遍采用,计算工作量已经不是什么问题。但离差形式的计算公式在其他方面也有应用,故在此写出有关公式,不作详细说明。记 ∑=-i x n x 1 ∑=-i y n y 1 y y y x x x i i i i -=-= ()的参数估计量可以写成

曲线拟合的最小二乘法matlab举例

曲线拟合的最小二乘法 学院:光电信息学院 姓名:赵海峰 学号: 200820501001 一、曲线拟合的最小二乘法原理: 由已知的离散数据点选择与实验点误差最小的曲线 S( x) a 0 0 ( x) a 1 1(x) ... a n n ( x) 称为曲线拟合的最小二乘法。 若记 m ( j , k ) i (x i ) j (x i ) k (x i ), 0 m (f , k ) i0 (x i )f (x i ) k (x i ) d k n 上式可改写为 ( k , jo j )a j d k ; (k 0,1,..., n) 这个方程成为法方程,可写成距阵 形式 Ga d 其中 a (a 0,a 1,...,a n )T ,d (d 0,d 1,...,d n )T , 、 数值实例: 下面给定的是乌鲁木齐最近 1个月早晨 7:00左右(新疆时间 )的天气预报所得 到的温度数据表,按照数据找出任意次曲线拟合方程和它的图像。 它的平方误差为: || 2 | 2 ] x ( f

(2008 年 10 月 26~11 月 26) F 面应用Matlab 编程对上述数据进行最小二乘拟合 三、Matlab 程序代码: x=[1:1:30]; y=[9,10,11,12,13,14,13,12,11,9,10,11,12,13,14,12,11,10,9,8,7,8,9,11,9,7,6,5,3,1]; %三次多项式拟合% %九次多项式拟合% %十五次多项式拟合% %三次多项式误差平方和 % %九次次多项式误差平方和 % %十五次多项式误差平方和 % %用*画出x,y 图像% %用红色线画出x,b1图像% %用绿色线画出x,b2图像% %用蓝色o 线画出x,b3图像% 四、数值结果: 不同次数多项式拟和误差平方和为: r1 = 67.6659 r2 = 20.1060 r3 = 3.7952 r1、r2、r3分别表示三次、九次、十五次多项式误差平方和 拟和曲线如下图: a 仁polyfit(x,y,3) a2= polyfit(x,y,9) a3= polyfit(x,y,15) b1= polyval(a1,x) b2= polyval(a2,x) b3= polyval(a3,x) r1= sum((y-b1).A 2) r2= sum((y-b2).A2) r3= sum((y-b3).A2) plot(x,y,'*') hold on plot(x,b1, 'r') hold on plot(x,b2, 'g') hold on plot(x,b3, 'b:o')

最小二乘法综述及举例

最小二乘法综述及算例 一最小二乘法的历史简介 1801年,意大利天文学家朱赛普·皮亚齐发现了第一颗小行星谷神星。经过40天的跟踪观测后,由于谷神星运行至太阳背后,使得皮亚齐失去了谷神星的位置。随后全世界的科学家利用皮亚齐的观测数据开始寻找谷神星,但是根据大多数人计算的结果来寻找谷神星都没有结果。时年24岁的高斯也计算了谷神星的轨道。奥地利天文学家海因里希·奥尔伯斯根据高斯计算出来的轨道重新发现了谷神星。 高斯使用的最小二乘法的方法发表于1809年他的著作《天体运动论》中。 经过两百余年后,最小二乘法已广泛应用与科学实验和工程技术中,随着现代电子计算机的普及与发展,这个方法更加显示出其强大的生命力。 二最小二乘法原理 最小二乘法的基本原理是:成对等精度测得的一组数据),...,2,1(,n i y x i i =,是找出一条最佳的拟合曲线,似的这条曲线上的个点的值与测量值的差的平方和在所有拟合曲线中最小。 设物理量y 与1个变量l x x x ,...,2,1间的依赖关系式为:)(,...,1,0;,...,2,1n l a a a x x x f y =。 其中n a a a ,...,1,0是n +l 个待定参数,记()2 1 ∑=- = m i i i y v s 其中 是测量值, 是由己求 得的n a a a ,...,1,0以及实验点),...,2,1)(,...,(;,2,1m i v x x x i il i i =得出的函数值 )(,...,1,0;,...,2,1n il i i a a a x x x f y =。 在设计实验时, 为了减小误差, 常进行多点测量, 使方程式个数大于待定参数的个数, 此时构成的方程组称为矛盾方程组。通过最小二乘法转化后的方程组称为正规方程组(此时方程式的个数与待定参数的个数相等) 。我们可以通过正规方程组求出a 最小二乘法又称曲线拟合, 所谓“ 拟合” 即不要求所作的曲线完全通过所有的数据点, 只要求所得的曲线能反映数据的基本趋势。 三曲线拟合 曲线拟合的几何解释: 求一条曲线, 使数据点均在离此曲线的上方或下方不远处。 (1)一元线性拟合 设变量y 与x 成线性关系x a a y 10+=,先已知m 个实验点),...,2,1(,m i v x i i =,求两个未知参数1,0a a 。 令()2 1 10∑ =--=m i i i x a a y s ,则1,0a a 应满足1,0,0==??i a s i 。 即 i v i v

最小二乘法应用实例

数值计算方法 实际应用(论文) 题目最小二乘法原理实际生活应用 学院信息工程学院 专业软件工程 姓名张同 班级 13级2班 学号1402130235

摘要 最小二乘法(又称最小平方法)是一种数学优化技术,是利用最小化误差的平方和寻找数据的最佳函数匹配的一种计算方法[1],目前在测量学、城市道路规划、物理学、地质勘探学、概率论、统计学等领域有着广泛的应用。本文对最小二乘法进行了深入细致的研究,利用Visual C++编制程序实现最小二乘法的界面化设计,通过实验数据的输入,实现线性和二次拟合曲线的输出,并利用设计的程序实现了一些实际问题的求解和处理。 关键词:最小二乘法曲线拟合Visual C++

最小二乘法在实际生活中的应用 一.实际问题描述: 早在19世纪后期,英国生物学家Galton 在研究父母身高与子女身高关系时,观察了1078个家庭中父亲、母亲身高的平均值x 和其中一个成年儿子身高y,建立了x 与y 之间的线性关系。 二.提出问题: 通过父母平均身高推算出成年儿子身高 三.分析问题: 平时我们在实验过程中会遇到两量y x ,如果存在b ax y +=的线性关系时,其中b a ,为线性函数的参数。当实验数据存在这种线性关系时,通常我们运用作图法对其参数进行处理运算、进而求出实验结果。但是作图法很难得到好的结果,而运用最小二乘法可以得到比较好的线性拟合 [19] 。对其两种方法比较可以最小二乘法的数据处理方法是比较理想的办法。 四.实验原理: 最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。最小二乘法还可用于曲线拟合。其他一些优化问题也可通过最小化能量或最大化熵用最小二乘法来表达。 最小二乘法拟合:对给定数据点{(Xi ,Yi)}(i=0,1,…,m),在取定的函数类Φ 中,求p(x)∈Φ ,使误差的平方和E ^2最小,E^2=∑[p(Xi)-Yi]^2。从几何意义上讲,就是寻求与给定点 {(Xi ,Yi)}(i=0,1,…,m)的距离平方和为最小的曲线y=p(x)。函数p(x)称为拟合函数或最小二乘解,求拟合函数p(x)的方法称为曲线拟合的最小二乘法。 五.解决方案: 运用数值计算方法中的最小二乘法处理数据,计算出a 与b ,得到y=a+bx 关系式。 1.根据实验数据列以下表格: 表1 实验数据收集 父母平均身高x (cm ) 155 160 165 170 175 180 成年儿子身高y (cm ) 158 164 168 175 178 188 2.主要程序代码: #include #include

最小二乘法原理及其简单应用_邹乐强

科技信息 SCIENCE &TECHNOLOGY INFORMATION 2010年第23期y (%) 1.000.90.90.810.60.560.35x (%) 3.6 3.7 3.8 3.9 4.0 4.1 4.2 最小二乘法原理及其简单应用 邹乐强 (河南工程技术学校河南 焦作 454000) 【摘要】最小二乘法是从误差拟合角度对回归模型进行参数估计或系统辨识,并在参数估计、系统辨识以及预测、预报等众多领域中得到极为广泛的应用。然而,最小二乘法因其抽象、难懂常常被大家所忽视。本文就最小二乘法的引入,原理的证明,简单的应用进行归纳和总结,使读者对最小二乘法有更为清晰、系统、全面地认识。 【关键词】最小二乘法;回归模型;参数估计;系统辨识最小二乘法作为一种传统的参数估计方法,早已经被大家所了解。然而大多同学对最小二乘法的认识都比较模糊,仅仅把最小二乘法理解为简单的线性参数估计。事实上,最小二乘法在参数估计、系统辨识以及预测、预报等众多领域都有着广泛的应用。本文就最小二乘法的引入、最小二乘法原理的简单证明、最小二乘法在线性参数估计、欧氏空间、多项式拟合以及经济领域的模型参数估计等应用方面进行具体的阐释。本文的一些理论建立在学习过高等代数、数值分析及了解简单的经济计量学的基础上。本文的理论简明易懂,仅对现实中常见的问题用最小二乘法理论结合阐释。 1问题的引入 例 已知某种材料在生产过程中的废品率y 与某种化学成分x 有关。下列表中记载了某工厂生产中y 与相应的x 的几次数值: 我们想找出y 对x 的一个近似公式。 解把表中数值划出图来看,发现它的变化趋势近于一条直线。因此我们决定选取x 的一次式ax+b 来表达。当然最好能选到适当的a ,b 使下面的等式 3.6a+b -1.00=03.7a+b -0.9=03.8a+b -0.9=03.9a+b -0.81=0 4.0a+b -0.60=04.1a+b -0.56=04.2a+b -0.35=0 都成立。实际上是不可能的,任何a ,b 代入上面各式都会发生误差。于是想找a ,b 使上面各式的误差的平方和最小,即找到a ,b 使 (3.6a+b -1.00)2+(3.7a+b -0.9)2+(3.8a+b -0.9)2+(3.9a+b -0.81)2+(4.0a+b -0.60)2+(4.1a+b -0.56)2+(4.2a+b -0.35)2 最小。这里讨论的是误差的平方即二乘方,故称为最小二乘法。现在转向为一般的最小二乘法问题: 实系数线性方程组 a 11x 1+a 12x 2+…+a 1n x n - b 1=0 a 21x 1+a 22x 2+…+a 2n x n - b 2=0………… a m 1x 1 +a m 2x 2+…+a mn x n -b m = 1.1 可能无解。即任何一组实数x 1,x 2,……,x s 都可能使 m i =1 Σ(a i 1x 1+a i 2x 2+…+a in x n -b i )2 (*) 不等于零。 我们设法找到实数组x 0 1,x 0 2,…,x 0 s 使最小,这样的x 0 1,x 0 2,…,x 0 s 称为方程组的最小二乘解。这样问题就叫最小二乘法问题。 [1] 2 最小二乘法原理的证明 2.1 最小二乘法原理的初等证明 定理:X =(x 1,x 2,……x n )T 是矛盾方程组(1.1)的最小二乘解的充要条件是X 是方程组 (m i =1Σa 2 i 1)x 1+ m i =1Σa i 1a i 211x 2+…+ m i =j Σa i 1a in 11x n =m i =1 Σa i 1b i m i =1Σa i 2a i 1 1 1x 1+ m i =1Σa 2 i 2 11x 2+…+m i =1Σa i 2a in 11x n = m i =1Σa i 2b i m i =1 Σa in a i 11 1x 1+m i =1Σa in a i 211x 2+…+ m i =1 Σa 2 in 11x n = m i =1 Σa in b i 2.2 的解[2] 证明:设Y = m i =1Σ b i -n k =1 Σa ik x k 11 2 2.3 把Y 整理为关于x j (1≦j ≦n)的二次函数得 Y = m i =1 Σa 2ij 1 1x 2 j +2m i =1 Σ(a j (a i 1x 1+…+a i ,j -1x j -1+a i ,j +1x j +1+…+a 1n x n b j ))x j +m i =1 Σ(a i 1x 1+…+a i ,j -1x j -1+a i ,j +1x j +1+…+a in x n -b j )2 j=1,2,3,……,n 必要性:设X =(x 1,x 2,……,x n )T 是方程组⑴的最小二乘解,由定义1知⑴式中Y 有最小值,且X 是最小值点。由二次函数的性质得知二次函数 m i =1 Σa 2ij 〉0(j=1,2,……,n ),故a ij 不全部为零(与A 列满秩的假设一 致),且X 满足: X = m i =1 Σ[a ij (a i 1x 1 +…+a i ,j -1x i,j -1 +a i ,j +1x i,j +1+…+a in x n -b n )] m i =1 Σa ij (j=1,2,……,n) 2.4 化简得: m i =1 Σa ij a i 111x 1+m i =1Σa ij a i 211x 2+…+ m i =1Σa ij a i,j-111x j -1+ m i =1 Σa 2 ij 11x j + m i =1Σa ij a i,j+111x j +1+…+m i =1Σa ij a in 1 1x n =m i =1 Σa ij b i (j=1,2,…n) 这就是方程组⑵。不难看出方程组⑵的系数矩阵为A T A (A T 表示A 的转置矩阵),由A 列满秩知|A T A |≠0,故⑵有唯一解。必要性得证。 充分性:设X 是方程组(2)2.2的解,由x j (j =1,2,...,n )满足方程组2.2,也就是满足⑷式,再由于A 列满秩,a ij (i =1,2,...,m )不全为零,故⑶中二次项系数 m i =1 Σa 2 ij >0,因此,⑷中式Y 有最小值且最小值点为X =(x 1 , x 2,...,x n ),所以X 是方程组⑴的最小二乘解。 2.2利用欧氏空间证明最小二乘法下面我们利用欧氏空间的概念来表达最小二乘法,并给出最小二乘解所满足的代数条件。令 A = a 11a 12…a 1n a 21a 22 …a 2n … ……… a m 1 a m 2… a mn ≠≠≠≠≠≠≠≠≠≠≠≠≠≠≠≠≠≠≠≠B = b 1b 2… b m ≠≠≠≠≠≠≠≠≠≠≠≠≠≠≠≠≠≠≠≠ X = x 1x 2… x m ≠≠≠≠≠≠≠≠≠≠≠≠≠≠≠≠≠≠≠≠ Y =n j =1Σa 1j x 1n j =1Σa 2j x 2n j =1 Σa mj x m ≠≠≠≠≠≠≠≠≠≠≠≠≠≠≠≠≠≠≠≠ ≠ ≠≠≠≠ ≠ ≠≠≠≠≠ ≠≠ ≠ =AX 2.5 ○职校论坛○ 282

最小二乘法在误差分析中的应用

误差理论综述与最小二乘法讨论 摘要:本文对误差理论和有关数据处理的方法进行综述。并且针对最小二乘法(LS)的创立、发展、思想方法等相关方面进行了研究和总结。同时,将近年发展起来的全面最小二乘法(TLS)同传统最小二乘法进行了对比。 1.误差的有关概念 对科学而言,各种物理量都需要经过测量才能得出结果。许多物理量的发现,物理常数的确定,都是通过精密测量得到的。任何测试结果,都含有误差,因此,必须研究,估计和判断测量结果是否可靠,给出正确评定。对测量结果的分析、研究、判断,必须采用误差理论,它是我们客观分析的有力工具 测量基本概念 一个物理量的测量值应由数值和单位两部分组成。按实验数据处理的方式,测量可分为直接测量、间接测量和组合测量。 直接测量:可以用测量仪表直接读出测量值的测量。 间接测量:有些物理量无法直接测得,需要依据待测物理量与若干直接测量量的函数关系求出。 组合测量:如有若干个待求量,把这些待求量用不同方法组合起来进行测量,并把测量结果与待求量之间的函数关系列成方程组,用最小二乘法求出这个待求量的数值,即为组合测量。 误差基本概念 误差是评定测量精度的尺度,误差越小表示精度越高。若某物理量的测量值为y,真值为Y,则测量误差dy=y-Y。虽然真值是客观存在的,但实际应用时它一般无从得知。按照误差的性质,可分为随机误差,系统误差和粗大误差三类。 随机误差:是同一测量条件下,重复测量中以不可预知方式变化的测量误差分量。 系统误差:是同一测量条件下,重复测量中保持恒定或以可预知方式变化的测量误差分量。 粗大误差:指超出在规定条件下预期的误差。 等精度测量的随机误差 当对同一量值进行多次等精度的重复测量,得到一系列的测量值,每个测量

相关文档
最新文档