逐步回归分析计算法
前面我们介绍了通过回归的基本思想是将变量逐一引入回归方程,先建立与y相关最密切的一元线性回归方程,然后再找出第二个变量,建立二元线性回归方程,…。在每一步中都要对引入变量的显著性作检验,仅当其显著时才引入,而每引入一个新变量后,对前面已引进的变量又要逐一检验,一旦发现某变量变得不显著了,就要将它剔除。这些步骤反复进行,直到引入的变量都是显著的而没有引入的变量都是不显著的时,就结束挑选变量的工作,利用所选变量建立多元线性回归方程。为实现上述思想,我们必须在解方程组的同时,求出其系数矩阵的逆矩阵。为节约内存,计算过程中在消去x k时用了如下变换公式——求解求逆紧凑变换。
一、求解求逆紧凑变换
求解求逆紧凑变换记作L k,其基本变换关系式为:
(2-3-30)当对(2-3-27)的增广矩阵
(2-3-31)
依次作L1,L2,…,L m-1变换后,所得矩阵的前m-1列,便是系数矩阵的逆矩阵,最后一列便是(2-3-27)的解,即
求解求逆紧凑变换具有以下性质:
(1) 若对作了L k1, L k2,…,L k L变换,则得如下子方程组
(2-3-32)
的解及相应的系数矩阵的逆矩阵,其中k1,k2,…,k l互不相同,若记 L k1L k2…L kl,则
(2-3-33)
,j=1,2,…,l
(2) L i L j =L j L i,即求解求逆紧凑变换结果与变换顺序无关。
(3) L k L k =
(4) 若,ij=1,2,…,m-1,记
L k1L k2…L kl
则中的元素具有以下性质:
式中上行为对作了变换L i,L j或两个变换均未作过;下行为对作过变换L i和L j之一。
二、逐步回归的计算过程
逐步回归计算过程就是反复对增广矩阵作L k变换,并利用变换性质将选变量与作检验等步骤结合起来。
为了检验方便,对再增加一行,使其变成对称方阵,并记作R(0),即
(2-3-34)
选变量具体步骤如下:
1.选第一个变量
选第一个变量就是从m-1个一元线性回归方程
(i=1,2,…,m-1) (2-3-35)中找一个回归平方和最大的方程。这里为了符号明确起见,以
记作回归系数,上标(1)表示第一步计算。
由变换性质1可知,对R(0)作了L i变换后,有
(2-3-36)
(2-3-37)因此Z i的偏回归平方和为
(2-3-38)
由第二章偏回归平方和的意义可知,此一元线性回归方程对应的
剩余平方和为
(2-3-39)
从而对Z I的系数作显著性检验的F比是
(2-3-40)
由于是的单调递增函数,故要找i=1,2,…,m-1的最大值,只要找出i=1,2,…,m-1的最大值即可。
设
则只需对V K1(1)计算F k1(1),对给定的α,当F k1(1)>Fα(1,n-2)时,引入变量Z k1。
引入第一个变量的步骤可总结如下:
(1)对i=1,2,…,m-1,计算
(2)令
(3)计算
(4)若F1(1)>Fα(1,n-2),引入变量Z k1,对R(0)作L k1变换,且记
R(1)=L k1R(0)=
2.选第二个变量
这一步相当于从m-2个方程
i=1,2,…,m-1, i≠j (2-3-41)中去选一个方程出来,使加入的Z i具有最大的偏回归平方和。由变换性质1可知,这时需对R(0)作L k1变换,故不论选那个方程,均需对R(0)作L k1变换,因而引入Z k1后就已作好这一变换。与选第一个变量相似,这一步的计算可如下进行:
(1)对i=1,2,…,m-1,计算
(2)令
(3)计算
(4)当F1(2)>Fα(1,n-3),引进变量Z k2,并对R(1)作变换L k2,且记R(2)= L k2 R(1) =;如果F1(2) 3 .当引入第二个变量Z k2后,需对原已引入的变量Z k1的显著性重新作检验。 由于已对R(0)作了变换L k1, L k2,故从R(2)可直接写出二元线性回归方程: (2-3-44)此时Z k1的偏回归平方和为 (2-3-45)此二元线性回归方程的剩余平方和为 (2-3-46)因而对Z k1作检验的F比为 (2-3-47) 若F2(2)>Fα(1,m-3),则保留,可进一步考虑选入新变量;若F2(2) 综上所述,这一步的步骤是: (1)计算 (2)计算 (3)若F2(2)>Fα(1,n-3),则考虑引入第三个变量;若F2(2) 4.一般地,假设经过l步变换后引人了变量Z k1Z k2…Z kl,紧接着又引入了Z kl+1,其中k1k2…k l+1互不相同,而R(0)经过L k1,L k1,…,L k l+1后变成 接下去我们需对原已引入的变量Z k1,Z k2,…,Z k l重新检验,看有 无需剔除的,步骤如下: (1)计算,j=1,2,…l (2-3-48) (2)令 ; (3)计算 (2-3-49) (4)若,则对R(l+1)作变换L k,重新 考虑还有无其他变量要剔除;若,则接下去 考虑能否引入新变量。 引入新变量步骤如下: (1)计算 , (2-3-50) (2)令 (3)计算 (2-3-51) (4)若,则对R(l+1)作变换L k, 再考虑旧变量是否要剔除;若则结束选变量的工作。 如果选上Z k1,Z k2,…,Z kl变量后,没有变量可剔除,也没有变量可引入,且R(0)经过变换L k1,L k2,…,L kl后变成R(l)=( ),则此时可求出y关于x k1,x k2,…,x kl的回归方程。按(2-3-24)式: (2-3-52) 从而得回归方程 此方程对应的 (2-3-53) 复相关系数 : (2-3-54) 三、举例 例 2-3-1表是某种水泥凝固时放出热量(卡/克)与水泥四种成分: 3CaO?Al2O3(x1)、3CaO?SiO2(x2)、4CaO?Al2O3?FeO3(x3)、2CaO?SiO2(x4)含量(%)测定结果,现在我们用逐步回归法建立其关系式。 表2-3-1 某种水泥凝固时放出热量(卡/克)与四种成分关系 首先我们计算各变量的平均值(其中记作)并由(2-3-16)式计算偏差平方和的算术根σi (i=1,2,3,4,5),结果列于下表: 由(2-3-26)式计算出相关系数矩阵:R(0)= 下面进行选变量与作检验: 第一步:l=0(这里l表示开始时计算方程中所含变量的个数); 首先用(2-3-38)式计算四个变量的偏回归平方和 , i=1,2,3,4 得: 即 对其作 F 检验。由(2-3-40)式 故可引入X 4,对R (0)作L 4变换,由(2-3-30)式,得R (1) = 第二步:l=1 i=1,2,3计算 ,由(2-3-42)式得 , 即 对其作 F 检验,由(2-3-43)式 故可引入X 1,对R (1)作L 1变换,由(2-3-30)式得R (2) = 第三步:l =2