自相关函数与偏自相关函数.doc
自相关函数与偏自相关函数
上一节介绍了随机过程的几种模型。实际中单凭对时间序列的观察很难确定其属于哪一种模型,而自相关函数和偏自相关函数是分析随机过程和识别模型的有力工具。
1、自相关函数定义
在给出自相关函数定义之前先介绍自协方差函数概念。由第一节知随机过程{t x }中的每一个元素t x ,t = 1, 2, … 都是随机变量。对于平稳的随机过程,其期望为常数,用μ表示,即
()t E x μ=,1,2,
t
=
随机过程的取值将以 μ 为中心上下变动。平稳随机过程的方差也是一个常量
2()t x Var x σ=,1,2,
t
=
2x σ用来度量随机过程取值对其均值μ的离散程度。
相隔k 期的两个随机变量t x 与t k x -的协方差即滞后k 期的自协方差,定义为:
(,)[()()]k t t k t t k Cov x x E x x γμμ--==--
自协方差序列:k γ,0,1,2,
k
=
称为随机过程{t x }的自协方差函数。当k = 0 时,2
0()t x Var x γσ==。
自相关系数定义:k ρ=
因为对于一个平稳过程有:2
()()t t k x Var x Var x σ-==
所以2
20
(,)
t t k k k
k x x Cov x x γγρσσγ-=
=
=,当 k = 0 时,有01ρ=。 以滞后期k 为变量的自相关系数列k ρ(0,1,2,
k =)称为自相关函数。因为k k ρρ-=,
即(,)t k t Cov x x -= (,)t t k Cov x x +,自相关函数是零对称的,所以实际研究中只给出自相关函数的正半部分即可。
2、自回归过程的自相关函数 (1)平稳AR(1)过程的自相关函数 AR(1) 过程:11t t t x x u φ-=+,|φ1| < 1。 已知()0t E x =(why?)。用t k x -同乘上式两侧
t x t k x -11t t k t t k x x u x φ---=+
上式两侧同取期望:k γ11k φγ-=
其中()0t t k E u x -=(why?)(由于x t = u t + φ1 u t -1 + φ12 u t -2 +… ,所以x t-k = u t-k + φ1 u t-k-1 +
φ12 u t-k-2 +…,而u t 是白噪音与其t - k 期及以前各项都不相关)。
两侧同除 γ0 得:2
111210k k k k ρφρφρφρ--===
=
因为ρo = 1,所以有k ρ=1k
φ(0k ≥)
对于平稳序列有 | φ1| < 1。所以当 φ1为正时,自相关函数按指数衰减至零;当 φ1为负时,自相关函数正负交错地指数衰减至零。见下图。因为对于经济时间序列,φ1一般为正,所以第一种情形常见。指数衰减至零的表现形式说明随着时间间隔的加长,变量之间的关系变得越来越弱。
1> φ1 > 0 -1<φ1 < 0
图 AR(1) 过程的自相关函数
同理,对于φ1 =1和φ1 >1情形即非平稳和强非平稳过程的自相关函数如下图。
φ1 = 1.1(强非平稳过程) φ1 = 1(随机游走过程)
(2)AR(p ) 过程的自相关函数
用t k x -(k > 0) 同乘平稳的 p 阶自回归过程1122t t t p t p t x x x x u φφφ---=++++
的两侧,得:1122t k t t k t t k t p t k t p t k t x x x x x x x x x u φφφ--------=++
++
对上式两侧分别求期望得:k γ1122k k p k p φγφγφγ---=+++,k > 0
用 γ0分别除上式的两侧得Yule-Walker 方程:
ρk = φ1 ρk -1 + φ2 ρk -2 + … + φp ρk -p , k > 0
令2121
()1(1- )p
p
p i i L L L L G L φφφ=Φ=---
-=∏,其中L 为k 的滞后算子,这里1
i G -,
i = 1, 2, …, p 是特征方程()0L Φ=的根。为保证随机过程的平稳性,要求1i G <。则:
121210p i i p i G G G φφφ------
-=,也即1212k k k k p i i i p i G G G G φφφ---=++
+。
可证:1122k
k
k
k p p
AG A G A G ρ=++
+(*) 其中A i , i = 1, … ,p 为待定常数。(提示:可把(*)式代入到Yule-Walker 方程中证明) 由(*)式知道会遇到如下几种情形。
① 当i G 为实数时,(*)式中的k
i i AG 将随着k 的增加而几何衰减至零,
称为指数衰减。 ② 当i G 和j G 表示一对共轭复数时,设i G a bi =+,j G a bi =-,22b a += R ,则i G ,
j G 的极座标形式是:
(cos sin )i G R i θθ=+ (cos sin )j G R i θθ=-
若AR(p ) 过程平稳,则1i G <,所以必有R <1。那么随着k 的增加,
(cos sin )k k i G R k i k θθ=+
(cos sin )k k j G R k i k θθ=-
自相关函数(*)式中的相应项k
i G , k j G 将按正弦振荡形式衰减。
注意:实际中的平稳自回归过程的自相关函数常是由指数衰减和正弦衰减两部分混合而成。
③ 从(*)式可以看出,当特征方程的根取值远离单位圆时,k 不必很大,自相关函数就会衰减至零。
④ 有一个实数根接近1时,自相关函数将衰减的很慢,近似于线性衰减。当有两个以上的根取值接近1时,自相关函数同样会衰减的很慢。
两个特征根为实根 两个特征根为共轭复根图
AR(2) 过程的自相关函数
3、移动平均过程的自相关函数 (1)MA(1) 过程的自相关函数。 对于MA(1)过程11t t t x u u θ-=+,有:
1111()[()()]k t t k t t t k t k E x x E u u u u γθθ-----==++
当k = 0时,
01111()[()()]t t t t t t E x x E u u u u γθθ--==++22111(2)t t t t E u u u u θ--=++
22
1(1)θσ=+
当k = 1时,
1111112()[()()]
t t t t t t E x x E u u u u γθθ----==++
2211112112()t t t t t t t E u u u u u u u θθθ-----=+++21θσ=
当 k > 1 时,
1111()[()()]
k t t k t t t k t k E x x E u u u u γθθ-----==++
21111111()t t k t t k t t k t t k E u u u u u u u u θθθ--------=+++0=
综合以上三种情形,MA(1)过程自相关函数为
ρk = 0
γγk
= 1
21, 110, 1
k k θθ?=?+??
>
θ1 > 0 θ1 < 0
图 MA(1)过程的自相关函数
可见MA(1) 过程的自相关函数具有截尾特征。当k > 1时,ρk = 0。
(2) MA(q ) 过程的自相关函数 MA(q ) 过程的自相关函数是
ρk = 1122222
12...,1,2,,1...0,k k k q k q
q k q k q θθθθθθθθθθ++-++++?=?++++??>?
当k > q 时,ρk = 0,说明 ρk , k = 0, 1, … 具有截尾特征。
例如,对于MA(2) 过程,自相关函数是
ρ1=22212111θθθθθ+++, ρ2=2
2
212
1θθθ++, ρk = 0, k > 2。
4、 ARMA (1, 1) 过程的自相关函数
ARMA (1, 1) 过程的自相关函数ρk 从 ρ1开始指数衰减。ρ1的大小取决于 φ1和 θ1, ρ1
的符号取决于 (φ1 -θ1 )。若 φ1 > 0,指数衰减是平滑的,或正或负。若 φ1 < 0,相关函数为正负交替式指数衰减。
对于ARMA (p , q ) 过程,p , q ≥ 2时,自相关函数的表现形式比较复杂,可能是指数衰减、正弦衰减或二者的混合衰减。
5、相关图(correlogram ,或估计的自相关函数,样本自相关函数) 对于一个有限时间序列(x 1, x 2, …, x T )用样本平均数
x =
T
1
∑=T
t t
x
1
估计总体均值 μ,用样本方差
s 2 =
21
)(1
∑=-T
t t
x x
T
估计总体方差σx 2。
当用样本矩估计随机过程的自相关函数,则称其为相关图或估计的自相关函数,记为 r k =
C C k
, k = 0, 1 , 2, …, K , ( K < T ) . r k 是对ρk 的估计。其中
C k =
1
T k
-1
()(),T k t
t k
t x x x
x -+=--∑ k = 0, 1, 2, …, K ,
是对γk 的估计。
C 0 =
21
)(1
∑=-T
t t
x x
T
是对γ0的估计。T 是时间序列数据的样本容量。实际中T 不应太小,最好能大于60。
注意:C k 为有偏估计量。但在小样本条件下更有效。
相关图是对自相关函数的估计。由于MA 过程和ARMA 过程中的MA 分量的自相关函数具有截尾特性,所以通过相关图可以估计MA 过程的阶数q 。相关图是识别MA 过程阶数和ARMA 过程中MA 分量阶数的一个重要方法。对于年度时间序列数据,相关图一般取k = 15就足够了。
k r 的方差近似为1T -。所以在观察相关图时,若k r 的绝对值超过21T -(2个标准差),
就被认为是显著地不为零。当T 充分大时,近似有:1(0)k r T --=k r 12T ~ N (0, 1)
第五节 偏自相关函数
偏自相关函数是描述随机过程结构特征的另一种方法。用 φkj 表示k 阶自回归过程中第j 个回归系数,则k 阶自回归模型表示为:
1122t k t k t kk t k t x x x x u φφφ---=++++
其中kk φ是最后一个回归系数。若把kk φ看作是滞后期k 的函数,则称
kk φ,1,2,
k =
为偏自相关函数。它由下式中的红项组成。
1111t t t x x u φ-=+
2112222t t t t x x x u φφ--=++
1122t k t k t kk t k kt x x x x u φφφ---=++++
因偏自相关函数中每一个回归系数kk φ恰好表示t x 与t k x -在排除了其中间变量1t x -,
2t x -,,1t k x -+ 影响之后的相关系数,
112211t k t k t kk t k kk t k kt x x x x x u φφφφ----+-----=+
所以偏自相关函数由此得名。
用kj φ表达Yule-Walker 方程1122k k k p k p ρφρφρφρ---=++
+,得
1122j k j k j kk j k ρφρφρφρ---=++
+
用矩阵形式表示上式,
?????
???????k ρρρ (2)
1= ?
?
??????????-----1............
...
......1 (13)
21
21
1121
k k k k k ρρρρρρρρρ????
?
???????kk k k φφφ...21 或
ρ = P φ. 则
φ = P -1ρ,
将k = 1, 2 , … 代入上式连续求解,可求得偏自相关函数 φ 11 = ρ1,
??????2221φφ=1
1
111-??
?
???ρρ??
????21ρρ=1
111
112111ρρρρρρ????????????--=2
12122111ρρρρρρ-??
????-- 其中
φ 22 = 21
2
121ρρρ--
…
对于AR(1)过程,t x = φ11 x t -1 +t u ,当k = 1时,φ11 ≠ 0;当k > 1时,0kk φ=。所以AR(1)过程的偏自相关函数特征是在k = 1出现峰值(φ11 = ρ1)然后截尾。
φ11 > 0 φ11 < 0
AR(1) 过程的偏相关图
对于AR(2)过程,当k ≤ 2时,0kk φ≠;当k >2时,0kk φ=。偏自相关函数在滞后期2以后有截尾特性。
对于AR(p )过程,当k ≤ p 时,0kk φ≠;当k > p 时,0kk φ=。偏自相关函数在滞后期p 以后有截尾特性,因此可用此特征识别AR(p )过程的阶数。
对于MA(1)过程t x =t u + θ1 u t -1,有 [1/ (1+ θ1 L )]t x =t u , (1- θ1 L + θ12 L 2 - … )t x =t u ,
t x = θ1 x t -1 - θ12 x t -2 +θ13 x t -3 - … +t u
当θ1 > 0时,自回归系数的符号是正负交替的;当θ1 < 0时,自回归系数的符号全是负的。
因为MA(1) 过程可以转换为无限阶的AR 过程,所以MA(1) 过程的偏自相关函数呈指数衰减特征。
θ1 > 0 θ1 < 0
MA(1) 过程的偏自相关函数
对于MA(2) 过程,若Θ (L ) = 0的根是实数,偏自相关函数由两个指数衰减形式叠加而成。若Θ (L ) = 0的根是复数,偏自相关函数呈正弦衰减形式。
因为任何一个可逆的MA(q ) 过程都可以转换成一个无限阶的系数按几何递减的AR 过程,所以MA(q ) 过程的偏自相关函数呈缓慢衰减特征。
ARMA( p , q ) 过程的偏自相关函数也是无限延长的,其表现形式与MA(q )过程的偏自相关函数相类似。根据模型中移动平均部分的阶数q 以及参数θi 的不同,偏自相关函数呈指数衰减和(或)正弦衰减混合形式。
对于时间序列数据,偏自相关函数通常是未知的。可以用样本计算 φ11, φ22, … 的估计
量 11?φ, 22
?φ, …。估计的偏自相关函数 kk
φ?, k = 1, 2, …, K , 称为偏相关图。因为AR 过程和ARMA 过程中AR 分量的偏自相关函数具有截尾特性,所以可利用偏相关图估计自回归过程的阶数p 。实际中对于偏相关图取k = 15就足可以了。
kk
φ?的方差近似为T-1。当T充分大时,近似有
(kk
φ?- 0) / T-1/2 = T1/2kk
φ?~ N (0, 1)
所以在观察偏相关图时,若
kk
φ?的绝对值超过2T-1/2(2个标准差),就被认为是显著地不为零。
注:2个标准差= 2 T -1/2 = 2(1/7)= 0.286。图中虚线表示到中心线2个标准差宽度。
补充知识:检验过程是否为白噪声的Q统计量
在介绍Q统计量之前,先介绍序列y t的估计的自相关函数(相关图)的定义,
r k =
∑
∑
=
+
=
-
-
-
-
-
T
t
t
t
T
k
t
t
k
t
t
t
y
y
T
y
y
y
y
k
T
1
2
1
)
(
1
)
)(
(
1
, k = 1, 2, ….
其中r k表示y t与y t-k估计的自相关系数,是对自相关系数ρk的估计。
定义
k
t
y
-
= (∑
k
t
y
-
)/ (T-k),
t
y= (∑y t)/ T。
模型残差序列是否为白噪声的检验是用Box-Pierce (1970) 提出的Q统计量完成的。Q 检验的零假设是
H:ρ1 = ρ2 = … = ρK = 0
即序列是一个白噪声过程。其中ρi表示自相关系数。Q统计量定义为
Q = T∑
=
K
k
k
r
1
2(
k
r是用残差序列计算的自相关系数的估计值)
随着T→∞,Q渐近服从2()
K p q
χ--分布,其中T表示样本容量,K表示自相关系数的
个数,p 表示模型自回归部分的最大滞后值,q 表示移动平均部分的最大滞后值。
Ljung 和Box 认为定义的Q 统计量的分布与2
()K p q χ--分布存在差异(相应值偏小),于是提出修正的Q 统计量。
Q = T (T +2)∑
=-K
k k
k T r 1
2
其中r k ,K ,p ,q 的定义如上式。修正的Q 统计量渐近服从2
()K p q χ--分布。且它的近似性比原Q 统计量的近似性更好。(注意:EViews 中给出的Q 统计量就是按修正的Q 统计量定义的。)
用残差序列计算Q 统计量的值。显然若残差序列不是白噪声,残差序列中必含有其他成份,自相关系数不等于零。则Q 值将很大,反之Q 值将很小。判别规则是:
若Q 2
()K p q αχ≤--,则接受H 0。
若Q >2
()K p q αχ--,则拒绝H 0。
其中α 表示检验水平;p ,q 分别表示时间序列模型中自回归和移动平均滞后项的个数。 实际检验中,K 取15左右即可。