数学专业外文文献翻译

第3章最小均方算法

3．1 引言

最小均方(LMS ,least-mean-square)算法是一种搜索算法，它通过对目标函数进行适当的调整[1]—[2],简化了对梯度向量的计算。由于其计算简单性，LMS 算法和其他与之相关的算法已经广泛应用于白适应滤波的各种应用中[3]-[7]。为了确定保证稳定性的收敛因子范围，本章考察了LMS 算法的收敛特征。研究表明，LMS 算法的收敛速度依赖于输入信号相关矩阵的特征值扩展[2]—[6]。在本章中，讨论了LMS 算法的几个特性，包括在乎稳和非平稳环境下的失调[2]—[9]和跟踪性能[10]-[12]。本章通过大量仿真举例对分析结果进行了证实。在附录B 的B ．1节中，通过对LMS 算法中的有限字长效应进行分析，对本章内容做了补充。

LMS 算法是自适应滤波理论中应用最广泛的算法，这有多方面的原因。LMS 算法的

主要特征包括低计算复杂度、在乎稳环境中的收敛性、其均值无俯地收敛到维纳解以及利用有限精度算法实现时的稳定特性等。

3．2 LMS 算法

在第2章中，我们利用线性组合器实现自适应滤波器，并导出了其参数的最优解，这对应于多个输入信号的情形。该解导致在估计参考信号以d()k 时的最小均方误差。最优(维纳)解由下式给出：

0w R p

-= (3.1)

其中，R=E[()x ()]T

x k k 且p=E[d()x()] k k ，假设d()k 和x()k 联合广义平稳过程。如果可以得到矩阵R 和向量p 的较好估计，分别记为()R k ∧和()p k ∧

，则可以利用如下最陡下降算法搜索式(3．1)的维纳解：

w(+1)=w()-g ()w k k k μ∧

w()(()()w())k p k R k k μ∧∧

=-＋２ (3.2) 其中，k ＝0，1，2，…,g ()w k ∧

表示目标函数相对于滤波器系数的梯度向量估计值。

一种可能的解是通过利用R 和p 的瞬时估计值来估计梯度向量，即 ()x()x ()T

R k k k ∧

()()x()p k d k k ∧= (3.3) 得到的梯度估计值为

()2()x()2x()x ()()

T w g k d k k k k w k ∧

=-+

2x()(()x ()())T

k d k k w k =-+ 2()x()e k k =- (3.4)

注意，如果目标函数用瞬时平方误差2

()e k 而不是MSE 代替，则上面的梯度估计值代表了真实梯度向量，因为

010()()()()2()2()2()()()()T

e k e k e k e k e k e k e k w w k w k w k ??

????=????????L

2()x()e k k =-

()

w g k ∧

= (3.5)

由于得到的梯度算法使平方误差的均值最小化．因此它被称为LMS 算法，其更新方程为 (1)()2()x()w k w k e k k μ+=+ (3.6) 其中，收敛因子μ应该在一个范围内取值，以保证收敛性。

图3．1表示了对延迟线输入x()k 的LMS 算法实现。典型情况是，LMS 算法的每次迭代需要N+2次乘法(用于滤波器系数的更新)，而且还需要N+1次乘法(用于产生误差信号)。

LMS 算法的详细描述见算法3．1

图3．1 LMS 自适应RH 滤波器

算法3．1 LMS 算法

Initialization

x(0)(0)[000]T w ==L

Do for 0k ≥

()()x ()()T

e k d k k w k =- (1)()2()x()w k w k e k k μ+=+

需要指出的是，初始化并不一定要像在算法3.1小那样将白适应滤波器的系数被创始化为零：比如，如果知道最优系数的粗略值，则可以利用这些值构成w(0)，这样可以减少到达0w 的邻域所需的迭代次数。

3．3 LMS 算法的一些特性

在本节中，描述丁在平稳环境下与LMS 算法收敛特性相关的主要特性。这里给出的信息对于理解收敛因子μ对LMS 算法的各个收敛方面的影响是很重要的。 3．3．1 梯度特性

正如第2章中所指出的(见式(2.79))，在MSE 曲面上完成搜索最优系数向量解的理想梯度方向为

()2{[x()x ()]()[()x()]}

T w g k E k k w k E d k k =-

2[()]Rw k p =- (3.7) 在LMS 算法中，利用R 和p 的瞬时估计值确定搜索方向，即

()2[x()x ()()()x()]

T w g k k k w k d k k ∧

=- (3.8)

正如所期望的，由式(3．8)所确定的方向与式(3.7)所确定的方向很不同。因此，当通过利用

LMS 算法计算更加有效的梯度方向时，收敛特性与最陡下降算法的收敛特性并不相同。

从平均的意义上讲，可以说LMS 梯度方向具有接近理想梯度方向的趋势，因为对于固定购系数向量w ，有

[()]2{[x()x ()][()x()]}

T w E g k E k k w E d k k ∧

g = (3.9)

因此，向量g ()w k ∧

可以解释为w g 的无偏瞬时估计值。在具有遍历件的环境中，如果对于一个固定的w ，利用大量的输入和参考信号来计算向量g ()w k ∧

，则平均方向趋近于w g ，即

lim ()M

M i g

k i g M

∧

→∞=+→∑ (3.10)

3．3．2 系数向量的收敛特性

假设一个系数向量为w 。的未知FIR 滤波器，被一个具备相同阶数的白适应FIR 滤波器利用LMS 算法进行辨识。在未知系统输出令附加了测量白噪声n(k)，其均值为零，方差为

2n σ。

在每一次迭代中，自适应滤波器系数相对于理想系数向量0w ，的误差由N+1维向量描述：

0()()w k w k w ?=- (3.11) 利用这种定义，LMS 算法也可以另外描述为 (1)()2()x()w k w k e k k μ?+=?+

0()2x()[x ()x ()()]T T

w k k k w k w k μ=?+-

0()2x()[x ()()]T

w k k e k w k μ=?+-?

0[2x()x ()]()2()x()T

I k k w k e k k μμ=-?+ (3.12)

其中，0()e k 为最优输出误差．它由下式给出：

00()()x()

T e k d k w k =-

00x()()x()

T T w k n k w k =+-

()n k = (3.13) 于是，系数向量中的期望误差为

0[(1)]{[2x()x ()]()2[()x()]}T E w k E I k k w k E e k k μμ?+=-?+ (3.14)

假设x()k 的元素与()w k ?和0()e k 的元素统计独立，则式(314)可以简化为 [(1)]{2[x()x ()]}[()]T

E w k I E k k E w k μ?+=-?

(2)[()]I R E w k μ=-? (3.15) 如果我们假设参数的偏差只依赖于以前的输入信号向量，则第一个假设成立，而在第二个假设中，我们也考虑了最优解对应的误差信号与输入信号向量的元素正交。由上述表达式可得

[(1)](2)

[(0)]k E w k I R E w μ+?+=-? (3.16)

如果将式(3．15)左乘Q T

(其中Q 为通过一个相似变换使R 对角化的酉矩阵)，则可以得到 [(1)](2)[()]T

E Q w k I Q RQ E Q w k μ?+=-? '

[(1)]E w k =?+ '

(2)[()]I E w k μ=-Λ?

'1200

012[()]0

012N E w k μλμλμλ-??

??-?

?=???

-??

L M M M O M (3.17) 其中，'

(1)(1)T

w k Q w k ?+=?+为旋转系数误差向量。应用旋转可以得到一个产生对角矩阵的方程，从而更加易于分析方程的动态特性。另外．上述关系可以表示为 '

'[(1)](2)

[(0)]k E w k I E w μ+?+=-Λ?

101

1(12)000(12)[(0)]00(12)k k k N E w μλμλμλ+++??

-??

?=????

?-???

L M M M O M

(3.18) 该方程说明．为了保证系数在平均意义上收敛，LMS 算法的收敛因子必须在如下范围内选

取：

max 1

0μλ<<

(3.19)

其中，max λ为R 的最大持征值。在该范围内的μ值保证了当k →∞时，式(3．18)中对角

矩阵的所有元素趋近于零．这是因为对于i ＝0，l ，…,N ，有1(12)1i μλ-<-<。因此，对于较大的k 值，'

[(1)]E w k ?+趋近于零。

按照上述方法选取的μ值确保了系数向量的平均值接近于员优系数向量0w 比该指出的是，如果矩阵R 具有大的特征值扩展，则建议选择远小于上界μ值。因此，系数的收敛速度将主要取决于最小特征值，它对应于式(3．18)中的最慢模式。

上述分析中的关键假设是所谓的独立件理论[4]，它考虑了当i =0，1，…，k 时，所有向量()x i 均为统计独立的情况。这个假设允许我们考虑在式(3．14)中()w k ?独立于

()x ()T x k k 。尽管在x()k 由延迟线元素组成时，这个假设并不是非常有效，但是由它得到

的理论结果与实验结果能够很好地吻合。

3．3．3 系数误差向量协方差矩阵

在本节中，我们将推导得出自适应滤波器系数误差的二阶统计量表达式。由于对于大的k 值，()w k ?的平均值为零，因此系数误差向量的协方差的定义为

00cov[()][()()]{[()][()]}T T

w k E w k w k E w k w w k w ?=??=-- (3.20)

将式(3．12)代人式(3.20),可以得到

cov[(1)]{[2x()x ()]()()[2x()x ()]T T T T

w k E I k k w k w k I k k μμ?+=-??-

0[2x()x ()]()2()x ()T T

I k k w k e k k μμ+-? 02()x ()()[2x()x ()]T T T T

e k k w k I k k μμ+?-

2204()x()x ()}

T e k k k μ+ (3.21)

考虑到0()e k 独立于()w k ?且正交于()x k ，因此上式中右边第二项和第三项可以消除。可以通过描述被消除的矩阵的每一个元素来说明这种简化的详细过程。在这种情况下， cov[(1)]cov[()][2x()x ()()()T

w k w k E k k w k w k μ?+=?+-?? 2()()x()x ()T

w k w k k k μ-?? 2

4x()x ()()()T

k k w k w k μ+??

2204()x()x ()]

T e k k k μ+ (3.22)

另外，假设()w k ?独立于x()k ，则式(3．22)可以重新写为

cov[(1)]cov[()]2[x()x ()][()()]T

w k w k E k k E w k w k μ?+=?-?? 2[()()][x()x ()]T

T E w k w k E k k μ-?? 2

4E{x()x ()()()}T

k k w k w k μ+??

2204[()x()x ()]

T E e k k k μ+

cov[()]2cov[()]w k R w k μ=?-?

222

2cov[()]44n w k R A R μμμσ-?++ (3.23)

计算式E{x()x ()[()()]x()x ()}T T T

A k k E w k w k k k =??包括了四阶矩，对于联合高斯输人信号样值，可以采用文献[4]，[13]中描述的方法。通过将算子E[]?中的矩阵展开而得到结果。其结果是

2cov[()]{cov[()]}A R w k R Rtr R w k =?+? (3.24) 其中,tr[.]表示[.]的迹。为了计算采用LMS 算法时梯度燥声估计所引起的额外MSE ，式(3．23)是必要的。由于式(3．23)中最后一项为动态矩阵方程提供了激励，因此当k →∞时，

cov[(1)]w k ?+不会趋近于零。

式(3．23)的更加有用的形式可以通过对其分别左乘Q T

和右乘Q 来得到，于是有 cov[(1)]cov[()]T T

Q w k Q Q w k Q ?+=? 2cov[()]T T

Q RQQ w k Q μ-? 2cov[()]T

Q w k QQ RQ μ-? 28cov[()]T T T

Q RQQ w k QQ RQ μ+? 24{cov[()]}T T T

Q RQQ tr RQQ w k Q μ+?

224T

n Q RQ

μσ+ (3.25)

其中，利用了恒等式Q Q=QQ T

T I =根据Q tr[B]Q=tr[Q BQ]I T

对于任意B 成立的事实，有

''''

cov[(1)]cov[()]2cov[()]2cov[()]w k w k w k w k μμ?+=?-Λ?-?Λ

2'2'22

8cov[()]4{cov[()]}4n w k tr w k μμμσ+Λ?Λ+ΛΛ?+Λ (3.26)

其中'cov[()][()()]T T

w k E Q w k w k Q ?=??。.

正如将要在3．3．6节中证明的，在LMS 算法中，只有'

cov[()]w k ?对角元素对额外

MSE 有贡献。如果定义'()v k 为其元素由'cov[()]w k ?的对角元素组成的向量，且λ为R

的特征值组成的向量．则根据上述方程可以导出如下关系：

'222'22

(1)(484)()4T n v k I v k μμμλλμσλ

+=-Λ+Λ++

'22

()4n Bv k μσλ

=+ (3.27)

其中，B 的元素为

22222

14844i i i ij i j for i j b for i j μλμλμλμλλ?-++=?=?≠?? (3.28)

收敛因于μ必须在保证'

()v k 收敛朗某个范围内取值。由于矩阵B 是对称的，因此它只具有非负特征值。另外，由于B 的所有元素也是非负值，因此，B 的任意行元素之和的最大值代表了B 的最大特征值的上界，参见文献[14]第63页。其结果是，保证收敛的充分条件是迫使B 的任意行元素和保持在范围001N

j ij b =<∑<以内。因为

2222

1484N

i i i

j j b

μλμλμλλ

===-++∑∑ (3.29)

所以μ的关键值的选取必须使上式接近于1(因为对于任意μ，该表达式总是为正)。这只有在式(3．29)中最后三项接近于零时才会发生，也就是说

4840

i i i j j μλμλμλλ=-++≈∑

经过简单的处理．可以得到如下稳定性条件：

max 00

10[]

N j

j j tr R μλλλ==<<

+∑∑

(3.30)

其中，最后一个比较简单的表达式是在实际中应用得比较广泛的。我们将在后面的式(3．47)中指出，μ控制厂MSE 的收敛速度。

从实际的观点来看，这里得到的μ的上界是很重要的，因为它给出了为实现系数收敛应该选用的μ的最大值。然而，应该提醒读者的是，这里给出的上界在某种程度上讲是比较乐观的，因为在推导过程中利用了一些近似关系和假设。在大多数情况下，μ值的选取不应该接近于上界。

3．3．4误差信号的特性

本节在考虑了未知系统模型为无限冲激响应且存在测量噪声的情况下，计算了自适应滤波器输出误差信号的均值。当考虑了加性测量噪声以后，误差信号出下式结出：

'()()()x()()T

e k d k w k k n k =-+ (3.31) 其中，'

()d k 为没有测量噪声时的期望信号。对于给定的已知输入向量x()k ，误差信号的期望

'[()][()][()x()][()]T

E e k E d k E w k k E n k =-+

'0[()]x()[()]

T E d k w k E n k =-+ (3.32)

其中，0w 是最优解，即系数向量的维纳解。注意，在上式中假设输入信号向量是已知的，这是为了便于在自适应滤波器收敛到最优解时，揭示出我们所期望的内容。如果'

()d k 是通过一个无限冲激响应系统产生的．则由于采用了不充分模型(自适应FIR 滤波器采用的系数数目不充足)，因此减去前面两项后存在着残留误差，即

1[()]()()[()]

i N E e k E h i x k i E n k ∞=+??

=-+????∑ (3.33)

在上式中，()h i (其中1,i N =+…，∞)为产生没有被自适应滤波器辨识出的'

()d k 部分的

随机过程的系数。如果输入信号和n(k)具有零均值．则[()]0E e k =。

3．3．5最小均方误差

在本节中，针对不充分模型(undermodeling)情形，在加性噪声环境下计算了最小均方误差(MSE ，minimum mean-square error)。对于系统辨识问题，假设仍然考虑自适应滤波器的系数少于未知系统系数这种不充分模型情况，此时可以写出

()x ()()

T d k h k n k ∞=+

0x()()x ()T

T k w h n k k --∞????=+???????

??? (3.34)

其中，0w 为包含未知系统冲激响应的前面N+1个系数的向量，_

h 则包含了h 的剩余向量。具有N+1个系数的自适应滤波锯的输出信号出下式给出：

()()x()T y k w k k =

在这种情况下，MSE 具有如下表达形式：

20{()2x()()x()2()()x()T

T T T

E d k w k w k k h x k w k k ξ∞=--

2[()x()]()[()x()]}T T w k k n k w k k -+

x()x(){()2()0()x ()T

T T k k E d k w k w h x k k --∞

∞∞????????=-???????????

?????

2[()x()]()[()x()]}T T w k k n k w k k -+ 02

[()]2()0()()T

w E d k w k R w k Rw k h ∞

∞????=-+????

?? (3.35)

其中

x()()()()T T k R E x k x k x k ∞∞∞????????=?????????????? 且0∞是元素全部为零的无限长向量。通过计算ξ相对于自适应滤波器系数的导数，可以得

到(参见式(2.79)和式(2．125)的推导过程)

0011{}N N w w w R trunc p R trunc R h ∧

--∞+∞+??????

==??

????????