双通道语音增强的DSP实现

双通道语音增强的DSP实现
双通道语音增强的DSP实现

总第172期

2008年第10期

舰船电子工程

Ship Electronic Engineering Vol.28No.10

104

 双通道语音增强的DSP 实现

3

杨 帆 高 勇

(四川大学电子信息学院 成都 610065)

摘 要 双通道语音增强技术在自适应噪声对消系统中有着广泛的应用。在传统的双通道自适应噪声对消系统里,需要一个纯净的参考噪声作为辅助输入,但这在实际应用中很难做到。首先针对基本的自适应噪声对消原理,研究了一种改进的双通道自适应语音增强模型。该模型是一个基于TMS320C6713B 芯片的双通道实时数据处理系统,以AD73311为数模转换器件,具有两路独立的A/D 、D/A 通道,能够实现语音信号的16位数据采集与处理。最后对此系统的DSP 硬件设计作了简要介绍,并研究了该系统的软件设计以及算法实现。

关键词 双通道;自适应噪声对消;DSP 中图分类号 TN911.72

DS P Implement ation of Two Cha nnel Speech Enha ncement

Yang Fa n Gao Yong

(College of Electronics and Information Engineering ,Sichuan University ,Chengdu 610065)

Abs t rac t The two channel speech enhancement technology is widely used in adaptive noise cancellation (ANC )systems.

Pure reference noise is demanded as auxiliary input in traditional two channel ANC systems ,but it is hard to implement in ac 2tual environment.Based on the basic principle of ANC ,this paper presents a modified model of two channel adaptive speech enhancement.This model is a two channel real time data processing system based on TMS320C6713B ,with AD73311as its converting device.It includes two separate A/D ,D/A channels ,capable of implementing 162bit data acquisition and process 2ing.Then the DSP hardware system design is briefly introduced ,the system software design and the corresponding algorithm implementation are also investigated.

Ke y w ords two channel ,adaptive noise cancellation ,DSP Class Nu m ber TN911.72

1 引言

在现代舰船的工作环境里,无线语音通信不可避免的会受到各种环境噪声的影响,如舰船发动机、风机等机械噪声及海浪、风雨雷电等气象噪声。这些环境噪声在发送端与通信者的话音一起进入发端麦克风,会极大降低话音通信的质量,严重时会导致接收端无法收听或理解错误,这对舰船的通信指挥和信息的交互非常不利,需要进行处理。

针对现代舰船这种特殊的工作环境,自适应噪

声对消(ANC )是一种较为有效的语音增强方法[1]。ANC 以噪声为处理对象,对它进行抑制或衰减,而

在处理过程中,并不需要知道噪声的先验统计知识,因为它多使用了一个参考通道。当语音信号以及信号统计特性发生改变时,自适应滤波器能自适应的调节它的权值来适应新的情况[2]。

DSP 芯片是一种非常适合数字信号处理运算

的微处理器,以DSP 芯片为核心的嵌入式系统可

3

收稿日期:2008年6月23日,修回日期:2008年7月21日作者简介:杨帆,男,硕士研究生,研究方向:移动通信、DSP 开发、实时信号处理。高勇,男,博士,副教授,研究方向:阵列信号处理、软件无线电、通信抗干扰技术、实时信号处理、嵌入式系统开发等。

2008年第10期舰船电子工程105

 以实时、快速实现各种数字信号处理方法,并且具有速度快、精度高、小型化等显著优点。

本文针对基本的ANC 原理研究了一种改进的双通道语音增强方法,并在自行设计的语音DSP 板上进行了实现。

2 双通道语音增强方法

2.1 自适应噪声对消原理

自适应滤波器在双通道自适应噪声对消中得到了广泛的应用。在噪声对消的情况下,可以使用图1所示的L MS 自适应滤波器

图1 自适应噪声对消

在图1中有两个通道,主通道和参考通道。主通道接收从信号源发来的信号s ,但是受到噪声源的干扰,这使得主通道不但收到信号s ,也收到噪声

n 0。设参考通道收到的干扰为n 1。由于传送路径

不同,n 1和n 0是不同的。但因两者均来自同样的噪声源,所以它们是相关的。参考通道的作用就在于检测噪声,并通过自适应滤波调整其输出y ,使y 在最小均方误差意义下最接近主通道噪声。这样,通过相减器,将主通道的噪声分量n 0对消掉。

先假设参考通道收到的有用信号为0,信号和噪声不相关。在图1中,d 为自适应滤波器主通道的信号输入s +n 0。则此系统的输出为:

e =d -y =s +n 0-y

(1)

式(1)中,s 和n 0、n 1、y 无关。将式(1)的等号两边取均方值,并且假设噪声均值为0,则自适应滤波器调整的结果,将使y 在均方误差最小的意义下,最接近主通道噪声分量n 0,因而使系统输出中的噪声大大降低。所以:

Min E{(n 0-y )2}=Min E{(e -s )2}

(2)

公式(2)说明,在最小均方误差意义下,y 最接近n 0等效于e 最接近s ,所以在噪声对消输出端提高了信噪比。

2.2 一种改进的双通道语音增强

在图1中,如果参考通道输入的噪声n 0越接近于主通道里的背景噪声n 1,噪声对消器输出的结果越好。

若参考通道除检测到噪声n 1外,还收到信号

分量s 1,则自适应滤波器的输出y 将包含信号分量,从而使噪声对消结果变坏。可以证明[3]:

p s

p n

out

p s

p n -1ref

(3)

式(3)中,(p s /p n )out 为噪声对消器的输出信号噪声比,而(p s /p n )ref 为参考通道的输入信号噪声比。这就是说,参考信道的输入信噪比越强,噪声对消器的输出信号噪声比越差。所以,为了获得好

的噪声对消性能,应使参考通道检测到的信号噪声比尽可能小。

实际中,传统的双通道自适应噪声对消系统,很难得到一个纯净的参考噪声作为辅助输入。下面介绍一种改进的双通道语音增强系统,该系统的主通道和参考通道的输入信号均包含有同一语音信息。如图2所示:

图2 混有语音信号的双通道语音增强系统

在这个系统里,我们假设主通道和参考通道接收到的信号里包含同样来源的语音信息s ,我们定义主通道接收的信号为:s +n 0,参考通道接收的信号为:s +n 1。

将两路信号相加,语音信号得到初次增强:

d =2s +n 0+n 1

(4)

将两路信号相减,并乘以一个增强因子β:x =β

(n 0-n 1)(5)这里β是一个大于1的增强因子,在实际中可针对两个麦克风的距离进行校准。

这样,我们可以用(4)、

(5)两式构成自适应对消系统的主通道信号以及参考通道信号,结合图1所描述的理想系统进行自适应噪声对消,最后得到输出信号e 即为增强后的较为纯净的语音信号。

3 DSP 实现

DSP 是双通道数字系统的核心器件,本系统采

用TI 公司的32位浮点运算芯片TMS320C6713B 。它采用了八条指令并行执行的流水线结构,使用两

级缓存(cache ),并具有丰富的外设资源[4]。该芯片亦有多种时钟频率,基于成本和性能的折衷考虑,本方案选择的是时钟频率225M Hz 的GDP 封

106 杨 帆等:双通道语音增强的DSP 实现总第172期

装芯片。

3.1 DSP 系统的硬件设计

本系统采用两块板堆叠的方式,上面一层主要实现模拟放大,以及信号的输入输出,其中包含核心器件AD73311,用于实现信号的数模以及模数转换。并且考虑到以后的研究扩展需要,在板上也选择C YPRESS 公司的U SB 芯片C Y7C68013。

下面的电路板是一个6层板,这是基于系统可靠性的考虑。因为合理的分层不但可以降低系统的电磁辐射,还可以保证信号的完整性[5~6]。这个板上的芯片除了C6713,其它的核心器件还包括:一个256M 的32位SDRAM ,一个2M 的16位FL ASH ,一个40万门的FP GA 。

整个系统的原理框图如图3所示

:

图3 硬件系统原理框图

在设计DSP 的连接电路时,要注意以下几个问题:

1)本方案选择的FL ASH 是16位,则DSP 应

该选择16位非同步ROM BOO T 模式,此时应该将DSP 的HD [4]

、HD [3]

脚分别上拉、下拉。

2)本方案选择的音频通信口为MCASP1,此时应该将控制HPI -EN 寄存器的HD [14]

管脚下

拉。

3)由于是一个双通道语音系统,而MCASP1

口可以同时满足最高8路的数据传输需求,因此可以将DSP 的AXR1[1]、AXR1[2]管脚分别作为两路语音的DSP 输入,将AXR1[1]管脚作为语音的DSP 输出。

4)本系统的两个通道采样率以及时钟应该保

证完全同步,因此,AD73311的位同步信号(SCL K )与DSP 的ACL KR1和ACL KX1相连;AD73311的帧同步信号(SDOFS ,SDIFS )与DSP

的A FSR1和A FSX1相连。通过对FP GA 进行编程,可以很容易完成这些连接。3.2 DSP 系统的软件设计以及算法实现

在硬件电路设计完毕之后,就可以进入以下软件设计的环节。系统在实际应用之前,有很多地方需要初始化,这都需要通过编程对相应的寄存器进行配置,本节选择了其中最关键的几个部分进行初

始化配置的论述。

要使DSP 运行起来,首先要有正确的时钟。C6713有自己的PLL 控制器,可以方便的实现内

部分频以及倍频,从而得到期望的时钟信号。在本系统中,DSP 的最大工作频率为225M Hz ,外部时钟输入为40.96M Hz ,采样率为16KHz ,AD73311的输入时钟为4.096M Hz 。有了这些参数,对PLLDIV0、PLLDIV1、OSCDIV1等寄存器写入相

应的值,就可以完成PLL 控制器的初始化。

由于系统的实时处理特性,DSP 与外设的串口初始化显得非常重要。C6713有两个专门的语音通信串口MCASP0和MCASP1,每个串口有8个

串行器(Serializer )来实现与外设的多路传输。

MCASP1的初始化必须按照一定的步骤进

行[7]。本系统中,MCASP1采用的格式是时分复用(TDM )同步传输模式,数据按照A/D 的采样周期,每次传输一个帧。由于采用的是双通道,在保持位时钟周期不变的情况下,使用了额外的数据线来传输数据。根据这些要求,对相应的寄存器写入

特定的值,就可以完成MCASP1口的初始化。

对AD73311的初始化是放在main ()函数里进行的。因为AD73311只能接受串行的数字信息,它的寄存器配置必须在数字语音信息到达之前完成。AD73311一共有A 、B 、C 、D 、E 五个控制寄存器。下面是经过验证的可用的AD73311寄存器配置情况:

寄存器A :0x8001 寄存器B :0x8103寄存器C :0x8279 寄存器D :0x8304寄存器E 可以使用默认配置。这里,寄存器A 要放在所有寄存器之后来配置,因为它在最后完成A/D 从编程模式到数据模式的转换。

完成以上的所有初始化工作之后,就可以在程序里加入图2所示的自适应噪声对消算法。语音信号由麦克风输入,通过运算放大器放大至适当电平送给AD73311的模拟输入端,经过A/D 变换得到16k/s 的采样数据,由DSP 的MCASP1口读入。由于采用的是EDMA 传输模式,当数据输入缓冲区满的时候,自动对CPU 产生一个中断,然后在这个中断里实现自适应噪声对消算法。输出和输入过程类似。由于TI 公司的CCS 开发环境中自带的函数库里有自适应函数,并且在性能上要优于自己编写的自适应C 语言算法,因此采用CCS 自带的自适应函数:

(下转第128页)

128 胡献君等:一种弹道滤波的简化算法总第172期

[2]徐明友.弹道滤波引论[J ].华东工学院学报,47:25~31[3]Simon Haykin.Adaptive Filter Theory[M ].Forth E 2

dition ,New J ersey :Prerdice Hall ,2002,10(10)[4]贾沛璋.误差分析与数据处理[M ].北京:国防工业出

版社,1986:233~250

[5]徐明友,丁松滨著.飞行动力学[M ].北京:科学出版社,

2003,8

[6]石章松,周丰,孙世岩.目标跟踪与数据融合理论及其

应用[M ].武汉:海军工程大学,2007

(上接第106页)

float DSPF _sp _lms (float 3x ,float 3h ,float 3desired ,float 3r ,float adapt rate ,float error ,int nh ,int nr )

4 实验结果

在完成以上硬件设计与软件配置之后,就可以测试整个系统的消噪性能。

以下波形实测图均是用示波器在音频输出端

测量得到:

图4 实测音频输出端波形图

图4(a )是原始语音的实测波形,(b )是环境噪声的实测波形,(c )是处理前的混合语音实测波形,(d )是混合语音处理之后的实测波形。由以上四个

图可以看到,处理前的噪声干扰较大,而处理之后的语音较好的恢复了原始语音,因此该系统的降噪性能较好。

在听力测试中,也可以明显感觉到处理前原始语音干扰较大,基本上听不清,而处理后能够较清晰的听到原始语音。

图5是本双通道DSP 语音系统的实际图片,左图是长11cm ,宽8.5cm ,厚1.6mm 的DSP 数字电路板,

右图是完整的双通道自适应语音增强系统。

图5 DSP 板()以及双通道语音系统(右)

5 结语

舰船上无线语音通信受到环境噪声的干扰较大,需要采取先进的信号处理技术进一步提高语音通信的质量。双通道语音增强系统与传统的模拟去噪声或者单通道语音系统相比有明显的优势,给出的硬件与软件设计完全满足系统要求。在实际应用中,还可以在频域内结合谱减法对本文的自适应对消算法进行改进,并在其硬件软件设计上进行优化,以进一步提高噪声抑制的效果。

参考文献

[1]B ?维德罗,S ?D ?史蒂恩施著.王永德译.自适应信

号处理[M ].成都:四川大学出版社,1989

[2]D ?曼诺拉吉斯(著).周正(译).统计与自适应信号处

理[M ].北京:电子工业出版社,2003

[3]龚耀寰.自适应滤波(第二版)[M ].北京:电子工业出版

社,2003

[4]TMS320C6713B FLOA T -POIN T DIGITAL SIGNAL

PROCESSOR ,SPRS294A ,Texas Instruments ,TX ,2005

[5]周嶸.Power PCB Layout 设计[M ].北京:电子工业出版

社,2006

[6]伯格丁(著).李玉山等(译).信号完整性分析[M ].北

京:电子工业出版社,2005

[7]TMS320C6000DSP Multichannel Audio Serial Port

(MCASP )Reference Guide ,SPRU041F ,Texas In 2struments ,TX ,2005

基于麦克风阵列的语音增强方法

基于麦克风阵列的语音增强方法 概述:在日常生活和工作中,语音通信是人与人之间互相传递信息沟通不可缺少的方式。在语音通信中,语音信号不可避免地会受到来自周围环境和传输媒介的外部噪声、通信设备的内部噪声及其他讲话者的干扰。这些干扰共同作用,最终使听者获得的是被噪声污染过的带噪声语音,严重影响了双方之间的交流。应用阵列信号处理技术的麦克风阵列能够充分利用语音信号的空时信息,具有灵活的波束控制、较高的空间分辨率、高的信号增益与较强的抗干扰能力等特点,逐渐成为强噪声环境中语音增强的研究热点。本文将介绍各种麦克风阵列语音增强方法,并总结各个方法的优劣。最终得出更好的、能够去噪的基于麦克风阵列的语音增强方法。 1麦克风阵列 麦克风阵列是将两个麦克风的信号耦合为一个信号。在频率响应中也可以根据时域中波束形成与空间滤波器相仿的应用,分析出接收到语音信号音源的方向以及其变化。采用该技术,能利用两个麦克风接收到声波的相位之间的差异对声波进行过滤,能最大限度将环境背景声音滤掉,只剩下需要的声波。对于在嘈杂的环境下使用采用了这种配置的设备,在嘈杂的环境下能使听者听起来很清晰,没杂音。 2基于麦克风阵列的语音增强方法 2.1基于自适应波束形成器的麦克风阵列语音增强 自适应波束形成是现在广泛使用的一类麦克风阵列语音增强方法。最早出现的自适应波束形成算法,其基本思想是在某方向有用信号的增益一定的前提下,使阵列输出信号的功率最小。在线性约束最小方差自适应波束形成器的基础上,1982 年Griffiths 和Jim 提出了广义旁瓣消除器成为了许多算法的基本框架。 广义旁瓣消除器(GSC)的工作原理是带噪声的语音信号同时通过自适应通道和非自适应通道,自适应通道中的阻塞矩阵将有用信号滤除后产生仅包含多通道噪声参考信号,自适应滤波器根据这个参考信号得到噪声估计,最后由这个被估计的噪声抵消非自适应通道中的噪声分量,从而得到有用的纯净语音信号。 麦克风阵列的自适应算法通过迭代运算获取波束形成的最优权矢量时,噪声模型的估计是一个非常关键的因素。它的好坏直接影响着系统波束形成的性能。系统地分析了最小均方( LMS) 自适应语音增强算法,并针对阻塞矩阵在估计噪声时存在的缺陷,在该算法的基础上提出了一种利用最小值控制递归平均( MCRA) 来估计噪声的方法。将此方法应用于波束形成,MCRA 估计出的噪声使LMS 自适应语音增强的效果更好和抗噪性更强。 2.2基于固定波束形成的麦克风阵列语音增强 固定波束形成技术是最简单最成熟的一种波束形成技术。1985 年美国学者Flanagan 提出采用延时-相加波束形成方法进行麦克风阵列语音增强,该方法通过对各路麦克风接收到的信号添加合适的延时补偿,使得各路输出信号在某一方向上保持同步,并在该方向的入射信号获得最大增益。此方法易于实现,但要想获取较高的噪声抑制能力则需要增加麦克风数目,然而对非相干噪声没有抑制能力,环境适应性差,因此实际中很少单独使用。后来出现的微分麦克风阵列、超方向麦克风阵列和固定频率波束形成技术也属于固定波束形成。 采用可调波束形成器的GSC麦克风阵列语言增强算法,其实质在GSC结构中的固定波束形成器前端引入各通道可调时延补偿,构造可调波束形成器进行声源方位估计,从而在目标声源方位获取阶段即可利用阵列的空间增益来提高方位估计性能。延迟求和波束形成器主要目的是增强主瓣方向目标信号,而抑制其他方向的噪声信号。

语音增强算法的研究与实现

语音增强算法的研究与实现 目录 目 录 ..................................................................... ............................................................ I 河西学院本科生毕业论文(设计)诚信声 明 ................................... 错误~未定义书签。I 河西学院本科生毕业论文(设计)任务 书 ...................................... 错误~未定义书签。II 河西学院本科毕业论文(设计)开题报 告 ..................................... 错误~未定义书签。IV 摘 要 ..................................................................... .................................................................. I Abstract ........................................................... ....................................................................... I 1 引 言 ..................................................................... .. (1) 2 语音增强算法概 述 ..................................................................... (1)

基于麦克风阵列的语音增强算法概述

- 29 - 基于麦克风阵列的语音增强算法概述 丁 猛 (海军医学研究所,上海 200433) 【摘 要】麦克风阵列语音增强技术是将阵列信号处理与语音信号处理相结合,利用语音信号的空间相位信息对语音信号进行增强的一种技术。文章介绍了各种基于麦克风阵列的语音增强基本算法,概述了各算法的基本原理,并总结了各算法的特点及其所适用的声学环境特性。 【关键词】麦克风阵列;阵列信号处理;语音增强 【中图分类号】TN911.7 【文献标识码】A 【文章编号】1008-1151(2011)03-0029-02 (一)引言 在日常生活和工作中,语音通信是人与人之间互相传递信息沟通不可缺少的方式。近年来,虽然数据通信得到了迅速发展,但是语音通信仍然是现阶段的主流,并在通信行业中占主导地位。在语音通信中,语音信号不可避免地会受到来自周围环境和传输媒介的外部噪声、通信设备的内部噪声及其他讲话者的干扰。这些干扰共同作用,最终使听者获得的语音不是纯净的原始语音,而是被噪声污染过的带噪声语音,严重影响了双方之间的交流。 应用阵列信号处理技术的麦克风阵列能够充分利用语音信号的空时信息,具有灵活的波束控制、较高的空间分辨率、高的信号增益与较强的抗干扰能力等特点,逐渐成为强噪声环境中语音增强的研究热点。美国、德国、法国、意大利、日本、香港等国家和地区许多科学家都在开展这方面的研究工作,并且已经应用到一些实际的麦克风阵列系统中,这些应用包括视频会议、语音识别、车载声控系统、大型场所的记录会议和助听装置等。 文章将介绍各种麦克风阵列语音增强算法的基本原理,并总结各个算法的特点及存在的局限性。 (二)常见麦克风阵列语音增强方法 1.基于固定波束形成的麦克风阵列语音增强 固定波束形成技术是最简单最成熟的一种波束形成技术。1985年美国学者Flanagan 提出采用延时-相加(Delay-and-Sum)波束形成方法进行麦克风阵列语音增强,该方法通过对各路麦克风接收到的信号添加合适的延时补偿,使得各路输出信号在某一方向上保持同步,并在该方向的入射信号获得最大增益。此方法易于实现,但要想获取较高的噪声抑制能力则需要增加麦克风数目,然而对非相干噪声没有抑制能力,环境适应性差,因此实际中很少单独使用。后来出现的微分麦克风阵列(Differential Microphone Arrays)、超方向麦克风阵列(Superairective Microphone Arrays )和固定频率波束形成(Frequency-Invariant Beamformers) 技术也属于固定波束形成。 2.基于自适应波束形成器的麦克风阵列语音增强 自适应波束形成是现在广泛使用的一类麦克风阵列语音增强方法。最早出现的自适应波束形成算法是1972年由Frost 提出的线性约束最小方差(Linearly Constrained Minimum Variance,LCMV)自适应波束形成器。其基本思想是在某方向有用信号的增益一定的前提下,使阵列输出信号的功率最小。在线性约束最小方差自适应波束形成器的基础上,1982年Griffiths 和Jim 提出了广义旁瓣消除器(Generalized Sidelobe Canceller, GSC),成为了许多算法的基本框架(图1)。 图1 广义旁瓣消除器的基本结构 广义旁瓣消除器是麦克风阵列语音增强应用最广泛的技术,即带噪声的语音信号同时通过自适应通道和非自适应通道,自适应通道中的阻塞矩阵将有用信号滤除后产生仅包含多通道噪声参考信号,自适应滤波器根据这个参考信号得到噪声估计,最后由这个被估计的噪声抵消非自适应通道中的噪声分量,从而得到有用的纯净语音信号。 如果噪声源的数目比麦克风数目少,自适应波束法能得到很好的性能。但是随着干扰数目的增加和混响的增强,自适应滤波器的降噪性能会逐渐降低。 3.基于后置滤波的麦克风阵列语音增强 1988年Zelinski 将维纳滤波器应用在麦克风阵列延时—相加波束形成的输出端,进一步提高了语音信号的降噪效果,提出了基于后置滤波的麦克风阵列语音增强方法(图2)。基于后置滤波的方法在对非相干噪声抑制方面,不仅具有良好的效果,还能够在一定程度上适应时变的声学环境。它的基本原理是:假设各麦克风接收到的目标信号相同,接收到的噪声信号独立同分布,信号和噪声不相关,根据噪声特性, 【收稿日期】2010-12-30 【作者简介】丁猛(1983-),男,海军医学研究所研究实习员。

基本语音增强方法

基本语音增强方法概述 摘要:语音增强是当今语音处理的一个非常重要的领域,本文主要介绍当今比较普遍的几种基于人耳掩蔽阈值的语音增强方法:谱减法,维纳滤波法,子空间方法等,并对它们的优缺点作简要论述。 关键词:语音增强、人耳掩蔽、谱减法、维纳滤波、子空间 现今时代的主流步伐将我们带向自动化方向,语音识别在这一背景下显得尤为重要。目前已经开发出好几款语音识别软件,但是如何较为精确地实现人耳的掩蔽效应下的语音增强,仍是大家着重解决的问题。它的首要目标就是在接收端尽可能从带噪语音信号中提取纯净的语音信号,改善其质量。目前已经出现了谱减法等一系列较为普遍的方法。本文将对这几种方法进行简要介绍。 一、语音的特性 语音信号是一种非平稳、时变的随机过程,其产生过程与发声器官的运动紧密相关。而发声器官的状态变化速度比声音振动的速度要缓慢得多,因此语音信号可以认为是短时平稳的。在一段短时间内其特性基本保持不变即相对稳定,从而可以应用平稳随机过程的分析方法来处理语音信号,并可以在语音增强中利用短时频谱的平稳特性。 人耳在嘈杂的环境中,仍然能够清晰地听到自己想听的内容,一个较弱的声音(被掩蔽音)的听觉感受被另一个较强的声音(掩蔽音)影响的现象称为人耳的“掩蔽效应”。被掩蔽音单独存在时的听阈分贝值,或者说在安静环境中能被人耳听到的纯音的最小值称为绝对闻阈。在进行机器语音识别的时候,由于干扰信号和目标信号的强度差别不大,导致机器无法识别。这时语音增强就显得特别重要了。 二、时域方法 此类方法主要依赖于语音生成模型(例如AR模型)的使用,需要提取模型参数(如基音周期、LPC系数等),经常使用迭代方法。这种方法的最大缺点就是如果实际噪声或语音与模型有较大的差别,或者由于某些原因使得提取语音参数较困难,则这方法较容易失败。这类方法常用到一些滤波器,如梳状滤波器、维纳滤波器、卡尔曼滤波器等。 (1)经典的维纳滤波法是根据Winer-Hopf 积分方程求出纯语音和混合音

语音信号数字水印技术

数字信号处理课程设计报告 题目:语音信号水印技术系统设计 系(院): 专业: 班级: 学号: 姓名: 指导教师: 学年学期:2013 ~ 2014 学年第学期 2013年月日

摘要 随着网络和信息技术的发展,越来越多的数字多媒体信息通过网络进行传播,与传统的模拟媒体相比,数字媒体产品的编辑、复制和传播都很方便,它一方面促进了社会的进步与发展,另一方面正是这些优点突出了版权问题。由于数字多媒体信息很容易被未经授权的用户复制,且采用传统密码方法加密,不能完全解决盗版问题。 数字水印技术正是应运而生的信息隐藏技术,它通过特定的水印算法把版权信息嵌入在数字产品中,被嵌入的可以是一段文字、标识、序列号等等,人们无法从表面上感知水印的存在,只有专用的检测仪器或计算机软件才可以检测出隐藏的数字水印,从而达到了保护数字作品的所有者利益的目的,并促进了数字产品的开发与使用。在数字产品中,音频数据产品的版权保护也显得越来越重要,因为随着数字化音像制品和音乐制品的大量制作与发行,一个令人关注的突出问题是网上下载音乐对传统CD 业的巨大冲击。音频水印技术主要利用了人类听觉模型,在不影响音频信号质量的前提下,将水印信息隐藏在人耳不能感知的位置,来隐藏水印数据。本文主要研究语音信号水印技术,利用小波变换的优点和特性对音频信号嵌入水印,并提取。使嵌入水印音频想好具有良好的安全性,鲁棒性和不可感知性。 关键词数字水印嵌入提取小波变换

目录 1 课题综述 (1) 1.1数字水印技术的介绍 (1) 1.2 数字水印设计原理 (2) 2系统分析与设计 (3) 2.1涉及基础知识 (3) 2.2算法的流程图 (5) 2.3算法实现 (5) 3代码编写 (7) 3.1主要代码 (7) 3.2程序调试 (10) 3.3程序运行与测试 (10) 结论 (14) 致谢 (16) 参考文献 (17)

语音处理技术研究【文献综述】

毕业设计文献综述 电子信息科学与技术 语音处理技术研究 【摘要】:语音处理技术是对语音信号进行采集、压缩、滤波、增强等技术的集合定义。该技术是计算机音频系统的核心,在军事、医学、通信等领域都有较为广泛的应用。本文介绍了语音处理技术研究现状及发展前景。通过对三种主要音频滤波技术的对比和研究归纳,总结了每种技术的特点及适用范围,阐述了语音处理技术的发展方向。 【关键词】:数字信号处理;语音信号处理;音频滤波 一、背景 1.1语音处理技术技术 集就是把这种声波信号经语音信号是一种频率变化范围较宽(16~3000 Hz)的机械波。语音采[]1 过麦克风和高频放大器转换成具有一定幅度的模拟量电信号,再经离散化变成数字量,成为计算机 理,确定语音信号的采样频率。语音处理技术的研究结果能贮存和处理的信号。根据香农采样定[]2 表明:特定的语音信号是由其过零率、帧能量、频谱构成等多因素决定的。 音频是个专业术语,人类能够听到的所有声音都称之为音频。声音是一种模拟信号,它可能包波是语音分析系统中的关键环节,是当今社会前沿技术之一。为了获得更高含各种噪音。音频滤[]3 的音频质量,我们必须对声音中包含的噪声通过某种方法进行滤除,剩下的就是我们所需要的有用信号。这种滤除噪声的方法既为我们今天要讨论的音频滤波技术。 1.2语音处理技术的研究现状 语音处理技术在计算机软硬软件的相结合的方式下,通过几十年的探索,其研究和开发正进入一个黄金时代。在世界发达国家制定的高技术发展规划中,语音处理技术的地位十分引人注目。20世纪60年代中期形成的一系列数字信号处理的理论与算法,如数字滤波器、快速傅里叶变换(FFT)的等语音信号处理的理论与技术基础。随着信息技术的飞速发展,语音信号处理取得了重大进展。 术(LPC),并成为进入70年代之后,提出了用于语音信号的信息压缩和特性提取的线性预测技[]4 语音信号处理最强有力的工具。80年代初,一种新的基于聚类分析的高效数据压缩技术—矢量量化 型(HMM)描述语音信号过程的产生时80年代(VQ)应用于语音信号处理中,而用隐马尔科夫模[]5 语音信号处理技术的重大发展。近年来人工神经网(ANN)的研究取得了迅速发展,语音信号处理技

4G通信技术综述讲解

4G通信技术综述 移动通信技术已经历了三个主要发展阶段。每一代的发展都是技术的突破和观念的创新。第一代起源于20世纪80年代,主要采用模拟和频分多址(FDMA)技术。第二代(2G)起源于90年代初期,主要采用时分多址(TDMA)和码分多址(CDMA)技术。第三代移动通信系统(3G)可以提供更宽的频带,不仅传输话音,还能传输高速数据,从而提供快捷方便的无线应用。然而,第三代移动通信系统仍是基于地面标准不一的区域性通信系统,尽管其传输速率可高达2 Mb/s,但仍无法满足多媒体通信的要求,因此,第四代移动通信系统(4G)的研究随之应运而生。 一、4G通信技术的概念 4G的定义到目前为止依然有待明确,它的技术参数、国际标准、网络结构、乃至业务内容均未有明确说法。在2002年底Wi-Fi热潮中,Wi-Fi被视作4G技术。但4G技术的提倡者认为,4G与 Wi-Fi不同。 2004年6月,市场研究公司Forrester的分析师预测,4G移动服务将是3G与WiMax结合在一起的技术。4G将提供以太网的接入速度(如10Mb/s),并且通过在一部手机中把3G和WiMax技术结合在一起,提供集成无线局域网和广域网的服务。WiMax(或者说是802.16标准)能够提供无线宽带网服务,最远距离可达30英里,速率大约是10 Mb/s。在2004年富士通发布的白皮书中,将WiMAX指为“4G”无线技术。 另外,也有很多专家对LAS-CDMA十分看好,认为LAS-CDMA代表着4G水平。 4G到底是什么样的技术呢?目前普遍描述如下: 4G是集3G与WLAN于一体,并能够传输高质量视频图像,它的图像传输质量与高清晰度电视不相上下。4G 系统能够以100Mb/s的速率下载,比目前的拨号上网快2000倍,上传的速度也能达到20Mb/s,并能够满足几乎所有用户对于无线服务的要求。而在用户最为关注的价格方面,4G与固定宽带网络在价格方面不相上下,而且计费方式更加灵活机动,用户完全可以根据自身的需求确定所需的服务。此外,4G可以在DSL 和有线电视调制解调器没有覆盖的地方部署,然后再扩展到整个地区。很明显,4G有着不可比拟的优越性。4G与3G之间的主要区别在于终端设备的类型、网络拓扑的结构以及构成网络的技术类型。终端设备除了手机之外应当包括头戴式话机、PDA终端、膝上机、手表式话机、电视机、游戏机、DVD、零售机,甚至宠物机等等,凡是人所能构想的和能够识别IP地址的无线电收发信机。其次,4G是由多种技术组成的,包括彼此似乎不相干的技术,如Wi-Fi、超宽带无线电、便携式电脑、软件无线电等技术构成的高速全球通网络。 与3G手机相比,4G手机的功能更强大,应用更广泛。4G手机智能化程度更高,通话只是最最基本的功能之一,更多的功能体现在多媒体应用方面。 二、4G通信的关键技术

语音增强算法的分类

语音增强算法的分类 现实环境中的噪声多种多样,特性各异,很难找到一种通用的语音增强算法适用于各种噪声的消除;同时语音增强算法与语音信号数字处理理论、人的听觉系统和语音学等学科紧密相关,这也促使人们必须根据不同的噪声源来选择不同的对策。以上原因使语音增强技术研究呈现百花齐放的局面。几十年来,许许多多的学者在这方面进行了不懈的努力,总结出了许多有效的方法。 根据信号输入的通道数,可将这些方法分为单通道的语音增强算法与多通道的语音增强算法。单通道的语音系统在现实生活中较常见,手机、耳麦等都属于单通道语音系统。这种情况下,语音与噪声同时存在于一个通道中,语音信号与噪声信号必须从同一个带噪语音中获得。这种系统一般要求信号中的噪声比较平稳,以便在无声段对噪声进行估计,再依据估计得到的噪声参数对有声段进行处理,得到增强语音。而多通道的语音系统中语音增强的一种算法是,利用各个通道的语音信号之间存在的某些相关性,对带噪语音信号进行处理,得到增强的语音。比如,在自适应噪声抵消法中采用了两个话筒作为输入,其中一个采集带噪的语音信号,另外一个采集噪声,从噪声通道所采集的噪声直接当作带噪语音中的噪声,并将它从带噪语音中减去即可。另一种多通道的语音增强算法是采用阵列信号,这种方法采用多个以一定方式排列的采集设备接收信号。由于不同的独立信号源与各个采集设备之间的距离不同,最后在各个接收设备中的合成信号也不同,再根据这些信号将各个独立信号分离出来。 按照所依据原理的不同,我们可以将语音增强分为以下几类: (1)参数方法 此类方法主要依赖于语音生成模型(例如AR模型)的使用,需要提取模型参数(如基音周期、LPC系数等),经常使用迭代方法。这种方法的最大缺点就是如果实际噪声或语音与模型有较大的差别,或者由于某些原因使得提取语音参数较困难,则这方法较容易失败。这类方法常用到一些滤波器,如梳状滤波器、维纳滤波器、卡尔曼滤波器等。 (2)非参数方法 非参数方法不需要从带噪语音信号中估计语音模型参数,这就使得此类方法相对于参数方法而言应用较广。但由于没有利用可能的语言统计信息,故结果一般不是最优的。同时,我们知道,语音信号是非平稳的随机过程,但语音信号特性的缓慢变化使得在较短的时间(比如10~30ms)内,可以视其为平稳的,如果能从带噪语音的短时谱中估计出“纯净”语音的短时谱,即可达到语音增强的目的。由于人耳对语音的感知主要是通过语音信号中各频谱分量的幅度来获得的,而对各分量的相位并不敏感,因此,这类方法的重点是将估计的对象放在语音信号的短时谱幅度上。非参数方法主要包括谱减法、自适应滤波法等。 (3)统计方法 统计方法比较充分地利用了语音和噪声的统计特性,如语音信号可视不同情况和需要采用高斯模型、拉普拉斯模型以及伽玛模型等。此类方法一般是在建立了模型库后,经历一个训练过程来获得初始统计参数,并且在后续的工作过程中要根据实际的数据实时的更新这些统计参数,以使模型能更好的符合实际情况,它与语音系统的联系非常密切。这类方法里面主要包括最小均方误差估计(MMSE,Minimum Mean Square Error)、对数谱估计的最小均方误差(MMSE-LSA,Minimum Mean-Square Error Log-SpectralAmplitude)、听觉掩蔽效应(Masking Effect)等。 (4)多通道方法 多通道方法利用了更多的信息,包括空间信息,可以更好地滤除噪声、分离语音,但对硬件设备要求高,算法一般较复杂。噪声抵消法、延迟一相加波束形成器(delay-sum beamformer)、

基于深度学习的语音增强简述

第8卷第2期Vol.8No.2 2019年3月网络新媒体技术Mar.2019 ?前沿与综述? 基于深度学习的语音增强简述** 本文于2018-12-30收到。 *国家自然科学基金(编号:61671381)0张晓雷 (西北工业大学智能声学与临境通信研究中心西安710072西北工业大学航海学院西安710072) 摘要:语音增强是一种将语音从干扰声中增强出来的技术。它是语音信号处理的核心研究内容之一。近年来,深度学习在语音增强中的成功应用推动了该技术的快速发展。本文将简要回顾基于深度学习的语音增强技术。首先回顾语音增强中所采用的深度学习算法和优化目标,在此基础上,将进一步回顾具有代表性的单声道深度语音增强技术、基于固定麦克风阵列的多声道深度语音增强技术、以及基于自组织阵列的多声道深度语音增强技术。 关键词:深度学习,深度神经网络,语音增强,麦克风阵列 A Brief Review to Deep Learning Based Speech Enhancement ZHANG Xiaolei (Center for Intelligent Acoustics and Immersive Communication,Northwestern Polytechnical University,Xi'an,710072,China, School of Marine Science and Technology,Northwestern Polytechnical University,Xi'an,710072,China) Abstract:Speech enhancement aims to separate target speech from its noise components.It is one of the core problems of speech sig-nal processing.Recently,deep learning has been applied successfully to speech enhancement,which significantly promoted the devel-opment of speech enhancement techniques.This paper will review the deep-learning-based speech enhancement techniques,inclu-ding machine learning algorithms,optimization targets.Then,this paper will review single channel speech enhancement techniques, multichannel speech enhancement techniques based on conventional microphone arrays,as well as multichannel speech enhancement techniques based on ad-hoc microphone arrays. Keywords:Deep learning,Deep neural networks,Speech enhancement,Microphone arrays o引言 语音增强旨在将目标语音从背景干扰中分离出来。它是信号处理中的核心任务之一,具有广泛的应用,例如助听、通信、鲁棒语音识别和说话人识别。人类听觉系统具有将一种声源从多种声源的混合中提取出来的卓越能力。在类似于鸡尾酒会的声学环境中,尽管现场有其他说话人和背景噪声,我们也能够关注于其中某一位说话人的声音。所以,语音增强也被称为“鸡尾酒会问题”。语音增强已经在信号处理领域中得到了广泛的研究。根据麦克风的数量,语音增强方法可以分为单声道增强和基于麦克风阵列的多声道增强。单声道增强的传统方法是噪声估计丄和计算听觉场景分析(computational auditory scene analysis,CA-SA)[2]。噪声估计技术分析语音和噪声的整体数据,随后将纯净语音从含噪语音中估计出来"3;为了估计背景噪声,通常假设背景噪声是平稳的。CASA基于听觉场景分析的感知原理,通过交替进行基音估计和

多通道数据采集文献综述

多通道数据采集系统的设计与实现 引言 进来,我在网上浏览了200余篇有关数据采集系统的文献。下载了其中100多篇,详细研读了其中50余篇。我了解到在当今社会各个领域,包括科研和实验研究,数据采集系统有着不可代替的作用,数据采集和处理进行得越及时,工作效率就越高,取得的经济效益就越大.数据采集系统性能的好坏主要取决于它的精度和速度,在保证精度的条件下,还要尽可能地提高采样速度,以满足实时采集、实时处理和实时控制的要求。 数据采集系统涉及多学科,所研究的对象是物理或生物等各种非电或电信号,如温度、压力、流量、位移等模拟量,根据各种非电或电信号的特征,利用相应的归一化技术,将其转换为可真实反映事物特征的电信号后,经A/D转换器转换为计算机可识别的有限长二进制数字编码,即数字量,并进行存储、处理、显示或打印。以此二进制数字编码作为研究自然科学和实现工业实时控制的重要依据,实现对宏观和微观自然科学的量化认识。 Microsoft V isual C++是Microsoft公司推出的开发Win32环境程序,面向对象的可视化集成编程系统。它不但具有程序框架自动生成、灵活方便的类管理、代码编写和界面设计集成交互操作、可开发多种程序等优点,而且通过简单的设置就可使其生成的程序框架支持数据库接口、OLE2,WinSock网络、3D控制界面。 本课题研究的是利用PC机上的声卡作为数据采集卡构建数据采集系统。利用VC编程实现多通道数据采集并对数据采集进行控制和处理。 正文 1.研究背景及发展近况 国外数据采集技术较上世纪有了很大的发展,从最近国外公司展示的新产品可以看出,主要的发展方向可以概括为使用方便、功能多样和体积减小三个方面。国内数据采集技术起步比较晚,国内的数据采集系统与国外数据采集系统相比,在技术上仍然存在一定的差距,主要表现在: (1) 由于整个国内的微电子技术还与世界水平有一定差距,模数转换芯片的速度还不能达到世界先进水平,同时高速PCB设计方面的人才比较稀少,所以国内较少研制出速度非常高同时性能又非常好的数据采集系统。 (2) 数据采集系统的内存不大,数据采集系统本身的信号处理功能不强,在现场只能做一些简单的数据分析,大多数的处理要离线到计算机上去做。 (3) 系统的软件水平以及人机界面方面的水平还不是很高,设备操作起来有很多不人性化的地方。 虽然国内与国外在数据采集技术上存在差距,但是总体来看这个差距在不断缩小,在不久的将来中国的数据采集系统肯定会晋升国际一流的水准。随着数字化步伐的不断加深,数据采集技术作为走进数字世界的一把钥匙,必须要紧跟数字化的脚步,只有掌握了尖端的数据采集技术才能在这个飞速变化的世界具有竞争力。

几种单通道的语音增强算法研究

龙源期刊网 https://www.360docs.net/doc/5e1643417.html, 几种单通道的语音增强算法研究 作者:杨龙 来源:《科技视界》2015年第26期 【摘要】对目前常用的几种单通道语音增强算法,即谱减法、最小均方误差估计以及子 空间算法进行研究,通过仿真实验对三种单通道语音增强算法的去噪效果和去噪后语音失真程度以及信噪比进行比较分析,由此论证三种方法的使用条件和在该条件下的增强效果。 【关键词】语音增强;去噪;信噪比 The Search of Single Channel Speech Enhancement Algorithms YANG Long (Department of Information Engineer, Academy of Armored Forces Engineering, Beijing 100072,China) 【Abstract】The paper compares the commonly used several kinds of single channel speech enhancement algorithms, such as spectral subtraction, minimum mean square error estimation and subspace algorithm. Through the experiments, the paper aims at arguing the performance of the three kinds of single channel speech enhancement algorithms and gains the condition and environment of using the algorithms.. 【Key words】Speech enhancement;De-noise;SNR 语音通信是最直接有效的传递信息的手段,随时代的发展,语音通信质量不断被提出更高的要求,因而语音增强技术一直是研究的热点,语音增强算法层出不穷。 语音增强算法可根据麦克风的通道数分为单通道和多通道。由于模型简单和成本较低,单通道语音增强算法一直被广泛的应用并不断研究推广。常见的单通道语音增强算法有谱减法,基于统计的方法,子空间,维纳滤波等。 1 三种单通道语音增强算法 1.1 谱减法 谱减法基本思想是假设加性噪声的情况下,从带噪语音的频谱估值中减去噪声频谱估值,从而得到纯净语音的频谱估值。谱相减法的一般形式如图1所示,Y(ω)是带噪语音频域形式,(ω)为噪声频谱估计。 1.2 最小均方误差估计(MMSE)

MP算法概述

MP 算法概述 富爽 邸国辉高飞(黑龙江八一农垦大学,黑龙江大庆163319)引言在信号处理理论研究和工程应用中,信号分解是一个基础的问题,具有非常重要的意义,在信号处理与分析中起着很重要的作用,是一种常用、有效的分析手段。传统的信号分解变换是将信号分解在一组完备的正交基上,而且这种变换必然是可逆的,如傅立叶变换,短时傅立叶变换,小波变换等。然而这些变换方式却有着自身难以克服的缺点。随着信号分解理论的发展,近年来信号的非正交分解引起研究者越来越多的兴趣。为了实现对信号更加灵活、简洁和自适应的表示,在小波分析的基础上, Mallat 和Zhang [1]提出了信号在过完备库上分解的思想,开创了信号稀疏分解这一信号分析的新方向。目前,信号的稀疏分解已经发展了多种算法,如MP 、 基本跟踪(BP)算法、框架方法(MOF)和最佳正交基方法(BOB)等,其中M P 最为常用。1MP 算法原理假定H 表示Hilbert 空间,定义H 中的原子库,且 。令信号,为了逼近f ,MP 首先从过完备原子库中选择最为匹配的一个原子,即满足 。这样信号f 可以分解为如下形式:,表示用原子,表示信号f 所产生的误差。显然与是正交的,所以可以得到 。为了使得逼近误差的能量最小,必须选择使得最大。在无穷维或高维的情况下,由于计算复杂度的限制,通常无法找到的极值,只可能选择在某种意义上的近似最佳原子,使得,其中α为优化因子,满足 。下一步对残差进行同样的步骤,得到,满足。MP 算法是一个迭代过程,它通过不断地将信号残差投影到原子库中一个最匹配它的向量上,从而继续对它进行分解。将上述分解过程一直执行到n 阶, 就可以得到:。这样就获得f 在原子库D 中的n 阶逼近形式,而逼近误差记为R n f ,随着分解的进行误差能量呈逐渐衰减趋势。MP 算法是收敛的,在不限制分解迭代次数的前提下,如果原子库是完备的,那 么分解式中原子向量的线性组合能够以任意精度逼近原始信号[2]。2MP 算法改进MP 算法以其对信号灵活的自适应分解方式等优点,被迅速的应用与信号处理的多个领域。但该算法在应用上仍存在瓶颈问题,主要是过为巨大的计算量。因此国内外学者对其进行了各种改进。近年来,高强等人提出了采用遗传算法,范虹等采用混合编码的遗传算法有效降低了M P 算法的计算量,但GA 存在早熟的问题; 李恒建等采用量子遗传优化来降低匹配追踪算法的计算量,而量子遗传算法本身的搜索速度较慢,此外,Silva 将遗传算法用于匹配追踪,提出了“进化追踪原子分解” ,并提出一种多字典原子分解实现方法,该方法存在字典存储量大的问题[3]; 西南交大的尹忠科教授对此提出了使用原子库划分的方法解决字典存储量大的问题,并针对计算量大的问题提出了使用FFT 快速算法,通过用互相关运算代替内积运算来加快运算速度,而且还利用蚁群算法实现快速寻找M atching Pursuit (M P)过程每一步的 最优原子,大大提高了信号稀疏分解的速度。随着研究的不断深入,运算速度比传统的MP 算法得到了成百上千倍的提高,但是计算量大的问题仍然是MP 算法在应用方面的瓶颈问题,有待继续得到解决。3M P 算法应用M P 算法对信号自适应的灵活表达是传统的傅立叶变化或小波变换所无法比拟的,因其效率和逐步求精的框架使它的发展和应用赢得了广泛的关注和重视,涉及的主要应用场合有:3.1视频编码和视频压缩,特别是运动图像的估计与补偿。许多文献针对视频压缩与编码问题,提出了许多新的字典以及字典搜索算法,在低位率的视频编码压缩中取得了比较成功的应用。这也是M P 算法形成不久后就得到实际应用的领域。 3.2图像表示、分析和编码。MP 算法在图像处理领域的应用不断得到研究人员的重视。人们不仅从数学上证明了图像信息表示的稀疏性,并在生物视觉的初级过程中找到了这种“过完备-稀疏” 表达的证据,从另一个方面推动了利用MP 算法对图像进行稀疏分解的研究进展。3.3医学信号处理领域。医学信号分析处理一直是信号处理中非常活跃的领域,M P 就被应用于其中,如EEG 信号的时频分析与压缩, 呼吸与心跳速率的分析检测等。3.4语音与音频信号处理。MP 的思想最初出现于统计数据处理与语音信号处理领域,在其完善的过程中也是以语音信号作为研究实例,如高分辨率的声音信号分析,自适应的音频分解。 高分辨率MP 就是为特征提取发展起来的。3.5特征提取与目标识别领域。1997年K .Wang 和D .M .Goblirsch 将随机匹配跟踪算法用于动态语音特征的提取,增强了语音识别的效果。1999年P.Runkle 等人将其与连续的隐M arkov 模型结合起来进行多特征目标识别。在模糊系统识 别和人脸识别中也有学者进行了研究。3.6电磁信号处理。1997年M .R.M cClure 和L .Carin 报道了匹配跟踪对电磁散射问题(Scatter-ing Problem )的处理。最近,Pascal Vincent 和Yoshua 还将其用于机器学习问题的求解,并提出了内核匹配跟踪的概念;T .Sato 和Y .Tada 则把匹配跟踪算法引入到雷达图像信号增强和识别中[4]。 3.7地震信号处理。MP 算法一经提出,便很 快被应用于地球物理的地震信号处理领域。在 1996年应用MP 分解算法对压缩的地震信号进行Kirchhoff 偏移计算;在2003年独立多分辨率分析和MP 算法对计算量和数据进行统计与行分析;在2004年以Ricker 子波为原子对地震信号进行时频分解;在2005年采用Morlet 小波为原子对地震信号进行MP 分解等[5]。 4结论MP 的基本思想是基于信号的可分解和重构,通过在过完备的库中自适应地搜索匹配能够表达信号局部特征的时频原子,最终将信号表示 为时频原子的线性组合。正是由于其基本理念的广泛性以及灵活的自适应性,自从匹配追踪算法首次被提出之后,便引起了各界学者的重视。国内 外很多高校和科研机构对基于MP 的信号稀疏分解的理论和应用进行了大量的研究,通过各种方法对算法进行优化,以减少其计算量和存储量的 应用瓶颈问题,以及其在图像、视频、语音、特征提取与目标识别等方面的应用,取得了重大的成果。 同时也是由于其普遍的适用性,所以根据不同行业对信号的先验知识,才呈现出了MP 算法的多 样性和特殊性,出现了针对不同信号的原子类别,产生了旨在提高迭代计算速度和面对实际应用的各种快速算法。但过为庞大的原子库和过为巨大的数据计算量仍然是急需解决的主要问题。这些阻碍MP 实际应用的制约因素同时也确切地体现着MP 算法自适应的灵活特征。相信随着科学技术的不断发展以及广大学者的深入研究,更为丰 富的现实世界的信息一定会促进MP 算法的进一步发展。 参考文献[1]Mallat S ,Zhang Z.Matching pursuit with time -frequency dictionaries [J].IEEE Trans.Signal Process ,1993,41(12):3397~3421.[2]邵君.基于MP 的信号稀疏分解算法研究[D].西 南交通大学,2006.[3]缑水平,焦李成,张向荣,李阳阳.基于免疫克隆与核匹配追踪的快速图像目标识别[J].电子与信息学报,2008,30(5):1104-1108. [4]张文耀.基于匹配跟踪的低位率语音编码研究[D].中国科学院研究生院(软件研究所),2002.[5]陈发宇,尚永生,杨长春.Matching Pursuit 方法 综述[J].地球物理学进展,2007,22(5):1466-1473. 作者简介:富爽(1982~),女,伊春,研究方向为信号与信息处理。 邸国辉(1979~),男,大庆,研究方向为信号与信息处理、图像传输与处理。 高飞(1982~),女,松原,研究方向为信号与信息处理。 责任编辑:于会兰摘要:MP 算法以其理念的广泛性和灵活的自适应性,提出后便迅速发展并在图像、视频、语音、特征提取与目标识别、医学、地震信号处理等 方面取得了广泛应用。首先对MP 算法的原理进行了简单介绍, 然后总结了国内外学者对其进行的各种改进的方法及思路,介绍了MP 算法的国内外研究现状,最后总结了MP 算法在众多领域的广泛应用,并展望了其广阔的发展前景。 关键词:匹配追踪;稀疏分解; 信号处理-23-科技论坛

语音信号的采集与分析文献综述

注:该文档为原创,仅提供参考 语音信号的采集与分析的研究现状与进展 学生姓名:陈静波指导教师:张石清 班级:11级电子信息2班学号:1130220060 摘要:语音信号的采集与分析技术是一门涉及面很广的交叉科学,它的应用和发展与语音学、声音测量学、电子测量技术以及数字信号处理等学科紧密联系。其中语音采集和分析仪器的小型化、智能化、数字化以及多功能化的发展越来越快,分析速度较以往也有了大幅度的高。本文简要介绍了语音信号采集与分析的发展史以及语音信号的特征、采集与分析方法,主要运用Matlab以及DSP等一些电脑软件进行仿真分析,最后加入噪声进行滤波处理,比较滤波前后的变化 关键词:语音信号,采集与分析, Matlab 1.课题背景 The speech processing studies have advanced rapidly in recent years spurred on by great progresses in the VLSI technologies and in the digitalization of the networks. This paper offers an overview of the most attractive techniques which have focused the recent researchs and developments in speech coding, recognition and synthesis areas. For speech compression, the emphasis is put on a family of techniques named code-excited linear prediction (CELP) which dominates current studies for rates in the range of 4 to 16 kbit/s. In terms of speech recognition, particular emphasis is placed on the ollowing three elements which are essential in order to increase the robustness of the systems : telephone line adaptation, rejection of parasite noise and out-of- vocabulary words, and

噪音环境下的语音识别研究概述

噪音环境下的语音识别 摘要:语音信号数字处理技术在国民经济、日常生活和军事领域有着极为重要的应用价值和极其广阔的应用空间。本文介绍了语音信号处理在信息科学中的作用以及应用于科学领域的技术。 关键词:语音信号,识别,应用 众所周知,语音在人类社会中起了非常重要的作用。在现代信息社会中,小至人们的日常生活,大到国家大事、世界新闻、社会舆论和各种重要会议,都离不开语言和文字。近年来,普通电话、移动电话和互联网已经普及到家庭。在这些先进的工具中,语音信号处理中的语音编码和语音合成就有很大贡献。再进一步,可以预料到的口呼打字机(又称听写机,它能把语音转换为文字)、语音翻译机(例如输入为汉语,输出为英语,或者相反),已经不是梦想而是提到日程上的研究工作了。 计算机语音识别的最终目标是使计算机能够听懂人的语言。尽管语音识别的研究历史最早可以追溯到二十世纪50 年代初,但是直到60 年代中期以后才作为一个重要的课题展开工作,并且逐步取得实质性的进展。这有两方面的原因,一方面计算机产业的迅速发展提出了使用要求,同时软、硬件环境的改善为复杂算法的实现提供了好的环境;另一方面,数字信号处理的理论和算法已有相当基础。许多算法诸如快速傅里叶变换、倒谱计算、线性预测算法、数字滤波器等已经出现,语音信号特有的基音周期、共振峰等特征的提取算法也出现了。识别系统使用方式逐渐从特定人、孤立词、小词表方式发展到非特定人、连续语音、大词表方式。近十年来,语音识别的产品也逐渐多起来,例如Motorola 的语音拨号电话、IBM 的语音听写机等。但是,现有的语音识别系统都存在一个共同的问题,即性能不稳定。不同的用户、不同的信道、不同的背景噪音环境、不同的口音和发音方式都对识别性能有很大的影响。最近十多年来抗噪语音识别方法形成了高潮,因此,提高语音识别系统对噪音的鲁棒性,是今后语音识别研究的一个重点。 1 三种典型的去噪处理方法 我们可以将各种抗噪方法粗略可以分为信号级抗噪处理方法、特征参数级抗噪处理方法、模型级抗噪处理方法。后两种方法有些交叉。下面逐一进行讨论。 信号级抗噪处理 这种处理是从带噪语音信号中提取尽可能纯净的原始语音,在语音信号处理中称为语音增强。语音增强技术在语音通讯、语音识别中有都有应用。在实际应用推动下,早在60 年代语音增强这个课题就已引起了人们的注意,70 年代形成一个高潮,取得了一些基础性成果。由于噪声来源众多,并随应用场合而异,它们的特性也各不相同,因此,即便是在实验室仿真条件下,也难以找到一种通用的、能适用于各种噪声环境的语音增强算法。这就表明:必须针对不同噪声,采取不同的语音增强对策。文论述了如下一些语音增强方法:LPC 全极点模型增强算法、最大后验概率估计法、卡尔墁滤波法、维纳滤波法、谱减法及其改进形式、最小均方误差估计。则分别对噪音同化法、子波消噪算法、小波单阈值消噪算法、小波频带阈值消噪算法、使用心理声学准则的残余噪声抑制法进行了论述。在上述

相关文档
最新文档