语音信号处理

语音信号处理
语音信号处理

语音信号处理

——语音信号的清、浊音分析

班级:

姓名:

学号:

时间:2014年9月22日

1 实验目的

通过Matlab 编程实现语音信号的时域波形图,并观察清音、浊音信号的时域特点。掌握语音信号的时域分析技术,如短时平均能量、短时平均幅度、短时平均过零率分析、短时平均自相关、短时平均幅度差。

2 实验原理

语音信号是一种非平稳的时变信号,它携带着各种信息。在语音编码、语音合成、语音识别和语音增强等语音处理中无一例外需要提取语音中包含的各种信息。语音信号分析的目的就在与方便有效的提取并表示语音信号所携带的信息。语音信号分析可以分为时域和变换域等处理方法,其中时域分析是最简单的方法,直接对语音信号的时域波形进行分析,提取的特征参数主要有语音的短时能量,短时平均过零率,短时自相关函数等。

3 实验过程

1)观察信号波形图

信号的采样周期为20kHz ,图中幅度较大的为浊音,幅度较小的为清音。

2)计算语音信号的短时能量、短时平均幅度并画图

1

20()N n n m E x m -==∑

1

0|()|N n n m M x m -==∑

由于语音信号的能量随时间变化,清音和浊音之间的能量差别显著。平均幅度函数没有平方运算,因此动态范围比短时能量小,接近于标准能量计算的动态范围的平方根。虽然都可以用来区分清、浊音,但短时平均幅度的清浊音幅度差没有短时能量明显。

3)计算信号的短时平均过零率并画图 1

1{|sgn[()]sgn[(1)]|}2N n n m Zn x m x m -==--∑

过零率可以反映信号的频谱特性。高频率对应着高过零率,低频对应着低过零率。浊音过零率低,清音的过零率低。

4)分别取语音信号的清、浊音部分,分析其短时自相关函数

1

0()()()N k n n n m R k x m x m k --==

+∑

分别取小段浊音、清音信号,计算其短时自相关函数。浊音的自相关函数呈现出周期性,有明显突出的峰值,在80个采样点附近,其基因周期:

T=(1/fs)*80=(1/20000)*80=3ms ;

清音的短时自相关函数没有周期性,也不具有明显突出的峰值,其性质类似于噪声。

5)计算语音信号的短时平均幅度差函数并画图

1

0()|()()|N k n n n

m F k x m x m k --==

-+∑

由短时平均幅度差函数曲线可以看出,浊音信号在基因周期上出现极小值,而清音上没有明显的极小值。

短时自相关函数的运算量比较大,其乘法运算所需时间较长;短时平均幅度差函数只需加减和取绝对值运算,可以简化运算量,在语音信号分析时具有很大的优势。

4 小结

通过这次课程设计,使我对语音信号的时域分析有了全面的认识,对清浊音的特点及如何区分有了一定的认识。了解了时域特征分析原理,并利用已学知识,编写程序求解语音信号的短时过零率、短时能量、短时自相关特征,分析实验结果,并能掌握借助时域分析方法所求得的参数分析语音信号的基音周期。通过查书和资料,复习了MATLAB相关知识。

5 源程序:

clear;clc;clf;

fs=20000; %抽样频率

Y=wavread('a.wav');

sound(Y,fs); %读取语音信号“大学”

figure(1)

plot(Y) %做原始语音信号的时域图形

title('原始语音信号波形“大学”');

xlabel('样点数'); %x轴的名字是“样点数”ylabel('幅值'); %y轴名字是“幅值”

%axis([25000 50000 -0.3 0.2]);

grid on;

N=200;

L=length(Y);

LL=length(Y)/N;

figure(2)

Em=zeros(1,(LL-1)*200);

for ii=1:(LL-1)*200,

temp=Y(ii:ii+200);

Em(ii)=sum(temp.*temp);

end

jj=[1:(LL-1)*200];

subplot(211)

plot(jj,Em,'b'); %绘制短时平均能量曲线title('短时平均能量');

grid on;

%短时平均幅度Mn=sum(abs(Y))/N

Mn=zeros(1,(LL-1)*200);

for ii=1:(LL-1)*200,

temp=Y(ii:ii+200);

Mn(ii)=sum(abs(temp));

end

figure(2)

jj=[1:(LL-1)*200];

subplot(212)

plot(jj,Mn,'b'); %绘制短时平均幅度曲线

title('短时平均幅度');

grid on;

%短时过零率

Zn=zeros(1,(LL-1)*200);

for ii=2:(LL-1)*200,

temp1=sign(Y(ii:ii+200));

temp=sign(Y(ii-1:ii+200-1));

Zn(ii)=sum(abs(temp1-temp));

end

figure(3)

jj=[1:(LL-1)*200];

plot(jj,Zn,'b'); %绘制短时过零率函数曲线

title('短时过零率');

grid on;

%浊音,取14701--15700个点

%短时自相关函数

temp=Y(14701:15700);

Rn1=zeros(1,1000);

for nn=[1:1000],

for ii=[1:1000-nn],

Rn1(nn)=Rn1(nn)+temp(ii)*temp(nn+ii);

end

end

figure(4)

subplot(211)

jj=[1:1000];

plot(jj,Rn1,'b'); %绘制浊音短时自相关函数曲线title('浊音短时自相关函数');

grid on;

%清音,取10001--11000个点

%短时自相关函数

temp=Y(10001:11000);

Rn2=zeros(1,1000);

for nn=[1:1000],

for ii=[1:1000-nn],

Rn2(nn)=Rn2(nn)+temp(ii)*temp(nn+ii);

end

end

figure(4)

subplot(212)

jj=[1:1000];

plot(jj,Rn2,'b'); %绘制清音短时自相关函数曲线title('清音短时自相关函数');

grid on;

%浊音,取14701--15700个点

%短时幅度差函数

temp=Y(14701:15700);

Rn3=zeros(1,1000);

for nn=[1:1000],

for ii=[1:1000-nn],

Rn3(nn)=Rn3(nn)+abs(temp(ii)-temp(nn+ii));

end

end

figure(5)

subplot(211)

jj=[1:1000];

plot(jj,Rn3,'b'); %绘制浊音短时幅度差函数曲线

title('浊音短时幅度差函数');

grid on;

%清音,取10001--11000个点

%短时幅度差函数

temp=Y(10001:11000);

Rn4=zeros(1,1000);

for nn=[1:1000],

for ii=[1:1000-nn],

Rn4(nn)=Rn4(nn)+abs(temp(ii)-temp(nn+ii));

end

end

figure(5)

subplot(212)

jj=[1:1000];

plot(jj,Rn4,'b'); %绘制清音短时幅度差函数曲线

title('清音短时幅度差函数');

grid on;

语音信号处理

信号分析与处理课程设计———语音信号处理 姓名 学号 专业 指导教师 设计日期

1 引言 MATLAB是美国Math Works公司推出的一种面向工程和科学计算的交互式计算软件。它以矩阵运算为基础,把计算、可视化、程序设计融合在一个简单易用的交互式工作环境中,是一款数据分析和处理功能都非常强大的工程实用软件。本文介绍了用MATLAB处理音频信号的基本流程,并以实例形式列出了常用音频处理技术实现程序。 2 MATLAB处理音频信号的流程 分析和处理音频信号,首先要对声音信号进行采集,MATLAB数据采集工具箱提供了一整套命令和函数,通过调用这些函数和命令,可直接控制声卡进行数据采集[1]。Windows自带的录音机程序也可驱动声卡来采集语音信号,并能保存为WAV格式文件,供MATLAB相关函数直接读取、写入或播放。本文以WAV格式音频信号作为分析处理的输入数据,用MATLAB处理音频信号的基本流程是:先将WAV格式音频信号经wavread 函数转换成MATLAB列数组变量;再用MATLAB 强大的运算能力进行数据分析和处理,如时域分析、频域分析、数字滤波、信号合成、信号变换、识别和增强等等;处理后的数据如是音频数据,则可用wavwrite 转换成WAV格式文件或用sound、wavplay等函数直接回放。 下面分别介绍MATLAB在音量标准化、声道分离合并与组合、数字滤波、数据转换等音频信号处理方面的技术实现。 4系统初步流程图

图2.2 信号调整 信号的滤波采用了四种滤波方式,来观察各种滤波性能的优缺点: 图2.3 语音信号滤波的方式 在以上三图中,可以看到整个语音信号处理系统的流程大概分为三步,首先要读入待处理的语音信号,然后进行语音信号的处理,包括信息的提取、幅度和频率的变换以及语音信号的傅里叶变换、滤波等;滤波又包括低通滤波、高通滤波、带通滤波和带阻滤波等方式。最后对处理过的语音信号进行处理后的效果显示。以上是本系统的工作流程,本文将从语音信号的采集开始做详细介绍。 3 音量标准化 录制声音过程中需对声音电平进行量化处理,最理想的量化是最大电平对应最高量化比特,但实际却很难做到,常有音轻问题。利用MATLAB很容易实现音量标准化,即最大电平对应最高量化比特。基本步骤是:先用wavread函数将WAV文件转换成列数组变量;再求出数组变量的极值并对所有元素作归一化处理;最后用wavwrite函数还原成音量标准化的WAV文件。程序如下: clear; close all; clc; [Y,FS,NBITS]=wavread('xp.wav'); % 将WAV文件转换成变量FS, NBITS % 显示采样频率和量化比特Ym=max(max(max(Y)),max(abs(min(Y)))); % 找出双声道极值 X=Y/Ym; % 归一化处理 wavwrite(X,FS,NBITS,'xps.wav'); % 将变量转换成WAV文件

语音信号处理与及其MATLAB实现分析

目录 摘要 (2) 第一章绪论 (3) 1.1 语音课设的意义 (3) 1.2 语音课设的目的与要求 (3) 1.3 语音课设的基本步骤 (3) 第二章设计方案论证 (5) 2.1 设计理论依据 (5) 2.1.1 采样定理 (5) 2.1.2 采样频率 (5) 2.1.3 采样位数与采样频率 (5) 2.2 语音信号的分析及处理方法 (6) 2.2.1 语音的录入与打开 (6) 2.2.2 时域信号的FFT分析 (6) 2.2.3 数字滤波器设计原理 (7) 2.2.4 数字滤波器的设计步骤 (7) 2.2.5 IIR滤波器与FIR滤波器的性能比较 (7) 第三章图形用户界面设计 (8) 3.1 图形用户界面概念 (8) 3.2 图形用户界面设计 (8) 3.3 图形用户界面模块调试 (9) 3.3.1 语音信号的读入与打开 (9) 3.3.2 语音信号的定点分析 (9) 3.3.3 N阶高通滤波器 (11) 3.3.4 N阶低通滤波器 (12) 3.3.5 2N阶带通滤波器 (13) 3.3.6 2N阶带阻滤波器 (14) 3.4 图形用户界面制作 (15) 第四章总结 (18) 附录 (19) 参考文献 (24)

摘要 数字信号处理是将信号以数字方式表示并处理的理论和技术。数字信号处理与模拟信号处理是信号处理的子集。 数字信号处理的目的是对真实世界的连续模拟信号进行测量或滤波。因此在进行数字信号处理之前需要将信号从模拟域转换到数字域,这通常通过模数转换器实现。而数字信号处理的输出经常也要变换到模拟域,这是通过数模转换器实现的。 数字信号处理的算法需要利用计算机或专用处理设备如数字信号处理器(DSP)和专用集成电路(ASIC)等。数字信号处理技术及设备具有灵活、精确、抗干扰强、设备尺寸小、造价低、速度快等突出优点,这些都是模拟信号处理技术与设备所无法比拟的。 数字信号处理的核心算法是离散傅立叶变换(DFT),是DFT使信号在数字域和频域都实现了离散化,从而可以用通用计算机处理离散信号。而使数字信号处理从理论走向实用的是快速傅立叶变换(FFT),FFT的出现大大减少了DFT的运算量,使实时的数字信号处理成为可能、极大促进了该学科的发展。 MATLAB是矩阵实验室(Matrix Laboratory)的简称,和Mathematica、Maple 并称为三大数学软件。它在数学类科技应用软件中在数值计算方面首屈一指。MATLAB可以进行矩阵运算、绘制函数和数据、实现算法、创建用户界面、连接其他编程语言的程序等,主要应用于工程计算、控制设计、信号处理与通讯、图像处理、信号检测、金融建模设计与分析等领域。 MATLAB的基本数据单位是矩阵,它的指令表达式与数学、工程中常用的形式十分相似,故用MATLAB来解算问题要比用C,FORTRAN等语言完相同的事情简捷得多,并且mathwork也吸收了像Maple等软件的优点,使MATLAB成为一个强大的数学软件。在新的版本中也加入了对C,FORTRAN,C++ ,JAVA的支持。可以直接调用,用户也可以将自己编写的实用程序导入到MATLAB函数库中方便自己以后调用,此外许多的MATLAB爱好者都编写了一些经典的程序,用户可以直接进行下载就可以用。

电子信息工程专业考研学校排名

电子信息工程考研方向解读 电子信息工程考研的方向其实很多的,不过大家所知道甚少,笔者就搜集整理一些有关该专业的考研方向,希望对大家有所帮助。考研方向中不同的学科是不同的,分为一级学科是学科大类,二级学科是其下的学科小类;对于学校而言,二级学科无法申请成为一级学科,但是可以申请成为硕士和博士学位授予点,而一级学科一旦申请成功,其下的所有二级学科都可申请成为博士学位授予点。 例如: 0809 一级学科:电子科学与技术 080901 物理电子学080902 电路与系统 080903 微电子学与固体电子学080904电磁场与微波技术 0810 一级学科:信息与通信工程 081001通信与信息系统☆081002信号与信息处理☆ 0811 一级学科:控制科学与工程 081103 系统工程081104模式识别与智能系统 我找了以下专业方向以供大家参考,共十二大类。其中有些是与物理、机械、光电、电气、自动化、计算机等交叉的学科,但电信专业的学生可以报考。 1电路与系统 2集成电路工程 3自动控制工程 4模式识别与智能系统 5通信与信息系统 6信号与信息处理 7电子与通信工程 8电力电子与电力传动 9光电信息工程 10物理电子学 11精密仪器及机械简介 12测试计量技术及仪器 01.电路与系统 电路与系统学科研究电路与系统的理论、分析、测试、设计和物理实现。它是信息与通信工程和电子科学与技术这两个学科之间的桥梁,又是信号与信息处理、通信、控制、计算机乃至电力、电子等诸方面研究和开发的理论与技术基础。因为电路与系统学科的有力支持,才使得利用现代电子科学技术和最新元器件实现复杂、高性能的各种信息和通信网络与系统成为现实。 学科概况 信息与通讯产业的高速发展以及微电子器件集成规模的迅速增大,使得电子电路与系统走向数字化、集成化、多维化。电路与系统学科理论逐步由经典向现代过渡,同时和信息与通讯工程、计算机科学与技术、生物电子学等学科交叠,相互渗透,形成一系列的边缘、交叉学科,如新的微处理器设计、各种软、硬件数字信号处理系统设计、人工神经网络及其硬件实现等。 电路与系统专业排名是

语音信号处理答案

二、问答题(每题分,共分) 、语音信号处理主要研究哪几方面的内容? 语音信号处理是研究用数字信号处理技术对语言信号进行处理的一门学科,语音信号处理的理论和研究包括紧密结合的两个方面:一方面,从语言的产生和感知来对其进行研究,这一研究与语言、语言学、认知科学、心理、生理等学科密不可分;另一方面,是将语音作为一 种信号来进行处理,包括传统的数字信号处理技术以及一些新的应用于语音信号的处理方法 和技术。 、语音识别的研究目标和计算机自动语音识别的任务是什么? 语音识别技术,也被称为自动语音识别,(),其目标是将人类的语音中的词汇内容转换为 计算机可读的输入,例如按键、二进制编码或者字符序列。 计算机自动语音识别的任务就是让机器通过识别和理解过程把语音信号转变为相应的文本 或命令的高技术。 、语音合成模型关键技术有哪些? 语音合成是实现人机语音通信,建立一个有听和讲能力的口语系统所需的两项关键技术,该系统主要由三部分组成:文本分析模块、韵律生成模块和声学模块。.如何取样以精确地抽取人类发信的主要特征,.寻求什么样的网络特征以综合声道的频率响应,.输出合成声音的质量如何保证。 、语音压缩技术有哪些国际标准? 二、名词解释(每题分,共分) 端点检测:就从包含语音的一段信号中,准确的确定语音的起始点和终止点,区分语音信号和非语音信号。 共振峰:当准周期脉冲激励进入声道时会引起共振特性,产生一组共振频率,称为共振峰频率或简称共振峰。 语谱图:是一种三维频谱,它是表示语音频谱随时间变化的图形,其纵轴为频率,横轴为时间,任一给定的频率成分在给定时刻的强弱用相应点的灰度或色调的浓淡来表示。 码本设计:就是从大量信号样本中训练出好的码本,从实际效果出发寻找好的失真测度定义 公示,用最少的搜素和计算失真的运算量。 语音增强:语音质量的改善和提高,目的去掉语音信号中的噪声和干扰,改善它的质量 三、简答题(每题分,共分) 、简述如何利用听觉掩蔽效应。 一个较弱的声音(被掩蔽音)的听觉感受被另一个较强的声音(掩蔽音)影响的现象称为人耳的“掩蔽效应”。人耳的掩蔽效应一个较弱的声音(被掩蔽音)的听觉感受被另一个较强的声 音(掩蔽音)影响的现象称为人耳的“掩蔽效应”。被掩蔽音单独存在时的听阈分贝值,或者 说在安静环境中能被人耳听到的纯音的最小值称为绝对闻阈。实验表明,—绝对闻阈值最小,即人耳对它的微弱声音最敏感;而在低频和高频区绝对闻阈值要大得多。在范围内闻阈随频率变化最不显著,即在这个范围内语言可储度最高。在掩蔽情况下,提高被掩蔽弱音的强度, 使人耳能够听见时的闻阈称为掩蔽闻阈(或称掩蔽门限),被掩蔽弱音必须提高的分贝值称为 掩蔽量(或称阈移)。 、简述时间窗长与频率分辨率的关系。 采样周期、窗口长度和频率分辨率△之间存在下列关系:△(*) 可见,采样周期一定时,△随窗口宽度的增加而减少,即频率分辨率相应得到提高,但同时时间分辨率降低;如果窗口取短,频率分辨率下降,而时间分辨率提高,因而二者是矛盾的。 、简述时域分析的技术(最少三项)及其在基因检测中的应用。()

数字音频技术期末考试试卷

《数字音视频技术》期末考试试卷 一.选择(每题2分,共20分) 1.可闻声的频率范围() A.20~2000Hz B.200~20000Hz C.20~20000Hz D.200~2000Hz 2.下面哪一种相加混色产生的色彩是错误的() A.红色+绿色=黄色 B.红色+蓝色=橙色 C.蓝色+绿色=青色 D.红色+绿色+蓝色=白色。 3.不是数字图像的格式的是() A.JPG B. GIF C. TIFF D. WAVE 4.在音频数字化的过程中,对模拟语音信号处理的步骤依次为()A.抽样编码量化 B. 量化抽样编码 C. 抽样量化编码 D. 量化编码抽样 5.将声音转变为数字化信息,又将数字化信息变换为声音的设备是() A.声卡B.音响 C. 音箱D.PCI卡 6.不属于国际上常用的视频制式的是() A.PAL制 B.NTSC制C.SECAM制D.MPEG 7.数字音频采样和量化过程所用的主要硬件是() A.数字编码器 B.数字解码器 C.模拟到数字的转换器(A/D转换器) D.数字到模拟的转换器(D/A转换器) 8.信息接受者在没有接收到完整的信息前就能处理那些已经接受到的信息一边接收,一边处理的方式叫() A.多媒体技术B.流媒体技术 C.云技术D.动态处理技术

9.影响声音质量的因素不包括() A.声道数目B.采样频率 C.量化位数D.存储介质 10.我们常用的VCD,DVD采用的视频压缩编码国际标准是()A.MPEG B.PLA C.NTSC D.JPEG 二.填空(每空2分,共30分) 1.音质三要素:、和。 2.色彩三要素:、和。 3.混色的方法有:和。 4.视频冗余是指相邻帧间和每帧的水平方向和垂直方向上的相邻像素间存在很强的相关性,它包含的种类有:冗余、冗余、冗余、冗余和视觉冗余。 5.色彩模型中的三基色原理是指利用、和三种色光混合,可以产生各种色彩。 三.简答题(每题10分,共50分) 1.常见数字音频文件格式有哪些? 2. 常见数字视频文件格式有哪些? 3.什么是5.1声道环绕立体声?

语音信号处理 (第2版)赵力 编著 语音信号处理勾画要点

语音信号处理(第2版)赵力编著 重点考点 第2章语音信号处理的基础知识 1.语音(Speech)是声音(Acoustic)和语言(Language)的组合体。可以这样定义语音:语音是由一连串的音组成语言的声音。 2.人的说话过程可以分为五个阶段:(1)想说阶段(2)说出阶段(3)传送阶段(4)理解阶段(5)接收阶段。 3.语音是人的发声器官发出的一种声波,它具有一定的音色,音调,音强和音长。其中,音色也叫音质,是一种声音区别于另一种声音的基本特征。音调是指声音的高低,它取决于声波的频率。声音的强弱叫音强,它由声波的振动幅度决定。声音的长短叫音长,它取决于发音时间的长短。 4.说话时一次发出的,具有一个响亮的中心,并被明显感觉到的语音片段叫音节(Syllable)。一个音节可以由一个音素(Phoneme)构成,也可以由几个音素构成。音素是语音发音的最小单位。任何语言都有语音的元音(Vowel)和辅音(Consonant)两种音素。 5.元音的另一个重要声学特性是共振峰(Formant)。共振峰参数是区别不同元音的重要参数,它一般包括共振峰频率(Formant Frequency)的位置和频带宽度(Formant Bandwidth)。 6.区分语音是男声还是女声、是成人声音还是儿童声音,更重要的因素是共振峰频率的高低。 7.浊音的声带振动基本频率称基音周期(或基音频率),F0表示。 8.人的听觉系统有两个重要特性,一个是耳蜗对于声信号的时频分析特性;另一个是人耳听觉掩蔽效应。 9.掩蔽效应分为同时掩蔽和短时掩蔽。 10.激励模型:一般分成浊音激励和清音激励。浊音激励波是一个以基音周期为周期的斜三角脉冲串。 11.声道模型:一是把声道视为由多个等长的不同截面积的管子串联而成的系统。按此观点推导出的叫“声管模型”。另一个是把声道视为一个谐振腔,按此推导出的叫“共振峰模型”。 12.完整的语音信号的数字模型可以用三个子模型:激励模型、声道模型和辐射模型的串联来表示。 13.语谱图:人们致力于研究语音的时频分析特性,把和时序相关的傅立叶分析的显示图形。 第三章语音信号分析 1.贯穿于语音分析全过程的是“短时分析技术”。 2.语音信号的数字化一般包括放大及增益控制、反混叠滤波、采样、A/D变换及编码(一般就是PCM码);预处理一般包括预加重、加窗和分帧等。 3.预滤波的目的有两个:

基于Matlab的语音信号处理与分析

系(院)物理与电子工程学院专业电子信息工程题目语音信号的处理与分析 学生姓名 指导教师 班级 学号 完成日期:2013 年5 月 目录 1 绪论 (3) 1.1课题背景及意义 (3) 1.2国内外研究现状 (3) 1.3本课题的研究内容和方法 (4) 1.3.1 研究内容 (4) 1.3.2 开发环境 (4) 2 语音信号处理的总体方案 (4) 2.1 系统基本概述 (4) 2.2 系统基本要求与目的 (4) 2.3 系统框架及实现 (5) 2.3.1 语音信号的采样 (5) 2.3.2 语音信号的频谱分析 (5) 2.3.3 音乐信号的抽取 (5) 2.3.4 音乐信号的AM调制 (5) 2.3.5 AM调制音乐信号的同步解调 (5) 2.4系统设计流程图 (6) 3 语音信号处理基本知识 (6) 3.1语音的录入与打开 (6)

3.2采样位数和采样频率 (6) 3.3时域信号的FFT分析 (7) 3.4切比雪夫滤波器 (7) 3.5数字滤波器设计原理 (8) 4 语音信号实例处理设计 (8) 4.1语音信号的采集 (8) 4.3.1高频调制与低频调制 (10) 4.3.2切比雪夫滤波 (11) 4.3.3 FIR滤波 (11) 5 总结 (12) 参考文献 (13) 语音信号的处理与分析 【摘要】语音信号处理是研究用数字信号处理技术和语音学知识对语音信号进行处理的新兴的学科,是目前发展最为迅速的信息科学研究领域的核心技术之一。通过语音传递信息是人类最重要、最有效、最常用和最方便的交换信息形式。 Matlab语言是一种数据分析和处理功能十分强大的计算机应用软件,它可以将声音文件变换为离散的数据文件,然后利用其强大的矩阵运算能力处理数据,如数字滤波、傅里叶变换、时域和频域分析、声音回放以及各种图的呈现等,它的信号处理与分析工具箱为语音信号分析提供了十分丰富的功能函数,利用这些功能函数可以快捷而又方便地完成语音信号的处理和分析以及信号的可视化,使人机交互更加便捷。信号处理是Matlab重要应用的领域之一。 本设计针对现在大部分语音处理软件内容繁多、操作不便等问题,采用MATLAB7.0综合运用GUI界面设计、各种函数调用等来实现语音信号的变频、变幅、傅里叶变换及滤波,程序界面简练,操作简便,具有一定的实际应用意义。 最后,本文对语音信号处理的进一步发展方向提出了自己的看法。 【关键词】Matlab 语音信号傅里叶变换低通滤波器

《语音信号处理》期末试题总结

2011-2013学年 《语音信号处理》期末考试试题 适用班级:时量:120分钟闭卷记分: 考生班级:姓名:学号: 注:答案全部写在答题纸上,写在试卷上无效! 一、填空题:(每空2分) 1、矢量量化系统主要由编码器和译码器组成,其中编码器主要是由搜索算法和码书构成。P101 2、基于物理声学的共振峰理论,可以建立起三种实用的共振峰模型:级联型、并联型和混合型。P18 3、语音编码按传统的分类方法可以分为波形编码、参数编码和混合编码。P137 4、对语音信号进行压缩编码的基本依据是语音信号的冗余度和人的听觉感知机理。 P137-138 5、汉语音节一般由声母、韵母和声调三部分组成。P10 6、人的听觉系统有两个重要特性,一个是耳蜗对于声信号的时频分析特性;另一个是人耳听觉的掩蔽效应。P22 7、句法的最小单位是词,词法的最小单位是音节,音节可以由音素构成。P9 8、复倒谱分析中避免相位卷绕的算法,常用的有微分法和最小相位信号法。P62 9、语音信号处理也可以简称为语音处理,它是利用数字信号处理技术对语音信号进行处理的一门学科,包括语音编码、语音合成、语音识别、说话人识别和语音增强等五大分支。P3 10、语音信号处理也可以简称为语音处理,它是以数字信号处理和语音学为基础而形成的一个综合新的学科,包括发音语音学、声学语音学、听觉语音学和心理学等四大分支。P2,6 11、语音的四大要素:音质、音调、音强和音长。P9 12、人类发音过程有三类不同的激励方式,因而能产生三类不同的声音,即浊音、清音、和爆破音。P8 13、元音的一个重要声学特性是共振峰,它是区别不同元音的重要参数,它一般包括共振峰频率的位置和频带宽度。 14、语音信号的倒谱分析就是求取语音倒谱特征参数的过程,它可以通过同态信号处理来实现。P56 二、判断题:(每小题2分)√× 1、预测编码就是利用对误差信号进行编码来降低量化所需的比特数,从而使编码速率大幅降低。(×)P143 2、以线性预测分析-合成技术为基础的参数编码,一般都是根据语音信号的基音周期和清/浊音标志信息来决定要采用的激励信号源。(×)P181 3、自适应量化PCM就是一种量化器的特性,能自适应地随着输入信号的短时能量的变化而调整的编码方法。(×)P142 4、线性预测法正是基于全极点模型假定,采用时域均方误差最小准则来估计模型参数的。(×)P72 5、波形编码是依赖模型假定的语音编码方法。(×)P137 6、掩蔽效应是使一个声音A能感知的阀值因另一个声音B的出现而提高的现象,这时A叫

《语音信号处理》期末考试试题

2011-2012学年第一学期 《语音信号处理》期末考试试题(A) 适用班级:时量:120分钟闭卷记分: 考生班级:姓名:学号: 注:答案全部写在答题纸上,写在试卷上无效! 一、填空题:(共7小题,每空2分,共20分) 1、矢量量化系统主要由编码器和组成,其中编码器主要 是由搜索算法和构成。 2、基于物理声学的共振峰理论,可以建立起三种实用的共振峰 模型:级联型、并联型和。 3、语音编码按传统的分类方法可以分为、和混合 编码。 4、对语音信号进行压缩编码的基本依据是语音信号的和人 的听觉感知机理。 5、汉语音节一般由声母、韵母和三部分组成。 6、人的听觉系统有两个重要特性,一个是耳蜗对于声信号的时 频分析特性;另一个是人耳听觉的效应。 7、句法的最小单位是,词法的最小单位是音节,音节可 以由构成。 二、判断题:(共3小题,每小题2分,共6分)

1、预测编码就是利用对误差信号进行编码来降低量化所需的比 特数,从而使编码速率大幅降低。() 2、以线性预测分析-合成技术为基础的参数编码,一般都是根据 语音信号的基音周期和清/浊音标志信息来决定要采用的激 励信号源。() 3、自适应量化PCM就是一种量化器的特性,能自适应地随着输 入信号的短时能量的变化而调整的编码方法。() 三、单项选择题:(共3小题,每小题3分,共9分) 1、下列不属于衡量语音编码性能的主要指标是()。 (A)编码质量(B)矢量编码(C)编码速率(D)坚韧性 2、下列不属于编码器的质量评价的是() (A)MOS (B)DAM(C)DRT(D)ATC 3、限词汇的语音合成技术已经比较成熟了,一般我们是采用() 作为合成基元。 (A)词语(B)句子(C)音节(D)因素 四、简答题:(共2小题,每小题12分,共24分) 1、画出矢量量化器的基本结构,并说明其各部分的作用。 2、试画出语音信号产生的离散时域模型的原理框图,并说明各 部分的作用。 五、简答题:(共5小题,前三小题,每题5分,后两小题,每题10分,共35分) 1、线性预测分析的基本思想是什么?

通信中的语音信号处理复习大纲

《通信中的语音信号处理》复习大纲 北科大版 1、了解语音信号处理的目的、实质和发展历史; 实质:是研究用数字信号处理技术对语音信号进行处理的一门学科 目的:通过处理得到一些反映语音信号重要特征的语音参数以便高效地传输或储存语音信号所包含的信息。 通过对语音信号进行某种运算以达到某种要求。 发展历史:1876年电话的发明,贝尔(Bell); 1939年声码器的研制成功—声源+声道; 1947年贝尔实验室发明语谱图仪—语音识别研究的开始; 50年代第一台口授打字机和英语单词语音识别器; 60年代出现了第一台以数字计算机为基础的孤立词语音识别器和有限连续语音识别器; 70年代动态规划技术、隐马尔可夫模型、线性预测技术和矢量量化码书生成方法用于语音编码和识别; 80、90年代语音处理技术产品化—IBM Tangora-5和Tangora-20英语听写机,Dragon Dictate 词汇翻译系统(70000),汉语听写机。 CMU语音组研制成功SPHINX系统(997,95.8%); 国内,清华大学、中科院声学所和中科院自动化所在汉语听写机研究方面有一定成果。 (除了属于这种LPC[线性预测分析法]的方法外,还开发了各种数字语音处理方法。到目前为止,相继实现了语音编码、语音分析、语音合成、语音修正、语音识别、说话者识别等各种具体应用系统。) 2、理解和掌握语音信号的表示和处理方法,常用的语音编码的采样率和相应的数字语音信号的速率; 1.语音表示方法的选择:要保存语音信号中的消息内容;表示形式要便于传输和存储、变换和处理,不至于严重损害消息的内容, 有用信息更易于被提取; 2. 语音信号数字表示的优点: 数字技术能完成许多很复杂的信号处理工作; 语音可以看成是音素的组合,具有离散的性质,特别适合于数字处理; 数字系统具有高可靠性、价廉、紧凑、快速等特点,很容易完成实时处理任务; 数字语音适于在强干扰信道中传输,易于和数据一起在通信网中传输,也易于进行加密传输。 3. 语音信号的数字表示方法:波形表示—采样和量化,保持波形;参数表示—激励源和模型参数(第二章) 语音信号的特点—短时平稳性 4. 处理方法:短时时域处理方法—短时能量、短时平均过零率以及短时自相关函数计算 短时频域分析—短时傅立叶分析 线性预测技术—本质上属于时域分析方法,但其结果可以是频域参数 倒谱和同态分析、矢量量化和隐马尔可夫模型 5. PCM编码:采样率:8000次/second,均匀量化:采样率12bps信号速率96kbps,非均匀量化:采样率8bps信号速率64kbps ADPCM:采样率:8khz速率:32kbps 3、理解语音信号的产生过程、发生机理和语音信号的声学特性; 产生过程:语音是说话人和听者之间相互传递的信号,传递的媒介是声波,说话人的发音器官做出发声动作,接着空气振动形成声波,声波传到听者的耳朵里,立刻引起听者的听觉反应 发生机理: 声学特性:频率:与音高有关;振幅:与响度有关。 4、理解和掌握语音信号浊音的基音频率、共振峰,及共振峰的计算方法; 浊音的基音频率(F0):由声带的尺寸、特性和声带所受张力决定,其值等于声带张开和闭合一次的时间的倒数。人类基音频率的范围在60Hz至450Hz左右。 共振峰(formant):声道是一个谐振腔,当激励的频率达到至声道的固有频率,则声道会以最大的振幅振荡,此时的频率称之为共振峰或共振峰频率。声道具有的一组共振峰,声道的频谱特性主要反映出这些共振峰的不同位置以及各个峰的频带宽度。共振峰及其带宽取决于声道某一瞬间的形状和尺寸,因而不同的语音对应于一组不同的共振峰参数。实际应用中,头三个共振峰最重要。

语音信号处理实验报告实验一

通信工程学院12级1班罗恒2012101032 实验一语音信号的低通滤波和短时分析综合实验 一、实验要求 1、根据已有语音信号,设计一个低通滤波器,带宽为采样频率的四分之一,求输出信号; 2、辨别原始语音信号与滤波器输出信号有何区别,说明原因; 3、改变滤波器带宽,重复滤波实验,辨别语音信号的变化,说明原因; 4、利用矩形窗和汉明窗对语音信号进行短时傅立叶分析,绘制语谱图并估计基音周期,分析两种窗函数对基音估计的影响; 5、改变窗口长度,重复上一步,说明窗口长度对基音估计的影响。 二、实验目的 1.在理论学习的基础上,进一步地理解和掌握语音信号低通滤波的意义,低通滤波分析的基本方法。 2.进一步理解和掌握语音信号不同的窗函数傅里叶变化对基音估计的影响。 三、实验设备 1.PC机; 2.MATLAB软件环境; 四、实验内容 1.上机前用Matlab语言完成程序编写工作。 2.程序应具有加窗(分帧)、绘制曲线等功能。 3.上机实验时先调试程序,通过后进行信号处理。 4.对录入的语音数据进行处理,并显示运行结果。 5. 改变滤波带宽,辨别与原始信号的区别。 6.依据曲线对该语音段进行所需要的分析,并且作出结论。 7.改变窗的宽度(帧长),重复上面的分析内容。 五、实验原理及方法 利用双线性变换设计IIR滤波器(巴特沃斯数字低通滤波器的设计),首先要设计出满足指标要求的模拟滤波器的传递函数Ha(s),然后由Ha(s)通过双线性变换可得所要设计的IIR滤波器的系统函数H(z)。如果给定的指标为数字滤波器的指标,则首先要转换成模拟滤波器的技术指标,这里主要是边界频率Wp和Ws 的转换,对ap和as指标不作变化。边界频率的转换关系为∩=2/T tan(w/2)。接着,按照模拟低通滤波器的技术指标根据相应设计公式求出滤波器的阶数N和3dB截止频率∩c ;根据阶数N查巴特沃斯归一化低通滤波器参数表,得到归一化传输函数Ha(p);最后,将p=s/ ∩c 代入Ha(p)去归一,得到实际的模拟滤波器传输函数Ha(s)。之后,通过双线性变换法转换公式s=2/T((1-1/z)/(1+1/z))得到所要设计的IIR滤波器的系统函数H(z)。

语音信号处理复习纲要

Ch1 绪论 §1.1 语音信号处理概述 一、语音、语音信号处理的名词解释 1、语音:是语言的声学表现,是声音和意义的结合体,是相互传递信息的重要手段,是人类最重要、最有效、最常用和最方便的交换信息的形式。 2、语音信号处理:是研究用数字信号处理技术对语音信号进行处理的一门学科,它是一门新兴的学科,同时又是综合性的多学科领域和涉及很广的交叉学科。 二、语音处理技术的应用领域 语音处理技术的应用领域包括:工业、军事、交通、医学、民用等。 三、语音信号采用数字处理的原因(数字语音的优点) 语音信号均采用数字处理,是因为数字处理与模拟处理相比具有许多优点: 1、数字技术能够完成许多很复杂的信号处理工作; 2、通过语音进行交换的信息本质上具有离散的性质,语音可以看做是音素的组合,适合数字处理; 3、数字系统具有高可靠性、廉价、快速等优点,容易完成实时处理任务; 4、数字语音适合在强干扰信道中传输,也易于加密传输。 四、语音学的名词解释 语音学:是研究言语过程的一门科学,它包括三个研究内容:发音器官在发音过程中的运动和语音的音位特性;语音的物理特性;以及听觉和语言感知。 §1.2 语音信号处理的发展概况 一、语音信号处理的发展史 1、1874年:电话的发明时现代语音通信的开端; 2、1939年:通道声码器技术; 3、40年代后期:语谱仪; 4、50年代初:第一台口授打字机和英语单词语音识别器; 5、60年代:Fant发表《语音产生的声学理论》; 6、70年代初:Flanagan著作《语音分析、合成和感知》; 7、90年代以来:语音识别的研究由实验室走向实用化。 二、语音编码、语音合成、语音识别名词解释 1、语音编码:语音编码技术是伴随着语音信号的数字化而产生的,目前主要应用在数字语音通信领域。 2、语音合成:语音合成的目的是使计算机能像人一样说话,它是一种人机语音通信技术,应用领域广泛。 3、语音识别:语音识别是使计算机判断出所说的话得内容,和语音合成一样也是一种人机语音通信技术。 为了实现人机语音通信,必须具备语音识别和语音理解两种功能 Ch2 基础知识 §2.2 语音产生的过程 一、现代语音学发展的三个分支:发音语音学、声学语音学、听觉语音学。 二、语音、清音、浊音的名词解释及语音的产生过程(名词解释、简答,集中备课) 1、语音:声音是一种波,能被人耳听到,振动频率在20Hz-20kHz之间。语音室声音的一种,它是由人的发音器官发出的、具有一定语法和意义的声音。语音的振动频率最高可达15kHz左右。 2、人类生成语音过程的第一阶段包括神经核肌肉的生理学阶段和产生语音波、传递语音波的物理阶段。 3、语音由声带振动或不经声带振动来产生,其中由声带振动产生的音统称为浊音,而不由声带振动产生的音统称为清音。浊音中包括所有的元音和一些辅音,清音包括另一部分辅音。

语音信号处理复习题

1 研究语音信号处理的目的是什么?人类的通信有哪三种方式,从而说明语音信号处理有哪三个学科分支? 它的目的一是要通过处理得到一些反映语音信号重要特征的语音参数以便高效的传输或储存语音信号信息;二是要通过处理的某种运算以达到某种用途的要求。 1.什么叫做语言学?什么叫做语音学?言语过程可分为哪五个阶段? 语音中各个音的排列由一些规则所控制,对这些规则及其含义的研究学问称为语言学;另一个是对语音中各个音的物理特征和分类的研究称为语音学。人的说话过程如图2-1所示,可以分为五个阶段: (1)想说阶段: (2)说出阶段: (3)传送阶段: (4)接收阶段: (5)理解阶段: 3、有哪几种描述声道特性的数学模型?请说明声管模型流图是如何得出的?有几种共振峰模型?各有什么特点和适用情况? 声道的数学模型有两种观点: 1)声管模型 将声道看为由多个不同截面积的管子串联而成的系统。在“短时”期间,声道可表示为形状稳定的管道。 另一种观点是把声道视为一个谐振腔,按此推导出的叫“共振峰模型”。 共振峰模型,把声道视为一个谐振腔。共振峰就是这个腔体的谐振频率。由于人耳听觉的柯替氏器官的纤毛细胞就是按频率感受而排列其位置的,所以这种共振峰的声道模型方法是非常有效的。一般来说,一个元音用前三个共振峰来表示就足够了;而对于较复杂的辅音或鼻音,大概要用到前五个以上的共振峰才行。基于物理声学的共振峰理论,可以建立起三种实用的共振峰模型:级联型、并联型和混合型。 (1)级联型声道模型

这时认为声道是一组串联的二阶谐振器。从共振峰理论来看,整个声道具有多个谐振频率和多个反谐振频率,所以它可被模拟为一个零极点的数学模型;但对于一般元音,则用全极点模型就可以了。它的传输函数可分解表示为多个二阶极点的网络的串联: N=10,M=5时的声道模型如下图所示: (2)并联型声道模型 对于非一般元音以及大部分辅音,必须考虑采用零极点模型。此时,模型的传输函数如下: 通常,N>R ,且设分子与分母无公因子及分母无重根,则上式可分解为如下部分分式之和的形式: 这就是并联型的共振峰模型。如图2-21所示(M=5)。 (3)混合型声道模型 上述两种模型中,级联型比较简单,可以用于描述一般元音。当鼻化元音或鼻腔参与共振,以及阻塞音或摩擦音等情况时,级联模型就不能胜任了。这时腔体具有反谐振特性,必须考虑加入零点,使之成为零极点模型。采用并联结构的目的就在于此,它比级联型复杂些,每个谐振器的幅度都要独立地给以控制。但对于鼻音、塞音、擦音以及塞擦音等都可以适用。正因为如此,将级联模型和并联模型结合起来的混合模型也许是比较完备的一种共振峰模型。 22 12112cos(2)()12cos(2)k k k k B T B T M k B T B T k k e F T e V z e F T z e z ππ------=-+=-+∏∑∑=-=--= N k k k R r r r z a z b z V 1 1)(∑ =----=M i i i i z C z B A z V 12 11)(

语音信号处理实验一采集和预处理

实验一语音信号的采集及预处理 一、实验目的 在理论学习的基础上,进一步地理解和掌握语音信号预处理及短时加窗的意义及基于matlab的实现方法。 二、实验原理 1.语音信号的录音、读入、放音等:练习matlab中几个音频处理函数,利用函数wavread 对语音信号进行采样,记住采样频率和采样点数,给出以下语音的波形图(2.wav)。利用wavplay或soundview放音。也可以利用wavrecord自己录制一段语音,并进行以上操作(需要话筒)。 2.语音信号的分帧:对语音信号进行分帧,可以利用voicebox工具箱中的函数enframe。 voicebox工具箱是基于GNU协议的自由软件,其中包含了很多语音信号相关的函数。3.语音信号的加窗:本步要求利用window函数设计窗口长度为256(N=256)的矩形窗(rectwin)、汉明窗(hamming)及汉宁窗(hann)),利用wvtool函数观察其时域波形图及频谱特性,比较得出结论。观察整个信号加矩形窗及汉明窗后的波形,利用subplot与reshape函数将分帧后波形、加矩形窗波形及加汉明窗波形画在一张图上比较。取出其中一帧,利用subplot与reshape函数将一帧语音的波形、加矩形窗波形及加汉明窗波形画在一张图上比较将得出结论。 4.预加重:即语音信号通过一个一阶高通滤波器1 9375 1- -z。 .0 三、实验步骤、实验程序、图形及结论 1.语音信号的录音、读入、放音等 程序: [x,fs,nbit]=wavread('D:\2.wav'); %fs=10000,nbit=16 y=soundview('D:\2.wav') 2.语音信号的分帧 程序: [x,fs,nbit]=wavread('D:\2.wav'); len=256; inc=128; y=enframe(x,len,inc); figure; subplot(2,1,1),plot(x) subplot(2,1,2),plot(y)

数字语音信号处理的应用价值及发展趋势

数字语音信号处理的应用价值及发展趋势 姓名:宁闯 学号: 201005107 众所周知, 语音在人类社会中起了非常重要的作用。 在现代信息社会中, 小至人们的日 常生活,大到国家大事、世界新闻、社会舆论和各种重要会议,都离不开语言和文字。近年来,普通电话、 移动电话和互联网已经普及到家庭。在这些先进的工具中, 语音信号处理中 的语音编码和语音合成就有很大贡献。再进一步,可以预料到的口呼打字机 ( 又称听写机, 它能把语音转换为文字 ) 、 语音翻译机 ( 例如输入为汉语,输出为英语, 或者相反 ) ,已经不是 梦想而是提到日程上的研究工作了。 20 世纪 60 年代中期形成的一系列数字信号处理方法和算法 , 如数字滤波器、快速傅 里叶变换 (FFT) 是语音数字信号处理的理论和技术基础。而 70

年代初期产生的线性预测编. 码 (LPC) 算法 , 为语音信号的数字处理提供了一个强有力的工具。语音信号的编码和压缩是语音信号处理的主要内容。语音信号处理在通信、 语音识别与合成、自然语言理解、多媒体 数据库以及互联网等多个领域有广泛的应用 , 同时它对于理解音频类等一般的声音媒体的 特点也有很大的帮助。对于移动通信来说 , 最多的信息是语音信号 , 语音编码的技术在数字 移动通信中具有相当关键的作用 , 高质量低速率的语音编码技术是数字移动网的永远的追 求。所谓语音编码是信源编码 , 它是将模拟语音信号变成数字信号以便在信道中传输。除了 通信带宽的要求外 , 计算机存储容量的限制也要求对语音信号进行压缩 , 以满足海量数据情 况下进行实时或准实时计算机处理的目的。 1 语音信号处理的关键技术 语音信号处理的理论基础就是一般的数字信号处理理论 , 它的主要研究内容是语音编 码和语音压缩技术。 考虑到人对听觉媒体的感应特点 , 研究语音信号处理必须与声音心理学 联系起来。因此这里我们把声音心理学也列为语音信号处理的关键技术之一。 (1) 声音心理学

2003《多媒体技术基础》试题

通信2003《多媒体技术基础》试题(90分钟) 一、填空(每空1分,共27分) 1.等信息的载体中的两个或多个的组合成为多媒体。 2.对于音频,常用的三种采样频率是;; 3.在多媒体技术中,存储声音的常用文件格式有文件、文件、文件、文件。 4.样本精度为8位的信噪比等于分贝 5.大多数光盘驱动器所采用的控制接口可分为:。 6.多媒体数据数据压缩编码方法可分为两大类:一类是、另一类是。 7. 多媒体计算机处理图象和视频,首先必须将连续的图象函数f(x,y)进行空间和幅值的离散化处理,空间连续坐标(x,y)的离散化,叫做:f(x,y)颜色的离散化称之;为两种离散化结合在一起叫做。 8.MPEG编码的原理简化框图如下则①;②;③; 9、数码相机中的感光器件不是传统相机中的胶卷,而是, 10、两种典型的软件开发模型;。多媒体系统开发一般用模型 11、从统计学的角度来看,消息出现的可能性越大,信息越,反之,消息出现的可能性越小,信息越。 12 、MPEG-1标准的视频压缩算法中的两个技术基础是基于DCT变换的ADCT技术和基于块的。 13、JPEG压缩编码算法的主要计算步骤是:①DCT变换,②量化,③Z字形编码,④使用DPCM对直流系数(DC)进行编码,⑤使用RLE对交流系数(AC)进行编码,⑥熵编码。假设计算机的精度足够高,问在上述计算方法中,计算对图像的质量是有损的。 14、如果有一幅256色的图像,问该图的颜色深度是 二、判断题,请给正确的打上“√”,错误的打上“╳”。(每小题2分,共8分) 1.在音频数字处理技术中,要考虑采样、量化和编码问题。() 2.对音频数字化来说,在相同条件下,立体声比单声道占的空间大,分辨率越高则占的空间越小,采样频率越高则占的空间越大。() 3.根据采样定理,采样的频率至少高于信号最高频率的1倍。采样的频率越高,声音“回放”出来的质量也越高,但是要求的存储容量也越大。() 4.位图可以用画图程序获得() 三、单项选择(每小题1分,共20分) 1.超文本是一个()结构。 A、顺序的树形B、非线性的网状 C、线性的层次D、随机的链式 2.多媒体数据具有()特点。 A、数据量大和数据类型多 B、数据类型间区别大和数据类型少 C、数据量大、数据类型多、数据类型间区别小、输入和输出不复杂 D、数据量大、数据类型多、数据类型间区别大、输入和输出复杂

语音信号处理

语音信号处理 ——语音信号的清、浊音分析 班级: 姓名: 学号: 时间:2014年9月22日

1 实验目的 通过Matlab 编程实现语音信号的时域波形图,并观察清音、浊音信号的时域特点。掌握语音信号的时域分析技术,如短时平均能量、短时平均幅度、短时平均过零率分析、短时平均自相关、短时平均幅度差。 2 实验原理 语音信号是一种非平稳的时变信号,它携带着各种信息。在语音编码、语音合成、语音识别和语音增强等语音处理中无一例外需要提取语音中包含的各种信息。语音信号分析的目的就在与方便有效的提取并表示语音信号所携带的信息。语音信号分析可以分为时域和变换域等处理方法,其中时域分析是最简单的方法,直接对语音信号的时域波形进行分析,提取的特征参数主要有语音的短时能量,短时平均过零率,短时自相关函数等。 3 实验过程 1)观察信号波形图 信号的采样周期为20kHz ,图中幅度较大的为浊音,幅度较小的为清音。 2)计算语音信号的短时能量、短时平均幅度并画图 1 20()N n n m E x m -==∑ 1 0|()|N n n m M x m -==∑

由于语音信号的能量随时间变化,清音和浊音之间的能量差别显著。平均幅度函数没有平方运算,因此动态范围比短时能量小,接近于标准能量计算的动态范围的平方根。虽然都可以用来区分清、浊音,但短时平均幅度的清浊音幅度差没有短时能量明显。 3)计算信号的短时平均过零率并画图 1 1{|sgn[()]sgn[(1)]|}2N n n m Zn x m x m -==--∑

过零率可以反映信号的频谱特性。高频率对应着高过零率,低频对应着低过零率。浊音过零率低,清音的过零率低。 4)分别取语音信号的清、浊音部分,分析其短时自相关函数 1 0()()()N k n n n m R k x m x m k --== +∑ 分别取小段浊音、清音信号,计算其短时自相关函数。浊音的自相关函数呈现出周期性,有明显突出的峰值,在80个采样点附近,其基因周期: T=(1/fs)*80=(1/20000)*80=3ms ; 清音的短时自相关函数没有周期性,也不具有明显突出的峰值,其性质类似于噪声。 5)计算语音信号的短时平均幅度差函数并画图 1 0()|()()|N k n n n m F k x m x m k --== -+∑

相关文档
最新文档