2005年语音信号处理试卷

2005年语音信号处理试卷
2005年语音信号处理试卷

1、什么叫短时分析?怎样进行短时分析?从AMDF中如何确定基音周

期。

2、写出短时傅立叶变换的定义及其特点。其采样率是怎样考虑的?

3、什么是复倒谱?什么是倒谱?倒谱分析的目的是什么?

4、如何在复倒谱域区分出声门、声道序列?

5、线性预测方程组如何建立?写出Levinson-Durbin算法步骤。

6、简要叙述并行处理法基音估计算法。为何要作后处理?怎样作后处

理?

1、语音信号的清/浊音有什么区别?基频与共振峰是什么?

2、短时分析如何“分帧”?画图表示帧长、帧移。清/浊音的AMDF有

什么区别?

3、分别讨论短时傅立叶变换在n不变、w不变时的含义。采用直角窗时,

短时谱的时域取样率如何选择?

4、画出特征系统、逆特征系统的原理及输入输出信号间的关系。写出复

倒谱的定义。

5、声门、声道序列的复倒谱各有什么特点?

6、LPC系数与语音模型有什么关系?写出Levinson-Durbin算法的推导步

骤。

7、简述中心削波自相关法基音检测的原理及优点。为什么要进行后处

理?如何后处理?

8、利用所学知识,设计一个LPC声码器(要考虑基音检测方法,如何传

系数等),画出框图并作必要说明。

9、矢量量化中码书生成需解决哪些问题?解决的算法是什么?距离测度

的作用是什么?

一、名词解释(每题3分,共15分)

端点检测、共振峰、语谱图、码本设计、

二、简答题(每题6分,共30分)

1、简述如何利用听觉掩蔽效应。

2、简述时间窗长与频率分辨率的关系。

3、简述时域分析的技术(最少三项)及其在基因检测中的应用。

4、简述语音信号的频谱和功率谱的作用

5、简述同态信号处理在共振峰估计中的作用

三、论述题(每题8分,共40分)

1、常用的基音周期检测的方法有哪些?它们的基本原理是什么?

2、论述线性预测系数如何用于共振峰的估计。

3、论述标量量化与矢量量化的区别以及矢量量化在语音通信中的作用。

语音信号处理实验指导书

语音信号处理实验指导书 实验一 语音信号采集与简单处理 一、 实验目的、要求 (1)掌握语音信号采集的方法 (2)掌握一种语音信号基音周期提取方法 (3)掌握短时过零率计算方法 (4)了解Matlab 的编程方法 二、 实验原理 基本概念: (a )短时过零率: 短时内,信号跨越横轴的情况,对于连续信号,观察语音时域波形通过横轴的情况;对于离散信号,相邻的采样值具有不同的代数符号,也就是样点改变符号的次数。 对于语音信号,是宽带非平稳信号,应考察其短时平均过零率。 其中sgn[.]为符号函数 ?? ?? ?<=>=0 x(n)-1sgn(x(n))0 x(n)1sgn(x(n)) 短时平均过零的作用 1.区分清/浊音: 浊音平均过零率低,集中在低频端; 清音平均过零率高,集中在高频端。 2.从背景噪声中找出是否有语音,以及语音的起点。 (b )基音周期 基音是发浊音时声带震动所引起的周期性,而基音周期是指声带震动频率的倒数。基音周期是语音信号的重要的参数之一,它描述语音激励源的一个重要特征,基音周期信息在多个领域有着广泛的应用,如语音识别、说话人识别、语音分析与综合以及低码率语音编码,发音系统疾病诊断、听觉残障者的语音指导等。因为汉语是一种有调语言,基音的变化模式称为声调,它携带着非常重要的具有辨意作用的信息,有区别意义的功能,所以,基音的提取和估计对汉语更是一个十分重要的问题。 ∑--= -=1 )]1(sgn[)](sgn[21N m n n n m x m x Z

由于人的声道的易变性及其声道持征的因人而异,而基音周期的范围又很宽,而同—个人在不同情态下发音的基音周期也不同,加之基音周期还受到单词发音音调的影响,因而基音周期的精确检测实际上是一件比较困难的事情。基音提取的主要困难反映在:①声门激励信号并不是一个完全周期的序列,在语音的头、尾部并不具有声带振动那样的周期性,有些清音和浊音的过渡帧是很难准确地判断是周期性还是非周期性的。②声道共振峰有时会严重影响激励信号的谐波结构,所以,从语音信号中直接取出仅和声带振动有关的激励信号的信息并不容 易。③语音信号本身是准周期性的(即音调是有变化的),而且其波形的峰值点或过零点受共振峰的结构、噪声等的影响。④基音周期变化范围大,从老年男性的50Hz 到儿童和女性的450Hz ,接近三个倍频程,给基音检测带来了一定的困难。由于这些困难,所以迄今为止尚未找到一个完善的方法可以对于各类人群(包括男、女、儿童及不向语种)、各类应用领域和各种环境条件情况下都能获得满意的检测结果。 尽管基音检测有许多困难,但因为它的重要性,基音的检测提取一直是一个研究的课题,为此提出了各种各样的基音检测算法,如自相关函数(ACF)法、峰值提取算法(PPA)、平均幅度差函数(AMDF)法、并行处理技术、倒谱法、SIFT 、谱图法、小波法等等。 三、使用仪器、材料 微机(带声卡)、耳机,话筒。 四、 实验步骤 (1)语音信号的采集 利用Windows 语音采集工具采集语音信号,将数据保存wav 格式。 采集一组浊音信号和一组清音信号,信号的长度大于3s 。 (2)采用短时相关函数计算语音信号浊音基音周期,考虑窗长度对基音周期计算的影响。采用倒谱法求语音信号基音周期。 (3)计算短时过零率,清音和浊音的短时过零率有何区别。 五、实验过程原始记录(数据,图表,计算) 短时过零率 短时相关函数 P j j n s n s j R N j n n n n ,,1) ()()(1 =-=∑-= ∑--=-=10 )]1(sgn[)](sgn[21N m n n n m x m x Z

语音信号处理实验报告

语音信号处理实验 班级: 学号: 姓名:

实验一 基于MATLAB 的语音信号时域特征分析(2学时) 1) 短时能量 (1)加矩形窗 a=wavread('mike.wav'); a=a(:,1); subplot(6,1,1),plot(a); N=32; for i=2:6 h=linspace(1,1,2.^(i-2)*N);%形成一个矩形窗,长度为2.^(i-2)*N En=conv(h,a.*a);% 求短时能量函数En subplot(6,1,i),plot(En); if (i==2) ,legend('N=32'); elseif (i==3), legend('N=64'); elseif (i==4) ,legend('N=128'); elseif (i==5) ,legend('N=256'); elseif (i==6) ,legend('N=512'); end end 00.51 1.52 2.5 3 x 10 4 -1 100.5 1 1.5 2 2.5 3x 10 4 024 N=3200.5 1 1.5 2 2.5 3x 10 4 05 N=6400.5 1 1.5 2 2.5 3x 10 4 0510 N=12800.5 1 1.5 2 2.5 3x 10 4 01020 N=2560 0.5 1 1.5 2 2.5 3x 10 4 02040 N=512 (2)加汉明窗 a=wavread('mike.wav'); a=a(:,1); subplot(6,1,1),plot(a); N=32;

for i=2:6 h=hanning(2.^(i-2)*N);%形成一个汉明窗,长度为2.^(i-2)*N En=conv(h,a.*a);% 求短时能量函数En subplot(6,1,i),plot(En); if (i==2), legend('N=32'); elseif (i==3), legend('N=64'); elseif (i==4) ,legend('N=128'); elseif (i==5) ,legend('N=256'); elseif (i==6) ,legend('N=512'); end end 00.51 1.52 2.5 3 x 10 4 -1 100.5 1 1.5 2 2.5 3x 10 4 012 N=3200.5 1 1.5 2 2.5 3x 10 4 024 N=6400.5 1 1.5 2 2.5 3x 10 4 024 N=12800.5 1 1.5 2 2.5 3x 10 4 0510 N=2560 0.5 1 1.5 2 2.5 3x 10 4 01020 N=512 2) 短时平均过零率 a=wavread('mike.wav'); a=a(:,1); n=length(a); N=320; subplot(3,1,1),plot(a); h=linspace(1,1,N); En=conv(h,a.*a); %求卷积得其短时能量函数En subplot(3,1,2),plot(En); for i=1:n-1 if a(i)>=0 b(i)= 1;

语音信号处理复习题

1 研究语音信号处理的目的是什么?人类的通信有哪三种方式,从而说明语音信号处理有哪三个学科分支? 它的目的一是要通过处理得到一些反映语音信号重要特征的语音参数以便高效的传输或储存语音信号信息;二是要通过处理的某种运算以达到某种用途的要求。 1.什么叫做语言学?什么叫做语音学?言语过程可分为哪五个阶段? 语音中各个音的排列由一些规则所控制,对这些规则及其含义的研究学问称为语言学;另一个是对语音中各个音的物理特征和分类的研究称为语音学。人的说话过程如图2-1所示,可以分为五个阶段: (1)想说阶段: (2)说出阶段: (3)传送阶段: (4)接收阶段: (5)理解阶段: 3、有哪几种描述声道特性的数学模型?请说明声管模型流图是如何得出的?有几种共振峰模型?各有什么特点和适用情况? 声道的数学模型有两种观点: 1)声管模型 将声道看为由多个不同截面积的管子串联而成的系统。在“短时”期间,声道可表示为形状稳定的管道。 另一种观点是把声道视为一个谐振腔,按此推导出的叫“共振峰模型”。 共振峰模型,把声道视为一个谐振腔。共振峰就是这个腔体的谐振频率。由于人耳听觉的柯替氏器官的纤毛细胞就是按频率感受而排列其位置的,所以这种共振峰的声道模型方法是非常有效的。一般来说,一个元音用前三个共振峰来表示就足够了;而对于较复杂的辅音或鼻音,大概要用到前五个以上的共振峰才行。基于物理声学的共振峰理论,可以建立起三种实用的共振峰模型:级联型、并联型和混合型。 (1)级联型声道模型

这时认为声道是一组串联的二阶谐振器。从共振峰理论来看,整个声道具有多个谐振频率和多个反谐振频率,所以它可被模拟为一个零极点的数学模型;但对于一般元音,则用全极点模型就可以了。它的传输函数可分解表示为多个二阶极点的网络的串联: N=10,M=5时的声道模型如下图所示: (2)并联型声道模型 对于非一般元音以及大部分辅音,必须考虑采用零极点模型。此时,模型的传输函数如下: 通常,N>R ,且设分子与分母无公因子及分母无重根,则上式可分解为如下部分分式之和的形式: 这就是并联型的共振峰模型。如图2-21所示(M=5)。 (3)混合型声道模型 上述两种模型中,级联型比较简单,可以用于描述一般元音。当鼻化元音或鼻腔参与共振,以及阻塞音或摩擦音等情况时,级联模型就不能胜任了。这时腔体具有反谐振特性,必须考虑加入零点,使之成为零极点模型。采用并联结构的目的就在于此,它比级联型复杂些,每个谐振器的幅度都要独立地给以控制。但对于鼻音、塞音、擦音以及塞擦音等都可以适用。正因为如此,将级联模型和并联模型结合起来的混合模型也许是比较完备的一种共振峰模型。 22 12112cos(2)()12cos(2)k k k k B T B T M k B T B T k k e F T e V z e F T z e z ππ------=-+=-+∏∑∑=-=--= N k k k R r r r z a z b z V 1 1)(∑ =----=M i i i i z C z B A z V 12 11)(

语音信号处理实验报告

通信与信息工程学院 信息处理综合实验报告 班级:电子信息工程1502班 指导教师: 设计时间:2018/10/22-2018/11/23 评语: 通信与信息工程学院 二〇一八年 实验题目:语音信号分析与处理 一、实验内容 1. 设计内容 利用MATLAB对采集的原始语音信号及加入人为干扰后的信号进行频谱分析,使用窗函数法设计滤波器滤除噪声、并恢复信号。 2.设计任务与要求 1. 基本部分

(1)录制语音信号并对其进行采样;画出采样后语音信号的时域波形和频谱图。 (2)对所录制的语音信号加入干扰噪声,并对加入噪声的信号进行频谱分析;画出加噪后信号的时域波形和频谱图。 (3)分别利用矩形窗、三角形窗、Hanning窗、Hamming窗及Blackman 窗几种函数设计数字滤波器滤除噪声,并画出各种函数所设计的滤波器的频率响应。 (4)画出使用几种滤波器滤波后信号时域波形和频谱,对滤波前后的信号、几种滤波器滤波后的信号进行对比,分析信号处理前后及使用不同滤波器的变化;回放语音信号。 2. 提高部分 (5)录制一段音乐信号并对其进行采样;画出采样后语音信号的时域波形和频谱图。 (6)利用MATLAB产生一个不同于以上频段的信号;画出信号频谱图。 (7)将上述两段信号叠加,并加入干扰噪声,尝试多次逐渐加大噪声功率,对加入噪声的信号进行频谱分析;画出加噪后信号的时域波形和频谱图。 (8)选用一种合适的窗函数设计数字滤波器,画出滤波后音乐信号时域波形和频谱,对滤波前后的信号进行对比,回放音乐信号。 二、实验原理 1.设计原理分析 本设计主要是对语音信号的时频进行分析,并对语音信号加噪后设计滤波器对其进行滤波处理,对语音信号加噪声前后的频谱进行比较分析,对合成语音信号滤波前后进行频谱的分析比较。 首先用PC机WINDOWS下的录音机录制一段语音信号,并保存入MATLAB软件的根目录下,再运行MATLAB仿真软件把录制好的语音信号用audioread函数加载入MATLAB仿真软件的工作环境中,输入命令对语音信号进行时域,频谱变换。 对该段合成的语音信号,分别用矩形窗、三角形窗、Hanning窗、Hamming窗及Blackman窗几种函数在MATLAB中设计滤波器对其进行滤波处理,滤波后用命令可以绘制出其频谱图,回放语音信号。对原始语音信号、合成的语音信号和经过滤波器处理的语音信号进行频谱的比较分析。 2.语音信号的时域频域分析 在Matlab软件平台下可以利用函数audioread对语音信号进行采样,得到了声音数据变量y,同时把y的采样频率Fs=44100Hz放进了MATALB的工作空间。

语音信号处理考试题(综合)

语音信号处理重点、考点、考试题 一、填空题:(共7小题,每空2分,共20分) A卷 1、矢量量化系统主要由编码器和组成,其中编码器主要是由搜索算法和构成。 2、基于物理声学的共振峰理论,可以建立起三种实用的共振峰模型:级联型、并联型和。 3、语音编码按传统的分类方法可以分为、和混合编码。 4、对语音信号进行压缩编码的基本依据是语音信号的和人的听觉感知机理。 5、汉语音节一般由声母、韵母和三部分组成。 6、人的听觉系统有两个重要特性,一个是耳蜗对于声信号的时频分析特性;另一个是人耳听觉的效应。 7、句法的最小单位是,词法的最小单位是音节,音节可以由构成。 二、判断题:(共3小题,每小题2分,共6分) 1、预测编码就是利用对误差信号进行编码来降低量化所需的比特数,从而使编码速率大幅降低。() 2、以线性预测分析-合成技术为基础的参数编码,一般都是根据语音信号的基音周期和清/浊音标志信息来决定要采用的激励信号源。() 3、自适应量化PCM就是一种量化器的特性,能自适应地随着输入信号的短时能量的变化而调整的编码方法。() 三、单项选择题:(共3小题,每小题3分,共9分) 1、下列不属于衡量语音编码性能的主要指标是()。(A)编码质量(B)矢量编码(C)编码速率(D)坚韧性 2、下列不属于编码器的质量评价的是()(A)MOS (B)DAM(C)DRT(D)ATC 3、限词汇的语音合成技术已经比较成熟了,一般我们是采用()作为合成基元。 (A)词语(B)句子(C)音节(D)因素 四、简答题:(共2小题,每小题12分,共24分) 1、画出矢量量化器的基本结构,并说明其各部分的作用。 2、试画出语音信号产生的离散时域模型的原理框图,并说明各部分的作用。 五、简答题:(共5小题,前三小题,每题5分,后两小题,每题10分,共35分) 1、线性预测分析的基本思想是什么? 2、隐马尔可夫模型的特点是什么? 3、矢量量化器的所谓最佳码本设计是指什么? 4、针对短时傅里叶变换Ⅹn(ejw)的定义式,请从两个角度对其进行物理意义的分析。 5、针对短时傅里叶变换的时间分辨率和频率分辨率的矛盾性,请给予分析说明。 六、计算题:(共1小题,每小题6分,共6分) 1、已知一个简单的三状态HMM模型的图形,如图一所示。求该HMM模型输出aab的概率为多少?(要有求解过程,无计算过程不得分)

大学本科语音信号处理实验讲义8学时

语音信号处理实验讲义 时间:2011-12

目录 实验一语音信号生成模型分析 (3) 实验二语音信号时域特征分析 (7) 实验三语音信号频域特征分析 (12) 实验四语音信号的同态处理和倒谱分析 (16)

实验一 语音信号生成模型分析 一、实验目的 1、了解语音信号的生成机理,了解由声门产生的激励函数、由声道产生的调制函数和由嘴唇产生的辐射函数。 2、编程实现声门激励波函数波形及频谱,与理论值进行比较。 3、编程实现已知语音信号的语谱图,区分浊音信号和清音信号在语谱图上的差别。 二、实验原理 语音生成系统包含三部分:由声门产生的激励函数()G z 、由声道产生的调制函数()V z 和由嘴唇产生的辐射函数()R z 。语音生成系统的传递函数由这三个函数级联而成,即 ()()()()H z G z V z R z = 1、激励模型 发浊音时,由于声门不断开启和关闭,产生间隙的脉冲。经仪器测试它类似于斜三角波的脉冲。也就是说,这时的激励波是一个以基音周期为周期的斜三角脉冲串。单个斜三角波的频谱表现出一个低通滤波器的特性。可以把它表示成z 变换的全极点形式 12 1()(1) cT G z e z --= -? 这里c 是一个常数,T 是脉冲持续时间。周期的三角波脉冲还得跟单位脉冲串的z 变换相乘: 112 1 ()()()1(1)v cT A U z E z G z z e z ---=?= ?--? 这就是整个激励模型,v A 是一个幅值因子。 2、声道模型 当声波通过声道时,受到声腔共振的影响,在某些频率附近形成谐振。反映在信号频谱图上,在谐振频率处其谱线包络产生峰值,把它称为共振峰。 一个二阶谐振器的传输函数可以写成 12 ()1i i i i A V z B z C z --= -- 实践表明,用前3个共振峰代表一个元音足够了。对于较复杂的辅音或鼻音共振峰要到5个以上。多个()i V z 叠加可以得到声道的共振峰模型 12 1 11 ()()11R r r M M i r i N k i i i i k k b z A V z V z B z C z a z -=---======---∑∑∑ ∑ 3、辐射模型 从声道模型输出的是速度波,而语音信号是声压波。二者倒比称为辐射阻抗,它表征了

语音信号处理复习纲要

Ch1 绪论 §1.1 语音信号处理概述 一、语音、语音信号处理的名词解释 1、语音:是语言的声学表现,是声音和意义的结合体,是相互传递信息的重要手段,是人类最重要、最有效、最常用和最方便的交换信息的形式。 2、语音信号处理:是研究用数字信号处理技术对语音信号进行处理的一门学科,它是一门新兴的学科,同时又是综合性的多学科领域和涉及很广的交叉学科。 二、语音处理技术的应用领域 语音处理技术的应用领域包括:工业、军事、交通、医学、民用等。 三、语音信号采用数字处理的原因(数字语音的优点) 语音信号均采用数字处理,是因为数字处理与模拟处理相比具有许多优点: 1、数字技术能够完成许多很复杂的信号处理工作; 2、通过语音进行交换的信息本质上具有离散的性质,语音可以看做是音素的组合,适合数字处理; 3、数字系统具有高可靠性、廉价、快速等优点,容易完成实时处理任务; 4、数字语音适合在强干扰信道中传输,也易于加密传输。 四、语音学的名词解释 语音学:是研究言语过程的一门科学,它包括三个研究内容:发音器官在发音过程中的运动和语音的音位特性;语音的物理特性;以及听觉和语言感知。 §1.2 语音信号处理的发展概况 一、语音信号处理的发展史 1、1874年:电话的发明时现代语音通信的开端; 2、1939年:通道声码器技术; 3、40年代后期:语谱仪; 4、50年代初:第一台口授打字机和英语单词语音识别器; 5、60年代:Fant发表《语音产生的声学理论》; 6、70年代初:Flanagan著作《语音分析、合成和感知》; 7、90年代以来:语音识别的研究由实验室走向实用化。 二、语音编码、语音合成、语音识别名词解释 1、语音编码:语音编码技术是伴随着语音信号的数字化而产生的,目前主要应用在数字语音通信领域。 2、语音合成:语音合成的目的是使计算机能像人一样说话,它是一种人机语音通信技术,应用领域广泛。 3、语音识别:语音识别是使计算机判断出所说的话得内容,和语音合成一样也是一种人机语音通信技术。 为了实现人机语音通信,必须具备语音识别和语音理解两种功能 Ch2 基础知识 §2.2 语音产生的过程 一、现代语音学发展的三个分支:发音语音学、声学语音学、听觉语音学。 二、语音、清音、浊音的名词解释及语音的产生过程(名词解释、简答,集中备课) 1、语音:声音是一种波,能被人耳听到,振动频率在20Hz-20kHz之间。语音室声音的一种,它是由人的发音器官发出的、具有一定语法和意义的声音。语音的振动频率最高可达15kHz左右。 2、人类生成语音过程的第一阶段包括神经核肌肉的生理学阶段和产生语音波、传递语音波的物理阶段。 3、语音由声带振动或不经声带振动来产生,其中由声带振动产生的音统称为浊音,而不由声带振动产生的音统称为清音。浊音中包括所有的元音和一些辅音,清音包括另一部分辅音。

《语音信号处理》实验报告材料

实用 中南大学 信息科学与工程学院 语音信号处理 实验报告 指导老师:覃爱娜 学生班级:信息0704 学生名称:阮光武 学生学好:0903070430 提交日期:2010年6月18日

实验一 语音波形文件的分析和读取 一、实验的任务、性质与目的 本实验是选修《语音信号处理》课的电子信息类专业学生的基础实验。通过实验: (1)掌握语音信号的基本特性理论:随机性,时变特性,短时平稳性,相关性等; (2)掌握语音信号的录入方式和*.WAV音波文件的存储结构; (3)使学生初步掌握语音信号处理的一般实验方法。 二、实验原理和步骤: WAV文件格式简介 WAV文件是多媒体中使用了声波文件的格式之一,它是以RIFF格式为标准。每个WAV文件的头四个字节就是“RIFF”。WAV文件由文件头和数据体两大部分组成,其中文件头又分为RIFF/WAV文件标识段和声音数据格式说明段两部分。常见的WAV声音文件有两种,分别对应于单声道(11.025KHz采样率、8Bit的采样值)和双声道(44.1KHz采样率、16Bit的采样值)。采样率是指声音信号在“模拟→数字”转换过程中,单位时间内采样的次数;采样值是指每一次采样周期内声音模拟信号的积分值。对于单声道声音文件,采样数据为8位的短整数(short int 00H-FFH);而对于双声道立体声声音文件,每次采样数据为一个16位的整数(int),高八位和低八位分别代表左右两个声道。WAV文件数据块包含以脉冲编码调制(PCM)格式表示的样本。在单声道WAV文件中,道0代表左声道,声道1代表右声道;在多声道WAV文件中,样本是交替出现的。WAV文件的格式见表1。

语音信号处理知识点总结

语音信号处理(电技重点) 第二章 1、语音产生的机制、清音浊音(p7倒数第三段); 2、语音的特点:浊音,准周期信号,短时能量大,过零率小; 清音,随即自噪声,………….小,………大; 声道,谐振腔,谐振频率,共振峰频率; 音调,音强,音长,音质; 频谱特征:清音谐波不明显; 浊音谐波结构(精细频谱) 谱包络(共振峰机构); 3、统计分布,幅度分布(伽马分布修正); 4、数字模型:激励模型(清音随即自噪声,浊音周期脉冲序列) 声道模型(级联型、并联型、混合型) 5、响度、音调、音色; 6、语音感知:16hz---16Khz 频谱分析,色彩感知,屏蔽效应; 第三章 1、取样率8khz(数字域) 2、预处理(放大及增益控制,反混叠,预加重) 3、短时能量分析短时能量随时间变化规律,区分清/浊音、声/韵母; 4、短时过零率表现短时频谱特征,预测清/浊音、有/无声; 5、短时相关求浊音周期及缺点 6、短时平均幅度差:极小值——>求基音周期 第四章 1、语音时变谱2种解释; 2、取样率(时间分辨率、频率分辨率); 第五章 1、同态分析了解; 2、复倒谱倒谱意义 准周期信号倒谱仍是准周期,T不变,幅度随f下降,page60,提取T依据; 声道冲击响应倒谱——最小相位序列的为因果序列,衰减快page61能量集中在低频; ——最大…………….为反因果序列…; 3、最小相位法递推法掌握; 4、给段语音倒谱求声门激励序列声道冲击序列; 第六章 1、线性预测基本原理:建立在全极点模型下 用过去式测值预测现在以及将来时; 2、预测滤波器F(z),线性预测误差滤波器A(z),语音合成全极点滤波器H(z)——三者关系; 3、优化原则:均方误差最小,求偏导求A(z), H(z)系数; 4、自相关法、均方差法,格型法优缺点; 5、LPC谱估计:6~10阶,逼近谱包络 6、LPC复倒谱了解 7、线谱对:定义特点(掌握);

语音信号处理复习资料

8预加重和去加重的理解7线性预测编码特点和定义 5隐马尔可夫差数特点计算 以上三题没有 老师画的其他的重点为红色标记的(注意:仅供参考) 一、语音、语音信号处理的名词解释 1、语音:是语言的声学表现,是声音和意义的结合体,是相互传递信息的重要手段,是人类最重要、最有效、最常用和最方便的交换信息的形式。 2、语音信号处理:是研究用数字信号处理技术对语音信号进行处理的一门学科,它是一门新兴的学科,同时又是综合性的多学科领域和涉及很广的交叉学科。它与语音学、语言学、声学、认知科学、生理学、心理学有密切关系。 二、语音学的名词解释 语音学:是研究言语过程的一门科学,它包括三个研究内容:发音器官在发音过程 中的运动和语音的音位特性;语音的物理特性;以及听觉和语言感知。 §.2语音信号处理的发展概况 1、语音编码:语音编码技术是伴随着语音信号的数字化而产生的,目前主要应用在数字语音通信领域。 2、语音合成:语音合成的目的是使计算机能像人一样说话。 3、语音识别:语音识别是使计算机判断出所说的话得内容。 §.2语音产生的过程 一、语音、清音、浊音 1、语音:声音是一种波,能被人耳听到,振动频率在20Hz-20kHz之间。语音是声音的一种,它是由人的发音器官发出的、具有一定语法和意义的声音。语音的振动频率最高可达15kHz左右。

2、浊音、清音:语音由声带振动或不经声带振动来产生,其中由声带振动产生的音统称为浊音,而不由声带振动产生的音统称为清音。浊音中包括所有的元音和一些辅音,清音包括另一部分辅音。 二、语音的产生过程:空气从肺部排出形成气流。空气通过声带时,如果声带是紧绷的,则声带将产生张弛振动,即声带周期性地开启和闭合。声带开启时,空气流从声门喷射出来,形成一个脉冲;声带闭合时相应于脉冲序列的间歇期。 语言交际:通过连接说话人大脑的一连串心理、生理、和物理的转换过程实现的。这个过程包括:发音-传递-感知。因此现代语音的三个分支:发音语言学、声学语言学、听觉语言学。 三、基音周期、基音频率 基音周期:声带开启和闭合一次的时间即振动周期称为音调周期或基音周期。基音频率:基音周期的倒数称为基音频率,简称为基频。 四、浊音、清音、爆破音的激励源 对于浊音、清音和爆破音来说,激励源是不同的,浊音语音是位于声门处的准周期脉冲序列,清音的激励源是位于声道的某个收缩区的空气湍流,而爆破音的激励源是位于声道某个闭合点处建立起来的气压及其突然释放。 五、共振峰的概念(参见大纲) 1、共振峰名词解释:声道是一个分布参数系统,它是一个谐振腔,有许多谐振频率, 称为共振峰,它是声道的重要声学特征。 2、共振峰的公式:Fn=(2 n-1)c/4L (会运用公式进行计算,填空、选择) 3、谐振点间的间隔不同,但平均仍然大约为每1KHz有一个谐振点。 4、声道的共振峰特性决定所发声音的频谱特性(音色)。 5、头三个共振峰最重要。 §.3语音信号的特性 一、语音的物理属性(集中备课) 语音的物理性质包括音质、音调、音强、音长等特性。语音是人的发音器官发出的一种声波,具有声音的物理属性。音质是一种声音区别于其他声音的基本特征;音调指声音的高低,取决

语音信号处理实验报告实验二

通信工程学院12级1班 罗恒 2012101032 实验二 基于MATLAB 的语音信号频域特征分析 一、 实验要求 要求根据已有语音信号,自己设计程序,给出其倒谱、语谱图的分析结果,并根据频域分析方法检测所分析语音信号的基音周期或共振峰。 二、 实验目的 信号的傅立叶表示在信号的分析与处理中起着重要的作用。因为对于线性系统来说,可以很方便地确定其对正弦或复指数和的响应,所以傅立叶分析方法能完善地解决许多信号分析和处理问题。另外,傅立叶表示使信号的某些特性变得更明显,因此,它能更深入地说明信号的各项红物理现象。 由于语音信号是随着时间变化的,通常认为,语音是一个受准周期脉冲或随机噪声源激励的线性系统的输出。输出频谱是声道系统频率响应与激励源频谱的乘积。声道系统的频率响应及激励源都是随时间变化的,因此一般标准的傅立叶表示虽然适用于周期及平稳随机信号的表示,但不能直接用于语音信号。由于语音信号可以认为在短时间内,近似不变,因而可以采用短时分析法。 三、 实验设备 1.PC 机; 2.MATLAB 软件环境; 四、 实验内容 1.上机前用Matlab 语言完成程序编写工作。 2.程序应具有加窗(分帧)、绘制曲线等功能。 3.上机实验时先调试程序,通过后进行信号处理。 4.对录入的语音数据进行处理,并显示运行结果。 5.依次给出其倒谱、语谱图的分析结果。 6. 根据频域分析方法检测所分析语音信号的基音周期或共振峰。 五、 实验原理及方法 1、短时傅立叶变换 由于语音信号是短时平稳的随机信号,某一语音信号帧的短时傅立叶变换的定义为: 其中w(n -m)是实窗口函数序列,n 表示某一语音信号帧。令n -m=k',则得到 ()()()jw jwm n m X e x m w n m e ∞-=-∞= -∑

(完整)《语音信号处理》期末试题总结,推荐文档

2011-2013学年 《语音信号处理》期末考试试题 适用班级:时量:120分钟闭卷记分: 考生班级:姓名:学号: 注:答案全部写在答题纸上,写在试卷上无效! 一、填空题:(每空2分) 1、矢量量化系统主要由编码器和译码器组成,其中编码器主要是由搜索算法和码书构成。P101 2、基于物理声学的共振峰理论,可以建立起三种实用的共振峰模型:级联型、并联型和混合型。P18 3、语音编码按传统的分类方法可以分为波形编码、参数编码和混合编码。P137 4、对语音信号进行压缩编码的基本依据是语音信号的冗余度和人的听觉感知机理。 P137-138 5、汉语音节一般由声母、韵母和声调三部分组成。P10 6、人的听觉系统有两个重要特性,一个是耳蜗对于声信号的时频分析特性;另一个是人耳听觉的掩蔽效应。P22 7、句法的最小单位是词,词法的最小单位是音节,音节可以由音素构成。P9 8、复倒谱分析中避免相位卷绕的算法,常用的有微分法和最小相位信号法。P62 9、语音信号处理也可以简称为语音处理,它是利用数字信号处理技术对语音信号进行处理的一门学科,包括语音编码、语音合成、语音识别、说话人识别和语音增强等五大分支。P3 10、语音信号处理也可以简称为语音处理,它是以数字信号处理和语音学为基础而形成的一个综合新的学科,包括发音语音学、声学语音学、听觉语音学和心理学等四大分支。P2,6 11、语音的四大要素:音质、音调、音强和音长。P9 12、人类发音过程有三类不同的激励方式,因而能产生三类不同的声音,即浊音、清音、和爆破音。P8 13、元音的一个重要声学特性是共振峰,它是区别不同元音的重要参数,它一般包括共振峰频率的位置和频带宽度。 14、语音信号的倒谱分析就是求取语音倒谱特征参数的过程,它可以通过同态信号处理来实现。P56 二、判断题:(每小题2分)√× 1、预测编码就是利用对误差信号进行编码来降低量化所需的比特数,从而使编码速率大幅降低。(×)P143 2、以线性预测分析-合成技术为基础的参数编码,一般都是根据语音信号的基音周期和清/浊音标志信息来决定要采用的激励信号源。(×)P181 3、自适应量化PCM就是一种量化器的特性,能自适应地随着输入信号的短时能量的变化而调整的编码方法。(×)P142 4、线性预测法正是基于全极点模型假定,采用时域均方误差最小准则来估计模型参数的。(×)P72 5、波形编码是依赖模型假定的语音编码方法。(×)P137 6、掩蔽效应是使一个声音A能感知的阀值因另一个声音B的出现而提高的现象,这时A叫

语音信号处理试验教程

语音信号处理试验 实验一:语音信号时域分析 实验目的: (1)录制两段语音信号,内容是“语音信号处理”,分男女声。 (2)对语音信号进行采样,观察采样后语音信号的时域波形。 实验步骤: 1、使用window自带录音工具录制声音片段 使用windows自带录音机录制语音文件,进行数字信号的采集。启动录音机。录制一段录音,录音停止后,文件存储器的后缀默认为.Wav。将录制好文件保存,记录保存路径。男生女生各录一段保存为test1.wav和test2.wav。 图1基于PC机语音信号采集过程。 2、读取语音信号 在MATLAB软件平台下,利用wavread函数对语音信号进行采样,记住采样频率和采样点数。通过使用wavread函数,理解采样、采样频率、采样位数等概念! Wavread函数调用格式: y=wavread(file),读取file所规定的wav文件,返回采样值放在向量y中。

[y,fs,nbits]=wavread(file),采样值放在向量y中,fs表示采样频率(hz),nbits表示采样位数。 y=wavread(file,N),读取前N点的采样值放在向量y中。 y=wavread(file,[N1,N2]),读取从N1到N2点的采样值放在向量y中。 3、编程获取语音信号的抽样频率和采样位数。 语音信号为test1.wav和test2.wav,内容为“语音信号处理”,两端语音保存到工作空间work文件夹下。在M文件中分别输入以下程序,可以分两次输入便于观察。 [y1,fs1,nbits1]=wavread('test1.wav') [y2,fs2,nbits2]=wavread('test2.wav') 结果如下图所示 根据结果可知:两端语音信号的采样频率为44100HZ,采样位数为16。 4、语音信号的时域分析 语音信号的时域分析就是分析和提取语音信号的时域参数。进行语音分析时,最先接触到并且夜市最直观的是它的时域波形。语音信

《语音信号处理》期末考试试题

2011-2012学年第一学期 《语音信号处理》期末考试试题(A) 适用班级:时量:120分钟闭卷记分: 考生班级:姓名:学号: 注:答案全部写在答题纸上,写在试卷上无效! 一、填空题:(共7小题,每空2分,共20分) 1、矢量量化系统主要由编码器和组成,其中编码器主要 是由搜索算法和构成。 2、基于物理声学的共振峰理论,可以建立起三种实用的共振峰 模型:级联型、并联型和。 3、语音编码按传统的分类方法可以分为、和混合 编码。 4、对语音信号进行压缩编码的基本依据是语音信号的和人 的听觉感知机理。 5、汉语音节一般由声母、韵母和三部分组成。 6、人的听觉系统有两个重要特性,一个是耳蜗对于声信号的时 频分析特性;另一个是人耳听觉的效应。 7、句法的最小单位是,词法的最小单位是音节,音节可 以由构成。 二、判断题:(共3小题,每小题2分,共6分)

1、预测编码就是利用对误差信号进行编码来降低量化所需的比 特数,从而使编码速率大幅降低。() 2、以线性预测分析-合成技术为基础的参数编码,一般都是根据 语音信号的基音周期和清/浊音标志信息来决定要采用的激 励信号源。() 3、自适应量化PCM就是一种量化器的特性,能自适应地随着输 入信号的短时能量的变化而调整的编码方法。() 三、单项选择题:(共3小题,每小题3分,共9分) 1、下列不属于衡量语音编码性能的主要指标是()。 (A)编码质量(B)矢量编码(C)编码速率(D)坚韧性 2、下列不属于编码器的质量评价的是() (A)MOS (B)DAM(C)DRT(D)ATC 3、限词汇的语音合成技术已经比较成熟了,一般我们是采用() 作为合成基元。 (A)词语(B)句子(C)音节(D)因素 四、简答题:(共2小题,每小题12分,共24分) 1、画出矢量量化器的基本结构,并说明其各部分的作用。 2、试画出语音信号产生的离散时域模型的原理框图,并说明各 部分的作用。 五、简答题:(共5小题,前三小题,每题5分,后两小题,每题10分,共35分) 1、线性预测分析的基本思想是什么?

《多媒体技术基础》复习试题(有答案)

一、多媒体概述 ●什么是媒体?媒体如何分类的? ●什么是多媒体?它有哪些关键特性?有哪些关键技术? ●多媒体计算机系统组成 ●多媒体个人计算机MPC ●媒体素材分成文字、声音、图形、图像、动画、视频等类型。 ●各类素材的文件格式 ●图像的属性 ●图像的大小及压缩标准 ●图像的色彩模式 ●图形与图像的文件存储格式 ●视频的基本概念 ●帧频(动画:12帧/S,视频:24帧/S) ●动画与视频的文件格式 ●声音的三个重要特性:振幅,周期,频率 ●声音效果的三要素:音调、音强、音色 ●声音的文件存储格式 ●文本文件的格式 ●图像采集途径及常用的软件 ●多媒体素材采集的软件及多媒体素材制作软件 二、音频技术 ●声音的数字化——采样、量化及编码 ●数字化后声音文件的大小如何计算 ●声音文件的存储格式 ●Adobe Audition3.0的基本操作 ●声音的高级处理 1、声道变换 2、改变声音文件的固有音量 3、淡入、淡出效果 4、回声原理及其制作 5、延迟效果 6、消除环境噪声 7、声音混响 8、调整时间和音调

9、直接从视频提取声音 三、 视频技术 ● 视频的基本概念 ● 视频的制式——NTSC ,PAL ,SECAM ● 视频素材的获取 ● 常见的视频文件格式 ● 三种MPEG 视频压缩格式的比较 ● 常用的视频播放器 ● 网络视频格式 ● 视频编辑处理软件—会声会影的基本使用 四、 Photoshop 五、 FLASH 单项选择题部分 1.多媒体当中的媒体指的是以下哪种媒体( )。 A .表现媒体 B .表示媒体 C .感觉媒体 D .存储媒体 2.以下的采样频率中哪个是目前音频卡所支持的( )。 A .20KHz B .11.025KHz C .10KHz D .50KHz 3.下面文件格式属于声音文件的是( )。 (1).MIDI 文件 (2).WA V 文件 (3).A VI 文件 (4).PCX 文件 A .(1)(3) B .(2)(3)(4) 保存接近于一部一部交互式、多媒体、DIVX(.AVI) WMV ASF PAL PAL DVD 画质的 小体积视频文件 120分钟长的电影压缩为4~8GB 的大小 120分钟长的电 影压缩为1.2GB 左右的大小 压缩情况 1998年 1994年1992年时间低码率视频 数字电视CD-ROM 上的交互式 视频 目标RMVB MOV MPG MPG 常见后缀网络视频 DVD VCD 应用可调4~8Mbps 1~1.5Mbps 带宽可调:720×576NTSC :720×480 :352×288NTSC :320×240画面尺寸MPEG-4MPEG-2(DVD )MPEG-1类型

语音信号处理实验报告11

实验一 语音信号的时域分析 一、 实验目的、要求 (1)掌握语音信号采集的方法 (2)掌握一种语音信号基音周期提取方法 (3)掌握语音信号短时能量和短时过零率计算方法 (4)了解Matlab 的编程方法 二、 实验原理 语音是一时变的、非平稳的随机过程,但由于一段时间内(10-30ms)人的声带和声道形状的相对稳定性,可认为其特征是不变的,因而语音的短时谱具有相对稳定性。在语音分析中可以利用短时谱的这种平稳性,将语音信号分帧。 10~30ms 相对平稳,分析帧长一般为20ms 。 语音信号的分帧是通过可移动的有限长度窗口进行加权的方法来实现的。几种典型的窗函数有:矩形窗、汉明窗、哈宁窗、布莱克曼窗。 语音信号的能量分析是基于语音信号能量随时间有相当大的变化,特别是清音段的能量一般比浊音段的小得多。定义短时平均能量 [][]∑∑+-=∞-∞=-=-= n N n m m n m n w m x m n w m x E 122)()()()( 下图说明了短时能量序列的计算方法,其中窗口采用的是直角窗。 过零就是信号通过零值。对于连续语音信号,可以考察其时域波形通过时间轴的情况。而对于离散时间信号,如果相邻的取样值改变符号则称为过零。由此可以计算过零数,过零数就是样本改变符号的次数。单位时间内的过零数称为平

均过零数。 语音信号x (n )的短时平均过零数定义为 ()[]()[]()()[]()[]() n w n x n x m n w m x m x Z m n *--=---= ∑∞ -∞=1sgn sgn 1sgn sgn 式中,[]?sgn 是符号函数,即 ()[]()()()()???<-≥=01 01sgn n x n x n x 短时平均过零数可应用于语音信号分析中。发浊音时,尽管声道有若干个共振峰,但由于声门波引起了谱的高频跌落,所以其语音能量约集中干3kHz 以下。而发清音时.多数能量出现在较高频率上。既然高频率意味着高的平均过零数,低频率意味着低的平均过零数,那么可以认为浊音时具有较低的平均过零数,而清音时具有较高的平均过零数。然而这种高低仅是相对而言,没有精确的数值关系。 短时平均过零的作用 1.区分清/浊音: 浊音平均过零率低,集中在低频端; 清音平均过零率高,集中在高频端。 2.从背景噪声中找出是否有语音,以及语音的起点。 基音是发浊音时声带震动所引起的周期性,而基音周期是指声带震动频率的倒数。基音周期是语音信号的重要的参数之一,它描述语音激励源的一个重要特征,基音周期信息在多个领域有着广泛的应用,如语音识别、说话人识别、语音分析与综合以及低码率语音编码,发音系统疾病诊断、听觉残障者的语音指导等。因为汉语是一种有调语言,基音的变化模式称为声调,它携带着非常重要的具有辨意作用的信息,有区别意义的功能,所以,基音的提取和估计对汉语更是一个十分重要的问题。 由于人的声道的易变性及其声道持征的因人而异,而基音周期的范围又很宽,而同—个人在不同情态下发音的基音周期也不同,加之基音周期还受到单词发音音调的影响,因而基音周期的精确检测实际上是一件比较困难的事情。基音提取的主要困难反映在:①声门激励信号并不是一个完全周期的序列,在语音的

语音信号处理复习题

语音信号处理复习题 1 由下面的WAV文件读出语音的编码信息: 52 49 46 46 A4 9A 7B 01 57 41 56 45 66 6D 74 20 10 00 00 00 01 00 02 00 44 AC 00 00 10 B1 02 00 04 00 10 00 64 61 74 61 80 9A 7B 01 42 FF 35 FC E2 FE 07 00 E7 FE AF 03 5F FF 65 01..................... 2 画出语音信号的产生模型,简述语音的产生过程。

语音的形成过程—空气由肺部排入喉部,经过声带进入声道,最后由嘴辐射出声波,形成语音。 3 为生么语音信号要进行“短时”分析。 答:语音信号特性是随时间变化的,是一个非平稳的随机过程,但在一个短时间范围内其特性基本保持不变,即语音信号具有“短时平稳性”,因而可将语音信号看成准平稳过程,对其进行短时分析. 4 语音信号的时域分析方法有那些? 答:短时能量,短时平均过零率,短时自相关函数 5 语音信号频率范围是多少? 答:语音信号的频率大约在20Hz~20KHz。 6 什么是浊音的基音频率(F0)?男性、女性和儿童的F0大致分布在什么范围。 答:浊音的基音频率(F0):声带张开和闭合一次的时间的倒数。由声带的尺寸、特性和声带所受张力决定。F0的大小决定了声音的高低,称为音高。 男性的F0大致分布在:60-200Hz,女性和儿童的F0大致分布在:200-450Hz 7 可以认为多长的时间范围内,语音信号是平稳信号。 答:10-30ms 8 电话语音的采样率为8kHz;纯语音在进行计算机录入时,一般采样率在15kHz~20kHz左 右;音乐的采样率可以高达44kHz。 9 如何利用语音信号的时域分析方法进行清、浊判断。 答:1、短时能量分析依据:是基于语音信号幅度随时间变化》清音段幅度小,其能量集中高频段;浊音段幅度较大,其能量集中低频段; 2、平均幅度分析的依据:清音段幅度小,浊音段幅度较大。 3、短时平均过零率:浊音平均过零率低,集中在低频段;清音过零率高,集中在高 频段。 4、短时自相关函数:浊音语音的自相关函数具有一定的周期性; 清音语音的自相关函数不具有周期性,类似噪声,有点如语音信号本身

相关文档
最新文档