声纹识别

声纹识别
声纹识别

声纹识别系统

摘要

本文首先通过用层次分析法(AHP )构建了影响声纹识别的八大因素,并将其进行量化处理,得到了合理的权重比。同时构建Mel 倒谱系统提取说话人的主要特征倒频谱(MFCC 参数),利用提取的 MFCC 参数训练话者的 GMM (高斯混合模型),得到专属某话者的 GMM 声纹模型。接着通过语音数据对构建的声纹识别模型进行评价。发现得到的模型虽然可以接受,但其准确率不是很高。为了使模型的精确率提高,我们通过利用改进的K-means 算法来将模型进行调整。

问题一:

我们通过层次分析发得出语者的声学特征在语音识别中所占的权重最大,而且限于目前的技术,我们最终将能描绘语者声道结构的Mel 倒频谱系数作为语音的特征向量,该方法能很好的模拟人耳对不同频率的感知特性,具有很好的稳定性和准确度。然后我们利用matlab 编程将提供的语音数据的MFCC 系数提取出来作为声纹识别系统的训练样本。

问题二:基于高斯混合模型(GMM),我们用EM 算法来估计GMM 中的未知参数,由K-means 算法来得到EM 算法的初始值,通过不断地迭代EM 算法更新GMM 模型中的权重(w ),均值(u)和方差矩阵,直到最终使

()*()P X P X λλε-<,ε取10-5。

问题三:

根据问题一的MFCC 模型和问题二的GMM 模型,利用matlab 编程,用样本语音数据去训练GMM 模型得到样本库,让后用未知的测试语音样本利用模式匹配法去与样本语音库进行匹配,得到一系列的匹配概率,概率最大者对应的语者为测试语音的主人。我们得出的结论是EM 算法的初值对最终的识别率有很大影响,用来确定GMM 初始值的K-means 算法有比较大的误差,需要改进。

问题四:

基于问题三的测试和查阅的相关资料,我们认为传统的K-means 算法忽略特征矢量各维分量对识别的影响,因而无法得到令人满意的识别结果。由数理统计知,方差是用来衡量样本数据的离散程度的。如果特征矢量的分布稀疏,则它的方差就会很大,反之,那些分布较集中的矢量方差比较小。为此,本文提出了基于方差的加权几何距离,在聚类过程中,对特征矢量的各分量按方差大小进行加权,加权因子为矢量方差的倒数。

关键字:声纹识别 层次分析法(AHP ) 美尓倒频谱系数(MFCC ) 高斯混合模型(GMM ) 期望值最大化算法(EM ) K-means 算法

一、问题重述

生物认证是通过人体特征进行人物身份认证的重要手段,包括人脸识别、虹膜识别、指纹识别、体态识别和声纹识别等方法,它们被广泛地应用于国防、军事和民用等诸多领域,推动着信息产业的蓬勃发展。

声纹识别又称说话人识别,是通过分析说话人的语音的特点,利用计算机自动识别说话人的身份。声纹识别又分为文本相关和文本无关说话人的识别两大类。文本无关是指说话人的说话内容不受限制,文本相关是指说话人的说话内容必须是指定的内容。

评价声纹识别方法或模型的最重要指标是识别准确率,准确率越高越宜于应用于实际。评价的另外一个重要指标就是识别所花的时间,即输入待识别的说话人语音到识别结果的输出说话的时间,该时间越短约好。

请试着利用采集到的说话人语音数据(文本相关和文本无关两类),完成以下几点:

1)建立代表说话人身份的语音特征模型,通过编程从语音数据中提取说话人特征;

2)利用说话人特征建立说话人模型或声纹识别模型;

3)利用语音数据评价你的说话人模型或声纹识别模型评价的好坏;

4)分析影响准确率的因素,采取措施进一步提高声纹识别的准确率。

二、问题分析

问题一:

在没有人的主观倾向影响的情况下,人类的听觉系统其实就是比较好的说话人识别系统,具有很高的准确性和抗干扰性。虽然人的听觉系统分辨说话人的机理不一定是最佳的声纹识别方法,但是在目前的技术下,如果能达到人类说话人的水平,也是相当可观的。MFCC是基于短时傅里叶变换谱分析,并考虑人类的听觉特性后得到的一种倒频特征。心理学的研究进一步表明,人类对于声音音调的感觉都不是线性的,这必然导致人们去定义新的频率单位。符合人的听觉特性的频率则以Mel或Bark作为单位;

问题二:就声学观点而言,每一位语者声学特征能分出很多类别,诸如:鼻音,摩擦音,元音等,类别还可能更细致,而且每一个声学类别下又有广阔的语音空间,查阅资料发现,高斯混合模型(GMM)能好的二者兼顾,于是可以建立GMM模型对每位语者的声学特征进行仿真。

问题三:基于上面两问的模型,用matlab编程对实际的数据进行识别率的分析即可;

问题四:

传统的K-means算法在聚类过程中采取几何距离就近原则,这只有当类的自然布为球状或接近于球状时,也就是说当类中各矢量的分布接近于相等时才能取得识别效果。而语音信号是近似椭圆状的正态分布,各矢量的分布不等,若用传统K.means算法作为GMM 的初始化方法,将会忽略特征矢量各维分量对识别的影响,无法得到令人满意的识别结果。

为此,对传统K。means算法进行了改进,语音信号各矢量的分布不同,且对于不同的说话人这种差别的程度又不一样。好的特征矢量应该对同类语音的离散程度小,对不同类语音的离散程度大。由数理统计知,方差是用来衡量样本数据的离散程度的。如果特征矢量的分布稀疏,则它的方差就会很大,反之,那些分布较集中的矢量方差比较小。为此,本文提出了基于方差的加权几何距离,在聚类过程中,对特征矢量的各分量按方差大小进行加权,加权因子为矢量方差的倒数。

三、模型假设与符号说明

3.1 模型假设:

(1)本文选用文本无关的声纹识别文件;

(2)假设提供的数据完整、可靠、有效;

(3)假设查阅的资料和一些结论正确可靠;

3.2 符号说明:

()

x n:预处理后的语音信号。

()

X k:将预处理后的语音信号进行短时傅里叶变换后得到的频谱。

Q:频率滤波器个数。

()

S q:作对数转换后的Mel频谱。

()

C n:Mel频谱倒谱系数。

四、模型的建立及求解

4.1 问题一模型的建立与求解:

4.1.1 层次结构模型建立

图1 层次结构示意图

首先分析准则层对目标层的影响,设有n 个因素(x 1,x 2,…x n ),用a ij 表示x i 和x j 对上层目标的影响比。

相对重要程度:

a ij

定义

1 若 xi 等价于xj: 赋值 1 3 若 xi 比xj 重要 : 赋值 3 5 若 xi 比xj 重要得多: 赋值 5 7 若 xi 远远比xj 重要: 赋值 7

9 若xi 是最重要的

2,4,6,8 重要程度等级介于 xi 和 xj 之间 1/2,1/3,..,1/9

对应于以上等级的xi 和xj 之间的关系

表1 相对重要程度a ij 取值情况

提取说话人特

沙哑音 鼻音 语音习惯

个人特点 声学特征 倒频谱

频谱

基音

共振峰 词法特征

韵律特征

口音

通道信息

由网络资源查询可对比声学特征,语音习惯,个人特点,鼻音,沙哑音五个元素得到以下系数矩阵:

ij a

沙哑音 鼻音

个人特点 声学特点 语音习惯 沙哑音 1

1/5

1/5

1/9

1/7

鼻音 1/5 1 1 1/5 1/5 个人特点 1/5

1

1

1/5

1/5

声学特点 1/9 1/5 1/5 1 3

语音习惯

1/7 1/5 1/5 3 1

从而得到正反矩阵:

A=???

????

?????

?

??

?13/1557

315595/15/11155/15/11157/19/15/15/11

利用MATLAB 编程求得矩阵A 的最大特征值;

对正互反矩阵进行一致性检验,采用T.L.Saaty 一致性指标:CI=1

--n n

λ,

一致性对比率CR=

RI CI =12

.1087.0=0.0777<0.1,即通过一致性检验。 标准化特征向量a (2)=(0.0308 0.0927 0.0927 0.4839 0.2999)

即当前沙哑音,鼻音,个人特点,声学特征,语音习惯的权重为:

(0.0308 0.0927 0.0927 0.4839 0.2999)

下面构造方案层对准则层的每个准则的正互反矩阵:

B 1=?????

??

??

?

??

???

??

???11555

71155575/15/1111

35/15/111135/15/111137/17/13/13/13/11 B 2=?????

?

?

?????13/13/15/13113/13113/15331 B 4=??????????173/17/115/13/151 B 5=??

??

?

?????13/113/11313/11 所有CR k 均小于0.1,均通过一致性检验。

我们把各方案对目标的权向量,称为组合权向量。记做

W (2)=??

?

??

??

?

?

???

?

?????

??

?

??

???005.00781.0025.05017.05.01998.005.00953.001998.03598.025.04030.005222.03598.000000814.000000814.000000814.000000361

.0 所以方案C k 在目标中的组合权中应该为a (2)与a (3)对应向量的两两乘积之

和,因此可得C 1 ,C 2 ,C 3 ,C 4 ,C 5 ,C 6 ,C 7 ,C 8在目标中的组合权重。从而得到方案层对准则层组合权向量:

a (3)= (0.0011,0.0025,0.0025,0.3295,0.2257,0.3826,0.0536)

结论:

由当前权重比例来看,建立代表说话人身份的语音特征模型中的8个影响因素声学特征占有最大的权重。而语者的声学特征能用Mel 倒频谱系数(MFCC)很好的描述。

所以接下来通过matlab 编程从源语音数据中提取说话人特征(Mel 倒频谱系数)从而建立代表语者身份的语音特征模型。 4.1.2 语音特征模型的建立与求解

本文采用识别性能较好且能充分模拟人耳听觉感知特性的Mel 频率倒谱系数(MFCC ),提取的各过程如下:

图1

MFCC 系数提取流程图

1. 由于语音信号的时变特性使得特征参数提取必须在一小段语音上进行,

因此在特征参数提取前先对采集到的语音信号进行预加重、加窗和分帧等预处理。此部分的处理用matlab 完成,程序代码在附录中。

2. 将预处理后的语音信号x(n)进行快速傅里叶转变(FFT)得到频谱X(k):

()N-1

2/0

X k x(),01j k N n n e k N π-==≤≤-∑ (1)

其中,N 为傅里叶变换的样点数。本论文中N 取256

3. 求频谱X(k)的平方,即能量谱,然后通过Mel 滤波器H q (k)对频谱进行

平滑,并消除谐波,凸显原先语音的共振峰。H q (k)是一组三角带通滤波器,设计如下:

在本论文中区滤波器个数为Q=24,它的图像如下:

图2

Mel 频率滤波器组

()q 0,(1)(1),(1)()()(1)

H k (1),()(1)(1)()0,(1)

k f q k f q f q k f q f q f q f q k f q k f q f q f q k f q <-??--?-≤<--?=?

+-?≤≤+?+-?

>+? (2)

式中:f(q),q=1,…,Q 是中心频率,Q 是滤波器个数。

4. 对滤波器组的输出取对数:压缩语音频谱的动态范围;将频域中噪声的

乘性成分转换为加性成分,对数Mel 频谱S(q)为:

()()()210S q ln N q k X k H k -=????

=??????

(3)

5. 离散余弦变换(DCT )

将(3)获得的S(q)变换到时域,结果就是Mel 频率倒谱系数(MFCC),第n 个系数C(n)的计算如下式:

()()()Q 1

q 0n q 0.52C n S q cos 0n

∑, (4) 其中,L 是MFCC 阶数,一般为12~16,Q 为23~26.

MFCC 反映了语音信号的静态特性,随时间的变化反映了语音特性的动态特性,用差分公式表示如下:

()2

m C n ()M M

m i M i M

C n i i i =-=-??

?=+??

??

∑∑ (5)

这里M 的值一般取2或3。

至此,MFCC 特征提取结束。在实际过程中,可以根据需要与实验测试来选取维数不同的特征向量,如:12,13,24,26,36,39维等。本文选用24维的MFCC 特征向量来作为声纹识别系统的特征提取结果。 该模型的matlab 代码见附录一。 4.2 问题二模型的建立和求解:

4.2.1基于GMM 的声纹识别建立的模型

GMM 本质上是利用多维概率密度函数对语言信号进行建模。一个具有M 阶混合分量的D 维GMM 表示如下

()()1

P X M

i i i w f X λ==∑

(6)

式(6)表明了样本X 属于类别λ的概率大小,M 实际上是表示样本X 的类别数。 式(6)中,i w 为混合权重,且1

1M

i

i w ==∑。()i

f X 是D 维的联合高斯分布,表

示为

()()()()1T 1exp 22i i i D i

X u X u f X π-??

---??

??=

∑∑

(7)

式中,i u 是均值,

i

是协方差矩阵。GMM 的所有参数用λ 表述为

{},, 1,,i i i u w i M λ==∑ (8)

4.2.2

GMM 模型的求解

4.2.2.1 初始值

由k 均值(k-mean)聚类算法对样本进行聚类,利用各类的均值作为0i u ,

并计算

i ∑

,0i w 取各类样本占样本总数的比例。

4.2.2.2 最大化步骤

对于一组长度为T 的语言序列{}12X ,,,T X X X = ,它的似然度函数表示

()()1

P P T

t t X X λλ==∏

(9)

为说话人建立GMM 后,我们用EM 算法估计GMM 的所有参数,通过迭代

找到一个新的模型*

λ ,使()()*P X P X λλ≥。最终得到GMM 各参数的

重估公式: 更新混合权重

()1

1,T

i t t w P i X T λ==∑

(10)

● 更新均值

()()

11

,,T

t t

t i T

t t P i

X X u P i

X λλ===

∑∑

(11)

● 更新方差矩阵

()()()

2

1

1

,,T

t t i

t i

T

t t P i X X u P i

X λλ==-=

∑∑

∑ (12)

4.2.2.3 估计步骤

对基于GMM 的说话人识别,采用帧似然概率得分法进行判决。具有N

各说话人的识别系统,相应的GMM 分别为12,,,N λλλ 。在识别时,给定

待识别语音序列{}12X

,,,T X X X = ,则这段语音属于第n 个说话人的最

大后验概率为:

()(|)()

P ()

n n n P X P X P X λλλ=

(13)

式中,P(X)为所有说话人条件下X 的概率密度,对于确定的X ,P(X)是一个确定

的常数,()P

n λ 为第n 个人说话的先验概率,且

()1

P ,1n n N N

λ=≤≤ (14)

4.2.2.4 收敛条件

不断地迭代2.2.2和2.2.3步骤,重复更新(10) (11) (12)三个式子的值,直到

()*()P X P X λλε-<

(15)

式(15)中的ε通常取10-5,()P X λ通过公式(9)计算,*()P X λ表示更新参

数的值。

4.2.2.5 识别结果的得出

()P X|n λ 为X 是第n 个人说话的条件概率,因此求取后概率的最大值可

以通过求取()P

X|n λ获得,识别结果为:

()*max |n n P X λ=

(16)

4.3

4.4 问题四的解答:

我们知道声纹识别需要解决的关键问题还有很多,诸如:短话音问题,能否用很短的语音进行模型训练,而且用很短的时间进行识别,这主要是声音不易获取的应用所需求的;声音模仿(或放录音)问题,要有效地区分开模仿声音(录音)和真正的声音;多说话人情况下目标说话人的有效检出;消除或减弱声音变化(不同语言、内容、方式、身体状况、时间、年龄等)带来的影响;消除信道差异和背景噪音带来的影响;此时需要用到其他一些技术来辅助完成,如去噪、自适应等技术。

设长度为N 的M 维特征矢量序列为:X={X 1 ,X 2 ,?,X N ),其中第n(0

2

2

1

1S (X

)

M

nm

n m X M

==

-∑ (17)

式中: 为特征矢量的维数; 为第,2个矢量的第m 个参数; 为第n 个矢量的平均值,第m 维矢量的权值为:

2

1m

m S =π (18)

相应的基于方差的加权欧氏距离公式为:

∑--

=

M

m

km

nm

m

n

C

X

K

X

D

1

2

) (

)

,

(π(19)

式中:C km为第K个类的聚类中心。

方差是用来衡量样本数据的离散程度的,进行聚类分析时易受样本孤立点的响。为了消除此影响,文中利用距离和对样本的孤立点进行了处理计算矢量集中矢量两两之间的几何距离,累加距离和,去掉L个与其他矢量之问距离和最大的矢量,然后从剩余的矢量中选出距离最大的2个矢量作为不同类的聚类中心,着从其余的矢量中寻找出到所有聚类中心的距离和最大的矢量作为另一个类的中心,直到选出K个聚类中心。改进后的K—means聚类算法描述如下:

(1)从上述方法选出的K个聚类中心出发,利用公式(19)计算矢量集中的矢量与各类中心的距离,把剩余矢量划分到离它距离最近的类中,形成初始聚类;

(2)按照步骤(1)的聚类,更新各个类的中心;

(3)以新聚类中心为参照点迭代步骤(1)和(2),到聚类中心不再变化或变化微小时停止。

五、结论分析与推广

声纹识别可以应用的范围很宽,可以说声纹识别几乎可以应用到人们日常生活的各个角落。比如下面举几个例子。

(1)信息领域。比如在自动总机系统中,把身份证之声纹辨认和关键词检出器结合起来,可以在姓名自动拨号的同时向受话方提供主叫方的身份信息。前者用于身份认证,后者用于内容认证。同样,声纹识别技术可以在呼叫中心(Call Center)应用中为注册的常客户提供友好的个性化服务。

(2)银行、证券。鉴于密码的安全性不高,可以用声纹识别技术对电话银行、远程炒股等业务中的用户身份进行确认,为了提供安全性,还可以采取一些其他措施,如密码和声纹双保险,如随机提示文本用文本相关的声纹识别技术进行身份确认(随机提示文本保证无法用事先录好的音去假冒),甚至可以把交易时的声音录下来以备查询。

(3)公安司法。对于各种电话勒索、绑架、电话人身攻击等案件,声纹辨认技术可以在一段录音中查找出嫌疑人或缩小侦察范围;声

纹确认技术还可以在法庭上提供身份确认(同一性鉴定)的旁证。在监狱亲情电话应用中,通过采集犯人家属的声纹信息,可有效鉴别家属身份的合法性。在司法社区矫正应用中,通过识别定位手机位置和呼叫对象说话声音的个人特征,系统就可以快速的自动判断被监控人是否在规定的时间出现在规定的场所,有效地解决人机分离问题。

(4)军队和国防。声纹辨认技术可以察觉电话交谈过程中是否有关键说话人出现,继而对交谈的内容进行跟踪(战场环境监听);在通过电话发出军事指令时,可以对发出命令的人的身份进行确认(敌我指战员鉴别)。目前该技术在国外军事方面已经有所应用,据报道,迫降在我国海南机场的美军EP-3侦察机中就载有类似的声纹识别侦听模块。

(5)保安和证件防伪。如机密场所的门禁系统。又如声纹识别确认可用于信用卡、银行自动取款机、门、车的钥匙卡、授权使用的电脑、声纹锁以及特殊通道口的身份卡,把声纹存在卡上,在需要时,持卡者只要将卡插入专用机的插口上,通过一个传声器读出事先已储存的暗码,同时仪器接收持卡者发出的声音,然后进行分析比较,从而完成身份确认。同样可以把含有某人声纹特征的芯片嵌入到证件之中,通过上面所述的过程完成证件防伪。

介于应用方面的考虑,该模型的建立对声纹识别技术在信息领域,银行、证券,公安司法,军队和国防,保安和证件防伪,社保基金等方面的正常发展和实施具有里程碑的的作用,也为以后的有关身份证实问题的行业的进步具有重要意义。除此以外声纹识别所提供的安全性可与其他生物识别技术(如:指纹、掌形和虹膜)相媲美,而且语音采集装置造价低廉,只需电话/手机或麦克风即可,无需特殊的设备;它与说话语言无关,与方言腔调无关,不涉及隐私问题,适应人群范围很广;声音信号便于远程传输和获取,在基于电信和网络的身份识别应用中,声纹识别更为擅长,得天独厚。

六、模型评价

优点:MFCC模型应用广泛,是对人耳的仿真,准确度高。GMM模型能很好的仿真语者广阔的语音空间中的某一类下的一项声学类别,对任一种具有多类别的样本而言,它都具有极佳的能力去近似这些样本(在声纹识别中即为特征向量)空间概率分布。

不足:传统的K-means算法在聚类过程中采取几何距离就近原则,这只有当类的自然分布为球状或接近于球状时,也就是说当类中各矢量的分布接近于相等时才能取得较好的识别效果。而语音信号是近似椭圆状的正态分布,各矢量的分布不等,若用传统K-means算法作为GMM 的初始化方法,将会忽略特征矢量各维分量对识别的影响,无法得到令人满,意的识别结果。

改进:(1)从上述方法选出的个聚类中心出发,计算矢量集中的矢量与各类中心的距离,把剩余矢量划分到离它距离最近的类中,形成初始聚类;

(2)按照步骤(1)的聚类,更新各个类的中心;

(3)以新聚类中心为参照点迭代步骤(1)和(2),直到聚类中心不再变化

或变化微小时停止。

模型的推广:特征参数提取方面,本文在语音信号特征提取方面仅

选用了语音领域较为认同的美尔倒频谱系数(MFCC),而目前小波变换

以其时域、频域兼而有之的高分辨率优势正在不断被引进到语音信号的

特征提取过程中。相信进一步的研究,必定会得到不少的收获。本文并

没有特别深入地针对某些比较细节的问题来做处理,而在实际的声纹识

别系统中,有许多世纪的因素会影响系统的表现,例如语者模型老化、

恶劣的声学环境等,这些问题都有利于进一步的深入研究。

七、参考文献

[1]冷建华,李萍,王良红数字信号处理北京:国防工业出版社,2002.

[2]滕素珍数理统计大连:大连理工大学出版社,2008.

[3]吴金池语者辨识系统之研究国立中央大学电机工程研究所硕士论文,2002。

[4]卢文祥,杜润生机械工程测试·信号·信号分析武汉:华中科技大学出版社,1999.

[5]易克初,田斌,付强语言信号处理北京:国防工业出版社,2000.

[6]石燕声纹识别技术研究南京航空航天大学硕士学位论文,2004.

[7]朱民雄计算机语言技术[M] 北京:北京航空航天大学出版社,1992.

[8]Juang B.语音处理的过去、现在和未来[J],IEEE信号处理,1998.

[9]吴玺洪声纹识别听声辨认[N] 计算机世界,2001.

[10]张彩娟,霍春宝改进K-means算法在声纹识别中的应用,2011年10月

附录1:

%---------------demo1.m-------------------------%

x=wavread('001.wav');%读入源语音文件

mel_data=mfcc(x); %输出mel频率倒频系数

%--------------------函数mfcc.m的源代码--------------------%

function ccc=mfcc(x)

%% x为用wavread函数读到的初始信号值

%归一化mel滤波器组系数

bank=melbankm(24,256,8000,0,0.5,'m');

bank=full(bank);

bank=bank/max(bank(:));

%DCT系数,12*24

for k=1:12

n=0:23;

dctcoef(k,:)=cos((2*n+1)*k*pi/(2*24));

end

%归一化倒谱提升窗口

w=1+6*sin(pi*[1:12]./12);

w=w/max(w);

%预加重滤波器

xx=double(x);

xx=filter([1 -1],1,xx);

%语音信号分帧

%xx=enframe(xx,256,80);

xppl=length(xx);

j=1;

for i=65:80:xppl-256,

xx1(j,:)=xx(i:i+256-1)';

j=j+1;

end

xx=xx1;

%计算每帧的MFCC参数

for i=1:size(xx,1)

y=xx(i,:);

s=y'.*hamming(256);

t=abs(fft(s));

t=t.^2;

t=t+2*realmin;

c1=dctcoef*log(bank*t(1:129));

c2=c1.*w';

m(i,:)=c2';

end

%差分参数

dtm=zeros(size(m));

for i=3:size(m,1)-2

dtm(i,:)=-2*m(i-2,:)-m(i-1,:)+m(i+1,:)+2*m(i+2,:);

end

dtm=dtm/3;

%合并mfcc参数和一阶差分mfcc参数

ccc=[m dtm];

%去除首尾两帧,因为这两帧的一阶差分参数为0

ccc=ccc(3:size(m,1)-2,:);

return

%%----------------enframe函数的matlab代码----------------------%%% function [f,t,w]=enframe(x,win,inc,m)

%ENFRAME split signal up into (overlapping) frames: one per row. [F,T]=(X,WIN,INC)

%

% Usage: (1) f=enframe(x,n) % split into frames of length n %

% (2) f=enframe(x,hamming(n,'periodic'),n/4) % use a 75% overlapped Hamming window of length n

%

% Inputs: x input signal

% win window or window length in samples

% inc frame increment in samples

% m mode input:

% 'z' zero pad to fill up final frame

% 'r' reflect last few samples for final frame % 'A' calculate window times as the centre of mass % 'E' calculate window times as the centre of energy %

% Outputs: f enframed data - one frame per row

% t fractional time in samples at the centre of each frame % w window function used

%

% By default, the number of frames will be rounded down to the nearest % integer and the last few samples of x() will be ignored unless its length % is lw more than a multiple of inc. If the 'z' or 'r' options are given, % the number of frame will instead be rounded up and no samples will be ignored.

%

% Example of frame-based processing:

% INC=20 % set frame increment in samples

% NW=INC*2 % oversample by a factor of 2 (4 is also often used)

% S=cos((0:NW*7)*6*pi/NW); % example input signal

% W=sqrt(hamming(NW),'periodic')); % sqrt hamming window of period NW

% F=enframe(S,W,INC); % split into frames % ... process frames ...

% X=overlapadd(F,W,INC); % reconstitute the time waveform (omit "X=" to plot waveform)

% Bugs/Suggestions:

% (1) Possible additional mode options:

% 'u' modify window for first and last few frames to ensure WOLA % 'a' normalize window to give a mean of unity after overlaps % 'e' normalize window to give an energy of unity after overlaps

% 'wm' use Hamming window

% 'wn' use Hanning window

% 'x' include all frames that include any of the x samples

% Copyright (C) Mike Brookes 1997-2012

% Version: $Id: enframe.m 1713 2012-03-30 21:27:46Z dmb $

%

% VOICEBOX is a MATLAB toolbox for speech processing.

% Home page: https://www.360docs.net/doc/2f12565677.html,/hp/staff/dmb/voicebox/voicebox.html

% %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%%%%%%%%%%%

% This program is free software; you can redistribute it and/or modify % it under the terms of the GNU General Public License as published by

% the Free Software Foundation; either version 2 of the License, or % (at your option) any later version.

%

% This program is distributed in the hope that it will be useful, % but WITHOUT ANY WARRANTY; without even the implied warranty of % MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the % GNU General Public License for more details.

%

% You can obtain a copy of the GNU General Public License from % https://www.360docs.net/doc/2f12565677.html,/copyleft/gpl.html or by writing to

% Free Software Foundation, Inc.,675 Mass Ave, Cambridge, MA 02139, USA. %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%%%%%%%%%%%%

nx=length(x(:));

if nargin<2 || isempty(win)

win=nx;

end

if nargin<4 || isempty(m)

m='';

end

nwin=length(win);

if nwin == 1

lw = win;

w = ones(1,lw);

else

lw = nwin;

w = win(:)';

end

if (nargin < 3) || isempty(inc)

inc = lw;

end

nli=nx-lw+inc;

nf = fix((nli)/inc);

na=nli-inc*nf;

f=zeros(nf,lw);

indf= inc*(0:(nf-1)).';

inds = (1:lw);

f(:) = x(indf(:,ones(1,lw))+inds(ones(nf,1),:));

if nargin>3 && (any(m=='z') || any(m=='r')) && na>0

if any(m=='r')

ix=1+mod(nx-na:nx-na+lw-1,2*nx);

f(nf+1,:)=x(ix+(ix>nx).*(2*nx+1-2*ix));

else

f(nf+1,1:na)=x(1+nx-na:nx);

end

nf=size(f,1);

end

if (nwin > 1) % if we have a non-unity window

f = f .* w(ones(nf,1),:);

end

if nargout>1

if any(m=='E')

t0=sum((1:lw).*w.^2)/sum(w.^2);

elseif any(m=='E')

t0=sum((1:lw).*w)/sum(w);

else

t0=(1+lw)/2;

end

t=t0+inc*(0:(nf-1)).';

end

%%%-----------melbankm函数的代码-----------%%

function [x,mn,mx]=melbankm(p,n,fs,fl,fh,w)

%MELBANKM determine matrix for a mel-spaced filterbank [X,MN,MX]=(P,N,FS,FL,FH,W)

%

% Inputs: p number of filters in filterbank

% n length of fft

% fs sample rate in Hz

% fl low end of the lowest filter as a fraction of fs (default = 0)

% fh high end of highest filter as a fraction of fs (default =

0.5)

% w any sensible combination of the following:

% 't' triangular shaped filters in mel domain (default)

% 'n' hanning shaped filters in mel domain

% 'm' hamming shaped filters in mel domain

%

% 'z' highest and lowest filters taper down to zero (default)

% 'y' lowest filter remains at 1 down to 0 frequency and

% highest filter remains at 1 up to nyquist freqency

%

% If 'ty' or 'ny' is specified, the total power in the fft

is preserved.

%

% Outputs: x a sparse matrix containing the filterbank amplitudes

% If x is the only output argument then

size(x)=[p,1+floor(n/2)]

% otherwise size(x)=[p,mx-mn+1]

% mn the lowest fft bin with a non-zero coefficient

% mx the highest fft bin with a non-zero coefficient

%

% Usage: f=fft(s); f=fft(s);

% x=melbankm(p,n,fs); [x,na,nb]=melbankm(p,n,fs);

% n2=1+floor(n/2); z=log(x*(f(na:nb)).*conj(f(na:nb)));

% z=log(x*abs(f(1:n2)).^2);

% c=dct(z); c(1)=[];

%

% To plot filterbanks e.g. plot(melbankm(20,256,8000)')

%

% Copyright (C) Mike Brookes 1997

% Version: $Id: melbankm.m,v 1.3 2005/02/21 15:22:13 dmb Exp $

%

% VOICEBOX is a MATLAB toolbox for speech processing.

% %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%%%%%%%%%%%%

% This program is free software; you can redistribute it and/or modify

% it under the terms of the GNU General Public License as published

by

% the Free Software Foundation; either version 2 of the License, or % (at your option) any later version.

%

% This program is distributed in the hope that it will be useful, % but WITHOUT ANY WARRANTY; without even the implied warranty of % MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the % GNU General Public License for more details.

%

% You can obtain a copy of the GNU General Public License from % Free Software Foundation, Inc.,675 Mass Ave, Cambridge, MA 02139, USA. %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%%%%%%%%%%%%

if nargin < 6

w='tz';

if nargin < 5

fh=0.5;

if nargin < 4

fl=0;

end

end

end

f0=700/fs;

fn2=floor(n/2);

lr=log((f0+fh)/(f0+fl))/(p+1);

% convert to fft bin numbers with 0 for DC term

bl=n*((f0+fl)*exp([0 1 p p+1]*lr)-f0);

b2=ceil(bl(2));

b3=floor(bl(3));

if any(w=='y')

pf=log((f0+(b2:b3)/n)/(f0+fl))/lr;

fp=floor(pf);

r=[ones(1,b2) fp fp+1 p*ones(1,fn2-b3)];

c=[1:b3+1 b2+1:fn2+1];

v=2*[0.5 ones(1,b2-1) 1-pf+fp pf-fp ones(1,fn2-b3-1) 0.5];

mn=1;

mx=fn2+1;

else

b1=floor(bl(1))+1;

b4=min(fn2,ceil(bl(4)))-1;

pf=log((f0+(b1:b4)/n)/(f0+fl))/lr;

fp=floor(pf);

pm=pf-fp;

2019年中国声纹识别产业发展现状与应用领域及场景

目 录 1.声纹识别发展背景和环境分析 (1) 1.1.移动万物互联,生物特征识别迅速抢占市场 (1) 1.2.人脸指纹漏洞频发,个人隐私泄露风险加剧 (2) 1.3.系列政策法规出台,国家加快AI产业引导 (3) 1.4.生物识别从生理特征走向行为特征 (4) 1.5.语音交互从千人一面向个性化进阶 (5) 2.声纹识别技术发展现状 (6) 2.1.声纹是一种特殊的行为特征 (6) 2.2.声纹识别技术的分类逻辑 (7) 2.3.声纹识别技术进入商用 (9) 2.4.行业专利申请量激增 (11) 3.声纹识别产业发展现状 (13) 3.1.市场规模:想象空间巨大,规模将超千亿 (13) 3.2.竞争格局:赛道选手增加,专业厂商领跑 (13) 3.3.市场份额:外企入华分羹,中企绝对占优 (13) 3.4.技术来源:技术门槛高企,来源高度集中 (14) 3.5.资本现状:融资进度提速,行业风口可期 (15) 3.6.公司案例:得意音通 (16) 4.主要应用领域及场景 (17) 4.1.国家公共安全 (17) 4.2.泛金融 (18) 4.3.社会保险 (18) 4.4.智能安防及个性化语音交互 (19) 4.5.典型应用案例:金融领域 (19) 4.5.1.中国建设银行 (19) 4.5.2.贵阳银行 (24) 4.5.3.西安银行 (25) 4.5.4.浦东发展银行 (25)

5.标准化建设 (27) 5.1.技术基础标准化 (27) 5.2.金融应用标准化 (29) 5.3.正在进行的标准化 (30) 6.技术挑战与发展趋势 (32) 6.1.技术挑战 (32) 6.2.发展趋势 (35)

说话人识别系统~

燕山大学 专业综合训练说明书 题目:说话人识别系统的设计 学院(系): 年级专业: 学号: 学生姓名: 指导教师: 教师职称:

燕山大学专业综合训练任务书 院(系):电气工程学院基层教学单位:仪器科学与工程系学号学生姓名专业(班级) 题目说话人识别系统的设计 训练内容 应用矢量量化法构建说话人识别系统,编写程序,实现对信号处理方法和仿真实验相结合的全面综合训练。 训练要求1.熟练掌握说话人特征参量及特征参数的提取方法。 2.熟练掌握Matlab编程方法。 3.掌握GUI的设计方法。 4.掌握模式匹配方法 5.完成系统构建,编写程序,实现对说话人身份的鉴别。 工作计划 第一周第二周第三周第四周 检索、查阅资料, 学习基础知识,构 建说话人识别整体 系统。 学习矢量量化法编写程序。 程序调试与撰写报 告。 参 考 资 料 Matlab方面资料、语音信号处理方面资料 答疑地点A203-1 答疑时间周六晚19点至22点;周日晚19点至22点。 指导教师签字基层教学单位主任签字 Tel:130******** 2012 年8月27日

目录 第1章摘要 (3) 第2章前言 (4) 第3章说话人识别系统设计相关知识 (5) 3.1 说话人识别基本原理 (5) 3.2 设计要求 (5) 3.3 结构设计 (5) 第4章设计方案 (7) 4.1 预处理模块 (7) 4.2 特征参数 (13) 4.3 训练模型 (17) 4.4 识别模型 (21) 第5章实验结果 (22) 第6章应用程序 (25) 心得体会 (28) 参考文献 (29)

说话人识别系统属于生物识别技术的一种,是一项根据语音波形中反映说话人生理和行为特征的语音参数识别说话人身份的技术。它是指通过说话人的语音来自动识别说话人的身份。目前,与文本无关的说话人识别的常用方法有很多,本文应用的是基于非参数模型的矢量量化VQ(VectorQuantization)方法。VQ在孤立词语音识别系统中得到了很好的应用,特别是有限状态矢量量化技术,对于语音识别更为有效。基于VQ的孤立词语音识别系统具有分类准确,存储数据少,实时响应速度快等综合性能好的特点。借助MATLAB工具,设计基于VQ码本训练程序和识别程序,识别特定人的语音。其系统处理过程主要是先对语音进行预加重、端点检测、分帧、加窗处理四个部分的处理,然后提取特征矢量参数(采用MFCC系数),然后对模版语音用矢量量化方法进行训练得到语音模版,最后用测试语音测试系统性能。其中系统的设计要分为预处理模块、特征提取模块、训练模块和识别模块等,各个部分结合在一起实现说话人识别功能。 关键词:训练,说话人识别, VQ ,MATLAB

声纹识别

声纹识别系统 摘要 本文首先通过用层次分析法(AHP )构建了影响声纹识别的八大因素,并将其进行量化处理,得到了合理的权重比。同时构建Mel 倒谱系统提取说话人的主要特征倒频谱(MFCC 参数),利用提取的 MFCC 参数训练话者的 GMM (高斯混合模型),得到专属某话者的 GMM 声纹模型。接着通过语音数据对构建的声纹识别模型进行评价。发现得到的模型虽然可以接受,但其准确率不是很高。为了使模型的精确率提高,我们通过利用改进的K-means 算法来将模型进行调整。 问题一: 我们通过层次分析发得出语者的声学特征在语音识别中所占的权重最大,而且限于目前的技术,我们最终将能描绘语者声道结构的Mel 倒频谱系数作为语音的特征向量,该方法能很好的模拟人耳对不同频率的感知特性,具有很好的稳定性和准确度。然后我们利用matlab 编程将提供的语音数据的MFCC 系数提取出来作为声纹识别系统的训练样本。 问题二:基于高斯混合模型(GMM),我们用EM 算法来估计GMM 中的未知参数,由K-means 算法来得到EM 算法的初始值,通过不断地迭代EM 算法更新GMM 模型中的权重(w ),均值(u)和方差矩阵,直到最终使 ()*()P X P X λλε-<,ε取10-5。 问题三: 根据问题一的MFCC 模型和问题二的GMM 模型,利用matlab 编程,用样本语音数据去训练GMM 模型得到样本库,让后用未知的测试语音样本利用模式匹配法去与样本语音库进行匹配,得到一系列的匹配概率,概率最大者对应的语者为测试语音的主人。我们得出的结论是EM 算法的初值对最终的识别率有很大影响,用来确定GMM 初始值的K-means 算法有比较大的误差,需要改进。 问题四: 基于问题三的测试和查阅的相关资料,我们认为传统的K-means 算法忽略特征矢量各维分量对识别的影响,因而无法得到令人满意的识别结果。由数理统计知,方差是用来衡量样本数据的离散程度的。如果特征矢量的分布稀疏,则它的方差就会很大,反之,那些分布较集中的矢量方差比较小。为此,本文提出了基于方差的加权几何距离,在聚类过程中,对特征矢量的各分量按方差大小进行加权,加权因子为矢量方差的倒数。 关键字:声纹识别 层次分析法(AHP ) 美尓倒频谱系数(MFCC ) 高斯混合模型(GMM ) 期望值最大化算法(EM ) K-means 算法

(完整版)基于声纹的说话人特征识别毕业设计

JIU JIANG UNIVERSITY 毕业论文(设计) 题目基于声纹的说话人特征识别 英文题目 Speaker feature recognition based on the voiceprint 院系 专业 姓名 年级

指导教师 2013年6月

摘要 说话人识别是一项根据语音波形中反映说话人生理和行为特征的语 音参数,而自动识别说话人身份的技术。它也常被人们称为声纹识别技术,是生物认证技术的一种,其基本思想就是运用某种匹配方法进行特征识别,从而确定说话人的身份。 目前已知的语音特征包括基音周期、语谱图、自相关系数、能量、平均幅度、过零率、共振峰、线谱对、线性预测系数(LPC)、线性预测倒谱(LPCC)、Mel频率倒谱(MFCC)等。 本文介绍了说话人识别的概念、原理及其识别实现的方法,指出了说话人识别技术的应用前景。通过在Matlab7.0平台上对语音的基音周期、线性预测倒谱和Mel频率倒谱等特征参数进行提取、分析、对比、识别实现一个简单的说话人识别系统,实验结果表明实验正确、有效。 关键字:说话人识别;特征参数;基音周期;线性预测倒谱;Mel频率倒谱

Speaker feature recognition based on the voiceprint Abstract Speaker recognition is the voice parameters in a speech waveform which reflects the speaker's physiological and behavioral characteristics, and automatic identification technology to speaker identity. It is also often referred to as the voiceprint recognition technology, a biometric authentication technology.The basic idea is to use a matching method for feature recognition, in order to determine the identity of the speaker. Currently known voice features include pitch, spectrogram, since the correlation coefficient, energy, average magnitude, the zero crossing rate,

声纹识别技术简介

声纹识别技术 声纹是指通过专用的电声转换仪器将声波特征绘制成的波谱图形,它是各种声学特征图谱的集合。声纹是人体的一张“身份证”,是长期稳定的特征信号。 声纹识别是把未知人语音材料与己知人语音材料分别通过电声转换仪器绘成声纹图谱,再根据图谱上的语音声学特征进行比较和综合分析,以得出两者是否同一的判断过程。声纹识别有着十分广阔的应用前景,在世界范围内正广泛应用于金融、证券、社保、公安、军队及其他民用安全认证等领域。目前,中国市场尚属启动阶段,其发展空间更为广阔。 声纹识别的内涵 声纹识别广义上分为语音识别和说话人识别两种。语音识别是根据说话人的发音辨认其所说的语音、音节、单词或单句,这就要排除不同说话人的个人特色,找出代表各个语音单位的共性特征。说话人识别是根据语音来辨认说话人,而并不考虑声音的内容和意义,这就需要分离出每个个体的特性。目前,普遍意义上声纹识别的概念是指说话人识别。 说话人识别包括说话人辨认和说话人确认两个方面。说话人辨认是一对多的分析过程,即判断出某段语音是若干人中哪一个所说,主要应用于刑侦破案、罪犯跟踪、国防监听、个性化应用等。说话人确认是一对一的确定过程,即确认某段语音是否属于指定的某人,主要应用于证券交易、银行交易、个人计算机声控锁、汽车声控锁、身份证、信用卡等。识别的核心是预先录入声音样本,并提取每个样本独一无二的特征,建立特征数据库,使用时将待检声音与数据库中的特征进行匹配,通过分析计算来实现说话人识别。 3声纹识别的原理 3.1特征提取 特征提取是提取声音中能够反映个体信息的基本特征,这些基本特征必须能够准确、有效地区分不同的发声个体,且对于同一个体,这些基本特征应具有稳定性。目前的声纹识别系统主要依靠较低层次的声学特征进行识别。这些声学特征主要有以下几个方面: (1) 语音信息通过滤波器组输出,以合适的速率对输出进行抽样得到谱包络特征参数;(2)基于发声器官如声门、声道和鼻腔的生理结构提取的特征参数,如基音轮廓、共振峰频率带宽及其轨迹等以线性预测导出的特征参数,如线性预测系数、自相关系数、反射系数等;(4)模拟人耳对声音频率感知的特性而得到的听觉特性参数,如Mel倒谱系数、感知线性预测等。 随着对声纹识别应用范围的不断扩大,以及对系统准确性要求的不断提高,只考虑较低层次的声学特征并不能满足要求,这就需要同时考虑高层次的特征信息,如语速、语法、韵律、语种、方言、特性发音、特性词、信道(声音信号获取的渠道)等。对于这些高层次的信息,最关键的问题是选择,同时要针对具体情况来决定。例如对于信道这一特征来说,在刑侦破案方面,就希望不采用,即希望信道对识别不产生影响,从而使得录音等间接手段获得的声音能够成为帮助破案的证据;而在银行交易中,就希望采用,也就是希望信道对识别产生影响,这样才能剔除录音等恶意行为带来的危害。因此,在声纹识别过程中,必须根据实际情况,安排不同特征参量的组合,以提高实际系统的性能,当各组合参量间相关性不大时,会得到更好的识别效果。 3.2模式匹配

声纹识别技术在智能建筑中的应用_石国飞

LOW CARBON WORLD2017/1声纹识别技术在智能建筑中的应用 石国飞(广州市设计院,广东广州510620) 【摘要】自20世纪90年代初我国引入智能建筑概念,经过近30年的发展,我国在智能建筑领域已经处于国际领先水平,各种先进的自控技术、信息技术、计算机控制技术已成功的运用在智能建筑中。智能建筑的基本要素之一是判断,因此准确的判断建筑内人员的身份是智能建筑的基本要求。生物识别技术因其安全性、保密性、方便性的特点,已被广泛的应用于智能建筑身份识别。声纹识别技术作为生物识别技术的重要分支,已被应用于国防、军事、金融等领域,但在智能建筑领域仍极少应用。为了使智能建筑具备更丰富的判断手段,更进一步提高建筑对身份识别的准确性、灵活性,拓展智能建筑新功能,本文将初步探讨如何将声纹识别技术应用到智能建筑中,以期为智能建筑中生物识别技术的应用提供新的思路。 【关键词】声纹识别;智能建筑;智能化系统 【中图分类号】TB52【文献标识码】A【文章编号】2095-2066(2017)02-0162-02 1前言 随着我国城镇化的快速发展,我国建筑业产值持续增长,屡创新高,同时也带动了智能建筑的高速发展。智能建筑满足了人类对建筑舒适性、安全性、便利性和节能性的要求,使建筑不再是一堆冷冰冰的钢筋混凝土,而是具有感知、传输、记忆、推理、判断和决策的综合智慧能力,形成以人、建筑、环境互为协调的整合体,为人们提供安全、高效、便利及可持续发展功能环境的建筑[1]。 判断、感知是智能建筑的基本要素,是实现安全性、便利性的基本途径。智能建筑中身份识别主要采用智能卡、生物识别两种方式,智能卡因其价格便宜、符合人们使用习惯等特点仍被大面积的使用,但卡片一旦遗失或者被盗,就很容易被他人冒用,产生安全隐患。而生物识别技术具有极高防伪性、唯一性、不易复制和伪造、随身“携带”随身可用等优点,将在智能建筑中大规模的应用并最终取代传统身份识别技术。 声纹识别技术作为主要的生物识别技术之一,因其显著的特点及优势,已被应用于国防、军事、金融等领域,但在智能建筑领域仍极少应用。为了使智能建筑具备更丰富的判断手段,更进一步提高建筑对身份识别的准确性、灵活性,拓展智能建筑新功能,本文将初步探讨声纹识别技术在智能建筑中的应用,以期为智能建筑中生物识别技术的应用提供新的思路。2声纹识别技术的概述 2.1声纹识别技术基本概念 声纹是指用电声学仪器显示的携带语音信息的声波频谱,包含了说话人生理、心理以及行为特征的语音参数[2~3]。人类说话或发声是通过语言中枢和发声器官相结合的生物、物理的复杂过程,人们在说话时会用到舌头、喉头、鼻腔、肺等发声器官,发声器官和声道个体间的差异性很大,这些为先天性的差异。个体的发音习惯、身体健康状况也存在很大差异,这些为后天性差异。说话人之间先天性和后天性的差异导致了每个人的声波频谱的唯一性,利用这一特性,我们就能判别不同人的声音或判断是否是同一人的声音。 声纹识别技术就是基于这些信息来搜索人类身份的一种生物识别技术。 根据实际应用范畴,可分为以下两类[4~5]: (1)声纹辨认:给定一个目标说话人集合,包含所有用户的语音特征序列,将待测语音从说话人集合的用户中辨认出来,从而鉴别出说话人,是一个“多选一”的选择问题。 (2)声纹确认:声纹确定是一个“一对一”的过程,即通过待测试的语音来鉴别确定是否来自其所声明的目标说话人。 根据实际应用场景,包括以下两类[5]: (1)说话人检测:即检测目标说话人是否在某段语音中出现。 (2)说话人追踪:即以时间为索引,实时检测每段语音所对应的说话人。 2.2声纹识别的基本原理及系统结构 声纹识别的基本原理是通过计算机的理解能力提取说话人语音信号所携带的个性特征,根据一定准则与数据库中的训练模型进行匹配、鉴别或确认出说话人的身份[4]。 声纹识别主要包括说话人模型训练、测试语音识别两个阶段,整个过程由特征提取、模型训练、模型库建立、打分判决等组成,声纹识别系统框图如图1所示。 2.3声纹识别技术的特点 声纹识别与其他生物特征相比,具有一些特殊的优势[2~5]:(1)声纹提取简单、便捷,可在无声无息中完成,使用者接受度高; (2)成本低廉,只需麦克风、声卡等设备即可进行声音信号的采集,无需像指纹、人脸、虹膜等识别技术需要昂贵的传感器或扫描设备; (3)适合远程身份确认,只需通过手机、PAD或麦克风等就可以通过网络实现远程身份识别; (4)相较于其他生物识别技术,声纹识别算法复杂度低; (5)与语音识别技术相结合,可使声纹口令动态变化,能有效的防止复制和剽窃,大幅提高系统安全性。同时,提供一种人机交互模式,并可构建具有声纹识别功能的分权限语音控制系统。 3声纹识别技术在智能建筑中的应用声纹识别作为一种重要的、具有广阔发展、应用前景及优势明显的生物识别技术,可极大的提高智能建筑的感知、判断、决策能力,应更广泛的、更大规模的应用于智能建筑中。以下将结合智能建筑各智能化子系统及声纹识别的特点,探讨声纹识别技术在智能建筑中的具体应用。 3.1在出入口控制系统中的应用 出入口控制系统应能根据建筑物的使用性能和安全防范 图1声纹识别系统框图 建筑节能 162 DOI:10.16844/https://www.360docs.net/doc/2f12565677.html,10-1007/tk.2017.02.101

声纹识别技术在智能建筑中的应用

声纹识别技术在智能建筑中的应用 1前言 随着我国城镇化的快速发展,我国建筑业产值持续增长,屡创新高,同时也带动了智能建筑的高速发展。智能建筑满足了人类对建筑舒适性、安全性、便利性和节能性的要求,使建筑不再是一堆冷冰冰的钢筋混凝土,而是具有感知、传输、记忆、推理、判断和决策的综合智慧能力,形成以人、建筑、环境互为协调的整合体,为人们提供安全、高效、便利及可持续发展功能环境的建筑[1]。判断、感知是智能建筑的基本要素,是实现安全性、便利性的基本途径。智能建筑中身份识别主要采用智能卡、生物识别两种方式,智能卡因其价格便宜、符合人们使用习惯等特点仍被大面积的使用,但卡片一旦遗失或者被盗,就很容易被他人冒用,产生安全隐患。而生物识别技术具有极高防伪性、唯一性、不易复制和伪造、随身“携带”随身可用等优点,将在智能建筑中大规模的应用并最终取代传统身份识别技术。声纹识别技术作为主要的生物识别技术之一,因其显著的特点及优势,已被应用于国防、军事、金融等领域,但在智能建筑领域仍极少应用。为了使智能建筑具备更丰富的判断手段,更进一步提高建筑对身份识别的准确性、灵活性,拓展智能建筑新功能,本文将初步探讨声纹识别技术在智能建筑中的应用,以期为智能建筑中生物识别技术的应用提供新的思路。

2声纹识别技术的概述 2.1声纹识别技术基本概念 声纹是指用电声学仪器显示的携带语音信息的声波频谱,包含了说话人生理、心理以及行为特征的语音参数[2~3]。人类说话或发声是通过语言中枢和发声器官相结合的生物、物理的复杂过程,人们在说话时会用到舌头、喉头、鼻腔、肺等发声器官,发声器官和声道个体间的差异性很大,这些为先天性的差异。个体的发音习惯、身体健康状况也存在很大差异,这些为后天性差异。说话人之间先天性和后天性的差异导致了每个人的声波频谱的唯一性,利用这一特性,我们就能判别不同人的声音或判断是否是同一人的声音。声纹识别技术就是基于这些信息来搜索人类身份的一种生物识别技术。根据实际应用范畴,可分为以下两类[4~5]:(1)声纹辨认:给定一个目标说话人集合,包含所有用户的语音特征序列,将待测语音从说话人集合的用户中辨认出来,从而鉴别出说话人,是一个“多选一”的选择问题。(2)声纹确认:声纹确定是一个“一对一”的过程,即通过待测试的语音来鉴别确定是否来自其所声明的目标说话人。根据实际应用场景,包括以下两类[5]:(1)说话人检测:即检测目标说话人是否在某段语音中出现。(2)说话人追踪:即以时间为索引,实时检测每段语音所对应的说话人。 2.2声纹识别的基本原理及系统结构

声纹自动识别技术与声纹库建设应用_李敬阳

一、前言 声纹特征是人体重要生物特征之一,具有较强的稳定性和个体特殊性。 语音作为证据用于司法鉴定方面,我国在1988年由中国刑事警察学院文检系率先成立了全国第一个声纹鉴定实验室,引进了美国KAY公司生产的7800型声谱仪。1989年,公安部物证鉴定中心(时为公安部第二研究所)成立了以案件鉴定为目的的声纹鉴定实验室,并引进新一代KAY-5500声谱仪,推动了声纹技术在办案实践中的应用。我国司法声纹鉴定技术经过20年的发展,以公安部物证鉴定中心、最高人民检察院检察信息技术中心、广东省公安厅、司法部司法鉴定中心等为代表的司法鉴定技术水平已经取得长足进步。 近年来在声纹自动识别领域,我国也涌现出国际一流研发团队,已经具备开展国际前沿技术研究、引领声纹信息在公安领域实现大范围使用的实力。 二、声纹自动识别技术 (一)声纹技术发展及现状 (二)声纹自动识别技术 20世纪40年代初,美国贝尔实验室发明了声谱仪,并且首先开始了声纹鉴定技术研究工作,并于60~70年代取得重要进展,取得99.65%的正确率。此后声纹鉴定逐渐成为案件侦查的一个重要技术。 目前声纹鉴定技术分为专家鉴定和自动识别两大领域。专家鉴定方面,主要采用语音学分析方法,应用语音学及统计分析技术,通过语音工作站测量、分析说话人的语音声学特征(如声源特征、发音时的声道形状特征、发音时的口腔及双唇特征以及语音信号时变频谱特征等),然后采用统计判别方法对说话人语音是否同一作出判定。语音学分析法是目前国内外司法领域说话人普遍采用的方法,我国开展声纹鉴定的机构绝大多数均采用此方法。 声纹自动识别也称语音信号处理法,其基本原理 声纹自动识别技术与声纹库建设应用 李敬阳胡国平王莉 1.公安部物证鉴定中心2.智能语音技术公安部重点实验室 3.安徽省语音信息安全重点实验室 12 23 12 摘要:关键词:本文首先简述声纹自动识别技术,接下来围绕声纹库建设应用的核心需求和技术要点,对声纹库建设所涉及的声纹 采集标准及专业设备研发、两级联动声纹库管理系统、高性能声纹检索引擎研发以及声纹采集入库等四项重要工作进行思考和分析,阐述了近两年来各项工作所取得的进展,并对声纹库建设进行展望。声纹 自动识别 检索 数据库

声纹识别的关键技术及发展趋势

龙源期刊网 https://www.360docs.net/doc/2f12565677.html, 声纹识别的关键技术及发展趋势 作者:张广兰 来源:《中国新技术新产品》2009年第08期 摘要:本文介绍了声纹识别技术的基本原理及其关键技术,通过对特征参数的提取及声纹识别技术中核心技术的阐述,并主要以两种常用的LLPC和MFCC特征参数的提取方式为基础,阐述了其关键技术的形成及其发展,并对声纹识别技术的发展趋势作了科学的预测。 关键词:声纹;生物识别;特征参数 0 引言 随着信息技术和网络通信的发展,信息安全成为全球最为热门的研究领域之一。身份鉴别是信息安全的重要组成部分,它涉及了我们生活的每个领域。基于传统密码识别的身份识别技术在实际信息网络应用中已经暴露出许多不足之处,而基于生物特征辨别的身份识别技术近年来日益成熟并在实际应用中展现出极大的优越性。声纹是指用电声学仪器显示的携带言语信息的声波频谱。由于每个人的发音器官不同,声纹也各不相同。通过提取声纹中的特征来识别身份技术正蓬勃的发展起来。 1声纹识别技术简介 声纹是指用电声学仪器显示的携带言语信息的声波频谱。声纹识别(Voiceprint Recognition,VpR),即说话人识别(Speaker Recognition)是根据获取声音波形中反映说话人生理、心理和行为特征的特征参数来自动识别说话人身份的技术。它主要是通过对说话人语音信号的分析和提取,自动确定说话人是否在所登记的集合中,以及说话的人是谁的过程。它与语音识别的区别在于声纹识别并不在意语音信号中的语义内容,而是从语音信号中提取出个人特征,即包含在语音信号中的个性因素。声纹识别可以分为:声纹辨认(Voiceprint Identification)和声纹确认(Voiceprint Verification)。前者是从已知的一群人中识别出其中的某个人,需要使用n个模板,从中辨识出待识别的语音是n个人中的哪一个。后者是判断声纹是否是指定的某人,只需使用一个特定的模板与待识别语音进行匹配,进而做出“是”或“不是”的判决。

声纹识别介绍

声纹识别背景介绍 1 声纹识别技术 声纹是指语音中所蕴含的、能表征和标识说话人的语音特征,以及基于这些特征(参数)所建立的语音模型的总称,而声纹识别是根据待识别语音的声纹特征识别该段语音所对应的说话人的过程。随着科学技术的发展,人机交互应运而生,语音凭借简单易获取具有特定性和稳定性等特点,其中不仅包含了内容信息还包含了说话人的特征信息,成为人机交互的重要方式之一。声纹识别技术在军事、国防、政府、金融医疗、家用、银行和保密等领域都有很大的需求,很多学者和企业也一定程度上推动了声纹识别技术的发展,但是在现实生活中,声纹识别技术并没有被广泛应用,因为该技术还面临着一些难以攻克的问题。 声纹识别系统可以分为前端和后端两部分,前端主要包括数据准备(标注、增强等),为了保证系统的鲁棒性,需要准备多种多样的数据。后端主要包括网络模型的搭建、训练、测试等。 2 声纹识别技术面临的问题 目前,声纹识别主要面临的问题的有环境噪音、信道失配、语言失配、说话人自身、假冒闯入和短语音。具体问题如下图所示: 多说话人 语速跨语言 情绪 身体状况

3 解决办法 针对上述问题,一些学者提出了相应的解决办法: 环境噪音:例如频谱减法(Spectral Subtraction)用于解决固定环境噪音;RASTA滤波法用以消除信道缓慢变化的噪音;也有许多算法用以提高特征鲁棒性,如主成分分析法、线性判别法和异方差线性判别分析等。针对模型的噪音鲁棒性,其通常采用模型补偿算法来减少测试和训练之间的噪音失配程度。 信道失配:解决信道失配问题的方法也有很多,如传统GMM-UBM框架下的特征变换(feature transformation)、模型补偿(model compensation)、分数归一化(score normalization);JFA/i-vector模型与区分性方法(如WCCN[43],LDA,NAP,PLDA等)的结合;在基于神经网络的说话人识别系统中通过消除一些网络隐藏节点等。 假冒闯入:活体检测法。活体检测通俗地讲就是判断系统输入是预先处理得到的语音(如合成语音、转换语音、录音重放语音)还是真实的活体人声。 短语音:针对短语音目前还没有较好的解决办法。现有的优化方法有从语音中筛选更具有区分性的数据;融合不同声学特征获得更鲁棒的特征参数;结合语音识别的先验知识构建更精细的声纹模型;更合理准确的双边似然分计算方式等。 说话人自身:基于F-ratio准则的频带区分性特征算法和基于性能驱动的频带弯折算法,其强调说话人个性信息的同时弱化时变信息,提取了时变鲁棒的声纹特征。基于特征和模型联合优化的方法,将情感特征投影到中性特征空间,进而弱化情感信息的影响。针对跨语言声纹识别已经有了一些成果,如在声纹建模时采用多种语言的语音,训练一个多语言说话人模型,提高模型的语言鲁棒性;提取更加鲁棒的声纹特征,削弱语言信息的影响。

基于MATLAB的声纹识别系统软件的设计

基于MATLAB的声纹识别系统软件的设计 【摘要】本文基于MATLAB,利用语音模型匹配的方法设计并完成了一个与文本相关的声纹识别软件系统。系统预先由麦克风向计算机录入各个说话人的语音样本,经预处理、基音周期和MFCC参数提取、多重迭代训练后得到各说话人语音的隐马尔可夫(HMM)参考模型。实验时将输入的语音样本进行测试,根据被测试语音模型和参考模型的匹配度来进行识别。实验结果表明,本系统的识别率将随着训练次数的增多而提高,系统基本可达到高于85%的正确识别率和实时识别的要求。 【关键词】声纹识别;Matlab;MFCC参数;HMM模型 0 引言 声纹识别技术[1]为生物识别技术的一种,也称为说话人识别,分为说话人辨认和说话人确认[2]。目前,市场上已经出现了一些声纹识别的应用,比如在军事情报方面,用于电话领域的监听与追踪;在监狱管理中,用于亲情通话对象的管控;在司法取证方面,语音声纹分析识别用于司法鉴定,还有社保身份认证、电话语音声纹考勤甚至现在非常流行的声纹锁屏[3]等等。 每个人的说话声音由于音色的不同可以被区分开来,本文所涉及到的声纹识别系统软件的设计[4]便是提取了声纹中的特征参数,把它作为本系统声纹识别技术的依据。与此同时,声纹识别分为文本相关的(Text-Dependent)和文本无关的(Text-Independent)两种[4]。本识别系统为与文本相关[5]的声纹识别系统,要求用户按照规定的内容发音,建立好说话人的声纹模型,在后期进行语音识别时需要按规定的内容发音进而进行说话人身份的辨别。 1 声纹识别系统设计 本系统整体流程分为设计分为5步:预处理、提取特征参数(基音周期、倒谱系数等)、建立参考模型、带入测试模型、进行匹配。 (1)预处理:包括采样和量化(即A/D转换)、预加重处理、加窗、依据短时能量谱的语音端点检测等几个处理过程。 (2)提取特征参数:为了能够表征说话人语音中说话人特定器官结构或习惯行为,便需要提取特征参数,并且该特征参数对同一说话人应具有相对稳定性。 ①基音周期[6]:产生发音时声门的开启和闭合引起声带的周期性振动,形成周期性的脉冲串,用来描述这一串脉冲气流的周期称为基音周期。这种参数的提取主要是基于说话人发声器官,如声门、声道和鼻腔等的特殊结构而提取出说话人语音的短时谱特征(即基音频率谱及其轮廓)。

模式识别-基于ARM的声纹识别系统

项目综述 基于ARM的声纹识别系统 一.声纹识别的基本原理 声纹识别的工作过程一般可分为两个阶段:训练阶段和识别阶段。在训练过程中,系统提取出最能代表说话人个性特征的特征参数,并对所提取出来的特征参数进行学习训练,建立声纹模板或语音模型库。在识别过程中,根据系统已有的声纹模板或语音模型库对输入用语音的特征参数进行模式匹配,判别,得出结果。 三.语音信号的倒谱特征分析的主要理论方法 根据所分析的参数类型,语音信号分析包括两个方面:时域和变换域。时域直接对语音信号的波形进行分析,得到信号幅度,能量,过零率及自相关函数等。变频域可以使信号某些在时域上无法表现出来的特征变得特别明显。最常用的是傅里叶变换,为了能够分析处理非平稳信号,提出短时傅里叶变换。 同态信号分析处理:语音信号是由激励信号源和声道响应相卷积的结果,是非加性信号,不能用线性系统来处理。同态信号分析就是将非线性转化为线性问题来处理,便于分析。 同态分析的基本思想就是对语音信号解卷积,从而将声门激励和声道特征分离 开来,分离的方法是对语音信号在频域上取对数,再反变换到时域中。倒谱(Cepstrum)就是从同态分析处理中引出来的概念。“倒谱特征”利用了对语音信号做适当的同态滤波可以将激励信号和声道信号加以分离的原理,它是用来表征不同说话人最有效的个性特征之一。 设语音信号为s(n),声门脉冲激励为e(n),声道响应为v(n),根据语音信号产生模型,语音信号为声门激励与声道响应的卷积,通过以下运算,可以得到倒普:

在实际应用中,Z变换难以实现,所以常常忽略倒普运算中的虚数部分,用快速傅里叶变换FFT来做近似计算 经过同态处理后,s(n)的高频部分代表了激励的特性,而低频部分代表了声道的特性,容易被分离开来。 三.信号的预处理 3.1 语音的采样和量化(AD转换) 对声音信号进行数字化。语音经音频采集设备如麦克风,进行声电转化变为模拟信号,然后经由A/D进行采样,量化变为数字信号。 一般采用8kHz的采样频率。降低采样率可以减少数据量,这在嵌入式系统中尤其珍贵。当采样率从16KHZ降到8KHZ,所造成的识别率下降不超过1%,但可以节省语音识别前端50%的动态存储空间,减少运行时识别前端25%的计算量。综合以上因素,在实际采样中我们都采用8KHZ采样率。 如果是对已经录好音的文件进行处理,实际上就跳过了采样与量化这两步。 3.2 语音信号的预加重 800Hz高频部分会出现一定的衰落。预加重就是加强高频部分,使信号的高频部分变得平坦,便于进行频谱分析或者声道参数分析 用一阶数字滤波器实现:H z=1?μz?1 其离散表达式为y n=x n?μx(n?1)

声纹识别技术在金融领域应用的探究

栏目编辑:梁丽雯 E-mail:liven_01@https://www.360docs.net/doc/2f12565677.html, 2019年·第5期 47 声纹识别技术在金融领域应用的探究 ■ 中国人民银行福州中心支行 曾晓立 中国人民银行明溪县支行 陈志彬 作者简介:?曾晓立(1991-),女,福建漳州人,工程硕士,供职于中国人民银行福州中心支行,研究方向:金融科技创新应用与安 全监管; 陈志彬(1990-),男,福建明溪人,供职于中国人民银行明溪县支行,研究方向:网络信息安全与金融科技。收稿日期:?2019-02-19 “无处不账户,无处不密码”是对人们所处时代生动形象的概括,但密码遗忘或丢失、证明身份的物品被盗等意外又是难以避免的事情。生物识别技术利用生物个体某些生理特征的唯一性进行身份识别,相比传统的身份认证方式更加安全可靠。而声纹识别技术又以其易采集、成本低、使用方便等多重独特的优势,在生物识别领域受到了越来越多的关注,其研究与应用的价值也日益凸显。 一、声纹识别技术简介 (一)概念 声纹(Voiceprint ),是一种可用电声学仪器显示的 声波频谱,能唯一识别某人或某物的声音特征。声纹识别技术(Voiceprint Recognition),是通过提取语音信号中代表发声者身份的相关特征,进而识别出发声者身份的技术。 (二)原理 声纹识别技术主要包括两个环节:特征提取和模式匹配。 一是特征提取。获取一段用户的语音,对其进行语音端点检测、噪声和信道干扰消除等一系列操作 后,就能提取到其声纹特征。之后可以对声纹特征进行登记注册,建立该用户对应的声纹模型。 二是模式匹配。提取一段语音的声纹特征,然后 摘要: 近年来,随着互联网金融的飞速发展,生物识别技术正受到越来越多金融机构和金融科技公司的青睐,与指纹识别、人脸识别等其他生物识别技术相比,声纹识别具有语音采集更方便、识别成本更低廉、算法复杂度更低等优势。本文阐述了声纹识别在识别技术、信息安全、法律法规等方面所面临的挑战,提出了在金融领域加快声纹识别关键技术研发、拓展安全认证方式、完善相关法律法规等建议。 关键词: 声纹识别;金融领域;标准研究

基于DSP的声纹识别技术的研究

第30卷第4期 辽宁工业大学学报(自然科学版) V ol.30, No.4 2010年 8 月 Journal of Liaoning University of Technology(Natural Science Edition) Aug. 2010 收稿日期:2010-03-31 基金项目:辽宁省教育厅科研项目(2009A359) 作者简介:李波(1977-),男,辽宁锦州人,讲师,硕士。 基于DSP 的声纹识别技术的研究 李 波 (辽宁工业大学 电子与信息工程学院,辽宁 锦州 121001) 摘 要:论述了声纹识别技术的基本原理,采用DSP 及其他可编程芯片设计出声纹识别系统的硬件部分,阐述了其结构及工作原理。基于隐马尔可夫模型为算法,以线性预测倒谱系数和Mel 频域倒谱系数为特征矢量进行了系统仿真。结果表明,在结合使用两种倒谱系数及差分时,系统具有较高的识别率。 关键词:声纹识别;语音信号;DSP ;模型 中图分类号:TN912 文献标识码:A 文章编号:1674-3261(2010)04-0218-04 Study on Technology of Voiceprint Recognition Based on DSP LI Bo (Electron & Information Engineering College, Liaoning University of Technology, Jinzhou 121001, China ) Key words: voiceprint recognition; speech signal; DSP; model Abstract: The fundamental principle on technology of voiceprint recognition was discussed. By using DSP and other programmable chips, the voiceprint recognition system together with hardwares was designed, also the structure and working principle of this system were stated. Hidden Markov model was taken as the modeling algorithm and two feature vectors as far as the Mel cepstrum coefficient and the linear prediction one were concorned, the system simulation was done. The result expatiated when the combination of two cepstral coefficients and their difference were used, the system was of high speech recognition rate. 声纹识别是通过语音区分并认证说话人身份的技术,包括说话人辨认和说话人确认两个层面[1]。其中,前者用以辨别某段语音是待测子集中哪一个人发出的;后者则用来证实某段语音是否为指定的某个说话人所发出的。 声纹识别集声学、信号处理及人工智能为一体,是生物识别的重要组成,其应用前景十分广阔。本文从研究和应用的角度出发,以TMS320VC5402芯片为硬件平台,采用线性预测倒谱系数和Mel 频域倒谱系数分别建立参考模板,使用隐马尔可夫模型进行声纹识别仿真。通过实验,分析了这两种特征参数对声纹识别率的影响。 1 声纹识别技术的原理 声纹识别技术主要涵盖了语音信号的预处理、特征值提取和识别,其组成如图1所示。 1.1 语音信号的预处理 第一阶段为语音信号的预处理,包括预加重、分帧和加窗。语音信号只有在预处理后才能进行特征值的提取,因此,预处理的效果直接影响着整个识别过程的计算复杂度。 在实际的语音通信系统中,经常存在许多种类的噪声干扰。为准确提取语音信号,应先用低通滤波器滤掉冲击噪声,再用高通滤波器抑制带通噪

声纹识别原理

声纹识别原理 近年来,在生物识别技术领域中,声纹识别技术以其独特的方便性、经济性和准确性等优势受到世人瞩目,并日益成为人们日常生活和工作中重要且普及的安全验证方式。 声纹识别属于生物识别技术的一种,是一项根据语音波形中反映说话人生理和行为特征的语音参数,自动识别说话人身份的技术。与语音识别不同的是,声纹识别利用的是语音信号中的说话人信息,而不考虑语音中的字词意思,它强调说话人的个性;而语音识别的目的是识别出语音信号中的言语内容,并不考虑说话人是谁,它强调共性。声纹识别系统主要包括两部分,即特征检测和模式匹配。特征检测的任务是选取唯一表现说话人身份的有效且稳定可靠的特征,模式匹配的任务是对训练和识别时的特征模式做相似性匹配。 1.特征提取 声纹识别系统中的特征检测即提取语音信号中表征人的基本特征,此特征应能有效地区分不同的说话人,且对同一说话人的变化保持相对稳定。考虑到特征的可量化性、训练样本的数量和系统性能的评价问题,目前的声纹识别系统主要依靠较低层次的声学特征进行识别。说话人特征大体可归为下述几类: 谱包络参数语音信息通过滤波器组输出,以合适的速率对滤波器输出抽样,并将它们作为声纹识别特征。 基音轮廓、共振峰频率带宽及其轨迹这类特征是基于发声器官如声门、声道和鼻腔的生理结构而提取的参数。 线性预测系数使用线性预测系数是语音信号处理中的一次飞跃,以线性预测导出的各种参数,如线性预测系数、自相关系数、反射系数、对数面积比、线性预测残差及其组合等参数,作为识别特征,可以得到较好的效果。主要原因是线性预测与声道参数模型是相符合的。 反映听觉特性的参数模拟人耳对声音频率感知的特性而提出了多种参数,如美倒谱系数、感知线性预测等。 此外,人们还通过对不同特征参量的组合来提高实际系统的性能,当各组合参量间相关性不大时,会有较好的效果,因为它们分别反映了语音信号的不同特征。 2.模式匹配 目前针对各种特征而提出的模式匹配方法的研究越来越深入。这些方法大体可归为下述几类:

相关文档
最新文档