基于声卡的声音识别系统

基于声卡的声音识别系统
基于声卡的声音识别系统

基于声卡的声音识别系统

学生所在学院:

学生所在班级:

学生姓名:

指导教师:

摘要

声音识别系统利用PC声卡对声音进行采集。在LabVIEW中对采集的信号进行存储和重载,并对音频信号处理后提取关键参量进行比对。比对结果比较准确,可以判断录入声音和密钥声音的相似性,实现密钥功能。系统具有成本低,交互性高,便捷的优点,具有一定的应用前景。

关键词LabVIEW 声卡声音识别信号处理

目录

一. 系统设计背景 (4)

1.1 声卡工作原理 (4)

1.2 声音识别技术 (4)

1.3 LabVIEW软件 (4)

二. 系统设计目的和意义 (5)

三.系统设计思路 (5)

3.1 系统功能概述 (5)

3.2 系统流程图 (6)

四. 程序设计介绍 (6)

4.1 声音录用和保存模块 (6)

4.1.1 声音采集 (6)

4.1.2 录入声音处理 (8)

4.1.3 录音保存 (9)

4.2 波形对比识别模块 (10)

4.2.1 用户开锁声音录用 (10)

4.2.2 样本声音“密钥”调取 (10)

4.2.3 声音比对判断 (10)

五. 结果分析 (11)

六. 总结 (13)

参考文献 (13)

一. 系统设计背景

1.1 声卡工作原理

要用虚拟仪器技术完成一个测量任务,一般需要计算机配备具有一定性能的数据采集卡,而价格便宜的声卡是计算机的标准配置。

声卡作为声音信号与计算机的通用接口,其基本工作流程为:输入时,麦克风或线路输入(Line In)获取的音频信号通过A/D转换器转换成数字信号,送到计算机进行播放、录音、等各种处理;输出时,计算机通过总线将数字化的声音信号以PCM(脉冲编码调制)方式送到D/A转换器,变成模拟的音频信号,通过功率放大器或线路输出(Line Out)送到音响等设备转换成声波。

声卡不仅价格低廉,而且兼容性好、性能稳定、灵活通用,驱动程序升级方便。如果测量对象的频率在音频范围,而且对指标没有太高的要求,就可以考虑使用声卡取代常规的DAQ设备。而且LABVIEW中提供了专门用于声卡操作的函数节点,所以用声卡搭建数据采集系统是非常方便的。

1.2 声音识别技术

网络安全建立在密码等个人信息基础上,各种卡、帐号、网络登录号等都需要输入密码,而因忘记密码而无法进入的情况时有发生。若采用生物信息作为密码,则可以很好的解决这一问题。常用的生物信息如声音、手印、指纹等。

声音识别技术和签名识别相同,都属于行为识别技术。声音识别是一项根据语音波形中反映说话人生理和行为特征的语音参数,自动识别说话人身份的技术。它的基本原理是通过分析人的声音,为每个人构造一个独一无二的数学模型,有计算机对模型和实际输入的语音进行精确匹配,根据匹配结构辨认出说话人。

声音识别的优点是非接触识别,用户较易接受。但由于声音变化的范围较大,很难进行精确匹配;且采集的声音会随着音量、速度和音质的变化而变化,进而影响识别;另外,用录在磁带上的声音也可能欺骗声音识别系统。

1.3 LabVIEW软件

LabVIEW(Laboratory Virtual Instrument Engineering Workbench)是一种程序开发环境,由美国国家仪器(NI)公司研制开发。

与C 和BASIC 一样,LabVIEW也是通用的编程系统,有一个完成任何编程任务的庞大函数库。LabVIEW的函数库包括数据采集、GPIB、串口控制、数据分析、数据显示及数据存储,等等。LabVIEW也有传统的程序调试工具,如设置断点、以动画方式显示数据及其子程序(子VI)的结果、单步执行等等,便于程序的调试。

LabVIEW是一种用图标代替文本行创建应用程序的图形化编程语言。传统文本编程语言根据语句和指令的先后顺序决定程序执行顺序,而 LabVIEW 则采用数据流编程方式,程序框图中节点之间的数据流向决定了VI及函数的执行顺序。

LabVIEW提供很多外观与传统仪器(如示波器、万用表)类似的控件,可用来方便地创建用户界面。用户界面在 LabVIEW 中被称为前面板。使用图标和连线,可以通过编程对前面板上的对象进行控制。这就是图形化源代码,又称G代码。LabVIEW 的图形化源代码在某种程度上类似于流程图,因此又被称作程序框图代码。

在LabVIEW“函数选板”→“编程”→“图形和声音”→“声音”→“输入”子选板上有LabVIEW提供的声卡输入函数,包括配置声音输入 vi,启动声音输入采集 vi,读取声音输入 vi,停止声音输入采集 vi,声音输入清零 vi,此外还有声卡输出函数等,操作起来比较方便。

二. 系统设计目的和意义

本次专业实训旨在熟悉和掌握虚拟仪器和LabVIEW图形化编程语音的基础知识。通过自主设计一个完整系统,了解LabVIEW编写程序的详细流程。同时有助于提高查阅文献的能力和自主学习的能力,以及运用所学知识解决复杂工程问题的能力,提高设计能力和实验技能,为以后进行毕业设计、就业等打下基础。

三.系统设计思路

3.1 系统功能概述

样本声音定义为系统所有者自己设定的“声音密钥”,待检声音定义为任意用户输入的声音。

从使用者的角度,可以将系统大致分为两个大模块:

(一)样本声音输入模块:合法用户向系统输入自己的声音,作为唯一的“声音密钥”。

(二)声音识别模块:任意用户向系统发出申请,输入自己的声音,系统将对其进行识别,并对正确的“密钥”输入进行响应,若匹配则指示灯亮。

3.2 系统流程图

如图所示为系统的流程图:

图1 声音识别系统工作流程

系统的核心是声音匹配。声音的匹配是严格的,不仅要求说话者说的是某句话,也需要说话者是同一个人。识别过程中对用户的说话声音的基础特征有配对要求。这需要对声音的音频有准确的记录和配对。但是这可以是声音密码锁的一大好处,习惯的语速总是难以被人模仿的,因而其可靠性得以提高。

在采样与配对的过程中,声音的分析是关键,在转换过程中无法避免出现的失真需要尽量的减少,否则声音密码锁的精确度将受到很大的限制。而所提供的硬件在这方面可能不能实现的很好,只能尽量做到精确,减小失真度。

四. 程序设计介绍

在LabVIEW中所建立的系统两大块子vi实现以上的流程:

1.样本声音录用和保存子vi,这一部分实现了样本声音采集和声音保存的功能。

2.波形比对识别子vi,这一部分实现了待测声音的录入,样本声音的调用,比对和最终的门锁控制。

在LabVIEW中的“函数选板”→“编程”→“结构”中选择条件结构,将枚举vi接入分支选择器,选择器标签设为“声音录入”和“声音比对”,分别编写上述两个模块的程序框图。

4.1 声音录用和保存模块

4.1.1 声音采集

(一) 声卡设置

程序首先对声卡进行设置,使用簇常量将声卡的采样率设为44100Hz,通道形式设为双声道,采样位数设为16 bit。

(二)按钮模块

为了提高交互性,在前面板生成一个“开始录音”按钮,只有当用户单击按钮时,

才开始准备录制声音。

算法实现为:外层为While循环,将出错信息和“开始录音”按钮取“或”,作为循环停止的条件。这样,在单击“开始录音”按钮之前,系统一直处于执行这一循环状态,即等待录制命令的下达;当单击“开始录音”按钮之后(或有出错信息),程序将跳出这一循环,开始进入到后面的录制环节。

具体程序如图2所示:

图2 声卡设置及按钮模块程序设计

(三)等待模块

在用户单击“开始录音”按钮后,程序进入这一模块。此模块的功能是:当用户还没有发出声音时,系统不会将声音录入;只有当系统检测到的声音信号幅值超过一个设定阈值后,才开始对声音信号进行采集。这一模块的作用是避免系统对声音的错误记录。

算法实现为:外层为While循环,每循环一次,就将声卡采集的信号用“提取单频信息”模块提取波形的主频率的幅值进行检测。当幅值高于设定的门限(15)时,退出While循环,进入后面的录制程序模块。

具体程序如图3所示:

图3 等待模块程序设计

(四)录制模块

当有声音信号输入时,就进行一次信号采集,然后等待下一次输入,直到按下“停止”按钮或者记够6次(6位密码)。

算法实现为:用While循环对输入的声音信号进行依次采样,每次采集前都需要进入等待模式,以防止声音的错误记录。

具体程序如图4所示:

图4 录制模块程序设计

4.1.2 录入声音处理

由于声音录入过程中混入大量杂音,所以录入声音后,必须对声音进行放大和滤波。

在程序中,选择将波形放大100倍。

又由于人的声音在一定频率范围之内,所以为了使得录入声音更加准确,要滤去用户声音之外的其他噪声。

滤波器的参数设置为:选用带通滤波器,低频截止频率设定为150Hz,高频截至频率设定为2000Hz。原因如下:对系统产生干扰的杂音频率均较低,集中在几十赫兹。这样,通过150Hz的截止频率就可以将杂音部分滤除,改善采集声音的质量;而高于2000Hz’的频率事实上不应该作为用户发出声音的主频率,通过对高频的滤波就可以避免系统对主频率的误判断。另外,为了提高滤波器的选频特性,选择有限长冲击响应滤波器,并将抽头数设为401。如图所示为滤波器程序设计。如图5所示:

图5 对录入声音进行放大、滤波、存储程序设计

4.1.3 录音保存

采集数据并将数据发送到缓存,然后通过“写入测量文件”vi将来自波形或波形数组的数据写入lvm文件。

通过这些vi便可以实现声音信号的采集,并将其存储为lvm格式的文件。完整程序框图如图6所示:

图6 声音采集子vi

在整个“声音录入”子vi中,使用了平铺式顺序结构,将按钮模块和录音保存模块分开,这样在结构上更加合理,防止误判。

上述操作已经完成了声音的录用和保存,下面将对声音进行比对和判断。

4.2 波形对比识别模块

4.2.1 用户开锁声音录用

类似于第一个子vi中对“密钥”声音的处理,对“开锁”声音一样采用放大和数字带通滤波器进行处理,并且显示出“开锁”声音的频谱波形,使用户对声音有直观的认识。

4.2.2 样本声音“密钥”调取

基于波形存储中的文本测量文件(.lvm),通过“读取测量文件”模块对声音进行调取,同时显示出声音的频谱波形。

算法实现为:外层为While循环,每循环一次,即读取一个声音波形数组元素,并显示其频谱,当单击“停止读取样本文件”按钮或者“读取测量文件”读到文件尾时跳出这一循环,开始进入声音比对判断模块。

具体程序如图7所示:

图7 样本声音调取模块程序设计

4.2.3 声音比对判断

声音的比对和判断是这个程序的核心内容,所以也是本次设计的重点内容。

算法实现为:分别使用“取整”模块对从“提取单频信息”模块中得到的样本声音和待测声音的频率和幅值序列取整数,再对取整后的两个时间频率序列和两个时间

幅值序列各自做比较(设定一个样本的误差范围,看待测时间序列值是否在该范围内),将比较结果送入LED灯阵列。若待测声音频率和幅度序列均在设定的样本声音误差范围内,则相应的LED灯响应。当所有元素均在阈值范围内时,表示声音完全匹配。

程序如图8所示:

当用户选择“声音比对”后,则整个系统执行波形比对子vi,并且通过指示灯显示比对结果。整个模块采用平铺式顺序结构,将待测声音的录入设为第0帧,样本声音调取设为第1帧,声音比对判断设为第2帧。

如图9所示为声音比对子vi完整截图:

图9 声音比对子vi

五. 结果分析

整个程序前面板如图10所示:

图10 系统前面板

由于本次设计的算法较简单,仅仅是提取声音信号中幅度最高的单频,故要求用户以特定语速说一句特定的话才能被系统正确识别。

设定密码为6位,如930308,在声音比对vi以同样的语速输入930308时,有80%左右的绿灯亮,表示基本匹配,而当语音录入的内容和设定密钥完全不相关时,则基本没有绿灯亮。因此系统基本可以正确对密码声音进行匹配。其样本声音和其中一次

录入的待测声音的幅度和频率序列如图11所示:

图11 样本和待测语音频率幅度序列

六. 总结

通过本次专业实训,我对虚拟仪器有了基本的认知,对使用LabVIEW编写程序的流程有了初步的掌握。通过查阅资料,完成任务,提高了自主学习的能力和解决复杂工程问题的能力,对语音识别的一些算法也有了大致的了解,增长了见识。本次程序设计中,我深刻认识到使用调试工具的重要性,如在声音录用中的录制模块中,两个While循环嵌套,外层为声音的录用,内层为等待模块。最开始测试程序时,发现按下“停止录音”按钮后,程序无法正常终止。通过“高亮显示执行过程”工具,发现是内层循环的终止条件存在问题。通过修改程序,问题得到完美解决,积累了一些经验教训,为以后毕设打下了基础。

参考文献

[1] 黄松岭,吴静. 虚拟仪器设计基础教程. 清华大学出版社. 2008.

[2] 朱迪. 基于LabVIEW的声音密钥系统设计.安徽电子信息职业技术学院学报. 2013.

[3]史建峰. 基于LabVIEW和MA TLAB环境下的语音识别算法研究与实现. [硕士论文]. 中国科学技术大学. 2007.

[4]杜京义,李阿妮. 基于LabVIEW平台的语音识别系统的设计. 全国虚拟仪器学术交流大会. 2009.

ppt声音插入六种方法

最近在网上反复看到,如何在ppt 中插入音乐,指定播放音乐,嵌入音乐的问题,由于很多网友不知道如何进行动画效果设置,百度知道回答中需要上图审核时间长,因此分享下列经验。(Microsoft Office PowerPoint 2003为例,07和10版本,在某些操作中会简单提示) 这些经验共有下面四条: PPT 插入声音的类型 插入声音的六种方法 嵌入声音 对声音进行指定播放 一、PPT 插入音乐的类型 PPT 能插入什么类型的音乐?大家也不用特意去记住,一般说来可以常用的音频格式wav 、mp3都可以。实在拿捏不准,见下图操作,就知道你的音乐类型能不能插入ppt 了。 打开ppt 软件——插入——影片和声音——文件中的声音(见下图1) 这时弹出下列对话框,在下面的文件类型框中,可以看到ppt 所有允许插入的声音文件类型了。 ( 见下图2) 图2

注:有的网友会遇到,我明明插入的类型与ppt 符合,但还是不能播放?这种原因是因为制作音频的软件比较多,各自的编码不同,造成ppt 无法解码播放。遇到这种情况,解决办法:用“格式工厂”软件转一下,即使转成相同的类型也行) 二、ppt 插入音乐的四种方法 准备工作:新建一个文件夹,重命名:“我的ppt ” , 并将你要插入的声音文件“声音.wav ”,拷贝到此文件夹中。 第一种:直接插入法 1、打开Microsoft Office PowerPoint 软件——插入——影片和声音——文件中的声音,(见图3) 在弹出的对话框中,点击浏览窗口的下拉三角形,找到“我的ppt ” 中需要插入的声音文件“声音.wav ”,点击“确定”,弹出对话框(见下图4) 说明:“自动”选项按钮——表示插入的声音文件在幻灯片播放时,会自动播放声音;“在单击时”按钮——表示插入的声音文件在幻灯片播放时,需要点击“喇叭”图标,才会播放声音“声音.wav ”。 2、点击“自动”或“在单击时”按钮后,在ppt 视图页面,出现一个“喇叭”图标 图 3

高频电路调试工具分析

高频电路调试工具分析 作者:刘泽江 来源:《电力与能源系统学报·下旬刊》2020年第04期 摘要:社会的发展,使电力行业迎来了重要的时代发展机遇。现阶段,高频电路调试工具的基本运行原理表现为贴片电容必须固定在一定的距离内,之后还需要对微带印制板电路进行相应的调试,然后直接借助镊子以及贴片和电容进行结合,昀后就能够变为调试和微带印制板电路结合成的高频电路。本文就高频电路调试工具展开探讨。 关键词:高频电路;调试工具;分析 引言 为保证高频通道信号良好的传输性,高频通道电路的印制板一般采用微带板,在工作时,安装有电子元器件的微带板印制线是指标敏感部位,对微带线上传输信号的功率、频谱、波形等指标非常敏感。微带电路的调试也正是利用微带电路指标敏感的这一特点,将反射材料或者贴片电容安装在微带电路的不同位置,以及在同一位置处安装不同调试元件,或者通过在微带板贴装小型金属片、改变微带板印制线的粗细、长短、大小来调整该处电路的电抗参数,将电路指标调整到昀佳状态。 1数字电子电路 伴随着微电子技术的进一步发展,数字电子电路营运而生,并已经在社会生产和生活中得到了广泛的应用。数字电子电路主要由半导体工艺制作而成的,其构成非常复杂,常常由多个数字集成器件所组成。与以往的电子电路有所不同,数字电子电路具有三个显著的特点,即:(1)数字电子电路具有算术运算的巨大功能,并且具备逻辑方面的运算功能。数字电子电路运算的基础就是二进制的逻辑,这种信号的运用,是对算术进行运算的昀为主要工具。因此,在在数字电子电路进行逻辑运算的过程中,具有极高的方便性;(2)数字电子电路在应用的过程中,其系统具有极高的可靠性,并且鉴于数字逻辑电路的二进制,具有极高的可靠性。在这种情况下,数字电子电路在应用的过程中,即便是电源电压波动性较小,也不会受到严重的影响。(3)数字电子电路集成度较高,并非常容易实现其功能。同时,数字电子电路在应用的过程中,功能非常低,并且在维修和设计的过程中,也具有极高的灵活性。 2对于高频电路调试工具的原理分析 通常使用的调试电容外形为 0603型、0805或 1206型。0603型或 0805型调试电容昀大产度为约 2mm,去掉金属脚,镊子可以接触的部位很小。调试时,由于镊子与电容接触的部位较小,镊子容易触碰电容某一端的焊盘。当镊子触碰贴片电容的焊盘时,因金属镊子、贴片电

男女声识别系统

男女声识别系统 摘要: 本文通过对男性和女性声音的语音特征的研究,发现男女声的基音频率存在较大的差异,并设计了基于基音频率分析的男女声识别系统。男女声识别系统由以下三个模块电路构成:话筒放大器,低通滤波器,半波整流电路,单片机测量控制模块。话筒放大器采用NE5532P音前置芯片,对语音信号进行放大;八阶低通滤波器MAX293完成基音信号的提取;单片机STC12C5410AD实现频率测量和控制输出功能。经仿真与电路实测,男女声的识别效果良好。 关键词:男女声识别、基音频率、低通滤波器、单片机。 一、引言 人类基音的范围约为70~ 350Hz左右,由于生理结构的不同, 男性与女性的声音呈现出不同的听 觉特征,男声的基音频率大都在 100—200HZ之间,而女声则在200 —350HZ之间;在会话中,同一发 音者的基音频率变化的统计结果, 如图一所示。女声与男声相比,前者的平均值、标准差都为后者的两倍左右。不同发音者的基音频率分布如图二所示,在对数频率轴上男声,女声分别呈现正态分布,男声的基音频率的平均值和标准差分别为125HZ及其20HZ。女声约为男声的2倍。鉴于男女声存在基音频率的明显差异,基音频率可作为男女声识别的依据。 二、方案论证与比较 基于男女声基音频率的差异,男女声识别的实现可以通过基音频率的测量来实现。基音频率的实现有多种方法。如FFT分析、自相关分析等。

方案一:基于FFT的短时频谱分析。把语音信号数字化,即经AD采样量化之后,用FFT算法处理,得到信号的频谱,从而获得基音频率。这种方法由于算法较复杂,数据处理量大,如用单片机来实现,编程复杂,运算速度慢,难以满足实时要求。 方案二:滤波器基音提取技术。利用低通滤波器滤除多次谐波及共振峰等高频成分,得到近似的基音信号,此法可以用硬件电路构成滤波器实现基音信号的粗略提取,避免了大量算法分析和数据处理,实现起来相当简单。为了证明这种方法的有效性,我们用计算机声卡录制了近20名男女同学的单音、词组和句子的WAV文件,在MATLAB上编写程序进行仿真。 1.男女声信号通过400HZ低通滤波后的仿真波形比较。我们将男女声信号经过八阶低通滤波器,其截止频率设定为400HZ。仿真结果如图三所示。从图形上我们可以看到:通过400HZ的低通滤波器后,男声输出为约120HZ左右周期性信号(非单频正弦波);女声输出约250HZ左右周期性信号,其波形接近正弦波。这说明经过400HZ低通滤波器后,女声声音主要由基音信号构成,而男性声音的非正弦性是由于其二次谐波及共振峰的存在的结果。 2.男女声信号通过200HZ低通滤波后的仿真波形比较。我们将男声、女声输入信号经过八阶低通数字滤波器滤波,截止频率设定为200HZ。男声、女声及其通过200HZ低通滤波后的波形如图四所示: 从上边的图形我们看出:经过200HZ的低通滤波器,男声输出为较好的正弦波(基音信号),而女声基本上没有信号通过。 从MATLAB数据处理软件对采集信号分析的结果表明,用滤波器提取基音频率的方法完全可行。我们在计算机上用这种方法编写了男女声识别软件,对男女声基音特征进行提取,实现了识别的仿真。实验表明,在正常说话条件下,系统具有较高的识别率,仿真效果令人满意。 三、系统实现 1.设计思想与系统构成:

声音信号的获取与处理

实验一声音信号的获取与处理 声音媒体是较早引入计算机系统的多媒体信息之一,从早期的利用PC机内置喇叭发声,发展到利用声卡在网上实现可视电话,声音一直是多媒体计算机中重要的媒体信息。在软件或多媒体作品中使用数字化声音是多媒体应用最基本、最常用的手段。通常所讲的数字化声音是数字化语音、声响和音乐的总称。在多媒体作品中可以通过声音直接表达信息、制造某种效果和气氛、演奏音乐等。逼真的数字声音和悦耳的音乐,拉近了计算机与人的距离,使计算机不仅能播放声音,而且能“听懂”人的声音是实现人机自然交流的重要方面之一。 采集(录音)、编辑、播放声音文件是声卡的基本功能,利用声卡及控制软件可实现对多种音源的采集工作。在本实验中,我们将利用声卡及几种声音处理软件,实现对声音信号的采集、编辑和处理。 实验所需软件: Windows录音机 Cool Edit Pro 2.1 进行实验的基本配置: ●●Intel Pentium 120 CPU或同级100%的兼容处理器 ●●大于16MB的内存 ●●8位以上的DirectX兼容声卡 1.1 实验目的和要求 本实验通过麦克风录制一段语音信号作为解说词并保存,通过线性输入录制一段音乐信号作为背景音乐并保存。为录制的解说词配背景音乐并作相应处理,制作出一段完整的带背景音乐的解说词。 1.2 预备知识 1.数字音频和模拟音频 模拟音频和数字音频在声音的录制和播放方面有很大不同。模拟声音的录制是将代表声音波形的电信号转换到适当的媒体上,如磁带或唱片。播放时将纪录在媒体上的信号还原为波形。模拟音频技术应用广泛,使用方便。但模拟的声音信号在多次重复转录后,会使模拟信号衰弱,造成失真。 数字音频就是将模拟的(连续的)声音波形数字化(离散化),以便利用数字计算机进行处理,主要包括采样和量化两个方面。 2.数字音频的质量 数字音频的质量取决于采样频率和量化位数这两个重要参数。采样频率是对声音波形每秒钟进行采样的次数。人耳听觉的频率上限在2OkHz左右,根据采样理论,为了保证声音不失真,采样频率应在4OkHz左右。经常使用的采样频率有11.025kHz、22.05kHz和44.lkHz 等。采样频率越高,声音失真越小、音频数据量越大。量化数据位数(也称量化级)是每个采样点能够表示的数据范围,经常采用的有8位、12位和16位。例如,8位量化级表示每个采样点可以表示256个(0-255)不同量化值,而16位量化级则可表示65536个不同量化值。

声音识别的特点与应用

声音识别的特点与应用 对于声音识别技术来说,由于不需要过多的接触以及实体间交互模式的认证。因此,它在使用中无疑要比识别技术等更加的便利。而在配置过程中,由于当前大多的IT产品都已经安装了声卡和话筒。因而它的构架上也可以节约更多的成本。此外,对于使用环境来说,由于不需要像监控设备那样对角度有着更高的要求,所以语音识别系统的使用环境无疑也会更加的随意和隐蔽。这些都是语音识别系统与其他安防设施相比更加独特的优势。 所以,对于语音识别系统的应用,无论是普通的民间交流,还是更加专业的法律取证,都是它大显身手的时候。而相比于它在民间的应用,作为安防系统的它在治安管理领域显然要有着更加突出的发挥。 如果说起语音识别最知名的应用,恐怕还要属当年美国在打击本拉登与萨达姆的例子。在那个情报鱼目混杂,真假情报混为一潭的环境下,无论是本拉登还是萨达姆总要频频献声,而美国的情报部门正式根据这种通过声音识别的方式,对所受到的情报进行一一划分,从而汲取了有效的信息,理清了自己的打击思路,甚至还能通过对声音的识别对目标人物的身体状况作出一个大致的判断。可以说将对方的挑衅摇身变成了送上门的情报。 而对于我国国内的治安应用来说,如今的安全部门也在更多的引入这一技术进行犯罪活动的打击。比如在处理一些电话追踪,违法交易的电话截获等等。都有着语音识别的影子。随着语音识别技术的进一步完善,信息准确性的不断提升,如今一些法庭的审判也开始采用了语音识别作为证据。可以说他对于我们的帮助也正在由临时参考逐渐走向了依赖。 除了安防系统应用以外,其实我们日常生活中一些身份的识别也在采用语音识别的模式。现如今,已经有不少的银行采用了语音识别的模式进行保险箱的控制,或者在一些远程的服务中,也采用语音识别的模式,对客户的身份进行定位。此外,作为智能化技术的重要一环,语音识别对于智能家居系统同样有着创造性的作用。尽管这种全新的模式在短时间之内普及的话,无论是在技术上还是理念上都会遇到不小的阻力。但从长远来看,这种技术的出现以及民用化的普及,对于未来实现个人信息的全方位保护绝对是一个重要的标志性作用。

Windows 7操作系统音频无法输入的解决办法

Windows 7操作系统音频无法输入的解决办法随着Windosw 7操作系统的不断普及,使用该系统的人逐渐增多,但是由于该系统和以往我们熟悉的XP操作系统有很大区别,所以刚开始用起来就不那么得心应手。其中音频无法输入或者输出的问题很多朋友都遇到过。下面我简单介绍一下我遇到该问题的解决办法。 第一:当我们发现音频不能输入(通常是QQ语音聊天时对方听不到你的声音)。 (1)我们要检查一下声卡驱动是否正常,具体的检查方法为: 选中桌面“计算机”图标,右键选择“管理”,打开管理界面。

打开“设备管理器”,查看“声音、视频和游戏控制器”是否有异常,如带有黄色的叹号或问好,如果没有则说明声卡驱动安装正确,如果有异常则需要安装或更新声卡驱动。一般声主板驱动盘上都有声卡驱动,找到安装即可。如果一时找不到驱动板,建议直接从网上下载“驱动精灵”或“驱动人生”软件安装驱动,这些软件都很简单,基本都是一键安装即可解决问题,不再赘述。 (2)如果驱动正常我们应该检查一下当前的输入设备是否正常,比如输入的接头是否与电脑正确连接,另外如果输入设备带有电源,需要确认电源是否通电,如果输入设备连接正常,那么我们就需要检测一下输入设备是否有输入信号。检查的步骤具体如下:

点击电脑左下角的“开始图标”; 从所有程序中找到附件并打开 打开录音机,如下图:

点击“开始录制”,然后对着话筒或麦克说明,如果方框中有波形出现则说明麦克正常,如果没有则说明麦克风不正常,需要更换麦克风了。 第二、电脑的后面板输入、输出都正常,但前面板的输入输出都不正常,我就遇到了这种情况。通过上面的检查、我确认电脑的驱动也正常、输入设备也正常,就是接到前面板上不行,此时只需按下面的方法设置电脑即可: 点击屏幕右下角的“显示隐藏图标”按钮,选择“音频管理器”

高频声音识别电路

高频声音识别电路 实验人:。 ************* ************* 一、要求 要求检测10KHz~50KHz的声音信号,该信号交流幅值为0.01mV,信号灯的点亮驱动为直流信号,幅值需要超过1mV(要求使用 三极管,不能使用运放)电路只需要实现微弱交流信号的输入 到直流信号的输出即可。 二、实验部分 1、实验分析: 首先检测信号为0.01mV微弱信号,需要将其进行放大输出;其次输入为交流信号而输出为直流信号,需要分 别经过整流电路,滤波电路,稳压电路将其转化为稳定的 直流电压。实验暂不要求稳压,因此可以将电路粗分为三 级:放大电路、整流电路、滤波电路。 2、第一级放大电路: 这里采用差模差分放大电路 (1)对差模输入信号的放大作用 当差模信号Vin1-Vin2输入(共模信号V=0)时,差放两输入端信号大小相等、极性相反,因此差动对管电流增量的大小相等、极性相

反,导致两输出端对地的电压增量,即差模输出电压v o1、v o2大小相等、极性相反,此时双端输出电压v o=v o1-v o2=2v o1,可见,差放能有效地放大差模输入信号。 要注意的是:差放公共射极的动态电阻R em对差模信号不起(负反馈)作用。 (2)对共模输入信号的抑制作用 当共模信号v输入(差模信号v=0)时,差放两输入端信号大小相等、极性相同,即Vin1=Vin2=v,因此差动对管电流增量的大小相等、极性相同,导致两输出端对地的电压增量,即差模输出电压v o1、v o2大小相等、极性相同,此时双端输出电压v o=v o1-v o2=0,可见,差放对共模输入信号具有很强的抑制能力。 此外,在电路对称的条件下,差放具有很强的抑制零点漂移及抑制噪声与干扰的能力。 (3)镜像电流源: 为了使差分放大电路始终保持稳定,我在下面加入了镜像电流源原理图: 基本电流源如上图,两只晶体管T1、T2完全相同;β1=β2;Ic1=Ic2;因为两管具有相同的基极射级电压,所以Ie1=Ie2,Ic1=Ic2,又因为当β较大时Ib几乎可以忽略不计,所以Ic2大约等于Vcc/R;

教案;声音的录入与编辑

声音的录入与编辑 ——“我会绕口令” 广东实验中学陈健一、教学分析

二、教学过程

2004-11-19

【附录】 1、教学资源 绕口令是文字与语法结合而成的艺术,其内容是将音同字不同或读音相近的一些字组合成的句子快速的念出;这些句子的意义或许不是和合理,但它最主要是着重在语法的表现;念的时候必须快速而且无误,能够训练人们清晰的口齿,避免口吃,更可作为休闲逗趣的话题。 2、评价参考表:

李艺点评 在听这节课的那两天里,我同时听了几十节课,这节课给我的印象最深。当然,另外也有些课非常优秀,教师优秀,设计优秀。之所以这节课给我印象最深,因为它恰好是我这一段时间苦苦寻找的。我们的信息技术课程,是不是可能有生动的引题(或者叫创设情境?),是不是有可能既包含知识技能过程方法又附着丰富的情感价值等等,本节课的设计者很好地解决了这个问题。教师通过一个绕口令的录制及编辑这个话题,很容易吸引住学生的注意力,马上在有限的课堂教学时间内将声音的录制和一些基本编辑技巧教给学生,并告知学生这些方法当前正在被广泛地应用着。整节课从生活开始,中间富含多层面内容,又以回归生活价值结束,设计简洁,效果明显。我真的希望今后在信息技术课程的各个部分都看到这样的设计案例。 这个实例还可以拓展,比如在整个音频技术方面,或者在图形图像制作技术方面,都可以通过一组单元案例,将需要介绍的知识与技能、过程与方法巧妙地组合其中,轻松并高效地完成教学任务。用这样的方法,估计整个基础分册的多媒体技术部分8个学时左右就能够完成,使课堂充实而富于魅力,使学习者真正学到一些东西,体验学习的成就感。

声纹识别

声纹识别系统 摘要 本文首先通过用层次分析法(AHP )构建了影响声纹识别的八大因素,并将其进行量化处理,得到了合理的权重比。同时构建Mel 倒谱系统提取说话人的主要特征倒频谱(MFCC 参数),利用提取的 MFCC 参数训练话者的 GMM (高斯混合模型),得到专属某话者的 GMM 声纹模型。接着通过语音数据对构建的声纹识别模型进行评价。发现得到的模型虽然可以接受,但其准确率不是很高。为了使模型的精确率提高,我们通过利用改进的K-means 算法来将模型进行调整。 问题一: 我们通过层次分析发得出语者的声学特征在语音识别中所占的权重最大,而且限于目前的技术,我们最终将能描绘语者声道结构的Mel 倒频谱系数作为语音的特征向量,该方法能很好的模拟人耳对不同频率的感知特性,具有很好的稳定性和准确度。然后我们利用matlab 编程将提供的语音数据的MFCC 系数提取出来作为声纹识别系统的训练样本。 问题二:基于高斯混合模型(GMM),我们用EM 算法来估计GMM 中的未知参数,由K-means 算法来得到EM 算法的初始值,通过不断地迭代EM 算法更新GMM 模型中的权重(w ),均值(u)和方差矩阵,直到最终使 ()*()P X P X λλε-<,ε取10-5。 问题三: 根据问题一的MFCC 模型和问题二的GMM 模型,利用matlab 编程,用样本语音数据去训练GMM 模型得到样本库,让后用未知的测试语音样本利用模式匹配法去与样本语音库进行匹配,得到一系列的匹配概率,概率最大者对应的语者为测试语音的主人。我们得出的结论是EM 算法的初值对最终的识别率有很大影响,用来确定GMM 初始值的K-means 算法有比较大的误差,需要改进。 问题四: 基于问题三的测试和查阅的相关资料,我们认为传统的K-means 算法忽略特征矢量各维分量对识别的影响,因而无法得到令人满意的识别结果。由数理统计知,方差是用来衡量样本数据的离散程度的。如果特征矢量的分布稀疏,则它的方差就会很大,反之,那些分布较集中的矢量方差比较小。为此,本文提出了基于方差的加权几何距离,在聚类过程中,对特征矢量的各分量按方差大小进行加权,加权因子为矢量方差的倒数。 关键字:声纹识别 层次分析法(AHP ) 美尓倒频谱系数(MFCC ) 高斯混合模型(GMM ) 期望值最大化算法(EM ) K-means 算法

高频课程报告--鉴频电路设计分解

课程设计任务书 学生姓名:专业班级:电子0802 指导教师:钟毅工作单位:信息工程学院 题目:鉴频电路设计 初始条件: 具较扎实的电子电路的理论知识及较强的实践能力;对电路器件的选型及电 路形式的选择有一定的了解;具备高频电子电路的基本设计能力及基本调试能 力;能够正确使用实验仪器进行电路的调试与检测。 要求完成的主要任务: 1. 采用二极管完成一个鉴频器的设计。 2. 设计FM-FM.AM变换电路并进行调试, 3. 输入调频波,观测鉴频器的输入、输出波形, 4. 完成课程设计报告(应包含电路图,清单、调试及设计总结)。 时间安排: 1.2011年6月3日分班集中,布置课程设计任务、选题;讲解课设具体实 施计划与课程设计报告格式的要求;课设答疑事项。 2.2011年6月4日至2011年6月9日完成资料查阅、设计、制作与调试; 完成课程设计报告撰写。 3. 2011年6月10日提交课程设计报告,进行课程设计验收和答辩。 指导教师签名:年月日 系主任(或责任教师)签名:年月日

目录 摘要 ............................................................... I Abstract .......................................................... I I 绪论 (1) 1频率解调原理分析 (2) 1.1理论分析 (2) 1.2变换电路分析 (3) 1.3包络检波 (3) 2电路设计 (4) 2.1变换电路设计 (4) 2.2检波器的设计 (4) 2.3检波器的失真 (5) 2.3.1惰性失真 (5) 2.3.1底部切削失真 (6) 3 FM-AM变换电路设计 (7) 3.1 整体电路设计 (7) 3.2载波产生电路设计 (7) 3.3 乘法器设计 (9) 3.4 电压跟随器设计 (10) 4电路实现与测试 (11) 4.1 实物制作 (11) 4.2 电路测试 (13) 4.2.1 FM—AM波形测量 (13) 4.2.2鉴频波形测量 (14) 4.2.3鉴频特性曲线 (15) 5 总结 (16) 参考文献 (17) 附录1总体电路图 (18) 附录2 PCB制版图 (19) 附录3 元件清单 (20)

LabVIEW大作业——基于声卡的声音识别系统

基于声卡的声音识别系统 1.任务内容: 每个人的声音都有各自的特征以及讲话时特殊的语言习惯,这些都反映在声音信号中。利用声卡DSP技术和LabVIEW多线程技术,把声音作为声卡数据采集的对象,搭建一种基于声卡的虚拟数据采集和分析系统,实现声音识别。 整个系统包括声音的采集,A/D转换,音频数字信号的分析和处理,存储、现场采集到的声音同登记过的声音模板进行精确的匹配等等。整个程序可以分为:样本声音采样子系统,样本声音保存子系统,待检声音采样子系统,声音识别子系统等等。样本声音可以定义为系统所有者自己设定的“声音密码”;待检声音可以定义为任意用户输入的声音。 提示: 1.声音输入模块:合法用户向系统输入自己的声音,作为唯一的密钥匙。 2.声音识别模块:任意用户向系统发出申请,输入自己的声音,系统将对其进行识别,并对正确的“密钥”输入进行响应。 3.采样声音时用户不是随便说一句话,而是要说一句特定的话,并且要用特定的语速,才能被系统正确识别。语音录入查看匹配情况时,有80%近似即可表示基本匹配。 2.要求: 在深刻领会任务内容及要求的基础上,通过查阅文献资料、调查研究和方案论证,然后开展设计、研制、开发、编制VI程序以及数据处理、分析总结等与任务内容要求相应的工作,并撰写报告,独立地完成设计的各项任务。 设计思路: 分成四个子vi,样本声音录音和保存子vi,样本声音分析子vi和保存,待测声音录音,保存分析,子vi,和识别子vi。在识别的过程中采样将滤波后的频谱和功率谱波形比较。但是我只做到了样本声音的录音和保存子vi和样本声音分析子vi和保存,两个频谱的分析子vi不会做。 设计的步骤: a)首先是前面板的设计,录音的过程中,前面板上不需要什么输入的东西,我 都是在框图中即时添加的。 b)接着是框图的设计,在录音的过程中需要,需要调用些子vi,分别是si config.vi, si start.vi, si read.vi,si clear.vi.完成的功能是初始化声卡,采样,释放声卡。 c)因为在录音的过程中需要控件,当出现错误和暂停是能够停止,因为我用到 了while结构,在满足要求的条件的过程中能够录音,在满足条件的过程中停止。 d)还因为录音过程中可能需要暂停,在case结构中,true时立即开始录音,false 时暂停录音。

CIS系统之听觉识别系统-2019年文档

CIS系统之听觉识别系统 听觉识别系统(Audio Identity System)简称AIS,是通过听觉刺激传达企业的理念以及品牌形象的识别系统。 听觉识别系统是后来引入到CIS(Corporate Identity System)系统之中的。现代社会上流行CIS系统的包括MIS理念识别系统、BIS行为识别系统和VIS视觉识别系统,这比CIS系统出现之前有了较为完善的发展。当今有人在此基础上增加了AIS听觉识别系统和EIS环境识别系统,这使CIS系统更加完善、更加科学。 心理学上显示:人所感觉接收到的外界信息中,有83%来自视觉,11%来自听觉,3.5%来自嗅觉,1.5%通过触摸,另有1%来自味觉。可见人通过听觉得到的信息量仅次于视觉,这也是一个比较重要的传播途径。在当今视觉广告纷繁复杂的环境中,随处都可以感受到一些企业的听觉传播手段,也许在我们感到视觉疲劳的时候可以闭上眼睛不看广告,但是却阻止不了广告语传入耳朵中。比如路过麦当劳时总会听到:“麦当劳欢迎您来,欢迎您再 来!”;在听武汉广播时会听到:“群光广场,在您生活的每一天”。这些广告语重复出现在身边,慢慢就会在脑海里留下痕迹,每当我们有相似需求时,它们就会第一个蹦出来,比如过节或朋 友聚会时会考虑是不是去麦当劳搓一顿?逛街时会犹豫要不要去群光看看。可见广告语加强了我们对企业的认知度并潜移默化的

影响着我们的购买行为。 听觉识别系统主要包括产品名称的选择、广告语、企业歌曲(例如广州视唱文化传播XX公司为?%[3专业演出音箱系统做的宣传歌曲等)、广告音乐(例如马自达2的广告音乐、康师傅矿物水的广告音乐等)、企业特殊声音(例如:本田公司生产的摩托车发动机声音)、企业特别发言人的声音(例如李玟的“好迪真好、大家好才是真的好”)等内容。 在定位企业、产品及商标的命名时,要考虑到其商业名称的可读性,一是要注意用字的发音是否清晰易辩,好能悦耳动听、朗朗上口,如“科龙”、“红豆”、“浪奇”、“健力宝”、“娃哈哈”等等,义及发音都不错。二是要注意其谐音所导致的一些联想,该尽量启发正面联想,竭力消除负面影响。例如“柯达”读起来让人仿佛听到照相时按动快门的声响;“金利来”相信大家都比较熟悉,它的原名叫“金狮”,只因在香港“狮”字的发音与“输”字的发音相似构成了负面联想,而更名。三是要考虑到国际语言的通用性。例如美国驰名商标“艾克森”请语言学家参照了多种语言,无负面影响才得以定案。中国的企业在这方面也有不少杰作,如“四通”的英文是Stone(宝石);“联想”是Legend(传奇);“雅戈尔”是Younger(更年轻)。它们的中英文含义及发音照顾得都很周全。 广告语有广义和狭义之分,广义的广告语指通过各种传播媒体和招贴形式向公众介绍商品、文化、娱乐等服务内容的一种宣

声音定位系统

2014年重庆理工大学电子设计竞赛 声音定位系统(C题)

摘要:本系统使用STM32产生频率为500Hz的正弦波信号,该信号用LM386进行功率放大及驱动后输入到蜂鸣器作为声源。接收部分使用拾音器进行接收,首先对接收的信号经过同相放大,使变化的电流信号转换为变化的电压信号。然后经过由OP07组成的有源带通滤波器,该滤波器的中心频率为 500Hz,带宽为100Hz,增益为1倍,去除周围环境的声波,滤波后的信号正好是蜂鸣器发出的声音信号。再对滤波后的两路信号经过相移检测电路,可以把滤波后的正弦波转换为方波,以便单片机STM32对相位差信号进行捕获。声源定位是通过对四个拾音器接收到相位差信号进行处理,经过一套比较完善的算法可得声源的坐标,即可进行声源定位。 关键词:500Hz 声音定位 STM32 一、系统方案

1.声音信号产生的选择 方案一:采用NE555产生频率为500Hz的方波用来作为声音信号。它的作用是用内部的定时器来构成时基电路。外部通过简单的电路可获得所得的信号。该电路搭建比较简单,原理易于理解,电路中元器件参数也比较好计算。 方案二:用单片机STM32来产生频率为500Hz的正弦波用来作为声音信号。该正弦波信号的产生实质上是将正弦波转换的到的数组存入单片机,经DA转换输出正弦波。 方案比较:方案一中,用NE555产生信源不是很稳定,波形不太规范且信号的频率不固定,这样的信号对本系统不太合适。方案二中,用软件来产生信号,该信号很稳定,是比较标准的频率为500Hz的正弦波信号,而且,产生波形比较灵活,从而为发挥部分做好准备。因此选择方案二。 2.声源的选择 方案一:采用低音扬声器作为声源。扬声器是一种把电信号转变为声信号的换能器件。将单片机产生的频率为500Hz的信号接在扬声器的接收端,扬声器能发出强度比较大的声音信号。 方案二:采用无源蜂鸣器作为声源。无源蜂鸣器在提供一定频率的正弦波震荡源时,能够发出声音。试验中用无源蜂鸣器发声时,声音比较清晰,但声音强度比扬声器稍弱。 方案比较:这里选择方案二。 3.滤波方案的选择 方案一:用RC无源滤波器。通过计算可以较方便的通过匹配电阻电容得出所需要的通频带。该滤波电路抗干扰性较强,有较好的低频特性,并且选用标准的阻容元件易得。 方案二:用有源滤波器。有源滤波器是利用可关断电力电子器件,产生与负荷电流中谐波分量大小相等、相位相反地电流来抵消谐波的滤波装置。

声音方位快速识别系统设计

声音方位快速识别系统设计 1.目的和意义 在巷战和山区战斗中,迅速判断枪声的来源,是至关重要的,是士兵和战车存亡的关键,在伊拉克战争中,美军已经装备有相关技术的设备。 在一些复杂的工业环境中,对于一些故障方位的识别也是重要的,因此,识别音响方位有着重要的应用意义。 2.基本原理 人的耳朵长在头的两侧,人依靠两耳听到声音的时间差和强度判断声源的大概方向和距离。气温20℃时,空气传导声音的速度是334米/秒,音强=音强1/距离2。以一次击掌为例,人耳听声示意如图1所示。左右耳感声示意图如图2所示。 声源在前方 声源在左前 声源在右前 图1 人耳声学示意图 左耳右耳右耳右耳左耳左耳声源在右前 声源在前方 声源在左前 图2 左右耳时差、声强示意图

正常情况下,人可以比较准确地识别音源。但是实战中,有以下因素干扰了人的听觉: ①人的叫喊声; ②战车的轰鸣声; ③炮弹的呼啸声; ④头戴式通信装备等。 另外,人的反应速度不快,神经的信号传导速度远远低于电信号的传导速度;视觉的反应速度远远高于听觉的反应速度。 3.题目任务 ①设计一套枪声方位快速识别系统硬件装置; ②配合硬件装置,设计一套枪声方位快速识别软件; ③完成系统初调。 4.硬件方案 系统硬件框图如图3所示。 图3 系统硬件框图 5.技术路线 4-8MIC 内置36个LED 图4 单兵型硬件模块图

图5 车载型硬件模块图 6.技术关键 ⑴抗干扰技术 ①人的叫喊声; ②战车的轰鸣声; ③炮弹的呼啸声; ⑵远近识别 ①远地狙击; ②近地自动武器; ③敌我识别(很难)。 ⑶学习功能 ①自身和友邻战车的轰鸣声; ②自身和友邻近地自动武器(困难);

声音信号采集与播放

声音信号采集与播放 实验报告 目录 一、实验概述 二、实验程序及介绍 1、录制声音文件 2、播放声音文件 三、实验结果及分析 四、实验总结

一、实验概述 本实验在LABVIEW平台上构建了一个声音信号采集和播放的程序。用这个程序可以通过麦克风将音乐、声响或语音录制下来,保存在文件中,并通过播放程序部分将保存的声音文件播放出来。 二、实验程序 1、录制声音文件

图1 录制声音程序流程图 图2 录制声音程序前面板 录制声音的程序由一系列声音VI和一系列文件VI并列组成,程序框图如图1所示。下面按照图中各个VI的序号,介绍程序的构成。 (1)读取并打开声音文件VI:这是一个多态VI,此处选取“写入”。它创建一个声音文件,用于写入“.wav”格式的声音文件。它要求输入文件路径和声音文件格式。“声音格式”参数是一个簇,其中包含采样率、通道数、没采样比特数。程序中把这3个参数分别设置为22050、2、16,这样可以把麦克风输入的声音存储为16位立体声数据文件。它输出一个声音文件引用句柄。 (2)写入声音文件VI:将输入的声音数据写入声音文件。声音数据是一个簇数组,共两个元素;每个元素是一个波形簇,包括采样开始时间t0、采样时间间隔dt和声音数据y。t0和td被忽略,y可以是DBL、SGL、U8、I16、I32几种数据类型。这是一个多态VI,要根据y输入的数据类型手工选择相应的子VI。 (3)关闭声音VI:根据输入的声音文件引用句柄将“.wav”声音

文件关闭。 (4)配置声音输入VI:配置声音输入设备以采集声音数据。“每通道采样数”参数配置内存缓存中每个通道的采样数,连续录音时要用大一些的数值,本例配置为“10000”;“采样模式”参数在事前不清楚录制数据量大小时配置为“连续采样”;“设备ID”参数指定使用的声音设备;“声音格式”参数前面已经介绍过;“任务ID”参数输出一个关于指定设备配置信息的标识。 (5)读取声音输入VI:根据输入的任务ID从声音输入设备读 取数据。“每通道采样数”的参数要和配置声音输入VI中的配置相同。这是一个多态VI,要根据需要的声音数据类型手工选择相应的子VI。 (6)声音输入清零VI:根据输入的任务ID结束声音采集、清 空内存缓冲区、释放相关设备资源。 (7)简易错误处理器VI:报告整个程序执行过程中是否有错误。 2、播放声音文件 图 3 播放声音程序流程图

声音识别

前言:声音识别的迅速发展以及高效可靠的应用软件的开发,使声音识别系统在很多方面得到了应用、这种系统可以用声音指令拟应用特定短句实现“不用手”的数据采集、其最大特点就是不用手和眼睛,这对那些采集数据同时还要完成手脚并用的工作场合尤为适用。由于每个人的声音千差万别,因此声音可以用作安全认证的依据之一。 别人可以模仿你的签字,猜测你的密码,甚至能留下你的指纹,但要模仿你的声音就有点太苛刻了。美国的一座智能化大厦就采用了声音识别的方式。到达公司门口,你必须通过安全检查。电子声控门卫将问候“早上好!”你也该回答“你好!”或“早上好!”之类的礼貌用语。此时电子门卫通过你的声音来辨别你是不是该公司的工作人员,如果确认你是,它将主动为您打开门,但如果不是,电子门卫将客气地将你“拒之门外”。 如果你视力不好或行走不便,声控设备也可助一臂之力。比如,你可以通过说话控制洗衣机、电视机、电脑等设备。让它们执行开启、关闭等简单的任务。装有声控设备的电脑还能为你朗读新收到的电子邮件,告诉你最新的消息。荷兰飞利浦公司最近还研制出了一种新型音响设备,如果你想听音乐,不用走到音响前找按钮,也用不着遥控器,目口使你在厨房,只要喊一声“开始放音乐吧!”远在客厅的音响就能自动开启,再说出歌曲的名字,音响就能在几秒钟之内找到这首歌自动播放。更为神奇的是,如果你想不起来歌曲的名字,只要哼几句歌曲的旋律,音响就能辨别出是哪首歌,然后播放给你听。在2003年9月的CeBIT大展上,SONY亮出了他们QRIO家庭娱乐机器人。为强化对话功能,这款机器人配备了专门用于声音识别与声音合成的CPU。这样,在原机型“SDR-4X”中通过外部PC实现的大词汇量连续声音识别可以由机器人独立完成。机器人可使用的词汇量约2万条。为扩展记忆对话功能,不仅能记住对话者的面部与姓名,还能记住对话者在对话寸使用的单词。因此,当新款机器人与同一个人第二次碰面寸,不仅能认出对方是谁,还能想起过去的对话内容。这样就能对曾经遇到过的人“产生一定的感情”,原型号的机器人只能想起面部与姓名。 美国中央情报局近年来一直在秘密开发“声音自动处理系统”,并用“经典故事”来命名代替。这是一种可以“实寸自动鉴别语言、说话人和武器平台”的系统,这种系统不需要人工的介入,也不管说话人的语言是什么,即可以通过语音识别技术确认该人的身份,并锁定他说话时所在的地理位置。2003年8月?日,卡塔尔半岛电视台再次播放了据称是伊拉克前总统萨达姆的讲话录音。萨达姆在讲话中号召伊拉克人民“利用各种方式”赶走美英占领军。美国中央情报局官员随后发表声明称,中情局专家在对这盘录音带进行对比分析后,认为录音带上的声音“十有八九出自萨达姆本人”。 这次美国中情局就动用了语音识别系统。每个人的声音束、嘴型、喉咙、鼻道以及发音肌肉都各不相同,这些有差异的物理特性,决定了每个人声音的独一无--i性。据一位曾在苏联侵略阿富汗期间为美国工作的巴基斯坦将军透露:“所有的国家领导人由于其口音、停顿、

基于Labview的声音信息采集与处理

实验四基于LabVIEW的声音数据采集 一、背景知识 在虚拟仪器系统中,信号的输入环节一般采用数据采集卡实现。商用的数据采集卡具有完整的数据采集电路和计算机借口电路,但一般比较昂贵,计算机自带声卡是一个优秀的数据采集系统,它具有A/D和D/A转换功能,不仅价格低廉,而且兼容性好、性能稳定、通用性强,软件特别是驱动程序升级方便。如被测对象的频率在音频范围内,同时对采样频率要求不是太高,则可考虑利用声卡构建一个数据采集系统。 1.从数据采集的角度看声卡 1.1声卡的作用 从数据采集的角度来看,声卡是一种音频范围内的数据采集卡,是计算机与外部的模拟量环境联系的重要途径。声卡的主要功能包括录制与播放、编辑和处理、MIDI接口三个部分。 1.2声卡的硬件结构 图1是一个声卡的硬件结构示意图。一般声卡有4~5个对外接口。 图1 声卡的硬件结构示意图 声卡一般有Line In 和Mic In 两个信号输入,其中Line In为双通道输入,Mic In仅作为单通道输入。后者可以接入较弱信号,幅值大约为0.02~0.2V。 声音传感器(采用通用的麦克风)信号可通过这个插孔连接到声卡。若由Mic In 输入,由于有前置放大器,容易引入噪声且会导致信号过负荷,故推荐使用Line In ,其噪声干扰小且动态特性良好,可接入幅值约不超过1.5V的信号。 另外,输出接口有2个,分别是Wave Out和SPK Out。Wave Out(或Line

Out)给出的信号没有经过放大,需要外接功率放大器,例如可以接到有源音箱;SPK Out给出的信号是通过功率放大的信号,可以直接接到喇叭上。这些接口可以用来作为双通道信号发生器的输出。 1.3声卡的工作原理 声音的本质是一种波,表现为振幅、频率、相位等物理量的连续性变化。声卡作为语音信号与计算机的通用接口,其主要功能就是将所获取的模拟音频信号转换为数字信号,经过DSP音效芯片的处理,将该数字信号转换为模拟信号输出。输入时,麦克风或线路输入(Line In)获取的音频信号通过A/D 转换器转换成数字信号,送到计算机进行播放、录音等各种处理;输出时,计算机通过总线将数字化的声音信号以PCM(脉冲编码调制)方式送到D/A 转换器,变成模拟的音频信号,进而通过功率放大器或线路输出(Line Out)送到音箱等设备转换为声波。 1.4声卡的配置及硬件连接 使用声卡采集数据之前,首先要检查Line In 和Mic In的设置。如图2,打开“音量控制”面板,在“选项”的下拉菜单中选择“属性”,得到如图3的对话框,在此对话框上选择“录音”,并配置列表中的选项即可。可以通过控制线路输入的音量来调节输入的信号的幅度。 图2 音量控制面板

男女声识别系统

男女声识别系统

男女声判别 赵浩(15133105) 电子学院 电子与通信工程2015—2 摘要 本文通过对男性和女性声音语言特征的研究,发现男女声的基音频率存在较大的差异,并利用MATLAB设计并运行了基于基音频率分析的男女声识别系统的算法。 关键词:男女声识别基音频率 MATLAB 一.引言 人类基音的范围约为70—350Hz左右,由于生理结构的不同,男性与女性的声音呈现出不同的听觉特征,男声的基音频率大都在 100—200Hz之间,而女声则在200—350Hz 之间;在会话中,同一发声者的基音频率变化的统计结果,如图一所示。

女声与男声相比,前者的平均值、标准差都为后者的两倍左右。不同发音者的基音频率分布如图二所示,在对数轴上男声,女声f分别呈现正态分布,男声的基音频率的平均值和标准差分别为125Hz及20Hz。女声约为男声的2倍。鉴于男女声音在基音频率的明显差异,基音频率可作为男女声识别的依据。

二.设计任务和要求 1.要求:通过音频分析,识别出男声与女声。 2.任务:(1)录若干个男声、女声信号。 (2)分析信号的频谱,观察不同性别声音信号的频谱特点。 (3)设计识别算法,判断出男声、女声。 三.方案论证 利用低通滤波器滤除多次谐波及共振峰等高频成分得到近似的基音信号,此法可以用硬件电路构成滤波器实现基音信号的粗略提取,避免了大量算法分析和数据处理,实现起来相当简单。为了证明这种方法的有效性,用计算机声卡录制了近10名男女同学的单 音、词组和句子的WAV文件。在MATALB上编写程序进行仿真。

四.方案实现 1.将男女声信号通过400Hz低通滤波后的仿真 波形进行比较,我们将男女声信号通过八阶低通滤波器,其截至止频率设定为400Hz,仿真结果如图三所示。从图形上我们可以看到,通过400Hz的低通滤波器后,男女声输出为约120Hz左右周期性信号(非单频正弦波); 女声输出约250Hz左右周期性信号,其波形接近正弦波。这说明经过400Hz低通滤波器后,女声声音主要由基音信号构成,而男性声音的非正弦性是由于其二次谐波及共振峰的存在的结果。

教你如何搞定调音台的输入和输出

教你如何搞定调音台的输入和输出 调音台是一个音响系统的心脏,这个心脏血液循环的如何,直接影响到整个系统的性能。 形象来说调音台就像一个大的水处理池,我们把多种音源信号像流水一样输入进这个大水池,然后在水池内对流入的各种水进行合理的处理,最后再从各种不同渠道流出去,整个过程就是这么简单。因此对调音台的连接无非也是:输入和输出两大部分。 调音台输入部分的线路连接: 调音台的输入信号大体上分为低阻话筒信号输入和高阻线路信号输入两种。其实我们可以把低阻和高阻的区分看成是水压力或水流速度的不同。比如:高阻输入的电平高,就好像水压很大,水流较急,直接输入到调音台这个水池里就合适了,不用在中间加什么环节来调整水压和水流速了;但低阻输入的电平低,就好像水压很低,水流很慢,直接输入到调音台这个水池里就不合适,我们就需要在大水池里加上一台抽水机,把低阻的低水压给它加大,让水流速度加快!所以调音台的低阻输入通道线路里都内置了专门的电路放大器,把低电平放大到合适的电平。这样用水的特点来形容低阻信号和高阻信号大家应该很好理解了。 只有分清高阻、低阻之后才可以选择正确的线材进行相应的连接,大体上调音台输入插口基本可以分为3种: 1、TRS: 高阻输入部分通常要用6.35cm TRS立体声接头作平衡输入,尽量不要用6.35 TS单音(声)接头作非平衡输入,而现在我们用的大部分音源播放设备如:CD、VCD、DVD、MD、MP3等以及大部分乐器的输出信号通常都是高阻信号。 注意:TS,非平衡6.5接头TRS,平衡6.5接头 2、XLR: 而低阻通常用XLR卡侬接头作平衡输入,现在大部分的有线话筒通常都要用低阻插口与调音台连接。 俗称卡侬接头(Cannon),与RCA(莲花头的接口)模拟音频线缆直接传输声音的方式完全不同,平衡模拟音频(Balanced Analog Audio)接口使用两个通道分别传送信号相同而相位相反的信号。接收端设备将这两组信号相减,干扰信号就被抵消掉,从而获得高质量的模拟信号。 此种接头是由三个接点所组成,分别为1-- Ground接地;2--热端(+级);3--冷端(-级),当然也有的设备里规定3是热端(+级);2是冷端(-级),卡侬连接插件是专业音响系统中使用最广泛的一类接插件,可用于传输音响系统中的各类音频信号,一般平衡式输入、输出端子都是使用卡侬接插件来连接的。 在某种意义上说,使用卡侬接插件也是专业音响系统有别于民用音响的特征之一,其好处是:

相关文档
最新文档