语音识别芯片LD3320高阶秘籍

语音识别芯片LD3320高阶秘籍 Update@2010年08月12日

语音识别芯片/声控芯片

单芯片/非特定人/动态编辑识别列表

语音识别解决方案

用声音去沟通

VUI (Voice User Interface)

简介： (3)

一、在识别精度要求高的场景中，使用“触发识别”模式 (3)

二、增添“垃圾关键词语”——吸收错误识别 (3)

三、口令触发模式 (4)

四、巧妙运用关键词语的ID (5)

五、工作电压 (5)

六、用拼音标注外文或者方言 (5)

七、对于同一关键词ID设置多个习惯发音 (6)

八、调节语音结束后得到识别结果的反应时间 (6)

简介简介：：

基于语音识别芯片LD3320开发产品，可参考《LD3320开发手册》。为了提高终端用户对于语音识别的主观体验，本文总结了一些高阶的方法和窍门，集结成文，与大家共享。

本文档会不定期更新，及时汇总实战中的经验。敬请期待。

一、在识别精度要求高的场景中在识别精度要求高的场景中，，使用使用““触发识

别”模式

关于LD3320的两种使用模式，可以参考网站介绍：https://www.360docs.net/doc/a14976646.html,/web_cn/LD332X_UserModel.htm 。

在识别精度要求高的场景中，应该采用“触发识别”模式。原因是：

1）用户在每次按热键后，精神处于最集中的状态，此时用户说的语音

命令会比较认真，清晰。避免了用户过于随意的发音导致的识别误

差。

2）每次按热键后，产品应该给以一个明显的开始信号，比如发出

“当”的一声或者其他提示信号，可以给用户一个明确开始的提

示，方便用户掌握说语音命令的时间。

3）由于按键触发后，用户就会贴近麦克风并说出语音命令，避免了其

他环境声音被录入LD3320芯片导致的误识别。

另：这种方式还是一种省电的方式，在不识别时，彻底不让芯片工作以省电。

二、增添增添““垃圾关键词语垃圾关键词语””————吸收错误识别吸收错误识别

在设定好要识别的关键词语后，为了进一步降低误识别率，可以再添加一些其他的任意词汇进识别列表，用来吸收错误识别，从而达到降低误识别率的目的。

可以把这些关键词语称之为“垃圾关键词语”。

比如，某个应用场景中，需要识别的关键词语是4条，“前进”，“后退”，“开门”，“关门”。在把这4个关键词语设置进LD3320后，可以再另外设置10~30个词语进LD3320，比如“前门”，“后门”，“阿阿阿”，“呜呜”等等。

只有识别结果是4个关键词语之内的，才认为识别有效。如果识别结果是“垃圾关键词语”，则说明是其他的声音导致的误识别，产品应该重新开始一次识别过程。

这样，可以非常非常有效地降低误识别率。极大地提高终端用户的主观使用体验。

“垃圾关键词语”的选取，最好可以选择一些字数和关键词语一样的词语，用来吸收可能发生的错误识别。

需要说明的是需要说明的是：：这一方法这一方法，，即可以应用在即可以应用在““触发识别触发识别””模式中模式中，，也可以应用在用在““循环识别循环识别””模式中模式中。。

这样作的原理如下：

非特定人语音识别技术ASR，是一个基于关键词语列表的匹配识别技术，算法本质是在提取输入声音的特征后，在关键词语列表中寻找一个相似度最高的词语作为识别结果。(https://www.360docs.net/doc/a14976646.html,/web_cn/LD332X_principle.html )

因此，任何的声音输入进语音识别芯片，都会去和关键词语列表中的词语进行匹配对比，并且也都会依次打分。这样，其他人在随意聊天，或者任意说一个不在关键词语列表中的命令，或者是其他毫无联系的说话声音，都可能会匹配到某一个关键词语并作为结果输出。从而造成误识别。

虽然算法设计中有一定的算法来避免出现这样的误识别，但还是不可完全避免。产品开发者可以在芯片外部针对性的处理以降低误识别率。本节提供的方法，是非常有效的一种方法，在实际应用中具有非常重要的地位。

三、口令触发模式

在一些应用场合，希望识别精度高，但是又无法要求用户每次都用手按键来“触发识别”。此时，可以采用“口令触发模式”。

产品定义一句短语，作为触发口令。比如，可以定义“芝麻开门”作为触发口令。

产品在等待用户触发时，启动一个“循环识别”模式，把触发口令“芝麻开门”和其他几十个用来吸收错误的词汇设置进LD3320。只有当检测到识别出的结果是触发口令时，才认为是终端用户叫了这个口令。此时，给出提示音，并启动一个“触发识别模式”，并且把相应的识别列表设置进LD3320，提示用户在提示音后几秒钟内说出要执行的操作。

在等待用户的过程时，如果识别的结果是那些用来吸收错误的词汇，则认为是误识别，或者其他的声音干扰，而不进行任何的处理，直接再次进入“循环识别”模式。

这种口令触发模式，融合了其他两种模式的优点，并且结合第二节提到的“垃圾关键词语”的方法，可以为产品提供更加方便实用的语音操作特性。

四、巧妙运用关键词语的ID

在把关键词语设置进LD3320时，是把关键词语的拼音串传入LD3320，并同时传入一个ID，用来代表这个关键词语。

LD3320的识别结果，也是把识别出的关键词语的ID作为结果输出。

在LD3320芯片，不同的关键词语是可以对应同一个ID。而且ID不需要是连续的。这样就为产品开发者提供了很方便的编程手段。

例如：“北京”，“首都”，可以设置为同一个ID，进行后续处理。

例如：在使用第二节提到的“垃圾关键词语”时，可以把添加的这些用来吸收错误的关键词语的ID都标记成一个值，或者把它们标注为比较特殊的ID 值，如大于200。在程序中就比较简单，很容易处理误识别，避免了添加进很多关键词语后，写程序中需要为这些关键词语的处理增加过多的程序分支。

五、工作电压

LD3320有三路电源输入，

VDD 数字电路用电源输入3.0 V – 3.3 V

VDDIO 数字I/O 电路用电源输入1.65 V – VDD

VDDA 模拟电路用电源输入3.0 V – 4.0 V

但是在实际设计时，可以采用统一送入3.3v的工作电压给这三路电源。最低工作电压是3.0v，当输入电压低于这个数值时，芯片会无法启动工作。

这样可以简化电路设计。

如果条件允许，可以把模拟电源和数字电源隔离开，避免干扰，以取得最佳的电源管理效果。

六、用拼音标注外文或者方言

语音识别，识别的是“语音”。对于非特定人语音识别来说，在描述关键词语时，是用音标标注出要识别的关键词语。

对于目前LD3320支持的中文识别来说，就是用拼音来描述出关键词语。

也就是说，只要是拼音可以拼出的发音，都是可以输入芯片并进行识别的。

因此，在某些场合需要识别一些简单的外文或者纯方言发音的时候，可以用拼音标注的方法来实现。

例如，有些场合需要识别一些简单的英文单词，可以用拼音标注：

one - wan

two - tu

three - si rui

例如，有些场合需要识别一些纯方言发音的词汇，也可以用拼音标注：上海话的“晚”发音是“ya”，那么“晚报”这个词汇，用普通话标注是“wan bao”，如果要标注成上海话发音，就是“ya bao”，这样上海话说的“晚报”也就可以被识别了。

值得注意的是：LD3320支持的是中文普通话，有些外文或者方言发音无法用拼音描述，所以LD3320不一定能够完成所有需要的外文或者方言任务。

七、对于同一关键词ID设置多个习惯发音

终端用户在说语音指令时，可能对同一个词汇有不同的发音习惯。

例如，“打开电灯”，用户可能会说“开灯”，“打开灯”，“打开电灯”，“把灯打开”等等。

充分利用LD3320的50条可动态编辑的关键识别条目的特性，开发者可以把这些习惯发音都设置进芯片，这样无论用户怎么说，都会被正确识别出来，进一步增加终端用户的良好体验。

同时，可以结合第四条秘籍“巧妙利用关键词语的ID”，在编程中可以很方便地处理这些多个习惯发音。

值得注意的是：如果用来进行控制工作，需要加入一些垃圾关键词吸收错误以降低误识率。见第二节“增添“垃圾关键词语”——吸收错误识别”。

调节语音结束后得到识别结果的反应时间

时间

八、调节语音结束后得到识别结果的反应

LD3320芯片内部是通过VAD（端点检测）机制来判断人是否说完语音，并给出识别结果。关于VAD以及获得识别结果机制的详细说明，请阅读网页的介绍：https://www.360docs.net/doc/a14976646.html,/web_cn/LD332X_principle.html

根据VAD机制，语音识别芯片监测出有一段连续的背景噪音后，认为用户已经说完了语音识别命令，然后再给出识别结果。

默认设置是监测到在人声开始后有连续的 600 毫秒的不说话时，才会给出识别结果。

也就是说，根据默认设置，从人说话结束，到语音识别芯片主动送出结果中断，至少要有600毫秒的间隔，如果用户希望调节这个反应间隔，可以从以下几方面入手：

1. 改变使用方式

采用类似于步话机的方式，每次人按键后，按下不放，开始说命令，说完命令后，松开按键，每次检测到松开按键时，主控的单片机通过设置 BC 寄存

器来立即获得识别结果。（BC寄存器见“开发手册”的说明）

2. 修改VAD判断的寄存器

B5寄存器

ASR: Vad Silence End在语音检测到语音数据段以后，又检测到了背景噪音段，连续检测到多长时间的背景噪音段才可以确认为是真正的语音结束。每1单位，10毫秒。Default：60，相当于600毫秒数值范围: 20~200 (相当于200~2000毫秒)

但是这个修改会导致，如果这个时间过短，导致用户在说话时的说话停顿也会造成VAD检测认为说话结束，从而降低某些用户的识别率。

修改麦克风的音量，35寄存器，（建议调整范围在 40H~58H之间），看哪个录音增益适合使用的麦克风，以及使用的环境。

修改B8寄存器。

比如修改为 2，那么这意味着，无论如何，在每次识别开始后2秒钟的时间内，必然会停止识别给出一个识别结果。（这个设置不影响VAD检测）。

如果b8值特别小，比如设置：1，2，3，就需要在开始识别前，给用户一个很明确的提示，要开始识别了。免得用户还没有准备就识别时间过去了。

但这个间隔设置的过短，也必然会引起一些可能存在的误识别，比如语音命令比较长，那么这个时间设置的太小，就会造成比较长的语音命令无法在特定时间内完整念完引起误识别。

所以当这个数值设置比较小的时候，一般建议使用“触发识别”的用户界面，避免使用“循环识别”的用户界面。

改变使用环境，或许在某些环境中的噪声或者回声会影响到判断说话结束。

以及说话人自己的音量，如果声音很低，也会导致判断人说话是否结束比较困难。

改变命令词语内容，比较好念，开口音响亮等，方便使用者连续清晰念出

语音命令。

语音识别如何处理工作语音识别功能三个处理阶段

语音识别如何处理工作语音识别功能三个处理阶段当今的消费者对技术的要求日益提升，这一点在用于与设备进行互动的界面技术上体现得尤为明显。人们对包括手机、车载电子、家用网络和办公环境下的设备要求越来越高，要求它们能够融入更易操作的、更直观的用户界面，以更贴切反映人与人之间的互动关系。在每一个新的产品周期中，设计人员都倍感压力，要设计出操作更加精确、用户界面更加直观的产品。近年来，继触屏技术逐渐普及到包括电话、平板电脑、显示器、销售点解决方案、ATM和查询机等设备之后，语音识别技术正在快速成为驱动产品创新与运用的下一代用户界面技术。语音识别，甚至是手势与影像识别，成为各种工作与个人设备的标准配备只是个时间问题。由于语音识别技术在某种程度上受制于嵌入式应用的发展，因此其至今仍然处于发展的初期。然而，语音识别交互界面技术将最终被广泛采用，这是技术发展的大势所趋。汽车工业已经在计划引入更多具备更强嵌入式语音识别功能的尖端模块。语音识别技术之所以发展缓慢，部分是由于用户界面越直观，其所需的处理能力与内存就呈指数级别上升，这反过来促进了闪存技术的创新发展。正如大多数设计人员所熟知的那样，用户界面越直观，其所需的技术平台与设计就越复杂。用户界面技术将消耗更多的计算能力与闪存，才能在达到高性能的处理能力的同时，保持最佳用户体验。一种解决方案是采用专门的硬件，即具有下一代闪存能力、集成了逻辑与灵活软件算法的专用协处理器。这些协处理器能够作为独立的硬件加速器分担主应用处理器的负担，从而获得市场上最高水平的用户体验。人机交互界面的演进自从电脑鼠标问世以来，HMI（人机交互）技术取得了长足进步。用户界面的创新从历史上看可归功于新器件的成功运用，例如，从老款移动电话的实体按键变为智能手机的触屏。打造具有吸引力的用户界面极具挑战性，需要相当复杂的系统来创造功能性强、易于访问、逻辑清晰与令人愉悦的用户体验。这种复杂系统对高可靠性、高性能硬件提在处理能力和

语音识别发展现状与展望

中国中文信息学会第七次全国会员代表大会暨学会成立30周年学术会议语音识别发展现状与展望中科院自动化研究所徐波 2011年12月4日

报告提纲 ?语音识别技术现状及态势?语音识别技术的行业应用?语音识别技术研究方向?结论与展望

2010年始语音识别重新成为产业热点?移动互联网的兴起成为ASR最重要的应用环境。在Google引领下，互联网、通信公司纷纷把语音识别作为重要研究方向 –Android系统内嵌语音识别技术，Google语音翻译等； –iPhone4S 上的Siri软件； –百度、腾讯、盛大、华为等都进军语音识别领域； –我国语音技术领军企业讯飞2010年推出语音云识别、讯飞口讯 –已有的QQ2011版语音输入等等

成熟度分析-技术成熟度曲线 ?美国市场调查咨询公司Gartner于2011年7月发布《2011新兴技术成熟度曲线》报告：

成熟度分析-新兴技术优先矩阵?Gartner评出了2011年具有变革作用的技术，包括语音识别、语音翻译、自然语言问答等。其中语音翻译和自然语言问答有望在5-10年内获得大幅利用，而语音识别有望在2-5年内获得大幅利用；

三十年语音识别技术发展 ---特征提取与知识方面?MFCC，PLP，CMS，RASTA，VTLN；?HLDA, fMPE，neural net-based features ?前端优化 –融入更多特征信息(MLP、TrapNN、Bottle Neck Features等） ?特征很大特点有些是跟模型的训练算法相匹配?大规模FSN图表示，把各种知识源集中在一起–bigram vs. 4-gram, within word dependencies vs. cross-word

语音识别输入系统

IBM语音识别输入系统(ViaVioce) V9.1 简体中文光盘版| 用嘴巴控制电脑... sjyhsyj 2009-8-28 12:13:271# 软件大小：276.08MB 软件语言：多国语言软件类别：国外软件 / 汉字输入运行环境：Win9x/NT/2000/XP/ 软件介绍：该系统可用于声控打字和语音导航。只要对着微机讲话，不用敲键盘即可打汉字，每分钟可输入150个汉字，是键盘输入的两倍，是普通手写输入的六倍。该系统识别率可达95%以上。并配备了高性能的麦克风，使用便利，特别适合于起草文稿、撰写文章、和准备教案，是文职人员、作家和教育工作者的良好助手。 IBM潜心研究26年，他领导了世界的语音识别技术，其语音识别产品在全球销售已达一百万套以上。使用语音输入方式，您的工作空间更加自由舒畅: *即使您不会打字，也可迅速准备好文稿； *只要集中精力思考问题，无须琢磨怎样拼音，怎样拆字； *当您疲劳时,闭上眼、伸伸腰，双手方在脑后，然后轻松地说：开始听写吧... ... 注：价值超数千元的IBM的中文语音录入工具，有耳麦的朋友可以试一试，也可以当作学习普通话的工具，没有理由不下载使用它。 IBM ViaVoice语音输入系统详解作者: 艾寒出处: 天极网目前汉字输入的方式主要有四种：键盘输入，手写输入，扫描输入和我们现在要谈到的语音输入。让我们先来了解一下这四种输入方式。键盘输入：键盘输入基本上是基于各种输入法，主要又分为字形输入法和拼音输入法。实际上字形输入法是不符合人的写作思维习惯，因为人们在措辞时，头脑中首先反映出的是即将这个词语的语音，所以字形输入法更适合专业录入人员使用。拼音输入法也分两种，一种以词语为输入单位，另一种以语句为输入单位，而后者不符合写作的思维习惯，因为人们在写作时是以词为思考单位。键盘输入法在输入速度有要求的情况下对于键盘操作、指法要求比较高；手写输入：手写输入是最容易上手的输入方法，但是同样由于手写输入的先天不足，很难达到较高的输入速度；扫描输入：扫描输入对于硬件要求比较高，主要是适用于资料的整理；语音输入：语音输入对输入人员的键盘操作能力、指法要求很低，几乎可以说你只要会说汉语，就可以进行语音输入。语音输入尤其是汉字语音输入经历了很长时间的研究和应用，到目前已经达到了一个相

语音识别芯片资料

https://www.360docs.net/doc/a14976646.html,/amwdnvfku/blog/item/4ada7807b6fb697d0308812c.html 语音识别芯片资料产品介绍应用于消费类电子产品上的交互式语音集成芯片（RSC-100/164T，RSC-300/364，RSC4XX）是一种高性能、低成本的8位MCU，所有这类芯片内部集成有ADC、DAC、ROM（除了RSC-100/300）、RAM和麦克风的预放大电路，并拥有以下多种功能：与说话者无关/有关的语音识别、语音确认（PASSWORD）、语音和音乐合成，录音和回放、快速数字拨号（只有RSC-300/364）、持续监听。产品线有两种通用目的的微处理器（RSC系列） 1. RSC-100/164T—低成本的版本（只支持4.0版本技术） 2. RSC-300/364（支持最新版本的6.0版本技术），它有更快的响应时间、先进和附加的技术（包括数字拨号，固定单词触发，同时产生数字记录和识别模板） 3. RSC-164/364产品的特性 a) 有64k内置ROM的8位微处理器； b) 集成有A/D和D/A转换器； c) DAC或PWM（Pulse Width Modulation）； d) 可实现DTMF 拨号； e) 音源的AGC功能； f) 16个通用I/O端口； g) 片上有输出放大器； h) 省电模式-最小的功耗（小于5UA）。 RSC-300/364产品特性 RSC-300/364是专门为消费类电子产品应用而设计的，拥有高度集成和高识别率的系统化芯片。RSC-300/364有额外的SDAM和硬件加速器去支持SENSORY的最新技术（5.0以上）。这种特别设计的8位微处理器在拥有灵活的编程时支持一系列语音技术：与说话者无关/有关的识别、语音和音乐的合成、语音确认、语音提示、持续监听、快速数字拨号、录音和回放。RSC-300/364允许在片上存储最多6个与说话者有关的短句。RSC-300与RSC-364的区别就是少一个64K的ROM，根据封装和版本的不同，RSC-300/364的价格在2.2～3.9美元之间。 RSC-4x产品特性 RSC-4x是Sensory INC.第4代的语音识别产品，它具有所有RSC-300/364的所有特性之外，还增加了不少功能。RSC－4x支持Sensory Speech? 7技术，改进的算法使识别准确率得到提高。新增的T2SI技术使得制作SI模版节省了时间和资金投入。在语音合成算法上也作了改进，“SX?”压缩技术使得语音的压缩率可以达到3K－8K bps（bits-per-second），是原来的1/10-1/4，大大减少了存储空间，节约了成本。RSC-4x有三种型号，RSC-4000不含程序存储空间，RSC-4128 内部含128K 程序存储空间，RSC-4256内部含256K程序存储空间，供用户灵活选用。 VOICE DAILER特性（ASSP） VOICE DAILER364是为了增加语音拨号而设计的，它可应用在非手持的车载电话、手持电话、PDA、答录机和其它个人电子设备。使用者只需说出名字便可拨出相关的电话；VOICE DAILER-364芯片可管理一整套电话目录，包括名字、电话号码和语音识别模板。 SENSORY技术与说话者有关的语音识别(Speaker Dependent, SD) 在识别时，每个识别词语需要使用者训练两次来创建语音模板，一个模板需要占用128个字节的存储量。由于练习的原因，一般把需识别的词汇量限制在60个以内，但超过100个也是完全可以的。通过正常设计，SENSORY的SD技术能达到99%的准确率。与说话者无关的语音识别(Speaker Independent, SI)

基于matlab的语音识别系统

机电信息工程学院专业综合课程设计系：信息与通信工程专业：通信工程班级：081班设计题目：基于matlab的语音识别系统学生姓名：指导教师：完成日期：2011年12月27日

一．设计任务及要求 1.1设计任务作为智能计算机研究的主导方向和人机语音通信的关键技术，语音识别技术一直受到各国科学界的广泛关注。以语音识别开发出的产品应用领域非常广泛，有声控电话交换、语音拨号系统、信息网络查询、家庭服务、宾馆服务、旅行社服务系统、订票系统、声控智能玩具、医疗服务、银行服务、股票查询服务、计算机控制、工业控制、语音通信系统、军事监听、信息检索、应急服务、翻译系统等，几乎深入到社会的每个行业、每个方面，其应用和经济社会效益前景非常广泛。本次任务设计一个简单的语音识别系。 1.2设计要求要求：使用matlab软件编写语音识别程序二．算法方案选择 2.1设计方案语音识别属于模式识别范畴，它与人的认知过程一样，其过程分为训练和识别两个阶段。在训练阶段，语音识别系统对输入的语音信号进行学习。学习结束后，把学习内容组成语音模型库存储起来；在识别阶段，根据当前输入的待识别语音信号，在语音模型库中查找出相应的词义或语义。语音识别系统与常规模式识别系统一样包括特征提取、模式匹配、模型库等3个基本单元，它的基本结构如图1所示。图1 语音识别系统基本结构图本次设计主要是基于HMM模型（隐马尔可夫模型）。这是在20世纪80年代引入语音识别领域的一种语音识别算法。该算法通过对大量语音数据进行数据统计，建立识别词条的统计模型，然后从待识别语音信号中提取特征，与这些模

型进行匹配，通过比较匹配分数以获得识别结果。通过大量的语音，就能够获得一个稳健的统计模型，能够适应实际语音中的各种突发情况。并且，HMM算法具有良好的识别性能和抗噪性能。 2.2方案框图图2 HMM语音识别系统 2.3隐马尔可夫模型 HMM过程是一个双重随机过程：一重用于描述非平稳信号的短时平稳段的统计特征（信号的瞬态特征）；另一重随机过程描述了每个短时平稳段如何转变到下一个短时平稳段，即短时统计特征的动态特性（隐含在观察序列中）。人的言语过程本质上也是一个双重随机过程，语音信号本身是一个可观测的时变列。可见，HMM合理地模仿了这一过程，是一种较为理想的语音信号模型。其初始状态概率向量π，状态转移概率矩阵向量A，以及概率输出向量B一起构成了HMM的3个特征参量。HMM 模型通常表示成λ={π，A，B}。 2.4HMM模型的三个基本问题 HMM模型的核心问题就是解决以下三个基本问题： (1)识别问题：在给定的观测序列O和模型λ=（A,B,π）的条件下，如何有效地计算λ产生观测序列O的条件概率P(O︱λ)最大。常用的算法是前后向算法，它可以使其计算量降低到N2T次运算。 (2)最佳状态链的确定：如何选择一个最佳状态序列Q=q1q2…qT，来解释观察序列O。常用的算法是Viterbi算法。 (3)模型参数优化问题：如何调整模型参数λ=(A,B,π)，使P(O︱λ)最大：这是三个问题中最难的一个，因为没有解析法可用来求解最大似然模型，所以只能使用迭代法(如Baum-Welch)或使用最佳梯度法。第一个问题是评估问题，即已知模型λ=(A,B,π)和一个观测序列O，如何计算由该模型λ产生出该观测序列O的概率，问题1的求解能够选择出与给定的观测序列最匹配的HMM模型。第二个问题力图揭露模型中隐藏着的部分，即找出“正确的”状态序列，这是一个典型的估计问题。

语音识别技术的发展与未来

语音识别技术的发展与未来与机器进行语音交流，让它听明白你在说什么。语音识别技术将人类这一曾经的梦想变成了现实。语音识别就好比“机器的听觉系统”，该技术让机器通过识别和理解，把语音信号转变为相应的文本或命令。在1952年的贝尔研究所，Davis等人研制了世界上第一个能识别10个英文数字发音的实验系统。1960年英国的Denes等人研制了第一个计算机语音识别系统。大规模的语音识别研究始于上世纪70年代以后，并在小词汇量、孤立词的识别方面取得了实质性的进展。上世纪80年代以后，语音识别研究的重点逐渐转向大词汇量、非特定人连续语音识别。同时，语音识别在研究思路上也发生了重大变化，由传统的基于标准模板匹配的技术思路开始转向基于统计模型的技术思路。此外，业内有专家再次提出了将神经网络技术引入语音识别问题的技术思路。上世纪90年代以后，在语音识别的系统框架方面并没有什么重大突破。但是，在语音识别技术的应用及产品化方面出现了很大的进展。比如，DARPA是在上世界70年代由美国国防部远景研究计划局资助的一项计划，旨在支持语言理解系统的研究开发工作。进入上世纪90年代，DARPA计划仍在持续进行中，其研究重点已转向识别装置中的自然语言处理部分，识别任务设定为“航空旅行信息检索”。我国的语音识别研究起始于1958年，由中国科学院声学所利用电子管电路识别10个元音。由于当时条件的限制，中国的语音识别研究工作一直处于缓慢发展的阶段。直至1973年，中国科学院声学所开始了计算机语音识别。进入上世纪80年代以来，随着计算机应用技术在我国逐渐普及和应用以及数字信号技术的进一步发展，国内许多单位具备了研究语音技术的基本条件。与此同时，国际上语音识别技术在经过了多年的沉寂之后重又成为研究的热点。在这种形式下，国内许多单位纷纷投入到

语音识别芯片介绍

WT7010语音识别芯片 1.WT7010语音识别芯片概述 WT7010语音芯片内建8bit DSP核心,它能提供高分辨率ADC模拟采样和高质量的差分音频输入及麦克风输入,配备数学处理器以精确处理高压缩语音编解码或语音识别。该芯片有NAND接口和SPI总线用于外部存储器,提供2线串口用于连接其它设备或MCU。语音输入方面配备差分放大器用以麦克风输入以及AGC（自动增益控制）以便提供更好的SNR （信噪比）语音信号输入。芯片不单止嵌入前置放大也提供高品质的DAC和AB类扬声器放大器可以驱动输出高品质的声音。 2. WT7010功能特性 (1)内置8bitDSP核心,内部操作频率最高达48MHz（典型值：40MHz）； (2)内置麦克风差分前置放大器,包括AGC功能,16级增益控制功能； (3)最长可记录10秒语音； (4)内置8欧姆/0.5瓦电路,可直接驱喇叭或蜂鸣器,拥有16级音量控制,PWM音频输出方式； (5)低电压复位功能（LVR）； (6)内建看门狗（WDT）； (7)具有24 I/O； (8)内建有NAND-Flash接口及SPI主从总线接口； (9)数字部分工作电压：2.4V ~ 3.6V；模拟部分工作电压2.4V~4.5V； (10)休眠电流<3.0uA WT7010语音识别芯片为广州唯创新研发特定语音识别芯片,还有未尽的各项其他功能正在加紧研发中,有需求时可接受定制。 3. 应用举例在语音ic应用范围上,特定语音识别可以做简短语音识别系统,体现个性化服务,如: ? 语音电子锁； ? 智能家居开关,如WT系列智能语音识别开关； ? 特定报警器、家庭防盗报警器； ? 高级玩具,如鹦鹉学舌、TOM汤姆猫 4. 应用电路示例 (1)特定人语音识别（学习型）特定人语音识别（学习型）,是指预先对说话人进行语音输入,由语音识别芯片进行特征提取,然后进行存储。当语音输入时,语音芯片会将输入的声音特征和参考模块库内的特征进行匹配,匹配成功则输出成功值。 (a)示例电路

盘点语音识别芯片原厂、方案、平台

语音识别芯片所涉及的技术包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。语音识别分类按照使用者的限制而言，语音识别芯片可以分为特定人语音识别芯片和非特定人语音识别芯片。特定人语音识别芯片是针对指定人的语音识别，其他人的话不识别，须先把使用者的语音参考样本存入当成比对的资料库，即特定人语音识别在使用前必须要进行语音训练，一般按照机器提示训练2遍语音词条即可使用。非特定人语音识别是不用针对指定的人的识别技术，不分年龄、性别，只要说相同语言就可以，应用模式是在产品定型前按照确定的十几个语音交互词条，采集200人左右的声音样本，经过PC算法处理得到交互词条的语音模型和特征数据库，然后烧录到芯片上。应用这种芯片的机器(智能娃娃、电子宠物、儿童电脑)就具有交互功能了。非特定人语音识别应用有的是基于音素的算法，这种模式下不需要采集很多人的声音样本就可以做交互识别，但是缺点是识别率不高，识别性能不稳定。语音识别基本原理嵌入式语音识别系统都采用了模式匹配的原理。录入的语音信号首先经过预处理，包括语音信号的采样、反混叠滤波、语音增强，接下来是特征提取，用以从语音信号波形中提取一组或几组能够描述语音信号特征的参数。特征提取之后的数据一般分为两个步骤，第一步是系统"学习"或"训练"阶段，这一阶段的任务是构建参考模式库，词表中每个词对应一个参考模式，它由这个词重复发音多遍，再经特征提取和某种训练中得到。第二是"识别"或"测试"阶段，按照一定的准则求取待测语音特征参数和语音信息与模式库中相应模板之间的失真测度，最匹配的就是识别结果。语音识别四大平台 1、科大讯飞科大讯飞股份有限公司成立于1999年，是一家专业从事智能语音及语言技术、人工智能技术研究，软件及芯片产品开发，语音信息服务及电子政务系统集成的国家级骨干软件企业。2008年，科大讯飞在深圳证券交易所挂牌上市，股票代码：002230。 11月23日科大讯飞轮值总裁胡郁在发布会上引述了罗永浩在9 月锤子发布会上的演示数据，表示科大讯飞的语音输入识别成功率也达到了97%，即使是离线识别准确率也达到了95%。 2、云知声云知声成立于2012年6月。之前1年，Siri的发布再度唤醒了大家对语音识别的关注。经过四年多的积累，云知声的合作伙伴数量超过2万家，覆盖用户超过1.8亿，其中语音云平台覆盖城市超过470个，覆盖设备超过9000万台。 3、百度百度则在11月22日宣布向开发者开放了情感合成、远场方案、唤醒二期和长语音方案等四项语音识别技术。百度语音开放平台自2013 年10 月上线以来每日在线语音识别请求已经达到了1.4 亿次，开发者数量超过14 万。在如此庞大的数据支撑下，百度语音在“安静条件下”的识别准确率达到了97%。4、搜狗搜狗语音团队在11 月21 日推出了自己的语音实时翻译技术。搜狗的这项技术主要包括两个方面，分别是语音识别和机器翻译。根据该团队的介绍，搜狗语音识别的准确率达到了97%，支持最快400 字每秒的听写。语音识别芯片原厂及芯片方案 1、ICRoute 总部：上海简介：ICRoute专注于开拓语音识别的芯片市场,致力于研发出高性能的语音识别，语音处理芯片。为各种平台的电子产品提供VUI（Voice User Interface）语音人机交互界面。目前提供的语音识别芯片，可以在

基于matlab的语音识别技术

项目题目：基于Matlab的语音识别一、引言语音识别技术是让计算机识别一些语音信号，并把语音信号转换成相应的文本或者命令的一种高科技技术。语音识别技术所涉及的领域非常广泛，包括信号处理、模式识别、人工智能等技术。近年来已经从实验室开始走向市场，渗透到家电、通信、医疗、消费电子产品等各个领域，让人们的生活更加方便。语音识别系统的分类有三种依据:词汇量大小，对说话人说话方式的要求和对说话人的依赖程度。 (1)根据词汇量大小，可以分为小词汇量、中等词汇量、大词汇量及无限词汇量识别系统。 (2)根据对说话人说话方式的要求，可以分为孤立字(词)语音识别系统、连接字语音识别系统及连续语音识别系统。 (3)根据对说话人的依赖程度可以分为特定人和非特定人语音识别系统。二、语音识别系统框架设计 2.1语音识别系统的基本结构

语音识别系统本质上是一种模式识别系统，其基本结构原理框图如图l所示，主要包括语音信号预处理、特征提取、特征建模(建立参考模式库)、相似性度量(模式匹配)和后处理等几个功能模块，其中后处理模块为可选部分。三、语音识别设计步骤 3.1语音信号的特征及其端点检测图2 数字‘7’开始部分波形图2是数字”7”的波形进行局部放大后的情况，可以看到，在6800之前的部分信号幅度很低，明显属于静音。而在6800以后，信号幅度开始增强，并呈现明显的周期性。在波形的上半部分可以观察到有规律的尖峰，两个尖峰之间的距离就是所谓的基音周期，实际上也就是说话人的声带振动的周期。这样可以很直观的用信号的幅度作为特征，区分静音和语音。只要设定一个

门限，当信号的幅度超过该门限的时候，就认为语音开始，当幅度降低到门限以下就认为语音结束。 3.2 语音识别系统 3.2.1语音识别系统的分类语音识别按说话人的讲话方式可分为3类：（1）即孤立词识别（isolated word recognition)，孤立词识别的任务是识别事先已知的孤立的词，如“开机”、“关机”等。（3）连续语音识别，连续语音识别的任务则是识别任意的连续语音，如一个句子或一段话。从识别对象的类型来看，语音识别可以分为特定人语音识别和非特定人语音识别，特定人是指针对一个用户的语音识别，非特定人则可用于不同的用户。显然，非特定人语音识别系统更符合实际需要，但它要比针对特定人的识别困难得多。 3.2.2语音识别系统的基本构成语音识别系统的实现方案如图3所示。输入的模拟语音信号首先要进行处理，包括预滤波，采样和量化，加窗，端点检测，预加重等。语音信号经处理后，接下来很重要的一环就是特征参数提取。图3 语音识别系统在训练阶段，将特征参数进行一定的处理之后，为每个词条得到一个模型，保存为模版库。在识别阶段，语音信号经过相同的通道得到语音参数，生成测试模版，与参考模板进行匹配，将匹配分数最高的参考模型作为识别结果。 3. 2.3 语音识别系统的特征参数提取特征提取是对语音信号进行分析处理，去除对语音识别无关紧要的冗余信息，获得影响语音识别的重要信息。语音信号是一种典型的时变信号，然而如果把观察时间缩短到十毫秒至几十毫秒，则可以得到一系列近似稳定的信号。人的发音器官可以用若干段前后连接的声管进行模拟，这就是所谓的声管模型。全极点线性预测参数 (LPC: Liner Prediction Coeffieient)可以对声管模型进行很好的描述，LPC参数是模拟人的发声器官的，是一种基于语音合成的参数模型。在语音识别中，很少用LPC系数，而是用LPC倒谱参数 (LPCC: Liner Prediction Cepstral Coefficient)。LPCC参数的优点是计算量小，对元音有较好的描述能力，其缺点在于对辅音的描述能力较差，抗噪声性能较差。

语音识别技术文献综述

语音识别技术综述 The summarization of speech recognition 张永双苏州大学摘要本文回顾了语音识别技术的发展历史，综述了语音识别系统的结构、分类及基本方法，分析了语音识别技术面临的问题及发展方向。关键词：语音识别；特征；匹配 Abstact This article review the courses of speech recognition technology progress ,summarize the structure,classifications and basic methods of speech recognition system and analyze the direction and the issues which speech recognition technology development may confront with. Key words: speech recognition;character;matching 引言语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门交叉学科，所涉及的领域有信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等，甚至还涉及到人的体态语言（如人民在说话时的表情手势等行为动作可帮助对方理解）。其应用领域也非常广，例如相对于键盘输入方法的语音输入系统、可用于工业控制的语音控制系统及服务领域的智能对话查询系统，在信息高度化的今天，语音识别技术及其应用已成为信息社会不可或缺的重要组成部分。 1.语音识别技术的发展历史语音识别技术的研究开始二十世纪50年代。1952年，AT&Tbell实验室的Davis等人成功研制出了世界上第一个能识别十个英文数字发音的实验系统：Audry系统。

语音识别综述

山西大学研究生学位课程论文（2014 ---- 2015 学年第 2 学期）学院（中心、所）：计算机与信息技术学院专业名称：计算机应用技术课程名称：自然语言处理技术论文题目：语音识别综述授课教师（职称）：研究生姓名：年级：学号：成绩：评阅日期：山西大学研究生学院 2015年 6 月2日

语音识别综述摘要随着大数据、云时代的到来，我们正朝着智能化和自动化的信息社会迈进，作为人机交互的关键技术，语音识别在五十多年来不仅在学术领域有了很大的发展，在实际生活中也得到了越来越多的应用。本文主要介绍了语音识别技术的发展历程，国内外研究现状，具体阐述语音识别的概念，基本原理、方法，以及目前使用的关键技术HMM、神经网络等，具体实际应用，以及当前面临的困境与未来的研究趋势。关键词语音识别；隐马尔科夫模型；神经网络；中文信息处理 1.引言语言是人类相互交流最常用、有效的和方便的通信方式，自从计算机诞生以来，让计算机能听懂人类的语言一直是我们的梦想，随着大数据、云时代的到来，信息社会正朝着智能化和自动化推进，我们越来越迫切希望能够摆脱键盘等硬件的束缚，取而代之的是更加易用的、自然的、人性化的语音输入。语音识别是以语音为研究对象，通过对语音信号处理和模式识别让机器自动识别和理解人类口述的语言。 2.语音识别技术的发展历史及现状 2.1语音识别发展历史语音识别的研究工作起源与上世纪50年代，当时AT&T Bell实验室实现了第一个可识别十个英文数字的语音识别系统——Audry系统。1959年，J.W.Rorgie和C.D.Forgie采用数字计算机识别英文元音及孤立字，开始了计算机语音识别的研究工作。 60年代，计算机应用推动了语音识别的发展。这时期的重要成果是提出了动态规划（DP）和线性预测分析技术（LP），其中后者较好的解决了语音信号产生模型的问题，对后来语音识别的发展产生了深远的影响。 70年代，LP技术得到了进一步的发展，动态时间归正技术（DTW）基本成熟，特别是矢量量化（VQ）和隐马尔科夫（HMM）理论的提出，并且实现了基于线性预测倒谱和DTW技术的特定人孤立语音识别系统。 80年代，实验室语音识别研究产生了巨大的突破，一方面各种连接词语音识别算法被开发，比如多级动态规划语音识别算法；另一方面语音识别算法从模板匹配技术转向基于统计模型技术，研究从微观转向宏观，从统计的角度来建立最佳的语音识别系统。隐马尔科夫模型（HMM）就是其典型代表，能够很好的描述语音信号的时变性和平稳性，使大词汇量连

语音识别方法及发展趋势分析

语音识别改进方法及难点分析 ——《模式识别》结课小论文学院：化工与环境学院学号：2120151177 姓名：杜妮

摘要：随着计算机技术的不断发展，人工智能程度也越来越高，作为人工智能的一部分——模式识别也在模型和算法上愈发成熟。本文根据近105年文献，分析最新声音识别的方法和应用。关键字：模式识别声音识别方法应用随着人工智能的迅速发展，语音识别的技术越来越成为国内外研究机构的焦点。人们致力于能使机器能够听懂人类的话语指令，并希望通过语音实现对机器的控制。语音识别的研究发展将在不远的将来极大地方便人们的生活。语音识别大致的流程包括：特征提取、声学模型训练、语音模型训练以及识别搜索算法。作为一项人机交互的关键技术，语音识别在过去的几十年里取得了飞速的发展，人们在研究和探索过程中针对语音识别的各部流程进行了各种各样的尝试和改造，以期发现更好的方法来完成语音识别流程中的各步骤，以此来促进在不同环境下语音识别的效率和准确率。本文通过查阅近10年国内外文献，分析目前语音识别流程中的技术进展和趋势，并在文章最后给出几项语音识别在日常生活中的应用案例，从而分析语音识别之后的市场走势和实际利用价值。一、语音识别的改进方法 (一)特征提取模块改进特征提取就是从语音信号中提取出语音的特征序列。提取的语音特征应该能完全、准确地表达语音信号，特征提取的目的是提取语音信号中能代表语音特征的信息，减少语音识别时所要处理的数据量。语音信号的特征分析是语音信号处理的前提和基础，只有分析出可以代表语音信号本质特征的参数，才能对这些参数进行高效的语音通信，语音合成，和语音识别等处理，并且语音合成的好坏，语音识别率的高低，也都取决于语音特征提取的准确性和鲁棒性。目前，针对特定应用的中小词汇量、特定人的语音识别技术发展已较为成熟，已经能够满足通常应用的要求，并逐步投入了实用。而非特定人、大词汇量、连续语音识别仍是

宝马中文声控语音识别控制系统

BMW中文声控系统声控启动语音控制支持方言专车专用宝马中文声控系统市场前景在庞大的汽车销量的基础上，车载语音系统已成为现代汽车的重要亮点之一，但是由于技术的局限性，国内车载语音系统的发展始终比较缓慢，在国外广泛发展的车载语音控制系统在国内却处于技术空白阶段。现在，Qdis-isods让这种情况得到了根本性的改变。 qdis品牌联合众多院校精英，由多名各领域资深人士参与研发，根据中国市场特点以及中国用户使用习惯进行特殊定制，成功推出Qdis-isods系列产品，为广大车主提供车载语音控制的解决方案和专业服务。加载Qdis-isods车载语音系统后，用户用自己的声音即可完成相关操作，而不再只是使用传统的指定命令。 Qdis-isods系列产品支持中国多种方言，声音识别准确率高并支持多人识别，一举攻克了之前的技术难题，让车载语音系统全面进入中国市场。以前需要手动操作的控制，现在您和爱车直接对话就能实现，而且还能语音识别并控制后装增配的产品，满足客户多种智能语音操作的需求。随着车联网技术的发展，汽车的互联性会越来越强，我们可以把语音技术扩展到除终端和嵌入式系统以外的所有设备上，从而完成更复杂的识别控制任务。我们依然在不断创新实践，以谋求更多的成功案例。 Qdis-isods车载语音系统可以完美支持各类车型，金鼓德达将以一贯优秀的无损加装技术，让您在驾驶生活中发现更多乐趣。QDIS-ISODS系列，爱车从此智能！一、BMW中文声控系统主要功能 1.语音识别启动引擎语音指令随时学习,支持所有方言,指令内容可以自由定义; 不影响原车启动键启动功能; 可以同时利用方向盘按键组合为密码启动; 语言指令和方向盘密码可以任意修改; 2.语音指令控制原车语音指令随时学习,支持所有方言,指令内容可以自由定义;

语音识别基本知识及单元模块方案设计

语音识别是以语音为研究对象，通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门涉及面很广的交叉学科，它与声学、语音学、语言学、信息理论、模式识别理论以及神经生物学等学科都有非常密切的关系。语音识别技术正逐步成为计算机信息处理技术中的关键技术，语音技术的应用已经成为一个具有竞争性的新兴高技术产业。 1语音识别的基本原理语音识别系统本质上是一种模式识别系统，包括特征提取、模式匹配、参考模式库等三个基本单元，它的基本结构如下图所示：未知语音经过话筒变换成电信号后加在识别系统的输入端，首先经过预处理，再根据人的语音特点建立语音模型，对输入的语音信号进行分析，并抽取所需的特征，在此基础上建立语音识别所需的模板。而计算机在识别过程中要根据语音识别的模型，将计算机中存放的语音模板与输入的语音信号的特征进行比较，根据一定的搜索和匹配策略，找出一系列最优的与输入语音匹配的模板。然后根据此模板的定义，通过查表就可以给出计算机的识别结果。显然，这种最优的结果与特征的选择、语音模型的好坏、模板是否准确都有直接的关系。2语音识别的方法目前具有代表性的语音识别方法主要有动态时间规整技术（DTW）、隐马尔可夫模型（HMM）、矢量量化（VQ）、人工神经网络（ANN）、支持向量机（SVM）等方法。动态时间规整算法（Dynamic Time Warping，DTW）是在非特定人语音识别中一种简单有效的方法，该算法基于动态规划的思想，解决了发音长短不一的模板匹配问题，是语音识别技术中出现较早、较常用的一种算法。在应用DTW算法进行语音识别时，就是将已经预处理和分帧过的语音测试信号和参考语音模板进行比较以获取他们之间的相似度，按照某种距离测度得出两模板间的相似程度并选择最佳路径。隐马尔可夫模型（HMM）是语音信号处理中的一种统计模型，是由Markov链演变来的，所以它是基于参数模型的统计识别方法。由于其模式库是通过反复训练形成的与训练输出信号吻合概率最大的最佳模型参数而不是预先储存好的模式样本，且其识别过程中运用待识别语音序列与HMM参数之间的似然概率达到最大值所对应的最佳状态序列作为识别输出，因此是较理想的语音识别模型。矢量量化（Vector Quantization）是一种重要的信号压缩方法。与HMM相比，矢量量化主要适用于小词汇量、孤立词的语音识别中。其过程是将若干个语音信号波形或特征参数的标量数据组成一个矢量在多维空间进行整体量化。把矢量空间分成若干个小区域，每个小区域寻找一个代表矢量，量化时落入小区域的矢量就用这个代表矢量代替。矢量量化器的设计就是从大量信号样本中训练出好的码书，从实际效果出发寻找到好的失真测度定义公式，设计出最佳的矢量量化系统，用最少的搜索和计算失真的运算量实现最大可能的平均信噪比。在实际的应用过程中，人们还研究了多种降低复杂度的方法，包括无记忆的矢量量化、有记忆的矢量量化和模糊矢量量化方法。人工神经网络（ANN）是20世纪80年代末期提出的一种新的语音识别方法。其本质上是一

语音识别的发展及应用

语音识别的发展及应用本文介绍了隐马尔可夫模型（Hidden Markov Model，HMM），传统的人工神经网络语音识别方法以及改进的人工神经网络，针对最近研究热点深度学习在语音识别中的应用做了详细的描述，并对与人工神经网络在语音识别中的缺点进行阐述，就如何将HMM与深度神经网络联合起来运用到语音识别中进行详细的分析与介绍。标签：隐马尔科夫模型人工神经网络深度学习一、引言伴随着计算机技术的不断进步以及人工智能学科的飞速发展。人们对大脑学习、思维机能的研究逐渐深入。人工神经网络作为借鉴人脑神经元互相连结构的信息处理网络，受到了广泛的关注。深度学习作为人工神经网络的一个分支，能够从海量的数据中挖掘到有效的信息，成为语音识别领域的一个研究热点。二、隐马尔科夫模型隐马尔可夫模型[3]（HMM）是马尔可夫链的一种，它的状态不能直接观察到，但能通过观测向量序列观察到，每个观测向量都是通过某些概率密度分布表现为各种状态，每一个观测向量是由一个具有相应概率密度分布的状态序列产生。所以，隐马尔可夫模型是一个双重随机过程——具有一定状态数的隐马尔可夫链和显示随机函数集。隐马尔科夫模型（HMM）可以用五个元素来表示，包括两个状态集合和三个概率矩阵：1.隐含状态S;2.可转移状态O;3aaaa.初始状态概率矩阵π;4.隐含状态转移概率矩阵A;5.观测状态转移概率矩阵B。一般的，可以用λ=（A，B，π）三元组来简洁的表示一个隐马尔科夫模型。应用隐马尔科夫模型通常解决三类基本问题：1.评估问题;2.解码问题;3.学习问题。隐马尔可夫模型是目前进行声学建模的主流技术。采用5状态的连续HMM 模型（见图1），其中1、5状态只起连接作用，没有观测概率，第2、3、4状态有高斯概率分布，假设特征参数是相互独立的，所以规定协方差矩阵为对角阵。图1 五状态HMM模型结构三、深度神经网络模型 1.神经网络的基本概念神经网络即人工神经网络，是一种模仿动物神经网络行为特征，进行分布式并行信息处理的算法的数学模型。此网络依靠系统的复杂程度，通过调整内部大

语音识别技术原理及应用

语音AgentNet 的整体实现张宇伟

摘要：本文论述了一个人机对话应用的实现(我命名它为AgentNet)。其应用实例为一种新的整合了语音技术的智能代理网络服务。服务器端开发使用了微软SQL SERVER 7.0技术,客户端使用了微软Agent ，微软Specch SDK5语音合成，和语音识别技术。网络连接使用了SOCKET 技术,并论述了高层网络协议的实现。 [关键词] 人机对话，MS-AGENT,语音合成，语音识别，网络编程 [Abstract] This paper discuss a new actualization of man-machine conversation application, which is based on a modal of network service. And I name this service with the name of AgentNet. The development of this service used Microsoft SQL SERVER 7.0. And the client used the technology of Microsoft Agent, TTS (Text To Speech),SR(Speech Recognition).Also the client and the server connect with SOCKET. On the SOCKET, the paper discuss the development of High-Level net protocol. [Key Words] Man-Machine Conversation, MS-AGENT, TTS , SR ,Net Work Programming

语音识别技术的现状与未来

语音识别技术的现状与未来 The Present and Future of Speech Recognition （CSLT-TRP-20160034）王东（Dong Wang） 2017/01/08 CSLT, RIIT, Tsinghua Univ.

语音识别任务及其研究意义语音识别(Automatic Speech Recognition, ASR)是指利用计算机实现从语音到文字自动转换的任务。在实际应用中，语音识别通常与自然语言理解、自然语言生成和语音合成等技术结合在一起，提供一个基于语音的自然流畅的人机交互方法。早期的语音识别技术多基于信号处理和模式识别方法。随着技术的进步，机器学习方法越来越多地应用到语音识别研究中，特别是深度学习技术，它给语音识别研究带来了深刻变革。同时，语音识别通常需要集成语法和语义等高层知识来提高识别精度，因此和自然语言处理技术息息相关。另外，随着数据量的增加和机器计算能力的提高，语音识别越来越依赖数据资源和各种数据优化方法，这使得语音识别与大数据、高性能计算等新技术产生广泛结合。综上所述，语音识别是一门综合性应用技术，集成了包括信号处理、模式识别、机器学习、数值分析、自然语言处理、高性能计算等一系列基础学科的优秀成果，是一门跨领域、跨学科的应用型研究。语音识别研究具有重要的科学价值和社会价值。语音信号是典型的局部稳态时间序列，研究这一信号的建模方法具有普遍意义。事实上，我们日常所见的大量信号都属于这种局部稳态信号，如视频、雷达信号、金融资产价格、经济数据等。这些信号的共同特点是在抽象的时间序列中包括大量不同层次的信息，因而可用相似的模型进行描述。历史上，语音信号的研究成果在若干领域起过重要的启发作用。例如，语音信号处理中的隐马尔可夫模型在金融分析、机械控制等领域都得到了广泛应用。近年来，深度神经网络在语音识别领域的巨大成功直接促进了各种深度学习模型在自然语言处理、图形图象处理、知识推理等众多应用领域的发展，取得了一个又一个令人惊叹的成果。在实用价值方面，语音交互是未来人机交互的重要方式之一。随着移动电话、穿戴式设备、智能家电等可计算设备的普及，基于键盘、鼠标、触摸屏的传统交互方式变得越来越困难。为了解决这种困难，手势、脑波等一系统新的人机交互方式进入人们的视野。在这些五花八门的新兴交互方式中，语音交互具有自然、便捷、安全和稳定等特性，是最理想的交互方式。在语音交互技术中，语音识别是至关重要的一环：只有能“听懂”用户的输入，系统才能做出合理的反应。今天，语音识别技术已经广泛应用在移动设备、车载设备、机器人等场景，在搜索、操控、导航、休闲娱乐等众多领域发挥了越来越重要的作用。随着技术越来越成熟稳定，我们相信一个以语音作为主要交互方式的人机界面新时代将很快到来。研究内容和关键科学问题语音识别研究主要包括如下三方面内容：语音信号的表示，即特征抽取；语音信号和语言知识建模；基于模型的推理，即解码。语音信号的复杂性和多变性使得这三方面的研究都面临相当大的挑战。图1给出一个语音识别系统的典型架构。