语音识别技术的现状与未来

语音识别技术的现状与未来
语音识别技术的现状与未来

语音识别技术的现状与未来

The Present and Future of Speech

Recognition

(CSLT-TRP-20160034)

王东(Dong Wang)

2017/01/08

CSLT, RIIT, Tsinghua Univ.

语音识别任务及其研究意义

语音识别(Automatic Speech Recognition, ASR)是指利用计算机实现从语音到文字自动转换的任务。在实际应用中,语音识别通常与自然语言理解、自然语言生成和语音合成等技术结合在一起,提供一个基于语音的自然流畅的人机交互方法。

早期的语音识别技术多基于信号处理和模式识别方法。随着技术的进步,机器学习方法越来越多地应用到语音识别研究中,特别是深度学习技术,它给语音识别研究带来了深刻变革。同时,语音识别通常需要集成语法和语义等高层知识来提高识别精度,因此和自然语言处理技术息息相关。另外,随着数据量的增加和机器计算能力的提高,语音识别越来越依赖数据资源和各种数据优化方法,这使得语音识别与大数据、高性能计算等新技术产生广泛结合。综上所述,语音识别是一门综合性应用技术,集成了包括信号处理、模式识别、机器学习、数值分析、自然语言处理、高性能计算等一系列基础学科的优秀成果,是一门跨领域、跨学科的应用型研究。

语音识别研究具有重要的科学价值和社会价值。语音信号是典型的局部稳态时间序列,研究这一信号的建模方法具有普遍意义。事实上,我们日常所见的大量信号都属于这种局部稳态信号,如视频、雷达信号、金融资产价格、经济数据等。这些信号的共同特点是在抽象的时间序列中包括大量不同层次的信息,因而可用相似的模型进行描述。历史上,语音信号的研究成果在若干领域起过重要的启发作用。例如,语音信号处理中的隐马尔可夫模型在金融分析、机械控制等领域都得到了广泛应用。近年来,深度神经网络在语音识别领域的巨大成功直接促进了各种深度学习模型在自然语言处理、图形图象处理、知识推理等众多应用领域的发展,取得了一个又一个令人惊叹的成果。

在实用价值方面,语音交互是未来人机交互的重要方式之一。随着移动电话、穿戴式设备、智能家电等可计算设备的普及,基于键盘、鼠标、触摸屏的传统交互方式变得越来越困难。为了解决这种困难,手势、脑波等一系统新的人机交互方式进入人们的视野。在这些五花八门的新兴交互方式中,语音交互具有自然、便捷、安全和稳定等特性,是最理想的交互方式。在语音交互技术中,语音识别是至关重要的一环:只有能“听懂”用户的输入,系统才能做出合理的反应。今天,语音识别技术已经广泛应用在移动设备、车载设备、机器人等场景,在搜索、操控、导航、休闲娱乐等众多领域发挥了越来越重要的作用。随着技术越来越成熟稳定,我们相信一个以语音作为主要交互方式的人机界面新时代将很快到来。

研究内容和关键科学问题

语音识别研究主要包括如下三方面内容:语音信号的表示,即特征抽取;语音信号和语言知识建模;基于模型的推理,即解码。语音信号的复杂性和多变性使得这三方面的研究都面临相当大的挑战。图1给出一个语音识别系统的典型架构。

图1. 语音识别系统结构。(Huang, X.,1996)

语音特征抽取

语音识别的一个主要困难在于语音信号的复杂性和多变性。一段看似简单的语音信号,其中包含了说话人、发音内容、信道特征、口音方言等大量信息。不仅如此,这些底层信息互相组合在一起,又表达了如情绪变化、语法语义、暗示内涵等丰富的高层信息。如此众多的信息中,仅有少量是和语音识别相关的,这些信息被淹没在大量其它信息中,因此充满了变动性。语音特征抽取即是在原始语音信号中提取出与语音识别最相关的信息,滤除其它无关信息。

语音特征抽取的原则是:尽量保留对发音内容的区分性,同时提高对其它信息变量的鲁棒性。历史上研究者通过各种物理学、生理学、心理学等模型构造出各种精巧的语音特征抽取方法,近年来的研究倾向于通过数据驱动学习适合某一应用场景的语音特征。

模型构建

语音识别中的建模包括声学建模和语言建模。声学建模是对声音信号(语音特征)的特性进行抽象化。自上世纪70年代中期以来,声学模型基本上以统计模型为主,特别是隐马尔可夫模型/高斯混合模型(HMM/GMM)结构。最近几年,深度神经网络(DNN)和各种异构神经网络成为声学模型的主流结构。

声学模型需要解决如下几个基本问题:(1)如何描述语音信号的短时平稳性; (2)如何描述语音信号在某一平稳瞬态的静态特性,即特征分布规律; (3)如何应用语法语义等高层信息;(4)如何对模型进行优化,即模型训练。同时,在实际应用中,还需要解决众多应用问题,如:(1)如何从一个领域快速自适应到另一个领域;(2)如何对噪音、信道等非语音内容进行补偿;(3)如何利用少量数据建模;(4)如何提高对语音内容的区分性;(5)如何利用半标注或无标注数据,等等。

语言建模是对语言中的词语搭配关系进行归纳,抽象成概率模型。这一模型在解码过程中对

解码空间形成约束,不仅减小计算量,而且可以提高解码精度。传统语言模型多基于N元文

法(n-gram),近年来基于递归神经网络(RNN)的语言模型发展很快,在某些识别任务中取得了比n-gram模型更好的结果。

语言模型要解决的主要问题是如何对低频词进行平滑。不论是n-gram模型还是RNN模型,低频词很难积累足够的统计量,因而无法得到较好的概率估计。平滑方法借用高频词或相似词的统计量,提高对低频词概率估计的准确性。除此之外,语言建模研究还包括:(1)如何对字母、字、词、短语、主题等多层次语言单元进行多层次建模;(2)如何对应用领域进行快速自适应;(3)如何提高训练效率,特别是对神经网络模型来说,提高效率尤为重要;(4)如何有效利用大量噪声数据,等等。

解码

解码是利用语音模型和语言模型中积累的知识,对语音信号序列进行推理,从而得到相应语音内容的过程。早期的解码器一般为动态解码,即在开始解码前,将各种知识源以独立模块形式加载到内存中,动态构造解码图。现代语音识别系统多采用静态解码,即将各种知识源统一表达成有限状态转移机(FST),并将各层次的FST嵌套组合在一起,形成解码图。解码时,一般采用Viterbi算法在解码图中进行路径搜索。为加快搜索速度,一般对搜索路径进行剪枝,保留最有希望的路径,即beam search。

对解码器的研究包括但不限于如下内容:(1)如何加快解码速度,特别是在应用神经网络语言模型进行一遍解码时;(2)如何实现静态解码图的动态更新,如加入新词;(2)如何利用高层语义信息;(3)如何估计解码结果的信任度;(4)如何实现多语言和混合语言解码;(5)如何对多个解码器的解码结果进行融合。

技术方法和研究现状

语音识别研究可追溯到20世纪50年代,例如贝尔实验室的AUDREY系统,用模拟电路实现了对10个数字的识别。从那以后,语音识别技术经历了模式识别、统计模型、机器学习、深度学习等几个发展阶段。需要注意的是,语音识别技术包括特征提取、声学建模、语言建模、解码等几个方面,其中声学建模的发展最为显著。上述发展阶段基本上是以声学模型的发展而划分的。因而,本节主要关注声学模型技术(特征提取在深度学习方法中成为声学模型的一部分),同时简述其它几种技术的发展现状。

概率模型方法

语音识别技术发展初期以模式匹配方法为主,对不同词保留若干各自的样本,将待测试语音信号与这些标准样本进行匹配,取距离最近的样本所对应的词标注为该语音信号的发音。这一方法有两个主要问题:(1)不能有效描述语音信号在时序上的不确定性,即短时平稳属性;(2)不能有效描述语音信号在发音特征上的不确定性,即不同条件下同一发音的不确定性。为解决上述因难,Reddy、Jelinek、Baker等研究者提出基于概率模型来描述这些不确定的发音。这一模型主要包括两个部分:在描述时序动态性上,认为一个发音单元(词或音素)包括若干状态,同一状态内部的发音特性保持相对稳定,不同状态间的转移具有随机性;在描述发音特征的不确定性上,通过概率模型描述某一发音状态内部的特征分布。应用最广泛的

概率模型是HMM/GMM 模型(如图2所示),其中HMM 用来描述短时平稳的动态性,GMM 用来描述HMM 每一状态内部的发音特征。

图2 . HMM/GMM 模型

HMM/GMM 模型结构简单,有保证收敛的快速训练方法,可扩展性强,因此一直到2011年一直是语音识别领域的主流方法。基于HMM/GMM 框架,研究者提出各种改进方法,如结合上下文信息的动态贝叶斯方法、区分性训练方法、自适应训练方法、HMM/NN 混合模型方法等。这些方法都对语音识别研究产生了深远影响,并为下一代语音识别技术的产生做好了准备。

深度学习方法

深度学习是“使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法”。深度学习在语音识别领域中的应用始于2009年,Mohamed 等在NIPS

workshop 上发表的“Deep Belief Networks for phone recognition ”报告了基于DNN 的声学模型在TIMIT 数据集上得到了23%的错误率,远好于其它复杂模型。之后,微软、IBM 、谷歌等公司对深度学习模型进行了深入探索,尝试了各种深度学习模型在不同识别任务上的效果。今天,深度学习技术已经成为语音识别中的主流方法,基于深度模型的语音识别系统不论是识别率还是鲁棒性都远好于基于HMM/GMM 的系统。

2013年以前,DNN 是语音识别中应用最广泛的深度模型。DNN 是具有多个隐藏层的多层神经网络,具有强大的特征学习和分类能力。经过合理的初始化(如预训练),DNN 可通过随机梯度下降(SGD)算法进行优化。DNN 在声学建模中的应用可分为两种方式,一是混合建模方式,即用DNN 代替GMM 来描述状态输出概率;另一种是特征提取方式,即利用DNN 提取抽象特征,再送入传统的HMM/GMM 模型进行声学建模。这两种方式各有优势,其中混合建模更简单有效,是大多数商用系统采用的方式,而特征提取方式对资源的要求比较低,通常用在小语种识别等数据稀疏场景中。 S 1 S 2 S

3 a

11

a 12 a 22 a 23

a 33

随着研究的深入,研究者对DNN声学模型特性的理解也越来越全面。首先,人们发现DNN具有很强的特征提取能力,可以从频谱甚至时域信号中直接学习语音特征。这种纯数据驱动得到的特征在很多识别任务上远好于基于听觉感知特性设计的特征(如MFCC和PLP)。第二,人们发现DNN具有强大的环境学习能力,可以对多种噪音、口音条件下的信号进行统一学习,极大提高了系统鲁棒性。第三,人们发现DNN非常适合多任务学习和转移学习,利用一种语言的数据训练出的DNN,可以直接用到另外一种语言上做为特征提取模型。

DNN的成功激励研究者探索更有效的深度模型,其中具有重要意义的是卷积神经网络(CNN)和循环神经网络(RNN)。这两种网络在深度学习提出之前已经被研究多年,在深度学习框架下取得了更好的效果。

CNN是一种比DNN更有效的特征提取方法,它利用语音信号中典型模式(如音素)的重复性和局部性,将DNN的全连接结构变成时频空间中的局部连接结构,相当于设计了一系列具有局部关注特性的滤波器,并通过训练学习滤波器的参数。这一思路将DNN模型的特征学习方式进一步结构化,不仅减小了参数量,减小了模型训练难度,得到的CNN模型也更加符合特征提取的结构化要求。

RNN模型是一种状态累积的时序动态模型。通过时间上的循环连接参数,RNN可以学习更长时的历史信息,进而提高模型的预测和分类能力。历史上人们曾尝试过将RNN应用于语音信号建模,但由于系统的复杂性和模型训练上的困难,这些尝试大多局限在小数据任务上,效果不显著。随着深度学习中模型优化方法的进步和数据量的增多,人们发现当有足够多的训练数据时,RNN模型确实可以有效学习信号的动态性,提高语音识别的性能。进而,研究者探索出一系列更适合语音建模的RNN结构,如LSTM,GRU,双向LSTM等。同时,人们发现将多层RNN迭加起来形成深层RNN结构,可进一步提高识别性能。

RNN更深远的影响是对HMM模型统治地位的冲击。同HMM一样,RNN模型是一种时序模型,通过累积历史信息进入不同的状态,进而改变模型输出特性。和HMM的离散状态结构不同的是,RNN是一种连续状态模型,因而适合描述语音信号从起始到结束的动态发展过程。因此,利用RNN代替HMM,用连续状态序列代替离散状态序列,进而把语音识别的所有模块统一成神经网络模型,是件非常吸引人的事。研究者曾做过一些这方面的探索,但直到2014年端对端训练方法出现以后,这一思路才最终确定下来。以CTC准则为目标的端对端训练方法不再依赖一个初始GMM模型对信号和标注进行逐帧对齐,而是考虑所有可能的路径来计算损失函数,因而有望得到更精确的模型。特别重要的是,基于RNN结构,音素内部的状态变化不再用HMM来描述,而是依赖RNN/LSTM内部的状态累积。这意味着统治语音识别研究近40年的HMM模型至少已经变成一个可选项。

图3. 当前语音识别系统中的声学模型结构(DeepSpeech2)

图3是当前语音识别系统所采用的一种典型的神经网络模型结构。该结构从频谱开始,通过3层CNN学习发音特征,通过7层RNN学习信号的静态和动态特性,最后通过1层全连接网络输出音素(或其它语音单元)的后验概率。RNN层可采用GRU或LSTM结构,并可采用双向结构。训练时以CTC为目标,同时加入BN等控制梯度的方法,保证训练的收敛。

语言模型和解码器

前述内容主要是声学模型上的进展。相对而言,语言模型和解码器并没有发生太大变化。在语言模型方面,绝大部分系统依然基于传统的n-gram模型加上各种平滑算法。近年来,基于深度神经网络的语言模型(NNLM)取得很大进展,但NNLM不论训练和推理都显著慢于n-gram,特别是应用到一次解码中,还需要较多的工程化工作。这使得NNLM还不能取代传统n-gram成为主流的语音模型结构。另一方面,随着训练速度、新词处理、应用框架等问题的解决,NNLM应该很快会取代n-gram成为主流,甚至成为端到端网络的一部分。

在解码器方面,绝大多数系统依然采用基于FST的静态解码方法。这一方法预先将LM、词表、决策树、HMM模型等各层次知识统一表达成FST,并将这些FST编译成一个“端到端”的解码图,其中输入为音素状态,输出为词。在CTC(端到端)系统中,解码图仅需包括LM 和词表,因而极大简化了构图流程。基于这一解码图,应用动态规划算法(如Viterbi)即可实现解码。这一静态解码方法不需考虑众多各异化的资源,极大简化了解码器的结构和工作流程,而且可以对解码图进行确定化、最小化等离线优化,提高解码效率。这一方法的缺点是编译后的解码图难以进行动态更新,如增加新词等。研究者提出了嵌套子图算法和相似对

语音识别

语音识别技术 概述 语音识别技术,也被称为自动语音识别Automatic Speech Recognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合,可以构建出更加复杂的应用,例如语音到语音的翻译。语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。 历史 早在计算机发明之前,自动语音识别的设想就已经被提上了议事日程,早期的声码器可被视作语音识别及合成的雏形。而1920年代生产的"Radio Rex"玩具狗可能是最早的语音识别器,当这只狗的名字被呼唤的时候,它能够从底座上弹出来。最早的基于电子计算机的语音识别系统是由A T&T贝尔实验室开发的Audrey语音识别系统,它能够识别10个英文数字。其识别方法是跟踪语音中的共振峰。该系统得到了98%的正确率。到1950年代末,伦敦学院(Colledge of London)的Denes已经将语法概率加入语音识别中。1960年代,人工神经网络被引入了语音识别。这一时代的两大突破是线性预测编码Linear Predictive Coding (LPC),及动态时间弯折Dynamic Time Warp技术。语音识别技术的最重大突破是隐含马尔科夫模型Hidden Markov Model的应用。从Baum提出相关数学推理,经过Labiner等人的研究,卡内基梅隆大学的李开复最终实现了第一个基于隐马尔科夫模型的大词汇量语音识别系统Sphinx。[1]。此后严格来说语音识别技术并没有脱离HMM框架。尽管多年来研究人员一直尝试将“听写机”推广,语音识别技术在目前还无法支持无限领域,无限说话人的听写机应用。 模型 目前,主流的大词汇量语音识别系统多采用统计模式识别技术。典型的基于统计模式识别方法的语音识别系统由以下几个基本模块所构成信号处理及特征提取模块。该模块的主要任务是从输入信号中提取特征,供声学模型处理。同时,它一般也包括了一些信号处理技术,以尽可能降低环境噪声、信道、说话人等因素对特征造成的影响。统计声学模型。典型系统多采用基于一阶隐马尔科夫模型进行建模。发音词典。发音词典包含系统所能处理的词汇集及其发音。发音词典实际提供了声学模型建模单元与语言模型建模单元间的映射。语言模型。语言模型对系统所针对的语言进行建模。理论上,包括正则语言,上下文无关文法在内的各种语言模型都可以作为语言模型,但目前各种系统普遍采用的还是基于统计的N元文法及其变体。解码器。解码器是语音识别系统的核心之一,其任务是对输入的信号,根据声学、语言模型及词典,寻找能够以最大概率输出该信号的词串。从数学角度可以更加清楚的了解上述模块之间的关系。首先,统计语音识别的最基本问题是,给定输入

语音识别发展现状与展望

中国中文信息学会第七次全国会员代表大会 暨学会成立30周年学术会议 语音识别发展现状与展望中科院自动化研究所徐波 2011年12月4日

报告提纲 ?语音识别技术现状及态势?语音识别技术的行业应用?语音识别技术研究方向?结论与展望

2010年始语音识别重新成为产业热点?移动互联网的兴起成为ASR最重要的应用环境。在Google引领下,互联网、通信公司纷纷把语音识别作为重要研究方向 –Android系统内嵌语音识别技术,Google语音 翻译等; –iPhone4S 上的Siri软件; –百度、腾讯、盛大、华为等都进军语音识别领 域; –我国语音技术领军企业讯飞2010年推出语音云识别、讯飞口讯 –已有的QQ2011版语音输入等等

成熟度分析-技术成熟度曲线 ?美国市场调查咨询公司Gartner于2011年7月发布《2011新兴技术成熟度曲线》报告:

成熟度分析-新兴技术优先矩阵?Gartner评出了2011年具有变革作用的技术,包括语音识别、语音翻译、自然语言问答等。其中语音翻译和自然语言问答有望在5-10年内获得大幅利用,而语音识别有望在2-5年内获得大幅利用;

三十年语音识别技术发展 ---特征提取与知识方面?MFCC,PLP,CMS,RASTA,VTLN;?HLDA, fMPE,neural net-based features ?前端优化 –融入更多特征信息(MLP、TrapNN、Bottle Neck Features等) ?特征很大特点有些是跟模型的训练算法相匹配?大规模FSN图表示,把各种知识源集中在一起–bigram vs. 4-gram, within word dependencies vs. cross-word

语音识别技术的发展与未来

语音识别技术的发展与未来 与机器进行语音交流,让它听明白你在说什么。语音识别技术将人类这一曾经的梦想变成了现实。语音识别就好比“机器的听觉系统”,该技术让机器通过识别和理解,把语音信号转变为相应的文本或命令。 在1952年的贝尔研究所,Davis等人研制了世界上第一个能识别10个英文数字发音的实验系统。1960年英国的Denes等人研制了第一个计算机语音识别系统。 大规模的语音识别研究始于上世纪70年代以后,并在小词汇量、孤立词的识别方面取得了实质性的进展。上世纪80年代以后,语音识别研究的重点逐渐转向大词汇量、非特定人连续语音识别。 同时,语音识别在研究思路上也发生了重大变化,由传统的基于标准模板匹配的技术思路开始转向基于统计模型的技术思路。此外,业内有专家再次提出了将神经网络技术引入语音识别问题的技术思路。 上世纪90年代以后,在语音识别的系统框架方面并没有什么重大突破。但是,在语音识别技术的应用及产品化方面出现了很大的进展。比如,DARPA是在上世界70年代由美国国防部远景研究计划局资助的一项计划,旨在支持语言理解系统的研究开发工作。进入上世纪90年代,DARPA计划仍在持续进行中,其研究重点已转向识别装置中的自然语言处理部分,识别任务设定为“航空旅行信息检索”。 我国的语音识别研究起始于1958年,由中国科学院声学所利用电子管电路识别10个元音。由于当时条件的限制,中国的语音识别研究工作一直处于缓慢发展的阶段。直至1973年,中国科学院声学所开始了计算机语音识别。 进入上世纪80年代以来,随着计算机应用技术在我国逐渐普及和应用以及数字信号技术的进一步发展,国内许多单位具备了研究语音技术的基本条件。与此同时,国际上语音识别技术在经过了多年的沉寂之后重又成为研究的热点。在这种形式下,国内许多单位纷纷投入到

语音识别技术综述

语音识别技术综述

语音识别技术综述 电子信息工程2010级1班郭珊珊 【摘要】随着计算机处理能力的迅速提高,语音识别技术得到了飞速发展,该技术的发展和应用改变了人们的生产和生活方式,正逐步成为计算机处理技术中的关键技术。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。 【关键词】语音识别;语音识别原理;语音识别发展;产品 语音识别是以语音为研究对象,通过语音信号处理和模式识别让机器人自动识别和理解人类口述的语言。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的命令或文本的高新技术。 1 语音识别的原理 语音识别系统本质是一种模式识别系统,包括特征提取、模式匹配、参考模式库等三个基本单位元。未知语音经过话筒变换成电信号后加载识

别系统的输入端,首先经过预处理,再根据人的语音特点建立语音模型,对输入的语音信号进行分析,并抽取所需特征,在此基础上建立语音识别所需的模板。 计算机在识别过程中要根据语音识别的模型,将计算机中存放的语音模板与输入的语音信号的特征进行比较,根据一定的搜索和匹配策略,找出一系列最优的与输入语音匹配的模板。然后根据此模板的定义,通过查表可给出计算机的识别结果。这种最优的结果与特征的选择、语音模型的好坏、模板是否准确都有直接的关系。 2 语音识别系统的分类 语音识别系统可以根据对输入语音的限制加以分类。 2.1从说话者与识别系统的相关性考虑 可以将识别系统分为3类:(1)特定人语音识别系统:仅考虑对于专人的话音进行识别;(2)非特定人语音系统:识别的语音与人无关,通常要用大量不同人的语音数据库对识

别系统进行学习;(3)多人的识别系统:通常能识别一组人的语音,或者成为特定组语音识别系统,该系统仅要求对要识别的那组人的语音进行训练。 2.2从说话的方式考虑 也可以将识别系统分为3类:(1)孤立词语音识别系统:孤立词识别系统要求输入每个词后要停顿;(2)连接词语音识别系统:连接词输入系统要求对每个词都清楚发音,一些连音现象开始出现;(3)连续语音识别系统:连续语音输入是自然流利的连续语音输入,大量连音和变音会出现。 2.3从识别系统的词汇量大小考虑 也可以将识别系统分为3类:(1)小词汇量语音识别系统。通常包括几十个词的语音识别系统。(2)中等词汇量的语音识别系统。通常包括几百个词到上千个词的识别系统。(3)大词汇量语音识别系统。通常包括几千到几万个词的语音识别系统。随着计算机与数字信号处理器运算能力以及识别系统精度的提高,识别

语音识别系统实验报告材料

语音识别系统实验报告 专业班级:信息安全 学号: 姓名:

目录 一、设计任务及要求 (1) 二、语音识别的简单介绍 2.1语者识别的概念 (2) 2.2特征参数的提取 (3) 2.3用矢量量化聚类法生成码本 (3) 2.4VQ的说话人识别 (4) 三、算法程序分析 3.1函数关系 (4) 3.2代码说明 (5) 3.2.1函数mfcc (5) 3.2.2函数disteu (5) 3.2.3函数vqlbg (6)

3.2.4函数test (6) 3.2.5函数testDB (7) 3.2.6 函数train (8) 3.2.7函数melfb (8) 四、演示分析 (9) 五、心得体会 (11) 附:GUI程序代码 (12) 一、设计任务及要求 实现语音识别功能。 二、语音识别的简单介绍

基于VQ的说话人识别系统,矢量量化起着双重作用。在训练阶段,把每一个说话者所提取的特征参数进行分类,产生不同码字所组成的码本。在识别(匹配)阶段,我们用VQ方法计算平均失真测度(本系统在计算距离d时,采用欧氏距离测度),从而判断说话人是谁。 语音识别系统结构框图如图1所示。 图1 语音识别系统结构框图 2.1语者识别的概念 语者识别就是根据说话人的语音信号来判别说话人的身份。语音是人的自然属性之一,由于说话人发音器官的生理差异以及后天形成的行为差异,每个人的语音都带有强烈的个人色彩,这就使得通过分析语音信号来识别说话人成为可能。用语音来鉴别说话人的身份有着许多独特的优点,如语音是人的固有的特征,不会丢失或遗忘;语音信号的采集方便,系统设备成本低;利用电话网络还可实现远程客户服务等。因此,近几年来,说话人识别越来越多的受到人们的重视。与其他生物识别技术如指纹识别、手形识别等相比较,说话人识别不仅使用方便,而且属于非接触性,容易被用户接受,并且在已有的各种生物特征识别技术中,

智能计算机论文参考文献范例

https://www.360docs.net/doc/4615318098.html, 智能计算机论文参考文献 一、智能计算机论文期刊参考文献 [1].当代智能计算机的语义困境——兼论本体论语义学. 《武汉科技大学学报 《电子测试》.2014年10期.樊丽.杨宏.鱼莹. [5].《智能计算机与应用》征稿启事. 《智能计算机与应用》.2014年3期. [6].关于智能计算机. 《集宁师专学报》.2004年3期.刘宝娥. [7].基于deeplearning的语音识别. 《电子设计工程》.2015年18期.张炯.陶智勇. [8].《智能计算机与应用》征稿启事. 《智能计算机与应用》.2014年1期. [9].《智能计算机与应用》征稿启事. 《智能计算机与应用》.2015年4期. [10].基于Excel构建智能计算机考试系统. 《信息技术》.被中信所《中国科技期刊引证报告》收录ISTIC.2012年3期.甘伟明.潘东梅.白晓丽.刘兵兵. 二、智能计算机论文参考文献学位论文类 [1].中学生身体运动智能计算机情境化测评方法研究. 作者:李静.教育学;教育技术学南京师范大学2012(学位年度) [2].中学生视觉空间智能计算机情境化测评方法的研究.被引次数:1 作者:张丽霞.教育学;教育技术学南京师范大学2011(学位年度) [3].智能计算机配棉与纱线质量预测系统的研究与开发. 作者:袁静.纺织工程天津工业大学2012(学位年度) [4].基于网络的智能计算机辅助教学系统. 作者:韩静.计算机应用技术华东师范大学2005(学位年度)

https://www.360docs.net/doc/4615318098.html, [5]HPP体系结构下TCP/IP协议支持的研究与实现.被引次数:1 作者:康炜.计算机系统结构中国科学院计算技术研究所2007(学位年度) [6]模糊逻辑、神经网络与智能计算机研究. 作者:刘增良.计算机科学与技术北京航空航天大学1993(学位年度) [7]基于角色理论的情绪常识模型及应用研究. 作者:叶潇.计算机软件与理论华东理工大学2005(学位年度) [8].基于.NET技术的智能计算机考试系统. 作者:施长云.软件工程东南大学2015(学位年度) [9]智能计算机网络规划系统的设计与实现. 作者:梁伟晟.计算机软件与理论中山大学2000(学位年度) [10]智能计算机辅助教学系统探索与制作. 作者:刘常青.自动控制理论及应用西安电子科技大学1998(学位年度) 三、相关智能计算机论文外文参考文献 [1]IntelligentComputerAidedInstructionModelingandaMethodtoOptimiz eStudyStrategiesforParallelRobotInstruction. TanD.P.JiS.M.JinM.S.《IEEETransactionsonEducation》,被EI收录EI.被SCI收录SCI.20133 [2]Aparadigmforhandwritingbasedintelligenttutors. Anthony,L.Yang,J.Koedinger,K.R.《Internationaljournalofhumancomputerstudies》,被EI收录EI.被SCI收录SCI.201211 [3]Intelligentautomationofdesignandmanufacturinginmachinetoolsusi nganopenarchitecturemotioncontroller. https://www.360docs.net/doc/4615318098.html,vanya《JournalofManufacturingSystems》,被EI 收录EI.被SCI收录SCI.20131 [4]Anadaptationalgorithmforanintelligentnaturallanguagetutoringsy stem. AnnabelLathamKeeleyCrockettDavidMcLean《Computers&education》,被EI收录EI.被SCI收录SCI.2014Feb. [5]GuestEditors''Introduction:IntelligentSystemsforInteractiveEnt ertainment.

语音识别技术研究

基于Google技术的语音识别实现 前言 语音识别技术在手机上应用得相当广泛,我们日常最频繁的沟通方式是语音,在手机应用中,大部分是通过硬件手动输入,目前这依然是主要与手机互动的方式,然而对于像手机这种小巧的移动设备来说,使用键盘甚至是虚拟键盘打字是一件非常不爽的事情。于是,Google 推出了强大的语音搜索业务。2008年11月,Google的语音搜索已经在iPhone平台上线,而Android在1.5 SDK版本中也加强了语音识别功能,并应用到了搜索功能上,这的确是一个非常让人惊喜的更新。 Android语音识别 Android系统集成了Google的语音识别技术,我们只需要实现少量代码便可以是使用语音识别。 android语音识别方法一:使用intent调用语音识别程序 1、通过intent传递语音识别的模式 Intent intent = new Intent(RecognizerIntent.ACTION_RECOGNIZE_SPEECH); 2、语言模式和自由形势的语音识别 intent.putExtra(RecognizerIntent.EXTRA_LANGUAGE_MODEL,https://www.360docs.net/doc/4615318098.html,NGUAG E_MODEL_FREE_FORM); 3、设置语言库 intent.putExtra(RecognizerIntent.EXTRA_LANGUAGE, Locale.CHINA.toString()); 4、开始执行intent、语音识别 intent.putExtra(RecognizerIntent.EXTRA_PROMPT, "请开始说话"); 5、开始 startActivityForResult(intent, 1234); RecognizerIntent包括的常量:

语音信号识别及处理中英文翻译文献综述

语音识别 在计算机技术中,语音识别是指为了达到说话者发音而由计算机生成的功能,利用计算机识别人类语音的技术。(例如,抄录讲话的文本,数据项;经营电子和机械设备;电话的自动化处理),是通过所谓的自然语言处理的计算机语音技术的一个重要元素。通过计算机语音处理技术,来自语音发音系统的由人类创造的声音,包括肺,声带和舌头,通过接触,语音模式的变化在婴儿期、儿童学习认识有不同的模式,尽管由不同人的发音,例如,在音调,语气,强调,语调模式不同的发音相同的词或短语,大脑的认知能力,可以使人类实现这一非凡的能力。在撰写本文时(2008年),我们可以重现,语音识别技术不只表现在有限程度的电脑能力上,在其他许多方面也是有用的。 语音识别技术的挑战 古老的书写系统,要回溯到苏美尔人的六千年前。他们可以将模拟录音通过留声机进行语音播放,直到1877年。然而,由于与语音识别各种各样的问题,语音识别不得不等待着计算机的发展。 首先,演讲不是简单的口语文本——同样的道理,戴维斯很难捕捉到一个note-for-note曲作为乐谱。人类所理解的词、短语或句子离散与清晰的边界实际上是将信号连续的流,而不是听起来: I went to the store yesterday昨天我去商店。单词也可以混合,用Whadd ayawa吗?这代表着你想要做什么。第二,没有一对一的声音和字母之间的相关性。在英语,有略多于5个元音字母——a,e,i,o,u,有时y和w。有超过二十多个不同的元音, 虽然,精确统计可以取决于演讲者的口音而定。但相反的问题也会发生,在那里一个以上的信号能再现某一特定的声音。字母C可以有相同的字母K的声音,如蛋糕,或作为字母S,如柑橘。 此外,说同一语言的人使用不相同的声音,即语言不同,他们的声音语音或模式的组织,有不同的口音。例如“水”这个词,wadder可以显著watter,woader wattah等等。每个人都有独特的音量——男人说话的时候,一般开的最低音,妇女和儿童具有更高的音高(虽然每个人都有广泛的变异和重叠)。发音可以被邻近的声音、说话者的速度和说话者的健康状况所影响,当一个人感冒的时候,就要考虑发音的变化。

语音识别技术

目前主流的语音识别技术是基于统计模式识别的基本理论。一个完整的语音识别系统可大致分为三部分: (1)语音特征提取: (2)声学模型与模式匹配(识别算法) (3)语义理解:计算机对识别结果进行语法、语义分析。 语音识别技术,也被称为自动语音识别Automatic Speech Recognition,(ASR), 语音识别的发展简史 1952年AT& T Bell实验室实现了一个单一发音人孤立发音的十个英文数字的语音识别系统,到现在的人机语音交互。语音识别研究从二十世纪50年代开始到现在历半个多世纪的蓬勃发展,在这期间获得了巨大的进展。 现代语音识别技术研究重点包括即兴口语的识别和理解,自然口语对话,以及多语种的语音同声翻译。 语音识别应用的特点 1.语音识别系统必须覆盖的功能包括: (1)语音识别系统要对用户有益(希望它是能检测到的)。例如提高生产率,容易使用,更好的人机界面,或更自然的信息交流模式。 (2)语音识别系统要对用户“友好”。这种“友好”的含义是:用户在和系统进行语音对话时感到舒适;系统的语音提示既有帮助,又很亲近。 (3)语音识别系统必须有足够的精度 (4)语音识别系统要有实时处理能力;例如系统对用户询问的响应时间要很短。 2. 语音识别错误的处理 有以下四种方式可以处理这个问题。 (1)错误弱化法。这种处理仅仅花费用户很少一点时间,对用户几乎没什么其它不利影响。 (2)错误自检纠正法 系统利用已知任务的限制自动地检测并纠正错误。 (3)确认或多层次判定

(4)拒绝/转向人工座席。系统对其中通常较易导致系统识别错误的极少部分语音指令拒绝做出识别决定,而是将其转给人工座席。 在很多情况下,语音识别技术可以充分发挥出RFID的潜能: 1.积压产品、脱销产品 2.被废弃、被召回或已过期产品 3.回收的商品 4.促销产品 RFID系统在利用原有语音导向投资的情况下可以大大增加收益 语音识别技术在邮件分拣中的应用 现代化分拣设备在邮政上的应用大大提高了邮件处理的效率。但是,并不是所有的邮件都能上分拣机处理,那些需要人工处理的邮件成了邮政企业实现自动化的瓶颈。邮政使用人工标码技术以及先进的计算机软件 系统来处理不能上机的邮件,仍需要大量的劳动力。 由MailCode公司开发并准备申请专利的Spell-ItTM软件技术通过提高系统数据库能力的方式对语音识别自动化设备进行了革命性的变革。这种技术提供了无限的数据库能力,并且保证分拣速度不会因数据库的增大而减小。由各大语音引擎公司开发的系统还支持世界上的各种主要语言,这样,语音技术就成为世界性的产品。 以英语语音识别系统为例,系统建立了36个可识别字符26个字母加上0~9的10个数字,同时还建立了一套关键词。Spell-It软件使用这些字符来识别成千上万的口语词汇和无数的词语组合。 对于大公司的邮件收发中心来说,使用MailCode公司的Spell-It软件技术,分拣员实际上只需发出几个字符的音来找到和数据库中相对应的词。例如:碰到了寄给Joseph Schneider的邮件,操作员只需发出“J”、“S”、“C”和“H”几个音就可以得到准确的分拣信息。 姓名和邮箱编码:Jennifer Schroeder, 软件工程部;Joseph Schneider, 技术操作部;Josh Schriver, 技术操作部,因为这三个姓名全都符合(J,S,C,H)的发音标准。邮件中心的操作员知道邮件实际上是寄给Joseph Schneider的,就可以把邮件投入Joseph Schneide的信箱了。 邮局要把邮件按投递路线分发,分拣员必须熟悉长长的投递段列表以及各种各样的国际邮件投递信息。Spell-It技术把地址、投递路线等信息都存入了系统,这样就大大方便了分拣工作。 例如,有一件寄往Stonehollow 路2036号的邮件。使用语音识别技术,分拣员仅仅需要发出“2”、“0”、“S”、“T”和“O”几个音,如表2所示,数据库就会给出所有可能和这几

RFID的应用现状及未来发展趋势

RFID的应用现状及未来发展趋势 RFID是英文Radio Frequency Identification的缩写,即无线射频识别技术。它是一种非接触式自动识别技术。RFID系统一般由电子标签、阅读器和信息处理软件系统三部分组成。电子标签中储存有商品的基本信息,当标签进入阅读器射频磁场中时,标签被激发产生感应电流,将标签中储存的信息发射到阅读器中,阅读器通过解码系统识别标签,并可将识别信息进一步传递到信息处理系统进行分析处理。按照RFID标签的能量供给方式,RFID标签可分为有源标签和无源标签;按照RFID工作时使用的无线电频率,RFID系统可分为低频、高频、超高频和微波系统。 与我们目前最常见的条形码相比,RFID具有很多优势。如信息存储量大,非接触识别、识别距离长、快速方便,信息可更新,标签可重复使用,标签能适应不同工作环境等。 RFID的基本技术原理起源于二战时期,最初盟军利用无线电数据技术来识别敌我双方的飞机和军舰。战后,由于较高的成本,该技术一直主要应用于军事领域,并未很快在民用领域得到推广应用。直到上世纪八九十年代,随着芯片和电子技术的提高和普及,欧洲开始率先将RFID技术应用到公路收费等民用领域。到二十一世纪初,RFID迎来了一个崭新的发展时期,其在民用领域的价值开始得到世界各国的广泛关注,特别是在西方发达国家,RFID技术大量应用于生产自动化、门禁、公路收费、停车场管理、身份识别、货物跟踪等民用领域中,其新的应用范围还在不断扩展,层出不穷。 本世纪初,RFID已经开始在中国进行试探性的应用,并很快得到政府的大力支持, 2006年6月,中国发布了《中国RFID技术政策白皮书》,标志着RFID的发展已经提高到国家产业发展战略层面。到2008年底,中国参与RFID的相关企业达数百家,已经初步形成了从标签及设备制造到软件开发集成等一个较为完整的RFID产业链,据专家估计,2008年中国RFID相关产值达到80亿元左右,并将在未来5-10年保持快速发展。

语音识别技术概述

语音识别技术概述 摘要:本文简要介绍了语音识别技术理论基础及分类方式,所采用的关键技术以及所面临的困难与挑战,最后讨论了语音识别技术的发展前景和应用。 关键词:语音识别;特征提取;模式匹配;模型训练 Abstract:This text briefly introduces the theoretical basis of the speech-identification technology,its mode of classification,the adopted key technique and the difficulties and challenges it have to face.Then,the developing prospect ion and application of the speech-identification technology are discussed in the last part. Keywords:Speech identification;Character Pick-up;Mode matching;Model training 一、语音识别技术的理论基础 语音识别技术:是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高级技术。语音识别以语音为研究对象,它是语音信号处理的一个重要研究方向,是模式识别的一个分支,涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域,甚至还涉及到人的体态语言(如人在说话时的表情、手势等行为动作可帮助对方理解),其最终目标是实现人与机器进行自然语言通信。 不同的语音识别系统,虽然具体实现细节有所不同,但所采用的基本技术相似,一个典型语音识别系统主要包括特征提取技术、模式

语音识别技术文献综述

语音识别技术综述 The summarization of speech recognition 张永双 苏州大学 摘要 本文回顾了语音识别技术的发展历史,综述了语音识别系统的结构、分类及基本方法,分析了语音识别技术面临的问题及发展方向。 关键词:语音识别;特征;匹配 Abstact This article review the courses of speech recognition technology progress ,summarize the structure,classifications and basic methods of speech recognition system and analyze the direction and the issues which speech recognition technology development may confront with. Key words: speech recognition;character;matching 引言 语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门交叉学科,所涉及的领域有信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等,甚至还涉及到人的体态语言(如人民在说话时的表情手势等行为动作可帮助对方理解)。其应用领域也非常广,例如相对于键盘输入方法的语音输入系统、可用于工业控制的语音控制系统及服务领域的智能对话查询系统,在信息高度化的今天,语音识别技术及其应用已成为信息社会不可或缺的重要组成部分。 1.语音识别技术的发展历史 语音识别技术的研究开始二十世纪50年代。1952年,AT&Tbell实验室的Davis等人成功研制出了世界上第一个能识别十个英文数字发音的实验系统:Audry系统。

自动识别技术发展现状

自动识别技术发展现状 班级:物流 学号: 姓名: 指导老师: 2015年10月20日

目录 1、自动识别概念 (3) 2、自动识别技术简介 (3) 3、自动识别技术分类 (3) 4、自动识别技术特点 (4) 5、常见的自动识别技术 (4) 5.1、条码技术 (4) 5.2、磁条(卡)技术 (4) 5.3、IC卡技术 (5) 5.4、生物识别技术 (5) 5.4.1语音识别技术 (6) 5.4.2视觉识别技术 (6) 5.4.3人脸识别技术 (6) 5.4.4指纹识别技术 (7) 5.5图像识别技术 (7) 5.6.光学字符识别技术(OCR) (7) 5.7.射频识别技术(RFID) (8) 6、自动识别技术在经济发展中的作用 (8) 6.1、自动识别技术是国民经济信息化的重要基础和技术支撑 (8) 6.2、自动识别技术已成为我国信息产业的有机组成部分 (10) 6.3、自动识别技术可提升企业供应链的整体效率 (10) 7、自动识别技术的应用 (11) 8、自动识别技术的发展趋势 (11) 8.1、多种识别技术的集成化应用 (12) 8.2、无线通讯相结合是未来自动识别产业发展的重要趋势 (13) 8.3、自动识别技术将越来越多地应用于控制,智能化水平在不断提高 (14) 8.4、自动识别技术的应用领域将继续拓宽,并向纵深发展 (15) 8.5、新的自动识别技术标准不断涌现,标准体系日趋完善 (16)

1、自动识别概念 自动识别系统是现代工业和商业及物流领域中,生产自动化、销售自动化、流通自动化过程中所必备的自动识别设备以及配套的自动识别软件所构成的体系。 自动识别包括:条码识读、射频识别、生物识别(人脸、语音、指纹、静脉)、图像识别、OCR光学字符识别 自动识别系统几乎覆盖了现代生活领域中的各个环节,并具有及大的发展空间。其中比较常见应用有:条形码打印设备和扫描设备,手机二维码的应用,指纹防盗锁,自动售货柜,自动投币箱,POS机等. 2、自动识别技术简介 自动识别技术是将信息数据自动识读、自动输入计算机的重要方法和手段,它是以计算机技术和通信技术为基础的综合性科学技术。近几十年内自动识别技术在全球范围内得到了迅猛发展,目前已形成了一个包括条码、磁识别、光学字符识别、射频识别、生物识别及图像识别等集计算机、光、机电、通信技术为一体的高新技术学科。 3、自动识别技术分类 按照国际自动识别技术的分类标准,自动识别技术可以有两种分类方法: 1.按照采集技术进行分类,其基本特征是需要被识别物体具有特定的识别 特征载体(如标签等,仅光学字符识别例外),可以分为光存储器、磁存 储器和电存储器三种; 2.按照特征提取技术进行分类,其基本特征是根据被识别物体的本身的行 为特征来完成数据的自动采集,可以分为静态特征、动态特征和属性特 征。

语音识别文献综述

噪音环境下的语音识别 1.1引言 随着社会的不断进步和科技的飞速发展,计算机对人们的帮助越来越大,成为了人们不可缺少的好助手,但是一直以来人们都是通过键盘、鼠标等和它进行通信,这限制了人与计算机之间的交流,更限制了消费人群。为了能让多数人甚至是残疾人都能使用计算机,让计算机能听懂人的语言,理解人们的意图,人们开始了对语音识别的研究. 语音识别是语音学与数字信号处理技术相结合的一门交叉学科,它和认知学、心理学、语言学、计算机科学、模式识别和人工智能等学科都有密切关系。 1,2语音识别的发展历史和研究现状 1.2.1国外语音识别的发展状况 国外的语音识别是从1952年贝尔实验室的Davis等人研制的特定说话人孤立数字识别系统开始的。 20世纪60年代,日本的很多研究者开发了相关的特殊硬件来进行语音识别RCA实验室的Martin等人为解决语音信号时间尺度不统一的问题,开发了一系列的时问归正方法,明显地改善了识别性能。与此同时,苏联的Vmtsyuk提出了采用动态规划方法解决两个语音的时闻对准问题,这是动态时间弯折算法DTW(dymmic time warping)的基础,也是其连续词识别算法的初级版.20世纪70年代,人工智能技术走入语音识别的研究中来.人们对语音识别的研究也取得了突破性进展.线性预测编码技术也被扩展应用到语音识别中,DTw也基本成熟。 20世纪80年代,语音识别研究的一个重要进展,就是识别算法从模式匹配技术转向基于统计模型的技术,更多地追求从整体统计的角度来建立最佳的语音识别系统。隐马尔可夫模型(hidden Markov model,删)技术就是其中一个典型技术。删的研究使大词汇量连续语音识别系统的开发成为可能。 20世纪90年代,人工神经网络(artificial neural network,ANN)也被应用到语音识别的研究中,并使相应的研究工作在模型的细化、参数的提取和优化以及系统的自适应技术等方面取得了一些关键性的进展,此时,语音识别技术进一步成熟,并走向实用。许多发达国家,如美国、日本、韩国,已经IBM、Microsoft、Apple、AT&T、Nrr等著名公司都为语音识别系统的实用化开发研究投以巨资。 当今,基于HMM和ANN相结合的方法得到了广泛的重视。而一些模式识别、机器学习方面的新技术也被应用到语音识别过程中,如支持向量机(support vector machine,SVM)技术、进化算法(evolutionary computation)技术等。

计算机图像识别技术的发展现状与展望

计算机图像识别技术的发展现状与展望 摘要:计算机图像处理技术与国民经济发展有着密切的关系,在这一领域我们要力争赶上直至超过发达国家,在计算机图像处理技术的研发方面,必须随时掌握国际动态,才能把握好方向。 关键词:计算机图像识别 前言:人类在社会实践活动中,是通过身体各感觉器官来接受信息,感知世界的,其中80%左右的信息是通过视觉系统获取的,人眼将获得的图像送大脑处理后并据此作出反映。在已经进入信息时代的今天,如何快速有效地获得所需要的信息,将直接影响到人们的思维和决策。毫无疑问,通过图像是我们获得信息的重要途径,而对图像的处理技术先进与否将决定其价值,利用计算机进行图像处理可以使我们快速准确地获得所需信息。可喜的是,随着计算机技术的不断发展,图像处理技术已经发生了很大发展,让我们的生产生活进入了丰富多彩的时代,我国在计算机图像处理技术上还需要下很大的力气,才能赶上时代的步伐。本文将就计算机图像处理技术的发展历程及趋势作些探讨。 1 计算机图像处理 计算机图像处理是将图像信号转换成数字信号并利用计算机对其进行处理。由于计算机的处理速度及快,且数字信号具有失真小、易保存、易传输、抗干扰能力强等特点,因而计算机图像处理的应用十分广泛,包括航空、航海、航天、遥测技术、工业自动化检测、安全识别、娱乐等各大领域。 2 计算机图像处理技术的发展历程 二十世纪20年代 Bartlane电缆图片传输系统(纽约和伦敦之间海底电缆)传输一幅图片所需的时间由一周多减少到3个小时之内。50年代,在美国出现了以电子管计算机配合滚筒式、平板式绘图仪等仅具有输出功能的设备的图像处理。60年代至70年代,计算机图像处理技术得到了快速发展,计算机图像处理已经可以用来改善图像质量,或是从图像中获得有效信息,并且能对图像进行体积压缩,便于传输和保存。此时的计算机图像处理已经就用到了卫星遥感、医学等方面。1964年美国喷气推进实验室对航天探测器徘徊者7号发回的月球照片由计算机进行图像处理,成功地绘制出月球表面地图,为人类探索宇宙奥妙奠定

语音识别实验2

关于语音识别的研究 网络工程专业网络C071班贾鸿姗 076040 摘要:语音识别技术的广泛应用 1前言: 语音识别技术也被称为自动语音识别 (ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。语音识别是一门交叉学科。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。 早在计算机发明之前,自动语音识别的设想就已经被提上了议事日程,早期的声码器可被视作语音识别及合成的雏形。而1920年代生产的"Radio Rex"玩具狗可能是最早的语音识别器,当这只狗的名字被呼唤的时候,它能够从底座上弹出来。最早的基于电子计算机的语音识别系统是由AT&T 贝尔实验室开发的Audrey语音识别系统,它能够识别10个英文数字。其识别方法是跟踪语音中的共振峰。该系统得到了98%的正确率。。到1950年代末,伦敦学院(Colledge of London)的Denes 已经将语法概率加入语音识别中。 1960年代,人工神经网络被引入了语音识别。这一时代的两大突破是线性预测编码Linear Predictive Coding (LPC),及动态时间弯折Dynamic Time Warp技术。 语音识别技术的最重大突破是隐含马尔科夫模型Hidden Markov Model的应用。从Baum提出相关数学推理,经过Labiner等人的研究,卡内基梅隆大学的李开复最终实现了第一个基于隐马尔科夫模型的大词汇量语音识别系统Sphinx。。此后严格来说语音识别技术并没有脱离HMM框架。 尽管多年来研究人员一直尝试将“听写机”推广,语音识别技术在目前还无法支持无限领域,无限说话人的听写机应用。 2 正文 2.1应用领域 2.1.1.电话通信的语音拨号 特别是在中、高档移动电话上,现已普遍的具有语音拨号的功能。随着语音识别芯片的价格降低,普通电话上也将具备语音拨号的功能。 2.1.2.汽车的语音控制 由于在汽车的行驶过程中,驾驶员的手必须放在方向盘上,因此在汽车上拨打电话,需要使用具有语音拨号功能的免提电话通信方式。此外,对汽车的卫星导航定位系统(GPS)的操作,汽车空调、照明以及音响等设备的操作,同样也可以由语音来方便的控制。 工业控制及医疗领域。当操作人员的眼或手已经被占用的情况下,在增加控制操作时,最好的办法就是增加人与机器的语音交互界面。由语音对机器发出命令,机器用语音做出应答。 2.1.3数字助理 个人数字助理(Personal Digital Assistant,PDA)的语音交互界面。PDA的体积很小,人机界面一直是其应用和技术的瓶颈之一。由于在PDA上使用键盘非常不便,因此,现多采用手写体识别的方法输入和查询信息。但是,这种方法仍然让用户感到很不方便。现在业界一致认为,PDA的最佳人机交互界面是以语音作为传输介质的交互方法,并且已有少量应用。随着语音识别技术的提高,可以预见,在不久的将来,语音将成为PDA主要的人机交互界面。 智能玩具 通过语音识别技术,我们可以与智能娃娃对话,可以用语音对玩具发出命令,让其完成一些简单的任务,甚至可以制造具有语音锁功能的电子看门狗。智能玩具有很大的市场潜力,而其关键在

语音识别-科普性介绍

随机过程理论在语音识别中的应用 第一章语音识别总述 1.1语音识别技术简介 语音识别技术就是让机器通过识别和理解过程,把语音信号转变为相应的文本或命令的技术。在当下流行的即时通讯软件(如:微信、QQ等)里,语音识别技术得到了非常广泛的应用。当对方发来一段语音信息而自己不方便收听时便可以使用语音转化功能将语音信息转化成文字信息。此外,在许多输入法(如:讯飞输入法)中也可以使用语音输入功能。用户只需要对着麦克风说话,输入法便可以将语音转换为文字填入输入框,在方便用户的同时也提高了文字输入效率。 语音识别涉及的领域包括:数字信号处理、声学、语音学、计算机科学、心理学、人工智能等,是一门涵盖多个学科领域的交叉科学技术。 语音识别的技术原理是模式识别,其一般过程可以总结为:预处理、特征提取、基于语音模型库下的模式匹配、基于语言模型库下的语言处理、完成识别。 图1.0.1 语音识别过程 第二章预处理 声音的实质是波。在现如中得到广泛应用的音频文件格式(如:mp3等)都经过了压缩无法直接识别。语音识别所使用的音频文件格式必须是未经压缩处理的wav格式文件。下图是一个波形示例。

图2.0.2 语音波形示例 有了声波源文件输入便可以按照图2.1.1所示的各个步骤进行识别。 2.1静音切除 如图2.1.2所示,在得到的声波信号输入中需要实际处理的信号并不一定占满整个时域,会有静音和噪声的存在。因此,必须先对得到的输入信号进行一定的预处理,消去静音的部分并且滤除噪声的干扰才能对实际需要处理的有效语音进行识别。 噪声处理部分本文已在上文进行过讨论,这里不再赘述。去除静音需要用到V AD算法,本文对其做简单介绍。 2.1.1 V AD算法 V AD算法全称为V oice Activity Detection,又称语音边界检测。其可实现的功能有对语音信号进行打断、去除语音信号中的静音部分从而获取有效语音,还可以去除一部分噪声对后续语音识别过程造成的干扰。V AD主要是对输入语音信号的一些时域或频域特征判断其是否属于静音部分。本文只对这些参数做简要介绍,具体算法不属于本文重点因而不在此做细致讨论。 2.1.2时域参数 时域参数是通过对输入信号在时域上的特征参量进行区分。在信噪比较高的环境下使用时域参数进行区分效果显著。 1.相关性分析 通过对足够短的时间范围内的语音信号进行相关性检测可以初步判定该时间范围内的信号是否属于静音部分。在实际应用中,静音的部分实际上会混有各种各样的噪声,因此并非绝对意义上静音。噪声在各个时间范围内的相关性比较低,而人说话的语音相关性则比较强。因此,在高信噪比的条件下区分成功率很

开题报告

山东科技大学 本科毕业设计(论文)开题报告 题目基于yeelink和树莓派的智能家居管理系统设计 与实现 学院名称计算机科学与工程学院 专业班级网络工程2013级 学生姓名 * 学号 * 指导教师 * 填表时间:二0一七年三月二十日

填表说明 1.开题报告作为毕业设计(论文)答辩委员会对学生答辩资格审查的依据材料之一。 2.此报告应在指导教师指导下,由学生在毕业设计(论文)工作前期完成,经指导教师签署意见、相关系主任审查后生效。 3.学生应按照学校统一设计的电子文档标准格式,用A4纸打印。装订在左侧。 4.参考文献不少于8篇,其中应有适当的外文资料(一般不少于2篇)。 5.开题报告作为毕业设计(论文)资料,与毕业设计(论文)一同存档。

三、文献综述(国内外研究情况及其发展) 智能家居行业发展的潜力吸引众多资本加入,包括传统硬件企业、互联网企业、房地产家装企业纷纷抢滩智能家居市场。谷歌、苹果、微软、三星、华为、小米、魅族等众多科技公司入局,在其努力之下,全球智能家居行业前景看好。同时,移动通信技术的不断发展不断地给智能家居行业提供强而有力的技术支持,包括5G技术、蓝牙5、下一代wifi标准等都有明确的商业化时间表。越来越多的新技术涌现出来,与智能家居的融合将产生强大的合合力,如人工智能技术、语音识别技术、深度学习技术等,他们都不断发力智能家居行业,争取与智能家居技术深度融合。智能家居产品将会越来越普及,分类越来越细化,所涉及的产品种类会更多。远程控制会有一定的发展,但终究会被完整的智能家居系统所代替。智能家居市场的未来广阔,但智能家居平台市场大战也是必不可少的。 国外状况:自从世界上第一幢智能建筑1984年在美国出现后,美国、加拿大、欧洲、澳大利亚和东南亚等经济比较发达的国家先后提出了各种智能家居的方案。智能家居在美国、德国、新加坡、日本等国都有广泛应用。 国内状况:智能家居作为一个新生产业,处于一个导入期与成长期的临界点,市场消费观念还未形成,但随着智能家居市场推广普及的进一步落实,培育起消费者的使用习惯,智能家居市场的消费潜力必然是巨大的,产业前景光明。正因为如此,国内优秀的智能家居生产企业愈来愈重视对行业市场的研究,特别是对企业发展环境和客户需求趋势变化的深入研究,一大批国内优秀的智能家居品牌迅速崛起,逐渐成为智能家居产业中的翘楚!智能家居至今在中国已经历了近12年的发展,从人们最初的梦想,到今天真实的走进我们的生活,经历了一个艰难的过程。 智能家居最初的发展主要以灯光遥控控制、电器远程控制和电动窗帘控制为主,随着行业的发展,智能控制的功能越来越多,控制的对象不断扩展,控制的联动场景要求更高,其不断延伸到家庭安防报警、背景音乐、可视对讲、门禁指纹控制等领域,可以说智能家居几乎可以涵盖所有传统的弱电行业,市场发展前景诱人,因此和其产业相关的各路品牌不约而同加大力度争夺智能家居业务,市场渐成春秋争霸之势。

相关文档
最新文档