人工智能与语音识别

人工智能与语音识别
人工智能与语音识别

语音识别及其发展

本文简要介绍了语音识别技术的发展历史,所采用的关键技术以及所面临的困难与挑战,最后讨论了语音识别在通信等领域中的应用。

——机器能听懂人类的语言吗?我们能扔掉键盘、鼠标用自然语言操纵计算机吗?随着语音识别技术的发展,梦想正在变为现实。

——语音识别以语音为研究对象,它是语音信号处理的一个重要研究方向,是模式识别的一个分支,涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域,甚至还涉及到人的体态语言(如人在说话时的表情、手势等行为动作可帮助对方理解),其最终目标是实现人与机器进行自然语言通信。

——本文将简要介绍语音识别的发展历史,采用的关键技术,面临的困难与挑战以及广阔的应用前景。

1 语音识别的发展历史

——语音识别的研究工作大约开始于50年代,当时A T& T Bell实验室实现了第一个可识别十个英文数字的语音识别系统——Audry系统。

——60年代,计算机的应用推动了语音识别的发展。这时期的重要成果是提出了动态规划(DP)和线性预测分析技术(LP),其中后者较好地解决了语音信号产生模型的问题,对语音识别的发展产生了深远影响。

——70年代,语音识别领域取得了突破。在理论上,LP技术得到进一步发展,动态时间归正技术(DTW)基本成熟,特别是提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。在实践上,实现了基于线性预测倒谱和DTW技术的特定人孤立语音识别系统。

——80年代,语音识别研究进一步走向深入,其显著特征是HMM模型和人工神经元网络(ANN)在语音识别中的成功应用。HMM模型的广泛应用应归功于A T&T Bell实验室Rabiner等科学家的努力,他们把原本艰涩的HMM纯数学模型工程化,从而为更多研究者了解和认识。ANN和HMM模型建立的语音识别系统,性能相当。

——进入90年代,随着多媒体时代的来临,迫切要求语音识别系统从实验室走向实用。许多发达国家如美国、日本、韩国以及IBM、Apple、A T&T、NTT等著名公司都为语音识别系统的实用化开发研究投以巨资。

——我国语音识别研究工作一直紧跟国际水平,国家也很重视,并把大词汇量语音识别的研究列入“863”计划,由中科院声学所、自动化所及北京大学等单位研究开发。鉴于中国未来庞大的市场,国外也非常重视汉语语音识别的研究。美国、新加坡等地聚集了一批来自大陆、台湾、香港等地的学者,研究成果已达到相当高水平。因此,国内除了要加强理论研究外,更要加快从实验室演示系统到商品的转化。

2 语音识别技术

——首先介绍一下语音识别系统的分类方式及依据。

——●根据对说话人说话方式的要求,可以分为孤立字(词)语音识别系统,连接字语音识别系统以及连续语音识别系统。

——●根据对说话人的依赖程度可以分为特定人和非特定人语音识别系统。

——●根据词汇量大小,可以分为小词汇量、中等词汇量、大词汇量以及无限词汇量语音识别系统。

——不同的语音识别系统,虽然具体实现细节有所不同,但所采用的基本技术相似,一个典型语音识别系统的实现过程如图1所示。

——语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。此外,还涉及到语音识别单元的选取。

——(1)语音识别单元的选取

——选择识别单元是语音识别研究的第一步。语音识别单元有单词(句)、音节和音素三种,具体选择哪一种,由具体的研究任务决定。

——单词(白)单元广泛应用于中小词汇语音识别系统,但不适合大词汇系统,原因在于模型库太庞大,训练模型任务繁重,模型匹配算法复杂,难以满足实时性要求。

——音节单元多见于汉语语音识别,主要因为汉语是单音节结构的语言,而英语是多音节,并且汉语虽然有大约1300个音节,但若不考虑声调,约有408个无调音节,数量相对较少。因此,对于中、大词汇量汉语语音识别系统来说,以音节为识别单元基本是可行的。

——音素单元以前多见于英语语音识别的研究中,但目前中、大词汇量汉语语音识别系统也在越来越多地采用。原因在于汉语音节仅由声母(包括零声母有22个)和韵母(共有28个)构成,且声韵母声学特性相差很大。实际应用中常把声母依后续韵母的不同而构成细化声母,这样虽然增加了模型数目,但提高了易混淆音节的区分能力。由于协同发音的影响,音素单元不稳定,所以如何获得稳定的音素单元,还有待研究。

——(2)特征参数提取技术

——语音信号中含有丰富的信息,但如何从中提取出对语音识别有用的信息呢?特征提取就是完成这项工作,它对语音信号进行分析处理,去除对语音识别无关紧要的冗余信息,获得影响语音识别的重要信息。对于非特定人语音识别来讲,希望特征参数尽可能多的反映语义

信息,尽量减少说话人的个人信息(对特定人语音识别来讲,则相反)。从信息论角度讲,这是信息压缩的过程。

——线性预测(LP)分析技术是目前应用广泛的特征参数提取技术,许多成功的应用系统都采用基于LP技术提取的倒谱参数。但线性预测模型是纯数学模型,没有考虑人类听觉系统对语音的处理特点。

——Mel参数和基于感知线性预测(PLP)分析提取的感知线性预测倒谱,在一定程度上模拟了人耳对语音的处理特点,应用了人耳听觉感知方面的一些研究成果。实验证明,采用这种技术,语音识别系统的性能有一定提高。

——也有研究者尝试把小波分析技术应用于特征提取,但目前性能难以与上述技术相比,有待进一步研究。

——(3)模式匹配及模型训练技术

——模型训练是指按照一定的准则,从大量已知模式中获取表征该模式本质特征的模型参数,而模式匹配则是根据一定准则,使未知模式与模型库中的某一个模型获得最佳匹配。

——语音识别所应用的模式匹配和模型训练技术主要有动态时间归正技术(DTW)、隐马尔可夫模型(HMM)和人工神经元网络(ANN)。

——DTW是较早的一种模式匹配和模型训练技术,它应用动态规划方法成功解决了语音信号特征参数序列比较时时长不等的难题,在孤立词语音识别中获得了良好性能。但因其不适合连续语音大词汇量语音识别系统,目前已被HMM模型和ANN替代。

——HMM模型是语音信号时变特征的有参表示法。它由相互关联的两个随机过程共同描述信号的统计特性,其中一个是隐蔽的(不可观测的)具有有限状态的Markor链,另一个是与Markor链的每一状态相关联的观察矢量的随机过程(可观测的)。隐蔽Markor链的特征要靠可观测到的信号特征揭示。这样,语音等时变信号某一段的特征就由对应状态观察符号的随机过程描述,而信号随时间的变化由隐蔽Markor链的转移概率描述。模型参数包括HMM拓扑结构、状态转移概率及描述观察符号统计特性的一组随机函数。按照随机函数的特点,HMM模型可分为离散隐马尔可夫模型(采用离散概率密度函数,简称DHMM)和连续隐马尔可夫模型(采用连续概率密度函数,简称CHMM)以及半连续隐马尔可夫模型(SCHMM,集DHMM和CHMM特点)。一般来讲,在训练数据足够的,CHMM优于DHMM 和SCHMM。

——HMM模型的训练和识别都已研究出有效的算法,并不断被完善,以增强HMM模型的鲁棒性。

——人工神经元网络在语音识别中的应用是现在研究的又一热点。ANN本质上是一个自适应非线性动力学系统,模拟了人类神经元活动的原理,具有自学、联想、对比、推理和概括能力。这些能力是HMM模型不具备的,但ANN又不个有HMM模型的动态时间归正性能。因此,现在已有人研究如何把二者的优点有机结合起来,从而提高整个模型的鲁棒性。

3 语音识别的困难与对策

——目前,研究工作进展缓慢,主要表现在理论上一直没有突破。虽然各种新的修正方法不断涌现,但其普遍适用性都值得商榷。

——具体来讲,困难主要表现在:

——●语音识别系统的适应性差,主要体现在对环境依赖性强,即在某种环境下采集到的语音训练系统只能在这种环境下应用,否则系统性能将急剧下降;另外一个问题是对用户的错误输入不能正确响应,使用不方便。

——●高噪声环境下语音识别进展困难,因为此时人的发音变化很大,像声音变高,语速变慢,音调及共振峰变化等等,这就是所谓Lombard效应,必须寻找新的信号分析处理方法。

——●语言学、生理学、心理学方面的研究成果已有不少,但如何把这些知识量化、建模并用于语音识别,还需研究。而语言模型、语法及词法模型在中、大词汇量连续语音识别中是非常重要的。

——●我们对人类的听觉理解、知识积累和学习机制以及大脑神经系统的控制机理等分面的认识还很不清楚;其次,把这方面的现有成果用于语音识别,还有一个艰难的过程。

——●语音识别系统从实验室演示系统到商品的转化过程中还有许多具体问题需要解决,识别速度、拒识问题以及关键词(句)检测技术(即从连续语音中去除诸如“啊”、“唉”等语音,获得真正待识别的语音部分)等等技术细节要解决。

——为了解决这些问题,研究人员提出了各种各样的方法,如自适应训练,基于最大互信息准则(MMI)和最小区别信息准则(MDI)的区别训练和“矫正”训练;应用人耳对语音信号的处理特点,分析提取特征参数,应用人工神经元网络……所有这些努力都取得了一定成绩。

——不过,如果要使语音识别系统性能有大的提高,就要综合应用语言学、心理学、生理学以及信号处理等各门学科有关知识,只用其中一种是不行的。

4 语音识别的应用

——目前世界各国都加快了语音识别应用系统的研究开发,并已有一些实用的语音识别系统投入商业运营。在美国语音识别系统的销售额逐年上升,由于使用了语音识别系统,为企业赢得了巨额收入。

——比较典型而成功的语音识别系统有A T&T于1992年开发的VRCP系统。该系统是有五个单词(collect,person,third number,operator和calling card)的非特定人小词汇量语音识别系统,现已应用于A T&T通信网上,可以实现自动话务员协助式呼叫,代替话务员完成五种呼叫类型,即

——●collect call——受话人付费电话,命令字col1ect

——●person-person-call——定人呼叫,命令字person

——●third-party-billing-call——第三方付费电话,命令字third number

——●operator-assisted call——话务员协助呼叫,命令字operator

——●credit card call——信用卡呼叫,命令字calling card

——为使用户使用方便,系统配有语音提示告诉用户如何使用。该系统所具有的关键词检测技术可从句子中查找到五个命令字中的一个,从而使用户在讲话时更加自然,如可以讲“collect call please”,整个系统的正确识别率超过99%。

——此外,已经实用的系统还有A T &T 800语音识别服务系统,NTT ANSER语音识别银行服务系统,Northen Telecom股票价格行情系统,使得原本手工操作的工作用语音就可方便地完成。

——从语音识别技术的发展可以看出,科学技术推动了社会发展,满足人们的需求,社会需求也反过来推动科学技术发展。多媒体时代的来临,迫切要求解决自动语音识别的难题,必然推动语音识别理论和应用研究的进展。估计在本世纪最后几年至二十一世纪初,语音识别技术将会在理论上和应用上都取得突破性进展。到那时,我们将体会到语音识别带来的种种便利。

人工智能车牌识别

车牌自动识别 近年来,随着物联网、车联网的迅猛发展,以及中国汽车数量的不断增加,这对智能交通系统提出了新的要求。作为智能交通系统一部分的集成信号处理、计算机视觉、模式识别等技术的车牌识别系统因而也有了新的应用和挑战。除传统的用于高速公路超速违章管理、停车场管理、车辆流量管理以及车辆电子收费系统外,车牌识别系统还可以用于移动机器人对停车场车辆的监管以及交通管理部门对违章车辆车牌的自动登记等。 一、车牌自动识别系统的技术说明 车牌自动识别系统采用车牌识别技术来实现技术效果的。车牌识别技术(Vehicle License Plate Recognition,VLPR) 是指能够检测到受监控路面的车辆并自动提取车辆牌照信息(含汉字字符、英文字母、阿拉伯数字及号牌颜色)进行处理的技术。车牌识别是现代智能交通系统中的重要组成部分之一,应用十分广泛。它以数字图像处理、模式识别、计算机视觉等技术为基础,对摄像机所拍摄的车辆图像或者视频序列进行分析,得到每一辆汽车唯一的车牌号码,从而完成识别过程。通过一些后续处理手段可以实现停车场收费管理,交通流量控制指标测量,车辆定位,汽车防盗,高速公路超速自动化监管、闯红灯电子警察、公路收费站等等功能。对于维护交通安全和城市治安,防止交通堵塞,实现交通自动化管理有着现实的意义。 车牌识别技术结合电子不停车收费系统(ETC)识别车辆,过往车辆通过道口时无须停车,即能够实现车辆身份自动识别、自动收费。在车场管理中,为提高出入口车辆通行效率,车牌识别针对无需收停车费的车辆(如月卡车、内部免费通行车辆),建设无人值守的快速通道,免取卡、不停车的出入体验,正改变出入停车场的管理模式。

浅析人工智能中的图像识别技术

浅析人工智能中的图像识别技术 本文从网络收集而来,上传到平台为了帮到更多的人,如果您需要使用本文档,请点击下载按钮下载本文档(有偿下载),另外祝您生活愉快,工作顺利,万事如意! 图像识别技术是信息时代的一门重要的技术,其产生目的是为了让计算机代替人类去处理大量的物理信息。随着计算机技术的发展,人类对图像识别技术的认识越来越深刻。图像识别技术的过程分为信息的获取、预处理、特征抽取和选择、分类器设计和分类决策。文章简单分析了图像识别技术的引入、其技术原理以及模式识别等,之后介绍了神经网络的图像识别技术和非线性降维的图像识别技术及图像识别技术的应用。从中可以总结出图像处理技术的应用广泛,人类的生活将无法离开图像识别技术,研究图像识别技术具有重大意义。 1 图像识别技术的引入 图像识别是人工智能科技的一个重要领域。图像识别的发展经历了三个阶段:文字识别、数字图像处理与识别、物体识别。图像识别,顾名思义,就是对图像做出各种处理、分析,最终识别我们所要研究的

目标。今天所指的图像识别并不仅仅是用人类的肉眼,而是借助计算机技术进行识别。虽然人类的识别能力很强大,但是对于高速发展的社会,人类自身识别能力已经满足不了我们的需求,于是就产生了基于计算机的图像识别技术。这就像人类研究生物细胞,完全靠肉眼观察细胞是不现实的,这样自然就产生了显微镜等用于精确观测的仪器。通常一个领域有固有技术无法解决的需求时,就会产生相应的新技术。图像识别技术也是如此,此技术的产生就是为了让计算机代替人类去处理大量的物理信息,解决人类无法识别或者识别率特别低的信息。 图像识别技术原理 其实,图像识别技术背后的原理并不是很难,只是其要处理的信息比较繁琐。计算机的任何处理技术都不是凭空产生的,它都是学者们从生活实践中得到启发而利用程序将其模拟实现的。计算机的图像识别技术和人类的图像识别在原理上并没有本质的区别,只是机器缺少人类在感觉与视觉差上的影响罢了。人类的图像识别也不单单是凭借整个图像存储在脑海中的记忆来识别的,我们识别图像都是依靠图像所具有

人工智能与语言识别

人工智能与语言识别 摘要:语言是人类之间交流信息的主要手段之一,自电脑发明以来,人们就一直致力于使电脑能够理解自然语言。语音识别技术是集声学、语音学、语言学、计算机、信息处理和人工智能等诸领域的一项综合技术,应用需求十分广阔,长期以来一直是人们研究的热点。神经网络是在现代科学研究成果的基础上提出来的模拟人脑结构机制的一门新兴科学。本文针时语音识别的特点,对BP神经网络在语音识别技术中的应用进行了探索性研究,进而结合人工智能领域较为有效的方法——遗传(GA)算法。该算法有效地缩短了识别时问,提高了网络训练速度和语音的识别率。 关键词:语言识别;神经网络;遗传算法;BP网络 Artificial Intelligence and Speech Recognition Abstract:Language is one of the most important means of exchanging information among the mankind.Since the computer was invented,many scientists have been devoted to enabling the computer to understand the natural language.Speech recognition is a comprehensive technology of such areas as acoustics,phonetics,linguistics,computer science,information processing and artificial intelligence,which can be used widely.The research of speech recognition technology has been focused by the world for a long time.The neural network is a new developing science,which simulates the mechanism of human brain and was putted forward by the developing of modern science. This paper mainly studies the application of the BP neural network in the research of speech recognition.The training speed can be accelerated by the method and the recognition performance is also promoted. Key words:speech recognition;neural network;genetic algorithm;BP network 正文 一、语言识别的概述 随着计算机技术的发展,人与机器之间的交流也越来越广泛和深入,计算机己经渗透到人们生活的各个方面。在现代社会中,人们逐渐习惯借助计算机来完成各项事务。在这种情况下,如何让计算机智能化地与人进行通信,使人机交互更加自然方便成为现代计算机科学的重要研究课题之一。 二、语言识别的基本原理 语音识别(Speech Recognition)主要是指让机器听懂人说的话,即在各种情况下,准确地识别出语音的内容,从而根据其信息,执行人的各种意图。现代语音识别技术以神经网络为主要发展趋势,进入20世纪90年代以来,神经网络已经成为语音识别的一条重要途径。人工神经网络(ANN)是采用大量的简单处理单元广泛连接起来构成的一种复杂信息处理网络。网络的训练学习是应用一系列输入矢量,通过已确定的算法逐步调整网络的权值,最终达到期望的目标。BP神经网络是神经网络中前向神经网络的核心部分,BP算法的学习过程由信号的正向传播和误差的反向传播组成。大部分基于神经网络的语音识别系统实现识别功能都要经过从特征参数提取到应用识别算法进行识别的过程。 三、语音识别中的BP网络构造

人工智能与模式识别

人工智能与模式识别 摘要:信息技术的飞速发展使得人工智能的应用围变得越来越广,而模式识别作为其中的一个重要方面,一直是人工智能研究的重要方向。在介绍人工智能和模式识别的相关知识的同时,对人工智能在模式识别中的应用进行了一定的论述。模式识别是人类的一项基本智能,着20世纪40年代计算机的出现以及50年代人工智能的兴起,模式识别技术有了长足的发展。模式识别与统计学、心理学、语言学、计算机科学、生物学、控制论等都有关系。它与人工智能、图像处理的研究有交叉关系。模式识别的发展潜力巨大。 关键词:模式识别;数字识别;人脸识别中图分类号; Abstract: The rapid development of information technology makes the application of artificial intelligence become more and more widely. Pattern recognition, as one of the important aspects, has always been an important direction of artificial intelligence research. In the introduction of artificial intelligence and pattern recognition related knowledge at the same time, artificial intelligence in pattern recognition applications were discussed.Pattern recognition is a basic human intelligence, the emergence of the 20th century, 40 years of computer and the rise of artificial intelligence in the 1950s, pattern recognition technology has made great progress. Pattern recognition and statistics, psychology,

(人工智能)关于图像识别与人工智能的就业情况

(人工智能)关于图像识别与人工智能的就业情况

关于图像识别和人工智能的就业情况(2008-10-0216:06:10) 最近遇到壹些朋友问我考研方向,我告诉他们叫图像识别和人工智能。主要是图形图像处理这个领域。他们又问这个方向将来主要从事什么职业,进入什么样的公司?呀!这个我仍真没怎么关注,所以就上网查了查,来了解壹下。下面是转载的壹篇文章: 就我见来,个人觉得图像处理的就业仍是不错的。首先能够把图像见成二维、三维或者更高维的信号,从这个意义上来说,图像处理是整个信号处理里面就业形势最好的,因为你不仅要掌握(壹维)信号处理的基本知识,也要掌握图像处理(二维或者高维信号处理)的知识。其次,图像处理是计算机视觉和视频处理的基础,掌握好了图像处理的基本知识,就业时就能够向这些方向发展。目前的模式识别,大部分也均是图像模式识别。于实际应用场合,采集的信息很多均是图像信息,比如指纹、条码、人脸、虹膜、车辆等等。说到应用场合,千万不能忘了医学图像这壹块,如果有医学图像处理的背景,去壹些医疗器械公司或者医疗软件公司也是不错的选择。图像处理对编程的要求比较高,如果编程很厉害,当然就业也多了壹个选择方向,且不壹定要局限于图像方向。 下面谈谈我所知道的壹些公司信息,不全,仅仅是我所了解到的或者我所感兴趣的,实际远远不止这么多。 搜索方向 基于内容的图像或视频搜索是很多搜索公司研究的热点。要想进入这个领域,必须有很强的编程能力,很好的图像处理和模式识别的背景。要求高待遇自然就不错,目前这方面的代表公司有微软、google、yahoo和百度,个个鼎鼎大名。

医学图像方向 目前于医疗器械方向主要是几个大企业于竞争,来头均不小,其中包括Simens、GE、飞利浦和柯达,主要生产CT和MRI等医疗器材。由于医疗器械的主要功能是成像,必然涉及到对图像的处理,做图像处理的很有机会进入这些公司。它们于国内均设有研发中心,simens的于上海和深圳,GE和柯达均于上海,飞利浦的于沈阳。由于医疗市场是壹个没有完全开发的市场,而壹套医疗设备的价格是非常昂贵的,所以于这些地方的待遇均仍能够,前景也见好。国内也有壹些这样的企业比如深圳安科和迈瑞 计算机视觉和模式识别方向 我没去调研过有哪些公司于做,但肯定不少,比如指纹识别、人脸识别、虹膜识别。仍有壹个很大的方向是车牌识别,这个我倒是知道有壹个公司高德威智能交通似乎做的很不错的样子。目前视频监控是壹个热点问题,做跟踪和识别的能够于这个方向找到壹席之地。 上海法视特位于上海张江高科技园区,于视觉和识别方面做的不错。北京的我也知道俩个公司:大恒和凌云,均是以图像作为研发的主体。 视频方向 壹般的高校或者研究所侧重于标准的制定和修改以及技术创新方面,而公司则侧重于编码解码的硬件实现方面。壹般这些公司要求是熟悉或者精通MPEG、H.264或者AVS,选择了这个方向,只要做的仍不错,基本就不愁饭碗。由于这不是我所感兴趣的方向,所以这方面的公司的信息我没有收集,但平常于各个bbs或者各种招聘网站经常见到。 我所知道的俩个公司:诺基亚和pixelworks

人工智能论文 语音识别

信息学院 《人工智能及其应用》课程论文题目:基于神经网络的语音信号识别 作者黄超班级自动08-1BF班 系别信息学院专业自动化 完成时间 2011.6.12

基于神经网络的语音信号识别 摘要 语言是人类之间交流信息的主要手段之一,自电脑发明以来,人们就一直致力于使电 脑能够理解自然语言。语音识别技术是集声学、语音学、语言学、计算机、信息处理和人工 智能等诸领域的一项综合技术,应用需求十分广阔,长期以来一直是人们研究的热点。 神经网络是在现代科学研究成果的基础上提出来的模拟人脑结构机制的一门新兴科 学,它模拟了人类神经元活动的原理,具有自学习、联想、对比、推理和概括能力,为很好 地解决语音识别这样一个复杂的模式分类问题提供了新的途径。 本文针时语音识别的特点.对BP神经网络在语音识别技术中的应用进行了探索性研究, 进而结合人工智能领域较为有效的方法——遗传(GA)算法。针对传统BP算法识别准确率高 但训练速度慢的缺点,对BP网络进行改进,构建了一种基于遗传神经网络的语音识别算法(GABP),并建立相应的语音识别系统。仿真实验表明,该算法有效地缩短了识别时问,提 高了网络训练速度和语音的识别率。 关键词:语音识别,神经网络,遗传算法,遗传神经网络,BP网络 THE RSREARCH OF SPEECH RECOGNITION BASED ON THE NEURAL NETWORK ABSTRACT Language is one of the most important means of exchanging information among the mankind.Since the computer was invented,many scientists have been devoted to enabling the computer to understand the natural language.Speech recognition is a comprehensive technology of such areas as acoustics,phonetics,linguistics,computer science,information processing and artificial intelligence,which can be used widely.The research of speech recognition technology has been focused by the world for a long time.The neural network is a new developing science,which simulates the mechanism of human brain and was putted forward by the developing of modern science.It is not the overall description of human brain,but the abstract,simulation and simplifying of the physical neural networks of human beings. The purpose of the research in this area is exploring the human brain mechanisms in information processing,storing and searching.If people can understand these mechanisms,a new way for the research of artificial intelligence,information processing and etc.

图像识别与人工智能研究所发展规划报告

图像所学科建设与发展规划 根据学校建设世界知名高水平大学的发展目标,特制定图像所相应的学科建设与发展规划,以推动本学科的跨越式发展。 一、学科建设总体目标 (一)学科基础 图像识别与人工智能研究所(简称图像所)将继续以跻身于我国的国防科技的发展为切入点,从事发展巡航导弹中制导、末制导关键技术,承担相关预先研究和攻关科研任务为学科建设的主攻方向。 (1)目前本学科点共有五个研究方向: “计算机视觉与应用”、 “成像自动目标识别与精确制导技术”、 “多谱成像与遥感图像处理”、 “人工智能与思维科学” “面向模式识别的专用处理机与IC芯片设计”。 (2)本学科点现有科研人员26人,其中教授(含博士生导师)7人,副教授7人。科研教学梯队层次高,年龄、专业结构合理。现有教学科研用房4000 平方米。实验设备固定资产5000余万元,已初步形成先进、配套的教学、科研、开发环境和雄厚的技术储备。 (3)学科特点 模式识别与智能系统是信息科学技术领域中发展最迅速的前沿领域之一。

来自不同成像传感器的不同谱段的图像信号能全面揭示客观世界的各种特性,智能控制是人工智能与自动控制相结合的现代控制理论和技术,图像模式处理、识别与智能控制的结合构成了智能信息系统和智能自动化系统发展的基础,不仅科学意义深远而且有十分广阔的应用前景。本学科点的主要特色是紧密结合航天、航空和信息技术领域的国家目标,进行应用基础和应用技术的研究和开发,重点研究多谱段图像模式信息的获取、表示、处理、分析与智能系统领域的基础理论与关键技术,同时培养和造就本领域高层次、高质量的科技人才。本学科点具有特色和优势的研究方向是: ·计算机视觉与应用 在基于信息融合的信号处理、基于视觉、力觉和超声波接近觉的多传感器机器人系统和飞行器三维航迹规划技术方面具有特色,承担了国家重大型号XY-20末制导航迹规划攻关项目并进入型号研制。 ·成像自动目标识别与精确制导技术 开展面向复杂背景和随机环境下成像自动目标检测、识别、跟踪的新理论、新方法、新算法和新系统的研究,其特色是瞄准有关国家安全的国家目标,紧密结合航天航空高技术发展,在基于图象和图象序列的自动目标识别,景象匹配定位等精确制导领域开展应用基础和高技术的研究,并将一系列高水平成果应用于国防高技术武器系统中。 ·多谱成像与遥感图像处理 研究微波辐射特性及成像技术、激光雷达成像信号处理和遥感图像处理与

2020年公需课程-人工智能技术与应用(一骨骼识别、二人脸识别、三步态识别、四虹膜识别、五语音识别)

人工智能技术与应用(练习一:骨骼识别) 1、(单选,10分)单人骨骼识别不需要包含如下处理过程() A 、关键点区分 B 、关键点检测 C 、关键点串联 D 、结果输出 答案:A 2、(单选,10分)以下哪项不属于目前常用的人体骨架关键点的定义方式() A 、18 个关键点 B 、14 个关键点 C、25 个关键点 D、7 个关键点 答案:D 3、(单选,10分) 以下哪种环境/ 条件有助于提升人体骨骼识别的准确率() A 、肢体遮挡 B 、光照良好 C 、观察视角变化 D 、衣服包裹严实 答案:B 4、(单选,10分)人体骨骼识别与哪项技术的关联程度最低() A 、区块链技术 B 、视频采集技术 C 、图像处理技术 D 、人工智能相关技术 答案:A 5、(单选,10分)以下哪项不是骨骼识别系统包含的功能() A 、图像采集 B 、图像预处理 C 、图像模糊化 D 、骨骼关键点识别 答案:C 6、(单选,10分)以下哪项不属于造成多人骨骼识别较单人骨骼识别更具挑战的因素() A 、关键点区分性弱 B 、背景中的局部区域容易混淆 C 、人与人的重叠 D 、需串联的关键点个数增多 答案:D

7、(单选,10分)当前的骨骼识别技术不适用于以下哪个应用场景() A 、身份认证 B 、视频监控 C 、体感游戏 D 、运动员辅助训练答案:A 8、(单选,10分) 8. 以下哪家公司不属于人体骨骼识别领域的代表企业() A 、商汤科技 B 、旷视科技 C 、携程旅行网络科技 D 、凌感科技 答案:C 9、(单选,10分)人的头颈、肩部、手肘关节、手腕关节、髋关节、膝关节等可作为人体骨骼关键点。 A 、正确 B 、错误 答案:A 10、(单选,10 分)在自顶向下方法中,人体目标检测需要用方框标记出一块尽可能大的区域。 A 、正确 B 、错误 答案:B 人工智能技术与应用(练习二:人脸识别) 1、(单选,10分) 以下哪项不是人脸识别系统包含的功能() A 、图像采集 B 、图像预处理 C 、图像模糊化 D 、匹配比对 答案:C 2、(单选,10分) 未来人脸识别的个人隐私防护不包含() A 、随意授权自己的人脸信息 B 、立法保障“脸权” C 、规范化人脸数据的使用方法 D 、打击隐私泄露行为 答案:A 3、(单选,10分) 以下哪项不属于生物识别技术() A 、人脸识别 B 、车牌识别 C 、掌纹识别 D 、语音识别 答案:B

人工智能语音识别发展报告

人工智能语音识别发展报告Report of Artificial I ntelligence Development

目录 1.语音识别 (3) 1.1.语音识别概念 (3) 1.2.语音识别发展历史 (4) 1.3.人才概况 (6) 1.4.论文解读 (8) 1.5.语音识别进展 (173)

语音识别 1.语音识别 1.1.语音识别概念 语音识别是让机器识别和理解说话人语音信号内容的新兴学科,目的是将语 音信号转变为文本字符或者命令的智能技术,利用计算机理解讲话人的语义内容, 使其听懂人类的语音,从而判断说话人的意图,是一种非常自然和有效的人机交流方式。它是一门综合学科,与很多学科紧密相连,比如语言学、信号处理、计算机科学、心理和生理学等[8]。 语音识别首先要对采集的语音信号进行预处理,然后利用相关的语音信号处 理方法计算语音的声学参数,提取相应的特征参数,最后根据提取的特征参数进行 语音识别。总体上,语音识别包含两个阶段:第一个阶段是学习和训练,即提取语音 库中语音样本的特征参数作为训练数据,合理设置模型参数的初始值,对模型各个参 数进行重估,使识别系统具有最佳的识别效果;第二个阶段就是识别,将待识别语音信 号的特征根据一定的准则与训练好的模板库进行比较,最后通过一定的识别算法得出识 别结果。显然识别结果的好坏与模板库是否准确、模型参数的好坏以及特征参数的选择 都有直接的关系。 实际上,语音识别也是一种模式识别,其基本结构如下图所示。和一般模式 识别过程相同,语音识别包括如图所示3 个基本部分。实际上,由于语音信息的复 杂性以及语音内容的丰富性,语音识别系统要比模式识别系统复杂的多。 图 6-1 语音识别系统框架 其中,预处理主要是对输入语音信号进行预加重和分段加窗等处理,并滤除其 中的不重要信息及背景噪声等,然后进行端点检测,以确定有效的语音段。特征参数 提取是将反映信号特征的关键信息提取出来,以此降低维数减小计算量,

人工智能YOLO V2 图像识别实验报告

第一章前言部分 1.1课程项目背景与意义 1.1.1课程项目背景 视觉是各个应用领域,如制造业、检验、文档分析、医疗诊断,和军事等领域中各种智能/自主系统中不可分割的一部分。由于它的重要性,一些先进国家,例如美国把对计算机视觉的研究列为对经济和科学有广泛影响的科学和工程中的重大基本问题,即所谓的重大挑战。计算机视觉的挑战是要为计算机和机器人开发具有与人类水平相当的视觉能力。机器视觉需要图象信号,纹理和颜色建模,几何处理和推理,以及物体建模。一个有能力的视觉系统应该把所有这些处理都紧密地集成在一起。作为一门学科,计算机视觉开始于60年代初,但在计算机视觉的基本研究中的许多重要进展是在80年代取得的。计算机视觉与人类视觉密切相关,对人类视觉有一个正确的认识将对计算机视觉的研究非常有益。 计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。这里所指的信息指Shannon定义的,可以用来帮助做一个“决定”的信息。因为感知可以看作是从感官信号中提取信息,所以计算机视觉也可以看作是研究如何使人工系统从图像或多维数据中“感知”的科学。 科学技术的发展是推动人类社会进步的主要原因之一,未来社会进一步地朝着科技化、信息化、智能化的方向前进。在信息大爆炸的今天,充分利用这些信息将有助于社会的现代化建设,这其中图像信息是目前人们生活中最常见的信息。利用这些图像信息的一种重要方法就是图像目标定位识别技术。不管是视频监控领域还是虚拟现实技术等都对图像的识别有着极大的需求。一般的图像目标定位识别系统包括图像分割、目标关键特征提取、目标类别分类三个步骤。 深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。深度学习的概念由Hinton等人于2006年提出。基于深度置信网络提出非监督贪心逐层训练算法,为解决深层结构相关的优化难题带来希望,随后提出多层自动编码器深层结构。此外Lecun等人提出的卷积神经网络是第一个真正多层结构学习算法,它利用空间相对关系减少参数数目以提高训练性能。 深度学习是机器学习中的一个新的研究领域,通过深度学习的方法构建深度网络来抽取特征是目前目标和行为识别中得到关注的研究方向,引起更多计算机视觉领域研究者对深度学习进行探索和讨论,并推动了目标和行为识别的研究,推动了深度学习及其在目标和行为识别中的新进展。基于这个发展趋势,我们小组选择了基于回归方法的深度学习目标识别算法YOLO的研究。 1.1.2课程项目研究的意义 众所周知,当前是信息时代,信息的获得、加工、处理以及应用都有了飞跃

模式识别人工智能论文

浅谈人工智能与模式识别的应用 一、引言 随着计算机应用范围不断的拓宽,我们对于计算机具有更加有效的感知“能力”,诸如对声音、文字、图像、温度以及震动等外界信息,这样就可以依靠计算机来对人类的生存环境进行数字化改造。但是从一般的意义上来讲,当前的计算机都无法直接感知这些信息,而只能通过人在键盘、鼠标等外设上的操作才能感知外部信息。虽然摄像仪、图文扫描仪和话筒等相关设备已经部分的解决了非电信号的转换问题,但是仍然存在着识别技术不高,不能确保计算机真正的感知所采录的究竟是什么信息。这直接使得计算机对外部世界的感知能力低下,成为计算机应用发展的瓶颈。这时,能够提高计算机外部感知能力的学科——模式识别应运而生,并得到了快速的发展,同时也成为了未来电子信息产业发展的必然趋势。 人工智能中所提到的模式识别是指采用计算机来代替人类或者是帮助人类来感知外部信息,可以说是一种对人类感知能力的一种仿真模拟。近年来电子产品中也加入了诸多此类的功能:如手机中的指纹识别解锁功能;眼球识别解锁技术;手势拍照功能亦或是机场先进的人耳识别技术等等。这些功能看起来纷繁复杂,但如果需要一个概括的话,可以说这都是模式识别技术给现代生活带来的福分。它探讨的是计算机模式识别系统的建立,通过计算机系统来模拟人类感官对外界信息的识别和感知,从而将非电信号转化为计算机可以识别的电信号。

二、人工智能和模式识别 (一)人工智能。人工智能(Artificial Intelligence),是相对与人的自然智能而言的,它是指采用人工的方法及技术,对人工智能进行模仿、延伸及扩展,进而实现“机器思维”式的人工智能。简而言之,人工智能是一门研究具有智能行为的计算模型,其最终的目的在于建立一个具有感知、推理、学习和联想,甚至是决策能力的计算机系统,快速的解决一些需要专业人才能解决的问题。从本质上来讲,人工智能是一种对人类思维及信息处理过程的模拟和仿真。 (二)模式识别。模式识别,即通过计算机采用数学的知识和方法来研究模式的自动处理及判读,实现人工智能。在这里,我们将周围的环境及客体统统都称之为“模式”,即计算机需要对其周围所有的相关信息进行识别和感知,进而进行信息的处理。在人工智能开发,即智能机器开发过程中的一个关键环节,就是采用计算机来实现模式(包括文字、声音、人物和物体等)的自动识别,其在实现智能的过程中也给人类对自身智能的认识提供了一个途径。在模式识别的过程中,信息处理实际上是机器对周围环境及客体的识别过程,是对人参与智能识别的一个仿真。相对于人而言,光学信息及声学信息是两个重要的信息识别来源和方式,它同时也是人工智能机器在模式识别过程中的两个重要途径。在市场上具有代表性的产品有:光学字符识别系统以及语音识别系统等。 在这里的模式识别,我们可以将之理解成为:根据识别对象具有特征的观察值来将其进行分类的一个过程。采用计算机来进行模式识别,是在上世纪60年代初发展起来的一门新兴学科,但同样也是未来一段实践中发展的必然方向。在生活节奏相当之快的今天人们希望电子产品可以为我们的生活提供更多的便利条件。因此在未来相当一段时间内模式识别技术依然是发展的必然趋势。

关于人工智能中的图像识别技术的研究

191 关于人工智能中的图像识别技术的研究 翁和王 (武夷学院数学与计算机学院,福建武夷山354300) 摘要:图像识别技术作为在信息时代发展起来的一项信息技术,其主要是利用计算机对人工进行替代,实现对众多的物 理信息进行处理。计算机技术快速发展也推动了图像识别技术得以迅猛的发展。文章就图像识别的技术原理、模式识别进行图像识别技术概述,并对其识别过程进行一定的分析,重点对神经网络以及非线性降维两个形式的图像识别技术加以分析。以期对图像识别有关的研究人员与应用人士有所参考。关键词:人工智能;原理与过程;图像识别技术;非线性;神经网络中图分类号:TP18文献标识码:A 文章编号:1673-1131(2016)10-0191-02 0引言 图像识别技术作为人工智能内的重要领域之一,在计算机技术和信息技术快速发展的背景下,其也得到了愈发广泛的使用,其在医疗诊断、指纹识别、面部识别以及卫星云图识别等方面具有着很好的应用。图像识别技术通常是指利用计算机对系统前端捕获的图片根据既定的目标对其进行处理。图像识别在人们日常的生活中也得到普遍的应用,诸如条码识别、车牌捕捉以及手写识别等。随着其不断的发展与完善,其今后的应用领域也会更加的广泛。 1图像识别技术的概述1.1图像识别的技术原理 事实上,图像识别具有的原理并非很深奥,主要是图像识别所需处理的信息非常的复杂。计算机中的所有处理技术均不能随意出现,是众多学者通过实践获得的启示,通过程序使其得到模拟与实现。计算机实现图像识别所需的原理与人类进行图像识别所需的原理基本上是一致的,仅仅是计算机不存在人类视觉和感觉方面的影响。人类在进行图像识别过程中并非仅是利用这一图像存在于脑海内的记忆加以识别,而是通过图像自身拥有的特征对其进行相应的分类,之后利用各个类别拥有的特征使图片被识别出来。当我们看到图片时,大脑便会快速感知出以前见过这张或与之相类似的图片与否。事实上在看到和感知间已经实现了快速的识别,这一识别与搜索存在一定的相似性[1]。在识别过程中,大脑将会按照存储记忆内被分好类的图片展开识别,检查其是否和这一图像存在相同或者是类似特征记忆存储,便识别出以往时候看见过这一图片。计算机进行图像识别的原理也是这样,利用分类和提取出图像的重要特征,并对多余的无用特征加以有效地排除,以此实现对图像的识别。计算机所能提取出来的上述特征有时会较为明显,而有时也会非常的普通,这在极大程度上对计算机识别效率造成一定的影响。总而言之,利用计算机进行视觉识别时,图像中的内容一般是通过图像特征对其加以描述的[2]。 1.2模式识别 模式识别作为信息科学与人工智能中的重要组成,其通 常是对现象和事物处于不同形式中信息实现处理与分析,以便能够达到对现象与事物进行分类、描述以及辨认等目标。而计算机能够实现图像识别便是对人类进行图像识别时的一种模拟,在实现图像识别时,能够展开模式识别是不可或缺的。以往的模式识别仅仅是人类所掌握基本智能之一,伴随人工智能以及计算机技术得到兴起与发展,人类自身具有的识别 模式便无法再满足人类的生活需求,对此人们便需要利用计算机来对人类脑力劳动进行一定程度的替代与扩展。这也就产生了计算机形式的模式识别。简而言之,模式识别便是对数据实现分类,其是一门和数学有着密切联系的科学,其所运 用的大量思想便是数学中的统计和概率[3] 。可以将模式识别分成统计模糊模式、识别模式识别以及句法模式识别三类。 2图像识别技术的识别过程 由于计算机进行图像识别和人类进行图像识别所采用的是一样的原理,因此上述两种识别过程也会存在一定的相似性。可以将图像识别技术划分为如下几步:第一步,信息的获取,其是指利用传感器将声音和光等信息装换为电信号,简而言之便是获取识别对象具有的基本信息,同时将其装换成为计算机可以识别的信息。第二步,预处理,其是指对图像进行去噪、变换以及平滑等处理操作,以此来提升图像所具有的重要特点。第三步,特征抽取与选择,其是在模式识别过程中,要对图像进行特征的抽取与选择,简而言之便是识别的图像是多种多样的,若想通过一定的方式将其分离开,便要对图像中拥有的自身特征进行识别,在特征的获取时便称为特征抽取[4]。在进行特征抽取过程中,获取的特征并非一定对本次识别有所价值,此时便要对所获取的特征进行一定的提取,这便是特征选择。对于图像识别整个过程而言,特征抽取与选择时期中最为关键的步骤之一,因此,这一步使进行图像识别理解时的重点内容。第四步,分类器设计与分类决策,其中分类器设计即利用训练来制定出一个识别规则,借此识别规则便能够获得一个特征种类,从而让图像识别可以达到更高的辨识率。而分类决策则是对特征空间内的被识别对象实现分类的最佳识别方法。 3图像识别技术的研究分析 3.1神经网络形式的图像识别技术 神经网络形式的图像识别是目前较为新型的技术,其是基于以往的图像识别方式,并将神经网络算法进行有效的融合。这里所说的神经网络指的是人工神经网络,换句话说便是该神经网络并非是动物体所拥有的神经网络,而是人类根据动物神经网络进行人工模拟的一种神经网络。对于神经网络形式的图像识别技术而言,遗传算法和BP 神经网络进行有效的结合是目前基于神经网络形式的图像识别技术内最为经典的模型,其在诸多的领域之中均有所应用。对图像识别系统运用神经网络系统,通常先对图像特征进行提取,之后将图像特征向神经网络中加以映射,以此实现对图像的识别与分类。例如,对于智能汽车监控中拍照识别技术而言, 2016 (Sum.No 166) 信息通信 INFORMATION &COMMUNICATIONS 2016年第10期(总第166期)

语音识别技术文献综述

语音识别技术综述 The summarization of speech recognition 张永双 苏州大学 摘要 本文回顾了语音识别技术的发展历史,综述了语音识别系统的结构、分类及基本方法,分析了语音识别技术面临的问题及发展方向。 关键词:语音识别;特征;匹配 Abstact This article review the courses of speech recognition technology progress ,summarize the structure,classifications and basic methods of speech recognition system and analyze the direction and the issues which speech recognition technology development may confront with. Key words: speech recognition;character;matching 引言 语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门交叉学科,所涉及的领域有信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等,甚至还涉及到人的体态语言(如人民在说话时的表情手势等行为动作可帮助对方理解)。其应用领域也非常广,例如相对于键盘输入方法的语音输入系统、可用于工业控制的语音控制系统及服务领域的智能对话查询系统,在信息高度化的今天,语音识别技术及其应用已成为信息社会不可或缺的重要组成部分。 1.语音识别技术的发展历史 语音识别技术的研究开始二十世纪50年代。1952年,AT&Tbell实验室的Davis等人成功研制出了世界上第一个能识别十个英文数字发音的实验系统:Audry系统。

基于.人工智能算法的图像识别及生成

基于人工智能算法的图像识别与生成 摘要:本次报告的工作是利用PCA,SVM以及人工神经网络(ANN)实现对人脸的特征提取、分类和预测。然后利用GAN(生成对抗网络)实现对手写数字的生成,并用SVM 做预测,验证生成效果。 本次报告采用的数据源自剑桥大学的ORL 人脸数据库,其中包含40个人共400张人脸图像。 关键词:人工智能;图像识别;数据 中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2018)13-0173-02 1 PCA降维 PCA(principal components analysis)即主成分分析,又称主分量分析。旨在利用降维的思想,把多指标转化为少数几个综合指标。 首先我们给出了数据库的平均脸的图像,并利用PCA对人脸降维,通过改变降低到的维度研究了保留维度的多少带来的影响。最后给出了每一个维度的特征脸图像,讨论了每一个维度所能够代表的人脸信息。 1.1 平均脸 首先,我们将数据库中400张人脸按行存储到一个矩阵

中,即每一行为一张人脸(10304像素),每张人脸共10304维特征。我们对每一个维度去平均,构成一个新的行向量,这就是平均脸。 平均脸反映了数据库中400张人脸的平均特征,可以看清人脸的轮廓,但无法识别人脸的局部细节。 1.2 降低至不同维度时还原脸的情况 从左到右从上到下依次是同一张脸降低至10,30,50,100,200,250,300,350,400的图像。可以看到,随着保留维数的增多,图像越清晰,与原图的差异越小。 1.3 提取单一维度的特征做还原 为了研究不同维度所代表的人脸的信息,我们把PCA之后的每一个特征向量单独提取出来对人脸做还原,还原的时候不加入平均脸并且做直方图均衡化。 结果如下: 每一张图像下方的数字代表了PCA之后按特征值从大到小排序的顺序,比如第一张图代表PCA之后最大特征值所对应的特征向量还原出的人脸。 特征累积图的纵坐标代表了所保留的特征占总特征的 比例。它是这样计算出来的,假设保留k维信息,则纵坐标值为这k个特征值的和除以总的400(400*10304的矩阵,最多有400个非零特征值)个特征值的和。 从图4可以看出,当保留维数为100维时,即能保留人

语音识别方法及发展趋势分析

语音识别改进方法及难点分析 ——《模式识别》结课小论文 学院:化工与环境学院 学号:2120151177 姓名:杜妮

摘要:随着计算机技术的不断发展,人工智能程度也越来越高,作为人工智能的一部分——模式识别也在模型和算法上愈发成熟。本文根据近105年文献,分析最新声音识别的方法和应用。 关键字:模式识别声音识别方法应用 随着人工智能的迅速发展,语音识别的技术越来越成为国内外研究机构的焦点。人们致力于能使机器能够听懂人类的话语指令,并希望通过语音实现对机器的控制。语音识别的研究发展将在不远的将来极大地方便人们的生活。 语音识别大致的流程包括:特征提取、声学模型训练、语音模型训练以及识别搜索算法。作为一项人机交互的关键技术,语音识别在过去的几十年里取得了飞速的发展,人们在研究和探索过程中针对语音识别的各部流程进行了各种各样的尝试和改造,以期发现更好的方法来完成语音识别流程中的各步骤,以此来促进在不同环境下语音识别的效率和准确率。本文通过查阅近10年国内外文献,分析目前语音识别流程中的技术进展和趋势,并在文章最后给出几项语音识别在日常生活中的应用案例,从而分析语音识别之后的市场走势和实际利用价值。 一、语音识别的改进方法 (一)特征提取模块改进 特征提取就是从语音信号中提取出语音的特征序列。提取的语音特征应该能完全、准确地表达语音信号,特征提取的目的是提取语音信号中能代表语音特征的信息,减少语音识别时所要处理的数据量。语音信号的特征分析是语音信号处理的前提和基础,只有分析出可以代表语音信号本质特征的参数,才能对这些参数进行高效的语音通信,语音合成,和语音识别等处理,并且语音合成的好坏,语音识别率的高低,也都取决于语音特征提取的准确性和鲁棒性。目前,针对特定应用的中小词汇量、特定人的语音识别技术发展已较为成熟,已经能够满足通常应用的要求,并逐步投入了实用。而非特定人、大词汇量、连续语音识别仍是

人工智能 语音识别 论文

基于神经网络的语音信号识别 摘要 语言是人类之间交流信息的主要手段之一,自电脑发明以来,人们就一直致力于使电脑能够理解自然语言。语音识别技术是集声学、语音学、语言学、计算机、信息处理和人工智能等诸领域的一项综合技术,应用需求十分广阔,长期以来一直是人们研究的热点。神经网络是在现代科学研究成果的基础上提出来的模拟人脑结构机制的一门新兴科学,它模拟了人类神经元活动的原理,具有自学习、联想、对比、推理和概括能力,为很好地解决语音识别这样一个复杂的模式分类问题提供了新的途径。本文针时语音识别的特点.BP 神经网络在语音识别技术中的应用进行了探索性研究,对进而结合人工智能领域较为有效的方法——遗传(GA)算法。针对传统BP 算法识别准确率高但训练速度慢的缺点,对BP 网络进行改进,构建了一种基于遗传神经网络的语音识别算法(GABP),并建立相应的语音识别系统。仿真实验表明,该算法有效地缩短了识别时问,提高了网络训练速度和语音的识别率。关键词:语音识别,神经网络,遗传算法,遗传神经网络,BP 网络RECOGNITIO THE RSREARCH OF SPEECH RECOGNITION BASED ON THE NEURAL NETWORK ABSTRACT Language is one of the most important means of exchanging information among the mankind.Since the computer was invented,many scientists have been devoted to enabling the computer to understand the natural language.Speech recognition is a comprehensive technology of such areas as acoustics,phonetics,linguistics,computer science,information processing and artificial intelligence,which can be used widely.The research of speech recognition technology has been focused by the world for a long time.The neural network is a new developing science,which simulates the mechanism of human brain and was putted forward by the developing of modern science.is not the overall description of human brain,the abstract,It but simulation and simplifying of the physical neural networks of human beings. The purpose of the research in this area is exploring the human brain mechanisms in information processing,storing and searching.If people can understand these mechanisms,a new way for the research of artificial intelligence,information processing and etc. can be opened up. Artificial neural network is a system which using a physically feasible system to imitate the structure and function of nerve cells in human brain,which has the ability of self—learning,contrasting,reasoning and summarizing .It have offered a new way in solving such complicated pattern classification problems as speech recognition.This paper mainly studies the application of the BP neural network in the research of speech recognition. BP neural network can get higher identification precision, but its training speed is very low, a new recognizing algorithm based on BP algorithm by combining with good effect method in ANN which named genetic algorithm (GA) was proposed and used to improve the BP neural network. Experiments results show that the training speed can be accelerated by the method and the recognition performance is also promoted.words: Key words speech recognition, neural network, genetic algorithm, genetic neural network, BP network 1.绪论1.1 1.1 课题背景1.1.1 语音识别概述随着计算机技术的发展,人与机器之间的交流也越来越广泛和深入,计算机己经渗透到人们生活的各个方面。在现代社会中,人们逐渐习惯借助计算机来完成各项事务。在这种情况下,如何让计算机智能化地与人进行通信,使人机交互更加自然方便成为现代计算机科学的重要研究课题之一。语音识别(Speech Recognition)主要是指让机器听懂人说的话,即在各种情况下,准确地识别出语音的内容,从而根据其信息,执行人的各种意图。语音识别是一门涉及面很广的交叉学科,它是目前发展最为迅速的信息研究诸领域中的一个。语音识别的最大优势在于使得人机用户界面更加自然和容易使用。随着计算机技术、模式识别和信号处理技

相关文档
最新文档