搭建属于自己的机器翻译系统

搭建属于自己的机器翻译系统
搭建属于自己的机器翻译系统

搭建属于自己的机器翻译系统——MTI专业“技术小白”走进小牛翻译开源社区的心得

搭建属于自己的机器翻译系统

——MTI专业“技术小白”走进小牛翻译开源社区的心得首先,自我介绍一下。我是一个MTI(翻译硕士)专业、没有计算机编程背景、没有机器翻译理论基础的菜鸟,任职于一家网络科技公司的市场部门,之前的工作中需要做些翻译工作,有时候求助百度翻译、有道翻译等免费的机器翻译系统来解决问题,但是对于一些涉及我们商业机密的数据,由于担心泄密,只能借助于有道词典查查词,然后再自己形成翻译结果。很早之前我就想,要是能有自己的机器翻译系统就好了。

我心目中的翻译技术大牛、对外经贸大学的崔启亮老师曾在微博中给MTI的学生提建议,“学好翻译技术,有前途。对于仍在迷茫MTI的同学,我建议学机器翻译设计与开发,走出迷茫。”非常非常幸运的是,我一个东大毕业的同学告诉我,东北大学自然语言处理实验室(国内搞机器翻译最好的团队之一)联合沈阳雅译网络技术有限公司推出了“小牛翻译开源社区”,社区中有一项内容,就是教不懂机器翻译的人学习“快速搭建自己的机器翻译系统”。于是,我走进社区,按照社区里的相关说明,亲身体验了搭建过程。下面,我想谈谈这个被誉为“目前国内首个以机器翻译为核心的交流平台”的菜鸟级用户体验。

小牛翻译开源社区里提供了统计机器翻译开源系统的全部代码。我了解了一下,NiuTrans开源系统在国际上比较有名,据说是目前国际上能够支持统计机器翻译模型最全的两套统计机器翻译系统之一(另一套是爱丁堡大学的Moses)。这些内容对MT(机器翻译)的专业学者应该很有用吧,但是对于我这个非科班出身的人来说,其实会完全忽略这部分内容。我还是讲讲我在社区里的真正收获——快速搭建实用的机器翻译系统。

一、搭建过程详细说明

需要说明的是,我是在在网页指导与人工指导下才在自己的电脑(Windows7 64位系统,硬盘500G,内存8G)上成功搭建机器翻译系统的。解释一下为什么我不仅看了网页上操作指导,还需要人工指导。身为“技术小白”的我,虽然网页上的操作指导写的很规范,但是第一次接触这么“高大上”的东西,还是有点小紧张的。于是,我加入了小牛翻

译开源社区的QQ群(群号群主很热心的帮我讲解,在服务方面我的用户体验很好。下面我就与大家分享我如何一步步完成在自己电脑上搭建机器翻译系统的。

第一步,进入“小牛翻译开源社区”网站(),接着进入“搭建MT系统”界面。如图:

第二步,根据自己电脑的操作系统(Windows系统还是Linux系统),选择合

适的“NiuTrans Server工具包”(之所以叫NiuTrans Server,据说是因为这个工具包是针对单服务器的,或者说,这个工具包还不能用于搭建机器翻译云平台)。小牛翻译开源社区的群主告诉我,目前正式运行的机器翻译系统,都是在Linux操作系统下安装的,但Linux系统下没有图形界面,需要用户稍微懂一些代码。为了方便像我这样的用户,他们很贴心地研发出Windows系统下如何搭建机器翻译系统的方法(此处值得为他们点赞哦)。

第三步,点击“Windows版搭建教程,下载“NiuTrans Server工具包”。根据语言方向和电脑内存的大小,社区里提供了四个工具包。由于我的电脑内存总共只有8G,所以选择的是“中译英Windows4G版”。点击下载即可。

第四步,安装perl。我是在人工指导下完成的,一共需要四步操作才能完成。首先,点击上面网页中“运行环境准备”项中的“Perl下载地址”。如下图:

Step 1、进入“Perl-download”页面,点击“Windows”图标。

Step 2、点击页面中“DOWNLOAD ACTIVEPERL”,即页面上Windows下右面第一个图标。大家可以看一下左侧的英文说明,除了64位操作系统,32位操作系统也可以支持的。

Step 3、在新的页面中,点击“Download ActivePerl 5.22.1 forWindows (64-bit,x64)”(我的电脑是64位系统)。

Step 4、在新的页面中,会自动弹出一个下载框。经过以上操作就可以成功下载Perl。

第五步,做了以上准备工作后,接下来进入搭建步骤。搭建共分两步,

Step 2、启动机器翻译系统。点击上图文件夹中“service”文件夹,进入文件夹内,找到“(BAT脚本文件)”,双击该文件即实现启动机器翻译系统。如图:

第六步,搭建操作全部完成后,页面会出现下列提示即代表启动成功。下图是社区指导步骤中给的样图。其实操作者只要看最后一句“Server startup

in ?XXX ms”即可,代表专属于你的机器翻译系统已经搭建成功,此处特别提醒,该页面不可以关闭,要想运行机器翻译系统,要保持着该页面一直打开状态。

第七步,将该“:1517/niutrans/”网址粘贴到浏览器中,即可弹出如下图页面:

然后嘛,就可以开始使用机器翻译系统了!

以上就完成在自己电脑中搭建机器翻译系统的全过程。在“指导搭建机器翻译系统”页面中还介绍了很多小牛翻译系统的其他功能。如翻译API功能、利用自有数据训练翻译模型等,经过好一顿的研究,被社区群主告知这些功能都是为机器翻译专业人士准备的,不懂程序的人无法直接使用。特此提醒其他使用者,完成我上述七步操作,专属于你的机器翻译系统就搭建成功了,其他的小牛翻译系统各种功能就只能根据使用者自身的能力来选择使用了。

二、对小牛开源社区的建议

社区内搭建机器翻译系统的方法实现起来真的很便捷,但是对搭建过程中的某些技术指导表述不够清晰,建议以下部分应该有改进。

1)安装perl环节应该添加详细介绍。在上一部分我的搭建过程中,我详细了介绍了安装perl的步骤。安装perl的网页是全英文版,由于我是翻译硕士所以我读起来较轻松,但是对于英语水平不太高的使用者,阅读起来会比较困难,这会导致此部分的操作有一定难度。希望社区开发者会进一步详细介绍一下如何选择各个步骤的下载选项。

2)“代表启动成功”的展示图片需修改。应提示,操作者只要看最后一句“Serverstartup in? XXX ms”即可,这就代表专属于你的机器翻译系统已经搭建成功,亦在图片中明显标画出来,让操作者可以非常清晰操作思路。如下图:

3)截下图,只想表达,下图的解释说明虽然可以看得懂,但是却不清晰,典型的程序猿表达方式。如果想要提升用户体验,某些表达也可以优化一下。

我相信,随着大家对机器翻译的需求逐渐兴起以及对数据翻译安全的考

虑,这种可以在自己电脑上搭建机器翻译系统会有越来越多的需求。因

此,“详细、直白、清晰、简洁”的搭建过程说明是很有必要的。

三、搭建体会

作为一名不懂计算机编程、机器翻译技术基础的我,竟然可以实现自己动手搭建机器翻译系统,我都被自己吓到了,应该说小牛翻译开源社区给了我很大惊喜。通过自己亲手搭建机器翻译系统,虽然我还是不懂机器翻译技术,但是在使用上,感受到了机器翻译的更多优势。比如,在自己的电脑上搭建机器翻译系统,使用的稳定性、数据的安全性均可得到保障。

随着“互联网+”时代的到来,机器翻译在变革着翻译行业,语言服务行业的变革也离不开机器翻译。各行各业(如旅游、跨境电商、社交或游戏等平台)出现的多语种翻译需求在不断增加。因此,即使不是机器翻译技术的专业学者,同样有必要加深对机器翻译技术的了解,而小牛翻译开源社区恰好给非科班的人准备了这样的平台,感谢小牛翻译开源社区!

机器翻译技术的现状及发展

机器翻译技术的现状及发展 篇一:翻译技术领域的现状与展望 翻译技术领域的现状与展望 作者/王华伟闫栗丽 翻译技术在中国的发展起步相对较晚,但近年来随着中国在全球化进程中扮演着越来越重要的角色,催生了对翻译技术发展的强烈需求。中国翻译行业在借鉴国外同行经验的基础上,于2007~2008年间在翻译技术领域取得了一系列成就,也还存在一些亟需改进的方面,而这也势必对我国的翻译行业产生深远的影响。 1. 国家政策的扶持和行业协会的推动 翻译技术的发展直接关乎整个翻译行业的翻译质量及效率,具备巨大的行业经济效益。对此,科技部、财政部都给与了足够的重视并拨出专项资金进行扶持。在 2008年的科技型中小企业技术创新基金扶持计划中,中文及多语种处理软件及基于先进语言学理论的中文翻译软件等赫然在列。而中国译协也在 2008年的第 18届世界翻译大会上专门辟出了翻译工具、术语管理和翻译标准等分论坛,着力推动翻译技术的探讨与发展。 2. 词典型翻译软件百花齐放 词典是使用范围最广的工具,它以使用便利的优势,几乎占据了每个计算机的桌面,无论语言学习者还是专业翻译人员,几乎都是必备工具。词典的发展从最早的单机版本发展至今,已经有很多种产品

类型,我们可以见到的有:电子词典、在线词典、手机词典等。“金山词霸”的网络版本“爱词霸”在这两年获得了长足的发展,如爱词霸网络释义、谷歌金山词霸等一系列特色功能的相继推出,将词典型翻译软件的应用领域从传统的桌面计算机拓展到网络、手机等,并取得了显著的成功。另外,类似Google这样的搜索引擎,因为信息量大,检索便利而成为很多专业翻译人员查词的重要辅助工具。 值得一提的是,最新推出的基于用户发布词汇的词典编撰系统之前的词典都是以各大出版社公开发行的词典中的词条作为主要数据库来源,为用户提供查询上的便利。但是传统出版词典的方式存在发布周期长、词汇更新慢的缺陷。互联网的出现,加快了信息传播的速度,也提高了用户对新词更新的速度要求,为了方便新词汇的发布,词典编纂系统也就应运而生了。这是一种基于用户的词典发布系统,用户可自由发起词典编纂项目,自发组织人员参与项目,发起人可以按照需要给小组成员分配不同的权限,将词汇添加等基本工作和审核人员明确区分,既确保了词典的专业性,也实现了专业语料的适时更新和发布。 3. 机器翻译应用软件融入普通网民生活 谷歌语言工具的推出打破了互联网语言的藩篱,用户可以方便简捷地将目标语言的网页转化成自己的母语进行浏览。事实上,这也是机器翻译软件的一个应用领域,而国内的相关软件如金山快译等,专注于为普通网民提供更为友好的英中日网站浏览体验,并在亚洲语言的机器翻译应用方面积累了大量的经验。其他如华建等长期从事机器

机器在线翻译与人工翻译的比较

现如今大家各个国家的人群交流的越来越多,以至于语言自然而然的要学习的更多,如果机器翻译也就是“一点翻译”与人工翻译摆在一起,大家都知道选择人工翻译,因为人工翻译准确性高并且是根据文章上下文进行翻译的,那机翻真的没有优点了么,错,机翻的优点有很多,比如单词准确性高,面对偏僻的词汇也是可以翻译的,翻译语句的时候虽然不是很精准,但是对于了解语言的我们来说也可以根据翻译进行大致的了解,话不多说,简单的来介绍一下如何在线翻译吧。 步骤一:我们要先在电脑上准备好需要进行翻译的文件,最好是将其添加至桌面上,或路径不复杂的文件框内,同时还需要借助电脑浏览器搜索一点翻译,进入相关的界面。 步骤二:通过搜索可以看到“一点翻译“在百度里面的页面,进入在线翻译的界面后,我们就可以在页面的中心位置通过上传文档按钮进入文档翻译的选项页面了。

步骤三:进入文档翻译的选项页面后,我们可以先对上传文档按钮上方的一些选项进行修改(也就是下图里面的选项)这样可以帮助我们更好的实现翻译。 步骤四:上面的选项修改好后,我们就可以开始将准备好的文件添加进来了,可通过点击上传文档按钮或者是拖拽的方式将文件添加进来。

步骤五:文件添加进来后,可再次去翻译的自定义选项是否修改好,若确定修改好后,就可以通过开始翻译按钮,对PDF文件进行翻译了。 步骤六:翻译的时间根据翻译的文件的大小来定制,耐心等待文件翻译结束后,我们可以通过预览按钮对翻译后的文件进行预览,也可以直接将翻译后的文件下载到电脑上进行保存。

在线翻译与人工翻译最大的优点是速度快,方便,准确性高,如果不是相对了解很透的语句的话建议在“一点翻译”内进行在线翻译,小编已经尝试过了,感觉蛮好的哦。

人工智能与语言识别

人工智能与语言识别 摘要:语言是人类之间交流信息的主要手段之一,自电脑发明以来,人们就一直致力于使电脑能够理解自然语言。语音识别技术是集声学、语音学、语言学、计算机、信息处理和人工智能等诸领域的一项综合技术,应用需求十分广阔,长期以来一直是人们研究的热点。神经网络是在现代科学研究成果的基础上提出来的模拟人脑结构机制的一门新兴科学。本文针时语音识别的特点,对BP神经网络在语音识别技术中的应用进行了探索性研究,进而结合人工智能领域较为有效的方法——遗传(GA)算法。该算法有效地缩短了识别时问,提高了网络训练速度和语音的识别率。 关键词:语言识别;神经网络;遗传算法;BP网络 Artificial Intelligence and Speech Recognition Abstract:Language is one of the most important means of exchanging information among the mankind.Since the computer was invented,many scientists have been devoted to enabling the computer to understand the natural language.Speech recognition is a comprehensive technology of such areas as acoustics,phonetics,linguistics,computer science,information processing and artificial intelligence,which can be used widely.The research of speech recognition technology has been focused by the world for a long time.The neural network is a new developing science,which simulates the mechanism of human brain and was putted forward by the developing of modern science. This paper mainly studies the application of the BP neural network in the research of speech recognition.The training speed can be accelerated by the method and the recognition performance is also promoted. Key words:speech recognition;neural network;genetic algorithm;BP network 正文 一、语言识别的概述 随着计算机技术的发展,人与机器之间的交流也越来越广泛和深入,计算机己经渗透到人们生活的各个方面。在现代社会中,人们逐渐习惯借助计算机来完成各项事务。在这种情况下,如何让计算机智能化地与人进行通信,使人机交互更加自然方便成为现代计算机科学的重要研究课题之一。 二、语言识别的基本原理 语音识别(Speech Recognition)主要是指让机器听懂人说的话,即在各种情况下,准确地识别出语音的内容,从而根据其信息,执行人的各种意图。现代语音识别技术以神经网络为主要发展趋势,进入20世纪90年代以来,神经网络已经成为语音识别的一条重要途径。人工神经网络(ANN)是采用大量的简单处理单元广泛连接起来构成的一种复杂信息处理网络。网络的训练学习是应用一系列输入矢量,通过已确定的算法逐步调整网络的权值,最终达到期望的目标。BP神经网络是神经网络中前向神经网络的核心部分,BP算法的学习过程由信号的正向传播和误差的反向传播组成。大部分基于神经网络的语音识别系统实现识别功能都要经过从特征参数提取到应用识别算法进行识别的过程。 三、语音识别中的BP网络构造

人工智能与机器翻译习题答案.doc

2、产生式系统有哪些类型? 1正向、逆向、双向产生式系统 2可交换的产生式系统 3可分解的产生式系统 3、试举例说明不可撤|口|搜索方法的基本思想? 这种方法相当于沿着单独一条路搜索下去,利用问题给出的局部知识决定如何选取规则, 就是说根据当前可靠的局部知识选一条可应用规则并作用于当前综合数据库。接着再根据新状态继续选取规则,搜索过程一直进行,不必考虑撤回用过的规则。 9、试说明产生式系统规则不一致的原因及解决方法。 原因:规则集中存在的不一致是影响系统性能的重要因素之一。系统建立初期,由于规则集较小,内容也比较简单,设计人员能对每一条规则的条件和结论部分反复推敲和精心构造,这类问题容易防止。但随着时间的推移,新的规则不断加入,规则集合越来越大,内容也越来越丰富,这时规则间的相互影响和相互联系就随之变得复杂。在此情况下,规则的不一致就将自然产生, 解决:(1) 对于循环规则,可构造规则集的IF-THEN图,从起始规则的条件部分开始搜索,如果搜索过程中遇到的THEN部分已在前面出现,就可以中断搜索,规则集中包含的循环规则子集合需设计人员检查,解决; (2)对于冲突规则,构造IF-IF表,对规则集内有相同的IF规则子句构造规则树,形成推理图。同时建立THEN-THEN表用以判断是否有冲突规则出现。对相同IF部分的规则继续用它的各自THEN部分作为其它可以匹配的IF前提条件,递归地构造,如发现两个推理图上分别有节点在THEN-THEN表上是矛盾的,则检测出冲突规则,人工予以解决。 (3)对冗余规则和从属规则的检查类似于冲突规则链的方法.不同之处是前者在推理图中的遍历是试图发现有THEN部分等价的两条规则。 1、机器翻译主要有娜些方法?这些方法各有什么特点? 1基于分析和转换的机器翻译方法 这样的方法有两个特点:一是面向源语言分析,因为源语言中的一个句子已经由句法、语义分析等阶段分析完毕,生成了关于源语言句子的某种中间表示,转换以这种源语言中间表示作为输入;二是直接转换,即对于S表示,直接给出译文形式,一般不需要在目标语言内再作进一步转换,Tl~Tj可以直接包括目标语言的词汇,也可以是对应于Sl~Si的译文组块。 2基于中间语言的翻译方法 基于中间语言的机器翻译方法主要有两个优点。首先,独立的中间表示形式为多语种之间的互译的实现提供了一种经济有效的途径。假设要对N种语言进行互译,则有N*(N.1)个语言对。不同方向的翻译是不同的语言对。此时如果采用基于转换的方法,因为把一种语言翻译成另一种语言都需要一个不同的转换机制(或模块),所以N火(N?l)个语言对共需要N*(N-1)个独立的转换机制。而采用中间语言的方法,由于对每一种语言只需实现将该种语言翻译成中间语言和把中间语言翻译成该种语言的目标语言这样两个模块,所以总共只需要2N个模块。其次,中间语言不仅是对基于中间语言的机器翻译方法这一特定目的有意义, 同时,作为一种通用的自然语言表示,也值得深入研究。 4.1.3基于统计的机器翻译方法 基于统计的机器翻译方法,一般不要任何语言学知识,它的基木原理是实现源语言词汇到目标语言浏汇的映射。其思路受到语音识别研究的启发,因而应用了类似的方法来实现。研究者用

搭建属于自己的机器翻译系统

搭建属于自己的机器翻译系统——MTI专业“技术小白”走进小牛翻译开源社区的心得 搭建属于自己的机器翻译系统 ——MTI专业“技术小白”走进小牛翻译开源社区的心得首先,自我介绍一下。我是一个MTI(翻译硕士)专业、没有计算机编程背景、没有机器翻译理论基础的菜鸟,任职于一家网络科技公司的市场部门,之前的工作中需要做些翻译工作,有时候求助百度翻译、有道翻译等免费的机器翻译系统来解决问题,但是对于一些涉及我们商业机密的数据,由于担心泄密,只能借助于有道词典查查词,然后再自己形成翻译结果。很早之前我就想,要是能有自己的机器翻译系统就好了。 我心目中的翻译技术大牛、对外经贸大学的崔启亮老师曾在微博中给MTI的学生提建议,“学好翻译技术,有前途。对于仍在迷茫MTI的同学,我建议学机器翻译设计与开发,走出迷茫。”非常非常幸运的是,我一个东大毕业的同学告诉我,东北大学自然语言处理实验室(国内搞机器翻译最好的团队之一)联合沈阳雅译网络技术有限公司推出了“小牛翻译开源社区”,社区中有一项内容,就是教不懂机器翻译的人学习“快速搭建自己的机器翻译系统”。于是,我走进社区,按照社区里的相关说明,亲身体验了搭建过程。下面,我想谈谈这个被誉为“目前国内首个以机器翻译为核心的交流平台”的菜鸟级用户体验。 小牛翻译开源社区里提供了统计机器翻译开源系统的全部代码。我了解了一下,NiuTrans开源系统在国际上比较有名,据说是目前国际上能够支持统计机器翻译模型最全的两套统计机器翻译系统之一(另一套是爱丁堡大学的Moses)。这些内容对MT(机器翻译)的专业学者应该很有用吧,但是对于我这个非科班出身的人来说,其实会完全忽略这部分内容。我还是讲讲我在社区里的真正收获——快速搭建实用的机器翻译系统。 一、搭建过程详细说明 需要说明的是,我是在在网页指导与人工指导下才在自己的电脑(Windows7 64位系统,硬盘500G,内存8G)上成功搭建机器翻译系统的。解释一下为什么我不仅看了网页上操作指导,还需要人工指导。身为“技术小白”的我,虽然网页上的操作指导写的很规范,但是第一次接触这么“高大上”的东西,还是有点小紧张的。于是,我加入了小牛翻

机器翻译评测大纲

机器翻译评测大纲 一、评测对象 本次评测的对象包括:汉-英、英-汉、汉-日、日-汉机器翻译系统中的核心技术。 二、评测内容 本次评测组织两种语料的评测,一种是篇章语料,一种是对话语料。领域是面向奥运的相关领域,包括体育赛事、天气预报、交通住宿、旅游餐饮等。 本次评测的评测指标包括译文质量和翻译速度。 三、评测方法 1. 评测方式 本次评测为现场评测。采用的是以人工评测为主,人工评测和自动评测相结合的方式。 人工评测方式是:由评测组织单位将各个评测单位提交的评测结果汇总在一起,然后用计算机随机打乱译文句子的排列顺序。再将所有译文句子提交给多位专家进行人工评测。将专家评测的结果汇总,用计算机还原成原来的排列顺序,分别计算出各个评测单位的总得分。 2.评测步骤 ?在评测单位统一提供的评测环境上安装被测系统 ?评测单位给出评测数据 ?被测单位运行系统,提交评测结果 ?评测单位运行自动评测程序,得出自动评测结果 ?评测单位事后进行人工评测 ?公布评测结果 3.评测标准 (1)自动评测标准

机器翻译的自动评测目前比较成熟的标准有BLEU标准、NIST标准等。本次评测采用NIST标准。具体评测标准见附件。 (2)人工评测标准 本次评测按0 - 6个等级层次打分,最后采用百分制换算评测结果。 总的可理解率=(T1*20%+T2*40%+T3*60%+T4*80%+T5*90%+T6*100%)/ 总句数 其中:Ti为被评为第i等级的句数。

(3)翻译速度评测标准 由主持评测的工作人员现场记录翻译时间,各系统自动显示从第一个句子翻译开始到所有句子翻译完毕所用的时间(不计系统初始化所用时间,只记开始翻译到所有句子翻译完毕所用时间)。 4. 输入输出文件格式 下面以汉英机器翻译为例,说明输入输出文件格式。其中p标签为段落标记,s标签为句子标记。输入文件中每个s标签内部为一个句子。输出文件中每个s 标签与输入文件中的s标签一一对应。由于一个源语言句子可能翻译成一个或多个目标语言句子,所以输出文件中每个s标签内部可以有不只一个句子。Lang 为语言代码,汉语用“zh”表示,英语用“en”表示,日语用“ja”表示。汉语、英语、日语的输入和输出文件统一采用GBK编码。 (1)输入文件格式: 玻利维亚举行总统与国会选举 (法新社玻利维亚拉巴斯电)玻利维亚今天举行总统与国会选举,投票率 比预期更高,选民希望选出的新领导阶层能够振兴经济,改善人民的生活水准,抑制这个南美洲最贫穷国家的劳工骚动。 投票所于下午四时(台北时间七月一日清晨四时)关闭,选务人员说,选 举结果将于两小时之后开始发布。 稍早,玻利维亚总统与参与选举的候选人援引巴西赢得世足赛冠军为 例,鼓励民众踊跃投票,虽然联邦法律规定,凡达投票年龄的玻利维亚人都必须 投票。

巴比情结与机器翻译系统的研发

巴比情结与机器翻译系统的研发 [摘要]重建巴比塔的情结促使科学家和语言学家联合起来试图利用计算机来进行自然语言的翻译和转换工作。介绍了机器翻译的起源,论述了基于规则和基于语料库的机器翻译系统的特点和实例,探讨了目前机器翻译系统的缺陷及其将来研发方向。 [关键词]巴比情结机器翻译机器翻译系统的研发基于规则基于语料库 一、前言 《圣经》旧约中“创世纪”里巴比塔的故事发生在远古时代,但从那时到现在多少代人以来,人们还在不断地怀有一种情结,构筑同一个梦想:重建巴比塔,让世界各地操不同语言的人通过一种有效的方式可以任意沟通起来。不过构筑语言的“巴比塔”绝非易事,因为虽然大多数语言有共性,但是其差异却很巨大。这种浓厚的巴比情结积聚已久,人们长期无法释怀。20世纪中期计算机的诞生又让人们萌生了新的希望,促使科学家和语言学家联合起来试图利用计算机来进行自然语言的翻译和转换工作,这就是机器翻译。 机器翻译是用计算机把一种语言(源语)翻译成另外一种语言(目标语)的一门新学科,涉及到语言学、计算机科学、数学等许多领域,是典型的多边缘交叉学科。多年以来,人们在不断孜孜追求,对不同种类的机器翻译系统进行了研发,希冀找到一个适当方法解决语言之间的快速和准确翻译问题。虽然时光发展到二十一世纪,计算机早已渗透到人们生活的方方面面,计算机技术的发展和运用已经达到了一个令人瞠目的程度,但是机器翻译却依然没有达到理想的水平。机器翻译研究涉及到很多方面,由于文章篇幅限制,本文将集中讨论机器翻译系统的研发。 二、机器翻译的起源 用机器来进行翻译的理念最早可以追溯到古希腊时代,他们提出各种方案来替代种类繁多而形式各异的自然语言,其中就有用机械手段来分析语言的问题。20世纪30 年代,法国人阿尔楚尼明确提出用机器来进行语言翻译的设想。1933年,前苏联发明家特洛扬斯基设计了机械方法把一种语言翻译成另一种语言的机器,但由于当时技术水平的限制,他的翻译机没有制成。 1946年世界上第一台电子计算机诞生,它惊人的运算速度启发了人们考虑翻译技术的革新问题。有关机器翻译的设想从那时起开始活跃起来,当时许多科学家相信可以通过对计算机编程实现“人工智能”。冷战开始后,当时美国情报部门需要大量的有关前苏联的情报,由于情报是俄文资料,需要进行大量的俄英翻译,而由于人工翻译速度慢,需要进行机器的快速翻译。在此时代背景下,Andrew Booth有幸得到了洛克菲勒基金的资助进行语言翻译的研究。Booth和Weaver

对机器翻译取代人工翻译的反驳

对机器翻译取代人工翻译的反驳 近日,一篇名为《翻译界的重大突破!作为一个翻译,此刻我理解了18 世纪纺织工人看到蒸汽机时的忧虑和恐惧!》传遍朋友圈,不少译员和外语系学生表现出了对于翻译前景的担忧,大有机器翻译取代人工翻译的意思。 这篇的文章标题的确相当耸人听闻,这是在号召丢饭碗的译员去砸谷歌总部么?毕竟翻译作为一种创造性的脑力劳动,跟纯粹地出卖体力还是不一样的 (没有任何贬低体力劳动的意思)。相反,个人觉得,作为译员或者外语系学生,应当对于新技术的到来表示欢迎,并主动适应新趋势,而不应该盲目表现出不必要的担忧。 当前笔译市场鱼龙混杂,不少人觉得拿个专八证书就可以做翻译,甚至报价五六十每千字都愿意做,已经严重扰乱了翻译市场秩序。个人觉得CATTI 二级作为敲门砖还是能起到筛选作用的,毕竟15% 左右的通过率摆在那里。机器翻译的发展对于淘汰低端译员可以起到积极作用,而机器翻译完全取代人工翻译的说法实在有夸大之嫌。 奠定了翻译学(Tran slation Studies )独立学科地位的詹姆斯?霍姆斯James Holmes,曾经提出过翻译学的“ Map”,确定学科研究的范围,首先从大方向上分为“纯理论” (Pure)和“应用” (Applied )两个部分,而“应用”层面又可以再分为三个分支“译员培训”( Translator Training )、“翻译辅助” ( Translation Aids )、“翻译批评”( Translation Criticism ),显然“机器翻译” (Machi ne Tran slation ,MT)和“计算机辅助翻译”(Computer Aided Tran slation,CAT)可以归在“翻译辅助”下面。1本人曾经用过大名鼎鼎的CAT 软件Trados (塔多思),功能十分强大,可以随时将翻译结果记录进术语库 ( MultiTerm )中,在该术语重复出现或者近似表达出现的时候进行提示,从而确保术语翻译在全文中的一致性,同时减少翻译术语的重复劳动时间。而诸如“谷歌翻译”之类的“机器翻译”,也代表着翻译研究的一个前沿领域——译后编辑 ( Post-editing ),即通过人工对机器翻译产生的译文进行修改和润色,使其达到可以使用的水平。综上,“翻译辅助”可以减少译员大量重复无意义的劳动,大大提高翻译效率,应该来说可以算是译员的福音。这也是为什么现在很多翻译公司招聘译员都需要熟练掌握翻译辅助工具的原因,当然这也代表着翻译行业的新趋势,对翻译辅助软件一窍不通必然会面临被淘汰的危险。 以下论述机器翻译不可能完全取代人工翻译的原因。第一,翻译辅助软件大多运用于具有大量术语的科技翻译等非文学题材,而对于文学翻译可以起到的作用相当有限。第二,机器翻译基于庞大的语料库,很难处理暂时没有固定翻译的术语,比如中国的外宣翻译是由专家集体讨论之后权威发布的。第三,从根本上讲,机器翻译是基于“对等”( equivalence ),或者类似于平行语料库 ( parallel corpora )

人工智能论文 语音识别

信息学院 《人工智能及其应用》课程论文题目:基于神经网络的语音信号识别 作者黄超班级自动08-1BF班 系别信息学院专业自动化 完成时间 2011.6.12

基于神经网络的语音信号识别 摘要 语言是人类之间交流信息的主要手段之一,自电脑发明以来,人们就一直致力于使电 脑能够理解自然语言。语音识别技术是集声学、语音学、语言学、计算机、信息处理和人工 智能等诸领域的一项综合技术,应用需求十分广阔,长期以来一直是人们研究的热点。 神经网络是在现代科学研究成果的基础上提出来的模拟人脑结构机制的一门新兴科 学,它模拟了人类神经元活动的原理,具有自学习、联想、对比、推理和概括能力,为很好 地解决语音识别这样一个复杂的模式分类问题提供了新的途径。 本文针时语音识别的特点.对BP神经网络在语音识别技术中的应用进行了探索性研究, 进而结合人工智能领域较为有效的方法——遗传(GA)算法。针对传统BP算法识别准确率高 但训练速度慢的缺点,对BP网络进行改进,构建了一种基于遗传神经网络的语音识别算法(GABP),并建立相应的语音识别系统。仿真实验表明,该算法有效地缩短了识别时问,提 高了网络训练速度和语音的识别率。 关键词:语音识别,神经网络,遗传算法,遗传神经网络,BP网络 THE RSREARCH OF SPEECH RECOGNITION BASED ON THE NEURAL NETWORK ABSTRACT Language is one of the most important means of exchanging information among the mankind.Since the computer was invented,many scientists have been devoted to enabling the computer to understand the natural language.Speech recognition is a comprehensive technology of such areas as acoustics,phonetics,linguistics,computer science,information processing and artificial intelligence,which can be used widely.The research of speech recognition technology has been focused by the world for a long time.The neural network is a new developing science,which simulates the mechanism of human brain and was putted forward by the developing of modern science.It is not the overall description of human brain,but the abstract,simulation and simplifying of the physical neural networks of human beings. The purpose of the research in this area is exploring the human brain mechanisms in information processing,storing and searching.If people can understand these mechanisms,a new way for the research of artificial intelligence,information processing and etc.

人工智能与机器翻译期末复习题

一、名词解释(5X3‘)15’ 1.兼类(P121):一个单词既可以作名词动词又可以作其他词类 2.机器翻译:用计算机软件代替人做的书面翻译 3.组合型歧义:一个字与前面的字成词,与后面的字成词,合起来也成词。 4.交集型歧义(P117):一个字与前面的字成词,与后面的字也成词。 5.人工智能:用计算机硬件、软件模拟人的行为,解决人类目前尚未认识清楚的问题。 6.人工智能软件的三大技术:知识表示、知识推理、知识获取。 7.语料库:单词、短语和句子组成的数据库。 8.知识工程:包括人工智能软件技术的工程。(知识工程是以知识为基础的系统,就是 通过智能软件而建立的专家系统) 9.深度学习:一步一步在丰富起来的特征规律引导下,由浅入深完成推理的方法。 10.语用分析:分析成语和习惯用语的方法。 二、题解P36 例2.1 、2.2 例2.1 设有下列语句: (1)高山比他父亲出名。 (2)刘水是计算机系的一名学生,但他不喜欢编程序。 (3)人人爱劳动。 为了用谓词公式表示这些语句,应先定义谓词: BIGGER(x,y):x比y出名 COMPUTER(x):x是计算机系的学生 LIKE(x,y):x喜欢y LOVE(x,y):x爱y M(x):x是人 定义函数father(x)表示从x到其父亲的映射此时可用谓词公式把上述三个语句表示为:(1)BIGGER(高山,father(x)) (2)COMPUTER(刘水)∧∽LIKE(刘水,程序) (3)(?x)(M(x) →LOVE(x,劳动)) 例2.2 设有下列语句: (1)自然数都是大于零的整数。 (2)所有整数不是偶数就是奇数。 (3)偶数除以2是整数。 定义谓词如下: N(x):x是自然数 I(x):x是整数 E(x):x是偶数 O(x):x是奇数 GZ(x):x大于零 另外,用函数S(x)表示x除以2。此时,上述三个句子可用谓词公式表示为: (?x)(N(x) →GZ(x)∧I(x)) (?x)(I(x) →E(x)∨O(x)) (?x)(E(x) →I(S(x))) 三、论述(4X5‘)20’ 1.阐述深度、广度、代价驱动搜索方法。(P68) 答:广度优先搜索法:对全部节点沿广度进行横向扫描,按各节点生成的先后次序,

一个汉英机器翻译系统的设计与实现

一个汉英机器翻译系统的 计算模型与语言模型* 刘群+詹卫东++常宝宝++刘颖+ (+中国科学院计算技术研究所二室北京100080) (++北京大学计算语言学研究所北京100871) 摘要:本文介绍我们所设计并实现的一个汉英机器翻译系统。在概要介绍本系统的主要目标和设计原则的基础上,着重说明系统的计算模型和语言模型,最后给出实验结果和进一步的打算。 关键词:自然语言处理机器翻译中文信息处理 一、引言 我国的机器翻译研究近年来取得了很大的发展。特别是英汉机器翻译系统的研制已经取得了较大的成功,达到了初步实用的阶段。相对而言,汉英机器翻译的研究却进展比较缓慢,离实用化还有相当的距离[1]。我们的目的是利用目前最新的计算机软件技术、相对成熟的机器翻译方法和先进的汉语语法理论,构造一个初步实用的汉英机器翻译系统。本文将对我们所开发的系统所采用的计算模型和语言模型作一个总体性的介绍,而不涉及过多的细节。 下面我们简要介绍一下本系统的几个主要设计原则: ⑴采用成熟的技术 我们的目的是构造一个真正实用的汉英机器翻译系统,因而在可供选择的若干技术路线面前,我们将尽量选用比较成熟的技术,而在现有技术难以解决问题时再尝试一些新技术。 ⑵开放的体系结构 开放的体系结构主要体现在系统的实现上所采用的软件构件技术[8]。整个系统采用一些相对独立的软件构件组成,因而可以方便地对系统进行修改、维护和扩充。翻译的过程严格按照独立分析、独立生成的原则进行组织,每一阶段的算法相互独立,对其中一个阶段算法的修改不会对其他算法造成影响。 ⑶方便的调试环境 本系统强调为语言工作者提供一个方便的调试环境。系统提供多窗口图形界面的知识库调试工具,支持课题组中多人同时通过网络对一个知识库进行操作。提供对翻译过程直观显示,用户可以清晰地看到翻译过程的每一步操作。提供翻译出错原因查找机制,用户 *本项目的研究受到863-306资助,合同号为863-306-03-06-2

机器翻译技术介绍

机器翻译技术介绍
常宝宝 北京大学计算语言学研究所 chbb@https://www.360docs.net/doc/9913981524.html,

什么是机器翻译
研究目标:研制出能把一种自然语言(源语言)的文 本翻译为另外一种自然语言(目标语言)的文本的计 算机软件系统。 制造一种机器,让使用不同语言的人无障碍地自由交 流,一直是人类的一个梦想。 随着国际互联网络的日益普及,网上出现了以各种语 言为载体的大量信息,语言障碍问题在新的时代又一 次凸显出来,人们比以往任何时候都更迫切需要语言 的自动翻译系统。 但机器翻译是一个极为困难的研究课题,无论目前对 它的需求多么迫切,全自动高质量的机器翻译系统 (FAHQMT)仍将是人类一个遥远的梦。

机器翻译的基本方法
机器翻译的基本方法 ? 基于规则的机器翻译方法 ? 直接翻译法 ? 转换法 ? 中间语言法 ? 基于语料库的机器翻译方法 ? 基于统计的方法 ? 基于实例的方法 ? 混合式机器翻译方法
目前没有任何 一种方法能实现机 器翻译的完美理 想,但在方法论方 面的探索已经使得 人们对机器翻译问 题的认识更加深 刻,而且也确实带 动了不少不那么完 美但尚可使用的产 品问世。
20世纪90年代以前,机器翻译方法的主流一直是基于规则的方 法,不过,统计方法后来居上,目前似乎已成主流方法,从学术 研究的角度看,更是如此。(Google translate)

机器翻译的基本方法
20世纪90年代以前,机器翻译方法的主流一直是基于 规则的方法,因此基于规则的方法也称为传统的机器 翻译方法。 直接翻译法 ? 逐词进行翻译,又称逐词翻译法(word for word translation) ? 无需对源语言文本进行分析 ? 对翻译过程的认识过渡简化,忽视了不同语言之间 在词序、词汇、结构等方面的差异。 ? 翻译效果差,属于早期过时认识,现已无人采用 How are you ? 怎么 是 你 ? How old are you ? 怎么 老 是 你 ?

人工智能语音识别发展报告

人工智能语音识别发展报告Report of Artificial I ntelligence Development

目录 1.语音识别 (3) 1.1.语音识别概念 (3) 1.2.语音识别发展历史 (4) 1.3.人才概况 (6) 1.4.论文解读 (8) 1.5.语音识别进展 (173)

语音识别 1.语音识别 1.1.语音识别概念 语音识别是让机器识别和理解说话人语音信号内容的新兴学科,目的是将语 音信号转变为文本字符或者命令的智能技术,利用计算机理解讲话人的语义内容, 使其听懂人类的语音,从而判断说话人的意图,是一种非常自然和有效的人机交流方式。它是一门综合学科,与很多学科紧密相连,比如语言学、信号处理、计算机科学、心理和生理学等[8]。 语音识别首先要对采集的语音信号进行预处理,然后利用相关的语音信号处 理方法计算语音的声学参数,提取相应的特征参数,最后根据提取的特征参数进行 语音识别。总体上,语音识别包含两个阶段:第一个阶段是学习和训练,即提取语音 库中语音样本的特征参数作为训练数据,合理设置模型参数的初始值,对模型各个参 数进行重估,使识别系统具有最佳的识别效果;第二个阶段就是识别,将待识别语音信 号的特征根据一定的准则与训练好的模板库进行比较,最后通过一定的识别算法得出识 别结果。显然识别结果的好坏与模板库是否准确、模型参数的好坏以及特征参数的选择 都有直接的关系。 实际上,语音识别也是一种模式识别,其基本结构如下图所示。和一般模式 识别过程相同,语音识别包括如图所示3 个基本部分。实际上,由于语音信息的复 杂性以及语音内容的丰富性,语音识别系统要比模式识别系统复杂的多。 图 6-1 语音识别系统框架 其中,预处理主要是对输入语音信号进行预加重和分段加窗等处理,并滤除其 中的不重要信息及背景噪声等,然后进行端点检测,以确定有效的语音段。特征参数 提取是将反映信号特征的关键信息提取出来,以此降低维数减小计算量,

机器翻译和人工翻译-大学英语作文

学术英语作文 机器翻译是否会代替人工翻译 In the past decades, artificial intelligence has brought the light of reform to many areas, translation industry included. The new reform brought us machine translation. As an increasing popular topic, it has inspired people to think that maybe one day, they no longer need to learn foreign languages because machine translation will replace human translation. Though it is not 100% correct, there remains some reasonality within. Last year, A research team from Microsoft claimed that their machine translation (MT) system has achieved the level of professional human translators when it comes to general news report. Meanwhile, Google Translate tool has surpassed the proficiency of some advanced learners. And on Baidu World Conference, Yanhong Li showcased a real-time translation developed by his company. A trend revealed by all those tech giants’ news——an accurate and real-time translation by machine is promising in the future. Meanwhile, new techniques emerge constantly, accelerating the smartness and depth of machine learning. Taking neural network for example……(待补充70词) Thus, In the coming future, there’s no need for comm on people to learn foreign languages. Once the translation machines are smart and powerful enough to deal with academic environment and daily life while also portable to be carried with, people will use them to travel, study and live all around the world without language barriers. It will just look like the scenery in the movie The Wondering Earth -- Astronauts from various countries talk in their mother tongue. At the same time, a mini equipment installed in their suits translate their words. However, if you

人工智能与模式识别

人工智能与模式识别 摘要:信息技术的飞速发展使得人工智能的应用围变得越来越广,而模式识别作为其中的一个重要方面,一直是人工智能研究的重要方向。在介绍人工智能和模式识别的相关知识的同时,对人工智能在模式识别中的应用进行了一定的论述。模式识别是人类的一项基本智能,着20世纪40年代计算机的出现以及50年代人工智能的兴起,模式识别技术有了长足的发展。模式识别与统计学、心理学、语言学、计算机科学、生物学、控制论等都有关系。它与人工智能、图像处理的研究有交叉关系。模式识别的发展潜力巨大。 关键词:模式识别;数字识别;人脸识别中图分类号; Abstract: The rapid development of information technology makes the application of artificial intelligence become more and more widely. Pattern recognition, as one of the important aspects, has always been an important direction of artificial intelligence research. In the introduction of artificial intelligence and pattern recognition related knowledge at the same time, artificial intelligence in pattern recognition applications were discussed.Pattern recognition is a basic human intelligence, the emergence of the 20th century, 40 years of computer and the rise of artificial intelligence in the 1950s, pattern recognition technology has made great progress. Pattern recognition and statistics, psychology,

机器翻译

机器翻译 1 概述 机器翻译(machine translation),又称为自动翻译,是利用计算机把一种自然源语言转变为另一种自然目标语言的过程,一般指自然语言之间句子和全文的翻译。它是自然语言处理(Natural Language Processing)的一个分支,与计算语言学(Computational Linguistics )、自然语言理解( Natural Language Understanding)之间存在着密不可分的关系。 2 国内外现状 机器翻译思想的萌芽关于用机器来进行语言翻译的想法,远在古希腊时代就有人提出过了。在17世纪,一些有识之士提出了采用机器词典来克服语言障碍的想法。笛卡(Descartes)和莱布尼兹(Leibniz)都试图在统一的数字代码的基础上来编写词典。在17世纪中叶,贝克(Cave Beck)、基尔施(Athanasius Kircher)和贝希尔(Johann JoachimBecher)等人都出版过这类的词典。由此开展了关于“普遍语言”的运动。维尔金斯(JohnWilkins)在《关于真实符号和哲学语言的论文》(An Essay towards a Real Character andPhilosophical Language, 1668)中提出的中介语(Interlingua)是这方面最著名的成果,这种中介语的设计试图将世界上所有的概念和实体都加以分类和编码,有规则地列出并描述所有的概念和实体,并根据它们各自的特点和性质,给予不同的记号和名称。本世纪三十年代之初,亚美尼亚裔的法国工程师阿尔楚尼(G.B. Artsouni)提出了用机器来进行语言翻译的想法,并在1933年7月22日获得了一项“翻译机”的专利,叫做“机械脑”(mechanical brain)。这种机械脑的存储装置可以容纳数千个字元,通过键盘后面的宽纸带,进行资料的检索。阿尔楚尼认为它可以应用来记录火车时刻表和银行的帐户,尤其适合于作机器词典。在宽纸带上面,每一行记录了源语言的一个词项以及这个词项在多种目标语言中的对应词项,在另外一条纸带上对应的每个词项处,记录着相应的代码,这些代码以打孔来表示。机械脑于1937年正式展出,引起了法国邮政、电信部门的兴趣。但是,由于不久爆发了第二次世界大战,阿尔楚尼的机械脑无法安装使用。1903年,古图拉特(Couturat)和洛(Leau)在《通用语言的历史》一书中指出,德国学者里格(W. Rieger) 曾经提出过一种数字语(Zifferngrammatik),这种语法加上词典的辅助,可以利用机械将一种语言翻译成其他多种语言,首次使用了“机器翻译” (德文是ein mechanisches Uebersetzen)这个术语。 真正对机器翻译进行研究应该说是从布恩和韦弗开始的。他们研究的是自动词典万, 从1954年1月7日公开展示的IBM701型计算机开始, 机器翻译进人一个繁荣发展的时期。从那时起, 很多国家都投人了大量的人力、物力从事这方面的研究和开发。随着 Internet 的普遍应用,世界经济一体化进程的加速以及国际社会交流的日渐频繁,传统的人工作业的方式已经远远不能满足迅猛增长的翻译需求,人们对于机器翻译的需求空前增长,机器翻译迎来了一个新的发展机遇。国际性的关于机器翻译研究的会议频繁召开,中国也取得了前所未有的成就,相继推出了一系列机器翻译软件,例如“译星” 、“雅信” 、“通译” 、“华建”等。在市场需求的推动下,商用机器翻译系统迈入了实用化阶段,走进了市场,来到了用户面前。 中国机器翻译研究起步于1957年,是世界上第4个开始搞机器翻译的国家,60年代中期以后一度中断,70年代中期以来有了进一步的发展。现在,中国社会科学院语言研究所、中国科学技术情报研究所、中国科学院计算技术研究所、黑龙江大学、哈尔滨工业大学等单位都

相关文档
最新文档