机器翻译现状

机器翻译现状
机器翻译现状

机器翻译的现状与发展

摘要:随着经济全球化的飞速发展以及人类命运共同体的提出,各国之间人民之间的交流必将日益频繁,各个国家语言之间转换需求也必定与日俱增,人为地学习千百种语言实在不易,机器翻译的作用也就越来越受到重视。它涉及计算机语言学、数学和语言学等各个学科,其中语言学为其提供了机译数据库和技术支撑。然而,目前机器翻译还存在许多不足,需要多方面深入研究。本文对机器翻译发展历程、研究方法、存在问题及其应对方法进行了综述,以期机器翻译更进一步发展。

关键词:机器翻译;发展历程;研究方法;语言学理论;问题;应对方法

机器翻译是通过计算机来实现不同自然语言之间的转换,也称为自动翻译,一般是指自然语言之间的部分句子或全文的翻译。它作为应用语言学的一个分支,是建立在语言学、数学和计算机科学基础上的跨学科研究。由于需要通过电脑数据库和翻译软件来完成操作,因此,机器翻译的发展与计算机科学、数学、人工智能、语言学等各学科的发展密不可分,可以说,机器翻译的推进需要这些学科的技术支撑和理论支持。人类进入21世纪以来,随着经济的发展,国际交流合作日益频繁,对机器翻译的需求日益增大。机器翻译是规避国家间交流障碍的有效手段,但作为综合性的学科,它的发展受到多方面牵制,因此需要相关研究人员和学者对其相关学科进行更深入的研究。

1机器翻译发展历史

机器翻译的历史最早可以追溯到20世纪30年代相关学者提出其雏形,如今处于高速发展的阶段。然而在初期机器翻译受到过阻碍,一度陷入低潮期。直到移动互联网时代的到来,一方面,随着计算机网络技术快速发展,人们要求用计算机实现语言翻译的愿望越来越强烈。另一方面自1990年统计机器翻译模型提出以来,基于大规模语料库的统计翻译翻译方法迅速发展,机器翻译再次成为人们关注的热门研究课题,取得了一些令人瞩目的成果。但是,在机器翻译飞速发展的同时,也遇到了很多难题,在目前的技术条件下翻译的质量还不能够达到人们的期望的程度,想让机器让人类一样去理解和分析语言还远不能行。在当今信息大数据时代,机器翻译正发挥越来越重要的作用。

机器翻译的发展可以归结为以下几个发展阶段:

1.1机器翻译人员的独立工作阶段

20世纪50年代初期,随着第一台计算机的问世,美国的科学家W.Weaver和英国工程师A.D. Booth就发表了翻译备忘录,提出了利用计算机进行翻译的设想。随后,通过不懈的努力和试验,美国的乔治伦敦大学和IBM公司合力推出了首个MT系统,为各国的机器翻译奠定了坚实的实践基础。但是由于受到计算机硬件局限性的限制,尤其是内存不足和存储速度慢,以及缺乏高级编程语言,研究人员无法完全依赖机器来完成大规模、高质量的翻译任务。同时,由于研究是在没有句法学家和语义学家的协助下独立进行的,翻译的质量难以保证。

在这样的背景下,早期研究者意识到,无论开发出什么样的系统都只能产生出低质量的输出,因此专家建议,先发展对有控制的语言进行翻译,并限定于某些特定领域。

1.2进入高质量的翻译输出

20世纪60年代,受到改进了的计算机硬件和编程语言的鼓舞,研究人员对机器翻译产生了盲目的乐观。编程语言在句法分析上取得的长足进步让翻译人员感受到了技术革新的成果,他们相信机器翻译有巨大的前景,几年之内就可以达到高质量的输出,这一乐观论调很快传遍了全世界。研究人员还提出假设:机器翻译的目标是产出高质量翻译的全自动系统。研究的重点在于寻求完善的翻译理论和方法。

1.3翻译软件和工具的发展

20世纪70年代以来,随着科技发展和各国间频繁交流,大规模翻译需求日益增加,对计算机翻译的依赖更加突出,机器翻译进入了新的发展阶段。实用性翻译和软件系统如雨后春笋频频出现,如Weinder系统、EURPOTRA多国种翻译系统、TAUM-METEO系统等。80年代产生了大量连接网络和大容量存储的微型计算机,各种翻译工具也应运而生,如词典和术语资料库、多语文字处理、词汇和术语资源的管理、信息传递的

输入和输出。最近又新添了“翻译记忆”功能,它能够存储已存在译文,以便为再利用和修订提供范例。

这一时期的机器翻译已经逐步进入了机器和人工相结合的阶段,机助人译(Computer-aided Machine Translation)和人助机译(Human-aided Translation)相互结合,对各种类型和规模的翻译做出了突出的贡献。同时语料库的发展和应用为机译提供了坚实的理论和技术来源,机器翻译进入到崭新的上升阶段。

1.4我国机器翻译的历程

我国的机器翻译始于1956年,由于当时与苏联的经济政治往来,我国对于机器翻译的需求逐渐显现,中俄语言间的互译催化了MT系统。80年代后,我国研制了KY-1和IMT/EC863两个英汉机译系统,随着计算机技术的成熟和发展,许多计算机公司研制出了一系列高科技的机译软件,如“译星”、“雅信”、“通译”、“科建”等。

机器翻译由简单到复杂,从初级到高级,不断进行着理论和实践的双重革新。其发展历程可概括为以下三代:第一代初级阶段,利用机器翻译词汇,不进行语法分析;第二代进步阶段,对句子的结构和语义进行分析;第三代人工智能阶段,随着心理学,特别是认知心理学的发展,人们认为电脑可以复制人脑的信息处理机制,使机器翻译更加智能化和自动化。目前,各国学者正经历着第三阶段,不断地攻克各种难关,提高机器翻译的质量和效率。

2机器翻译的研究方法

机器翻译研究方法可以从两个方面来叙述,一方面是语言学理论的应用,另一方面是MT研究者们实际所从事的内容。

2.1语言学的方法

机器翻译研究已经被看作一个试验新的语言理论或新的计算技术的领域。换言之,MT已经被视为语言理论的实验基础,因为翻译翻译的质量能由非专家来判断。

与之相关的理论有:20世纪50、60年代的信息理论、范畴语法、转换生成语法、从属语法和层次语法;

70、80年代的人工智能、非语言知识基础,诸如词汇功能语法、广义短语结构语法、中心词驱动短语结构语法和蒙太古语法等形式主义理论;90年代的神经系统网络、连接主义、平行处理和统计学方法以及他理论。人们还发现,那些以小样本为基础,在最初的试验中取得成功的新理论,最终都被证实存在一些问题。为了解决这些问题,必须检验一切有希望的方法并鼓励修正。

20世纪90年代初期,以语料库为基础的方法的出现使机器翻译研究有所增强,特别是引入了统计学方法和以实例为基础的翻译。统计学技术已经摆脱了以前专门以规则为基础(通常定位于句法)的方法的不足和它越来越明显的限制。在以语料库为基础的技术帮助下,歧义消除的问题、首语重复的解决和更多惯用语的生成都已经变得更容易驾驭。

2.2转移法

根据机器翻译转移理论的多数观点,在机器翻译系统中有某种转移成分。这种成分是特定的,从而一对语言可产生一个目标句子。转移成分有一个相应的词库,这是源语言的范式和短语映现于目标语言的包罗万象的清单(Napier,2000)。大量工作取决于对两种语言具体比较的信息。这种转移系统意味着,对每两种语言来说便要翻译,因此这种方法主张翻译本质上就是一种比较语言学的练习。由此可见,必须建立一个词库。

2.3语际法

语际法基于这样的理解:在一批语言的每两种语言之间,只要求将每一个成语语言翻译成中间语言(interlingua),再从中间语言翻译成某种语言。如果有n种语言,就需要n个成员被翻译成目标语言。但Arnold等(1995)对这种方法不以为然,认为使用中间语会导致信息的丢失。

2.4基于知识的方法

近来的趋势是转向基于知识的机器翻译,这是由Carnegie Mellon大学与新墨西哥州立大学的语言研究中心创导的。Arnold等(1995)认为需要3种知识来改进机器翻译系统。

(1)不依赖语境的语言学知识(语义学)。研究者将词语和语义特征联系起来,从而能对其他出现的词语加以制约。

(2)依赖语境的语言学知识,有的成为语用知识(语用学)。有多种方法处理语用学问题,其中之一是学习句子焦点的概念。

(3)常识/真实世界的知识(非语言学知识)

前两类是针对语言本身的,问题不是最大,计算机缺乏真实世界的知识才使研究人员苦恼不已。例如,计

算机不能发现一个可吃的苹果和个人计算机苹果品牌之间的区别,也不能说明汉语中“山顶”的“顶”、“顶风”的“顶”和“顶好”的“顶”的不同意义。多少年来,正是这样的问题不仅困扰机器翻译的理论家,也困扰神经网络和人工智能的研究者。

随着语料库语言学的发展,最近研究者转向基于例句的机器翻译的研究。该方法将正确的翻译作为信息资源,以建立新的翻译作品。

3转换生成语法――机器翻译的语言学理论支撑

机器翻译作为一门交叉学科,涉及到多学科的理论支持,其中语言学为机器翻译提供了文本的语法和语义的规范基础,尤其是美国语言学家诺姆?乔姆斯基(Noam Chomsky)提出的转换生成语法。该语法经过不断修正和改进,探索了人类语言的本质、起源和人类普遍语法的深层机制。乔姆斯基提出表层结构和深层结构能够对语义进行语法和句法分析。借由他的理论,可以对词典中的词条进行描述,分析机器翻译中的词义,从而有效地避免语义错误。乔姆斯基的理论给计算机科学的发展带来了革命性的变化,也推动了机器翻译的发展。

4机器翻译存在的问题

一是自然语言中普遍存在各种歧义、未知现象,以及层出不穷的新词热词。歧义;导致歧义有两个原因,一是自然语言中固有的歧义现象,包括词汇歧义和语法歧义;另一个是由于语言、文化间的差异产生的歧义。一个句子如果有以上问题,就可能表达两种或多种意思,容易给机器造成理解上的偏差和误解。而是机器翻译自身的局限,正如翻译不应该是单纯字对字的转换,理想的机器翻译也并不是仅仅是字符串的转换。机器翻译是人工翻译的模拟,它能帮助译者完成大量简单的翻译工作,但做不到像译者那样灵活。译者可以根据原文、结合语境、自己的生活经验、双语知识和相关文化背景来对原文进行理解,对原文进行自由组合、增加或删减,也可以适当添笔修饰润色。在不违背原文又考虑到译入语的情况下,译者有足够的翻译自由。但机器翻译不同,它的翻译过程是建立在严密的逻辑程序基础上的,它没有思考、判断、推理、修改的能力,机器翻译永远不可能真正地替代译者。

5解决方案

机器翻译如果想得到长足的发展,必须采取一些相应的措施。

5.1加强系统中词典的研究

机器翻译中的词典是为语言处理程序提供源语言基本构成元素所具有的各种相关词法、语法、词义、语义、语用、常识等方面信息,包括目标语言的对译关系的一个复杂特征信息集合。它是自然语言处理程序赖以对源语言进行分析加工的主要信息来源。

面向机器翻译的词典配备各种语言学知识。例如固定搭配和固定句型的知识等。把固定搭配和固定句型等相对稳定的英语用法以词条的形式构成专项典。该方法可有效地避免很大一部分的词义选择的错误。还要加强词典的结构建设,以便最优地综合利用词中的信息, 对原语进行分析加工处理。

5.2寻求复杂多义区分的途径

多义区分是机器翻译研究中最难解决的问题。现有系统使用的方法一般都是通过深入分析原文输入, 并把它转化为不含多义性的一种内部结构表示,如带有注释或词义作为终极节点语法分析树。多义问题的解决,其关键在于如何通过对原语言的深入分析排除多义性。这就要求词典提供尽可能全面的, 根据特定的上下文相关性选择词义的搭配、语用、语境等基本信息。这些信息可以语义限定的方式记载在词典中。以序数词为例,限定在一个英文句子中,当序数词之后出现1至12月份中的任何一个月份名称时,则该序数词译为相应的基数词加上“号”。

5.3重视系统中上下文相关处理

所谓上下文,一般是指一个语言结构成分或意段的语法或语义属性的选择,与其上下文中的某一位置的结构成分或意段的语法或语义特性的当前值有关。在现有大多数实用文法系统中,这种成分之间的相关性只能解决规则内成分的相关性,而规则外成分间的相互关系基本上都回避了。因此,根据自然语言的这种上下文相关性,分析总结自然语言中的上下文相关现象的各种规律,并使这些现象的处理能够直接被结构分析规则所支持,是

完善MT系统的一个重要方面。

5.4设计强有力的文法体系

文法体系的设计,应打破以往以句法为主的局面,要充分发挥语义在体系中的主导作用。以基于语义的格语法和依存语法为理论基础的文法体系,就曾在机器翻译中显示出独特的优势。虽然,语义与句法相比变化更为复杂,但它可以成功地回避英汉语言间结构上的差异。随着计算机存储量的增加和处理速度的提高,复杂的语义是可以被系统很好地解决的。英汉机器翻译的实现,是加强中国与世界联系和合作的有效途径。提高系统的译文质量要靠各方面专业人士的共同努力,尤其是不可忽视语言学者的参与。对现行系统中存在的诸多问题要给予足够的重视。多设立专题研究,在考虑全局的条件下,把研究工作做深做细,争取各个有所突破。英汉机器翻译不容忽视,相信随着语言学理论和计算机技术的发展,英汉机器翻译一定会逐步走向成熟。

6结语

机器翻译自19世纪60年代以来,历经不同时期,目前虽已形成稳定的发展模式,仍需要各方面的努力使之趋于完善。全球化、科技化日益发展的今天,国家间交流频繁,机器翻译的重要性愈加凸显。然而,不成熟的机器翻译体系还不能实现高质量的纯机器译本,这需要计算机科学、语言学及其他相关学科的人员相互配合,不断完善翻译技术。期待在不久的将来,机器翻译可以得到一个质的飞跃,更好地服务社会生活的各个领域。

参考文献

[1]Arnold,D.,Balkan,L.,Meijer,S.,Humphreys,R. L.,Sadler,L. Machine Translation:An Introductory Guide[M].University of Essex,1995.

[2]Biber,Douglas,Susan Conrad and Randi Reppen. Corpus Linguistics[M]. Cambridge:Cambridge University Press,1998.

[3]Carnie,Andrew. Syntax:A Generative Introduction[M]. USA:BLACKWELL PUBLISHING. 2007.

[4]Chomsky,N. Aspects of the Theory of Syntax[M]. Cambridge,Mass:MIT Press,1965.

[5]Grishman,R. Computational Linguistics:An Introduction[M]. Cambridge:Cambridge University Press,1986.

[6]冯志伟.机器翻译研究[M].北京:中国对外翻译出版公司,2004.

[7]胡壮麟.语言学教程[M].北京:北京大学出版社,2007.

[8]易绵竹,南振兴.计算机语言学[M].上海:上海外语教育出版社,2005.

[9]张政,苗天顺.计算语言学与机器翻译导论[M].北京:外语教学与研究出版社,2010.

机器翻译技术的现状及发展

机器翻译技术的现状及发展 篇一:翻译技术领域的现状与展望 翻译技术领域的现状与展望 作者/王华伟闫栗丽 翻译技术在中国的发展起步相对较晚,但近年来随着中国在全球化进程中扮演着越来越重要的角色,催生了对翻译技术发展的强烈需求。中国翻译行业在借鉴国外同行经验的基础上,于2007~2008年间在翻译技术领域取得了一系列成就,也还存在一些亟需改进的方面,而这也势必对我国的翻译行业产生深远的影响。 1. 国家政策的扶持和行业协会的推动 翻译技术的发展直接关乎整个翻译行业的翻译质量及效率,具备巨大的行业经济效益。对此,科技部、财政部都给与了足够的重视并拨出专项资金进行扶持。在 2008年的科技型中小企业技术创新基金扶持计划中,中文及多语种处理软件及基于先进语言学理论的中文翻译软件等赫然在列。而中国译协也在 2008年的第 18届世界翻译大会上专门辟出了翻译工具、术语管理和翻译标准等分论坛,着力推动翻译技术的探讨与发展。 2. 词典型翻译软件百花齐放 词典是使用范围最广的工具,它以使用便利的优势,几乎占据了每个计算机的桌面,无论语言学习者还是专业翻译人员,几乎都是必备工具。词典的发展从最早的单机版本发展至今,已经有很多种产品

类型,我们可以见到的有:电子词典、在线词典、手机词典等。“金山词霸”的网络版本“爱词霸”在这两年获得了长足的发展,如爱词霸网络释义、谷歌金山词霸等一系列特色功能的相继推出,将词典型翻译软件的应用领域从传统的桌面计算机拓展到网络、手机等,并取得了显著的成功。另外,类似Google这样的搜索引擎,因为信息量大,检索便利而成为很多专业翻译人员查词的重要辅助工具。 值得一提的是,最新推出的基于用户发布词汇的词典编撰系统之前的词典都是以各大出版社公开发行的词典中的词条作为主要数据库来源,为用户提供查询上的便利。但是传统出版词典的方式存在发布周期长、词汇更新慢的缺陷。互联网的出现,加快了信息传播的速度,也提高了用户对新词更新的速度要求,为了方便新词汇的发布,词典编纂系统也就应运而生了。这是一种基于用户的词典发布系统,用户可自由发起词典编纂项目,自发组织人员参与项目,发起人可以按照需要给小组成员分配不同的权限,将词汇添加等基本工作和审核人员明确区分,既确保了词典的专业性,也实现了专业语料的适时更新和发布。 3. 机器翻译应用软件融入普通网民生活 谷歌语言工具的推出打破了互联网语言的藩篱,用户可以方便简捷地将目标语言的网页转化成自己的母语进行浏览。事实上,这也是机器翻译软件的一个应用领域,而国内的相关软件如金山快译等,专注于为普通网民提供更为友好的英中日网站浏览体验,并在亚洲语言的机器翻译应用方面积累了大量的经验。其他如华建等长期从事机器

机器翻译技术介绍

机器翻译技术介绍
常宝宝 北京大学计算语言学研究所 chbb@https://www.360docs.net/doc/b718508046.html,

什么是机器翻译
研究目标:研制出能把一种自然语言(源语言)的文 本翻译为另外一种自然语言(目标语言)的文本的计 算机软件系统。 制造一种机器,让使用不同语言的人无障碍地自由交 流,一直是人类的一个梦想。 随着国际互联网络的日益普及,网上出现了以各种语 言为载体的大量信息,语言障碍问题在新的时代又一 次凸显出来,人们比以往任何时候都更迫切需要语言 的自动翻译系统。 但机器翻译是一个极为困难的研究课题,无论目前对 它的需求多么迫切,全自动高质量的机器翻译系统 (FAHQMT)仍将是人类一个遥远的梦。

机器翻译的基本方法
机器翻译的基本方法 ? 基于规则的机器翻译方法 ? 直接翻译法 ? 转换法 ? 中间语言法 ? 基于语料库的机器翻译方法 ? 基于统计的方法 ? 基于实例的方法 ? 混合式机器翻译方法
目前没有任何 一种方法能实现机 器翻译的完美理 想,但在方法论方 面的探索已经使得 人们对机器翻译问 题的认识更加深 刻,而且也确实带 动了不少不那么完 美但尚可使用的产 品问世。
20世纪90年代以前,机器翻译方法的主流一直是基于规则的方 法,不过,统计方法后来居上,目前似乎已成主流方法,从学术 研究的角度看,更是如此。(Google translate)

机器翻译的基本方法
20世纪90年代以前,机器翻译方法的主流一直是基于 规则的方法,因此基于规则的方法也称为传统的机器 翻译方法。 直接翻译法 ? 逐词进行翻译,又称逐词翻译法(word for word translation) ? 无需对源语言文本进行分析 ? 对翻译过程的认识过渡简化,忽视了不同语言之间 在词序、词汇、结构等方面的差异。 ? 翻译效果差,属于早期过时认识,现已无人采用 How are you ? 怎么 是 你 ? How old are you ? 怎么 老 是 你 ?

机器翻译

机器翻译 1 概述 机器翻译(machine translation),又称为自动翻译,是利用计算机把一种自然源语言转变为另一种自然目标语言的过程,一般指自然语言之间句子和全文的翻译。它是自然语言处理(Natural Language Processing)的一个分支,与计算语言学(Computational Linguistics )、自然语言理解( Natural Language Understanding)之间存在着密不可分的关系。 2 国内外现状 机器翻译思想的萌芽关于用机器来进行语言翻译的想法,远在古希腊时代就有人提出过了。在17世纪,一些有识之士提出了采用机器词典来克服语言障碍的想法。笛卡(Descartes)和莱布尼兹(Leibniz)都试图在统一的数字代码的基础上来编写词典。在17世纪中叶,贝克(Cave Beck)、基尔施(Athanasius Kircher)和贝希尔(Johann JoachimBecher)等人都出版过这类的词典。由此开展了关于“普遍语言”的运动。维尔金斯(JohnWilkins)在《关于真实符号和哲学语言的论文》(An Essay towards a Real Character andPhilosophical Language, 1668)中提出的中介语(Interlingua)是这方面最著名的成果,这种中介语的设计试图将世界上所有的概念和实体都加以分类和编码,有规则地列出并描述所有的概念和实体,并根据它们各自的特点和性质,给予不同的记号和名称。本世纪三十年代之初,亚美尼亚裔的法国工程师阿尔楚尼(G.B. Artsouni)提出了用机器来进行语言翻译的想法,并在1933年7月22日获得了一项“翻译机”的专利,叫做“机械脑”(mechanical brain)。这种机械脑的存储装置可以容纳数千个字元,通过键盘后面的宽纸带,进行资料的检索。阿尔楚尼认为它可以应用来记录火车时刻表和银行的帐户,尤其适合于作机器词典。在宽纸带上面,每一行记录了源语言的一个词项以及这个词项在多种目标语言中的对应词项,在另外一条纸带上对应的每个词项处,记录着相应的代码,这些代码以打孔来表示。机械脑于1937年正式展出,引起了法国邮政、电信部门的兴趣。但是,由于不久爆发了第二次世界大战,阿尔楚尼的机械脑无法安装使用。1903年,古图拉特(Couturat)和洛(Leau)在《通用语言的历史》一书中指出,德国学者里格(W. Rieger) 曾经提出过一种数字语(Zifferngrammatik),这种语法加上词典的辅助,可以利用机械将一种语言翻译成其他多种语言,首次使用了“机器翻译” (德文是ein mechanisches Uebersetzen)这个术语。 真正对机器翻译进行研究应该说是从布恩和韦弗开始的。他们研究的是自动词典万, 从1954年1月7日公开展示的IBM701型计算机开始, 机器翻译进人一个繁荣发展的时期。从那时起, 很多国家都投人了大量的人力、物力从事这方面的研究和开发。随着 Internet 的普遍应用,世界经济一体化进程的加速以及国际社会交流的日渐频繁,传统的人工作业的方式已经远远不能满足迅猛增长的翻译需求,人们对于机器翻译的需求空前增长,机器翻译迎来了一个新的发展机遇。国际性的关于机器翻译研究的会议频繁召开,中国也取得了前所未有的成就,相继推出了一系列机器翻译软件,例如“译星” 、“雅信” 、“通译” 、“华建”等。在市场需求的推动下,商用机器翻译系统迈入了实用化阶段,走进了市场,来到了用户面前。 中国机器翻译研究起步于1957年,是世界上第4个开始搞机器翻译的国家,60年代中期以后一度中断,70年代中期以来有了进一步的发展。现在,中国社会科学院语言研究所、中国科学技术情报研究所、中国科学院计算技术研究所、黑龙江大学、哈尔滨工业大学等单位都

一个汉英机器翻译系统的设计与实现

一个汉英机器翻译系统的 计算模型与语言模型* 刘群+詹卫东++常宝宝++刘颖+ (+中国科学院计算技术研究所二室北京100080) (++北京大学计算语言学研究所北京100871) 摘要:本文介绍我们所设计并实现的一个汉英机器翻译系统。在概要介绍本系统的主要目标和设计原则的基础上,着重说明系统的计算模型和语言模型,最后给出实验结果和进一步的打算。 关键词:自然语言处理机器翻译中文信息处理 一、引言 我国的机器翻译研究近年来取得了很大的发展。特别是英汉机器翻译系统的研制已经取得了较大的成功,达到了初步实用的阶段。相对而言,汉英机器翻译的研究却进展比较缓慢,离实用化还有相当的距离[1]。我们的目的是利用目前最新的计算机软件技术、相对成熟的机器翻译方法和先进的汉语语法理论,构造一个初步实用的汉英机器翻译系统。本文将对我们所开发的系统所采用的计算模型和语言模型作一个总体性的介绍,而不涉及过多的细节。 下面我们简要介绍一下本系统的几个主要设计原则: ⑴采用成熟的技术 我们的目的是构造一个真正实用的汉英机器翻译系统,因而在可供选择的若干技术路线面前,我们将尽量选用比较成熟的技术,而在现有技术难以解决问题时再尝试一些新技术。 ⑵开放的体系结构 开放的体系结构主要体现在系统的实现上所采用的软件构件技术[8]。整个系统采用一些相对独立的软件构件组成,因而可以方便地对系统进行修改、维护和扩充。翻译的过程严格按照独立分析、独立生成的原则进行组织,每一阶段的算法相互独立,对其中一个阶段算法的修改不会对其他算法造成影响。 ⑶方便的调试环境 本系统强调为语言工作者提供一个方便的调试环境。系统提供多窗口图形界面的知识库调试工具,支持课题组中多人同时通过网络对一个知识库进行操作。提供对翻译过程直观显示,用户可以清晰地看到翻译过程的每一步操作。提供翻译出错原因查找机制,用户 *本项目的研究受到863-306资助,合同号为863-306-03-06-2

机器翻译研究现状与展望1 Machine TranslationPast,Present,future

机器翻译研究现状与展望1 戴新宇,尹存燕,陈家骏,郑国梁 (南京大学计算机软件新技术国家重点实验室,南京 210093) (南京大学计算机科学与技术系,南京 210093) 摘要:本文回顾机器翻译研究的历史,介绍典型的机器翻译方法,包括:基于规则、基于统计以及基于实例的机器翻译方法;针对机器翻译的研究现状,详细介绍和分析了基于混合策略的机器翻译方法,对统计以及机器学习方法在机器翻译中的应用进行了描述;论文还介绍了当前机器翻译评测技术;最后对机器翻译进行总结和展望。 关键字:机器翻译,基于规则,基于统计,基于实例,混合策略,机器学习 Machine Translation:Past,Present,future Dai Xinyu, Yin Cunyan, Chen Jiajun and Zheng Guoliang (State Key Laboratory for Novel Software Technology, Department of Computer Science & Technology Nanjing University, Nanjing 210093) Abstract:This paper firstly presents the history of machine translation, and introduces some classical paradigms of machine translation: RBMT, SBMT and EBMT. Secondly, we introduce the recent research on machine translation, and describe the hybrid strategies on machine translation in detail, and discuss the applications of machine learning for machine translation. We also analyze the current techniques about evaluation on machine translation. Finally, we draw a conclusion and prospect on the research of machine translation. Keywords:Machine Translation, RBMT, SBMT,EBMT, HSBMT, Machine Learning. 1本论文工作得到863课题资助(编号:2001AA114102, 2002AA117010-04) 戴新宇博士生,主要研究自然语言处理;尹存燕助教,主要研究自然语言处理;陈家骏教授,博士生导师,主要研究自然语言处理、软件工程;郑国梁教授,博士生导师,主要研究软件工程。

机器翻译研究综述

机器翻译综述 1.引言 1.1机器翻译的历史 现代机器翻译的研究应该是从20世纪50年代开始,但是早在这以前很多人已经提出了相应的想法,甚至是远在古希腊时期就有人提出要用机器来进行语言翻译的想法。 在1946年,美国宾夕法尼亚大学的两位科学家设计并制造了世界上第一台电子计算机。与此同时,英国工程师同美国洛克菲勒基金会副总裁韦弗在讨论计算机的应用范围时,就提出了利用计算机实现语言的自动翻译的想法。在1949年,韦弗发表了一份名为《翻译》的备忘录,正式提出了机器翻译问题。他提出了两个主要观点: 第一,他认为翻译类似于解读密码的过程。 第二,他认为原文与译文“说的是同样的事情”,因此,当把语言A翻译为语言B时,就意味着从语言A出发,经过某一“通用语言”或“中 间语言”,可以假定是全人类共同的。 在这一段时间由于学者的热心倡导,实业界的大力支持,美国的机器翻译研究一时兴盛起来。 1964年,美国科学院成立语言自动处理咨询委员会,调查机器翻译的研究情况,给出了“在目前给机器翻译以大力支持还没有多少理由”的结论,随后机器翻译的研究就陷入了低潮期。直到70年代以后机器翻译的研究才重新进入了一个复苏期,随后机器翻译的发展又迎来了繁荣期 1.2机器翻译的主要内容 经过50多年的发展,在机器翻译领域中出现了很多的研究方法,总结如下:●直接翻译方法 ●句法转换方法 ●中间语言方法 ●基于规则的方法 ●基于语料库的方法 基于实例的方法(含模板、翻译记忆方法) 基于统计的方法 在当前的研究中,更多的是基于统计的方法进行的,因为基于统计的方法可以充分的利用计算机的计算能力,并且并不需要过多的语言学知识作为支撑,可以让更多的计算机科学家投入到实用系统的研究中,极大的促进了统计机器翻译的发展。 下面对各个方法逐一的进行介绍。

浅谈机器翻译存在的问题

机器翻译及其问题浅析 摘要:由于信息技术高速发展,国际交流日益频繁,如何克服语言障碍已经成为国际社会共同面对的问题,而人工翻译的方式已经远远不能满足需求。利用机器翻译协助人们快速获取信息已成为必然趋势,但机器翻译仍存在一些影响译文可读性和准确性的问题。本文将简单介绍机器翻译并对常见问题进行浅析。 关键词:机器翻译问题语法应用 一、引言 机器翻译(Machine Tanslation,简称MT),又称自动翻译,是利用计算机来进行不用的自然语言之间的翻译,它是自然语言处理(Natural Language Processing)的一个分支,与计算语言学(Computational Linguistics )、自然语言理解(Natural Language Understanding)之间存在着密不可分的关系。它是横跨语言学、数学、计算机科学、翻译学及人工智能等的综合学科,也是信息时代语言应用的一个重要领域。 二、机器翻译的简介 (一)机器翻译简史 人类在近代就萌发了机器翻译的梦想,但是真正把设想付诸现实还是因为计算机的诞生和计算机技术的发展。机器翻译的研究历史课追溯到20世纪四五十年代。1946年第一台现代电子计算机ENIAC诞生,同一年,美国科学家韦弗(W. Weaver)和英国工程师布斯(A. D. Booth)在讨论电子计算机的应用范围时,提出了利用计算机进行语言自动翻译的想法。1949年,韦弗(W. Weaver)发表《翻译备忘录》,正式提出机器翻译的思想。经过六十年的曲折发展,到目前互联网的普遍应用,以及人们对翻译需求的迅猛增长,给机器翻译带来新的发展机遇。我国相继推出了一系列的机器翻译软件如“译星”、“雅信”、“通译”、“华建”等。在市场需求的推动下,商用机器翻译系统迈入了实用化阶段,走进了市场,来到了用户面前。 (二)机器翻译的主要方法 机器翻译的过程一般可简化为三个阶段:原文分析、原文译文转化和译文生成。表象上,机器翻译的核心问题是翻译的准确性;实质上,体现在技术层面则是机器翻译系统采用的方法论问题。在方法论层面,机器翻译系统可分为基于规则(Rule-Based )和基于语料库(Corpus-Based)两大类。 基于规则(Rule-Based )就是由词典和语法规则库构成翻译知识库。尽管语言学家经过长期努力创建了含有成千上万条规则的规则库,覆盖了相当大范围的语言现象,但却难以

机器翻译技术的现状及发展

机器翻译技术的现状及发展 摘要:本文在分析机器翻译内涵的基础上,阐述了机器翻译的历史和现状,探讨了机器翻译所面临的问题及机器翻译的发展趋势。 关键词:机器翻译;自然语言;发展趋势 1.引言 《圣经.创世纪》中第十一章巴别塔:“耶和华说:看哪,他们成为一样的人民,都是一样的言语,如今既作起这事来,以后他们所要作的事就没有不成就的了。我们下去,在那里变乱他们的口音,使他们的言语彼此不通。于是耶和华使他们从那里分散在全地上;他们就停工,不造那城了。因为耶和华在那里变乱天下人的言语,使众人分散在全地上,所以那城名叫巴别(就是变乱的意思)[1]。”这只是圣经故事,但告诉我们语言的不同确实是人们交流的极大障碍,因此人们一直在寻找打破语言障碍的途径和办法。翻译则能克服语言障碍,使得不同语言人们之间能相互交流。谭载喜在他的《西方翻译简史》一书中提到我国的翻译史时说:孔子周游列国,在各地言语发音不尽相同,彼此交流甚少的当时,也不得不通过象寄之才(即翻译人员)以“达其意,通其欲”。随着互联网的日益发展,网络信息的激增,国际社会交流愈加频繁,机器翻译已成为克服交流时所产生的语言障碍的重要手段之一。

2.机器翻译的定义 计算机翻译通常叫机器翻译(Machine Translation或MT),即全自动高质量机器翻译(Fully Automatic High Quality Machine Translation,简称FAHQMT或MT),就是人类利用计算机进行自然语言间的相互翻译,利用软件实现从一种自然语言文本到另一种自然语言文本的翻译[2]。 3.机器翻译的历史与现状 在古希腊时代就有人提出利用机械装置来进行语言翻译的想法,其中之一是如何用机械手段来分析自然语言。17世纪,人们首次提出使用机械字典克服语言障碍的设想。1903年,古图拉特(Couturat)和洛(Leau)在《通用语言的历史》一书中指出,德国学者里格(W.Rieger)首次使用了“机器翻译”(Machine Translation)这个术语。1952年在美国麻省理工学院(MIT)召开了第一届国际机器翻译会议,标志着机器翻译正式迈出了第一步。1978年在中科院计算机所的一台64K容量的计算机上成功地进行了20个标题的机器翻译测试。1987年在日本箱根举行了第一届机器翻译峰会(MT Summit),并决定以后每两年轮流在亚、欧、美定期举行。20世纪90年代后,随着微机的普及,相继出现了多种翻译软件,例如金山公司的词霸系列,实达铭泰的东方快车系列,Trados 翻译软件等。到目前为止,由于计算机科学、语言学研究的发展,特别是计算机硬件技术的大幅度提高以及人工智能在自然语言处理上的应用,机器翻译已经取得了相当大的进步,不过,机器翻译的水平距理想的“全自动高质量(FAHQ)”的目标还有很远的距离[3]。4.机器翻译面临的问题 4.1影响机器翻译质量的核心是歧义的处理。在词汇的层面上,词汇的歧义主要是一词多义,如英语单词“note”可以指“笔记”、“短信”、“注释”、“纸币”等。以下是词汇歧义的例子: 原文:Thank-you notes are heart-warming. 机器译文:感谢笔记温暖人心。人工译文:感谢信温暖人心。 在结构层面上,常见的结构歧义有and(和)结构,如nice girls and boys, 它既可表示“好女孩和男孩”,也可表示“好女孩和好男孩”,这种歧义只有人工翻译才能消除,计算机无法识别此歧义,可见歧义的处理是影响机器翻译质量的关键。 4.2人类翻译目标集中于目标语言,如果有必要的话,译者会采用灵活的方式以使翻译传情达意,有的时候会使用意译的方法,这是机器翻译所无法达到的。 以文学翻译为例,文学翻译是“传达作者的全部意图,即作者对在读者思想感情上产生艺术作用的全部意图……”。即使对于专业翻译工作者来说,文学翻译也不是件容易的事,更何况是对于没有任何认知能力的机器。笔者曾让机器翻译了下面几句:以下是美国19世纪著名作家爱默森长篇散文Beauty中的原句。 原文:"But this beauty of Nature which is seen and felt as beauty, is the least part." —Beauty Ralph Waldo Emerson 机器译文:但是这哪个看见并且作为美丽感到的自然的美丽,是最小部分。 夏济安译文:可是凡是耳目所能辨认出来的美,只是自然之美的最低部分。 以下是美国著名作家马克.吐温早期创作的一则优秀短篇小说《竞选州长》中的原句。原文:"I hauled down my colors and surrendered." —Running For Governor Mark Twain 机器译文:我沿着我的颜色拖并且投降。 张有松译文:我偃旗息鼓,甘拜下风。 以上机器译文荒唐可笑。由于机器没有思维、推理、判断能力,缺乏人工译者的综合知识和长期积淀下来的文化知识等,无法对原文产生全面的了解,做的只是机械转码,无法突破思维障碍。要获得地道完整的译文,必须对机器译文进行人工

机器翻译技术的研究和应用综述

机器翻译技术的研究和应用综述 ACM Matrix_68 摘要:随着互联网的日益发展,网络信息的激增,国际社会交流愈加频繁,机器翻译已成为克服交流时所产生的语言障碍的重要手段之一。本文回顾机器翻译研究的历史,介绍典型的机器翻译方法,在分析机器翻译内涵的基础上,阐述了机器翻译的现状,探讨了机器翻译所面临的问题及机器翻译的发展趋势,对统计以及机器学习方法在机器翻译中的应用进行了描述;论文还介绍了当前机器翻译评测技术;最后对机器翻译进行总结和展望。 关键字:机器翻译;自然语言;基于规则;基于统计;基于实例;混合策略;机器学习 1引言 近年来,自然语言处理的研究已经成为热点,而机器翻译作为自然语言研究领域的一个重要分支,同时也是人工智能领域的一个课题,同样为大家所关注。当电子计算机1946年问世的时候,人们就提出了机器翻译的想法,并且在1954年进行了第一次机器翻译试验。然而与后来的各种语言信息处理研究和应用(语言信息检索、文本自动分类、自动文摘、信息提取等等)相比,机器翻译却是进展最慢的。 从上个世纪40年代英国工程师Booth 和美国工程师Weaver提出利用计算机进行翻译的想法,到50年代欧美国家投入大量的人力、物力致力于机器翻译的研究,再到60年代ALPAC置疑报告的提出,机器翻译走向沉寂。 学者们倾其大半生精力、商家投入为数可观的资金,经历五十多年不懈的研究和开发,得到的成果或者产品却常常不能令人满意。最近的二十年,随着语言学理论的发展、计算机技术的进步以及统计学和机器学习 方法在自然语言处理领域中的广泛应用,人们对机器翻译本身的应用背景、目标等也有了更加准确的认识,机器翻译在此背景下取得了长足的发展,基于统计、基于实例等新的机器翻译方法也都是在这一时期出现,一些机器翻译系统也从实验室走向了市场。 本文第二节介绍了机器翻译的历史现状;第三节介绍了机器翻译面临的问题;第四节介绍几种经典的机器翻译方法;第五节给出近期机器翻译的发展趋势,介绍基于混合策略的机器翻译方法,对统计机器学习在机器翻译中的应用进行总结;第六节讨论当前机器翻译的评测系统;最后,对机器翻译研究进行总结和展望。 2机器翻译的历史现状 机器翻译的研究历史可以追溯到20世纪三四十年代。20世纪30年代初,法国科学家G.B.阿尔楚尼提出了用机器来进行翻译的想法。1933年,苏联发明家П.П.特罗扬斯基设计了把一种语言翻译成另一种语 言的机器,并在同年9月5日登记了他的发明;但是,由于30年代技术水平还很低,他的翻译机没有制成。1946年,第一台现代电子计算机ENIAC诞生,随后不久,信息论的先驱、美国科学家W.Weaver和英国工程师A.D.Booth在讨论电子计算机的应用范围时,于1947年提出了利用计算机进行语言自动翻译的想法。1949年,W.Weaver发表《翻译备忘录》,正式提出机器翻译的思想。走过六十年的风风雨雨,机器翻译经历了一条曲折而漫长的发展道路,学术界一般将其划分为如下四个阶段: 2.1机器翻译的开创期(1947-1964) 1954年,美国乔治敦大学(GeorgetownUniversity)在IBM公司协同下,用IBM-701计算机首次完成了英俄机器

机器翻译的现状和发展趋势_岳涛

72 计算机教育 2005.4 人/才/培/养/与/就/业机器翻译(Machine Trans-lation)是通过计算机来实现不同自然语言之间的翻译。机器翻译是自然语言处理(Natural LanguageProcessing)的一个分支,机器翻译与计算语言学(ComputationalLinguistics)、自然语言理解(Natural Language Understanding)存在着密不可分的关系。机器翻译的研究与发展取决于计算机科学、数学、语言学、人工智能等多学科的发展,因此机器翻译可以说是一个跨学科的综合性系统工程。人类步入21世纪以来,随着国际互联网(Internet)的迅猛发展,网络信息急剧膨胀,国际交流日益频繁以及地球村的形成,机器翻译正在逐渐成为克服人们之间进行交流时所面临的语言障碍的重要手段,同时也面临着很大的市场机遇和挑战。 历史的回顾 从美国人维弗(Warren?Weaver)于1949年发表《翻译》备忘录并正式提出机器翻译的思想以来,机器翻译已经走过了50多个风风雨雨的春秋。在这期间,机器翻译可以说经历了一条曲折而漫长的 发展道路。 1954年,在美国乔治敦大学(Georgetown University)进行了 人类历史上的第一次机器翻译的公开演示。尽管演示尚不算很成功,但是它却具有划时代的意义,因为它拉开了人们研究机器翻译 的序幕。 从20世纪50年代开始到20世纪60年代的前半期,机器翻译的研 究呈不断上升的趋势。美国和前苏联两个超级大国出于军事和政治经济目的,纷纷对机器翻译项目提供了大量的资金支持,而欧洲国家由于地缘政治和经济的需要也对机器翻译研究给予了相当大的重视。 1966年,美国科学院发表的ALPAC报告使当时正在蓬勃发展的机器翻译陷入了停滞的状态。现在来看,该报告是非常片面、狭隘和短视的。 从20世纪60年代中后期到整个70年代,整个机器翻译领域处于一个相对平稳发展的时期,而在某些国家,特别是加拿大和欧盟,机器翻译的研究却取得了比较显著的进步。尤其是在加拿大,由于双语文 化的影响,政府积极支持机器翻译的研发工作,1976年,加拿大蒙特利尔大学与加拿大联邦政府翻译局联合开发了提供天气预报服务的实用性机器翻译系统TAUM-METEO,该系统的成功开发标志着 机器翻译已经在某些领域达到了实用化的程度。 进入20世纪80年代以来,由于计算机科学、语言学研究的发展,特别是计算机硬件技术的大幅度提高以及人工智能在自然语言处理上的应用,机器翻译在全世界范围内开始复苏,并在随后的90年代取得了长足的进步。 20世纪90年代以来的机器翻译技术的新进展 1.机器翻译的分类 进入20世纪90年代,机器翻译领域的的研究方法基本上可以分为两大类,即基于规则(Rule-Based)和基于语料库(Corpus-Based)的方法。基于规则的方法又可以分为基于转换的方法和基于中间语言的方法,基于语料库的方法又可以分为基于统计的方法和基于实例的方法。传统的基于规则的方法又可以 机器翻译的现状和发展趋势 中国软件与技术服务股份有限公司 岳涛/文 ◆ 课外新知 ◆

机器翻译现状

机器翻译的现状与发展 摘要:随着经济全球化的飞速发展以及人类命运共同体的提出,各国之间人民之间的交流必将日益频繁,各个国家语言之间转换需求也必定与日俱增,人为地学习千百种语言实在不易,机器翻译的作用也就越来越受到重视。它涉及计算机语言学、数学和语言学等各个学科,其中语言学为其提供了机译数据库和技术支撑。然而,目前机器翻译还存在许多不足,需要多方面深入研究。本文对机器翻译发展历程、研究方法、存在问题及其应对方法进行了综述,以期机器翻译更进一步发展。 关键词:机器翻译;发展历程;研究方法;语言学理论;问题;应对方法 机器翻译是通过计算机来实现不同自然语言之间的转换,也称为自动翻译,一般是指自然语言之间的部分句子或全文的翻译。它作为应用语言学的一个分支,是建立在语言学、数学和计算机科学基础上的跨学科研究。由于需要通过电脑数据库和翻译软件来完成操作,因此,机器翻译的发展与计算机科学、数学、人工智能、语言学等各学科的发展密不可分,可以说,机器翻译的推进需要这些学科的技术支撑和理论支持。人类进入21世纪以来,随着经济的发展,国际交流合作日益频繁,对机器翻译的需求日益增大。机器翻译是规避国家间交流障碍的有效手段,但作为综合性的学科,它的发展受到多方面牵制,因此需要相关研究人员和学者对其相关学科进行更深入的研究。 1机器翻译发展历史 机器翻译的历史最早可以追溯到20世纪30年代相关学者提出其雏形,如今处于高速发展的阶段。然而在初期机器翻译受到过阻碍,一度陷入低潮期。直到移动互联网时代的到来,一方面,随着计算机网络技术快速发展,人们要求用计算机实现语言翻译的愿望越来越强烈。另一方面自1990年统计机器翻译模型提出以来,基于大规模语料库的统计翻译翻译方法迅速发展,机器翻译再次成为人们关注的热门研究课题,取得了一些令人瞩目的成果。但是,在机器翻译飞速发展的同时,也遇到了很多难题,在目前的技术条件下翻译的质量还不能够达到人们的期望的程度,想让机器让人类一样去理解和分析语言还远不能行。在当今信息大数据时代,机器翻译正发挥越来越重要的作用。 机器翻译的发展可以归结为以下几个发展阶段: 1.1机器翻译人员的独立工作阶段 20世纪50年代初期,随着第一台计算机的问世,美国的科学家W.Weaver和英国工程师A.D. Booth就发表了翻译备忘录,提出了利用计算机进行翻译的设想。随后,通过不懈的努力和试验,美国的乔治伦敦大学和IBM公司合力推出了首个MT系统,为各国的机器翻译奠定了坚实的实践基础。但是由于受到计算机硬件局限性的限制,尤其是内存不足和存储速度慢,以及缺乏高级编程语言,研究人员无法完全依赖机器来完成大规模、高质量的翻译任务。同时,由于研究是在没有句法学家和语义学家的协助下独立进行的,翻译的质量难以保证。 在这样的背景下,早期研究者意识到,无论开发出什么样的系统都只能产生出低质量的输出,因此专家建议,先发展对有控制的语言进行翻译,并限定于某些特定领域。 1.2进入高质量的翻译输出 20世纪60年代,受到改进了的计算机硬件和编程语言的鼓舞,研究人员对机器翻译产生了盲目的乐观。编程语言在句法分析上取得的长足进步让翻译人员感受到了技术革新的成果,他们相信机器翻译有巨大的前景,几年之内就可以达到高质量的输出,这一乐观论调很快传遍了全世界。研究人员还提出假设:机器翻译的目标是产出高质量翻译的全自动系统。研究的重点在于寻求完善的翻译理论和方法。 1.3翻译软件和工具的发展 20世纪70年代以来,随着科技发展和各国间频繁交流,大规模翻译需求日益增加,对计算机翻译的依赖更加突出,机器翻译进入了新的发展阶段。实用性翻译和软件系统如雨后春笋频频出现,如Weinder系统、EURPOTRA多国种翻译系统、TAUM-METEO系统等。80年代产生了大量连接网络和大容量存储的微型计算机,各种翻译工具也应运而生,如词典和术语资料库、多语文字处理、词汇和术语资源的管理、信息传递的

机器翻译技术的现状及发展(一)

机器翻译技术的现状及发展(一) 摘要:本文在分析机器翻译内涵的基础上,阐述了机器翻译的历史和现状,探讨了机器翻译所面临的问题及机器翻译的发展趋势。 关键词:机器翻译;自然语言;发展趋势 1.引言 《圣经.创世纪》中第十一章巴别塔:“耶和华说:看哪,他们成为一样的人民,都是一样的言语,如今既作起这事来,以后他们所要作的事就没有不成就的了。我们下去,在那里变乱他们的口音,使他们的言语彼此不通。于是耶和华使他们从那里分散在全地上;他们就停工,不造那城了。因为耶和华在那里变乱天下人的言语,使众人分散在全地上,所以那城名叫巴别(就是变乱的意思)1]。”这只是圣经故事,但告诉我们语言的不同确实是人们交流的极大障碍,因此人们一直在寻找打破语言障碍的途径和办法。翻译则能克服语言障碍,使得不同语言人们之间能相互交流。谭载喜在他的《西方翻译简史》一书中提到我国的翻译史时说:孔子周游列国,在各地言语发音不尽相同,彼此交流甚少的当时,也不得不通过象寄之才(即翻译人员)以“达其意,通其欲”。随着互联网的日益发展,网络信息的激增,国际社会交流愈加频繁,机器翻译已成为克服交流时所产生的语言障碍的重要手段之一。 2.机器翻译的定义 计算机翻译通常叫机器翻译(MachineTranslation或MT),即全自动高质量机器翻译(FullyAutomaticHighQualityMachineTranslation,简称FAHQMT或MT),就是人类利用计算机进行自然语言间的相互翻译,利用软件实现从一种自然语言文本到另一种自然语言文本的翻译 2]。 3.机器翻译的历史与现状 在古希腊时代就有人提出利用机械装置来进行语言翻译的想法,其中之一是如何用机械手段来分析自然语言。17世纪,人们首次提出使用机械字典克服语言障碍的设想。1903年,古图拉特(Couturat)和洛(Leau)在《通用语言的历史》一书中指出,德国学者里格(W.Rieger)首次使用了“机器翻译”(MachineTranslation)这个术语。1952年在美国麻省理工学院(MIT)召开了第一届国际机器翻译会议,标志着机器翻译正式迈出了第一步。1978年在中科院计算机所的一台64K容量的计算机上成功地进行了20个标题的机器翻译测试。1987年在日本箱根举行了第一届机器翻译峰会(MTSummit),并决定以后每两年轮流在亚、欧、美定期举行。20世纪90年代后,随着微机的普及,相继出现了多种翻译软件,例如金山公司的词霸系列,实达铭泰的东方快车系列,Trados翻译软件等。到目前为止,由于计算机科学、语言学研究的发展,特别是计算机硬件技术的大幅度提高以及人工智能在自然语言处理上的应用,机器翻译已经取得了相当大的进步,不过,机器翻译的水平距理想的“全自动高质量(FAHQ)”的目标还有很远的距离3]。

机器翻译:现状与展望概述

机器翻译:现状与展望 中国专利信息中心王丹李进 机器翻译(Machine Translation),又称为自动翻译,是利用计算机把一种自然源语言转变为另一种自然目标语言的过程,它是自然语言处理(Natural Language Processing)的一个分支,与计算语言学(Computational Linguistics)、自然语言理解(Natural Language Understanding)之间存在着密不可分的关系。 步入21世纪以来,随着国际互联网(Internet)的迅猛发展和世界经济一体化的加速,网络信息急剧膨胀,国际交流日益频繁,如何克服语言障碍已经成为国际社会共同面对的问题。由于人工翻译的方式远远不能满足需求,利用机器翻译技术协助人们快速获取信息,已经成为必然的趋势。 一、机器翻译简史 机器翻译的研究历史可以追溯到20世纪四五十年代。1946年,第一台现代电子计算机ENIAC诞生,随后不久,信息论的先驱、美国科学家W. Weaver和英国工程师A. D. Booth 在讨论电子计算机的应用范围时,提出了利用计算机进行语言自动翻译的想法。1949年,W. Weaver发表《翻译备忘录》,正式提出机器翻译的思想。走过六十年的风风雨雨,机器翻译经历了一条曲折而漫长的发展道路,学术界一般将其划分为如下四个阶段:1.开创期(1946-1964) 1954年,美国乔治敦大学(Georgetown University)在IBM公司协同下,用IBM-701计算机首次完成了英俄机器翻译试验,向公众和科学界展示了机器翻译的可行性,从而拉开了机器翻译研究的序幕。 中国开始这项研究也并不晚,早在1956年,国家就把这项研究列入了全国科学工作发展规划,课题名称是“机器翻译、自然语言翻译规则的建设和自然语言的数学理论”。1957年,中国科学院语言研究所与计算技术研究所合作开展俄汉机器翻译试验,翻译了9种不同类型的较为复杂的句子。 从20世纪50年代开始到20世纪60年代前半期,机器翻译研究呈不断上升的趋势。美国和前苏联两个超级大国出于军事、政治、经济目的,均对机器翻译项目提供了大量的资金支持,而欧洲国家由于地缘政治和经济的需要也对机器翻译研究给予了相当大的重视,机器翻译一时出现热潮。这个时期机器翻译虽然刚刚处于开创阶段,但已经进入了乐观的繁荣期。 2.受挫期(1964-1975) 1964年,为了对机器翻译的研究进展作出评价,美国科学院成立了语言自动处理咨询委员会(Automatic Language Processing Advisory Committee,简称ALPAC委员会),开始了为期

翻译技术领域的现状与展望

翻译技术领域的现状与展望 作者/王华伟闫栗丽 翻译技术在中国的发展起步相对较晚,但近年来随着中国在全球化进程中扮演着越来越重要的角色,催生了对翻译技术发展的强烈需求。中国翻译行业在借鉴国外同行经验的基础上,于2007~2008年间在翻译技术领域取得了一系列成就,也还存在一些亟需改进的方面,而这也势必对我国的翻译行业产生深远的影响。 1.国家政策的扶持和行业协会的推动 翻译技术的发展直接关乎整个翻译行业的翻译质量及效率,具备巨大的行业经济效益。对此,科技部、财政部都给与了足够的重视并拨出专项资金进行扶持。在 2008年的科技型中小企业技术创新基金扶持计划中,中文及多语种处理软件及基于先进语言学理论的中文翻译软件等赫然在列。而中国译协也在 2008年的第 18届世界翻译大会上专门辟出了翻译工具、术语管理和翻译标准等分论坛,着力推动翻译技术的探讨与发展。 2.词典型翻译软件百花齐放 词典是使用范围最广的工具,它以使用便利的优势,几乎占据了每个计算机的桌面,无论语言学习者还是专业翻译人员,几乎都是必备工具。词典的发展从最早的单机版本发展至今,已经有很多种产品类型,我们可以见到的有:电子词典、在线词典、手机词典等。“金山词霸”的网络版本“爱词霸https://www.360docs.net/doc/b718508046.html,”在这两年获得了长足的发展,如爱词霸网络释义、谷歌金山词霸等一系列特色功能的相继推出,将词典型翻译软件的应用领域从传统的桌面计算机拓展到网络、手机等,并取得了显著的成功。另外,类似Google这样的搜索引擎,因为信息量大,检索便利而成为很多专业翻译人员查词的重要辅助工具。 值得一提的是,最新推出的基于用户发布词汇的词典编撰系统之前的词典都是以各大出版社公开发行的词典中的词条作为主要数据库来源,为用户提供查询上的便利。但是传统出版词典的方式存在发布周期长、词汇更新慢的缺陷。互联网的出现,加快了信息传播的速度,也提高了用户对新词更新的速度要求,为了方便新词汇的发布,词典编纂系统也就应运而生了。这是一种基于用户的词典发布系统,用户可自由发起词典编纂项目,自发组织人员参与项目,发起人可以按照需要给小组成员分配不同的权限,将词汇添加等基本工作和审核人员明确区分,既确保了词典的专业性,也实现了专业语料的适时更新和发布。 3.机器翻译应用软件融入普通网民生活 谷歌语言工具的推出打破了互联网语言的藩篱,用户可以方便简捷地将目标语言的网页转化成自己的母语进行浏览。事实上,这也是机器翻译软件的一个应用领域,而国内的相关软件如金山快译等,专注于为普通网民提供更为友好的英中日网站浏览体验,并在亚洲语言的机器翻译应用方面积累了大量的经验。其他如华建等长期从事机器翻译研究及应用的企业,也都推出了适用于普通网民的相关软件版本。机器翻译在互联网领域的应用获得了进一步的发展。 4.机器翻译技术研究获得显著突破 机器翻译按照引擎原理分为基于规则的和基于统计的两大类。基于规则多年来进展缓慢,鲜有重大突破,而基于统计的方法近年不断有新的突破,也来越来越收到关注。但是每种方法都有一定的局限性,因此未来的发展趋势,可能更倾向于多种方法的融合,应用多种策略综合提升机器翻译的智能化程度。 在沉寂了几年后,机器翻译领域在近两年又开始逐渐活跃起来,并且呈现了多元化发展的趋势。谷歌、百度、雅虎等各大搜索网站都推出了自己的在线翻译,Skype/MSN还推出了翻译机器人,日本NEC在2007年推出了具备语音自动翻译功能手机软件,2008年4月,一种

基于实例的机器翻译

基于实例的机器翻译 ——方法和问题 王厚峰(北京大学) 关键字:基于实例的机器翻译,双语对齐,相似度计算,模板获取 摘要:本文介绍了基于实例的机器翻译方法,并对基于实例的机器翻译的若干问题,如双语实例的加工对齐、实例的相似度计算和实例模板提取等问题作了说明。 Method and Issues of Example-Based Machine Translation Wang Houfeng Keywords: EBMT, Bilingual Alignment, Similarity Measure, Template Acquisition. Abstract: The basic frame of Example based machine translation is concerned in this paper. Some key issues, such as bilingual alignment, similarity measure between input sentence and example, and template acquisition, are introduced. 引言 早期的机器翻译本质上都是基于语言规则或语言知识RBMT(Rule Based Machine Translation)的。如,词法规则,句法分析规则,转换规则,目标语生成规则等。这些规则都是根据语言专家的经验总结归纳出来的。直译法、转换生成方法、中间语言方法等都可以归为这一类。在上一世纪80年代中后期,这种纯粹基于语言知识的状况渐渐被基于语料库的机器翻译CBMT( Corpus-Based Machine Translation) 方法打破。 语料库方法中最有影响的是IBM公司的P.Brown 提出的基于统计的机器翻译SBMT (Statistics Based Machine Translation)。受语音处理的启发,P.Brown在1988年第二届TMI会议上提出了用隐马尔科夫模型HMM(Hidden Markov Model)进行机器翻译的想法,这一想法震惊了当时的与会者,并直接导致了语料库方法在自然语言处理上的迅速发展。 另一个影响更为广泛的机器翻译方法是日本的长尾真(Makoto Nagao)1981年提出的基于实例的机器翻译EBMT ( Example based Machine Translation),并于1984年发表[6]。基本思想是在已经收集的双语实例库中找出与待翻译部分最相似的翻译实例(通常是句子),再对实例的译文通过串替换,串删除以及串增加等一系列变形操作,实现翻译。 基于实例的翻译方法受到广泛关注是在进入90年代之后。其中,Sato[7,8]等人起到了很好的推动作用。 EBMT的基本思想 长尾真认为,人们在翻译简单句子时并没有做语言的深层分析,而是先将句子分解为几个片断(短语),然后,借助于已有片断的翻译,将分解的每个片断翻译成目标短语,最后在将这些短语组合起来形成一个长的句子。 基于上述思想,长尾真提出了基于实例的机器翻译EBMT的思想。对应地,EBMT也分为三大部分:将实例划分为片断,确定各个片断的翻译以及重组片断。 例2.1. (a) 她买了一本计算语言学入门书 假定计算机内已经存储了如下的实例对:

相关文档
最新文档