机器翻译

机器翻译
机器翻译

机器翻译

1 概述

机器翻译(machine translation),又称为自动翻译,是利用计算机把一种自然源语言转变为另一种自然目标语言的过程,一般指自然语言之间句子和全文的翻译。它是自然语言处理(Natural Language Processing)的一个分支,与计算语言学(Computational Linguistics )、自然语言理解( Natural Language Understanding)之间存在着密不可分的关系。

2 国内外现状

机器翻译思想的萌芽关于用机器来进行语言翻译的想法,远在古希腊时代就有人提出过了。在17世纪,一些有识之士提出了采用机器词典来克服语言障碍的想法。笛卡(Descartes)和莱布尼兹(Leibniz)都试图在统一的数字代码的基础上来编写词典。在17世纪中叶,贝克(Cave Beck)、基尔施(Athanasius Kircher)和贝希尔(Johann JoachimBecher)等人都出版过这类的词典。由此开展了关于“普遍语言”的运动。维尔金斯(JohnWilkins)在《关于真实符号和哲学语言的论文》(An Essay towards a Real Character andPhilosophical Language, 1668)中提出的中介语(Interlingua)是这方面最著名的成果,这种中介语的设计试图将世界上所有的概念和实体都加以分类和编码,有规则地列出并描述所有的概念和实体,并根据它们各自的特点和性质,给予不同的记号和名称。本世纪三十年代之初,亚美尼亚裔的法国工程师阿尔楚尼(G.B. Artsouni)提出了用机器来进行语言翻译的想法,并在1933年7月22日获得了一项“翻译机”的专利,叫做“机械脑”(mechanical brain)。这种机械脑的存储装置可以容纳数千个字元,通过键盘后面的宽纸带,进行资料的检索。阿尔楚尼认为它可以应用来记录火车时刻表和银行的帐户,尤其适合于作机器词典。在宽纸带上面,每一行记录了源语言的一个词项以及这个词项在多种目标语言中的对应词项,在另外一条纸带上对应的每个词项处,记录着相应的代码,这些代码以打孔来表示。机械脑于1937年正式展出,引起了法国邮政、电信部门的兴趣。但是,由于不久爆发了第二次世界大战,阿尔楚尼的机械脑无法安装使用。1903年,古图拉特(Couturat)和洛(Leau)在《通用语言的历史》一书中指出,德国学者里格(W. Rieger) 曾经提出过一种数字语(Zifferngrammatik),这种语法加上词典的辅助,可以利用机械将一种语言翻译成其他多种语言,首次使用了“机器翻译” (德文是ein mechanisches Uebersetzen)这个术语。

真正对机器翻译进行研究应该说是从布恩和韦弗开始的。他们研究的是自动词典万, 从1954年1月7日公开展示的IBM701型计算机开始, 机器翻译进人一个繁荣发展的时期。从那时起, 很多国家都投人了大量的人力、物力从事这方面的研究和开发。随着 Internet 的普遍应用,世界经济一体化进程的加速以及国际社会交流的日渐频繁,传统的人工作业的方式已经远远不能满足迅猛增长的翻译需求,人们对于机器翻译的需求空前增长,机器翻译迎来了一个新的发展机遇。国际性的关于机器翻译研究的会议频繁召开,中国也取得了前所未有的成就,相继推出了一系列机器翻译软件,例如“译星” 、“雅信” 、“通译” 、“华建”等。在市场需求的推动下,商用机器翻译系统迈入了实用化阶段,走进了市场,来到了用户面前。

中国机器翻译研究起步于1957年,是世界上第4个开始搞机器翻译的国家,60年代中期以后一度中断,70年代中期以来有了进一步的发展。现在,中国社会科学院语言研究所、中国科学技术情报研究所、中国科学院计算技术研究所、黑龙江大学、哈尔滨工业大学等单位都

在进行机器翻译的研究;上机进行过实验的机器翻译系统已有十多个,翻译的语种和类型有英汉、俄汉、法汉、日汉、德汉等一对一的系统,也有汉译英、法、日、俄、德的一对多系统(FAJRA系统)。此外,还建立了一个汉语语料库和一个科技英语语料库。中国机器翻译系统的规模正在不断地扩大,内容正在不断地完善。

近来, 我国机器翻译的研究也发展很快。几年来许多公司都推出了高科技机器翻译软件, 如天津通译、中软译星和北京高立翻译软件等。最近, 南京月亮公司、实达铭泰公司、雅信译霸公司都先后推出汉化软件翻译产品。中国科学院计算所等单位联合开发研制了“智能型英汉翻译系统”。该系统实现了对原文的语法、语义和常识的一体化分析, 具有面向多文种翻译软件环境。我国台湾地区的“功学电脑自动翻译系统” , 可使用户在“电子资讯”、“历史法律”、“军事”等方面进行计算机翻译。机器翻译的发展如雨后春笋展现出勃勃生机。

3 主要方法

基于规则( Rule-Based )的机译系统

系统划分

机译系统可划分为基于规则( Rule-Based )和基于语料库(Corpus-Based)两大类。前者由词典和规则库构成知识源;后者由经过划分并具有标注的语料库构成知识源,既不需要词典也不需要规则,以统计规律为主。机译系统是随着语料库语言学的兴起而发展起来的,世界上绝大多数机译系统都采用以规则为基础的策略,一般分为语法型、语义型、知识型和智能型。不同类型的机译系统由不同的成分构成。抽象地说,所有机译系统的处理过程都包括以下步骤:对源语言的分析或理解,在语言的某一平面进行转换,按目标语言结构规则生成目标语言。技术差别主要体现在转换平面上。

语法型机译系统

研究重点是词法和句法,以上下文无关文法为代表,早期系统大多数都属这一类型。语法型系统包括源文分析机构、源语言到目标语言的转换机构和目标语言生成机构3部分。源文分析机构对输入的源文加以分析,这一分析过程通常又可分为词法分析、语法分析和语义分析。通过上述分析可以得到源文的某种形式的内部表示。转换机构用于实现将相对独立于源文表层表达方式的内部表示转换为与目标语言相对应的内部表示。目标语言生成机构实现从目标语言内部表示到目标语言表层结构的转化。

语义型系统

研究重点是在机译过程中引入语义特征信息,以Burtop提出的语义文法和Charles Fillmore提出的格框架文法为代表。语义分析的各种理论和方法主要解决形式和逻辑的统

一问题。利用系统中的语义切分规则,把输入的源文切分成若干个相关的语义元成分。再根据语义转化规则,如关键词匹配,找出各语义元成分所对应的语义内部表示。系统通过测试各语义元成分之间的关系,建立它们之间的逻辑关系,形成全文的语义表示。处理过程主要通过查语义词典的方法实现。语义表示形式一般为格框架,也可以是概念依存表示形式。最后,机译系统通过对中间语义表示形式的解释,形成相应的译文。

知识型系统

目标是给机器配上人类常识,以实现基于理解的翻译系统,以Tomita提出的知识型机译系统为代表。知识型机译系统利用庞大的语义知识库,把源文转化为中间语义表示,并利用专业知识和日常知识对其加以精练,最后把它转化为一种或多种译文输出。

智能型系统

目标是采用人工智能的最新成果,实现多路径动态选择以及知识库的自动重组技术,对不同句子实施在不同平面上的转换。这样就可以把语法、语义、常识几个平面连成一有机整体,既可继承传统系统优点,又能实现系统自增长的功能。这一类型的系统以中国科学院计算所开发的IMT/EC系统为代表。

基于语料库(Corpus-Based)的机译系统

机器翻译的研究是建立在语言学、数学和计算机科学这3门学科的基础之上的。语言学家提供适合于计算机进行加工的词典和语法规则,数学家把语言学家提供的材料形式化和代码化,计算机科学家给机器翻译提供软件手段和硬件设备,并进行程序设计。缺少上述任何一方面,机器翻译就不能实现,机器翻译效果的好坏,也完全取决于这3个方面的共同努力。

整个机器翻译的过程可以分为原文分析、原文译文转换和译文生成3个阶段。

在具体的机器翻译系统中,根据不同方案的目的和要求,可以将原文译文转换阶段与原文分析阶段结合在一起,而把译文生成阶段独立起来,建立相关分析独立生成系统。在这样的系统中,原语分析时要考虑译语的特点,而在译语生成时则不考虑原语的特点。在搞多种语言对一种语言的翻译时,宜于采用这样的相关分析独立生成系统。也可以把原文分析阶段独立起来,把原文译文转换阶段同译文生成阶段结合起来,建立独立分析相关生成系统。在这样的系统中,原语分析时不考虑译语的特点,而在译语生成时要考虑原语的特点,在搞一种语言对多种语言的翻译时,宜于采用这样的独立分析相关生成系统。还可以把原文分析、原文译文转换与译文生成分别独立开来,建立独立分析独立生成系统。在这样的系统中,分析原语时不考虑译语的特点,生成译语时也不考虑原语的特点,原语译语的差异通过原文译文转换来解决。在搞多种语言对多种语言的翻译时,宜于采用这样的独立分析独立生成系统。

迄今存在和正在研制的机器翻译系统按其加工的深度可以分为3种类型:第1类是以词汇为主的机器翻译系统;第2类是以句法为主的机器翻译系统;第3类是以语义为主的机器翻译系统。

第1类机器翻译系统

从美国乔治敦大学的机器翻译试验到50年代末的系统,基本上属于第1类机器翻译系统。它们的特点是:①以词汇转换为中心,建立双语词典,翻译时,文句加工的目的在于立即确定相应于原语各个词的译语等价词;②如果原语的一个词对应于译语的若干个词,机器翻译系统本身并不能决定选择哪一个,而只能把各种可能的选择全都输出;③语言和程序不分,语法的规则与程序的算法混在一起,算法就是规则。由于第一类机器翻译系统的上述特点,它的译文质量是极为低劣的,并且,设计这样的系统是一种十分琐碎而繁杂的工作,系统设计成之后没有扩展的余地,修改时牵一发而动全身,给系统的改进造成极大困难。

第2类机器翻译系统

60年代以来建立的机器翻译系统绝大部分是第2类机器翻译系统。它们的特点是:①把句法的研究放在第一位,首先用代码化的结构标志来表示原语文句的结构,再把原语的结构标志转换为译语的结构标志,最后构成译语的输出文句;②对于多义词必须进行专门的处理,根据上下文关系选择出恰当的词义,不容许把若干个译文词一揽子列出来;③语法与算法分开,在一定的条件之下,使语法处于一定类别的界限之内,使语法能由给定的算法来计算,并可由这种给定的算法描写为相应的公式,从而不改变算法也能进行语法的变换,这样,语法的编写和修改就可以不考虑算法。第2类机器翻译系统不论在译文的质量上还是在使用的方便上,都比第1类机器翻译系统大大地前进了一步。

第3类机器翻译系统

70年代以来,有些机器翻译者提出了以语义为主的第3类机器翻译系统。引入语义平面之后,就要求在语言描写方面作一些实质性的改变,因为在以句法为主的机器翻译系统中,最小的翻译单位是词,最大的翻译单位是单个的句子,机器翻译的算法只考虑对一个句子的自动加工,而不考虑分属不同句子的词与词之间的联系。第3类机器翻译系统必须超出句子范围来考虑问题,除了义素、词、词组、句子之外,还要研究大于句子的句段和篇章。为了建立第3类机器翻译系统,语言学家要深入研究语义学,数学家要制定语义表示和语义加工的算法,在程序设计方面,也要考虑语义加工的特点。

目前世界上绝大多数的机器翻译系统都是第 2类机器翻译系统,研究的重点主要放在句法方面。有些系统以句法为主,适当增加了一些语义参数,以解决句法上的歧义问题。由于语义研究还不成熟,建立第3类机器翻译系统还有相当大的困难。

基于统计的机器翻译

基于统计的机器翻译方法把机器翻译看成是一个信息传输的过程,用一种信道模型对机器翻译进行解释。这种思想认为,源语言句子到目标语言句子的翻译是一个概率问题,任何一个目标语言句子都有可能是任何一个源语言句子的译文,只是概率不同,机器翻译的任务就是找到概率最大的句子。具体方法是将翻译看做对原文通过模型转换为译文的解码过程。因此统计机器翻译又可以分为以下几个问题:模型问题、训练问题、解码问题。所谓模型问题,就是为机器翻译建立概率模型,也就是要定义源语言句子到目标语言句子的翻译概率的计算方法。而训练问题,是要利用语料库来得到这个模型的所有参数。所谓解码问题,则是在已知模型和参数的基础上,对于任何一个输入的源语言句子,去查找概率最大的译文。

实际上,用统计学方法解决机器翻译问题的想法并非是 20 世纪 90 年代的全新思想,1949 年W. Weaver 在那个机器翻译备忘录就已经提出使用这种方法,只是由于乔姆斯

基(N.Chomsky) 等人对计的批判,这种方法很快就被放弃了。批判的理由主要是一点:语言是无限的,基于经验主义的统计描述无法满足语言的实际要求。

另外,限于当时的计算机速度,统计的价值也无从谈起。而现在,计算机不论从速度还是从容量方面都有了大幅度的提高,昔日大型计算机才能完成的工作,今日小型工作站或个

人计算机就可以完成了。此外,统计方法在语音识别、文字识别、词典编纂等领域的成功应用也表明这一方法在语言自动处理领域还是很有成效的。

统计机器翻译方法的数学模型是由国际商业机器公司(IBM)的研究人员提出的。在著名的文章《机器翻译的数学理论》中提出了由五种词到词的统计模型,称为 IBM 模型 1 到IBM 模型 5。这五种模型均源自信源-信道模型,采用最大似然法估计参数。由于当时(1993年)计算条件的限制,无法实现基于大规模数据训练。其后,由Stephan Vogel提出了基于隐马尔科夫模型的统计模型也受到重视,该模型被用来替代IBM Model 2。在这时的研究中,统计模型只考虑了词与词之间的线性关系,没有考虑句子的结构。这在两种语言的语序相差较大时效果可能不会太好。如果在考虑语言模型和翻译模型时将句法结构或语义结构考虑进来,应该会得到更好的结果。

在此文发表后6年,一批研究人员在约翰·霍普金斯大学的机器翻译夏令营上实现了GIZA软件包。Franz Joseph Och 在随后对该软件进行了优化,加快训练速度。特别是IBM Model 3 到 5的训练。同时他提出了更加复杂的Model 6。Och发布的软件包被命名为GIZA++,直到现在,GIZA++还是绝大部分统计机器翻译系统的基石。针对大规模语料的训练,已有GIZA++的若干并行化版本存在。

基于词的统计机器翻译的性能却由于建模单元过小而受到限制。因此,许多研究者开始转向基于短语的翻译方法。Franz-Josef Och提出的基于最大熵模型的区分性训练方法使统计机器翻译的性能极大提高,在此后数年,该方法的性能远远领先于其他方法。一年后Och 又修改最大熵方法的优化准则,直接针对客观评价标准进行优化,从而诞生了今天广泛采用的最小错误训练方法(Minimum Error Rate Training)。

另一件促进统计机器翻译进一步发展的重要发明是自动客观评价方法的出现,为翻译结果提供了自动评价的途径,从而避免了繁琐与昂贵的人工评价。最为重要的评价是BLEU评价指标。绝大部分研究者仍然使用BLEU作为评价其研究结果的首要的标准。

Moses 是目前维护较好的开源机器翻译软件,由爱丁堡大学研究人员组织开发。其发布使得以往繁琐复杂的处理简单化。

目前,Google 的在线翻译已为人熟知,其背后的技术即为基于统计的机器翻译方法,基本运行原理是通过搜索大量的双语网页内容,将其作为语料库,然后由计算机自动选取最为常见的词与词的对应关系,最后给出翻译结果。不可否认,Google 采用的技术是先进的,但它还是经常闹出各种“翻译笑话” 。其原因在于:基于统计的方法需要大规模双语语料,翻译模型、语言模型参数的准确性直接依赖于语料的多少,而翻译质量的高低主要取决于概率模型的好坏和语料库的覆盖能力。基于统计的方法虽然不需要依赖大量知识,直接靠统计结果进行歧义消解处理和译文选择,避开了语言理解的诸多难题,但语料的选择和处理工程量巨大。因此目前通用领域的机器翻译系统很少以统计方法为主。

基于实例的机器翻译

与统计方法相同,基于实例的机器翻译方法也是一种基于语料库的方法,其基本思想由日本著名的机器翻译专家长尾真提出,他研究了外语初学者的基本模式,发现初学外语的人总是先记住最基本的英语句子和对应的日语句子,而后做替换练习。参照这个学习过程,他

提出了基于实例的机器翻译思想,即不经过深层分析,仅仅通过已有的经验知识,通过类比原理进行翻译。其翻译过程是首先将源语言正确分解为句子,再分解为短语碎片,接着通过类比的方法把这些短语碎片译成目标语言短语,最后把这些短语合并成长句。对于实例方法的系统而言,其主要知识源就是双语对照的实例库,不需要什么字典、语法规则库之类的东西,核心的问题就是通过最大限度的统计,得出双语对照实例库。

基于实例的机器翻译对于相同或相似文本的翻译有非常显著的效果,随着例句库规模的增加,其作用也越来越显著。对于实例库中的已有文本,可以直接获得高质量的翻译结果。对与实例库中存在的实例十分相似的文本,可以通过类比推理,并对翻译结果进行少量的修改,构造出近似的翻译结果。

这种方法在初推之时,得到了很多人的推崇。但一段时期后,问题出现了。由于该方法需要一个很大的语料库作为支撑,语言的实际需求量非常庞大。但受限于语料库规模,基于实例的机器翻译很难达到较高的匹配率,往往只有限定在比较窄的或者专业的领域时,翻译效果才能达到使用要求。因而到目前为止,还很少有机器翻译系统采用纯粹的基于实例的方法,一般都是把基于实例的机器翻译方法作为多翻译引擎中的一个,以提高翻译的正确率。

4 评价方法

机器翻译评估与机器翻译是相辅相成的,机器翻译的发展决定了机译评估的进展,反之机译评估又促进机器翻译的发展。五六十年代机器翻译研究蓬勃兴起,机译评估也由此诞生。1959年,Bar-Hillel发表了“美国与英国机器翻译现状的报告”,翌年他又发表了著名的“自动翻译语言研究的现状”,在这篇报告中,他评价了美国、英国、前苏联、意大利以及以色列机器翻译研究的情况,最后得出一个悲观的结论,即完全自动的高质量翻译(FAHQT)是不可能实现的(Bennet,1994)。因为Bar-Hillel的报告中没有提到任何评价标准,所以真正的有重大影响的机器翻译评估应该始于1966年的ALPAC报告。这个报告从以下几个方面评价了机器翻译: (1) 机器翻译的花费以及对机译的需求。(2) 对翻译人员的需求。(3) 一些机译系统的译文质量。(4) 译后编辑的花费。(Pierce & Carroll, 1966)。ALPAC中所采用的评估方法现在还具有很高的实用价值,但具有讽刺意味的是,正是这第一个机译评估报告否定了机译研究,导致机器翻译停滞不前。直到七十年代末机器翻译研究才有所恢复。所幸的是八十年代,机器翻译又开始蓬勃发展,机译评估也随之发展迅速。人们逐渐认识到ALPAC 报告是存有偏见的,比如说它比较机器翻译与人译的费用并且批评机器翻译需要译后编辑,但实际上,ALPAC报告没有注意到这样一个事实,即机译和人译各司其职,机译可帮助提高翻译效率,应用于翻译大量科技文献及模式较固定的文章,而人译应集中于有创造性的作品,譬如文学作品等。也许机译在研制过程中以及使用初期花费较高,但从长远来看,它还是省时、省力、省财的。因此,八十年代有人提出机译评估系统应是适用范围广、客观的、应该能用来比较各个机译系统而不是单纯比较人译与机译。(Nirenburg, 1987)。但遗憾的是,实践证明,到目前为止,要开发这样一个理想的评估系统还是困难重重

5 关键问题

虽然语言学专家经过长期的研究和努力, 创建了含有成千上万条的语料规则库, 覆盖了相当范围的语言现象, 但是, 由于语言的复杂性及其特殊性, 使得所创建的规则库无论

多么庞大, 都不可能涵盖所有的语言现象。而且, 目前的机器翻译系统, 多需人工参与调整。有鉴于此, 很多语言学家及软件商推出各种由人工参与调整的翻译系统, “雅信”就是一例。“雅信’’不依赖于计算机的自动翻译, 而是在人的参与下完成整个翻译过程, 其翻译的质量和人工翻译相差无几, 但效率却提高了一到四倍。很多人对机器翻译有误解,他们认为机器翻译偏差大,不能帮人们解决任何问题。其实其误差在所难免,原因在于,机器翻译运用语言学原理,机器自动识别语法,调用存储的词库,自动进行对应翻译,但是因语法、词法、句法发生变化或者不规则,出现错误是难免的,比如《大话西游》中“给我一个杀你的理由,先”之类状语后置的句子。机器毕竟是机器,没有人对语言的特殊感情,它怎么会感受“最是那一低头的温柔,像一朵水莲花不胜凉风的娇羞”的韵味?毕竟汉语因其词法、语法、句法的变化及其语境的更换,其意思大相径庭,就连很多国人都是丈二和尚——摸不着头脑,就别说机器了。

中国数学家和语言学家周海中在《机器翻译50年》一文中指出:要提高机器翻译的质量,首先要解决的是语言问题而不是程序问题。单靠若干程序来做机译系统,肯定是无法提高机译质量的。

国际上有关专家分析认为:机器翻译要想达到类似人工翻译一样的流畅程度,至少还要经历15年时间的持续研究。也就是说,在人类对语言研究的同时,还无法明了“人脑是如何进行语言的模糊识别和判断”的情况下,机器翻译要想达到100%的准确率是不可能的。

6 总结和展望

机器翻译的目标是通过计算机实现不同自然语言的自动翻译, 以解决人类社会的语言

障碍。然而, 由于语言与机器的矛盾, 想要用计算机把丰富多彩的语言描写得淋漓尽致, 惟妙惟肖尚待时日。难怪有人指出用程序法重新组织表层话语结构, 推出尽善尽美的译文, 使翻译程序达到标准化, 是一种乌托邦式的空想。人类对自然语言的认识是无尽的, 对机器翻译的研究也是无尽的。但不管怎么说, 机器翻译的质量将会越来越好, 越来越成熟。以机器翻译为核心的语言信息处理产业, 将是世纪最有生气的先导产业, 而高性能机器翻译无疑

又是这一先导产业之中最为重要的高尖科技领域章国英, 。因此, 我们要满怀信心,迎接挑战。机器翻译的发展也将对英语教学和研究产生深刻的影响。首先, 机器翻译的发展将促进语言学科和学科的融合。如上所述, 机器翻译的很多问题都不是单纯靠学科所能解决的, 它需要语言学科, 特别是对比语言学科的强力参与。这将为外语教学和研究提出许多崭新的课题, 带来许多挑战和机遇。第二, 随着机器翻译质量的提高和电脑的普及, 与机器翻译相关的课程, 如“机译原理” , “机译应用”等将成为外语专业学生的必修课程。二十一世纪的合格译员, 必然是既能熟练掌握口笔译技能, 又能熟练操作、应用机译软件的新型人才。第三, 机器翻译的深人发展将对外语学科中许多门类的教学与研究产生推动作用。机译需

要建立庞大的语料库, 这将推动词汇学、词典学的发展, 同时也为这些门类的教学研究提供丰富的素材。机译需要研究双语的结构异同, 这将促进对比语言学在更深、更精的层次上发展。此外, 语法学、文体学、术语学和普通翻译理论本身都会在解决机译问题中面临挑战、发挥作用, 并籍此得到自身的发展和飞跃。

机器翻译技术的现状及发展

机器翻译技术的现状及发展 篇一:翻译技术领域的现状与展望 翻译技术领域的现状与展望 作者/王华伟闫栗丽 翻译技术在中国的发展起步相对较晚,但近年来随着中国在全球化进程中扮演着越来越重要的角色,催生了对翻译技术发展的强烈需求。中国翻译行业在借鉴国外同行经验的基础上,于2007~2008年间在翻译技术领域取得了一系列成就,也还存在一些亟需改进的方面,而这也势必对我国的翻译行业产生深远的影响。 1. 国家政策的扶持和行业协会的推动 翻译技术的发展直接关乎整个翻译行业的翻译质量及效率,具备巨大的行业经济效益。对此,科技部、财政部都给与了足够的重视并拨出专项资金进行扶持。在 2008年的科技型中小企业技术创新基金扶持计划中,中文及多语种处理软件及基于先进语言学理论的中文翻译软件等赫然在列。而中国译协也在 2008年的第 18届世界翻译大会上专门辟出了翻译工具、术语管理和翻译标准等分论坛,着力推动翻译技术的探讨与发展。 2. 词典型翻译软件百花齐放 词典是使用范围最广的工具,它以使用便利的优势,几乎占据了每个计算机的桌面,无论语言学习者还是专业翻译人员,几乎都是必备工具。词典的发展从最早的单机版本发展至今,已经有很多种产品

类型,我们可以见到的有:电子词典、在线词典、手机词典等。“金山词霸”的网络版本“爱词霸”在这两年获得了长足的发展,如爱词霸网络释义、谷歌金山词霸等一系列特色功能的相继推出,将词典型翻译软件的应用领域从传统的桌面计算机拓展到网络、手机等,并取得了显著的成功。另外,类似Google这样的搜索引擎,因为信息量大,检索便利而成为很多专业翻译人员查词的重要辅助工具。 值得一提的是,最新推出的基于用户发布词汇的词典编撰系统之前的词典都是以各大出版社公开发行的词典中的词条作为主要数据库来源,为用户提供查询上的便利。但是传统出版词典的方式存在发布周期长、词汇更新慢的缺陷。互联网的出现,加快了信息传播的速度,也提高了用户对新词更新的速度要求,为了方便新词汇的发布,词典编纂系统也就应运而生了。这是一种基于用户的词典发布系统,用户可自由发起词典编纂项目,自发组织人员参与项目,发起人可以按照需要给小组成员分配不同的权限,将词汇添加等基本工作和审核人员明确区分,既确保了词典的专业性,也实现了专业语料的适时更新和发布。 3. 机器翻译应用软件融入普通网民生活 谷歌语言工具的推出打破了互联网语言的藩篱,用户可以方便简捷地将目标语言的网页转化成自己的母语进行浏览。事实上,这也是机器翻译软件的一个应用领域,而国内的相关软件如金山快译等,专注于为普通网民提供更为友好的英中日网站浏览体验,并在亚洲语言的机器翻译应用方面积累了大量的经验。其他如华建等长期从事机器

机器在线翻译与人工翻译的比较

现如今大家各个国家的人群交流的越来越多,以至于语言自然而然的要学习的更多,如果机器翻译也就是“一点翻译”与人工翻译摆在一起,大家都知道选择人工翻译,因为人工翻译准确性高并且是根据文章上下文进行翻译的,那机翻真的没有优点了么,错,机翻的优点有很多,比如单词准确性高,面对偏僻的词汇也是可以翻译的,翻译语句的时候虽然不是很精准,但是对于了解语言的我们来说也可以根据翻译进行大致的了解,话不多说,简单的来介绍一下如何在线翻译吧。 步骤一:我们要先在电脑上准备好需要进行翻译的文件,最好是将其添加至桌面上,或路径不复杂的文件框内,同时还需要借助电脑浏览器搜索一点翻译,进入相关的界面。 步骤二:通过搜索可以看到“一点翻译“在百度里面的页面,进入在线翻译的界面后,我们就可以在页面的中心位置通过上传文档按钮进入文档翻译的选项页面了。

步骤三:进入文档翻译的选项页面后,我们可以先对上传文档按钮上方的一些选项进行修改(也就是下图里面的选项)这样可以帮助我们更好的实现翻译。 步骤四:上面的选项修改好后,我们就可以开始将准备好的文件添加进来了,可通过点击上传文档按钮或者是拖拽的方式将文件添加进来。

步骤五:文件添加进来后,可再次去翻译的自定义选项是否修改好,若确定修改好后,就可以通过开始翻译按钮,对PDF文件进行翻译了。 步骤六:翻译的时间根据翻译的文件的大小来定制,耐心等待文件翻译结束后,我们可以通过预览按钮对翻译后的文件进行预览,也可以直接将翻译后的文件下载到电脑上进行保存。

在线翻译与人工翻译最大的优点是速度快,方便,准确性高,如果不是相对了解很透的语句的话建议在“一点翻译”内进行在线翻译,小编已经尝试过了,感觉蛮好的哦。

人工智能与机器翻译习题答案.doc

2、产生式系统有哪些类型? 1正向、逆向、双向产生式系统 2可交换的产生式系统 3可分解的产生式系统 3、试举例说明不可撤|口|搜索方法的基本思想? 这种方法相当于沿着单独一条路搜索下去,利用问题给出的局部知识决定如何选取规则, 就是说根据当前可靠的局部知识选一条可应用规则并作用于当前综合数据库。接着再根据新状态继续选取规则,搜索过程一直进行,不必考虑撤回用过的规则。 9、试说明产生式系统规则不一致的原因及解决方法。 原因:规则集中存在的不一致是影响系统性能的重要因素之一。系统建立初期,由于规则集较小,内容也比较简单,设计人员能对每一条规则的条件和结论部分反复推敲和精心构造,这类问题容易防止。但随着时间的推移,新的规则不断加入,规则集合越来越大,内容也越来越丰富,这时规则间的相互影响和相互联系就随之变得复杂。在此情况下,规则的不一致就将自然产生, 解决:(1) 对于循环规则,可构造规则集的IF-THEN图,从起始规则的条件部分开始搜索,如果搜索过程中遇到的THEN部分已在前面出现,就可以中断搜索,规则集中包含的循环规则子集合需设计人员检查,解决; (2)对于冲突规则,构造IF-IF表,对规则集内有相同的IF规则子句构造规则树,形成推理图。同时建立THEN-THEN表用以判断是否有冲突规则出现。对相同IF部分的规则继续用它的各自THEN部分作为其它可以匹配的IF前提条件,递归地构造,如发现两个推理图上分别有节点在THEN-THEN表上是矛盾的,则检测出冲突规则,人工予以解决。 (3)对冗余规则和从属规则的检查类似于冲突规则链的方法.不同之处是前者在推理图中的遍历是试图发现有THEN部分等价的两条规则。 1、机器翻译主要有娜些方法?这些方法各有什么特点? 1基于分析和转换的机器翻译方法 这样的方法有两个特点:一是面向源语言分析,因为源语言中的一个句子已经由句法、语义分析等阶段分析完毕,生成了关于源语言句子的某种中间表示,转换以这种源语言中间表示作为输入;二是直接转换,即对于S表示,直接给出译文形式,一般不需要在目标语言内再作进一步转换,Tl~Tj可以直接包括目标语言的词汇,也可以是对应于Sl~Si的译文组块。 2基于中间语言的翻译方法 基于中间语言的机器翻译方法主要有两个优点。首先,独立的中间表示形式为多语种之间的互译的实现提供了一种经济有效的途径。假设要对N种语言进行互译,则有N*(N.1)个语言对。不同方向的翻译是不同的语言对。此时如果采用基于转换的方法,因为把一种语言翻译成另一种语言都需要一个不同的转换机制(或模块),所以N火(N?l)个语言对共需要N*(N-1)个独立的转换机制。而采用中间语言的方法,由于对每一种语言只需实现将该种语言翻译成中间语言和把中间语言翻译成该种语言的目标语言这样两个模块,所以总共只需要2N个模块。其次,中间语言不仅是对基于中间语言的机器翻译方法这一特定目的有意义, 同时,作为一种通用的自然语言表示,也值得深入研究。 4.1.3基于统计的机器翻译方法 基于统计的机器翻译方法,一般不要任何语言学知识,它的基木原理是实现源语言词汇到目标语言浏汇的映射。其思路受到语音识别研究的启发,因而应用了类似的方法来实现。研究者用

搭建属于自己的机器翻译系统

搭建属于自己的机器翻译系统——MTI专业“技术小白”走进小牛翻译开源社区的心得 搭建属于自己的机器翻译系统 ——MTI专业“技术小白”走进小牛翻译开源社区的心得首先,自我介绍一下。我是一个MTI(翻译硕士)专业、没有计算机编程背景、没有机器翻译理论基础的菜鸟,任职于一家网络科技公司的市场部门,之前的工作中需要做些翻译工作,有时候求助百度翻译、有道翻译等免费的机器翻译系统来解决问题,但是对于一些涉及我们商业机密的数据,由于担心泄密,只能借助于有道词典查查词,然后再自己形成翻译结果。很早之前我就想,要是能有自己的机器翻译系统就好了。 我心目中的翻译技术大牛、对外经贸大学的崔启亮老师曾在微博中给MTI的学生提建议,“学好翻译技术,有前途。对于仍在迷茫MTI的同学,我建议学机器翻译设计与开发,走出迷茫。”非常非常幸运的是,我一个东大毕业的同学告诉我,东北大学自然语言处理实验室(国内搞机器翻译最好的团队之一)联合沈阳雅译网络技术有限公司推出了“小牛翻译开源社区”,社区中有一项内容,就是教不懂机器翻译的人学习“快速搭建自己的机器翻译系统”。于是,我走进社区,按照社区里的相关说明,亲身体验了搭建过程。下面,我想谈谈这个被誉为“目前国内首个以机器翻译为核心的交流平台”的菜鸟级用户体验。 小牛翻译开源社区里提供了统计机器翻译开源系统的全部代码。我了解了一下,NiuTrans开源系统在国际上比较有名,据说是目前国际上能够支持统计机器翻译模型最全的两套统计机器翻译系统之一(另一套是爱丁堡大学的Moses)。这些内容对MT(机器翻译)的专业学者应该很有用吧,但是对于我这个非科班出身的人来说,其实会完全忽略这部分内容。我还是讲讲我在社区里的真正收获——快速搭建实用的机器翻译系统。 一、搭建过程详细说明 需要说明的是,我是在在网页指导与人工指导下才在自己的电脑(Windows7 64位系统,硬盘500G,内存8G)上成功搭建机器翻译系统的。解释一下为什么我不仅看了网页上操作指导,还需要人工指导。身为“技术小白”的我,虽然网页上的操作指导写的很规范,但是第一次接触这么“高大上”的东西,还是有点小紧张的。于是,我加入了小牛翻

机器翻译技术介绍

机器翻译技术介绍
常宝宝 北京大学计算语言学研究所 chbb@https://www.360docs.net/doc/4c4799467.html,

什么是机器翻译
研究目标:研制出能把一种自然语言(源语言)的文 本翻译为另外一种自然语言(目标语言)的文本的计 算机软件系统。 制造一种机器,让使用不同语言的人无障碍地自由交 流,一直是人类的一个梦想。 随着国际互联网络的日益普及,网上出现了以各种语 言为载体的大量信息,语言障碍问题在新的时代又一 次凸显出来,人们比以往任何时候都更迫切需要语言 的自动翻译系统。 但机器翻译是一个极为困难的研究课题,无论目前对 它的需求多么迫切,全自动高质量的机器翻译系统 (FAHQMT)仍将是人类一个遥远的梦。

机器翻译的基本方法
机器翻译的基本方法 ? 基于规则的机器翻译方法 ? 直接翻译法 ? 转换法 ? 中间语言法 ? 基于语料库的机器翻译方法 ? 基于统计的方法 ? 基于实例的方法 ? 混合式机器翻译方法
目前没有任何 一种方法能实现机 器翻译的完美理 想,但在方法论方 面的探索已经使得 人们对机器翻译问 题的认识更加深 刻,而且也确实带 动了不少不那么完 美但尚可使用的产 品问世。
20世纪90年代以前,机器翻译方法的主流一直是基于规则的方 法,不过,统计方法后来居上,目前似乎已成主流方法,从学术 研究的角度看,更是如此。(Google translate)

机器翻译的基本方法
20世纪90年代以前,机器翻译方法的主流一直是基于 规则的方法,因此基于规则的方法也称为传统的机器 翻译方法。 直接翻译法 ? 逐词进行翻译,又称逐词翻译法(word for word translation) ? 无需对源语言文本进行分析 ? 对翻译过程的认识过渡简化,忽视了不同语言之间 在词序、词汇、结构等方面的差异。 ? 翻译效果差,属于早期过时认识,现已无人采用 How are you ? 怎么 是 你 ? How old are you ? 怎么 老 是 你 ?

对机器翻译取代人工翻译的反驳

对机器翻译取代人工翻译的反驳 近日,一篇名为《翻译界的重大突破!作为一个翻译,此刻我理解了18 世纪纺织工人看到蒸汽机时的忧虑和恐惧!》传遍朋友圈,不少译员和外语系学生表现出了对于翻译前景的担忧,大有机器翻译取代人工翻译的意思。 这篇的文章标题的确相当耸人听闻,这是在号召丢饭碗的译员去砸谷歌总部么?毕竟翻译作为一种创造性的脑力劳动,跟纯粹地出卖体力还是不一样的 (没有任何贬低体力劳动的意思)。相反,个人觉得,作为译员或者外语系学生,应当对于新技术的到来表示欢迎,并主动适应新趋势,而不应该盲目表现出不必要的担忧。 当前笔译市场鱼龙混杂,不少人觉得拿个专八证书就可以做翻译,甚至报价五六十每千字都愿意做,已经严重扰乱了翻译市场秩序。个人觉得CATTI 二级作为敲门砖还是能起到筛选作用的,毕竟15% 左右的通过率摆在那里。机器翻译的发展对于淘汰低端译员可以起到积极作用,而机器翻译完全取代人工翻译的说法实在有夸大之嫌。 奠定了翻译学(Tran slation Studies )独立学科地位的詹姆斯?霍姆斯James Holmes,曾经提出过翻译学的“ Map”,确定学科研究的范围,首先从大方向上分为“纯理论” (Pure)和“应用” (Applied )两个部分,而“应用”层面又可以再分为三个分支“译员培训”( Translator Training )、“翻译辅助” ( Translation Aids )、“翻译批评”( Translation Criticism ),显然“机器翻译” (Machi ne Tran slation ,MT)和“计算机辅助翻译”(Computer Aided Tran slation,CAT)可以归在“翻译辅助”下面。1本人曾经用过大名鼎鼎的CAT 软件Trados (塔多思),功能十分强大,可以随时将翻译结果记录进术语库 ( MultiTerm )中,在该术语重复出现或者近似表达出现的时候进行提示,从而确保术语翻译在全文中的一致性,同时减少翻译术语的重复劳动时间。而诸如“谷歌翻译”之类的“机器翻译”,也代表着翻译研究的一个前沿领域——译后编辑 ( Post-editing ),即通过人工对机器翻译产生的译文进行修改和润色,使其达到可以使用的水平。综上,“翻译辅助”可以减少译员大量重复无意义的劳动,大大提高翻译效率,应该来说可以算是译员的福音。这也是为什么现在很多翻译公司招聘译员都需要熟练掌握翻译辅助工具的原因,当然这也代表着翻译行业的新趋势,对翻译辅助软件一窍不通必然会面临被淘汰的危险。 以下论述机器翻译不可能完全取代人工翻译的原因。第一,翻译辅助软件大多运用于具有大量术语的科技翻译等非文学题材,而对于文学翻译可以起到的作用相当有限。第二,机器翻译基于庞大的语料库,很难处理暂时没有固定翻译的术语,比如中国的外宣翻译是由专家集体讨论之后权威发布的。第三,从根本上讲,机器翻译是基于“对等”( equivalence ),或者类似于平行语料库 ( parallel corpora )

机器翻译和人工翻译-大学英语作文

学术英语作文 机器翻译是否会代替人工翻译 In the past decades, artificial intelligence has brought the light of reform to many areas, translation industry included. The new reform brought us machine translation. As an increasing popular topic, it has inspired people to think that maybe one day, they no longer need to learn foreign languages because machine translation will replace human translation. Though it is not 100% correct, there remains some reasonality within. Last year, A research team from Microsoft claimed that their machine translation (MT) system has achieved the level of professional human translators when it comes to general news report. Meanwhile, Google Translate tool has surpassed the proficiency of some advanced learners. And on Baidu World Conference, Yanhong Li showcased a real-time translation developed by his company. A trend revealed by all those tech giants’ news——an accurate and real-time translation by machine is promising in the future. Meanwhile, new techniques emerge constantly, accelerating the smartness and depth of machine learning. Taking neural network for example……(待补充70词) Thus, In the coming future, there’s no need for comm on people to learn foreign languages. Once the translation machines are smart and powerful enough to deal with academic environment and daily life while also portable to be carried with, people will use them to travel, study and live all around the world without language barriers. It will just look like the scenery in the movie The Wondering Earth -- Astronauts from various countries talk in their mother tongue. At the same time, a mini equipment installed in their suits translate their words. However, if you

人工智能与机器翻译期末复习题

一、名词解释(5X3‘)15’ 1.兼类(P121):一个单词既可以作名词动词又可以作其他词类 2.机器翻译:用计算机软件代替人做的书面翻译 3.组合型歧义:一个字与前面的字成词,与后面的字成词,合起来也成词。 4.交集型歧义(P117):一个字与前面的字成词,与后面的字也成词。 5.人工智能:用计算机硬件、软件模拟人的行为,解决人类目前尚未认识清楚的问题。 6.人工智能软件的三大技术:知识表示、知识推理、知识获取。 7.语料库:单词、短语和句子组成的数据库。 8.知识工程:包括人工智能软件技术的工程。(知识工程是以知识为基础的系统,就是 通过智能软件而建立的专家系统) 9.深度学习:一步一步在丰富起来的特征规律引导下,由浅入深完成推理的方法。 10.语用分析:分析成语和习惯用语的方法。 二、题解P36 例2.1 、2.2 例2.1 设有下列语句: (1)高山比他父亲出名。 (2)刘水是计算机系的一名学生,但他不喜欢编程序。 (3)人人爱劳动。 为了用谓词公式表示这些语句,应先定义谓词: BIGGER(x,y):x比y出名 COMPUTER(x):x是计算机系的学生 LIKE(x,y):x喜欢y LOVE(x,y):x爱y M(x):x是人 定义函数father(x)表示从x到其父亲的映射此时可用谓词公式把上述三个语句表示为:(1)BIGGER(高山,father(x)) (2)COMPUTER(刘水)∧∽LIKE(刘水,程序) (3)(?x)(M(x) →LOVE(x,劳动)) 例2.2 设有下列语句: (1)自然数都是大于零的整数。 (2)所有整数不是偶数就是奇数。 (3)偶数除以2是整数。 定义谓词如下: N(x):x是自然数 I(x):x是整数 E(x):x是偶数 O(x):x是奇数 GZ(x):x大于零 另外,用函数S(x)表示x除以2。此时,上述三个句子可用谓词公式表示为: (?x)(N(x) →GZ(x)∧I(x)) (?x)(I(x) →E(x)∨O(x)) (?x)(E(x) →I(S(x))) 三、论述(4X5‘)20’ 1.阐述深度、广度、代价驱动搜索方法。(P68) 答:广度优先搜索法:对全部节点沿广度进行横向扫描,按各节点生成的先后次序,

一个汉英机器翻译系统的设计与实现

一个汉英机器翻译系统的 计算模型与语言模型* 刘群+詹卫东++常宝宝++刘颖+ (+中国科学院计算技术研究所二室北京100080) (++北京大学计算语言学研究所北京100871) 摘要:本文介绍我们所设计并实现的一个汉英机器翻译系统。在概要介绍本系统的主要目标和设计原则的基础上,着重说明系统的计算模型和语言模型,最后给出实验结果和进一步的打算。 关键词:自然语言处理机器翻译中文信息处理 一、引言 我国的机器翻译研究近年来取得了很大的发展。特别是英汉机器翻译系统的研制已经取得了较大的成功,达到了初步实用的阶段。相对而言,汉英机器翻译的研究却进展比较缓慢,离实用化还有相当的距离[1]。我们的目的是利用目前最新的计算机软件技术、相对成熟的机器翻译方法和先进的汉语语法理论,构造一个初步实用的汉英机器翻译系统。本文将对我们所开发的系统所采用的计算模型和语言模型作一个总体性的介绍,而不涉及过多的细节。 下面我们简要介绍一下本系统的几个主要设计原则: ⑴采用成熟的技术 我们的目的是构造一个真正实用的汉英机器翻译系统,因而在可供选择的若干技术路线面前,我们将尽量选用比较成熟的技术,而在现有技术难以解决问题时再尝试一些新技术。 ⑵开放的体系结构 开放的体系结构主要体现在系统的实现上所采用的软件构件技术[8]。整个系统采用一些相对独立的软件构件组成,因而可以方便地对系统进行修改、维护和扩充。翻译的过程严格按照独立分析、独立生成的原则进行组织,每一阶段的算法相互独立,对其中一个阶段算法的修改不会对其他算法造成影响。 ⑶方便的调试环境 本系统强调为语言工作者提供一个方便的调试环境。系统提供多窗口图形界面的知识库调试工具,支持课题组中多人同时通过网络对一个知识库进行操作。提供对翻译过程直观显示,用户可以清晰地看到翻译过程的每一步操作。提供翻译出错原因查找机制,用户 *本项目的研究受到863-306资助,合同号为863-306-03-06-2

翻译征文《浅谈我对机器翻译的认识》

浅谈我对机器翻译的认识 最近Alpha go连胜李世石三盘,这一结果冲击了整个世界,而这也只是一个开始。从计算机的诞生开始,人们不断研究人工智能,而计算机也在潜移默化的冲击着每一个行业,带来新的挑战。翻译行业也不例外,伴随着机器翻译技术的不断进步,我们也不得不面对这样一个问题:机器翻译最终会取代人工吗? 2014年年末,微软宣布旗下的语音通讯软件Skype开始支持实时翻译功能,可以在对话的同时将语言不通的对话直接翻译成对方的语言。2016年年初,百度公司近年来积极布局人工智能领域,机器翻译项目荣获国家科技进步二等奖。在单词翻译、语音翻译、文章翻译、图片扫描翻译等方面都有了新的突破,为不同语言的人们交流提供了极大的便利。机器翻译的精准度和普及度日新月异,机器翻译技术对于生活的改变,已经在逐步深入。伴随着科技人员对机器翻译的不断拓展,翻译行业也不得不面对这新的挑战。 在电脑刚刚普及的时候,这个世界上曾经有“打字员”这个职业。他们遍布全国,有的在机关单位,有的在大型企业,更多的是在编辑部。他们的工作就是将手写的文本材料输入到电脑当中,现在在英美的电影中,我们还能看到这个行业,在法庭中,带着褐色眼镜神情严肃的他们一边听审判,一边输入到机械打字机中。当时这个无比自豪光荣的职业到现在已经消失不见。社会和科技在一步步进步,那机器翻译最终会取代人工吗?有越来越多的人对这个问题抱有疑虑,也有不少人坚信机械翻译始终的“机械”的,它无法真正地像一个人一样去了解语言。例如,女孩问男孩:“你爱不爱我?”在不同的情景下,这句话都有微妙的差异,而机器只能将其简单的翻译成“Do you love me ?”事实上,即使的精通双语的人,也很难区分非母语一方细微的情感变化。这也是跨国婚姻中的一个障碍。即使是会母语的男孩有的时候也会判断失误而被冠上“直男癌”的称呼,况且是我们人类都无法解决的问题,机器怎么能做到呢? 事实上,机器翻译对人工翻译行业也是残酷的,它势必会依据它的便利简单的优点淘汰掉一批翻译精准度不高的翻译人员。越来越多的人出国旅游只是在手机上安装一个翻译软件而不是请一个旅游翻译,虽然也会出错,但是在磕磕绊绊和似是而非的误解中,也完成的旅行,而且相对还是成功的。这就意味着旅游翻译的存在在科技日新月异的变化中也失去了意义。至于在专业领域,虽然在专业领域翻译难度并不是太大,除了专业术语太多,句法也没有多大变化,但是往往还是由专业翻译人员进行翻译,因为专业领域对精确度的要求很高,机器无法承担错误所导致的后果,而且机器翻译符合逻辑但是缺乏美感。 而且口译在一切非正式场合已经逐渐被机器翻译所替代,笔译在文学翻译上机器翻译很难取代人工翻译,但是在我国,文学翻译的工资低的吓人,每千字不过二三十,好的一般六七十。这样费时费力却得不到应有的报酬,让我国的文学翻译行业颇为惨淡。在英语专业学生的学习中我们也可以看出,虽然听老师劝诫要多用纸质字典看上面的英英释义,但是基本每个学生手机里都装有电子词典,查单词清一色的都掏出手机来,无可否认的是,机器翻译带来的便利与快捷增加的学生的学习效率,省时省力。 总的来说,机器翻译虽然代替不了人工,但足以摧毁翻译行业。机器翻译带来的便利是显而易见的,短时间内机器翻译并不能完全取代人工翻译,但是如果机器学习进步至此,我并不怀疑机器翻译能够完全取代人工翻译,这就对翻译人提出了更高的要求。

机器翻译

机器翻译 1 概述 机器翻译(machine translation),又称为自动翻译,是利用计算机把一种自然源语言转变为另一种自然目标语言的过程,一般指自然语言之间句子和全文的翻译。它是自然语言处理(Natural Language Processing)的一个分支,与计算语言学(Computational Linguistics )、自然语言理解( Natural Language Understanding)之间存在着密不可分的关系。 2 国内外现状 机器翻译思想的萌芽关于用机器来进行语言翻译的想法,远在古希腊时代就有人提出过了。在17世纪,一些有识之士提出了采用机器词典来克服语言障碍的想法。笛卡(Descartes)和莱布尼兹(Leibniz)都试图在统一的数字代码的基础上来编写词典。在17世纪中叶,贝克(Cave Beck)、基尔施(Athanasius Kircher)和贝希尔(Johann JoachimBecher)等人都出版过这类的词典。由此开展了关于“普遍语言”的运动。维尔金斯(JohnWilkins)在《关于真实符号和哲学语言的论文》(An Essay towards a Real Character andPhilosophical Language, 1668)中提出的中介语(Interlingua)是这方面最著名的成果,这种中介语的设计试图将世界上所有的概念和实体都加以分类和编码,有规则地列出并描述所有的概念和实体,并根据它们各自的特点和性质,给予不同的记号和名称。本世纪三十年代之初,亚美尼亚裔的法国工程师阿尔楚尼(G.B. Artsouni)提出了用机器来进行语言翻译的想法,并在1933年7月22日获得了一项“翻译机”的专利,叫做“机械脑”(mechanical brain)。这种机械脑的存储装置可以容纳数千个字元,通过键盘后面的宽纸带,进行资料的检索。阿尔楚尼认为它可以应用来记录火车时刻表和银行的帐户,尤其适合于作机器词典。在宽纸带上面,每一行记录了源语言的一个词项以及这个词项在多种目标语言中的对应词项,在另外一条纸带上对应的每个词项处,记录着相应的代码,这些代码以打孔来表示。机械脑于1937年正式展出,引起了法国邮政、电信部门的兴趣。但是,由于不久爆发了第二次世界大战,阿尔楚尼的机械脑无法安装使用。1903年,古图拉特(Couturat)和洛(Leau)在《通用语言的历史》一书中指出,德国学者里格(W. Rieger) 曾经提出过一种数字语(Zifferngrammatik),这种语法加上词典的辅助,可以利用机械将一种语言翻译成其他多种语言,首次使用了“机器翻译” (德文是ein mechanisches Uebersetzen)这个术语。 真正对机器翻译进行研究应该说是从布恩和韦弗开始的。他们研究的是自动词典万, 从1954年1月7日公开展示的IBM701型计算机开始, 机器翻译进人一个繁荣发展的时期。从那时起, 很多国家都投人了大量的人力、物力从事这方面的研究和开发。随着 Internet 的普遍应用,世界经济一体化进程的加速以及国际社会交流的日渐频繁,传统的人工作业的方式已经远远不能满足迅猛增长的翻译需求,人们对于机器翻译的需求空前增长,机器翻译迎来了一个新的发展机遇。国际性的关于机器翻译研究的会议频繁召开,中国也取得了前所未有的成就,相继推出了一系列机器翻译软件,例如“译星” 、“雅信” 、“通译” 、“华建”等。在市场需求的推动下,商用机器翻译系统迈入了实用化阶段,走进了市场,来到了用户面前。 中国机器翻译研究起步于1957年,是世界上第4个开始搞机器翻译的国家,60年代中期以后一度中断,70年代中期以来有了进一步的发展。现在,中国社会科学院语言研究所、中国科学技术情报研究所、中国科学院计算技术研究所、黑龙江大学、哈尔滨工业大学等单位都

机器翻译技术的探讨

机器翻译技术的探讨 六院五队-徐允鹏-12060143 摘要随着国际交流的日益增多,在计算机、互联网等相关技术日新月异的基础上,机器翻译的技术与应用得到了蓬勃发展。本文详细探讨了基于规则的机器翻译方法、基于语料库的机器翻译方法和混合式机器翻译方法,并讲述了机器翻译的评估方法,最后介绍了机器翻译技术的最新进展。 关键词:机器翻译;基于规则;语料库;评估方法 1.机器翻译概述 随着国际化交流的普遍性,信息通信的日益膨胀,高效的处理不同领域各种语言之间的互译已成为当代人们的普遍需求。翻译是解决自然语言之间通信障碍最直接最有效的方法。传统的翻译工作都是通过专业翻译人员完成,利用语言学知识进行自然语言之间的互译,帮助人们实现信息通信。伴随着计算机技术的成熟与自然语言处理技术的不断进步,利用机器翻译系统帮助人们快速获取外文信息代替人工翻译已成为一种必然的趋势。 机器翻译(machine translation),又称为自动翻译,是利用计算机把一种自然源语言转变为另一种自然目标语言的过程,一般指自然语言之间句子和全文的翻译。它是自然语言处理(Natural Language

Processing)的一个分支,与计算语言学(Computational Linguistics )、自然语言理解(Natural Language Understanding)之间存在着密不可分的关系[1]。 机器翻译是21世纪要解决的科技难题之一,主要困难是自然语言在各个层次上的歧义性。研究机器翻译具有重要的实践意义和理论意义。国际间的合作与交流,语言的差异是一个非常重要的障碍,各行各业的人们面对大量他们不熟悉的语言的文档资料,如果单纯的依靠人工翻译,这些日益的待翻译材料将是一种非常沉重的负担,而机器翻译可大幅度减轻这种负担。同时,机器翻译对于了解人类语言和思维的基本机制,探讨人工智能技术有着重要的意义。 2.机器翻译方法 人们一直在寻求更好的解决机器翻译问题的方法,目前机器翻译方法主要有基于规则的机器翻译,基于语料库的机器翻译和混合式机器翻译方法。 2.1基于规则的机器翻译方法 2.1.1基于分析和转换的机器翻译方法 人作翻译时,把一个源语言句子译成目标语言句子,设计到四个基本操作:目标语言单词的检索、调序、删词、增词;机器翻译系统的过程包括检索、分析、转换和生成主要四个阶段,这被称为基于分析和转换的机器翻译系统,也被认为是模拟人类翻译活动最恰当的机

机器翻译的特点及其与人工翻译的关系.doc

机器翻译的特点及其与人工翻译的关系 2020年4月

机器翻译的特点及其与人工翻译的关系本文关键词:机器翻译,翻译,关系 机器翻译的特点及其与人工翻译的关系本文简介:摘要:本文从机器翻译的发展出发,客观分析了机器翻译与人工翻译的优缺点,以此探讨应该用辩证和发展的眼光来看待机器翻译,学会利用科技来提高自身工作的效率与价值。关键词:机器翻译;人工翻译;人工智能;一、引言随着大数据、云计算和人工智能的发展,许多技术革新纷纷出现,人们的生活也随之变得更加 机器翻译的特点及其与人工翻译的关系本文内容: 摘要:本文从机器翻译的发展出发,客观分析了机器翻译与人工翻译的优缺点,以此探讨应该用辩证和发展的眼光来看待机器翻译,学会利用科技来提高自身工作的效率与价值。 关键词:机器翻译; 人工翻译; 人工智能; 一、引言

随着大数据、云计算和人工智能的发展,许多技术革新纷纷出现,人们的生活也随之变得更加便捷。机器翻译便是备受瞩目的技术之一。它指的是能够将口头或书面文字从一种语言翻译成另一种语言的自动化技术,全程无需人工参与。随着互联网为人们开辟了更广泛的多语言世界,这种语言服务变得非常宝贵。 二、机器翻译的发展 在过去几年中,机器翻译的研究和开发速度惊人。早在2016年,谷歌推出了神经机器翻译系统,同时使用基于短语的机器翻译作为其服务背后的关键算法,以弥合人机翻译之间的差距。后来,微软通过WMT2017Newstest证明其机器翻译系统已经可以产出与人工翻译几乎无法区分的译文。在中国,网易、搜狗和科大讯飞等互联网巨头也加入了竞争,积极发布人工智能翻译设备,以卸下人工翻译的沉重负担。 然而,机器翻译的发展并非一帆风顺。近日,腾讯的同声传译和转录机在博鳌论坛上译出了重复的短语和破碎的句子,引起了全世界对于AI翻译是否能够取代人工翻译的广泛关注和激烈辩论。在谈到人工智能是否能取代人类的问题时,我们应该记住,几乎所有技术都有其优点和缺点,机器

人工智能与机器翻译.

人工智能与机器翻译(A,B 卷 七个大题:1. 名词解释 2.题解 3.智能知识 4.机器翻译方法 5. 技术阐述 6.分析题 7.应用题 A. 名词解释 : a. 机器翻译 :计算机程序做人的翻译。 b. 兼类 :一个单词既可以作名词动词又可以作其它词类。 c. 人工智能软件技术 :知识表示,知识推理,知识学习。 d. 人工智能 :用计算机模拟人的行为。 e. 交集型歧义 :一个字和前面的字可以成词,跟后面的字也可以成词。 f. 组合型歧义 :一个字可以和前面的字成词也可以同后面的字成词,连起来也可以成词。 g. 语法分析 :分析一句话的语法含义。 h. 语料库 :单词,短语,句子的集合。 i. 自然语言理解 :用计算机程序去理解一篇文章的含义。 B. 题解 : 第二章 P36 2-1,2-2 例 2.1 设有下列语句: (1 高山比他父亲出名。 (2 刘水是计算机系的一名学生,但他不喜欢编程序。

(3 人人爱劳动。 为了用谓词公式表示这些语句,应先定义谓词: BIGGER(x,y:x比 y 出名 COMPUTER(x:x是计算机系的学生 LIKE(x,y:x喜欢 y LOVE(x,y:x爱 y M(x:x是人 定义函数 father(x表示从 x 到其父亲的映射此时可用谓词公式把上述三个语句表示为: (1 BIGGER(高山, father(x (2 COMPUTER(刘水∧∽ LIKE (刘水,程序 (3 (任意 x (M(x->LOVE(x,劳动 例 2.2 设有下列语句: (1 自然数都是大于零的整数。 (2 所有整数不是偶数就是奇数。 (3 偶数除以 2是整数。 定义谓词如下: N(x:x是自然数 I(x:x是整数

机器翻译研究综述(DOC)

机器翻译综述 1.引言 1.1机器翻译的历史 现代机器翻译的研究应该是从20世纪50年代开始,但是早在这以前很多人已经提出了相应的想法,甚至是远在古希腊时期就有人提出要用机器来进行语言翻译的想法。 在1946年,美国宾夕法尼亚大学的两位科学家设计并制造了世界上第一台电子计算机。与此同时,英国工程师同美国洛克菲勒基金会副总裁韦弗在讨论计算机的应用范围时,就提出了利用计算机实现语言的自动翻译的想法。在1949年,韦弗发表了一份名为《翻译》的备忘录,正式提出了机器翻译问题。他提出了两个主要观点: 第一,他认为翻译类似于解读密码的过程。 第二,他认为原文与译文“说的是同样的事情”,因此,当把语言A翻译为语言B时,就意味着从语言A出发,经过某一“通用语言”或“中 间语言”,可以假定是全人类共同的。 在这一段时间由于学者的热心倡导,实业界的大力支持,美国的机器翻译研究一时兴盛起来。 1964年,美国科学院成立语言自动处理咨询委员会,调查机器翻译的研究情况,给出了“在目前给机器翻译以大力支持还没有多少理由”的结论,随后机器翻译的研究就陷入了低潮期。直到70年代以后机器翻译的研究才重新进入了一个复苏期,随后机器翻译的发展又迎来了繁荣期 1.2机器翻译的主要内容 经过50多年的发展,在机器翻译领域中出现了很多的研究方法,总结如下:●直接翻译方法 ●句法转换方法 ●中间语言方法 ●基于规则的方法 ●基于语料库的方法 基于实例的方法(含模板、翻译记忆方法) 基于统计的方法 在当前的研究中,更多的是基于统计的方法进行的,因为基于统计的方法可以充分的利用计算机的计算能力,并且并不需要过多的语言学知识作为支撑,可以让更多的计算机科学家投入到实用系统的研究中,极大的促进了统计机器翻译的发展。 下面对各个方法逐一的进行介绍。

人工智能翻译逐步取代人工

人工智能翻译逐步取代人工 Considerable advances have been made in machine translation that utilizes artificial intelligence, to the point that it now provides the average English skill level of a university graduate. 使用人工智能的机器翻译已经取得很大进展,现在,它能提供一名大学生的一般英语水平。 How much might machines be able to achieve in the future? For what purpose, and to what extent, should the Japanese develop their English skills? 在未来,机器可能会实现多少?为了何种目的,到了什么程度,日本人应该发展他们的英语技能吗? We asked an American translator who teaches English at a university and the president of a machine translation company about these issues. 我们咨询了一名在大学教英语的美国译者以及一家专注这些问题的机器翻译公司的总裁。 Tom Gally / Professor at the University of Tokyo 汤姆.盖利/ 东京大学教授 Until now, machine translation has been used in place of a dictionary when reading and writing English, but it hasn’t been usable to comprehend or compose larger texts. 直到现在,机器翻译已被用作读写英语之时的一本字典,但它无法理解或编辑更大幅度的文本。 Machine translation using AI made its first appearance in autumn last year, and from my point of view as a tra nslator, it’s not uncommon for English compositions produced by such machine translation to be better than those produced by unaided Japanese students. 使用人工智能的机器翻译于去年秋天首次亮相,作为一名译者,我觉得并不稀奇的是,此类机器翻译生产的英语文章比无援助的日本学生们所写的英语文章要好。 However, it also has weak po ints. It can’t check for mistranslations, mistakes or languages it doesn’t understand. 然而,它也有各种弱点。它无法检查错译、错误、或其无法理解的语言。

人工智能在机器翻译领域的应用

- 147 - 第5期2019年3月No.5March,2019 人工智能即旨在使机器能够胜任一些通常需要人类智能才能完成的复杂工作。近年来,大数据、物联网、云计算这些IT 行业最新的技术发展趋势正推动着这一学科的兴起,并使其广泛应用于语音识别、图像识别、自然语言处理以及专家决策等研究领域。因其实力差异,人工智能又可分为弱人工智能、强人工智能和超人工智能,但强人工智能和超人工智能还未真正实现。当下我们身边随处可见的生活助手、智能家居、智能建筑等其实都是一种弱人工智能的体现,即专注于实现某一特定方面的功能,并可以与人类媲美甚至超越人类。从深蓝到战胜围棋世界冠军的AlphaGo ,它们采用的核心技术就是深度学习算法。作为机器学习的诸多方法之一,深度学习的灵感来源于人类大脑的结构和功能,通过模拟神经元间的互联关系从而构建人工神经网络以进行反复“训练”直至输出期望值,本文要探讨的机器翻译正是基于这种原理。 1 机器翻译的发展现状 在人工智能技术尚未发展成熟之前,传统人工翻译一直扮演着举足轻重的角色。直至当今,诸如Google 翻译、阿里翻译、百度翻译等AI 行业巨头推出的翻译平台逐渐凭借其翻译过程的高效性和翻译结果的准确性占据了翻译行业的主导地位。其中,Google 公司提供的机器翻译已经将汉译英的正确率和专业化程度提升到了一个新的高度,并受到社会各界人士的认可。一项在20世纪需要语言专家连续工作若干小时才能完成的翻译工作在今天或许只要在机器前守候几秒钟即可呈现出完整的翻译结果,这是一种跨时代的技术飞跃。 总而言之,机器翻译的问世实则是生产力大幅度提高的一种体现[1]。首先是节省了资源成本,不像传统人工翻译要求大量人力参与,且后期还需反复校对核查的繁琐流程,机器翻译全程仅需要一台计算机和电源即可,且不会出现拼写遗漏等低级错误,其工作的高效性是人工所不能媲美的。其次,因其背后的大数据支持和拥有强大的计算机系统作为支撑,机器翻译能够在确保正确率和即时性的条件下表现 出与时俱进的特性。通过不断“训练”以自动完善和优化内 部网络结构,从而进一步提高翻译质量。2 机器翻译的技术特点 机器翻译因工作原理的不同可分为基于规则的机器翻译、基于统计的机器翻译和基于神经网络的机器翻译。基于规则的机译系统以词典和语法规则库作为知识提取源,并结合语言学领域的专家知识以进行源语种到目标语种的转换,其实也可以说是一种符号的变换。因为它更多时候是在对语法进行剖析的基础上展开翻译工作,而不曾深入到语义层面,实为一种“直译”。基于统计的机器翻译实则是一种基于语料库的机译系统,不同于前者,它的语料库已经过严格划分并加以标注,其工作原理可以类比为一种语言信息在信道传输的过程。机器会默认源语言库中的任何一句话都可能与目标语言库中的某句话形成映射关系,不同的只是这种关系的产生概率,因而其目标就是寻找概率最大的句子作为译文予以呈现,这其实也是一种统计学思想。 当下深度学习的热潮已席卷全球,循环神经网络及其重要变型、卷积神经网络等具有不同拓扑结构的人工仿生网络在自然语言处理上均具有突出效果。这里将着重对后者,即通过构建人工神经网络,采用深度学习算法以实现的机器翻译模型进行探讨。在该种翻译模型中,诸如词汇、短语、句子等自然语言的基本组成单位均采用连续空间来表示,其中的人工神经网络则用于实现由原文至译文的直接映射,而无需经过依存分析、规则抽取、词语对齐等基于统计的机器翻译才涉及的处理过程。在实际语句转换过程中,原文语言序列的输入由编码器读入并以一定维度的语义向量作为输出,再由解码器对其进行解码,进而输出目标语言序列,即翻译后的结果[2]。这种采用编码—解码形式的机器翻译能够自发地从语料库中学习语言特征,而无需在深度学习算法中设定相关特征值以阐述翻译规律,因而在对自然语言的处理过程中省去了特征设计的工作,其模型架构如图1所示。3 机器翻译暴露的弊端 正如任何事物都是作为矛盾统一体而存在,机器翻译 作者简介:贺丽媛(1998— ),女,江苏无锡人,本科生;研究方向:自动化。 摘 要:21世纪技术领域的重大变革使“人工智能”一词逐渐为我们耳濡目染,这无疑是一个很宽泛的话题。从几乎人手必备 的智能手机到无人驾驶汽车的试运行,当今我国人工智能在人脸识别、语音识别、安防监控、智能音箱、智能家居等领域均走在国际前沿,无一不令人叹为观止。深度学习即成为当下热门研究领域,文章以该领域下的一个重要应用分支—机器翻译为实例,探讨人工智能的发展现状、技术特点以及当前存在的一些弊端。关键词:人工智能;深度学习;机器翻译人工智能在机器翻译领域的应用 贺丽媛 (西北民族大学 电气工程学院,甘肃 兰州 730124) 无线互联科技 Wireless Internet Technology

相关文档
最新文档