统计机器翻译

统计机器翻译
统计机器翻译

统计机器翻译

熊德意,何中军,刘群

1.概述

统计机器翻译,又称为数据驱动(data-driven)的机器翻译。其思想其实并不新鲜。早在1949年,Weaver发表的以《翻译》为题的备忘录中就提出:“当我阅读一篇用俄语写的文章的时候,我可以说,这篇文章实际上是用英语写的,只不过它是用另外一种奇怪的符号编了码而已,当我在阅读时,我是在进行解码。”这实际上就是基于信源信道思想的统计机器翻译方法的萌芽。早期的机器翻译系统通常都建立在对词类和词序分析的基础之上,分析中经常使用统计方法,只是后来以Chomsky转换生成语法为代表的理性主义方法兴起后,统计机器翻译方法几乎不再被人使用。上世纪90年代初期,IBM的Brown等人提出了基于信源信道思想的统计机器翻译模型,并且在实验中获得了初步的成功,引起了研究者广泛的关注和争议。不过由于当时计算能力等多方面限制,真正开展统计机器翻译方法研究的人并不多,统计机器翻译方法是否真正有效还受到人们普遍的怀疑。

源语言目标语言

图1统计机器翻译金字塔

但是,进入21世纪以来,在学习、生活和工作中,人们日益发现,不同语言之间的交流越来越频繁。无论是口语还是书面形式的交流,无不对机器翻译提出了更加严峻迫切的要求。而另一方面,计算能力也获得了突飞猛进,互联网的发展和普及,以及双语国家、联合国的多语存档,为我们提供了数以千万句的双语平行语料,这些为统计机器翻译方法奠定了

必要的基础。于是,越来越多的研究人员开始投入到统计机器翻译的研究中,并取得了成功(在美国国家标准和技术研究所(NIST)信息部语音组主持的机器翻译国际评测1中,从2002年到2005年,统计机器翻译连续四年取得好成绩[1]),统计方法也逐渐成为国际上机器翻译研究的主流方法之一。

目前统计机器翻译方法主要分为三类:第一类是基于词的(word-based ),以单词作为翻译的基本单位,不考虑上下文信息和人类语言学知识;第二类是基于短语的(phrase-based),它将翻译的粒度从单词扩展到短语,能够较好的解决局部上下文依赖问题,提高了翻译的流利度和准确率;第三类是基于句法的(syntax-based ),将句法结构信息引入翻译过程,这种方法是当前研究的一个热点。这三类方法可以用图1的金字塔来描述。

本文的内容也按照上面提到的3种主要方法组织,对每种方法进行简单介绍,由于篇幅所限,我们不可能对每一部分深入开展,但是我们希望通过丰富的实例和图解,能让读者对统计机器翻译有一个大概的印象,如果能够引起兴趣,那本文的目的就真正达到了。在第二节中我们对基于单词的方法简单介绍,这可以说是统计机器翻译真正意义上的开端引领工作。第三节介绍目前主流的统计机器翻译方法:基于短语的方法。第四节介绍基于句法的方法,这是当前统计机器翻译研究的热点。

2. 基于单词的方法

基于词的统计机器翻译,顾名思义,其主要思想是以词作为翻译的基本单位。训练时,它从语料库中统计目标语言单词翻译为源语言单词的概率。翻译时,首先查找每个源语言单词所对应的目标语言单词,然后插入、删除目标语言单词,并调整它们的顺序,最后组合成目标语言句子。这种方法的典型代表就是上世纪90年代初期IBM 公司的Brown 等人提出的基于信源信道模型的方法5)[2]5)[3],可以说,它为现代统计机器翻译研究的蓬勃发展奠定了坚实的基础。

信源信道模型将统计机器翻译看成一个信息传输的过程:信道的输入是目标语言e ,在经过信道编码以后,输出源语言f ,机器翻译的任务就是将源语言f 还原(翻译)为目标语言e ,这一过程通常称之为解码。需要注意的是,这种模型与人们通常的认识有所区别,就模型而言,信道的输入是目标语言,而输出则是源语言,实际上在翻译(解码)时,还是将源语言作为输入,输出为目标语言。

图2 信源信道模型示例

根据Bayes 公式,Brown 等人提出了统计机器翻译的基本方程式: ?arg max Pr()Pr(|)e

e

e f e 其中,Pr()e 是目标语言的语言模型,衡量生成的目标语言的合法程度;Pr(|)f e 是翻译模型,衡量目标语言文本翻译为源语言文本的概率。解码的任务就是根据上式找到概率最大的译文。在此基础上,IBM 公司的研究人员提出了5个复杂程度层层递进的翻译模型,使用EM 算法从句子对齐的语料库中自动学习单词的翻译概率,然后利用动态规划算法进行解码5)[3]。 1 https://www.360docs.net/doc/bf2711377.html,/speech/tests/mt/

IBM 引入的统计方法是通用的,功能也比较强大,在法-英翻译上达到了当时基于句法转换的系统的水平[4]。IBM 模型的成功,可以说给整个机器翻译界带来了极大的冲击。它不仅使机器翻译研究者重新思考以前的翻译方法,而且也激发了他们对统计方法用于机器翻译的浓厚兴趣[4][5]。

IBM 的工作一直延续到1995年,之后由于研究经费的原因而被迫中止[4]。但是由于文献[3]中详细记载了IBM 方法,后续的研究者在1999年JHU 夏季研讨班上重新实现了IBM 模型,并公开了源代码GIZA 2。之后Och 博士在此基础上发布了增强版GIZA++3。这些工作为后来统计机器翻译的发展奠定了坚实的基础。

IBM 方法可以说是纯粹的单词到单词自动转录方法,除了计算复杂之外,另外一个很大的缺陷在于它只能学习到两种语言单词之间互为翻译的知识,而对单词的上下文语境却不敏感,这就导致了IBM 方法在word-level 上由于缺乏上下文语境而不能正确选择译文单词,尤其是不能正确翻译习惯表达、成语等结合紧密,却不能通过逐个单词翻译然后拼凑在一起形成译文的源语言串[6]。

3. 基于短语的方法

这种方法的基本思想是以短语作为翻译的基本单位。在翻译过程中,不是孤立的翻译每个词,而是将连续的多个词一起翻译。由于扩大了翻译的粒度,基于短语的方法很容易处理局部上下文依赖问题,能够很好的翻译习语和常用词搭配。一般的,在基于短语的方法中,短语可以是任意连续的字符串,不作语法上的限制,这样可以方便地从词语对齐的双语语料库中自动抽取双语短语翻译[7]。给定一个源语言句子,基于短语的模型翻译过程如下:

1) 对源语言句子进行短语划分;

2) 根据翻译模型翻译每个短语;

3) 对短语进行重排序。

图2是基于短语的翻译过程示例。

图3 基于短语的方法示例

3.1 训练

训练的时候,最初输入的是一个双语语料库,即一对一对互为翻译的句子。如下面样例所示:

2

参见

https://www.360docs.net/doc/bf2711377.html,/ws99/projects/mt/ 3 参见

https://www.360docs.net/doc/bf2711377.html,/GIZA++.html.

源语言: 翻译:

经过一个词语对齐过程,得到如下形式的数据:

从词语对齐的结果中可以知道句子中哪些词是互为翻译的。下面,训练过程的第二个步骤就是进行短语抽取了。所谓短语抽取,就是抽取出语料库中所有互为翻译的连续的词串,而不用管这个词串是否具有真正的含义。以上面第二个句子为例,可以抽取到以下的短语:

实际上,所抽取出来的短语中,除了两种语言的词语外,还有一些概率信息。下面是从真实的大规模语料库中抽取出的一些以“大规模”开头的短语片断:

可以看到,“大规模”这个短语,在语料库中主要有mass、massive、large-scale这几种翻译方法,跟不同的词搭配的时候,有一些习惯性的翻译方法,通常不能混用。比如,指“军事行动”或“救济行动”的时候,通常用large-scale,指“救济行动”的时候,也可以用massive,而指“杀伤性武器”的时候,通常翻译成mass。对于“行动”一词,“救济行动”一般翻译成relief operations,而“军事行动”可以翻译成military action,也可以翻译military operations。“大规模杀伤性武器”,绝大部分情况下都是翻译成“weapons of mass destruction”,少数情况下翻译成“mass destructive weapons”。

3.2 重排序

对于基于短语的方法来说,如何重新排列目标语言短语的顺序,使译文更加准确、流畅,是一个很重要的问题。最简单的方法是不进行短语的重排序,即译文和原文的短语排列顺序一致,这实际上是完全忽略了语言之间的差异性。但是如果要考虑任意可能的重排序(即目标短语的全排列),那将是一个NP-难问题[8]。所以实际的做法是引入某种约束条件,减少重排序的可能性,从而缩小解码时的搜索空间。最常见的两种重排序约束是IBM约束和ITG[12]约束[9](见图4和图5)。IBM约束要求每次翻译的源语言短语是最开始没有翻译的K个短语中的一个,这里由于目标语言短语是逐个从左至右组合的,所以目标短语的重排序问题变成了解码器应该按何种顺序翻译源语言短语的问题。IBM约束规定下一个要翻译的源语言短语不是随意选择的,而是在一个大小为K(可以根据需要定义,K越大,重排序的可能性也就越多,解码复杂度也就越高)的窗口中选择,该窗口涵盖了最开始等待翻译的源语言短语。ITG约束就更好理解了,它要求两个相邻的短语翻译时的顺序只有两种可能性,保序或者逆序,保序是指源语言短语和目标语言短语顺序一致,逆序是指两者的顺序恰好相反。

表示已经被翻译的

表示待翻译的

表示下一个要翻译的

表示没有被翻译的

图4 IBM约束

源语言目

言保

序目标语言

逆序

图5 ITG 约束

在这两种约束的基础上,研究者提出了不同的重排序模型。最开始的重排序模型与被重排序的短语是完全不相关的,即独立于短语。后来又发展了和短语相关的模型。

3.2.1 独立于短语的重排序模型

这类方法在调序的时候不考虑具体的短语,调序带有很大的任意性。主要有以下几种:

1) 固定概率法

这种方法依据具体的两种语言给顺序(Monotone )翻译和非顺序(Non-Monotone )翻译赋予固定的概率,例如顺序翻译的概率是0.8,非顺序的概率是0.2。它带有很大的主观性。

2) 移动距离法[7]

这种方法计算短语在源语言和目标语言中移动的距离,赋予惩罚因子,移动距离越大,惩罚也越大。因此,它不鼓励长距离的短语调序。

独立于短语的调序方法比较粗糙,它脱离了具体的短语,调序后短语的顺序主要依靠语言模型来保证,调序效果并不理想。

3.2.2 短语相关的重排序模型

这类方法在重排序的时候考虑了具体的短语,从语料库中自动学习短语间的排列顺序,然后应用于翻译过程。由于有了短语信息的指导,调序效果要好于独立于短语的方法。

1) 词汇化预测模型[10]

此模型定义了3种短语连接方向(Orientation ):左向表示逆序翻译;右向表示顺序翻译;中性方向表示两个短语相对独立。它从语料库中统计相邻短语的连接方向的概率,然后应用于短语排序。这种方法只能学到相邻短语的排序方式,数据稀疏比较严重。

2) 最大熵调序模型[11]

此模型基于BTG[12]进行建模,将调序看作一个分类问题,使用最大熵模型建立分类器。根据BTG 规则,相邻短语的连接顺序有两种:顺序(Straight )和逆序(Inverted ),这样做比词汇化预测模型简化了调序种类。另外,最大熵模型的特征函数定义在短语的第一个词上,而不是定义在整个短语上,使得调序实例具有泛化作用,缓解了数据稀疏问题。

4. 基于句法的模型

基于句法的统计机器翻译最早可以追溯到上世纪90年代初,当时同步树粘接语法

(Synchronous Tree-adjoining Grammar,简称STAG)[13]和反向转录语法(Inversion Transduction Grammar,简称ITG)[12]相继提出来并用到机器翻译上。从时间上说,与IBM 提出基于单词的统计翻译模型的时间很接近,但是基于句法的统计机器翻译研究逐渐得到人们的关注和认可却是在2000年之后。即使是在这段时间,许多研究者对基于句法的统计机器翻译仍然持观望态度,这主要是因为基于短语的统计机翻译仍然方兴未艾,最初的基于句法的统计机器翻译系统在性能上与基于短语的统计机器翻译系统相差甚远,再加上2003年由Och等人组织的约翰.霍普金斯大学(JHU)夏季研讨班“Syntax for Statistical Machine Translation”经过6个星期的努力之后,发现引进诸多与句法结构相关的特征并不能显著改善翻译质量[14]。这些使得人们对基于句法的统计机器翻译产生了怀疑4。

但是基于短语的统计机器翻译本身存在一些固有缺陷,如短语层次上的全局重排序,短语非连续性和泛化能力问题,极大地束缚了该方法的进一步发展。这使得人们又不得不求助于句法,因为在理论上或者在人们的自觉上,引入句法结构知识有助于解决这些问题。所以纵观统计机器翻译的发展历程,可以看到,基于句法的统计机器翻译是继基于短语的统计机器翻译之后的一个新趋势。从目前的情况来看,有些基于句法的统计机器翻译系统在性能上已经明显超过了基于短语的系统,如2005年NIST机器翻译评测中的Chiang的Hiero系统,2006年NIST机器翻译评测中的ISI的系统和中科院计算所的系统,在性能上它们接近甚至超过了最好的短语系统。

将句法知识引入到统计机器翻译系统中,存在多种不同的方法,如在单词对齐模型中引入句法知识[15],在翻译之前利用句法知识调整源语言语序[16],在翻译之后利用句法知识做reranking[14]等,本文只讨论翻译模型本质上就是基于句法的,并称之为基于句法的统计机器翻译。本文延续Chiang[17]的分类思想,根据翻译模型所依赖的语法是否包含语言学知识将基于句法的统计机器翻译粗略分为以下2类:

1)基于形式化语法的:该类翻译模型建立在形式化语法的基础上,但并不包含人类

语言学知识,如短语标记,词与词之间的依赖关系等;相关的工作有[17],[11]等。

2)基于语言学语法的:该类模型建立在语言学语法基础上,将人类语言学知识包含

到模型中。根据所采用的结构树形式的不同,又可以将它分为以下两类:

a)基于短语结构树的:该类模型通过短语结构树,将短语的句法标记及标记之

间的依赖关系等语言学知识引入到翻译过程中;相关的工作有[18][19]等

b)基于依存树的:该类模型通过依存树,将词与词之间的依赖约束关系等语言

学知识引入到翻译过程中;相关工作有[20][21][22]等。

5.总结

经过近十几年的发展,统计机器翻译有了长足的进步,但是总体来说还处在实验室研究阶段,难以实用化。目前,统计机器翻译还有很多难题需要解决:

1)丰富的语言学知识的引入和使用问题。目前的统计机器翻译系统难以处理复杂多变

的语言现象,有的甚至根本不做处理,比如单复数问题、时态问题、句法结构问题

等。

2)大规模数据的处理和使用问题。统计方法离不开大规模数据的支持,在2006年的

NIST评测中,参评系统使用的语料数量达到几百万句对,Google更是依靠其庞大

的机群,使用了2T的数据来训练7元的语言模型。一般的公司和研究机构都难以

处理如此海量的数据,更不要说普通计算机了。

3)建模问题。随着研究的深入,现在统计机器翻译的模型有不断复杂化的趋势,极大

4这中间存在一个矛盾,即理论上人们普遍认为句法对机器翻译有很大作用,但是实际系统却并没有证实这一点。这说明或者是句法对机器翻译真的不起作用,或者是人们在利用句法信息时在方法上走了弯路。从后来的工作来看,句法信息如何利用是一个关键问题。

地增加了计算复杂度。理论上来说,模型应该尽量简单,这也便于处理大规模的语

料库。

4)搜索问题。搜索算法是与模型相关的,有些模型如基于句法的模型本身比较复杂,

其搜索算法的复杂度也很高。同时由于受到计算机处理能力的制约,目前的算法不

同程度的进行了参数剪枝,这是以损失机器翻译的质量为代价的。

尽管面临众多的技术难题,人们对统计机器翻译仍然充满了热情和信心,就目前的发展来看,统计机器翻译还有巨大的发展潜力和应用前景。以下几个方面值得关注:

1)统计方法与其它方法的融合。统计的方法关注语言中的共性现象,忽略个性现象,

对语言的灵活性把握不够,而其他的方法例如基于规则的方法对语言现象的处理要

好很多,而且有很多商用的系统。无论是从理论研究方面还是工程方面,基于统计

的方法都应当借鉴和融合其他方法的优点;

2)重视语言资源的建设。现在我们可以很容易的获得海量的语料库,但是里面含有很

多噪声,对模型影响很大。在研究自动处理的方法时,也应当加强对语料库的人工

加工和处理,最好能够提供共享使用,这是一件一劳永逸的事情;

3)语言知识的引入。基于句法的方法已经迈出了引入语言学知识的第一步,随着研究

的不断深入,在统计机器翻译中继续引入各种语言学知识是大势所趋,例如语义知

识等,这可能需要设计新的翻译模型;

4)高效的搜索算法的设计和实现。可以从实现角度考虑,对现有的算法进行优化处理,

如设计更好的数据结构,采用并行化处理等;

5)评测方法的研究。评测为大家提供了一个比较平台,是机器翻译发展的推动力,从

近几年NIST评测来看,机器翻译的质量不断提高;另外,评测也是机器翻译发展

的领航员,评测方法会影响到机器翻译的研究方法,目前很多系统专门针对评测的

指标进行改进,有时候偏离了对技术本身的研究。因此,设计合理、实用的机器翻

译评测方法也是一个重要的研究方向。

参考文献

[1]David Geer. Statistical Machine Translation Gains Respect. IEEE Computer Society Press, V olume

38, Issue 10, Pages: 18 - 21, 2005.

[2]Peter F. Brown, John Cocke, Stephen A. Della Pietra, Vincent J. Della Pietra, Fredrick Jelinek, John

D. Lafferty, Robert L. Mercer, Paul S. Roossin, A Statistical Approach to Machine Translation,

Computational Linguistics,1990

[3]Peter. F. Brown, Stephen A. Della Pietra, Vincent J. Della Pietra, Robert L. Mercer, The Mathematics

of Statistical Machine Translation: Parameter Estimation, Computational Linguistics, Vol 19,

No.2 ,1993

[4]Bonnie J. Dorr, Pamela W. Jordan, John W. Benoit. A Survey of Current Paradigms in Machine

Translation. Technique Report: CS-TR-3961,1998.

[5]John Hutchins. Retrospect and prospect in computer-based translation. In Proceedings of MT Summit

VII, 13th-17th September 1999, Kent Ridge Digital Labs, Singapore, 30–34.

[6]Franz Josef Och. 2002. Statistical Machine Translation: From Single-Word Models to Alignment

Templates. Thesis.

[7]Philipp Koehn, Franz Joseph Och, and Daniel Marcu. 2003. Statistical Phrase-Based Translation. In

Proceedings of the Human Language Technology and North American Association for

Computational Linguistics Conference (HLT/NAACL)

[8]Kevin Knight. 1999. Decoding complexity in word replacement translation models. Computational

Linguistics, Squibs & Discussion, 25(4).

[9]R. Zens and H. Ney: A Comparative Study on Reordering Constraints in Statistical Machine

Translation. In Proceedings of the Annual Meeting of the Association for Computational Linguistics (ACL), pp. 144-151, Sapporo, Japan, July 2003.

[10] C. Tillmann and T. Zhang. 2005. A localized prediction model for statistical machine translation. In

Proc. Of the 43rd Annual Meeting of the Assoc. for Computational Linguistics (ACL), pages 557–564, Ann Arbor, MI, June.

[11]Deyi Xiong, Qun Liu, and Shouxun Lin. 2006. Maximum entropy based phrase reordering model for

statistical machine translation. In Proceedings of the 44th Annual Meeting of the ACL-COLING. [12] D. Wu. 1995. Stochastic inversion transduction grammars, with application to segmentation,

bracketing, and alignment of parallel corpora. In Proc. of the 14th International Joint Conf. on Artificial Intelligence (IJCAI), pages 1328– 1334, Montreal, August.

[13]Stuart M. Shieber and Yves Schabes. Synchronous tree-adjoining grammars. In Proceedings of the

Thirteenth International Conference on Computational Linguistics (COLING), volume 3, pages 1-6, 1990.

[14]Franz Josef Och, Daniel Gildea, Sanjeev Khudanpur, Anoop Sarkar, Kenji Yamada, Alex Fraser,

Shankar Kumar, Libin Shen, David Smith, Katherine Eng, Viren Jain, Zhen Jin, Dragomir Radev.

Final Report of Johns Hopkins 2003 Summer Workshop on Syntax for Statistical Machine Translation. 2003.

[15]Dekang Lin and Colin Cherry. 2003. Word Alignment with Cohesion Constraint. In Proceedings of

HLT/NAACL 2003. Companion V olume, pp. 49-51, Edmonton, Canada.

[16]Xia, F. and McCord, M. Improving a statistical MT system with automatically learned rewrite

patterns. In Proceedings of Coling 2004.

[17]David Chiang. A hierarchical phrase-based model for statistical ma- chine translation. In Proceedings

of the 43rd Annual Meeting of the ACL, pages 263-270, 2005.

[18]M. Galley, J. Graehl, K. Knight, D. Marcu, S. DeNeefe, W. Wang, and I. Thayer. 2006. Scalable

Inference and Training of Context-Rich Syntactic Models. In Proc. ACL-COLING, 2006.

[19]Yang Liu, Qun Liu, and Shouxun Lin. 2006. Tree-to-String Alignment Template for Statistical

Machine Translation. In Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the Association for Computational Linguistics (COLING/ACL 2006), pages 609-616, Sydney, Australia, July.

[20]Lin Dekang. 2004. A path-based transfer model for machine translation. COLING 2004.

[21]Chris Quirk, Arul Menezes and Colin Cherry. 2005. Dependency Treelet Translation: Syntactically

Informed Phrasal SMT. In Proceedings of ACL 2005.

[22]Yuan Ding and Martha Palmer. Machine Translation Using Probabilistic Synchronous Dependency

Insertion Grammars. The 43rd Annual Meeting of the Association of Computational Linguistics, Ann Arbor 2005. (ACL-2005)

机器翻译技术介绍

机器翻译技术介绍
常宝宝 北京大学计算语言学研究所 chbb@https://www.360docs.net/doc/bf2711377.html,

什么是机器翻译
研究目标:研制出能把一种自然语言(源语言)的文 本翻译为另外一种自然语言(目标语言)的文本的计 算机软件系统。 制造一种机器,让使用不同语言的人无障碍地自由交 流,一直是人类的一个梦想。 随着国际互联网络的日益普及,网上出现了以各种语 言为载体的大量信息,语言障碍问题在新的时代又一 次凸显出来,人们比以往任何时候都更迫切需要语言 的自动翻译系统。 但机器翻译是一个极为困难的研究课题,无论目前对 它的需求多么迫切,全自动高质量的机器翻译系统 (FAHQMT)仍将是人类一个遥远的梦。

机器翻译的基本方法
机器翻译的基本方法 ? 基于规则的机器翻译方法 ? 直接翻译法 ? 转换法 ? 中间语言法 ? 基于语料库的机器翻译方法 ? 基于统计的方法 ? 基于实例的方法 ? 混合式机器翻译方法
目前没有任何 一种方法能实现机 器翻译的完美理 想,但在方法论方 面的探索已经使得 人们对机器翻译问 题的认识更加深 刻,而且也确实带 动了不少不那么完 美但尚可使用的产 品问世。
20世纪90年代以前,机器翻译方法的主流一直是基于规则的方 法,不过,统计方法后来居上,目前似乎已成主流方法,从学术 研究的角度看,更是如此。(Google translate)

机器翻译的基本方法
20世纪90年代以前,机器翻译方法的主流一直是基于 规则的方法,因此基于规则的方法也称为传统的机器 翻译方法。 直接翻译法 ? 逐词进行翻译,又称逐词翻译法(word for word translation) ? 无需对源语言文本进行分析 ? 对翻译过程的认识过渡简化,忽视了不同语言之间 在词序、词汇、结构等方面的差异。 ? 翻译效果差,属于早期过时认识,现已无人采用 How are you ? 怎么 是 你 ? How old are you ? 怎么 老 是 你 ?

搭建属于自己的机器翻译系统

搭建属于自己的机器翻译系统——MTI专业“技术小白”走进小牛翻译开源社区的心得 搭建属于自己的机器翻译系统 ——MTI专业“技术小白”走进小牛翻译开源社区的心得首先,自我介绍一下。我是一个MTI(翻译硕士)专业、没有计算机编程背景、没有机器翻译理论基础的菜鸟,任职于一家网络科技公司的市场部门,之前的工作中需要做些翻译工作,有时候求助百度翻译、有道翻译等免费的机器翻译系统来解决问题,但是对于一些涉及我们商业机密的数据,由于担心泄密,只能借助于有道词典查查词,然后再自己形成翻译结果。很早之前我就想,要是能有自己的机器翻译系统就好了。 我心目中的翻译技术大牛、对外经贸大学的崔启亮老师曾在微博中给MTI的学生提建议,“学好翻译技术,有前途。对于仍在迷茫MTI的同学,我建议学机器翻译设计与开发,走出迷茫。”非常非常幸运的是,我一个东大毕业的同学告诉我,东北大学自然语言处理实验室(国内搞机器翻译最好的团队之一)联合沈阳雅译网络技术有限公司推出了“小牛翻译开源社区”,社区中有一项内容,就是教不懂机器翻译的人学习“快速搭建自己的机器翻译系统”。于是,我走进社区,按照社区里的相关说明,亲身体验了搭建过程。下面,我想谈谈这个被誉为“目前国内首个以机器翻译为核心的交流平台”的菜鸟级用户体验。 小牛翻译开源社区里提供了统计机器翻译开源系统的全部代码。我了解了一下,NiuTrans开源系统在国际上比较有名,据说是目前国际上能够支持统计机器翻译模型最全的两套统计机器翻译系统之一(另一套是爱丁堡大学的Moses)。这些内容对MT(机器翻译)的专业学者应该很有用吧,但是对于我这个非科班出身的人来说,其实会完全忽略这部分内容。我还是讲讲我在社区里的真正收获——快速搭建实用的机器翻译系统。 一、搭建过程详细说明 需要说明的是,我是在在网页指导与人工指导下才在自己的电脑(Windows7 64位系统,硬盘500G,内存8G)上成功搭建机器翻译系统的。解释一下为什么我不仅看了网页上操作指导,还需要人工指导。身为“技术小白”的我,虽然网页上的操作指导写的很规范,但是第一次接触这么“高大上”的东西,还是有点小紧张的。于是,我加入了小牛翻

统计机器翻译

统计机器翻译 来自维基百科,免费的百科全书 统计机器翻译(SMT)是一种机器翻译的模型,译文在统计模式的基础上生成,而统计模式所需的参数来自于对双语文本语料库的分析。 机器翻译中基于统计的方法与基于规则的方法和基于实例的方法相对。 统计机器翻译的最初想法由Warren Weaver在1949年〔1〕提出,其中包括对Claude Shannon 的信息理论。 统计机器翻译在1991年时由IBM公司的托马斯?J?沃森研究中心的研究者们再次提出,并且对近些年来重新唤起人们对机器翻译的兴趣作出重大贡献。到2006年为止,它已经是研究最广泛的机器翻译模型。 优势 统计机器翻译相对于最常被人们谈论的传统模型的优势如下: ?更好地利用资源 o存在着大量可被机器读取的格式的自然语言。 o通常,统计机器翻译系统不是针对于任何具体的语言配对。 o基于规则的翻译系统需要对语言规则的手动开发,这样不仅成本很高,而且通常对其它语言不适用。 ?更多的自然语言翻译资料 统计机器翻译的想法来自于信息理论。本质上来说,文档的翻译在基于可能性的p(e | f),其中的本国语言(例如英语)字符“e”就是对外国语言(例如法语)中字符“f”的翻译。一般来说,这些可能性都是利用参数估算的技术实现。 将贝叶斯法则应用于p(e | f)这个外语字符译成母语字符的可能性,会得到这一可能性,其中的翻译模型p(f | e)表示母语字符是对外语字符的翻译的可能性,而语言模型p(e)表示那个母语字符出现的可能性。从算术上来说,发现最佳译文也就是选取出现概率最高的那个。 要严格执行这一过程就必须对母语中所有字符e *进行穷举搜索。有效搜索就是机器解码器要做的工作,利用外语字符、启发式的或其它方法来限制搜索范围,同时保证合意的译文质量。质量和所耗时间之间的这种交换在语音识别方面也可以看到。 翻译系统不能将所有的母语字符串和它们的译文都存储起来,所以只能对文档进行逐句翻译,但即使这样也还是不够的。语言模型是典型的可被稳定的n-gram模型模拟的,并且同样的方法已经应用于翻译模型,但是语言中不同的句子长度和词汇顺序造成了更多的复杂问题。 统计机器翻译模型最初是基于词汇的(来自IBM的模型1-5),但是在引入了基于短语的模型之后有了重大的发展。近期已经引入了句法或类似语法的结构。 基于词汇的的翻译 在基于词汇的翻译中,待译的元素是所有的词汇。实际上,由于复合的词汇、词法和习惯用

一个汉英机器翻译系统的设计与实现

一个汉英机器翻译系统的 计算模型与语言模型* 刘群+詹卫东++常宝宝++刘颖+ (+中国科学院计算技术研究所二室北京100080) (++北京大学计算语言学研究所北京100871) 摘要:本文介绍我们所设计并实现的一个汉英机器翻译系统。在概要介绍本系统的主要目标和设计原则的基础上,着重说明系统的计算模型和语言模型,最后给出实验结果和进一步的打算。 关键词:自然语言处理机器翻译中文信息处理 一、引言 我国的机器翻译研究近年来取得了很大的发展。特别是英汉机器翻译系统的研制已经取得了较大的成功,达到了初步实用的阶段。相对而言,汉英机器翻译的研究却进展比较缓慢,离实用化还有相当的距离[1]。我们的目的是利用目前最新的计算机软件技术、相对成熟的机器翻译方法和先进的汉语语法理论,构造一个初步实用的汉英机器翻译系统。本文将对我们所开发的系统所采用的计算模型和语言模型作一个总体性的介绍,而不涉及过多的细节。 下面我们简要介绍一下本系统的几个主要设计原则: ⑴采用成熟的技术 我们的目的是构造一个真正实用的汉英机器翻译系统,因而在可供选择的若干技术路线面前,我们将尽量选用比较成熟的技术,而在现有技术难以解决问题时再尝试一些新技术。 ⑵开放的体系结构 开放的体系结构主要体现在系统的实现上所采用的软件构件技术[8]。整个系统采用一些相对独立的软件构件组成,因而可以方便地对系统进行修改、维护和扩充。翻译的过程严格按照独立分析、独立生成的原则进行组织,每一阶段的算法相互独立,对其中一个阶段算法的修改不会对其他算法造成影响。 ⑶方便的调试环境 本系统强调为语言工作者提供一个方便的调试环境。系统提供多窗口图形界面的知识库调试工具,支持课题组中多人同时通过网络对一个知识库进行操作。提供对翻译过程直观显示,用户可以清晰地看到翻译过程的每一步操作。提供翻译出错原因查找机制,用户 *本项目的研究受到863-306资助,合同号为863-306-03-06-2

机器翻译系统中间件模型_肖明

福建电脑2006年第3期 机器翻译系统中间件模型 肖明 (西南民族大学计算机科学与技术学院四川成都610041) 【摘要】本文简单介绍了机器翻译的现状,提出利用中间件技术的来设计机器翻译系统,并给出了一个机器翻 译系统中间件的详细模型,使得用户能在其上灵活、高效地开发和集成复杂的专用领域的机器翻译软件,并对该模型的 优势进行了分析。 【关键字】机器翻译中间件 1引言 随着全球化经济和Internet的迅速发展,国际间交流、合作日益密切,同时语言文字障碍也变得尤为突出。因此,机器翻译以其速度快、一致性强、操作简单而成为当今国际上竞相研究的热门课题。 从1954年公开演示的第一个机器翻译系统Georgetown-IBM起,现今已开发出大量的机器翻译系统[1],如,加拿大的TAUM-METEO系统、美国Texas大学的METAL系统、日本富士通公司的ATLAS系统等。经过多年的努力,我国在翻译机器的研究开发上也取得一些瞩目的成果。最具代表性的是由董振东设计的“科技1号英汉机译系统”,该系统已由中国计算机软件与技术服务总公司实现商品化,并命名为“译星”系列,现已推出2002版。该系统可高达每小时100万单词的翻译速度和85%的可读性,具有完美的OFFICE和IE中的嵌入式翻译功能和丰富的专业词典。但总体来说,目前机器翻译的译文质量尚不够理想,多只适用于翻译专业科技文献资料,或产品的市场宣传广告和技术资料,而对文学作品的翻译效果不太好。 机器翻译的核心技术归根结底是一个语言处理问题,需要强大的语言知识的支持。另一方面,软件技术的支持是机器翻译实用化的根本保障,庞大而复杂的自然语言研究必须依赖于系列化工具软件的支持,靠几个语言专家单枪匹马地开发研究是难以胜任的,必须依托网络集成化的开发环境,汇集众多语言专家的语言知识,才能丰富完善语言支持系统。同时,高度专业化的开发策略必须建立广泛的行业用户合作群体。因此,采用机器翻译系统中间件,利用成熟而周密的技术措施,实现与用户或行业的广泛合作,是机器翻译开发的必由之路。 我们这里所定义的机器翻译系统中间件,是指基于各种网络平台(包括Internet,Intranet、无线网络等),结合可视化技术和机器翻译的支撑技术,如:词典维护、语料库统计、实例管理、消歧处理、规则管理、句法分析等。该模型的核心部分是提供机器翻译功能的应用程序接口(API),用户可以很方便地将这些API集成到各类专用机器翻译系统(如外贸行业、科技文档翻译)中,从而在应用系统中实现基于机器翻译的各种单词查询、文档翻译、在线翻译等;当用户因特殊应用需求,而现有功能API接口不能完全满足应用需求时,该模型提供扩展功能开发包,用户可以结合自己的需求自行开发新的功能API,从而方便自如地扩充系统功能。另外,该模型提供外部数据的导入接口、界面开发工具、整个系统的管理维护工具和系统开发手册,从而构成了一个完整的增值开发平台。二次开发用户无须对平台的工作原理和Web编程技术有深入的了解,而能够快速地开发出功能丰富且易于扩展的跨平台的机器翻译应用系统。 2器翻译系统中间件的模型 2.1知识表示 机器翻译的过程可以看成是一个运用知识进行推理的过程。知识表示是这一过程的基础。我们把机器翻译中用到的知识表示形式分为内部知识和外部知识两类。其中外部知识是存放于知识库之中,由语言工作者进行管理的知识,如词典和各类规则库等,内部知识是翻译过程中临时生成的,用于描述所翻译的句子的语法语义特征的知识,如树形图、特征结构和语义网络等。 本系统的外部知识表示由知识库子系统进行处理。知识库包括语言模型、词典、规则库和实例库。语言模型是本系统的统帅,它规定了源语言和目标语言所使用的词法模型、句法模型和语义模型,即词法、句法和语义的分类和各种属性描述。知识库中所用到的各种语言知识描述用的符号格式都必须符合语言模型中的规定。词典是整个翻译系统的基础,存储着系统的静态知识,词典[2]包括了每个词汇的句法、语义、译文等各种知识。规则库对应于翻译的各个步骤,每个步骤使用相应的规则库。每个规则库的具体格式各不相同,但基本上都采用“树结构+约束”的形式。在知识库的格式定义上,我们特别强调不仅要能描述全局性知识,也要能描述一些局部性的知识。因此我们特别强调词典的描述能力。例如,词典中的局部规则与全局规则具有完全相同的格式,在使用上局部规则优先于全局规则,这样特别有利处理一些与具体词汇相关的特殊用法。实例库存储系统收集到的翻译实例及相关信息,其主要作用在于结合使用基于实例的翻译方法,能快速地对一些常用语句做出准确的翻译。 本系统的内部知识表示形式包括线图(Chart)[3]、树结构和特征网络三种形式。线图源于ChartParsing算法,是一种比较通用的语言内部结构表示方法,可以同时表示翻译过程中产生的大量词结点和短语结点,也可以适应多种不同的分析算法。树结构是短语结构分析中最常用的一种表示方法,用于描述句法成分(包括词结点和短语结点)之间的组合关系。每个树结点对应于线图中的一个词结点或短语结点。我们所使用的树结构表示法中要求标出每个句法成分的中心子结点,用于处理属性值在句法成分之间的传播。特征网络是一种特殊的知识表示方法。这种表示法融合了特征结构表示法和语义网络表示法的一些特点并加以改进,以适合汉英机器翻译的需要。一个特征网络由许多个互相关联的特征结点所组成,每个特征结点又是若干个特征的集合。一个特征结点对应着句法分析中已经出现或可能出现的一个句法成分,而每一个句法成分(即句法树中的结点)一定有唯一的一个特征结点与之对应。 2.2翻译算法: 机器翻译的方法有基于转换的方法[4],和基本实例[5]或统计的方法[6]。本模型以基于转换的方法为基础,同时,担供基于实例翻译方法和统计方法的接口,用户可在其上进行扩充。基于转换的翻译过程通常分为分析阶段、转换阶段和生成阶段。分析阶段是对输入的源语言进行多层分析,并将分析的结果用一种中间描述结构来表达。转换阶段涉及两种语言,它把源语言的分析结果转换成相应的目标语言的中间描述。这种转换涉及到词汇的转换和语言表达结构上的转换。生成阶段则是转换结果(它是目标语言的中间描述结构)生成出目标语言的表层结构,最终产生目标语言。 一个完整的机器翻译过程可以分为如下六个步骤: (1)源语言词法分析,(2)源语言句法分析,(3)源语言目标语 122

机器翻译

机器翻译 1 概述 机器翻译(machine translation),又称为自动翻译,是利用计算机把一种自然源语言转变为另一种自然目标语言的过程,一般指自然语言之间句子和全文的翻译。它是自然语言处理(Natural Language Processing)的一个分支,与计算语言学(Computational Linguistics )、自然语言理解( Natural Language Understanding)之间存在着密不可分的关系。 2 国内外现状 机器翻译思想的萌芽关于用机器来进行语言翻译的想法,远在古希腊时代就有人提出过了。在17世纪,一些有识之士提出了采用机器词典来克服语言障碍的想法。笛卡(Descartes)和莱布尼兹(Leibniz)都试图在统一的数字代码的基础上来编写词典。在17世纪中叶,贝克(Cave Beck)、基尔施(Athanasius Kircher)和贝希尔(Johann JoachimBecher)等人都出版过这类的词典。由此开展了关于“普遍语言”的运动。维尔金斯(JohnWilkins)在《关于真实符号和哲学语言的论文》(An Essay towards a Real Character andPhilosophical Language, 1668)中提出的中介语(Interlingua)是这方面最著名的成果,这种中介语的设计试图将世界上所有的概念和实体都加以分类和编码,有规则地列出并描述所有的概念和实体,并根据它们各自的特点和性质,给予不同的记号和名称。本世纪三十年代之初,亚美尼亚裔的法国工程师阿尔楚尼(G.B. Artsouni)提出了用机器来进行语言翻译的想法,并在1933年7月22日获得了一项“翻译机”的专利,叫做“机械脑”(mechanical brain)。这种机械脑的存储装置可以容纳数千个字元,通过键盘后面的宽纸带,进行资料的检索。阿尔楚尼认为它可以应用来记录火车时刻表和银行的帐户,尤其适合于作机器词典。在宽纸带上面,每一行记录了源语言的一个词项以及这个词项在多种目标语言中的对应词项,在另外一条纸带上对应的每个词项处,记录着相应的代码,这些代码以打孔来表示。机械脑于1937年正式展出,引起了法国邮政、电信部门的兴趣。但是,由于不久爆发了第二次世界大战,阿尔楚尼的机械脑无法安装使用。1903年,古图拉特(Couturat)和洛(Leau)在《通用语言的历史》一书中指出,德国学者里格(W. Rieger) 曾经提出过一种数字语(Zifferngrammatik),这种语法加上词典的辅助,可以利用机械将一种语言翻译成其他多种语言,首次使用了“机器翻译” (德文是ein mechanisches Uebersetzen)这个术语。 真正对机器翻译进行研究应该说是从布恩和韦弗开始的。他们研究的是自动词典万, 从1954年1月7日公开展示的IBM701型计算机开始, 机器翻译进人一个繁荣发展的时期。从那时起, 很多国家都投人了大量的人力、物力从事这方面的研究和开发。随着 Internet 的普遍应用,世界经济一体化进程的加速以及国际社会交流的日渐频繁,传统的人工作业的方式已经远远不能满足迅猛增长的翻译需求,人们对于机器翻译的需求空前增长,机器翻译迎来了一个新的发展机遇。国际性的关于机器翻译研究的会议频繁召开,中国也取得了前所未有的成就,相继推出了一系列机器翻译软件,例如“译星” 、“雅信” 、“通译” 、“华建”等。在市场需求的推动下,商用机器翻译系统迈入了实用化阶段,走进了市场,来到了用户面前。 中国机器翻译研究起步于1957年,是世界上第4个开始搞机器翻译的国家,60年代中期以后一度中断,70年代中期以来有了进一步的发展。现在,中国社会科学院语言研究所、中国科学技术情报研究所、中国科学院计算技术研究所、黑龙江大学、哈尔滨工业大学等单位都

机器翻译研究现状与展望1 Machine TranslationPast,Present,future

机器翻译研究现状与展望1 戴新宇,尹存燕,陈家骏,郑国梁 (南京大学计算机软件新技术国家重点实验室,南京 210093) (南京大学计算机科学与技术系,南京 210093) 摘要:本文回顾机器翻译研究的历史,介绍典型的机器翻译方法,包括:基于规则、基于统计以及基于实例的机器翻译方法;针对机器翻译的研究现状,详细介绍和分析了基于混合策略的机器翻译方法,对统计以及机器学习方法在机器翻译中的应用进行了描述;论文还介绍了当前机器翻译评测技术;最后对机器翻译进行总结和展望。 关键字:机器翻译,基于规则,基于统计,基于实例,混合策略,机器学习 Machine Translation:Past,Present,future Dai Xinyu, Yin Cunyan, Chen Jiajun and Zheng Guoliang (State Key Laboratory for Novel Software Technology, Department of Computer Science & Technology Nanjing University, Nanjing 210093) Abstract:This paper firstly presents the history of machine translation, and introduces some classical paradigms of machine translation: RBMT, SBMT and EBMT. Secondly, we introduce the recent research on machine translation, and describe the hybrid strategies on machine translation in detail, and discuss the applications of machine learning for machine translation. We also analyze the current techniques about evaluation on machine translation. Finally, we draw a conclusion and prospect on the research of machine translation. Keywords:Machine Translation, RBMT, SBMT,EBMT, HSBMT, Machine Learning. 1本论文工作得到863课题资助(编号:2001AA114102, 2002AA117010-04) 戴新宇博士生,主要研究自然语言处理;尹存燕助教,主要研究自然语言处理;陈家骏教授,博士生导师,主要研究自然语言处理、软件工程;郑国梁教授,博士生导师,主要研究软件工程。

机器翻译研究综述

机器翻译综述 1.引言 1.1机器翻译的历史 现代机器翻译的研究应该是从20世纪50年代开始,但是早在这以前很多人已经提出了相应的想法,甚至是远在古希腊时期就有人提出要用机器来进行语言翻译的想法。 在1946年,美国宾夕法尼亚大学的两位科学家设计并制造了世界上第一台电子计算机。与此同时,英国工程师同美国洛克菲勒基金会副总裁韦弗在讨论计算机的应用范围时,就提出了利用计算机实现语言的自动翻译的想法。在1949年,韦弗发表了一份名为《翻译》的备忘录,正式提出了机器翻译问题。他提出了两个主要观点: 第一,他认为翻译类似于解读密码的过程。 第二,他认为原文与译文“说的是同样的事情”,因此,当把语言A翻译为语言B时,就意味着从语言A出发,经过某一“通用语言”或“中 间语言”,可以假定是全人类共同的。 在这一段时间由于学者的热心倡导,实业界的大力支持,美国的机器翻译研究一时兴盛起来。 1964年,美国科学院成立语言自动处理咨询委员会,调查机器翻译的研究情况,给出了“在目前给机器翻译以大力支持还没有多少理由”的结论,随后机器翻译的研究就陷入了低潮期。直到70年代以后机器翻译的研究才重新进入了一个复苏期,随后机器翻译的发展又迎来了繁荣期 1.2机器翻译的主要内容 经过50多年的发展,在机器翻译领域中出现了很多的研究方法,总结如下:●直接翻译方法 ●句法转换方法 ●中间语言方法 ●基于规则的方法 ●基于语料库的方法 基于实例的方法(含模板、翻译记忆方法) 基于统计的方法 在当前的研究中,更多的是基于统计的方法进行的,因为基于统计的方法可以充分的利用计算机的计算能力,并且并不需要过多的语言学知识作为支撑,可以让更多的计算机科学家投入到实用系统的研究中,极大的促进了统计机器翻译的发展。 下面对各个方法逐一的进行介绍。

人工智能与机器翻译期末复习题

一、名词解释(5X3‘)15’ 1.兼类(P121):一个单词既可以作名词动词又可以作其他词类 2.机器翻译:用计算机软件代替人做的书面翻译 3.组合型歧义:一个字与前面的字成词,与后面的字成词,合起来也成词。 4.交集型歧义(P117):一个字与前面的字成词,与后面的字也成词。 5.人工智能:用计算机硬件、软件模拟人的行为,解决人类目前尚未认识清楚的问题。 6.人工智能软件的三大技术:知识表示、知识推理、知识获取。 7.语料库:单词、短语和句子组成的数据库。 8.知识工程:包括人工智能软件技术的工程。(知识工程是以知识为基础的系统,就 是通过智能软件而建立的专家系统) 9.深度学习:一步一步在丰富起来的特征规律引导下,由浅入深完成推理的方法。 10.语用分析:分析成语和习惯用语的方法。 二、题解P36 例2.1 、2.2 例2.1 设有下列语句: (1)高山比他父亲出名。 (2)刘水是计算机系的一名学生,但他不喜欢编程序。 (3)人人爱劳动。 为了用谓词公式表示这些语句,应先定义谓词: BIGGER(x,y):x比y出名 COMPUTER(x):x是计算机系的学生 LIKE(x,y):x喜欢y LOVE(x,y):x爱y

M(x):x是人 定义函数father(x)表示从x到其父亲的映射此时可用谓词公式把上述三个语句表示为:(1)BIGGER(高山,father(x)) (2)COMPUTER(刘水)∧∽LIKE(刘水,程序) (3)(?x)(M(x) →LOVE(x,劳动)) 例2.2 设有下列语句: (1)自然数都是大于零的整数。 (2)所有整数不是偶数就是奇数。 (3)偶数除以2是整数。 定义谓词如下: N(x):x是自然数 I(x):x是整数 E(x):x是偶数 O(x):x是奇数 GZ(x):x大于零 另外,用函数S(x)表示x除以2。此时,上述三个句子可用谓词公式表示为: (?x)(N(x) →GZ(x)∧I(x)) (?x)(I(x) →E(x)∨O(x)) (?x)(E(x) →I(S(x))) 三、论述(4X5‘)20’ 1.阐述深度、广度、代价驱动搜索方法。(P68) 答:广度优先搜索法:对全部节点沿广度进行横向扫描,按各节点生成的先后次序,

基于实例的机器翻译

基于实例的机器翻译 ——方法和问题 王厚峰(北京大学) 关键字:基于实例的机器翻译,双语对齐,相似度计算,模板获取 摘要:本文介绍了基于实例的机器翻译方法,并对基于实例的机器翻译的若干问题,如双语实例的加工对齐、实例的相似度计算和实例模板提取等问题作了说明。 Method and Issues of Example-Based Machine Translation Wang Houfeng Keywords: EBMT, Bilingual Alignment, Similarity Measure, Template Acquisition. Abstract: The basic frame of Example based machine translation is concerned in this paper. Some key issues, such as bilingual alignment, similarity measure between input sentence and example, and template acquisition, are introduced. 引言 早期的机器翻译本质上都是基于语言规则或语言知识RBMT(Rule Based Machine Translation)的。如,词法规则,句法分析规则,转换规则,目标语生成规则等。这些规则都是根据语言专家的经验总结归纳出来的。直译法、转换生成方法、中间语言方法等都可以归为这一类。在上一世纪80年代中后期,这种纯粹基于语言知识的状况渐渐被基于语料库的机器翻译CBMT( Corpus-Based Machine Translation) 方法打破。 语料库方法中最有影响的是IBM公司的P.Brown 提出的基于统计的机器翻译SBMT (Statistics Based Machine Translation)。受语音处理的启发,P.Brown在1988年第二届TMI会议上提出了用隐马尔科夫模型HMM(Hidden Markov Model)进行机器翻译的想法,这一想法震惊了当时的与会者,并直接导致了语料库方法在自然语言处理上的迅速发展。 另一个影响更为广泛的机器翻译方法是日本的长尾真(Makoto Nagao)1981年提出的基于实例的机器翻译EBMT ( Example based Machine Translation),并于1984年发表[6]。基本思想是在已经收集的双语实例库中找出与待翻译部分最相似的翻译实例(通常是句子),再对实例的译文通过串替换,串删除以及串增加等一系列变形操作,实现翻译。 基于实例的翻译方法受到广泛关注是在进入90年代之后。其中,Sato[7,8]等人起到了很好的推动作用。 EBMT的基本思想 长尾真认为,人们在翻译简单句子时并没有做语言的深层分析,而是先将句子分解为几个片断(短语),然后,借助于已有片断的翻译,将分解的每个片断翻译成目标短语,最后在将这些短语组合起来形成一个长的句子。 基于上述思想,长尾真提出了基于实例的机器翻译EBMT的思想。对应地,EBMT也分为三大部分:将实例划分为片断,确定各个片断的翻译以及重组片断。 例2.1. (a) 她买了一本计算语言学入门书 假定计算机内已经存储了如下的实例对:

统计机器翻译

统计机器翻译 熊德意,何中军,刘群 1.概述 统计机器翻译,又称为数据驱动(data-driven)的机器翻译。其思想其实并不新鲜。早在1949年,Weaver发表的以《翻译》为题的备忘录中就提出:“当我阅读一篇用俄语写的文章的时候,我可以说,这篇文章实际上是用英语写的,只不过它是用另外一种奇怪的符号编了码而已,当我在阅读时,我是在进行解码。”这实际上就是基于信源信道思想的统计机器翻译方法的萌芽。早期的机器翻译系统通常都建立在对词类和词序分析的基础之上,分析中经常使用统计方法,只是后来以Chomsky转换生成语法为代表的理性主义方法兴起后,统计机器翻译方法几乎不再被人使用。上世纪90年代初期,IBM的Brown等人提出了基于信源信道思想的统计机器翻译模型,并且在实验中获得了初步的成功,引起了研究者广泛的关注和争议。不过由于当时计算能力等多方面限制,真正开展统计机器翻译方法研究的人并不多,统计机器翻译方法是否真正有效还受到人们普遍的怀疑。 基 于 句 法 的 方 法 源语言目标语言 图1统计机器翻译金字塔 但是,进入21世纪以来,在学习、生活和工作中,人们日益发现,不同语言之间的交流越来越频繁。无论是口语还是书面形式的交流,无不对机器翻译提出了更加严峻迫切的要求。而另一方面,计算能力也获得了突飞猛进,互联网的发展和普及,以及双语国家、联合国的多语存档,为我们提供了数以千万句的双语平行语料,这些为统计机器翻译方法奠定了

必要的基础。于是,越来越多的研究人员开始投入到统计机器翻译的研究中,并取得了成功(在美国国家标准和技术研究所(NIST)信息部语音组主持的机器翻译国际评测1中,从2002年到2005年,统计机器翻译连续四年取得好成绩[1]),统计方法也逐渐成为国际上机器翻译研究的主流方法之一。 目前统计机器翻译方法主要分为三类:第一类是基于词的(word-based ),以单词作为翻译的基本单位,不考虑上下文信息和人类语言学知识;第二类是基于短语的(phrase-based),它将翻译的粒度从单词扩展到短语,能够较好的解决局部上下文依赖问题,提高了翻译的流利度和准确率;第三类是基于句法的(syntax-based ),将句法结构信息引入翻译过程,这种方法是当前研究的一个热点。这三类方法可以用图1的金字塔来描述。 本文的内容也按照上面提到的3种主要方法组织,对每种方法进行简单介绍,由于篇幅所限,我们不可能对每一部分深入开展,但是我们希望通过丰富的实例和图解,能让读者对统计机器翻译有一个大概的印象,如果能够引起兴趣,那本文的目的就真正达到了。在第二节中我们对基于单词的方法简单介绍,这可以说是统计机器翻译真正意义上的开端引领工作。第三节介绍目前主流的统计机器翻译方法:基于短语的方法。第四节介绍基于句法的方法,这是当前统计机器翻译研究的热点。 2. 基于单词的方法 基于词的统计机器翻译,顾名思义,其主要思想是以词作为翻译的基本单位。训练时,它从语料库中统计目标语言单词翻译为源语言单词的概率。翻译时,首先查找每个源语言单词所对应的目标语言单词,然后插入、删除目标语言单词,并调整它们的顺序,最后组合成目标语言句子。这种方法的典型代表就是上世纪90年代初期IBM 公司的Brown 等人提出的基于信源信道模型的方法5)[2]5)[3],可以说,它为现代统计机器翻译研究的蓬勃发展奠定了坚实的基础。 信源信道模型将统计机器翻译看成一个信息传输的过程:信道的输入是目标语言e ,在经过信道编码以后,输出源语言f ,机器翻译的任务就是将源语言f 还原(翻译)为目标语言e ,这一过程通常称之为解码。需要注意的是,这种模型与人们通常的认识有所区别,就模型而言,信道的输入是目标语言,而输出则是源语言,实际上在翻译(解码)时,还是将源语言作为输入,输出为目标语言。 图2 信源信道模型示例 根据Bayes 公式,Brown 等人提出了统计机器翻译的基本方程式: ?arg max Pr()Pr(|)e e e f e 其中,Pr()e 是目标语言的语言模型,衡量生成的目标语言的合法程度;Pr(|)f e 是翻译模型,衡量目标语言文本翻译为源语言文本的概率。解码的任务就是根据上式找到概率最大的译文。在此基础上,IBM 公司的研究人员提出了5个复杂程度层层递进的翻译模型,使用EM 算法从句子对齐的语料库中自动学习单词的翻译概率,然后利用动态规划算法进行解码5)[3]。 1 https://www.360docs.net/doc/bf2711377.html,/speech/tests/mt/

人工智能与机器翻译 自动分词

人工智能与机器翻译自动分词 人工智能与机器翻译-自动分词2010-10-21 16:48部著作中的词语逐个逐个的切分出来。汉语不象拼音文字那样有自然切分标志,而且词语长短不一,词 语的定义也不统一,语言学中对词的定义多种多样,造成切分的多样性,这也自然给自动分词的同一性带来很大困难。汉语中词语本身的词素、词、词组无明显 的区分界限,没有一个统一的标准,许多东西都是凭经验和语感来划分。.这项工作如果全部交给计算机来作,就没有那么简单了。 尽管计算机自动分词在诸多方面存在着许多困难,但是由于自动分词是许多应用工作的第一步(也是自动翻译的第一步),这就促进了研究的持续不断,提出 了不少方法,它们各有优缺点,也可能是基于特定环境的。 5.2.1典型的自动分词方法 正向最大匹配法和逆向最大匹配法 正向最大匹配法是最早提出的自动分词方法,它的基本思想是先取一句话的前六个字查字库,若不是一个词,则删除六个字的最后一个字再查,这样一直查下去,至找到一个词为止。句子剩余部分重复此工作,直到把所有的词都分出为止。逆向最大匹配法也一样,每次匹配不成功时去掉汉字串中最前面的一个字。 两法思路清晰,易于计算机实现,但由于试图用相对稳定的词表来代替灵活 多变,充满活力的词汇,把词库搜索作为判词的唯一标准,因而具有很大的主观性和局限性。另外,这两种方法实际上否认了语言中的歧义现象。 在实际应用中,方法有所变化。如下述算法我们初始不是取六个字而是取长度最短词的个数。 A1:一条汉语语句分划成单一字符X1,X2,…,XM。 A2:决定语词中可能出现的词最大字符长度Lmax,最小字符长度Lmin。

A3:逆向匹配,取语句最后的Lmin个字查关键词库,若查不到,加入一个字 重复此工作,直至字符数为Lmax为止。 A4:若实施A3查不到词,去掉语句中最后一个字,再实施A3,直至整个语句 只剩下Lmin为止。 高频优选法 这一方法基于词频的统计、字与字之间的构成结合律和歧义切分等现象的 分析而提出来的。根据《现代汉语频率词典》,对于报刊和政论性文章,不同 音节词的词频构成为:双音节词大约有74%;三音节词大约有3.7%;单音节词 大约有17.2%;而五以上字音节词则大约只有0.4%左右。汉语是一字一音节, 因而也可以说,两字组词的频率比其它所有方式的概率加起来都还要多。自动 分词时首先考虑两字词,然后再考虑单字词,如此频率低的词语最后才考虑。 这种方法提高了分词效率,但对歧义问题也无能为力,出错率并不低。 其它方法 设立切分标志 切分标志有自然和非自然之分。自然切分标志是指文章的非文字符号,例 如标点符号等等;非自然切分标志是利用词缀和不构成词的词(单字词等等)。 设立切分标志方法的基本思想就是通过建立非自然切分标志的一张表存储于计 算机中用程序来识别所有的非自然标志。这样一来,一个句子链将被化为若干 短链,然后再用其它切分方法进行各种细加工,这种多方法合作的综合应用, 途径增多,可以大大提高效率。 扩充转移网络分词法 它是以有限状态机概念为基础的方法。有限状态机只能识别正则语言,对 有限状态机作的第一次扩充可以使其具有递归能力,这样就形成递归转移网络(RTN)。在RTN中,弧线上的标志不仅可以是终极符(语言语句中的各种词语)或非终极符(还没有推导完的词类、符号等等,例如名词N,动词V,形容词A等等),还可以调用另外的子网络名字的非终极符(例如字或字串的成语条件)。这样,计算机在运行某个子网络时,就可以调用另外的子网络,还可以递归调用。

机器翻译研究现状与展望

机器翻译是建立在语言学、数学、信息学、计算机科学等学科基础上的多边缘学科。现代理论语言学的发展、计算机科学的进步以及概率统计学的引入, 对机器翻译的理论和方法都产生了深刻的影响。 Weaver机器翻译思想的提出, 开始了机器翻译的研究热潮。Chomsky在50年代后期提出的短语结构语法, 给出了“从规则生成句子”的原则。由于短语结构语法采用单一标记的短语结构来描述句子的构成, 描述粒度过粗, 因此存在约束能力弱、生成能力过强问题, 人们逐渐意识到仅依靠单一的短语结构信息, 不能充分判别短语类型和确认短语边界, 于是, 复杂特征集和词汇主义被引入自然语言语法系统, 广义短语结构语法、词汇功能语法、中心语驱动的短语结构语法等语言学理论也相应地产生。在这个发展过程中, 基于规则方法一直是机器翻译研究的主流。 在基于规则的方法中, 语言规则的产生需要大量的人力,而且大量的语言规则之间往往存在着不可避免的冲突。另外,规则方法在保证规则的完备性和适应性方面也存在着不足。而此时, 统计学方法在自然语言处理的语音识别领域取得了比较好的效果, 于是, 基于统计的机器翻译应运而生。随着双语语料的大量增加、计算机性能的提高, 基于实例的机器翻译方法被提出,并由此泛化产生了基于模板的机器翻译方法。 下面我们分别介绍几种典型的机器翻译方法: (1)基于规则的机器翻译方法

从Chomsky提出转换生成文法后,基于规则的方法一直是机器翻译研究的主流,Chomsky认为一种语言无限的句子可以由有限的规则推导出来。 早期的机器翻译系统, 从体系结构上可以分为直译式、转换式和中间语言式, 它们的不同之处在于对源语言分析的深度, 它们的相同点是都需要大规模的双语词典、大量的源语言推导规则、语言转换规则和目标语言生成规则。其中, 转换式的基于规则方法对源语言分析得比较深, 它涉及到词汇结构分析、语法分析、语义分析, 并完成词汇、语法、语义三层结构从源语言到目标语言的转换, 而且转换式的方法又充分考虑了源语言和目标语言之间的特征联系, 它比中间语言方法更容易获得高质量的翻译结果。因此, 转换式的方法更多地被应用在早期的机器翻译系统中, 整个翻译过程被分为, 源语言分析部分, 转换部分和目标语生成部分。而早期的系统, 如德国西门子的METAL系统、美国的SYSTRAN系统、日本日立公司的ATHENE系统以及中国中软公司的HY-1汉英系统, 都是基于转换的机器翻译系统。 基于规则的机器翻译的优点在于, 规则可以很准确地描述出一种语言的语法构成, 并且可以很直观地表示出来。机器可以按照一组规则来理解它面对的自然语言, 这组规则包含了不同语言层次的规则, 包括用以对源语言进行描述的源语言分析规则、用以对源语言/目标语言之间的转换规则以及用于生成目标语的生成规则。

基于短语的统计机器翻译系统

统计机器翻译中涉及大量的统计模型。简单的说,这些统计模型分为两类,一类是框架模型,另一类是特征模型。每一个特征模型都从一个侧面反映了机器翻译源语言S翻译到目标语言T的概率,而框架模型决定了这些特征模型怎么组合得到总体的翻译概率。 主要的框架模型有两种:噪声信道模型和对数线性模型。 噪声信道模型 噪声信道模型是IBM公司提出的模型。在这种模型中,把机器翻译看成是一个信息传输的过程。假设说话者已经用目标语想好了一句话T,但是说出的却是源语言的句子S。这个过程可视为编码过程。而统计机器翻译就是要从S回推到T,可视为解码过程。可以认为,一种语言T由于经过了一个噪音通道而发生了扭曲变形,从而在信道的另一端为另外一种语言S,翻译问题实际上就是如何根据观察到的S,恢复最为可能的T的问题。 机器翻译过程就是解码过程,出发点就是贝叶斯公式: 对于给定的源语言句子S来说,分母是一个非随机量,因此可以忽略不计。那么翻译的过程转化为求条件概率最大值的问题。 这个公式被称为统计机器翻译的基本方程式。为什么不直接使用P(T/S),而是使用两者乘积这样一个更加复杂的公式来估计译文的概

率呢?其原因在于,如果直接使用P(T/S)来选择合适的T,那么得到的T很可能是不符合译文语法的,而语言模型就可以保证得到的译文尽可能的符合语法。 在噪声信道模型中,统计机器翻译问题被分解为三个问题: 语言模型的参数估计; 翻译模型的参数估计; 搜索问题,寻找最优的译文。 对数线性模型 对数线性模型,早期也被称为最大熵模型,是Och在ACL2002会议上提出来的,该论文被评为该次会议的最佳论文。Och在试验中发现,如果把噪声信道模型中的反向翻译模型P(S/T)换成正向翻译模型P(T/S),系统的性能并没有明显的变化,更进一步,如果在语言模型和正向翻译模型之间加上一个加权参数,通过调整这个参数,可以大大提高实验系统的性能。很明显,这种做法从噪声信道模型的思想来看是合理的。于是Och提出了一种新的统计机器翻译框架模型,就是对数线性模型。 对于给定的S,其最佳译文T可以用以下公式表示: 可以看到,如果将两个特征分别取为语言模型和翻译模型,并去权重均为1,那么这个模型就等价于噪声信道模型。

机器翻译系统评测规范

语言文字规范 GF 2006 — _______________________________________________________________________________ 机器翻译系统评测规范 (Assessment Specifications of Machine Translation Systems) 2006--发布 2006--试行_______________________________________________________________________________ 中华人民共和国教育部国家语言文字工作委员会发布

目录 前 言 1适用范围 (5) 2规范性引用文件 (5) 3术语和定义 (5) 4评测的一般原则和方法 (6) 5机器翻译系统的用户类型 (6) 6机器翻译评测题目的编制原则 (6) 7机器翻译的评测标准 (8) 8机器翻译评测的其他内容 (10)

前 言 本标准规定了机器翻译系统的评测规范。 本标准由教育部语言文字信息管理司提出立项,负责解释。 本标准由教育部语言文字信息管理司归口。 本标准由国家语言文字工作委员会语言文字规范(标准)审定委员会审定。本标准起草单位:教育部语言文字应用研究所 本标准主要起草人:冯志伟、肖航、富丽、章云帆

中华人民共和国教育部 国家语言文字工作委员会语言文字规范 GF2006 - 机器翻译系统评测规范 (Assessment Specifications of Machine Translation Systems) 1 适用范围 本标准规定了机器翻译系统的评测规范。 本标准适用于机器翻译系统的评测以及有关的管理工作。 2 规范性引用文件 下列文件中的条款通过本标准的引用而成为本标准中的条款。 ISO11179-3信息技术数据元的规范与标准化第3部分:数据元的基本属性 GB/T 12200.1 汉语信息处理词汇 01部分:基本术语 GB/T 13725 信息处理用现代汉语分词规范 GB3259-92 中文书刊名称汉语拼音拼写法 GB/T 15834-1995 标点符号用法 GB/T 15835-1995 出版物上数字用法的规定 GB/T 16159-1996 汉语拼音正词法基本规则 第一批异形词整理表 第一批异体字整理表 部分计量单位名称统一用字表 中国人名汉语拼音字母拼写法 中国地名汉语拼音字母拼写规则 普通话异读词审音表 3 术语和定义 下列术语和定义适用于本规范。 3.1 信息处理系统(information Processing systems) 基于计算机技术、网络互联技术、现代通讯技术和各种软件技术,集各种理论和方法于一体,提供信息服务的人机系统,是由人和计算机等共同组成的,能进行信息的收集、传输、分析、加工、处理、存储、更新和维护的系统。 3.2 评测规范(assessment specifications) 用于评测的规范,包括评测的一般原则、评测内容、评价指标、评测方法和文件格式等。 3.3 自然语言(natural language) 规则是根据当前用法而不是用显式的方式规定的语言。如汉语、英语、德语等。 3.5 中文信息处理(Chinese information processing, CIP) 用计算机对汉语的语音、语法、词汇、语义、语用等信息进行处理,又称汉语信息处理。

相关文档
最新文档