中科院基于短语的统计机器翻译系统

中科院基于短语的统计机器翻译系统
中科院基于短语的统计机器翻译系统

基于短语的统计机器翻译系统“丝路”1.0版(SilkRoad V1.0)

设计与使用说明

中科院计算所中科院自动化所中科院软件所厦门大学哈尔滨工业大学

2006年10月

引 言

“丝路”(SilkRoad)是一个基于短语的汉英统计机器翻译系统。该系统由中国的五家研究机构和高校联合开发(中科院计算所、中科院自动化所、中科院软件所、厦门大学、哈尔滨工业大学),并在2006年中国第二届统计机器翻译研讨会上发布,供国内外研究者共享使用。联合开发单位希望通过这个系统的发布,使更多的研究者能够更快、更容易地加入到统计机器翻译研究中来,推动国内统计机器翻译的迅速发展。

本文档给出了“丝路”1.0版(SilkRoad V1.0)的设计与使用说明。

系统采用了目前主流的基于短语的统计机器翻译方法。在系统实现上充分利用了国际上目前已有的一些资源,包括一些开放源代码工具和一些可以公开获得授权的工具。在此基础上,联合开发单位分工协作,补充完成了翻译系统中尚不能公开获得的关键模块,包括语料库预处理、后处理模块,词语对齐后处理模块,短语抽取模块,解码器模块等。本文档主要介绍系统的整体设计以及这些新开发模块的实现原理和使用说明。

联合开发单位的具体分工如下:

中科院计算所:总体设计、语言模型接口设计和“骆驼CAMEL”解码器;

中科院软件所:语料的预处理、后处理模块“仙人掌”;

中科院自动化所:词语对齐后处理模块“楼兰”和短语抽取模块“胡杨”;

厦门大学:“商队Caravan”解码器;

哈尔滨工业大学:“绿洲Oasis”解码器;

解码器是统计翻译系统的核心模块,有三家单位分别开发了自己的解码器模块。这三个解码器是相互独立的,用户可以选择使用其中任何一个解码器来完成翻译过程。

此外,该系统在实现时采用了“863中文信息处理与智能人机接口评测”2005年汉英机器翻译评测的数据集,包括训练集、开发集和测试集,这些数据可以通过ChineseLDC获得研究目的授权。

目录

目录 (3)

1“丝路”系统设计概述 (4)

1.1基于短语的统计机器翻译模型 (4)

1.2系统流程 (4)

1.3模块划分 (6)

1.4已有资源和工具简介 (7)

1.5数据格式定义 (8)

2训练模块设计与使用 (17)

2.1训练语料预处理 (17)

2.2词语对齐 (19)

2.3短语抽取 (22)

3解码模块设计与使用 (27)

3.1输入预处理 (27)

3.2语言模型接口使用说明 (27)

3.3“骆驼CAMEL”解码器 (29)

3.4“商队Caravan”解码器 (42)

3.5“绿洲Oasis”解码器 (45)

3.6输出后处理 (51)

4评测工具简介 (52)

4.1评价指标 (52)

4.2使用说明 (53)

5参考文献 (54)

1 “丝路”系统设计概述

本章主要介绍“丝路”汉英统计机器翻译系统的总体设计。

1.1 基于短语的统计机器翻译模型

基于短语的统计机器翻译(Koehn et al.,2003;Zens et al., 2002;Koehn, 2004)以短语作为翻译的基本单位。对于一个汉语句子,翻译系统将其划分为多个连续的词语串(即所谓的“短语”),然后将每一个汉语短语翻译为英语短语,最后将产生的英语短语进行顺序调整,并输出译文,请参考图 1的例子。

图 1:基于短语的统计机器翻译过程示例

1.2 系统流程

“丝路”系统包含以下4个主要部分:短语翻译模型的训练、语言模型的训练、解码、翻译结果的评价。下面以流程图的形式分别介绍这4部分。

1.2.1 短语翻译模型的训练

通过短语翻译模型的训练,从汉英句子对齐的语料库中学习到汉语短语到英语短语的翻译概率表,流程图参见图 2。

原文:

翻译:

图2:短语翻译模型训练的流程

1.2.2语言模型的训练

在英语单语语料库上训练得到英语的语言模型,流程图参见图3。

图3:语言模型训练的流程

1.2.3解码

解码器是系统的核心模块,通过解码,将一个输入的汉语句子翻译成英语句子,流程图参见图4。

图4:解码的流程

1.2.4翻译结果的评价

我们采用评价工具对系统的输出结果进行自动评价,流程图参见图5。

图5:评价的流程

1.3模块划分

整个系统由以下模块构成:

1)训练语料库预处理模块;

2)汉语分词工具(利用开源工具ICTCLAS);

3)英语分词工具(将开源工具tokenizeE.perl.tmpl改写为C++代码);

4)词语对齐模块(利用开源工具GIZA++获得初始对齐,对其结果进行后处理);

5)短语抽取模块;

6)语言模型训练模块(利用开源工具SRI);

7)语言模型应用工具(利用开源工具SRI);

8)输入预处理模块;

9)解码模块;

10)输出后处理模块;

11)评价模块(利用863评测工具);

每个模块都是一个可独立执行的文件,可以运行在Windows或者Linux等不同的平台上;模块之间以文件作为接口,这些文件包括:

1)训练语料库;

2)规范的训练语料库(采用GIZA++定义);

3)分词的训练语料库(采用GIZA++定义);

4)词语对齐的语料库;

5)短语翻译概率表;

6)语言模型(采用SRI定义);

7)输入文本(采用863评测定义);

8)输出文本(采用863评测定义);

9)参考答案(采用863评测定义);

10)评价结果(采用863评测定义);

1.4已有资源和工具简介

从上面的介绍可以看到,这个系统相当一部分的工作都可以利用已有的资源,这里对这些资源作一个简单介绍。

1.4.1汉语分词工具ICTCLAS

汉语词法分析系统ICTCLAS是由中国科学院计算技术研究所自然语言处理课题组开发的一套开放源代码的汉语分词和词性标注工具,可以在“中文自然语言处理开放平台”上下载,该平台网址为:https://www.360docs.net/doc/2d6561989.html,。注意下载之前要使用真实信息注册一个用户名。

1.4.2词语对齐模块GIZA++

GIZA是由Och等人在1999年JHU夏季讨论班上开发的一个开放源代码的统计机器翻译系统Egypt的一部分,是一个IBM统计翻译模型(Brown et al., 1993)的训练工具。后来,Och对它进行了改进,这就是GIZA++。

GIZA++的主页是:https://www.360docs.net/doc/2d6561989.html,/GIZA++.html。

GIZA++原来是在linux上运行的,有个中国人(网名Blue Gene)把GIZA++移植到了Windows的Visual Studio C++ 7.0平台,下载地址是:

https://www.360docs.net/doc/2d6561989.html,/bluegene/archives/files/GIZA++.Win32.BlueGene.rar

关于GIZA++的使用,中国科学院计算技术研究所的博士生刘洋写了一份详尽的报告:“利用现有软件构建统计机器翻译系统”:

https://www.360docs.net/doc/2d6561989.html,/~liuyang/papers/construct_smts.pdf

这份报告介绍了如何搭建一个基于IBM模型的统计机器翻译系统,主要采用的工具就是GIZA++。当然我们现在要做的是一个基于短语的系统,比IBM模型有了很大的改进。

1.4.3英语分词工具tokenizeE.perl.tmpl

tokenizeE.perl.tmpl是一个简单的英语分词工具,和GIZA一样,都是Egypt系统的一部分。完整的Egypt可以在以下网页下载:

https://www.360docs.net/doc/2d6561989.html,/ws99/projects/mt/toolkit/

里面包含了这个英语分词工具。

我们将这个工具改写为C++代码,由语料库预处理模块直接调用。

1.4.4语言模型工具SRI

SRILM是SRI口语技术与研究实验室(SRI Speech Technology and Research Laboratory)发布的开源的语言模型工具包。这个工具包包含一组C++类库、一组进行语言模型训练和应用的可执行程序、其它相关工具。

SRILM的主页是:https://www.360docs.net/doc/2d6561989.html,/projects/srilm/

SRILM的最新版本是1.5.0版。下载地址是:

https://www.360docs.net/doc/2d6561989.html,/projects/srilm/download.html

考虑到可移植性,训练出的语言模型数据采用ARPA标准格式。细节请参考:(Jurafsky & Martin,2000), (Manning & Schütze,1999), (Stolcke,2002)。

1.4.5863评测资源

“丝路”系统采用2005年863中文信息处理与智能人机接口中的机器翻译评测资源,具体包括:

评测大纲:包括输入输出数据格式定义;

评测数据:包括训练集、开发集和测试集;

评测工具;

以上数据可以通过ChineseLDC授权购买。ChineseLDC的网址是:

https://www.360docs.net/doc/2d6561989.html,

评测大纲可以直接从863评测网站上下载,网址是:

https://www.360docs.net/doc/2d6561989.html,

1.5数据格式定义

本节对第1.3节中提出的文件格式进行统一定义和说明:

1.5.1训练语料库格式定义

本次讨论班采用2005年863中文信息处理与智能人机接口中机器翻译评测的训练语料库。这些语料库没有统一的格式,需要分别处理成规范的训练语料库。

1.5.2规范的训练语料库格式定义

包括两个文件,分别存放中文语料及英文语料。文件的一行为一个独立的句子,中文文件及英文文件的相同行为对应句子。

例如:

中文文件

表 1:规范的训练语料库中文文件示例

英文文件

表 2:规范的训练语料库英文文件示例

1.5.3

分词的训练语料库格式定义

GIZA++的标准输入文件格式,包括两个文件,分别存放分词以后的源语言语料及目标语言语料。

例如:

中文文件

表 3:分词的训练语料库中文文件示例

英文文件

表 4:分词的训练语料库英文文件示例

1.5.4 词语对齐的语料库格式定义

采用xml 格式。文件包含一个< parallel_corpus>元素。< parallel_corpus >元素由若干个元素(由括起来的部分)组成,其中元素的属性id 的值是正整数。每个元素的id 各不相同,但不一定是连续的数值。每个元素包含源语言句子、目标语言句子以及对齐信息,其中源语言句子由标记括起,目标语言句子由标记括起,对齐信息由元素括起,为若干词的序号对,格式为“源词序号:目标词序号”。各个对齐对之间用空格分隔。第一个词的序号为1。

定义:

表 5:词语对齐的语料库格式定义

例如:

表 6:词语对齐的语料库示例

1.5.5 短语翻译概率表格式定义

短语抽取模块的输出文件,每行包含3部分:汉语短语,英语短语,翻译概率值。由连续的“|||”分开:

定义:

汉语短语c

||| 英语短语e ||| (|)p c e (|)lex c e (|)p e c (|)lex e c

其中:

(|)p c

e 表示e 翻译为c 的概率,'(,)(|)(',)c

N c

e p c e N c

e =∑ (公式 1) (|)lex c

e 表示词汇化的翻译概率, 11(,)11

(|,)(|)|{|(,)|J

J

I

j i j i a

j lex c e a p c e i j i a ?∈==∈∑∏

(公式 2) (|)p e

c ,(|)lex e c 表示另外一个方向的翻译概率。 例如:

表 7:短语翻译概率表示例

1.5.6 语言模型格式定义

SRILM 工具包的输出结果文件。采用ARPA 标准格式,主要包括三部分内容: 1. 开始和结束标记:“\data\”“\end\” 2. 长度从1到N 的N 元语法项的数目

3. 长度从1到N 的N 元语法项的具体信息,包括该项的条件概率的对数值(以10

为底),组成该项的相应长度个单词及回退权重(backoff weight )的对数值(以10为底)。最后一项为可选。

语言模型文件中可能包括三个特定的词:,它们分别代表“句子的开始”、“结束标记”和“未登录词”。

例如:

表8:语言模型文件示例

1.5.7输入文本格式定义

输入文本即为测试数据文件,该文件采用xml格式。每个文件包含一个元素,这个元素包含setid、srclang、tgtlang属性,分别说明测试集的id、源语言和目标语言代码。包含若干元素(由括起来的部分),其中元素的属性说明文档相关信息。docid给出文档名称,属性值用双引号引起。语言代码中,英语用“en”表示,汉语用“zh”表示。

每个元素由若干个

元素(由

括起来的部分)组成。每个

元素由若干个元素(由括起来的部分)组成,其中元素的属性id的值是正整数。每个元素的id各不相同,但不一定是连续的数值。每个元素可能包含一个或多个句子。也可能没有

元素,而元素直接包含在元素中。

定义:

表9:输入文本格式定义

例如:

表 10:输入文本示例

1.5.8输出文本格式定义

输出文本即机器翻译产生的结果文件,该文件也采用xml格式。结果文件的格式与测试文件相同,其中doc中要增加一个site属性,给出翻译单位名称。结果文件中,元素、

元素、元素及其结构关系应与测试文件一一对应,但是

元素保留或不保留皆可。对应的元素的docid属性和元素的id属性应与测试文件相同。但是元素应改为对应的元素,各属性不变。元素中的内容是对应测试文件中的元素的翻译结果。

定义:

表 11:输出文本格式定义

例如:

表 12:输出文本示例

1.5.9参考答案格式定义

参考答案文件采用xml格式,格式与结果文件类似,区别主要有两点。一是元素中的site属性表示翻译者,如果有4个翻译者,则参考答案中同一docid的元素会出现4次。二是元素应改为对应的元素。

定义:

表 13:参考答案格式定义例如:

表 14:参考答案示例

1.5.10评价结果格式定义

使用自动评测程序比较结果文件和参考答案生成的评价文件,含有多种自动评价标准,包括: BLEU(N=4)、NIST(N=5)、GTM、mWER、mPER等。自动评测的算法是大小写敏感的。

例如:

表 15:评价结果示例

2 训练模块设计与使用

2.1训练语料预处理

负责人:张大鲲dakun04@https://www.360docs.net/doc/2d6561989.html,

本小节介绍对训练语料的预处理。一般的,训练语料都是汉英句子对齐的语料,在进行GIZA++训练之前,需要对这些语料进行加工处理。

2.1.1模块定义

1)输入文件:

规范的训练语料库

2)输出文件:

处理后的训练语料库

3)需要调用的库函数:

汉语分词工具ICTCLAS

英语分词工具,将tokenizeE.perl.tmpl改写成C++

4)功能说明:

对训练数据进行预处理,完成以下工作:

z中文分词;

z英文分词;

z英文句子首字母大写还原。

z将中文中的A3区全角字符替换为半角字符

2.1.2实现原理

1)中文分词

中文分词模块利用开源工具ICTCLAS(参见1.4.1),可以对多个文档进行处理,分词后的文件保持原文件名(filename.txt),同时产生原文件的备份文件(filename.cla.bak)。

例:中文分词模块调用开源工具ICTCLAS

处理后:中文分词模块调用开源工具 ICTCLAS

2)中文A3区全角字符转换

将中文的A3区全角符号A-Z,a-z,0-9,共62个字符,转换为相应的半角符号(英文ASCII码)A-Z,a-z,0-9,系统采用查表的方式实现。

例:经常有人把年份写成2006年

处理后:经常有人把年份写成2006年

3)英文分词

英文分词部分,实现了1999年在JHU夏季机器翻译讨论班上发布的英文分词工具tokenizeE.perl.tmpl(参见1.4.3)的C++代码转写,输出结果和perl程序保持一致。主要处理英文的标点,数字,缩写形式和缩略语等。

例:Mr. and Mrs. shouldn't be separated.

处理后:Mr. and Mrs. shouldn ' t be separated .

4)英文句子首字母大写还原

统计英文句首词出现的次数以及句首词首字母小写形式在文中出现的次数,如果句首词首字母小写形式出现的次数多,则将句首词转换为首字母小写形式,否则保持不变

2.1.3使用说明

1)A3区全角字符转换程序

SBC2DBC.exe File1.txt File2.txt …

2)中文分词程序

SPLIT.exe -操作类型参数-输出格式参数 File1.txt File2.txt ...

默认参数为 0 0,可以省略,即

SPLIT.exe -0 -0 Chinese.txt == SPLIT.exe Chinese.txt

参数说明参见表 16:

---------------------------------

|操作类型参数|对应的分词操作|| 输出格式参数 |对应的输出格式|

| 0 |词语切分|| 0| 北大标准|

| 1 |一级标注|| 1| 973标准|

| 2 |二级标注|| 2| XML |

---------------------------------

表 16:中文分词参数说明

3)英语分词程序

EnglishToken.exe File1.txt File2.txt …

4)英文句子首字母大写转换程序

UpperLowerTrans.exe File1.txt File2.txt …

生成中间文件ult_record.txt,保存经过转换的句首词

以上每个程序都可以同时处理多个文件,处理后的结果仍然使用源文件名命名,同时将源文件生成备份文件(.bak)。

2.2词语对齐“楼兰”

负责人:魏玮weiwei@https://www.360docs.net/doc/2d6561989.html,

本小节介绍词语对齐模块,对训练语料库中的句子自动进行词语对齐。

2.2.1模块定义

1)输入文件:

GIZA++双向训练的对齐结果文件:从汉语到英语方向,从英语到汉语方向

2)输出文件;

词语对齐的语料库

3)功能说明:

对GIZA++的对齐结果进行优化

2.2.2实现原理

其基本思想是利用GIZA++进行汉语到英语、英语到汉语两个方向的训练,再对两个方向的对齐结果按照Och等提出的Heuristic (Och and Ney, 2000)的思路进行优化。

Giza++实现了IBM统计翻译模型,但得到的对齐结果忽略了多对多及多对一的情况。为了解决Giza++词语对齐的问题,通常利用双向对齐的结果进行优化。优化的方法采用了以两个方向对齐结果的交集为中心点,检查其上下左右(grow)及对角(diag)相邻的8个点,若在并集中,则作为扩展的对齐点加入对齐序列中。

具体实现见以下伪代码和图示例句。

Neighboring =((-1,0),(0,-1),(1,0),(0,1),(-1,-1),(-1,1),(1,-1),(1,1));

Align_Intersect=intersect(e2f,f2e);

Align_Union=union(e2f,f2e);

Heuristic();

Heuristic():

for english word e=0…..en

for chinese word f=0…..fn

if ( e aligned with f)

for each neighboring point ( e-new,f-new)

if ( ( e-new not aligned and f-new not aligned ) and (e-new,f- new) in Align_Union )

add alignment point ( e-new,f-new );

算法1:词语对齐优化算法

图6:生成Heuristic 对齐结果的具体过程

机器翻译技术的现状及发展

机器翻译技术的现状及发展 篇一:翻译技术领域的现状与展望 翻译技术领域的现状与展望 作者/王华伟闫栗丽 翻译技术在中国的发展起步相对较晚,但近年来随着中国在全球化进程中扮演着越来越重要的角色,催生了对翻译技术发展的强烈需求。中国翻译行业在借鉴国外同行经验的基础上,于2007~2008年间在翻译技术领域取得了一系列成就,也还存在一些亟需改进的方面,而这也势必对我国的翻译行业产生深远的影响。 1. 国家政策的扶持和行业协会的推动 翻译技术的发展直接关乎整个翻译行业的翻译质量及效率,具备巨大的行业经济效益。对此,科技部、财政部都给与了足够的重视并拨出专项资金进行扶持。在 2008年的科技型中小企业技术创新基金扶持计划中,中文及多语种处理软件及基于先进语言学理论的中文翻译软件等赫然在列。而中国译协也在 2008年的第 18届世界翻译大会上专门辟出了翻译工具、术语管理和翻译标准等分论坛,着力推动翻译技术的探讨与发展。 2. 词典型翻译软件百花齐放 词典是使用范围最广的工具,它以使用便利的优势,几乎占据了每个计算机的桌面,无论语言学习者还是专业翻译人员,几乎都是必备工具。词典的发展从最早的单机版本发展至今,已经有很多种产品

类型,我们可以见到的有:电子词典、在线词典、手机词典等。“金山词霸”的网络版本“爱词霸”在这两年获得了长足的发展,如爱词霸网络释义、谷歌金山词霸等一系列特色功能的相继推出,将词典型翻译软件的应用领域从传统的桌面计算机拓展到网络、手机等,并取得了显著的成功。另外,类似Google这样的搜索引擎,因为信息量大,检索便利而成为很多专业翻译人员查词的重要辅助工具。 值得一提的是,最新推出的基于用户发布词汇的词典编撰系统之前的词典都是以各大出版社公开发行的词典中的词条作为主要数据库来源,为用户提供查询上的便利。但是传统出版词典的方式存在发布周期长、词汇更新慢的缺陷。互联网的出现,加快了信息传播的速度,也提高了用户对新词更新的速度要求,为了方便新词汇的发布,词典编纂系统也就应运而生了。这是一种基于用户的词典发布系统,用户可自由发起词典编纂项目,自发组织人员参与项目,发起人可以按照需要给小组成员分配不同的权限,将词汇添加等基本工作和审核人员明确区分,既确保了词典的专业性,也实现了专业语料的适时更新和发布。 3. 机器翻译应用软件融入普通网民生活 谷歌语言工具的推出打破了互联网语言的藩篱,用户可以方便简捷地将目标语言的网页转化成自己的母语进行浏览。事实上,这也是机器翻译软件的一个应用领域,而国内的相关软件如金山快译等,专注于为普通网民提供更为友好的英中日网站浏览体验,并在亚洲语言的机器翻译应用方面积累了大量的经验。其他如华建等长期从事机器

搭建属于自己的机器翻译系统

搭建属于自己的机器翻译系统——MTI专业“技术小白”走进小牛翻译开源社区的心得 搭建属于自己的机器翻译系统 ——MTI专业“技术小白”走进小牛翻译开源社区的心得首先,自我介绍一下。我是一个MTI(翻译硕士)专业、没有计算机编程背景、没有机器翻译理论基础的菜鸟,任职于一家网络科技公司的市场部门,之前的工作中需要做些翻译工作,有时候求助百度翻译、有道翻译等免费的机器翻译系统来解决问题,但是对于一些涉及我们商业机密的数据,由于担心泄密,只能借助于有道词典查查词,然后再自己形成翻译结果。很早之前我就想,要是能有自己的机器翻译系统就好了。 我心目中的翻译技术大牛、对外经贸大学的崔启亮老师曾在微博中给MTI的学生提建议,“学好翻译技术,有前途。对于仍在迷茫MTI的同学,我建议学机器翻译设计与开发,走出迷茫。”非常非常幸运的是,我一个东大毕业的同学告诉我,东北大学自然语言处理实验室(国内搞机器翻译最好的团队之一)联合沈阳雅译网络技术有限公司推出了“小牛翻译开源社区”,社区中有一项内容,就是教不懂机器翻译的人学习“快速搭建自己的机器翻译系统”。于是,我走进社区,按照社区里的相关说明,亲身体验了搭建过程。下面,我想谈谈这个被誉为“目前国内首个以机器翻译为核心的交流平台”的菜鸟级用户体验。 小牛翻译开源社区里提供了统计机器翻译开源系统的全部代码。我了解了一下,NiuTrans开源系统在国际上比较有名,据说是目前国际上能够支持统计机器翻译模型最全的两套统计机器翻译系统之一(另一套是爱丁堡大学的Moses)。这些内容对MT(机器翻译)的专业学者应该很有用吧,但是对于我这个非科班出身的人来说,其实会完全忽略这部分内容。我还是讲讲我在社区里的真正收获——快速搭建实用的机器翻译系统。 一、搭建过程详细说明 需要说明的是,我是在在网页指导与人工指导下才在自己的电脑(Windows7 64位系统,硬盘500G,内存8G)上成功搭建机器翻译系统的。解释一下为什么我不仅看了网页上操作指导,还需要人工指导。身为“技术小白”的我,虽然网页上的操作指导写的很规范,但是第一次接触这么“高大上”的东西,还是有点小紧张的。于是,我加入了小牛翻

巴比情结与机器翻译系统的研发

巴比情结与机器翻译系统的研发 [摘要]重建巴比塔的情结促使科学家和语言学家联合起来试图利用计算机来进行自然语言的翻译和转换工作。介绍了机器翻译的起源,论述了基于规则和基于语料库的机器翻译系统的特点和实例,探讨了目前机器翻译系统的缺陷及其将来研发方向。 [关键词]巴比情结机器翻译机器翻译系统的研发基于规则基于语料库 一、前言 《圣经》旧约中“创世纪”里巴比塔的故事发生在远古时代,但从那时到现在多少代人以来,人们还在不断地怀有一种情结,构筑同一个梦想:重建巴比塔,让世界各地操不同语言的人通过一种有效的方式可以任意沟通起来。不过构筑语言的“巴比塔”绝非易事,因为虽然大多数语言有共性,但是其差异却很巨大。这种浓厚的巴比情结积聚已久,人们长期无法释怀。20世纪中期计算机的诞生又让人们萌生了新的希望,促使科学家和语言学家联合起来试图利用计算机来进行自然语言的翻译和转换工作,这就是机器翻译。 机器翻译是用计算机把一种语言(源语)翻译成另外一种语言(目标语)的一门新学科,涉及到语言学、计算机科学、数学等许多领域,是典型的多边缘交叉学科。多年以来,人们在不断孜孜追求,对不同种类的机器翻译系统进行了研发,希冀找到一个适当方法解决语言之间的快速和准确翻译问题。虽然时光发展到二十一世纪,计算机早已渗透到人们生活的方方面面,计算机技术的发展和运用已经达到了一个令人瞠目的程度,但是机器翻译却依然没有达到理想的水平。机器翻译研究涉及到很多方面,由于文章篇幅限制,本文将集中讨论机器翻译系统的研发。 二、机器翻译的起源 用机器来进行翻译的理念最早可以追溯到古希腊时代,他们提出各种方案来替代种类繁多而形式各异的自然语言,其中就有用机械手段来分析语言的问题。20世纪30 年代,法国人阿尔楚尼明确提出用机器来进行语言翻译的设想。1933年,前苏联发明家特洛扬斯基设计了机械方法把一种语言翻译成另一种语言的机器,但由于当时技术水平的限制,他的翻译机没有制成。 1946年世界上第一台电子计算机诞生,它惊人的运算速度启发了人们考虑翻译技术的革新问题。有关机器翻译的设想从那时起开始活跃起来,当时许多科学家相信可以通过对计算机编程实现“人工智能”。冷战开始后,当时美国情报部门需要大量的有关前苏联的情报,由于情报是俄文资料,需要进行大量的俄英翻译,而由于人工翻译速度慢,需要进行机器的快速翻译。在此时代背景下,Andrew Booth有幸得到了洛克菲勒基金的资助进行语言翻译的研究。Booth和Weaver

统计机器翻译

统计机器翻译 来自维基百科,免费的百科全书 统计机器翻译(SMT)是一种机器翻译的模型,译文在统计模式的基础上生成,而统计模式所需的参数来自于对双语文本语料库的分析。 机器翻译中基于统计的方法与基于规则的方法和基于实例的方法相对。 统计机器翻译的最初想法由Warren Weaver在1949年〔1〕提出,其中包括对Claude Shannon 的信息理论。 统计机器翻译在1991年时由IBM公司的托马斯?J?沃森研究中心的研究者们再次提出,并且对近些年来重新唤起人们对机器翻译的兴趣作出重大贡献。到2006年为止,它已经是研究最广泛的机器翻译模型。 优势 统计机器翻译相对于最常被人们谈论的传统模型的优势如下: ?更好地利用资源 o存在着大量可被机器读取的格式的自然语言。 o通常,统计机器翻译系统不是针对于任何具体的语言配对。 o基于规则的翻译系统需要对语言规则的手动开发,这样不仅成本很高,而且通常对其它语言不适用。 ?更多的自然语言翻译资料 统计机器翻译的想法来自于信息理论。本质上来说,文档的翻译在基于可能性的p(e | f),其中的本国语言(例如英语)字符“e”就是对外国语言(例如法语)中字符“f”的翻译。一般来说,这些可能性都是利用参数估算的技术实现。 将贝叶斯法则应用于p(e | f)这个外语字符译成母语字符的可能性,会得到这一可能性,其中的翻译模型p(f | e)表示母语字符是对外语字符的翻译的可能性,而语言模型p(e)表示那个母语字符出现的可能性。从算术上来说,发现最佳译文也就是选取出现概率最高的那个。 要严格执行这一过程就必须对母语中所有字符e *进行穷举搜索。有效搜索就是机器解码器要做的工作,利用外语字符、启发式的或其它方法来限制搜索范围,同时保证合意的译文质量。质量和所耗时间之间的这种交换在语音识别方面也可以看到。 翻译系统不能将所有的母语字符串和它们的译文都存储起来,所以只能对文档进行逐句翻译,但即使这样也还是不够的。语言模型是典型的可被稳定的n-gram模型模拟的,并且同样的方法已经应用于翻译模型,但是语言中不同的句子长度和词汇顺序造成了更多的复杂问题。 统计机器翻译模型最初是基于词汇的(来自IBM的模型1-5),但是在引入了基于短语的模型之后有了重大的发展。近期已经引入了句法或类似语法的结构。 基于词汇的的翻译 在基于词汇的翻译中,待译的元素是所有的词汇。实际上,由于复合的词汇、词法和习惯用

一个汉英机器翻译系统的设计与实现

一个汉英机器翻译系统的 计算模型与语言模型* 刘群+詹卫东++常宝宝++刘颖+ (+中国科学院计算技术研究所二室北京100080) (++北京大学计算语言学研究所北京100871) 摘要:本文介绍我们所设计并实现的一个汉英机器翻译系统。在概要介绍本系统的主要目标和设计原则的基础上,着重说明系统的计算模型和语言模型,最后给出实验结果和进一步的打算。 关键词:自然语言处理机器翻译中文信息处理 一、引言 我国的机器翻译研究近年来取得了很大的发展。特别是英汉机器翻译系统的研制已经取得了较大的成功,达到了初步实用的阶段。相对而言,汉英机器翻译的研究却进展比较缓慢,离实用化还有相当的距离[1]。我们的目的是利用目前最新的计算机软件技术、相对成熟的机器翻译方法和先进的汉语语法理论,构造一个初步实用的汉英机器翻译系统。本文将对我们所开发的系统所采用的计算模型和语言模型作一个总体性的介绍,而不涉及过多的细节。 下面我们简要介绍一下本系统的几个主要设计原则: ⑴采用成熟的技术 我们的目的是构造一个真正实用的汉英机器翻译系统,因而在可供选择的若干技术路线面前,我们将尽量选用比较成熟的技术,而在现有技术难以解决问题时再尝试一些新技术。 ⑵开放的体系结构 开放的体系结构主要体现在系统的实现上所采用的软件构件技术[8]。整个系统采用一些相对独立的软件构件组成,因而可以方便地对系统进行修改、维护和扩充。翻译的过程严格按照独立分析、独立生成的原则进行组织,每一阶段的算法相互独立,对其中一个阶段算法的修改不会对其他算法造成影响。 ⑶方便的调试环境 本系统强调为语言工作者提供一个方便的调试环境。系统提供多窗口图形界面的知识库调试工具,支持课题组中多人同时通过网络对一个知识库进行操作。提供对翻译过程直观显示,用户可以清晰地看到翻译过程的每一步操作。提供翻译出错原因查找机制,用户 *本项目的研究受到863-306资助,合同号为863-306-03-06-2

机器翻译技术介绍

机器翻译技术介绍
常宝宝 北京大学计算语言学研究所 chbb@https://www.360docs.net/doc/2d6561989.html,

什么是机器翻译
研究目标:研制出能把一种自然语言(源语言)的文 本翻译为另外一种自然语言(目标语言)的文本的计 算机软件系统。 制造一种机器,让使用不同语言的人无障碍地自由交 流,一直是人类的一个梦想。 随着国际互联网络的日益普及,网上出现了以各种语 言为载体的大量信息,语言障碍问题在新的时代又一 次凸显出来,人们比以往任何时候都更迫切需要语言 的自动翻译系统。 但机器翻译是一个极为困难的研究课题,无论目前对 它的需求多么迫切,全自动高质量的机器翻译系统 (FAHQMT)仍将是人类一个遥远的梦。

机器翻译的基本方法
机器翻译的基本方法 ? 基于规则的机器翻译方法 ? 直接翻译法 ? 转换法 ? 中间语言法 ? 基于语料库的机器翻译方法 ? 基于统计的方法 ? 基于实例的方法 ? 混合式机器翻译方法
目前没有任何 一种方法能实现机 器翻译的完美理 想,但在方法论方 面的探索已经使得 人们对机器翻译问 题的认识更加深 刻,而且也确实带 动了不少不那么完 美但尚可使用的产 品问世。
20世纪90年代以前,机器翻译方法的主流一直是基于规则的方 法,不过,统计方法后来居上,目前似乎已成主流方法,从学术 研究的角度看,更是如此。(Google translate)

机器翻译的基本方法
20世纪90年代以前,机器翻译方法的主流一直是基于 规则的方法,因此基于规则的方法也称为传统的机器 翻译方法。 直接翻译法 ? 逐词进行翻译,又称逐词翻译法(word for word translation) ? 无需对源语言文本进行分析 ? 对翻译过程的认识过渡简化,忽视了不同语言之间 在词序、词汇、结构等方面的差异。 ? 翻译效果差,属于早期过时认识,现已无人采用 How are you ? 怎么 是 你 ? How old are you ? 怎么 老 是 你 ?

浅析语料库对于翻译研究的意义

浅析语料库对于翻译研究的意义 【摘要】基于语料库的翻译研究在当今已进入一个全新模式,多种语料库被开发应用在人工翻译和机器翻译等实践领域当中。本文对语料库的概念以及某些种类语料库在翻译活动中具体实用情况做出分析,揭示语料库对于翻译研究的意义。 【关键词】语料库;翻译;双语语料库;平行/对应语料库 An Analysis on the Significance of Corpus to Translating Research CHEN Dan (Eastern Liaoning University,Dandong Liaoning 118000,China) 【Abstract】Translating research based on corpus has stepped into a new mode today,and many kinds of corpora are developed and applied in practical fields of manual translation and machine translation. The thesis analyzes the concept corpus and the application of some corpora in translating,which exemplify the significance of corpus to translating research. 【Key words】Corpus;Translating;bilingual corpus;Parallel corpus “语料库”的英语单词corpus来源于拉丁语,意思是body,有“全集”的含义,即“语料的集合”。有的学者认为语料库是基于形式和目的的存储于电子数据库中的文本集合,是描述自然发生语言的集合;也有人认为它是按照明确的语言学标准选择并排序的语言运用材料的汇集,旨在用作语言的样本。国内语料库学者杨惠中对语料库的定义做了较为详细的界定。他指出,“语料库是指按照一定的语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片段而建成的具有一定容量的大型电子文库”。 语料库所收集的语料是真实、自然的语言。不同于普通的文本数据库,它的设计和建设是以系统的理论语言学原则为依据,并且具有明确的目的性。语料库的结构严格依照既定程序设定,以一定研究目的为基础,按学科或语篇类型分类存储。语料库中的语料必须符合科学的语言研究,语料可以随机抽取或按统计学方法采集。 语料库的类型和分类标准很多。按用途分,语料库可分为通用语料库(general corpus)和专用语料库(specialized corpus);按语料选取时间,语料库可分为历时语料库(diachronic corpus)和共时语料库(synchronic corpus);按不同结构,语料库可分为平衡语料库(balanced corpus)和自然随机结构语料库(random structure corpus);按语料库的性质,语料库可分为原始语料库(raw corpus)和标注语料库(annotated corpus);按语言种类,语料库可分为单语语料库

机器翻译

机器翻译 1 概述 机器翻译(machine translation),又称为自动翻译,是利用计算机把一种自然源语言转变为另一种自然目标语言的过程,一般指自然语言之间句子和全文的翻译。它是自然语言处理(Natural Language Processing)的一个分支,与计算语言学(Computational Linguistics )、自然语言理解( Natural Language Understanding)之间存在着密不可分的关系。 2 国内外现状 机器翻译思想的萌芽关于用机器来进行语言翻译的想法,远在古希腊时代就有人提出过了。在17世纪,一些有识之士提出了采用机器词典来克服语言障碍的想法。笛卡(Descartes)和莱布尼兹(Leibniz)都试图在统一的数字代码的基础上来编写词典。在17世纪中叶,贝克(Cave Beck)、基尔施(Athanasius Kircher)和贝希尔(Johann JoachimBecher)等人都出版过这类的词典。由此开展了关于“普遍语言”的运动。维尔金斯(JohnWilkins)在《关于真实符号和哲学语言的论文》(An Essay towards a Real Character andPhilosophical Language, 1668)中提出的中介语(Interlingua)是这方面最著名的成果,这种中介语的设计试图将世界上所有的概念和实体都加以分类和编码,有规则地列出并描述所有的概念和实体,并根据它们各自的特点和性质,给予不同的记号和名称。本世纪三十年代之初,亚美尼亚裔的法国工程师阿尔楚尼(G.B. Artsouni)提出了用机器来进行语言翻译的想法,并在1933年7月22日获得了一项“翻译机”的专利,叫做“机械脑”(mechanical brain)。这种机械脑的存储装置可以容纳数千个字元,通过键盘后面的宽纸带,进行资料的检索。阿尔楚尼认为它可以应用来记录火车时刻表和银行的帐户,尤其适合于作机器词典。在宽纸带上面,每一行记录了源语言的一个词项以及这个词项在多种目标语言中的对应词项,在另外一条纸带上对应的每个词项处,记录着相应的代码,这些代码以打孔来表示。机械脑于1937年正式展出,引起了法国邮政、电信部门的兴趣。但是,由于不久爆发了第二次世界大战,阿尔楚尼的机械脑无法安装使用。1903年,古图拉特(Couturat)和洛(Leau)在《通用语言的历史》一书中指出,德国学者里格(W. Rieger) 曾经提出过一种数字语(Zifferngrammatik),这种语法加上词典的辅助,可以利用机械将一种语言翻译成其他多种语言,首次使用了“机器翻译” (德文是ein mechanisches Uebersetzen)这个术语。 真正对机器翻译进行研究应该说是从布恩和韦弗开始的。他们研究的是自动词典万, 从1954年1月7日公开展示的IBM701型计算机开始, 机器翻译进人一个繁荣发展的时期。从那时起, 很多国家都投人了大量的人力、物力从事这方面的研究和开发。随着 Internet 的普遍应用,世界经济一体化进程的加速以及国际社会交流的日渐频繁,传统的人工作业的方式已经远远不能满足迅猛增长的翻译需求,人们对于机器翻译的需求空前增长,机器翻译迎来了一个新的发展机遇。国际性的关于机器翻译研究的会议频繁召开,中国也取得了前所未有的成就,相继推出了一系列机器翻译软件,例如“译星” 、“雅信” 、“通译” 、“华建”等。在市场需求的推动下,商用机器翻译系统迈入了实用化阶段,走进了市场,来到了用户面前。 中国机器翻译研究起步于1957年,是世界上第4个开始搞机器翻译的国家,60年代中期以后一度中断,70年代中期以来有了进一步的发展。现在,中国社会科学院语言研究所、中国科学技术情报研究所、中国科学院计算技术研究所、黑龙江大学、哈尔滨工业大学等单位都

机器翻译研究现状与展望1 Machine TranslationPast,Present,future

机器翻译研究现状与展望1 戴新宇,尹存燕,陈家骏,郑国梁 (南京大学计算机软件新技术国家重点实验室,南京 210093) (南京大学计算机科学与技术系,南京 210093) 摘要:本文回顾机器翻译研究的历史,介绍典型的机器翻译方法,包括:基于规则、基于统计以及基于实例的机器翻译方法;针对机器翻译的研究现状,详细介绍和分析了基于混合策略的机器翻译方法,对统计以及机器学习方法在机器翻译中的应用进行了描述;论文还介绍了当前机器翻译评测技术;最后对机器翻译进行总结和展望。 关键字:机器翻译,基于规则,基于统计,基于实例,混合策略,机器学习 Machine Translation:Past,Present,future Dai Xinyu, Yin Cunyan, Chen Jiajun and Zheng Guoliang (State Key Laboratory for Novel Software Technology, Department of Computer Science & Technology Nanjing University, Nanjing 210093) Abstract:This paper firstly presents the history of machine translation, and introduces some classical paradigms of machine translation: RBMT, SBMT and EBMT. Secondly, we introduce the recent research on machine translation, and describe the hybrid strategies on machine translation in detail, and discuss the applications of machine learning for machine translation. We also analyze the current techniques about evaluation on machine translation. Finally, we draw a conclusion and prospect on the research of machine translation. Keywords:Machine Translation, RBMT, SBMT,EBMT, HSBMT, Machine Learning. 1本论文工作得到863课题资助(编号:2001AA114102, 2002AA117010-04) 戴新宇博士生,主要研究自然语言处理;尹存燕助教,主要研究自然语言处理;陈家骏教授,博士生导师,主要研究自然语言处理、软件工程;郑国梁教授,博士生导师,主要研究软件工程。

机器翻译研究综述

机器翻译综述 1.引言 1.1机器翻译的历史 现代机器翻译的研究应该是从20世纪50年代开始,但是早在这以前很多人已经提出了相应的想法,甚至是远在古希腊时期就有人提出要用机器来进行语言翻译的想法。 在1946年,美国宾夕法尼亚大学的两位科学家设计并制造了世界上第一台电子计算机。与此同时,英国工程师同美国洛克菲勒基金会副总裁韦弗在讨论计算机的应用范围时,就提出了利用计算机实现语言的自动翻译的想法。在1949年,韦弗发表了一份名为《翻译》的备忘录,正式提出了机器翻译问题。他提出了两个主要观点: 第一,他认为翻译类似于解读密码的过程。 第二,他认为原文与译文“说的是同样的事情”,因此,当把语言A翻译为语言B时,就意味着从语言A出发,经过某一“通用语言”或“中 间语言”,可以假定是全人类共同的。 在这一段时间由于学者的热心倡导,实业界的大力支持,美国的机器翻译研究一时兴盛起来。 1964年,美国科学院成立语言自动处理咨询委员会,调查机器翻译的研究情况,给出了“在目前给机器翻译以大力支持还没有多少理由”的结论,随后机器翻译的研究就陷入了低潮期。直到70年代以后机器翻译的研究才重新进入了一个复苏期,随后机器翻译的发展又迎来了繁荣期 1.2机器翻译的主要内容 经过50多年的发展,在机器翻译领域中出现了很多的研究方法,总结如下:●直接翻译方法 ●句法转换方法 ●中间语言方法 ●基于规则的方法 ●基于语料库的方法 基于实例的方法(含模板、翻译记忆方法) 基于统计的方法 在当前的研究中,更多的是基于统计的方法进行的,因为基于统计的方法可以充分的利用计算机的计算能力,并且并不需要过多的语言学知识作为支撑,可以让更多的计算机科学家投入到实用系统的研究中,极大的促进了统计机器翻译的发展。 下面对各个方法逐一的进行介绍。

人工智能与机器翻译期末复习题

一、名词解释(5X3‘)15’ 1.兼类(P121):一个单词既可以作名词动词又可以作其他词类 2.机器翻译:用计算机软件代替人做的书面翻译 3.组合型歧义:一个字与前面的字成词,与后面的字成词,合起来也成词。 4.交集型歧义(P117):一个字与前面的字成词,与后面的字也成词。 5.人工智能:用计算机硬件、软件模拟人的行为,解决人类目前尚未认识清楚的问题。 6.人工智能软件的三大技术:知识表示、知识推理、知识获取。 7.语料库:单词、短语和句子组成的数据库。 8.知识工程:包括人工智能软件技术的工程。(知识工程是以知识为基础的系统,就 是通过智能软件而建立的专家系统) 9.深度学习:一步一步在丰富起来的特征规律引导下,由浅入深完成推理的方法。 10.语用分析:分析成语和习惯用语的方法。 二、题解P36 例2.1 、2.2 例2.1 设有下列语句: (1)高山比他父亲出名。 (2)刘水是计算机系的一名学生,但他不喜欢编程序。 (3)人人爱劳动。 为了用谓词公式表示这些语句,应先定义谓词: BIGGER(x,y):x比y出名 COMPUTER(x):x是计算机系的学生 LIKE(x,y):x喜欢y LOVE(x,y):x爱y

M(x):x是人 定义函数father(x)表示从x到其父亲的映射此时可用谓词公式把上述三个语句表示为:(1)BIGGER(高山,father(x)) (2)COMPUTER(刘水)∧∽LIKE(刘水,程序) (3)(?x)(M(x) →LOVE(x,劳动)) 例2.2 设有下列语句: (1)自然数都是大于零的整数。 (2)所有整数不是偶数就是奇数。 (3)偶数除以2是整数。 定义谓词如下: N(x):x是自然数 I(x):x是整数 E(x):x是偶数 O(x):x是奇数 GZ(x):x大于零 另外,用函数S(x)表示x除以2。此时,上述三个句子可用谓词公式表示为: (?x)(N(x) →GZ(x)∧I(x)) (?x)(I(x) →E(x)∨O(x)) (?x)(E(x) →I(S(x))) 三、论述(4X5‘)20’ 1.阐述深度、广度、代价驱动搜索方法。(P68) 答:广度优先搜索法:对全部节点沿广度进行横向扫描,按各节点生成的先后次序,

基于实例的机器翻译

基于实例的机器翻译 ——方法和问题 王厚峰(北京大学) 关键字:基于实例的机器翻译,双语对齐,相似度计算,模板获取 摘要:本文介绍了基于实例的机器翻译方法,并对基于实例的机器翻译的若干问题,如双语实例的加工对齐、实例的相似度计算和实例模板提取等问题作了说明。 Method and Issues of Example-Based Machine Translation Wang Houfeng Keywords: EBMT, Bilingual Alignment, Similarity Measure, Template Acquisition. Abstract: The basic frame of Example based machine translation is concerned in this paper. Some key issues, such as bilingual alignment, similarity measure between input sentence and example, and template acquisition, are introduced. 引言 早期的机器翻译本质上都是基于语言规则或语言知识RBMT(Rule Based Machine Translation)的。如,词法规则,句法分析规则,转换规则,目标语生成规则等。这些规则都是根据语言专家的经验总结归纳出来的。直译法、转换生成方法、中间语言方法等都可以归为这一类。在上一世纪80年代中后期,这种纯粹基于语言知识的状况渐渐被基于语料库的机器翻译CBMT( Corpus-Based Machine Translation) 方法打破。 语料库方法中最有影响的是IBM公司的P.Brown 提出的基于统计的机器翻译SBMT (Statistics Based Machine Translation)。受语音处理的启发,P.Brown在1988年第二届TMI会议上提出了用隐马尔科夫模型HMM(Hidden Markov Model)进行机器翻译的想法,这一想法震惊了当时的与会者,并直接导致了语料库方法在自然语言处理上的迅速发展。 另一个影响更为广泛的机器翻译方法是日本的长尾真(Makoto Nagao)1981年提出的基于实例的机器翻译EBMT ( Example based Machine Translation),并于1984年发表[6]。基本思想是在已经收集的双语实例库中找出与待翻译部分最相似的翻译实例(通常是句子),再对实例的译文通过串替换,串删除以及串增加等一系列变形操作,实现翻译。 基于实例的翻译方法受到广泛关注是在进入90年代之后。其中,Sato[7,8]等人起到了很好的推动作用。 EBMT的基本思想 长尾真认为,人们在翻译简单句子时并没有做语言的深层分析,而是先将句子分解为几个片断(短语),然后,借助于已有片断的翻译,将分解的每个片断翻译成目标短语,最后在将这些短语组合起来形成一个长的句子。 基于上述思想,长尾真提出了基于实例的机器翻译EBMT的思想。对应地,EBMT也分为三大部分:将实例划分为片断,确定各个片断的翻译以及重组片断。 例2.1. (a) 她买了一本计算语言学入门书 假定计算机内已经存储了如下的实例对:

机器翻译的现状和发展趋势_岳涛

72 计算机教育 2005.4 人/才/培/养/与/就/业机器翻译(Machine Trans-lation)是通过计算机来实现不同自然语言之间的翻译。机器翻译是自然语言处理(Natural LanguageProcessing)的一个分支,机器翻译与计算语言学(ComputationalLinguistics)、自然语言理解(Natural Language Understanding)存在着密不可分的关系。机器翻译的研究与发展取决于计算机科学、数学、语言学、人工智能等多学科的发展,因此机器翻译可以说是一个跨学科的综合性系统工程。人类步入21世纪以来,随着国际互联网(Internet)的迅猛发展,网络信息急剧膨胀,国际交流日益频繁以及地球村的形成,机器翻译正在逐渐成为克服人们之间进行交流时所面临的语言障碍的重要手段,同时也面临着很大的市场机遇和挑战。 历史的回顾 从美国人维弗(Warren?Weaver)于1949年发表《翻译》备忘录并正式提出机器翻译的思想以来,机器翻译已经走过了50多个风风雨雨的春秋。在这期间,机器翻译可以说经历了一条曲折而漫长的 发展道路。 1954年,在美国乔治敦大学(Georgetown University)进行了 人类历史上的第一次机器翻译的公开演示。尽管演示尚不算很成功,但是它却具有划时代的意义,因为它拉开了人们研究机器翻译 的序幕。 从20世纪50年代开始到20世纪60年代的前半期,机器翻译的研 究呈不断上升的趋势。美国和前苏联两个超级大国出于军事和政治经济目的,纷纷对机器翻译项目提供了大量的资金支持,而欧洲国家由于地缘政治和经济的需要也对机器翻译研究给予了相当大的重视。 1966年,美国科学院发表的ALPAC报告使当时正在蓬勃发展的机器翻译陷入了停滞的状态。现在来看,该报告是非常片面、狭隘和短视的。 从20世纪60年代中后期到整个70年代,整个机器翻译领域处于一个相对平稳发展的时期,而在某些国家,特别是加拿大和欧盟,机器翻译的研究却取得了比较显著的进步。尤其是在加拿大,由于双语文 化的影响,政府积极支持机器翻译的研发工作,1976年,加拿大蒙特利尔大学与加拿大联邦政府翻译局联合开发了提供天气预报服务的实用性机器翻译系统TAUM-METEO,该系统的成功开发标志着 机器翻译已经在某些领域达到了实用化的程度。 进入20世纪80年代以来,由于计算机科学、语言学研究的发展,特别是计算机硬件技术的大幅度提高以及人工智能在自然语言处理上的应用,机器翻译在全世界范围内开始复苏,并在随后的90年代取得了长足的进步。 20世纪90年代以来的机器翻译技术的新进展 1.机器翻译的分类 进入20世纪90年代,机器翻译领域的的研究方法基本上可以分为两大类,即基于规则(Rule-Based)和基于语料库(Corpus-Based)的方法。基于规则的方法又可以分为基于转换的方法和基于中间语言的方法,基于语料库的方法又可以分为基于统计的方法和基于实例的方法。传统的基于规则的方法又可以 机器翻译的现状和发展趋势 中国软件与技术服务股份有限公司 岳涛/文 ◆ 课外新知 ◆

统计机器翻译

统计机器翻译 熊德意,何中军,刘群 1.概述 统计机器翻译,又称为数据驱动(data-driven)的机器翻译。其思想其实并不新鲜。早在1949年,Weaver发表的以《翻译》为题的备忘录中就提出:“当我阅读一篇用俄语写的文章的时候,我可以说,这篇文章实际上是用英语写的,只不过它是用另外一种奇怪的符号编了码而已,当我在阅读时,我是在进行解码。”这实际上就是基于信源信道思想的统计机器翻译方法的萌芽。早期的机器翻译系统通常都建立在对词类和词序分析的基础之上,分析中经常使用统计方法,只是后来以Chomsky转换生成语法为代表的理性主义方法兴起后,统计机器翻译方法几乎不再被人使用。上世纪90年代初期,IBM的Brown等人提出了基于信源信道思想的统计机器翻译模型,并且在实验中获得了初步的成功,引起了研究者广泛的关注和争议。不过由于当时计算能力等多方面限制,真正开展统计机器翻译方法研究的人并不多,统计机器翻译方法是否真正有效还受到人们普遍的怀疑。 基 于 句 法 的 方 法 源语言目标语言 图1统计机器翻译金字塔 但是,进入21世纪以来,在学习、生活和工作中,人们日益发现,不同语言之间的交流越来越频繁。无论是口语还是书面形式的交流,无不对机器翻译提出了更加严峻迫切的要求。而另一方面,计算能力也获得了突飞猛进,互联网的发展和普及,以及双语国家、联合国的多语存档,为我们提供了数以千万句的双语平行语料,这些为统计机器翻译方法奠定了

必要的基础。于是,越来越多的研究人员开始投入到统计机器翻译的研究中,并取得了成功(在美国国家标准和技术研究所(NIST)信息部语音组主持的机器翻译国际评测1中,从2002年到2005年,统计机器翻译连续四年取得好成绩[1]),统计方法也逐渐成为国际上机器翻译研究的主流方法之一。 目前统计机器翻译方法主要分为三类:第一类是基于词的(word-based ),以单词作为翻译的基本单位,不考虑上下文信息和人类语言学知识;第二类是基于短语的(phrase-based),它将翻译的粒度从单词扩展到短语,能够较好的解决局部上下文依赖问题,提高了翻译的流利度和准确率;第三类是基于句法的(syntax-based ),将句法结构信息引入翻译过程,这种方法是当前研究的一个热点。这三类方法可以用图1的金字塔来描述。 本文的内容也按照上面提到的3种主要方法组织,对每种方法进行简单介绍,由于篇幅所限,我们不可能对每一部分深入开展,但是我们希望通过丰富的实例和图解,能让读者对统计机器翻译有一个大概的印象,如果能够引起兴趣,那本文的目的就真正达到了。在第二节中我们对基于单词的方法简单介绍,这可以说是统计机器翻译真正意义上的开端引领工作。第三节介绍目前主流的统计机器翻译方法:基于短语的方法。第四节介绍基于句法的方法,这是当前统计机器翻译研究的热点。 2. 基于单词的方法 基于词的统计机器翻译,顾名思义,其主要思想是以词作为翻译的基本单位。训练时,它从语料库中统计目标语言单词翻译为源语言单词的概率。翻译时,首先查找每个源语言单词所对应的目标语言单词,然后插入、删除目标语言单词,并调整它们的顺序,最后组合成目标语言句子。这种方法的典型代表就是上世纪90年代初期IBM 公司的Brown 等人提出的基于信源信道模型的方法5)[2]5)[3],可以说,它为现代统计机器翻译研究的蓬勃发展奠定了坚实的基础。 信源信道模型将统计机器翻译看成一个信息传输的过程:信道的输入是目标语言e ,在经过信道编码以后,输出源语言f ,机器翻译的任务就是将源语言f 还原(翻译)为目标语言e ,这一过程通常称之为解码。需要注意的是,这种模型与人们通常的认识有所区别,就模型而言,信道的输入是目标语言,而输出则是源语言,实际上在翻译(解码)时,还是将源语言作为输入,输出为目标语言。 图2 信源信道模型示例 根据Bayes 公式,Brown 等人提出了统计机器翻译的基本方程式: ?arg max Pr()Pr(|)e e e f e 其中,Pr()e 是目标语言的语言模型,衡量生成的目标语言的合法程度;Pr(|)f e 是翻译模型,衡量目标语言文本翻译为源语言文本的概率。解码的任务就是根据上式找到概率最大的译文。在此基础上,IBM 公司的研究人员提出了5个复杂程度层层递进的翻译模型,使用EM 算法从句子对齐的语料库中自动学习单词的翻译概率,然后利用动态规划算法进行解码5)[3]。 1 https://www.360docs.net/doc/2d6561989.html,/speech/tests/mt/

人工智能与机器翻译 自动分词

人工智能与机器翻译自动分词 人工智能与机器翻译-自动分词2010-10-21 16:48部著作中的词语逐个逐个的切分出来。汉语不象拼音文字那样有自然切分标志,而且词语长短不一,词 语的定义也不统一,语言学中对词的定义多种多样,造成切分的多样性,这也自然给自动分词的同一性带来很大困难。汉语中词语本身的词素、词、词组无明显 的区分界限,没有一个统一的标准,许多东西都是凭经验和语感来划分。.这项工作如果全部交给计算机来作,就没有那么简单了。 尽管计算机自动分词在诸多方面存在着许多困难,但是由于自动分词是许多应用工作的第一步(也是自动翻译的第一步),这就促进了研究的持续不断,提出 了不少方法,它们各有优缺点,也可能是基于特定环境的。 5.2.1典型的自动分词方法 正向最大匹配法和逆向最大匹配法 正向最大匹配法是最早提出的自动分词方法,它的基本思想是先取一句话的前六个字查字库,若不是一个词,则删除六个字的最后一个字再查,这样一直查下去,至找到一个词为止。句子剩余部分重复此工作,直到把所有的词都分出为止。逆向最大匹配法也一样,每次匹配不成功时去掉汉字串中最前面的一个字。 两法思路清晰,易于计算机实现,但由于试图用相对稳定的词表来代替灵活 多变,充满活力的词汇,把词库搜索作为判词的唯一标准,因而具有很大的主观性和局限性。另外,这两种方法实际上否认了语言中的歧义现象。 在实际应用中,方法有所变化。如下述算法我们初始不是取六个字而是取长度最短词的个数。 A1:一条汉语语句分划成单一字符X1,X2,…,XM。 A2:决定语词中可能出现的词最大字符长度Lmax,最小字符长度Lmin。

A3:逆向匹配,取语句最后的Lmin个字查关键词库,若查不到,加入一个字 重复此工作,直至字符数为Lmax为止。 A4:若实施A3查不到词,去掉语句中最后一个字,再实施A3,直至整个语句 只剩下Lmin为止。 高频优选法 这一方法基于词频的统计、字与字之间的构成结合律和歧义切分等现象的 分析而提出来的。根据《现代汉语频率词典》,对于报刊和政论性文章,不同 音节词的词频构成为:双音节词大约有74%;三音节词大约有3.7%;单音节词 大约有17.2%;而五以上字音节词则大约只有0.4%左右。汉语是一字一音节, 因而也可以说,两字组词的频率比其它所有方式的概率加起来都还要多。自动 分词时首先考虑两字词,然后再考虑单字词,如此频率低的词语最后才考虑。 这种方法提高了分词效率,但对歧义问题也无能为力,出错率并不低。 其它方法 设立切分标志 切分标志有自然和非自然之分。自然切分标志是指文章的非文字符号,例 如标点符号等等;非自然切分标志是利用词缀和不构成词的词(单字词等等)。 设立切分标志方法的基本思想就是通过建立非自然切分标志的一张表存储于计 算机中用程序来识别所有的非自然标志。这样一来,一个句子链将被化为若干 短链,然后再用其它切分方法进行各种细加工,这种多方法合作的综合应用, 途径增多,可以大大提高效率。 扩充转移网络分词法 它是以有限状态机概念为基础的方法。有限状态机只能识别正则语言,对 有限状态机作的第一次扩充可以使其具有递归能力,这样就形成递归转移网络(RTN)。在RTN中,弧线上的标志不仅可以是终极符(语言语句中的各种词语)或非终极符(还没有推导完的词类、符号等等,例如名词N,动词V,形容词A等等),还可以调用另外的子网络名字的非终极符(例如字或字串的成语条件)。这样,计算机在运行某个子网络时,就可以调用另外的子网络,还可以递归调用。

机器翻译研究现状与展望

机器翻译是建立在语言学、数学、信息学、计算机科学等学科基础上的多边缘学科。现代理论语言学的发展、计算机科学的进步以及概率统计学的引入, 对机器翻译的理论和方法都产生了深刻的影响。 Weaver机器翻译思想的提出, 开始了机器翻译的研究热潮。Chomsky在50年代后期提出的短语结构语法, 给出了“从规则生成句子”的原则。由于短语结构语法采用单一标记的短语结构来描述句子的构成, 描述粒度过粗, 因此存在约束能力弱、生成能力过强问题, 人们逐渐意识到仅依靠单一的短语结构信息, 不能充分判别短语类型和确认短语边界, 于是, 复杂特征集和词汇主义被引入自然语言语法系统, 广义短语结构语法、词汇功能语法、中心语驱动的短语结构语法等语言学理论也相应地产生。在这个发展过程中, 基于规则方法一直是机器翻译研究的主流。 在基于规则的方法中, 语言规则的产生需要大量的人力,而且大量的语言规则之间往往存在着不可避免的冲突。另外,规则方法在保证规则的完备性和适应性方面也存在着不足。而此时, 统计学方法在自然语言处理的语音识别领域取得了比较好的效果, 于是, 基于统计的机器翻译应运而生。随着双语语料的大量增加、计算机性能的提高, 基于实例的机器翻译方法被提出,并由此泛化产生了基于模板的机器翻译方法。 下面我们分别介绍几种典型的机器翻译方法: (1)基于规则的机器翻译方法

从Chomsky提出转换生成文法后,基于规则的方法一直是机器翻译研究的主流,Chomsky认为一种语言无限的句子可以由有限的规则推导出来。 早期的机器翻译系统, 从体系结构上可以分为直译式、转换式和中间语言式, 它们的不同之处在于对源语言分析的深度, 它们的相同点是都需要大规模的双语词典、大量的源语言推导规则、语言转换规则和目标语言生成规则。其中, 转换式的基于规则方法对源语言分析得比较深, 它涉及到词汇结构分析、语法分析、语义分析, 并完成词汇、语法、语义三层结构从源语言到目标语言的转换, 而且转换式的方法又充分考虑了源语言和目标语言之间的特征联系, 它比中间语言方法更容易获得高质量的翻译结果。因此, 转换式的方法更多地被应用在早期的机器翻译系统中, 整个翻译过程被分为, 源语言分析部分, 转换部分和目标语生成部分。而早期的系统, 如德国西门子的METAL系统、美国的SYSTRAN系统、日本日立公司的ATHENE系统以及中国中软公司的HY-1汉英系统, 都是基于转换的机器翻译系统。 基于规则的机器翻译的优点在于, 规则可以很准确地描述出一种语言的语法构成, 并且可以很直观地表示出来。机器可以按照一组规则来理解它面对的自然语言, 这组规则包含了不同语言层次的规则, 包括用以对源语言进行描述的源语言分析规则、用以对源语言/目标语言之间的转换规则以及用于生成目标语的生成规则。

相关文档
最新文档