关于本地构建机器翻译系统

i-rewrite-decoder-r1.0.0a

中文txt分词 采用中科院分词系统ICTCLAS003

英文txt添加<s> </s>识别标签

训练语料库:汉英10000

实现操作系统 VMware下的Ubuntu 13.04

具体操作步骤:

1.构建语言模型

english.txt放在CMU-Cam_Toolkit_v2/bin下

执行 ./text2wfre <english.txt> english.wfre 生成 english.wfre

执行 ./wfre2vocab <english.wfre> english.vocab 生成english.vocab

更换root身份

执行 ./text2idngram -vocab english.vocab -buffer 5 <english.txt> english.idngram 生成 english.idngram

添加 https://www.360docs.net/doc/2113386911.html,s 内容如下:

<s>

</s>

执行 ./idngram2lm -idngram english.idngram -vocab english.vocab -context https://www.360docs.net/doc/2113386911.html,s -binary english.binlm

生成english.binlm (二进制文件)

2.构建翻译模型

进入mkcls-v2目录下,把10000句的英文和中文对照语料库拷贝到该目录下。 执行如下命令:

./mkcls -c80 -n10 -pchinese.txt -Vchinese.vcb.classes opt

./mkcls -c80 -n10 -penglish.txt -Venglish.vcb.classes opt

这个时间比较长!



进入GIZA++-v2目录下,把10000句的英文和中文txt对照语料库拷贝到该目录下。

./plain2snt.out chinese.txt english.txt

成功运行后将会生成以下四个文件:

chinese.vcb, chinese_english.snt, english.vcb, english_chinese.snt



在GIZA++-v2目录下建立一个test子目录,把刚才生成的四个文件和mkcls生成的四个类文件,再加上编译后的可执行文件GIZA++一同拷贝到该子目录下即可编译运行.这样生成后的文件全都在这个目录下

相关文档
最新文档