ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

机器翻译——mosesdecoder

2021-11-23 10:00:19  阅读:414  来源: 互联网

标签:... en tokenizer 机器翻译 perl avatar mosesdecoder


1.moses

  • moses是由英国爱丁堡大学、德国亚琛工业大学等8家单位联合开发的一个基于短语的统计机器翻译系统。

本文主要介绍 mosesdecoder 中的 tokenizer
github地址

2.安装及使用

2.1 安装

直接 clone 上面 github

git clone https://github.com/moses-smt/mosesdecoder.git

2.2 tokenizer 使用

进入tokenizer.perl所在目录

cd mosesdecoder/scripts/tokenizer/

tokenizer.perl 参数如下:

Usage ./tokenizer.perl (-l [en|de|...]) (-threads 4) < textfile > tokenizedfile
Options:
  -q     ... quiet.
  -a     ... aggressive hyphen splitting.
  -b     ... disable Perl buffering.
  -time  ... enable processing time calculation.
  -penn  ... use Penn treebank-like tokenization.
  -protected FILE  ... specify file with patters to be protected in tokenisation.
  -no-escape ... don't perform HTML escaping on apostrophy, quotes, etc.

tokenizer 主要将标点与词分开,具体可以查看tokenizer.perl
例如文件 input.en:

Are you sure you want to cancel the upgrade?
Enemy's march trail's color will turn blue (originally red)
Clicking "Change Appearance" will replace your custom avatar with a default avatar.

运行

perl ./tokenizer.perl -l en -no-escape <input.en> tokenizedfile.en

得到:

Are you sure you want to cancel the upgrade ?
Enemy 's march trail 's color will turn blue ( originally red )
Clicking " Change Appearance " will replace your custom avatar with a default avatar .

注意:

  • 需要加上 -no-escape,如果不加会得到下图中效果,其中 's " 等都会被转义
  • 参数 -l 传入的语种 为英、德,传入不存在的语种会默认为 en 分词

在这里插入图片描述

标签:...,en,tokenizer,机器翻译,perl,avatar,mosesdecoder
来源: https://blog.csdn.net/qq_40837206/article/details/121410594

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有