自然语言处理期末复习(7)平行文本与机器翻译

一、平行文本的自动对齐

1.按照语料库所涉语种,语料库可区分为(1)单语语料库 (2)多语语料库: 由多语平行文本组成

2.双语对齐处理在两种语言文本的不同语言单位之间建立对应关系,确定源语言文本中哪个(些)语言单位和目标语言文本中哪个(些)语言单位互有翻译关系。

3. 自动双语对齐处理指的是通过一定的算法,由计算机在双语文本间建立对齐关系。

二、双语句子级对齐

1.概念:在双语文本间建立句子一级的对齐关系,就是要确定源语言文本中哪个(些)句子和目标语言文本中哪个(些)句子互为译文。

2.基于长度的对其方法

(1)依据:--互为翻译的两个句子在长度上高度相关。--翻译时,句子顺序不做剧烈改变。(不考虑交叉)

(2)在已知参数c和s2以及Prob(match)后,即可计算最佳对齐。枚举文本间所有可能的对齐,分别计算距离,选择最佳对齐

三、双语词语级对齐

1.定义:在互为译文的两个句子间寻找词语对译关系。

2.统计对齐的任务,就是从众多的对齐中找出概率最大的对齐,即韦特比对齐。

3. 可以通过下面的过程计算韦特比对齐

1) 罗列出原文句子和译文句子间所有可能的对齐

2) 对每一种对齐,计算P(S, A|T)

3) 寻找能使P(S, A|T) 取得最大值的A作为韦特比对齐

4.对齐故事

(1) IBM模型一:原文所有的词与译文各个词位对应的概率为等概率。

(2) IBM模型二:原文与译文对应的概率为不等的概率,依赖着原文的词位。

(3) Vogel的类HMM模型翻译具有局部性,原文中邻近的词译成其它语言时,译词大多数情况下仍然保持较近的距离,类HMM模型对此作了考虑。

(4)基于繁殖率的模型: 一个译文单词t对应的原文单词的数量称为t的繁殖率

(fertility),译文单词的繁殖率实际上是一个随机变量.

5.计算韦特比对齐

理论上当然可以枚举所有对齐方式,对每种对齐方式,计算P(S, A|T),在寻求值最大的对齐。实际上不现实。

(1)对于IBM模型一、二而言:顺次为每一个原文单词sj选择一个能使t(sj|ti)取最大值的ti与之对应。

四、机器翻译

1.直接翻译法——逐词翻译法

2.转换法

– 分析源语言文本,得到源语言的内部表达

– 将源语言内部表达转换成目标语内部表达

– 根据目标语内部表达生成目标语文本

– 翻译过程分成三个阶段

3.中间语言法

中间语言(interlingua)是一种中间表达,通常是一种句法-语义表达(syntactic-semantic expression),中间语言独立于任何具体的自然语言。

– 源文本经过深层分析得到其对应的中间语言表示。

– 再由该中间表示生成目标语文本。

– 翻译过程为两个阶段。

• 4.基于统计的方法

– 基于统计的机翻译通过建立、训练统计翻译模型、并进而基于统计模型进行翻译。

Pr(S|T)称为语言S到T的翻译模型

Pr(T) 称为语言T的语言模型

取两者乘积最大值的句子:穷举法与剪枝策略。

• 5基于实例的方法:通过模仿实例库中已有的译文基于类比的策略进行翻译。

基本思想:

– 主要知识库是双语对照的实例库

– 当需要翻译一个新句子时,通过检索的办法在实例库中寻找和该句类似的翻译实例。

– 新句子的翻译可通过模拟最类似的实例的译文的方式获得

6.神经机器翻译方法

– 神经机器翻译方法通过建立、训练深度神经网络模型完成机器翻译。

• 编码器读入源语言句子,生成源语言句子的向量表示

• 解码器基于源语言句子的向量表示生成目标语言句子

7.机器翻译评价:

最常用的两个标准源于ALPAC报告

• 译文的可理解性(Intelligibility)(流畅度 fluency)

译文可在多大程度上为不懂原文的人所理解

• 译文的忠实度(Fidelity)(充分度 adequacy)

译文和原文在内容上有多大差异


猜你喜欢

转载自blog.csdn.net/kangyucheng/article/details/80726991