自然语言处理期末复习（7）平行文本与机器翻译

一、平行文本的自动对齐

1．按照语料库所涉语种，语料库可区分为（1）单语语料库（2）多语语料库: 由多语平行文本组成

2.双语对齐处理在两种语言文本的不同语言单位之间建立对应关系，确定源语言文本中哪个(些)语言单位和目标语言文本中哪个(些)语言单位互有翻译关系。

3. 自动双语对齐处理指的是通过一定的算法，由计算机在双语文本间建立对齐关系。

二、双语句子级对齐

1．概念：在双语文本间建立句子一级的对齐关系，就是要确定源语言文本中哪个(些)句子和目标语言文本中哪个(些)句子互为译文。

2.基于长度的对其方法

（1）依据：--互为翻译的两个句子在长度上高度相关。--翻译时，句子顺序不做剧烈改变。（不考虑交叉）

（2）在已知参数c和s2以及Prob(match)后，即可计算最佳对齐。枚举文本间所有可能的对齐，分别计算距离，选择最佳对齐

三、双语词语级对齐

1.定义：在互为译文的两个句子间寻找词语对译关系。

2.统计对齐的任务，就是从众多的对齐中找出概率最大的对齐，即韦特比对齐。

3. 可以通过下面的过程计算韦特比对齐

1) 罗列出原文句子和译文句子间所有可能的对齐

2) 对每一种对齐，计算P(S, A|T)

3) 寻找能使P(S, A|T) 取得最大值的A作为韦特比对齐

4.对齐故事

(1) IBM模型一：原文所有的词与译文各个词位对应的概率为等概率。

(2) IBM模型二：原文与译文对应的概率为不等的概率，依赖着原文的词位。

(3) Vogel的类HMM模型翻译具有局部性，原文中邻近的词译成其它语言时，译词大多数情况下仍然保持较近的距离，类HMM模型对此作了考虑。

(4)基于繁殖率的模型: 一个译文单词t对应的原文单词的数量称为t的繁殖率

(fertility)，译文单词的繁殖率实际上是一个随机变量.

5.计算韦特比对齐

理论上当然可以枚举所有对齐方式，对每种对齐方式，计算P(S, A|T)，在寻求值最大的对齐。实际上不现实。

（1）对于IBM模型一、二而言：顺次为每一个原文单词sj选择一个能使t(sj|ti)取最大值的ti与之对应。

四、机器翻译

• 1.直接翻译法——逐词翻译法

• 2.转换法

– 分析源语言文本，得到源语言的内部表达

– 将源语言内部表达转换成目标语内部表达

– 根据目标语内部表达生成目标语文本

– 翻译过程分成三个阶段

• 3.中间语言法

中间语言(interlingua)是一种中间表达，通常是一种句法-语义表达(syntactic-semantic expression)，中间语言独立于任何具体的自然语言。

– 源文本经过深层分析得到其对应的中间语言表示。

– 再由该中间表示生成目标语文本。

– 翻译过程为两个阶段。

• 4.基于统计的方法

– 基于统计的机翻译通过建立、训练统计翻译模型、并进而基于统计模型进行翻译。

Pr(S|T)称为语言S到T的翻译模型

Pr(T) 称为语言T的语言模型

取两者乘积最大值的句子：穷举法与剪枝策略。

• 5基于实例的方法：通过模仿实例库中已有的译文基于类比的策略进行翻译。

基本思想：

– 主要知识库是双语对照的实例库

– 当需要翻译一个新句子时，通过检索的办法在实例库中寻找和该句类似的翻译实例。

– 新句子的翻译可通过模拟最类似的实例的译文的方式获得

• 6.神经机器翻译方法

– 神经机器翻译方法通过建立、训练深度神经网络模型完成机器翻译。

• 编码器读入源语言句子，生成源语言句子的向量表示

• 解码器基于源语言句子的向量表示生成目标语言句子

7.机器翻译评价：

最常用的两个标准源于ALPAC报告

• 译文的可理解性(Intelligibility)(流畅度 fluency)

译文可在多大程度上为不懂原文的人所理解

• 译文的忠实度(Fidelity)(充分度 adequacy)

译文和原文在内容上有多大差异