深入解析相对位置编码:从Transformer到Relative Position Representations
在自然语言处理(NLP)领域,Transformer模型因其强大的性能而成为研究和应用的焦点。自Vaswani等人于2017年发表《Attention is All You Need》以来,Transformer凭借其完全基于注意力机制的架构,在机器翻译等任务中取得了突破性进展。然而,原始Transformer模型在处理序列顺序信息时依赖绝对位置编码(Absolute Position Encodings),这在某些场景下存在局限性。2018年,Peter Shaw等人在论文《Self-Attention with Relative Position Representations》中首次提出了相对位置编码(Relative Position Representations)的概念,为Transformer引入了一种更灵活、更高效的位置信息建模方式。本文将详细解析这篇开创性论文中的相对位置编码思想,探讨其设计理念、技术细节、实现方法以及对后续研究的影响。
原论文链接:https://arxiv.org/pdf/1803.02155
1. 背景:为什么需要相对位置编码?
1.1 Transformer与位置信息的挑战
Transformer模型完全摒弃了循环神经网络(RNN)和卷积神经网络(CNN)中固有的序列处理机制,依靠自注意力(Self-Attention)机制来捕捉序列中元素之间的依赖关系。然而,自注意力机制本身对序列的顺序是不可知的(permutation-invariant),也就是说,如果不对输入序列添加额外的位置信息,模型无法区分单词的先后顺序。
为了解决这一问题,原始Transformer引入了绝对位置编码(Absolute Position Encodings)。具体来说,Vaswani等人使用了基于正弦和余弦函数的静态位置编码(sinusoidal position encodings),将每个位置的索引映射到一个固定向量,并将其加到输入词嵌入上。这种方法虽然简单有效,但存在以下局限性:
- 缺乏相对位置信息:绝对位置编码只关注每个单词的绝对位置,无法直接建模单词之间的相对距离。例如,在句子“猫在垫子上”中,模型难以显式地捕捉“猫”和“垫子”之间的距离关系。
- 泛化能力有限:绝对位置编码对序列长度敏感,训练时未见过的较长序列可能导致性能下降,尽管正弦编码在一定程度上缓解了这个问题。
- 信息传递效率:绝对位置编码作为一个独立的输入组件,可能在深层网络中逐渐丢失,尤其是当模型需要关注远距离的依赖关系时。
这些局限性促使研究者探索更灵活的位置编码方式,而相对位置编码应运而生。
1.2 相对位置编码的直觉
相对位置编码的核心思想是:与其为每个位置分配一个固定的编码,不如直接建模序列中元素之间的相对距离或关系。对于语言任务来说,单词之间的相对位置往往比绝对位置更重要。例如,在翻译任务中,短语的内部结构(如主语和谓语的相对顺序)通常比它们在句子中的绝对位置更有意义。相对位置编码通过显式地表示元素对之间的距离或关系,使模型能够更好地捕捉这些局部和全局的序列结构。
2. 相对位置编码的设计
Shaw等人在论文中提出了一种基于自注意力机制的相对位置编码方法,将Transformer的注意力计算扩展为一种“关系感知”(relation-aware)的形式。以下是其核心设计理念和技术细节。
2.1 关系感知自注意力(Relation-aware Self-Attention)
论文将输入序列建模为一个全连接的有向图,其中每个节点代表序列中的一个元素(如单词或词嵌入),每条边表示两个元素之间的关系。对于线性序列,这些边可以用来表示元素之间的相对位置差(relative position difference)。具体来说:
- 边的表示:对于任意两个输入元素 ( x i x_i xi ) 和 ( x j x_j xj ),它们之间的边由两个向量 ( a i j K a_{ij}^K aijK ) 和 ( a i j V a_{ij}^V aijV ) 表示,分别用于注意力计算中的“键”(Key)和“值”(Value)。这些向量捕捉了 ( x i x_i xi ) 和 ( x j x_j xj ) 之间的相对位置信息,维度为 ( d a d_a da )(通常与注意力头的输出维度 ( d z d_z dz ) 相同)。
- 为什么要用两个向量?:( a i j K a_{ij}^K aijK ) 用于计算注意力权重时的兼容性函数(compatibility function),而 ( a i j V a_{ij}^V aijV ) 用于生成加权后的输出。这两个向量的分开设计避免了额外的线性变换,提升了计算效率。
这种设计将自注意力机制从仅考虑元素内容扩展到同时考虑元素间的关系,使得模型能够显式地建模相对位置信息。
2.2 自注意力公式的修改
原始Transformer的自注意力机制通过以下公式计算输出:
-
兼容性函数:计算查询(Query)和键之间的点积,得到注意力分数:
e i j = ( x i W Q ) ( x j W K ) T d z e_{ij} = \frac{(x_i W^Q)(x_j W^K)^T}{\sqrt{d_z}} eij=dz(xiWQ)(xjWK)T
其中 ( x i x_i xi ) 和 ( x j x_j xj ) 是输入元素,( W Q W^Q WQ ) 和 ( W K W^K WK ) 是查询和键的变换矩阵,( d z d_z dz ) 是缩放因子。 -
注意力权重:通过softmax函数将分数归一化为权重:
α i j = exp ( e i j ) ∑ k = 1 n exp ( e i k ) \alpha_{ij} = \frac{\exp(e_{ij})}{\sum_{k=1}^n \exp(e_{ik})} αij=∑k=1nexp(eik)exp(eij) -
输出计算:用注意力权重对值的线性变换加权求和:
z i = ∑ j = 1 n α i j ( x j W V ) z_i = \sum_{j=1}^n \alpha_{ij} (x_j W^V) zi=j=1∑nαij(xjWV)
其中 ( W V W^V WV ) 是值的变换矩阵。
在相对位置编码中,论文对上述公式进行了两处关键修改:
-
修改兼容性函数:在计算 ( e i j e_{ij} eij ) 时加入相对位置向量 ( a i j K a_{ij}^K aijK ):
e i j = x i W Q ( x j W K + a i j K ) T d z e_{ij} = \frac{x_i W^Q (x_j W^K + a_{ij}^K)^T}{\sqrt{d_z}} eij=dzxiWQ(xjWK+aijK)T
这里,( a i j K a_{ij}^K aijK ) 直接加到键的表示上,影响注意力权重的分布,使其考虑 ( x i x_i xi ) 和 ( x j x_j xj ) 之间的相对位置。 -
修改输出计算:在生成输出时加入相对位置向量 ( a i j V a_{ij}^V aijV ):
z i = ∑ j = 1 n α i j ( x j W V + a i j V ) z_i = \sum_{j=1}^n \alpha_{ij} (x_j W^V + a_{ij}^V) zi=j=1∑nαij(xjWV+aijV)
这允许模型在加权求和时进一步融入相对位置信息,可能对下游层更有帮助。
通过这两处修改,自注意力机制能够显式地考虑元素之间的相对位置关系,而不仅仅依赖内容的相似性。
2.3 相对位置的表示
对于线性序列,论文定义了相对位置的表示方式:
-
相对位置差:对于元素对 ( ( x i , x j ) (x_i, x_j) (xi,xj)),其相对位置定义为 ( j − i j - i j−i ),表示 ( x j x_j xj ) 相对于 ( x_i ) 的偏移量。
-
裁剪距离(Clipping Distance):为了控制模型的泛化能力和计算复杂度,论文引入了最大相对位置距离 ( k k k )。任何大于 ( k k k ) 或小于 ( − k -k −k) 的相对位置差都会被裁剪:
clip ( x , k ) = max ( − k , min ( k , x ) ) \text{clip}(x, k) = \max(-k, \min(k, x)) clip(x,k)=max(−k,min(k,x))
因此,模型只需要学习 ( 2 k + 1 2k + 1 2k+1 ) 个独特的相对位置表示,分别对应从 ( − k -k −k) 到 ( k k k ) 的所有可能距离。 -
相对位置向量:对于每个裁剪后的相对位置差 ( l = clip ( j − i , k ) l = \text{clip}(j - i, k) l=clip(j−i,k) ),模型学习两个向量:
a i j K = w l K , a i j V = w l V a_{ij}^K = w_l^K, \quad a_{ij}^V = w_l^V aijK=wlK,aijV=wlV
其中 ( w K = ( w − k K , … , w k K ) w^K = (w_{-k}^K, \ldots, w_k^K) wK=(w−kK,…,wkK) ) 和 ( w V = ( w − k V , … , w k V ) w^V = (w_{-k}^V, \ldots, w_k^V) wV=(w−kV,…,wkV) ) 是可学习的参数,维度为 ( d a d_a da )。
通过裁剪距离 ( k k k ),模型不仅减少了参数量,还增强了对未见过长度的序列的泛化能力,因为远距离的相对位置被统一建模。
3. 高效实现
相对位置编码虽然引入了额外的表示向量,但论文提出了一种高效的实现方式,确保计算开销可控。
3.1 空间复杂度优化
直接存储所有元素对的相对位置表示会导致空间复杂度为 ( O ( h n 2 d a ) O(h n^2 d_a) O(hn2da) ),其中 ( h h h ) 是注意力头的数量,( n n n ) 是序列长度,( d a d_a da ) 是表示维度。论文通过以下方式优化:
- 共享表示:相对位置表示 ( a i j K a_{ij}^K aijK ) 和 ( a i j V a_{ij}^V aijV ) 在所有注意力头之间共享,降低复杂度到 ( O ( n 2 d a ) O(n^2 d_a) O(n2da) )。
- 跨序列共享:这些表示是全局的,不随输入序列变化,进一步减少存储需求。
因此,自注意力的总空间复杂度从原始的 ( O ( b h n d z ) O(b h n d_z) O(bhndz) ) 增加到 ( O ( b h n d z + n 2 d a ) O(b h n d_z + n^2 d_a) O(bhndz+n2da) ),其中 ( b b b ) 是批大小。实际中,( n 2 d a n^2 d_a n2da ) 的相对开销取决于 ( n / k n/k n/k ) 的大小。
3.2 计算效率
原始Transformer通过并行矩阵乘法高效计算自注意力。然而,引入相对位置表示后,( e i j e_{ij} eij ) 的计算需要考虑不同的 ( a i j K a_{ij}^K aijK ),无法直接用单个矩阵乘法完成。论文通过将公式拆分为两部分解决这一问题:
e i j = x i W Q ( x j W K ) T + x i W Q ( a i j K ) T d z e_{ij} = \frac{x_i W^Q (x_j W^K)^T + x_i W^Q (a_{ij}^K)^T}{\sqrt{d_z}} eij=dzxiWQ(xjWK)T+xiWQ(aijK)T
- 第一项:( x i W Q ( x j W K ) T x_i W^Q (x_j W^K)^T xiWQ(xjWK)T ) 与原始自注意力相同,可通过 ( b h b h bh ) 次并行矩阵乘法计算。
- 第二项:( x i W Q ( a i j K ) T x_i W^Q (a_{ij}^K)^T xiWQ(aijK)T ) 通过张量重塑(reshaping)计算为 ( n n n ) 次并行矩阵乘法,每次处理一个序列位置。
类似地,输出计算公式 ( z i = ∑ j = 1 n α i j ( x j W V + a i j V ) z_i = \sum_{j=1}^n \alpha_{ij} (x_j W^V + a_{ij}^V) zi=∑j=1nαij(xjWV+aijV) ) 也可以拆分并高效实现。这种拆分方法避免了显式的广播操作,保持了计算的高效性。
在实验中,作者报告称,加入相对位置编码仅导致每秒步数下降7%,且模型仍能在相同的硬件(如P100 GPU)上运行,证明了实现的实用性。
4. 实验结果与分析
论文在WMT 2014机器翻译任务(英语到德语和英语到法语)上验证了相对位置编码的有效性,实验设置包括基线Transformer(base)和大模型(big)两种配置。以下是关键结果:
4.1 翻译性能提升
- 英语到德语(EN-DE):
- 基线(绝对位置编码):26.5 BLEU(base),27.9 BLEU(big)
- 相对位置编码:26.8 BLEU(base,+0.3),29.2 BLEU(big,+1.3)
- 英语到法语(EN-FR):
- 基线(绝对位置编码):38.2 BLEU(base),41.2 BLEU(big)
- 相对位置编码:38.7 BLEU(base,+0.5),41.5 BLEU(big,+0.3)
相对位置编码在所有配置下均提升了BLEU分数,尤其在大模型的英语到德语任务上提升显著(+1.3 BLEU)。这表明相对位置编码在复杂任务中能更好地捕捉序列结构。
4.2 结合绝对位置编码
有趣的是,实验发现将相对位置编码与正弦绝对位置编码结合使用并未带来进一步的性能提升。这可能表明相对位置编码已经充分捕捉了序列中的位置信息,绝对位置编码的作用被冗余。
4.3 裁剪距离的影响
论文测试了不同裁剪距离 ( k k k ) 对性能的影响(基于英语到德语开发集newstest2013):
- ( k = 0 k = 0 k=0 ):12.5 BLEU(无位置信息,性能极差)
- ( k = 1 k = 1 k=1 ):25.5 BLEU
- ( k ≥ 2 k \geq 2 k≥2 ):25.8-25.9 BLEU(性能稳定)
结果显示,只要 ( k ≥ 2 k \geq 2 k≥2),性能就趋于稳定。这可能因为多层编码器能够通过层层传递间接捕捉更远距离的相对位置信息。
4.4 消融实验
论文还研究了 ( a i j K a_{ij}^K aijK ) 和 ( a i j V a_{ij}^V aijV ) 的作用:
- 仅使用 ( a i j K a_{ij}^K aijK )(兼容性函数):25.8 BLEU,与完整模型相当
- 仅使用 ( a i j V a_{ij}^V aijV )(输出计算):25.3 BLEU,略有下降
- 两者都不用:12.5 BLEU,性能崩溃
这表明 ( a i j K a_{ij}^K aijK ) 对机器翻译任务的贡献更大,可能因为注意力权重的分配更依赖于相对位置信息,而 ( a i j V a_{ij}^V aijV ) 的作用可能在其他任务中更显著。
5. 相对位置编码的意义与影响
5.1 理论意义
相对位置编码的提出标志着Transformer模型在位置建模上的重要进步。与绝对位置编码相比,它具有以下优势:
- 更符合语言直觉:语言中的许多现象(如句法结构、短语关系)更依赖于相对位置而非绝对位置。
- 更好的泛化性:通过裁剪距离和共享表示,模型能更好地处理未见过的序列长度。
- 灵活性:相对位置编码可以看作是将序列建模为图的一种特例,为处理非线性结构(如图或树)提供了可能性。
论文还将相对位置编码框定为一种通用的“关系感知自注意力”机制,暗示其可以扩展到任意标注图输入,这为后续研究开辟了新方向。
5.2 对后续研究的启发
这篇论文是相对位置编码的开创性工作,直接影响了后续许多NLP模型的设计。例如:
- Transformer-XL(Dai et al., 2019):引入了循环机制和相对位置编码的变种,用于长序列建模。
- T5(Raffel et al., 2020):采用了相对位置偏置(relative position bias),进一步简化了实现。
- DeBERTa(He et al., 2021):提出了解耦注意力机制,将内容和相对位置信息分开建模。
- RoPE(Su et al., 2021):引入了旋转位置编码(Rotary Position Embedding),通过旋转矩阵实现相对位置的动态建模。
这些工作在相对位置编码的基础上进行了改进,广泛应用于预训练模型和下游任务,证明了Shaw等人思想的前瞻性。
6. 总结
《Self-Attention with Relative Position Representations》是NLP领域的一篇里程碑式论文,首次提出了相对位置编码的概念,为Transformer模型引入了一种更灵活、更高效的位置信息建模方式。通过将序列建模为全连接有向图,论文扩展了自注意力机制,使其能够显式地捕捉元素间的相对位置关系。其高效的实现方式和在机器翻译任务中的优异表现进一步验证了该方法的实用性。
相对位置编码不仅解决了绝对位置编码的局限性,还为后续研究(如长序列建模、图结构处理)奠定了基础。今天,相对位置编码及其变种已成为现代Transformer架构的标配,广泛应用于BERT、T5、LLaMA等模型中。这篇论文的开创性贡献无疑在NLP发展的历史中留下了深远的影响。
参考文献
Shaw, P., Uszkoreit, J., & Vaswani, A. (2018). Self-Attention with Relative Position Representations. arXiv preprint arXiv:1803.02155.
Vaswani, A., et al. (2017). Attention is All You Need. In Advances in Neural Information Processing Systems.
问题 1:为什么只需要学习 ( 2 k + 1 2k + 1 2k+1 ) 个独特的相对位置表示?
你的疑问是:相对位置编码只需要学习 ( 2 k + 1 2k + 1 2k+1 ) 个表示,对应从 ( − k -k −k) 到 ( k k k ) 的所有可能距离,但直觉上,相对位置不应该是两两组合(如 0 到 1、0 到 2、1 到 2、1 到 3 等),导致更多的组合吗?让我们一步步分析。
1.1 相对位置的定义
在论文中,相对位置编码是基于序列中两个元素 ( x i x_i xi ) 和 ( x j x_j xj ) 的位置差 ( j − i j - i j−i)。具体来说:
- 如果 ( x i x_i xi ) 在位置 ( i i i ),( x j x_j xj ) 在位置 ( j j j ),它们的相对位置是 ( j − i j - i j−i )。
- 例如,在序列 ( [ x 1 , x 2 , x 3 , x 4 ] [x_1, x_2, x_3, x_4] [x1,x2,x3,x4] ) 中:
- 对于 ( x 1 x_1 x1 ) 和 ( x 2 x_2 x2 ),相对位置是 ( 2 − 1 = 1 2 - 1 = 1 2−1=1 )。
- 对于 ( x 2 x_2 x2 ) 和 ( x 1 x_1 x1 ),相对位置是 ( 1 − 2 = − 1 1 - 2 = -1 1−2=−1 )。
- 对于 ( x 1 x_1 x1 ) 和 ( x 4 x_4 x4 ),相对位置是 ( 4 − 1 = 3 4 - 1 = 3 4−1=3 )。
- 对于 ( x 4 x_4 x4 ) 和 ( x 1 x_1 x1 ),相对位置是 ( 1 − 4 = − 3 1 - 4 = -3 1−4=−3 )。
因此,相对位置是一个整数,可以是正数、负数或零,表示 ( x j x_j xj ) 相对于 ( x i x_i xi) 的偏移量。
1.2 裁剪距离 ( k k k )
为了控制模型的复杂度和提升泛化能力,论文引入了裁剪距离 ( k k k ),限制了考虑的相对位置范围。具体公式是:
clip ( x , k ) = max ( − k , min ( k , x ) ) \text{clip}(x, k) = \max(-k, \min(k, x)) clip(x,k)=max(−k,min(k,x))
这意味着:
- 如果相对位置 ( j − i > k j - i > k j−i>k ),则将其裁剪为 ( k k k )。
- 如果相对位置 ( j − i < − k j - i < -k j−i<−k ),则将其裁剪为 ( − k -k −k)。
- 否则,保持原值。
例如,假设 ( k = 2 k = 2 k=2 ):
- ( j − i = 3 j - i = 3 j−i=3 ) 被裁剪为 ( clip ( 3 , 2 ) = 2 \text{clip}(3, 2) = 2 clip(3,2)=2 )。
- ( j − i = − 4 j - i = -4 j−i=−4 ) 被裁剪为 ( clip ( − 4 , 2 ) = − 2 \text{clip}(-4, 2) = -2 clip(−4,2)=−2 )。
- ( j − i = 1 j - i = 1 j−i=1 ) 保持为 ( 1 1 1 )。
裁剪后的相对位置只能取以下值:
{ − k , − k + 1 , … , − 1 , 0 , 1 , … , k − 1 , k } \{-k, -k+1, \dots, -1, 0, 1, \dots, k-1, k\} {
−k,−k+1,…,−1,0,1,…,k−1,k}
我们来数一下这些值的个数:
- 从 ( − k -k −k) 到 ( k k k )(包括 0),总共有:
k + 1 + k = 2 k + 1 k + 1 + k = 2k + 1 k+1+k=2k+1
例如,若 ( k = 2 k = 2 k=2 ),可能的值是:
{ − 2 , − 1 , 0 , 1 , 2 } \{-2, -1, 0, 1, 2\} { −2,−1,0,1,2}
共 ( 2 ⋅ 2 + 1 = 5 2 \cdot 2 + 1 = 5 2⋅2+1=5 ) 个值。
1.3 为什么不是两两组合(如 0 到 1、1 到 2 等)?
你的直觉可能来自绝对位置的视角,觉得需要考虑所有可能的起点和终点组合(例如,位置 0 到 1、0 到 2、1 到 2 等)。但相对位置编码的核心在于,它只关心相对距离,而不依赖具体的绝对位置。换句话说:
-
相对位置 ( j − i = 1 j - i = 1 j−i=1 ) 对于任何 ( ( i , j ) (i, j) (i,j) ) 对都是相同的表示。例如:
- ( ( i = 1 , j = 2 ) → 2 − 1 = 1 (i=1, j=2) \rightarrow 2 - 1 = 1 (i=1,j=2)→2−1=1 )
- ( ( i = 3 , j = 4 ) → 4 − 3 = 1 (i=3, j=4) \rightarrow 4 - 3 = 1 (i=3,j=4)→4−3=1 )
这两个情况共享同一个相对位置表示 ( w 1 K w_1^K w1K ) 和 ( w 1 V w_1^V w1V )。
-
同样,相对位置 ( j − i = − 2 j - i = -2 j−i=−2 ) 对于任何满足条件的 ( ( i , j ) (i, j) (i,j) ) 对(例如 ( ( i = 3 , j = 1 ) (i=3, j=1) (i=3,j=1) ) 或 ( ( i = 5 , j = 3 ) (i=5, j=3) (i=5,j=3) ))也使用相同的表示。
因此,模型不需要为每对特定的 ( ( i , j ) (i, j) (i,j) ) 学习独特的表示,而是为每种可能的相对距离学习一个表示。裁剪后,相对距离的可能取值只有 ( 2 k + 1 2k + 1 2k+1 ) 个。
1.4 举例说明
假设 ( k = 3 k = 3 k=3 ),序列长度 ( n = 5 n = 5 n=5 ),位置为 ( [ 1 , 2 , 3 , 4 , 5 ] [1, 2, 3, 4, 5] [1,2,3,4,5] )。可能的相对位置 ( j − i j - i j−i ) 在裁剪前包括:
- ( j − i = − 4 , − 3 , − 2 , − 1 , 0 , 1 , 2 , 3 , 4 j - i = -4, -3, -2, -1, 0, 1, 2, 3, 4 j−i=−4,−3,−2,−1,0,1,2,3,4 )
裁剪后(( clip ( j − i , 3 ) \text{clip}(j - i, 3) clip(j−i,3) )):
- ( − 4 → − 3 -4 \rightarrow -3 −4→−3)
- ( 4 → 3 4 \rightarrow 3 4→3 )
- 其他值不变
最终的相对位置集合是:
{ − 3 , − 2 , − 1 , 0 , 1 , 2 , 3 } \{-3, -2, -1, 0, 1, 2, 3\} {
−3,−2,−1,0,1,2,3}
共 ( 2 ⋅ 3 + 1 = 7 2 \cdot 3 + 1 = 7 2⋅3+1=7 ) 个值。模型只需要为这 7 个值分别学习一个 ( w l K w_l^K wlK ) 和 ( w l V w_l^V wlV )(其中 ( l ∈ { − 3 , − 2 , − 1 , 0 , 1 , 2 , 3 } l \in \{-3, -2, -1, 0, 1, 2, 3\} l∈{
−3,−2,−1,0,1,2,3} ))。
1.5 为什么这样做合理?
- 参数效率:如果为每对 ( ( i , j ) (i, j) (i,j) ) 学习表示,参数量会达到 ( O ( n 2 ) O(n^2) O(n2) ),对于长序列不可行。裁剪到 ( 2 k + 1 2k + 1 2k+1 ) 个表示大大降低了参数量。
- 泛化能力:假设训练时序列长度为 100,测试时为 200。裁剪后,模型仍然只处理 ( [ − k , k ] [-k, k] [−k,k]) 范围内的相对位置,避免了对绝对位置的依赖。
- 语言直觉:远距离的相对位置(如 50 和 -50)对注意力分布的影响可能相似,裁剪可以让模型聚焦于更重要的局部关系。
问题 2:为什么直接加一个向量 ( a i j K a_{ij}^K aijK ) 就能表示相对距离?
你的疑问是:在兼容性函数中直接将 ( a i j K a_{ij}^K aijK ) 加到 ( x j W K x_j W^K xjWK ) 上(如下公式),如何能表示相对距离?这看起来只是简单地加了一个向量。
e i j = x i W Q ( x j W K + a i j K ) T d z e_{ij} = \frac{x_i W^Q (x_j W^K + a_{ij}^K)^T}{\sqrt{d_z}} eij=dzxiWQ(xjWK+aijK)T
这个设计确实看似简单,但其背后的原理非常巧妙。让我们详细剖析。
2.1 兼容性函数的作用
在原始Transformer中,兼容性函数 ( e i j e_{ij} eij ) 计算查询 ( x i W Q x_i W^Q xiWQ ) 和键 ( x j W K x_j W^K xjWK ) 的点积,衡量两者的相似性:
e i j = ( x i W Q ) ( x j W K ) T d z e_{ij} = \frac{(x_i W^Q)(x_j W^K)^T}{\sqrt{d_z}} eij=dz(xiWQ)(xjWK)T
这个分数决定了 ( x j x_j xj ) 对 ( x i x_i xi ) 的注意力权重。然而,它只基于内容(content-based),不包含任何位置信息。
加入相对位置向量 ( a i j K a_{ij}^K aijK ) 后,公式变为:
e i j = x i W Q ( x j W K + a i j K ) T d z e_{ij} = \frac{x_i W^Q (x_j W^K + a_{ij}^K)^T}{\sqrt{d_z}} eij=dzxiWQ(xjWK+aijK)T
我们可以将其展开为两部分:
e i j = ( x i W Q ) ( x j W K ) T + ( x i W Q ) ( a i j K ) T d z e_{ij} = \frac{(x_i W^Q)(x_j W^K)^T + (x_i W^Q)(a_{ij}^K)^T}{\sqrt{d_z}} eij=dz(xiWQ)(xjWK)T+(xiWQ)(aijK)T
- 第一部分:( ( x i W Q ) ( x j W K ) T (x_i W^Q)(x_j W^K)^T (xiWQ)(xjWK)T ) 是原始的内容相似性。
- 第二部分:( ( x i W Q ) ( a i j K ) T (x_i W^Q)(a_{ij}^K)^T (xiWQ)(aijK)T ) 引入了相对位置的信息,其中 ( a i j K = w clip ( j − i , k ) K a_{ij}^K = w_{\text{clip}(j - i, k)}^K aijK=wclip(j−i,k)K ) 是与相对距离 ( j − i j - i j−i ) 对应的可学习向量。
2.2 为什么加法有效?
将 ( a i j K a_{ij}^K aijK ) 加到 ( x j W K x_j W^K xjWK ) 上,看似简单,但实际上是将相对位置信息融入到注意力计算中,影响了 ( x i x_i xi ) 和 ( x j x_j xj ) 的匹配程度。具体来说:
- 位置偏置的作用:( a i j K a_{ij}^K aijK ) 是一个与相对距离绑定的向量,它通过点积 ( ( x i W Q ) ( a i j K ) T (x_i W^Q)(a_{ij}^K)^T (xiWQ)(aijK)T ) 为注意力分数增加了一个“偏置”(bias)。这个偏置取决于 ( j − i j - i j−i ),使得模型在计算注意力权重时能够区分不同的相对位置。
- 语义解释:你可以将 ( x j W K + a i j K x_j W^K + a_{ij}^K xjWK+aijK ) 看作是对键 ( x j W K x_j W^K xjWK) 的增强表示,不仅包含了 ( x j x_j xj ) 的内容信息,还包含了它相对于 ( x i x_i xi ) 的位置信息。这样,注意力机制不再是纯粹基于内容的,而是同时考虑内容和相对位置。
例如:
- 如果 ( j − i = 1 j - i = 1 j−i=1 ),则 ( a i j K = w 1 K a_{ij}^K = w_1^K aijK=w1K ),模型会为这种“相邻后一个位置”的关系分配特定的偏置。
- 如果 ( j − i = − 2 j - i = -2 j−i=−2 ),则 ( a i j K = w − 2 K a_{ij}^K = w_{-2}^K aijK=w−2K ),模型会为“前两个位置”的关系分配另一个偏置。
2.3 加法设计的合理性
为什么选择加法而不是其他操作(如拼接、乘法或更复杂的变换)?有以下几个原因:
- 计算效率:加法是一个简单的线性操作,易于并行化,且不会显著增加计算开销。论文中提到,这种设计允许通过张量重塑高效实现(见博客中的“高效实现”部分)。
- 表达能力:尽管是简单的加法,( a i j K a_{ij}^K aijK ) 是可学习的向量,能够通过训练捕捉到与相对距离相关的复杂模式。点积 ( ( x i W Q ) ( a i j K ) T (x_i W^Q)(a_{ij}^K)^T (xiWQ)(aijK)T ) 进一步将查询的语义与位置信息结合,提供了足够的表达能力。
- 与原始设计的兼容性:加法保持了缩放点积注意力(scaled dot-product attention)的结构,只是在键的表示上增加了一个偏移,易于融入现有Transformer框架。
2.4 举例说明
假设序列为 ( [ x 1 , x 2 , x 3 ] [x_1, x_2, x_3] [x1,x2,x3] ),我们计算 ( x 1 x_1 x1 ) 的注意力分数,( k = 2 k = 2 k=2 ),维度 ( d z = 64 d_z = 64 dz=64)。对于 ( x 1 x_1 x1 )(查询)与 ( x 2 x_2 x2 ) 和 ( x 3 x_3 x3 )(键)的兼容性:
-
对于 ( x 2 x_2 x2 ):
- 相对位置:( j − i = 2 − 1 = 1 j - i = 2 - 1 = 1 j−i=2−1=1 )。
- ( a 12 K = w 1 K a_{12}^K = w_1^K a12K=w1K ),一个 64 维向量。
- 兼容性分数:
e 12 = ( x 1 W Q ) ( x 2 W K + w 1 K ) T 64 e_{12} = \frac{(x_1 W^Q)(x_2 W^K + w_1^K)^T}{\sqrt{64}} e12=64(x1WQ)(x2WK+w1K)T - 这里,( w 1 K w_1^K w1K ) 使得 ( x 2 x_2 x2 ) 的键表示偏向于“后一个位置”的特性。
-
对于 ( x 3 x_3 x3 ):
- 相对位置:( j − i = 3 − 1 = 2 j - i = 3 - 1 = 2 j−i=3−1=2 )。
- ( a 13 K = w 2 K a_{13}^K = w_2^K a13K=w2K )。
- 兼容性分数:
e 13 = ( x 1 W Q ) ( x 3 W K + w 2 K ) T 64 e_{13} = \frac{(x_1 W^Q)(x_3 W^K + w_2^K)^T}{\sqrt{64}} e13=64(x1WQ)(x3WK+w2K)T - ( w 2 K w_2^K w2K ) 偏向于“后两个或更多位置”的特性。
通过训练,( w 1 K w_1^K w1K ) 和 ( w 2 K w_2^K w2K ) 学会了如何调整注意力分数,使得模型更倾向于关注某些相对位置(例如,靠近的单词可能有更高的权重)。
2.5 可能的疑问:加法是否足够强大?
你可能会觉得直接加一个向量过于简单,能否捕捉复杂的相对位置关系?答案是肯定的,因为:
- 可学习性:( w l K w_l^K wlK ) 是通过反向传播优化的,能够捕捉任务相关的模式。例如,在翻译任务中,模型可能学会让 ( w 1 K w_1^K w1K ) 增强短距离依赖(如主语和谓语)。
- 多头注意力:Transformer使用多个注意力头,每个头可以学习不同类型的相对位置偏好,进一步增强了表达能力。
- 多层传播:多层Transformer可以将低层的相对位置信息逐步整合到高层表示中,捕捉更复杂的结构。
论文的消融实验也支持这一点:仅使用 ( a i j K a_{ij}^K aijK )(兼容性函数中的相对位置)就足以达到与完整模型相当的性能,证明了这种设计的有效性。
总结
-
关于 ( 2 k + 1 2k + 1 2k+1) 个表示:
- 模型只需要学习 ( 2 k + 1 2k + 1 2k+1 ) 个相对位置表示,因为相对位置是基于裁剪后的距离 ( j − i j - i j−i ),范围从 ( − k -k −k) 到 ( k k k ),共 ( 2 k + 1 2k + 1 2k+1 ) 个值。
- 这不是两两组合,而是将相同的相对距离(例如,所有 ( j − i = 1 j - i = 1 j−i=1 ) 的情况)共享同一个表示,从而大幅减少参数量。
-
关于加法表示相对距离:
- 在兼容性函数中将 ( a i j K a_{ij}^K aijK ) 加到 ( x j W K x_j W^K xjWK ) 上,通过可学习的向量为注意力分数引入了与相对距离相关的偏置。
- 这种加法设计简单高效,结合点积和多头注意力,足以捕捉复杂的相对位置关系,同时保持与原始Transformer的兼容性。
代码实现
下面将提供一个基于 PyTorch 的相对位置编码(Relative Position Representations)的实现,并将其集成到一个简化的 Transformer 模型中。这个实现参考了 Shaw 等人的论文《Self-Attention with Relative Position Representations》(2018),并确保代码可运行。会包括模型定义、相对位置编码的实现,以及一个简单的训练脚本,用于在 toy 数据集上进行序列到序列的翻译任务(如英语到法语的简单映射)。
实现概览
- 模型:我们将实现一个小型 Transformer 模型(编码器-解码器结构),并在自注意力机制中加入相对位置编码。
- 相对位置编码:根据论文,相对位置编码通过在键(Key)和值(Value)中添加可学习的相对位置向量 ( a i j K a_{ij}^K aijK ) 和 ( a i j V a_{ij}^V aijV ) 来实现。我们会实现裁剪距离 ( k k k ) 和高效的计算方式。
- 训练任务:为了让代码可运行,我们构造一个简单的序列到序列任务(toy 翻译数据集),并提供完整的训练和推理代码。
- 环境要求:
- Python 3.8+
- PyTorch 2.0+
- NumPy
- 硬件:CPU 或 GPU(代码会自动检测)
代码实现
以下是完整的代码,分为几个部分:模型定义、相对位置编码、数据集准备、训练和推理。
import torch
import torch.nn as nn
import torch.optim as optim
import math
import numpy as np
from torch.nn import TransformerEncoder, TransformerDecoder
from torch.nn import TransformerEncoderLayer, TransformerDecoderLayer
# -----------------------------
# 1. 相对位置编码实现
# -----------------------------
class RelativePosition(nn.Module):
def __init__(self, max_relative_pos, d_model, num_heads):
"""
相对位置编码模块
:param max_relative_pos: 最大相对位置距离 k
:param d_model: 模型维度
:param num_heads: 注意力头数
"""
super(RelativePosition, self).__init__()
self.max_relative_pos = max_relative_pos
self.d_model = d_model
self.num_heads = num_heads
self.d_head = d_model // num_heads
# 可学习的相对位置表示:w_{-k}^K 到 w_k^K 和 w_{-k}^V 到 w_k^V
# 共 2k+1 个表示,每个表示维度为 d_model
self.relative_k = nn.Parameter(
torch.randn(2 * max_relative_pos + 1, d_model)
) # a_{ij}^K
self.relative_v = nn.Parameter(
torch.randn(2 * max_relative_pos + 1, d_model)
) # a_{ij}^V
def forward(self, seq_len, device):
"""
计算相对位置的键和值表示
:param seq_len: 序列长度
:param device: 计算设备
:return: relative_k, relative_v [seq_len, seq_len, d_model]
"""
# 生成相对位置矩阵:range(-seq_len+1, seq_len)
range_vec = torch.arange(seq_len, device=device)
range_mat = range_vec[None, :] - range_vec[:, None] # [seq_len, seq_len]
# 裁剪到 [-max_relative_pos, max_relative_pos]
clipped_pos = torch.clamp(range_mat, -self.max_relative_pos, self.max_relative_pos)
# 将裁剪后的位置映射到 [0, 2k](因为 relative_k/v 的索引从 0 开始)
indices = clipped_pos + self.max_relative_pos # [seq_len, seq_len]
# 获取相对位置的键和值表示
relative_k = self.relative_k[indices] # [seq_len, seq_len, d_model]
relative_v = self.relative_v[indices] # [seq_len, seq_len, d_model]
# Reshape 为多头形式
relative_k = relative_k.view(seq_len, seq_len, self.num_heads, self.d_head)
relative_k = relative_k.permute(2, 0, 1, 3) # [num_heads, seq_len, seq_len, d_head]
relative_v = relative_v.view(seq_len, seq_len, self.num_heads, self.d_head)
relative_v = relative_v.permute(2, 0, 1, 3) # [num_heads, seq_len, seq_len, d_head]
return relative_k, relative_v
# -----------------------------
# 2. 带相对位置编码的自注意力层
# -----------------------------
class RelativeMultiHeadAttention(nn.Module):
def __init__(self, d_model, num_heads, max_relative_pos, dropout=0.1):
super(RelativeMultiHeadAttention, self).__init__()
assert d_model % num_heads == 0
self.d_model = d_model
self.num_heads = num_heads
self.d_head = d_model // num_heads
self.query = nn.Linear(d_model, d_model)
self.key = nn.Linear(d_model, d_model)
self.value = nn.Linear(d_model, d_model)
self.out = nn.Linear(d_model, d_model)
self.relative_pos = RelativePosition(max_relative_pos, d_model, num_heads)
self.dropout = nn.Dropout(dropout)
self.scale = math.sqrt(self.d_head)
def forward(self, x, mask=None):
"""
:param x: 输入张量 [batch_size, seq_len, d_model]
:param mask: 注意力掩码 [batch_size, 1, seq_len, seq_len]
:return: 输出张量 [batch_size, seq_len, d_model]
"""
batch_size, seq_len, d_model = x.size()
device = x.device
# 线性变换
q = self.query(x) # [batch_size, seq_len, d_model]
k = self.key(x) # [batch_size, seq_len, d_model]
v = self.value(x) # [batch_size, seq_len, d_model]
# 转换为多头形式
q = q.view(batch_size, seq_len, self.num_heads, self.d_head).transpose(1, 2)
k = k.view(batch_size, seq_len, self.num_heads, self.d_head).transpose(1, 2)
v = v.view(batch_size, seq_len, self.num_heads, self.d_head).transpose(1, 2)
# [batch_size, num_heads, seq_len, d_head]
# 获取相对位置表示
relative_k, relative_v = self.relative_pos(seq_len, device)
# relative_k/v: [num_heads, seq_len, seq_len, d_head]
# 计算注意力分数
# e_{ij} = (q_i * (k_j + a_{ij}^K)^T) / sqrt(d_head)
content_score = torch.matmul(q, k.transpose(-2, -1)) # [batch_size, num_heads, seq_len, seq_len]
position_score = torch.matmul(
q.unsqueeze(-2), relative_k.transpose(-2, -1)
).squeeze(-2) # [batch_size, num_heads, seq_len, seq_len]
scores = (content_score + position_score) / self.scale
# 应用掩码
if mask is not None:
scores = scores.masked_fill(mask == 0, -1e9)
# Softmax 得到注意力权重
attn = torch.softmax(scores, dim=-1)
attn = self.dropout(attn)
# 计算输出
# z_i = sum_j alpha_{ij} (v_j + a_{ij}^V)
content_out = torch.matmul(attn, v) # [batch_size, num_heads, seq_len, d_head]
position_out = torch.matmul(
attn.unsqueeze(-2), relative_v
).squeeze(-2) # [batch_size, num_heads, seq_len, d_head]
context = content_out + position_out
# 合并多头
context = context.transpose(1, 2).contiguous().view(batch_size, seq_len, d_model)
output = self.out(context)
return output
# -----------------------------
# 3. Transformer 模型定义
# -----------------------------
class TransformerWithRelativePos(nn.Module):
def __init__(self, src_vocab_size, tgt_vocab_size, d_model=256, num_heads=8, num_layers=3, max_relative_pos=16, dropout=0.1):
super(TransformerWithRelativePos, self).__init__()
self.d_model = d_model
# 词嵌入
self.src_embedding = nn.Embedding(src_vocab_size, d_model)
self.tgt_embedding = nn.Embedding(tgt_vocab_size, d_model)
# 位置编码(这里仅为兼容性保留,实际依赖相对位置编码)
self.positional_encoding = nn.Parameter(
torch.zeros(1, 5000, d_model), requires_grad=True
)
# 编码器层
encoder_layer = nn.ModuleList([
nn.ModuleDict({
'self_attn': RelativeMultiHeadAttention(d_model, num_heads, max_relative_pos, dropout),
'feed_forward': nn.Sequential(
nn.Linear(d_model, d_model * 4),
nn.ReLU(),
nn.Linear(d_model * 4, d_model),
nn.Dropout(dropout)
),
'norm1': nn.LayerNorm(d_model),
'norm2': nn.LayerNorm(d_model)
}) for _ in range(num_layers)
])
# 解码器层
decoder_layer = nn.ModuleList([
nn.ModuleDict({
'self_attn': RelativeMultiHeadAttention(d_model, num_heads, max_relative_pos, dropout),
'enc_dec_attn': nn.MultiheadAttention(d_model, num_heads, dropout=dropout),
'feed_forward': nn.Sequential(
nn.Linear(d_model, d_model * 4),
nn.ReLU(),
nn.Linear(d_model * 4, d_model),
nn.Dropout(dropout)
),
'norm1': nn.LayerNorm(d_model),
'norm2': nn.LayerNorm(d_model),
'norm3': nn.LayerNorm(d_model)
}) for _ in range(num_layers)
])
self.encoder = encoder_layer
self.decoder = decoder_layer
self.out = nn.Linear(d_model, tgt_vocab_size)
# 初始化权重
for p in self.parameters():
if p.dim() > 1:
nn.init.xavier_uniform_(p)
def forward(self, src, tgt, src_mask=None, tgt_mask=None):
"""
:param src: 源序列 [batch_size, src_len]
:param tgt: 目标序列 [batch_size, tgt_len]
:param src_mask: 源序列掩码 [batch_size, 1, src_len]
:param tgt_mask: 目标序列掩码 [batch_size, tgt_len, tgt_len]
:return: 输出概率 [batch_size, tgt_len, tgt_vocab_size]
"""
# 嵌入和位置编码
src_embed = self.src_embedding(src) * math.sqrt(self.d_model)
src_embed = src_embed + self.positional_encoding[:, :src.size(1), :]
tgt_embed = self.tgt_embedding(tgt) * math.sqrt(self.d_model)
tgt_embed = tgt_embed + self.positional_encoding[:, :tgt.size(1), :]
# 编码器
memory = src_embed
for layer in self.encoder:
residual = memory
memory = layer['self_attn'](memory, src_mask)
memory = layer['norm1'](memory + residual)
residual = memory
memory = layer['feed_forward'](memory)
memory = layer['norm2'](memory + residual)
# 解码器
output = tgt_embed
for layer in self.decoder:
residual = output
output = layer['self_attn'](output, tgt_mask)
output = layer['norm1'](output + residual)
residual = output
output, _ = layer['enc_dec_attn'](output, memory, memory)
output = layer['norm2'](output + residual)
residual = output
output = layer['feed_forward'](output)
output = layer['norm3'](output + residual)
# 输出层
output = self.out(output)
return output
# -----------------------------
# 4. 数据准备
# -----------------------------
def generate_toy_data(num_samples, vocab_size=20, max_len=10):
"""
生成简单的 toy 翻译数据集
:return: src_data, tgt_data, src_vocab, tgt_vocab
"""
src_data = []
tgt_data = []
src_vocab = {
'<pad>': 0, '<sos>': 1, '<eos>': 2}
tgt_vocab = {
'<pad>': 0, '<sos>': 1, '<eos>': 2}
for i in range(3, vocab_size):
src_vocab[f'w{
i}'] = i
tgt_vocab[f'w{
i}'] = i
for _ in range(num_samples):
len_s = np.random.randint(5, max_len + 1)
len_t = len_s # 简单假设源和目标长度相同
src_seq = [1] + [np.random.randint(3, vocab_size) for _ in range(len_s - 2)] + [2]
# 目标序列是源序列的“偏移”版本(模拟翻译)
tgt_seq = [1] + [min(v + 1, vocab_size - 1) for v in src_seq[1:-1]] + [2]
src_data.append(src_seq)
tgt_data.append(tgt_seq)
return src_data, tgt_data, src_vocab, tgt_vocab
def pad_sequences(sequences, max_len):
padded = []
for seq in sequences:
seq = seq[:max_len]
padded.append(seq + [0] * (max_len - len(seq)))
return torch.tensor(padded, dtype=torch.long)
# -----------------------------
# 5. 训练和推理
# -----------------------------
def train(model, src_data, tgt_data, src_vocab, tgt_vocab, epochs=10, batch_size=32, device='cuda' if torch.cuda.is_available() else 'cpu'):
model = model.to(device)
optimizer = optim.Adam(model.parameters(), lr=0.001)
criterion = nn.CrossEntropyLoss(ignore_index=0)
max_len = max(max(len(s) for s in src_data), max(len(t) for t in tgt_data))
for epoch in range(epochs):
model.train()
total_loss = 0
indices = np.random.permutation(len(src_data))
for i in range(0, len(src_data), batch_size):
batch_indices = indices[i:i + batch_size]
src_batch = pad_sequences([src_data[idx] for idx in batch_indices], max_len).to(device)
tgt_batch = pad_sequences([tgt_data[idx] for idx in batch_indices], max_len).to(device)
# 创建目标输入和标签
tgt_input = tgt_batch[:, :-1]
tgt_output = tgt_batch[:, 1:]
# 创建掩码
src_mask = (src_batch != 0).unsqueeze(1).unsqueeze(2).to(device)
tgt_mask = torch.tril(torch.ones(tgt_input.size(1), tgt_input.size(1), device=device)).bool()
optimizer.zero_grad()
output = model(src_batch, tgt_input, src_mask, tgt_mask)
loss = criterion(output.view(-1, len(tgt_vocab)), tgt_output.reshape(-1))
loss.backward()
optimizer.step()
total_loss += loss.item()
print(f'Epoch {
epoch + 1}, Loss: {
total_loss / (len(src_data) // batch_size):.4f}')
def translate(model, src_seq, src_vocab, tgt_vocab, max_len=20, device='cuda' if torch.cuda.is_available() else 'cpu'):
model.eval()
src = torch.tensor([src_seq], dtype=torch.long).to(device)
src_mask = (src != 0).unsqueeze(1).unsqueeze(2)
memory = model.src_embedding(src) * math.sqrt(model.d_model)
memory = memory + model.positional_encoding[:, :src.size(1), :]
for layer in model.encoder:
residual = memory
memory = layer['self_attn'](memory, src_mask)
memory = layer['norm1'](memory + residual)
residual = memory
memory = layer['feed_forward'](memory)
memory = layer['norm2'](memory + residual)
tgt = torch.tensor([[tgt_vocab['<sos>']]], dtype=torch.long).to(device)
for _ in range(max_len):
tgt_mask = torch.tril(torch.ones(tgt.size(1), tgt.size(1), device=device)).bool()
output = model.tgt_embedding(tgt) * math.sqrt(model.d_model)
output = output + model.positional_encoding[:, :tgt.size(1), :]
for layer in model.decoder:
residual = output
output = layer['self_attn'](output, tgt_mask)
output = layer['norm1'](output + residual)
residual = output
output, _ = layer['enc_dec_attn'](output, memory, memory)
output = layer['norm2'](output + residual)
residual = output
output = layer['feed_forward'](output)
output = layer['norm3'](output + residual)
output = model.out(output)
next_token = output[:, -1, :].argmax(-1).item()
tgt = torch.cat([tgt, torch.tensor([[next_token]], device=device)], dim=1)
if next_token == tgt_vocab['<eos>']:
break
return tgt[0].cpu().numpy()
# -----------------------------
# 6. 主程序
# -----------------------------
if __name__ == '__main__':
# 设置随机种子
torch.manual_seed(42)
np.random.seed(42)
# 生成 toy 数据
src_data, tgt_data, src_vocab, tgt_vocab = generate_toy_data(num_samples=1000, vocab_size=20, max_len=10)
# 初始化模型
model = TransformerWithRelativePos(
src_vocab_size=len(src_vocab),
tgt_vocab_size=len(tgt_vocab),
d_model=256,
num_heads=8,
num_layers=3,
max_relative_pos=16,
dropout=0.1
)
# 训练模型
device = 'cuda' if torch.cuda.is_available() else 'cpu'
train(model, src_data, tgt_data, src_vocab, tgt_vocab, epochs=20, batch_size=32, device=device)
# 测试翻译
test_seq = src_data[0]
print(f"Source sequence: {
test_seq}")
translated = translate(model, test_seq, src_vocab, tgt_vocab, max_len=20, device=device)
print(f"Translated sequence: {
translated}")
代码说明
-
相对位置编码(
RelativePosition
):- 实现了论文中的 ( a i j K a_{ij}^K aijK ) 和 ( a i j V a_{ij}^V aijV ),分别为每个相对位置差(从 ( − k -k −k) 到 ( k k k ),共 ( 2 k + 1 2k+1 2k+1 ) 个)学习一个可训练向量。
- 使用
torch.clamp
裁剪相对位置到 ( [ − k , k ] [-k, k] [−k,k]),并映射到参数索引。 - 输出多头形式的 ( a i j K a_{ij}^K aijK) 和 ( a i j V a_{ij}^V aijV ),形状为
[num_heads, seq_len, seq_len, d_head]
。
-
带相对位置的自注意力(
RelativeMultiHeadAttention
):- 修改了标准多头注意力,加入相对位置表示:
- 注意力分数:( e i j = ( q i ⋅ ( k j + a i j K ) T ) / d k e_{ij} = (q_i \cdot (k_j + a_{ij}^K)^T) / \sqrt{d_k} eij=(qi⋅(kj+aijK)T)/dk )
- 输出:( z i = ∑ j α i j ( v j + a i j V ) z_i = \sum_j \alpha_{ij} (v_j + a_{ij}^V) zi=∑jαij(vj+aijV) )
- 使用矩阵运算高效实现,避免显式循环。
- 支持掩码(mask),兼容编码器和解码器的需求。
- 修改了标准多头注意力,加入相对位置表示:
-
Transformer 模型(
TransformerWithRelativePos
):- 包含编码器和解码器,每层使用自定义的
RelativeMultiHeadAttention
。 - 编码器:仅自注意力。
- 解码器:自注意力 + 编码器-解码器注意力(后者使用标准多头注意力以简化实现)。
- 保留了绝对位置编码(可移除以完全依赖相对位置编码),以兼容原始 Transformer 结构。
- 使用残差连接和层归一化。
- 包含编码器和解码器,每层使用自定义的
-
数据准备(
generate_toy_data
):- 生成一个简单的 toy 翻译数据集,词汇表大小为 20,序列长度随机(5 到 10)。
- 目标序列是源序列的“偏移”版本(每个词的索引加 1),模拟简单的翻译规则。
- 使用
<pad>
,<sos>
,<eos>
等特殊标记。
-
训练(
train
):- 使用 Adam 优化器和交叉熵损失(忽略
<pad>
标记)。 - 实现 batch 处理和序列填充。
- 创建解码器自注意力的三角掩码(tril mask)以防止未来信息泄露。
- 每 epoch 输出平均损失。
- 使用 Adam 优化器和交叉熵损失(忽略
-
推理(
translate
):- 实现贪婪解码(每次选择概率最高的词)。
- 支持最大长度限制,遇到
<eos>
停止。
运行说明
-
环境准备:
pip install torch numpy
-
运行代码:
- 直接复制以上代码到
transformer_relative_pos.py
文件。 - 执行:
python transformer_relative_pos.py
- 代码会生成 toy 数据集,训练 20 个 epoch,并在最后对第一个源序列进行翻译。
- 直接复制以上代码到
-
预期输出:
- 训练过程中会打印每 epoch 的平均损失,例如:
Epoch 1, Loss: 2.3456 Epoch 2, Loss: 1.9876 ...
- 推理输出示例(具体数值因随机性而异):
这里,翻译结果将源序列的每个词索引加 1,符合 toy 数据集的规则。Source sequence: [1, 4, 5, 6, 2] Translated sequence: [1, 5, 6, 7, 2]
- 训练过程中会打印每 epoch 的平均损失,例如:
扩展建议
-
真实数据集:
- 当前使用 toy 数据集以确保可运行。你可以替换为真实数据集,如 WMT 2014 英德翻译数据集:
- 下载数据:
pip install datasets
并使用datasets.load_dataset('wmt14', 'de-en')
。 - 预处理:分词、构建词汇表、转换为索引。
- 修改
generate_toy_data
为真实数据加载逻辑。
- 下载数据:
- 当前使用 toy 数据集以确保可运行。你可以替换为真实数据集,如 WMT 2014 英德翻译数据集:
-
去掉绝对位置编码:
- 当前模型保留了绝对位置编码(
positional_encoding
)。若想完全依赖相对位置编码,可注释掉以下行:
论文实验表明,相对位置编码单独使用已足够有效。src_embed = src_embed + self.positional_encoding[:, :src.size(1), :] tgt_embed = tgt_embed + self.positional_encoding[:, :tgt.size(1), :]
- 当前模型保留了绝对位置编码(
-
性能优化:
- 当前实现为教学目的,计算效率稍低(如
position_score
的矩阵操作)。可参考 Transformer-XL 或 T5 的实现,优化相对位置的索引和广播。 - 增加 batch 并行化,使用
DataLoader
提高数据加载效率。
- 当前实现为教学目的,计算效率稍低(如
-
评估:
- 添加 BLEU 分数计算(
pip install sacrebleu
)以评估翻译质量。 - 保存和加载模型检查点以支持断点续训。
- 添加 BLEU 分数计算(
注意事项
- 模型规模:当前模型较小(
d_model=256
,num_layers=3
),适合 toy 数据集。对于真实任务,建议增加d_model
(如 512 或 1024)和层数(6 或更多)。 - 超参数:
max_relative_pos=16
基于论文实验(( k = 16 k=16 k=16 ))。可根据任务调整,例如长序列任务可增大 ( k k k )。 - 随机性:设置了随机种子以确保可复现,但 toy 数据简单,可能无法完全展示相对位置编码的优势。
后记
2025年4月11日于上海,在grok 3大模型辅助下完成。