注意力层:
输入 -> LLQ -> @ -> /√ES -> softmax -> @ -> LLO -> Dropout -> 输出
| ↑ ↑
+---> LLK ---+ |
| |
+---> LLV ----------------------------+
FFN 层:
输入 -> LL1 -> GELU -> Dropout -> LL2 -> 输出
TF 层:
输入 -> LN1 -> 注意力层 -> Dropout1 -> ⊕ -> 中间量
| ↑
+-----------------------------------+
中间量 -> LN2 -> PFF 层 -> Dropout2 -> ⊕ -> Dropout3 -> 输出
| ↑
+-----------------------------------+
Bert编码器:
输入 -> 嵌入层 -> TF 层 x NL -> 输出
Bert 解码器:
输入 -> LL -> softmax -> 输出