2 CRF Layer (Emission and Transition Score) | CRF层（发射和过渡分数）

回顾

在上一节中，我们知道CRF层可以从训练数据集中学习一些约束，以确保最终的预测实体标签序列有效。

约束可能是：

句子中第一个单词的标签应以“ B-”或“ O”开头，而不是“ I-”
在此模式下，“ B-label1 I-label2 I-label3 I-…”应与label1，label2，label3…是相同的命名实体标签。例如，“ B-Person I-Person”有效，但“ B-Person I-Organization”无效。
“ O I-label”无效。一个命名实体的第一个标签应以“ B-”而不是“ I-”开头，换句话说，有效模式应为“ OB标签”。也就是说，O后面不能跟I。
其他有可能的

阅读本文之后，您将知道为什么CRF层可以学习这些限制。

2. CRF层

在CRF层的损失函数中，我们有两种计分类型。这两个分数是CRF层的关键概念。

2.1排放分数

第一个是排放分数。这些发射分数来自BiLSTM层。如图2.1所示，w0的得分w0 标为B-Person的是1.5。
图2.1：排放分数来自BiLSTM层

为方便起见，我们将为每个标签提供一个索引号，如下表所示。

Label	Index
B-Person	0
I-Person	1个
B-Organization	2
I-Organization	3
O	4

我们用xiyjX一世ÿĴ代表排放分数。一世一世是单词和y j的索引ÿĴ是标签的索引。例如，根据图2.1，x i = 1 ，y j = 2 = x w 1，B − O r g a n i z a t i o n = 0.1X一世=1个，ÿĴ=2=Xw1个，乙-Ø[RG一种ñ一世ž一种Ť一世Øñ=0.1这意味着w 1的分数w1个因为B组织为0.1。

2.2转换分数

我们使用牛逼Ÿ 我ÿ ĴŤÿ一世ÿĴ代表过渡分数。例如，t B - P e r s o n ，I - P e r s o n = 0.9Ť乙-PË[RsØñ，一世-PË[RsØñ=0.9表示标签过渡的分数B − P e r s o n → I − P e r s o n乙-PË[RsØñ→一世-PË[RsØñ是0.9。因此，我们有一个过渡得分矩阵，用于存储所有标签之间的所有得分。

为了使过渡得分矩阵更可靠，我们将添加两个标签START和END。START表示句子的开头，而不是第一个单词。END表示句子的结尾。

这是过渡矩阵得分的示例，其中包括额外添加的START和END标签。

	开始	B人	人	B组织	互联网组织	Ø	结束
开始	0	0.8	0.007	0.7	0.0008	0.9	0.08
B人	0	0.6	0.9	0.2	0.0006	0.6	0.009
人	-1	0.5	0.53	0.55	0.0003	0.85	0.008
B组织	0.9	0.5	0.0003	0.25	0.8	0.77	0.006
互联网组织	-0.9	0.45	0.007	0.7	0.65	0.76	0.2
Ø	0	0.65	0.0007	0.7	0.0008	0.9	0.08
结束	0	0	0	0	0	0	0

如上表所示，我们可以发现转换矩阵已经了解了一些有用的约束。

句子中第一个单词的标签应以“ B-”或“ O”开头，而不是以“ I-”开头（从“ START”到“ I-Person或I-Organization”的转换得分非常低。）
在此模式下，“ B-label1 I-label2 I-label3 I-…”应与label1，label2，label3…是相同的命名实体标签。例如，“ B-Person I-Person”有效，但“ B-Person I-Organization”无效。（例如，从“ B-组织”到“ I-人”的得分仅为0.0003，远低于其他得分。）
“ O I-label”无效。一个命名实体的第一个标签应以“ B-”开头，而不是以“ I-”开头，换句话说，有效模式应为“ OB标签” （例如，得分t O ，I - P e [R 小号Ø ñŤØ，一世-PË[RsØñ 非常小。）
…

您可能要问一个关于矩阵的问题。在哪里或如何获得转换矩阵？

实际上，该基质是BiLSTM-CRF模型的参数。在训练模型之前，您可以随机初始化矩阵中的所有转换得分。在训练过程中，所有随机分数将自动更新。换句话说，CRF层可以自己学习那些约束。我们不需要手动构建矩阵。随着训练迭代次数的增加，分数将越来越合理。

下一个

2.3 CRF损失函数

引入CRF损失函数，该函数由实际路径得分和所有可能路径的总得分组成。

2.4真实路径得分

如何计算句子的真实标签的分数。

2.5所有可能路径的分数

如何通过分步玩具示例计算句子所有可能路径的总分。

参考文献

[1] Lample，G.，M。Ballesteros，M。Subramanian，K.Kawakami和C.Dyer，2016年。命名实体识别的神经架构。arXiv预印本arXiv：1603.01360。
https://arxiv.org/abs/1603.01360