回顾
在上一节中,我们知道CRF层可以从训练数据集中学习一些约束,以确保最终的预测实体标签序列有效。
约束可能是:
- 句子中第一个单词的标签应以“ B-”或“ O”开头,而不是“ I-”
- 在此模式下,“ B-label1 I-label2 I-label3 I-…”应与label1,label2,label3…是相同的命名实体标签。例如,“ B-Person I-Person”有效,但“ B-Person I-Organization”无效。
- “ O I-label”无效。一个命名实体的第一个标签应以“ B-”而不是“ I-”开头,换句话说,有效模式应为“ OB标签”。也就是说,O后面不能跟I。
- 其他有可能的
2. CRF层
在CRF层的损失函数中,我们有两种计分类型。这两个分数是CRF层的关键概念。
2.1排放分数
第一个是排放分数。这些发射分数来自BiLSTM层。如图2.1所示,w0的得分w0 标为B-Person的是1.5。
为方便起见,我们将为每个标签提供一个索引号,如下表所示。
Label | Index |
---|---|
B-Person | 0 |
I-Person | 1个 |
B-Organization | 2 |
I-Organization | 3 |
O | 4 |
我们用xiyjX一世ÿĴ代表排放分数。一世一世是单词和y j的索引ÿĴ是标签的索引。例如,根据图2.1,x i = 1 ,y j = 2 = x w 1,B − O r g a n i z a t i o n = 0.1X一世=1个,ÿĴ=2=Xw1个,乙-Ø[RG一种ñ一世ž一种Ť一世Øñ=0.1这意味着w 1的分数w1个 因为B组织为0.1。
2.2转换分数
我们使用牛逼Ÿ 我ÿ ĴŤÿ一世ÿĴ代表过渡分数。例如,t B - P e r s o n ,I - P e r s o n = 0.9Ť乙-PË[RsØñ,一世-PË[RsØñ=0.9表示标签过渡的分数B − P e r s o n → I − P e r s o n乙-PË[RsØñ→一世-PË[RsØñ是0.9。因此,我们有一个过渡得分矩阵,用于存储所有标签之间的所有得分。
为了使过渡得分矩阵更可靠,我们将添加两个标签START和END。START表示句子的开头,而不是第一个单词。END表示句子的结尾。
这是过渡矩阵得分的示例,其中包括额外添加的START和END标签。
开始 | B人 | 人 | B组织 | 互联网组织 | Ø | 结束 | |
---|---|---|---|---|---|---|---|
开始 | 0 | 0.8 | 0.007 | 0.7 | 0.0008 | 0.9 | 0.08 |
B人 | 0 | 0.6 | 0.9 | 0.2 | 0.0006 | 0.6 | 0.009 |
人 | -1 | 0.5 | 0.53 | 0.55 | 0.0003 | 0.85 | 0.008 |
B组织 | 0.9 | 0.5 | 0.0003 | 0.25 | 0.8 | 0.77 | 0.006 |
互联网组织 | -0.9 | 0.45 | 0.007 | 0.7 | 0.65 | 0.76 | 0.2 |
Ø | 0 | 0.65 | 0.0007 | 0.7 | 0.0008 | 0.9 | 0.08 |
结束 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
如上表所示,我们可以发现转换矩阵已经了解了一些有用的约束。
- 句子中第一个单词的标签应以“ B-”或“ O”开头,而不是以“ I-”开头(从“ START”到“ I-Person或I-Organization”的转换得分非常低。)
- 在此模式下,“ B-label1 I-label2 I-label3 I-…”应与label1,label2,label3…是相同的命名实体标签。例如,“ B-Person I-Person”有效,但“ B-Person I-Organization”无效。(例如,从“ B-组织”到“ I-人”的得分仅为0.0003,远低于其他得分。)
- “ O I-label”无效。一个命名实体的第一个标签应以“ B-”开头,而不是以“ I-”开头,换句话说,有效模式应为“ OB标签” (例如,得分t O ,I - P e [R 小号Ø ñŤØ,一世-PË[RsØñ 非常小。)
- …
您可能要问一个关于矩阵的问题。在哪里或如何获得转换矩阵?
实际上,该基质是BiLSTM-CRF模型的参数。在训练模型之前,您可以随机初始化矩阵中的所有转换得分。在训练过程中,所有随机分数将自动更新。换句话说,CRF层可以自己学习那些约束。我们不需要手动构建矩阵。随着训练迭代次数的增加,分数将越来越合理。
下一个
2.3 CRF损失函数
引入CRF损失函数,该函数由实际路径得分和所有可能路径的总得分组成。
2.4真实路径得分
如何计算句子的真实标签的分数。
2.5所有可能路径的分数
如何通过分步玩具示例计算句子所有可能路径的总分。
参考文献
[1] Lample,G.,M。Ballesteros,M。Subramanian,K.Kawakami和C.Dyer,2016年。命名实体识别的神经架构。arXiv预印本arXiv:1603.01360。
https://arxiv.org/abs/1603.01360