文献题目：Is Multi-Hop Reasoning Really Explainable? Towards Benchmarking Reasoning Interpretability
文献时间：2021

摘要

近年来，多跳推理得到了广泛的研究，以获得更多可解释的链接预测。然而，我们在实验中发现，这些模型给出的许多路径实际上是不合理的，而对它们的可解释性评估工作却很少。在本文中，我们提出了一个统一的框架来定量评估多跳推理模型的可解释性，以促进它们的发展。具体来说，我们定义了三个指标，包括路径召回、局部可解释性和全局可解释性进行评估，并设计了一种近似策略来使用规则的可解释性分数来计算这些指标。此外，我们手动注释所有可能的规则并建立一个基准来检测多跳推理（BIMR）的可解释性。在实验中，我们验证了我们的基准测试的有效性。此外，我们在基准上运行了 9 个具有代表性的基线，实验结果表明，当前多跳推理模型的可解释性不太令人满意，比我们的基准给出的上限低 51.7%。此外，基于规则的模型在性能和可解释性方面优于多跳推理模型，这为未来的研究指明了方向，即如何更好地将规则信息纳入多跳推理模型。我们的代码和数据集可以从 https://github.com/THU-KEG/BIMR 获得。

引言

近年来，知识图谱（KG）的多跳推理得到了广泛的研究。它不仅可以推断新知识，还可以提供可以解释预测结果并使模型可信的推理路径。例如，图 1 显示了两个推断的三元组及其推理路径。传统的 KG 嵌入模型（例如，TransE (Bordes et al., 2013)）在给定查询（Bob Seger，乐器，？）的情况下隐式找到目标实体钢琴，而多跳推理模型完成三重并明确输出推理路径（紫色实心箭头）。因此，预计多跳推理在实际系统中更可靠，因为我们可以通过证明路径是否合理来安全地将推断的三元组添加到 KG。
图 1：链接预测的推理路径示意图。虽然两条路径都成功找到了正确的尾部实体，但只有上面的路径是合理的，下面的路径是不合理的。
大多数现有的多跳推理模型都认为输出路径是合理的，并且非常重视链路预测的性能。例如，MultiHop (Lin et al, 2018) 使用强化学习来训练智能体搜索知识图谱。智能体找到的路径被认为是对预测结果的合理解释。但是手动标注之后，我们发现超过60%的路径是不合理的。如图 1 的下部所示，给定一个三元组查询（Chuck Connors, manner of death, ?），多跳推理模型通过推理路径（紫色实线箭头）找到正确的尾部实体 Natural Causes 。尽管该模型正确地完成了缺失的三元组，但这种推理路径是有问题的，因为死亡方式与一个人的出生或死亡城市无关。可解释性失败的原因主要是因为许多人在洛杉矶出生和死亡的同一个地方，自然原因是占主导地位的死亡方式。因此，路径仅在统计上与查询三元组相关，无法提供可解释性。在实验中，我们发现这种不合理的路径在多跳推理模型中无处不在，这表明迫切需要进行可解释性评估。
在本文中，我们提出了一个统一的框架来自动评估多跳推理模型的可解释性。与以往的工作主要依靠案例研究（Wan et al, 2020）来展示模型的可解释性不同，我们旨在通过计算模型生成的所有路径的可解释性分数来进行定量评估。具体来说，我们定义了三个指标：路径召回、局部可解释性和评估的全局可解释性（详见第 4.2 节）。然而，给每条路径一个可解释性分数是很耗时的，因为多跳推理可以给出的可能路径的数量非常大。为了解决这个问题，我们提出了一种近似策略，通过忽略仅剩下关系的实体，将推理路径抽象为有限的规则（详见等式 6 和 7）。通过这种方式获得的规则总数远小于路径数，我们将规则的可解释性分数分配给其对应的路径。
我们探索了两种方法给每个规则一个可解释性分数，即手动注释和规则挖掘方法自动生成。前者是本文的重点。具体来说，我们邀请注释者手动注释所有可能规则的可预测性分数，以建立手动注释基准（A-benchmark）。这个标记过程也面临一个挑战，即，可解释性是高度主观的并且难以标注。不同的注释者可能会给出不同的解释。为了减少变化，我们为注释者提供了许多可解释的选项，而不是要求他们给出直接分数。此外，对于每个样本，我们要求十个注释者进行注释，并以他们的平均分数作为最终结果。除了 A-benchmark，我们还提供了基于规则挖掘方法的基准（R-benchmark）（Meilicke et al, 2019）。这些基准使用挖掘规则的置信度作为规则的可解释性分数。这种方法不如手动标注准确，但可以自动推广到大多数 KG。
在实验中，我们验证了我们的基准 BIMR 的有效性。具体来说，我们使用采样注释方法获得每个模型的可解释性，并将其与我们的 A 基准生成的结果进行比较。实验结果表明，它们之间的差距很小，这表明近似策略对结果的影响很小。此外，我们在基准测试中运行了九个具有代表性的基线。实验结果表明，现有多跳推理模型的可解释性不太令人满意，距离我们的 A-benchmark 给出的上限还很远。具体来说，即使是最好的多跳推理模型，其可解释性仍然比上限低 51.7%。这提醒我们，在多跳推理的研究中，我们不仅要关心性能，还要关心可解释性。此外，我们发现基于规则的最佳推理方法 AnyBURL (Meilicke et al, 2019) 在性能和可解释性方面明显优于现有的多跳推理模型，这为我们指明了未来可能的研究方向，即如何更好地将规则合并到多跳推理中。

初期

**知识图（KG）**定义为有向图 $KG = \{E, R, T \}$ ，其中 $E$ 是实体集， $R$ 是关系集， $T = \{(h, r, t)\} ⊆ E × R × E$ 是三元组的集合。
多跳推理旨在通过可解释的链接预测来完成 KG。形式上，给定一个三元组查询 $(h, r, ?)$ ，它不仅需要预测正确的尾部实体 $t$ ，还需要给出一条路径 $h, r, t) ← (h, r_1, e_1)∧(e_1, r_2, e_2) ∧ · · · ∧ (e_{n-1}, r_n, t)$ 作为解释。
基于规则的推理可以被认为是广义的多跳推理，也可以在我们的基准上进行评估。给定一个三元组查询 $(h, r, ?)$ ，它需要预测尾部实体 $t$ 并给出一些有信心的 Horn 规则作为解释，其中规则 $f$ 的形式如下：
其中大写字母表示变量， $r (...)$ 是规则的头部， $r_1(...)$ 的合取，···， $r_n(...)$ 是规则的主体， $r (h, r)$ 等价于三元组 $(h, r, t)$ 。为了得到与多跳推理任务相同的路径，我们按照置信度降序对这些规则进行排序，并在 KG 上进行匹配。

基准

为了定量评估多跳推理模型的可解释性，我们首先构建了一个基于 Wikidata 的数据集（第 4.1 节）。之后，我们提出了一个通用的评估框架（第 4.2 节）。基于此框架，我们应用近似策略（第 4.3 节）并使用手动注释（第 4.4 节）和挖掘规则（第 4.5 节）构建基准。

数据集构建

我们基于 Wikidata (Vrandeciˇ c and Krötzsch´, 2014) 以及广泛使用的 FB15K-237 (Toutanova et al, 2015) 策划了一个可解释的数据集 WD15K。我们的目标是利用 Wikidata 中的阅读友好关系，同时保持 FB15K-237 中的实体不变。我们依靠 Wikidata 中每个实体的 Freebase ID 属性来连接两个来源，我们的数据集 WD15K 的最终统计数据列在表 1 中。我们对其进行洗牌并使用 90%/5%/5% 作为我们的训练/验证/ 测试集。由于篇幅限制，我们将数据集构建的详细步骤放在补充材料中（附录 A）。
表 1：WD15K 的统计数据。三列分别表示实体、关系和三元组的数量。

评估框架

我们提出了一个通用框架，用于定量评估多跳推理模型的可解释性。形式上，测试集中的每个三元组 $(h, r, t)$ 都被转换为一个三元组查询 $(h, r, ?)$ 。该模型需要预测 $t$ 和可能的推理路径。因此，我们计算模型的可解释性分数，该分数基于三个指标定义：路径召回 (PR)、局部可解释性 (LI) 和全局可解释性 (GI)。
Path Recall (PR) 表示测试集中的三元组在头部实体到尾部实体之间至少有一条路径的模型可以找到的比例。它正式定义为
其中 $C n t (h, r, t)$ 是一个指示函数，表示模型是否能找到从 $h$ 到 $t$ 的路径。如果至少可以找到一条路径，则函数值为 1，否则为 0。PR 是必要的，因为对于大多数模型，并非每个三元组都可以找到从头实体到尾实体的路径。对于基于 RL 的多跳推理模型（例如 MINERVA），光束大小beam size是对 PR 有直接影响的关键超参数。光束尺寸越大，模型可以找到的路径就越多。然而，在现实中，它不能设置为无限。也就是说，每个三元组查询的路径数 $（ h ， r ，？）$ 都有一个上限。另一方面，可能没有从 $h$ 到 $t$ 的路径，或者我们可能无法为每个规则匹配 KG 上的真实路径。这导致 $C n t (h, r, t) = 0$ 。
**局部可解释性（LI）**用于评估模型找到的路径的合理性。它被定义为
其中 $p$ 是模型找到的从 $h$ 到 $t$ 的最佳路径（得分最高的路径）， $S (p)$ 是该路径的可解释性得分，将在下一节介绍。
Global Interpretability (GI) 评估模型的整体可解释性，因为 LI 只能表达模型找到的路径的合理程度，而没有考虑可以找到多少条路径。我们将 $G I$ 定义如下：
我们总结并比较了 LI 和 GI。具体来说，LI 可以反映所有可以找到的路径的可解释性，而 GI 则评估模型的整体可解释性。

近似可解释性分数

基于 WD15K 和上述评估框架，我们可以构建基准来定量评估可解释性。然而，由于路径数量巨大，评估框架中的 $S (p)$ 难以获得。因此，在具体构建之前，需要做一些准备工作，即路径收集和逼近策略。
路径集合。这一步旨在收集从 $h$ 到 $t$ 的所有可能路径，以便我们的评估框架可以涵盖多跳推理模型的各种输出。具体来说，我们首先为训练集中的每个三元组 $(h, r, t)$ 添加反向三元组 $t, r^{−1}, h)$ 。然后，对于 WD15K 中的每个测试三元组 $(h, r, t)$ ，我们使用广度优先搜索 (BFS) 在长度为 3 内的训练集上搜索从 $h$ 到 $t$ 的所有路径，即路径中最多存在三个关系，广泛用于多跳推理模型（例如，MultiHop）。因为跳数过多会大大增加搜索空间，降低可解释性。经过去重后，我们得到了最终的路径集 $P$ ，其中包含大约 1600 万条路径，它涵盖了多跳推理模型可能发现的所有路径。
近似优化。我们提出了一种近似策略，以避免在大量路径 $P$ （即 1600 万条）上使用不切实际的符号或计算。根据观察，我们发现路径的可解释性主要来自规则而不是特定实体。因此，我们将每条路径 $p \in P$ 抽象为其对应的规则 $f$ ，并使用规则可解释性得分 $S (f)$ 作为路径可解释性得分 S§，即
形式上，对于路径 $p$
我们将其转换为以下规则 $f$
经过这样的转换，我们将 $P$ 转换为一组规则 $F$ 。由于规则是实体独立的，所以 $F$ 的大小减少到 96,019，我们只需要给每个规则 $f \in F$ 一个可解释的分数 $S (f)$ 来构建基准。
接下来，我们将介绍两种获取规则可解释性分数的方法。

使用手动注释进行基准测试

我们用可解释性分数手动标记 $F$ 中的每个规则，以形成手动注释基准（A-benchmark）。本次benchmark的具体构建过程可以分为剪枝优化和手工标注两步。我们将分别详细介绍这两个部分。
修剪优化。我们提出了一种剪枝策略，以节省注释成本，而不会对最终结果造成很大影响。规则挖掘方法可以自动挖掘知识图谱上的规则，并给每个获得的规则一个置信度分数。我们的剪枝策略是基于这样的假设，即那些不在规则挖掘方法挖掘的规则列表中的规则，或者那些置信度非常低的规则，其可解释性分数要低得多。下面我们展示验证性实验来验证我们的假设。

【知识图谱论文】多跳推理真的可以解释吗？走向基准推理可解释性

摘要

引言

相关工作

多跳推理

基于规则的推理

可解释性评估

初期

基准

数据集构建

评估框架

近似可解释性分数

使用手动注释进行基准测试

猜你喜欢

【知识图谱论文】多跳推理真的可以解释吗？ 走向基准推理可解释性

摘要

引言

相关工作

多跳推理

基于规则的推理

可解释性评估

初期

基准

数据集构建

评估框架

近似可解释性分数

使用手动注释进行基准测试

猜你喜欢

【知识图谱论文】多跳推理真的可以解释吗？走向基准推理可解释性