「自然语言处理(NLP)论文解读」BAMnet QA【IBM】&& Multi-View Attention QA【北大】

来源:AINLPer微信公众号
编辑: ShuYini
校稿: ShuYini
时间: 2019-8-24

引言

    本次两篇文章都是关于问答(QA)的。其中第一篇主要是提出了一种基于知识库的双向注意力记忆网络(BAMnet),建立问题和知识库之间的关系,从而提高了问答性能。第二篇主要提出多视角注意力机制(Multi-View Attention),并以此链接不同的任务,将任务特定层的重要信息集成到共享层中,使模型能够交互式地学习单词级和知识级表示,从而提高问答性能。

PS:欢迎关注AINLPer微信公众号,论文解读会每日更新,等你来看。

First Blood

TILE: Bidirectional Attentive Memory Networks for Question Answering over Knowledge Bases.
Contributor : 伦斯勒理工学院 && IBM研究院
Paper: https://arxiv.org/pdf/1903.02188v3.pdf
Code: https://github.com/hugochan/BAMnet

文章摘要

    大多数现有的基于嵌入式的知识库问答方法忽略了问题和知识库之间微妙关系(例如,实体类型、关系路径和上下文),为此本文提出通过一个新的双向注意力记忆网络(BAMnet)来直接模拟问题和知识库之间的双向交互。该方法不需要外部资源,只需要很少的手工特性,在Web问题基准测试中,我们的方法显著优于现有的基于信息检索的方法,并且与(手工的)基于语义解析的方法相比具有一定的竞争力。

本文三大看点

    1、提出了一种基于知识库的双向注意力记忆网络,旨在直接模拟问题与知识库之间的双向交互。
    2、该方法由于采用了注意力机制,提供了良好的解释性;
    3、在WebQuestions基准测试中,该方法显著优于以前的基于信息检索的方法,同时与(手工)基于语义解析的方法相比具有竞争力。

BAMnet模型结构介绍

BAMnet模型结构    可以看到该模型由输入模块、存储模块、推理模块和回答模块四部分组成。

输入模块

    输入NL问题 Q = q i i = 1 Q Q = {q_i}^{|Q|}_{i=1} 通过单词嵌入层表示为单词嵌入序列 ( q i ) (q_i)

记忆力模块

    **候选答案:**尽管知识库中的所有实体原则上都可以是候选答案,但这样计算代价比较大,而且在实际应用中是没有必要的。所以只考虑那些“接近”问题主题实体的实体。答案是实体节点的文本描述(例如,名称)。在获得主题实体之后,我们在h跃点内收集与之相关的所有实体作为候选答案。
    知识库表示对于来自知识库的每个候选答案,我们编码三种类型的信息:答案类型、路径和上下文。其中:
    答案类型:实体类型信息是对答案进行排序的重要线索
    答案路径:将答案路径定义为从候选答案到主题实体的一系列关系。
    答案上下文:答案上下文被定义为候选答案的周围实体,这些实体可以帮助回答带有约束的问题。
    键值记忆模块在该模型中使用key-value memory network (Miller et al., 2016)来存储候选答案。与基本内存网络不同(Weston et al., 2014),它的寻址阶段基于键内存,而读取阶段使用值内存,这使得通过功能分离对先验知识进行编码具有更大的灵活性。

推理模块

    推理模块由泛化模块和二层双向注意力网络组成,其目的主要是捕捉问题与知识库之间的双向互动。注意力网络包括基于知识库的知识库感知注意力模块和基于问题知识库的知识库感知注意力模块。二次注意网络(图1中的增强模块)是为了进一步利用双向注意来增强问题和知识库向量。
    知识库感知注意力模块并不是所有的单词都是一样的。我们使用意识到kb的注意机制来关注问题的重要组成部分,如下图3所示。
    重要性模块 重要性模块侧重于重要的KB方面,主要是通过它们与问题的相关性来衡量。
    增强模块我们利用双向注意力进一步增强问题和知识库表示。
    泛化模块 在回答问题之前添加了一个one-hop注意力过程。我们使用问题表示 q ^ \hat q 通过一个注意力机制查询键存储 M ˉ k {\bar M}^k ,并从值存储中获取最相关的信息,然后用于更新问题向量。最后,我们应用一个残差层(和批量归一化(BN)来保证模型在实践中的性能。
    回答模块通过计算候选答案的匹配得分进行排序,然后得到最终的答案。

实验结果

    在WebQuestion测试上结果对比    假定Gold主题实体已知,网络问题测试集的消融结果。    推理模块注意力热图。彩色效果最佳

Double Kill

TILE: Multi-Task Learning with Multi-View Attention for Answer Selection and Knowledge Base Question Answering.
Contributor : 北京大学深圳研究生院
Paper: https://arxiv.org/pdf/1812.02354v1.pdf
Code:https://github.com/dengyang17/dengyang17.github.io

文章摘要

    答题选择和基于知识库的问答是问答系统中两项重要任务。现有的方法分别解决这两个任务,需要大量的重复工作,而忽略了任务之间丰富的相关信息。 为此本文提出一种新的多任务学习方案,利用从不同角度学习的多视角注意力,使这些任务相互作用,学习更全面的句子表示。在多个实际数据集上的实验验证了该方法的有效性,提高了答案选择和KBQA的性能。同时,多视点注意方案被证明能够有效地从不同的表征角度组合注意信息。

本文三大看点

    1、探讨了多任务学习方法的答案选择和基于知识库的问答。知识级的KBQA任务有助于答案选择任务,而单词级的答案选择任务可以有助于KBQA任务。
    2、提出了一种新的多任务学习方案,该方案利用多视图注意力机制来连接不同的任务,将任务特定层的重要信息集成到共享层中,使模型能够交互式地学习单词级和知识级表示。
    3、实验结果表明,答案选择和KBQA的多任务学习优于目前最先进的单任务学习方法。此外,基于多视图注意力的MTL方案进一步提高了性能。

本文模型介绍(Multi-Task Model with Multi-View Attention )

多任务问答模型

    基本的多任务学习模型是一种深度神经网络,采用分层特定的共享机制(Guo, Pasunuru, Bansal 2018),在不同的任务之间共享一些高层信息,剩余的层是并行的、独立的,学习任务特定的低层信息。    上图展示了用于选择答案(AS)和知识库问答(KBQA)的多任务QA网络(MTQA-net)的总体架构。

多视角注意力模型

    多视角注意力模型如下图所示: Multi-View Attention    如上图所示,与其他注意力共享方案不同,我们不仅从任务特定层吸引注意力,还结合了来自共享层的信息。此外,我们从词汇和知识两个角度获取注意力信息,因为词汇级别和知识级别的信息对表征性学习有共同的贡献。具体来说,我们计算了五种注意力的视角,包括单词、知识、语义、知识语义和注意力。

多视角注意力共享

    由于多视图注意力应用于共享表示层的隐藏状态,计算注意力权重的参数也应该在任务之间共享。同时,由于多视图注意方案从任务特定层和共享层收集信息,因此不同的任务通过多视图注意连接起来。

实验结果

    多任务学习结果    多视觉注意力消融分析    多视觉注意力案例研究

ACED

Attention

更多自然语言处理相关知识,还请关注AINLPer公众号,极品干货即刻送达。

发布了43 篇原创文章 · 获赞 3 · 访问量 3823

猜你喜欢

转载自blog.csdn.net/yinizhilianlove/article/details/100054888
QA
今日推荐