「自然语言处理(NLP)论文推送」清华大学XQA数据集(含源码)

来源:AINLPer微信公众号
编辑: ShuYini
校稿: ShuYini
时间: 2019-8-24

引言

本篇主要给大家介绍两篇文章:
    一篇是清华大学发表的XQA,该篇文章主要是针对开放式问答构建了一个跨语言的开放式问答数据集,该数据集(训练集、测试集)主要包括九种语言,9万多个问答。
    第二篇是澳洲昆士兰阳光海岸发表的Katecheo,该篇文章构建了一个模块化系统,它可以轻易的部署在Kubernetes集群(当前很多大公司都会使用Kubernetes)上用作商用。

PS:欢迎关注AINLPer微信公众号,论文解读会每日更新,等你来看。

FirstBlood

TILE: XQA: A Cross-lingual Open-domain Question Answering Dataset
Contributor : 清华大学
Paper: https://www.aclweb.org/anthology/P19-1227
Code: https://github.com/thunlp/XQA

文章摘要

    开放式问答(OpenQA)的目的是通过文本检索和阅读理解来回答问题。近年来,许多基于神经网络的模型被提出,并在OpenQA中取得了良好的效果。然而,这些模型的成功依赖于大量的训练数据(通常是英语),而这些数据在许多其他语言中是不可用的,尤其是对于那些低资源的语言。因此,研究跨语言OpenQA是非常必要的。本文构建了一个用于跨语言OpenQA研究的新数据集XQA。它包括英语训练集以及其他八种语言的开发和测试集。此外,我们还为跨语言OpenQA提供了多种基线系统,包括两种基于机器翻译的方法和一种零距离跨语言方法(多语言BERT)。

文章两大看点

    1、引入了一个跨语言的OpenQA数据集XQA。它由英语、法语、德语、葡萄牙语、波兰语,中文,俄语、乌克兰语、泰米尔语各种语言的训练集、开发集、测试集组成。其中训练集包含了56,279对英语问答对以及相关文档。开发和测试集分别包含17,358对和16,973对问答对。所有的问题都是由各自为母语的人自然提出的,并可能反映出不同语言的文化差异。数据集词库样例如下图所示:    2、构建了几个基线系统,这些系统使用来自公共可用库的多语言数据信息进行跨语言OpenQA,包括两种分别翻译训练数据和测试数据的方法和一种零距离跨语言的方法(多语言BERT (Devlin et al., 2019))。
####OpenQA数据集
    维基百科各种语言的主页上提供了一个每日“你知道吗”框,其中包含来自维基百科编辑的几个事实性问题,以及相应答案的链接。这是一个很好的跨语言OpenQA源。我们从这些会话中收集问题,并从WikiData知识库中使用实体名称及其别名作为最佳答案。对于每个问题,检索BM25排名前10位的Wikipedia文章作为相关文档。
    在维基百科文章中,实体名称几乎总是出现在文档的开头。该模型可能忽略了相关文件中的真正证据,而只是简单地预测头几个单词。为了避免这种情况,我们从每个文档中删除第一段。我们总共收集了9种语言的90610个问题。对于英语,我们分别保留了大约3000个问题用于开发和测试集,并使用其他问题作为训练集。对于其他语言,我们将问题平均分为开发和测试集。每种语言的详细统计数据如下图所示:

基线系统

翻译基线方法

    跨语言OpenQA最直接的解决方案是将机器翻译系统和单语言OpenQA系统结合起来。在本文中,我们考虑了两种使用机器翻译系统的方法:首先,首先,将训练数据集从源语言翻译成目标语言,然后对翻译后的数据训练标准OpenQA系统;第二,翻译测试,使用源语言中的培训数据构建OpenQA系统,将问题和检索到的文章从目标语言翻译成源语言。对于OpenQA模型,我们选择了两个最先进的模型:Document-QA模型和BERT 模型。

零距离跨语言方法

    零距离跨语言方法对源语言和目标语言都采用统一的模型,用源语言中的标记数据进行训练,然后直接应用于目标语言。在本文中,我们选择了广泛使用的多语言BERT模型,因为它已经在SQuAD等阅读理解基准测试中被证明是成功的(Devlin et al., 2019)。多语言BERT是BERT的非语言版本,它使用维基百科中前100种语言的转储进行训练。与单语OpenQA模型类似,我们还可以使用共享标准化学习目标对多语BERT模型进行了微调。

实验结果    XQA数据集整体结果

Double Kill

TILE: Katecheo: A Portable and Modular System for Multi-Topic Question Answering
Contributor : CV Digital Sunshine Coast, Queensland, Australia
Paper: https://arxiv.org/pdf/1907.00854v1.pdf
Code: https://github.com/cvdigitalai/katecheo

文章摘要

    引入了一个模块化的系统,可以部署在任何Kubernetes集群上,通过REST API回答问题。这个系统称为Katecheo,包括四个可配置模块,它们共同支持问题识别、将这些问题分类到主题、搜索知识库文章和阅读理解。我们使用从堆栈交换站点提取的公开可用的、预先训练的模型和知识库文章来演示系统。但是,用户可以将系统扩展到任意数量的主题或域,而不需要修改任何提供代码的模型。
    本篇文章主要偏向于应用,主要涉及集群部署

本文主要看点

    提出了一个基于Katecheo的便携式模块化阅读理解问题回答系统,试图减轻这种开发负担。该系统为开发人员提供了一种快速部署和易于扩展的方法,使他们能够将问答功能集成到应用程序中。katecheo包含四个可配置模块,它们共同支持问题识别、问题主题分类、搜索知识库文章和阅读理解。这些模块被绑定在一个推理图中,这个推理图可以通过REST API调用来调用。从栈交换站点中提取预训练的模型和知识库文章。但是,用户可以将系统扩展到任意数量的主题或域,而不需要修改模型服务代码。该系统的所有组件都是开放源码的,并且在Apache 2许可协议下公开可用。

系统模型概要

    使用Katecheo,目标之一是创建一个问答系统,它比那些依赖于精心策划的回答更灵活,同时比完全开放的领域问答系统更有针对性。该系统包括文档检索(或我们所说的“知识库搜索”)和阅读理解,但只包含与特定主题(例如,食物或娱乐)对应的一组精选知识库文章。将问题文本输入Katecheo系统,通过四个模块进行处理:(1)问题识别,(2)主题分类,(3)知识库搜索,(4)阅读理解。整个系统逻辑如下图所示:    (1)问题标识符使用基于规则的方法进行问题标识。我们利用问号和5W1H单词的存在来确定输入是否为一个问题。根据我们的测试,这提供了相当高的性能(90%以上的准确性),并且不会阻碍整体性能。
    (2)问题主题分类:除了每个主题之外,用户还向系统提供一个预先训练的命名实体识别(NER)模型,该模型用于识别该主题中的实体。然后,主题分类器使用这些预训练的模型来确定输入问题是否包含来自用户提供的主题之一的实体。如果是,主题分类器将问题分类到该主题中。当两个主题冲突时,系统当前暂停处理并返回一个空答案。
    (3)一旦确定了主题,就会从一组与用户提供的主题对应的用户提供的知识库文章中搜索合适的知识库文章来匹配问题。最终计划将这个知识库搜索更新为类似于Chen etal的方法。使用双图哈希和TF-IDF。
    (4)atecheo的最新版本使用了双向注意力流(BiDAF)模型来进行阅读理解(Seo等,2017)。该BiDAF模型包括基于卷积神经网络(CNN)的字符级嵌入层、使用预训练手套嵌入的单词嵌入层、基于长短时记忆网络(LSTM)的上下文嵌入层、“注意流层”和包含双向LSTMs的建模层。我们使用的是AllenNLP (Gardner et al., 2017)库中提供的一个预训练版本的BiDAF

ACED

GitHub论文合集

Attention

更多自然语言处理相关知识,还请关注AINLPer公众号,极品干货即刻送达。

发布了43 篇原创文章 · 获赞 3 · 访问量 3842

猜你喜欢

转载自blog.csdn.net/yinizhilianlove/article/details/100054370
今日推荐