9 知识问答(上)

知识问答概述和相关数据集

基于模板的问答专家系统->基于信息检索的问答->基于社区的问答->基于知识库的问答

测评数据集

QALD，是多语言的链接数据问答系统的评测竞赛活动

多语种问答/基于链接数据的问答/Hybrid QA，基于RDF and free text data

WebQuestions

Free917

KBQA基本概念及挑战

问句分析->语义匹配、推理->候选答案得分->构造query->答案检索和评估

难点在于如何将自然语言变成查询语言

输入的是自然语言却不一定是QA

问句短语：

Wh-words + nouns/adj/adv...

问句类型：

事实型问题——谓词性问题/列表型问题/最高级型问题/对错型问题

观点型问题

因果型问题

方法型问题

解释型问题

关联型问题

比较型问题

答案类型：

缩写/实体/描述/展示....

问题主题：

关于哪个方面的

领域类型：

开放域/特定域

文本/图片/音频/视频

多模态回答

Visual QA

答案格式：

长/短/精确答案

质量评估：

Relevance

Correntness

Conciseness

Completeness

Simplicity

Justification

答案处理：

简单抽取

组合

摘要

推理

映射自然语言表达式到KG元素词汇：

more than 1 million->FILTER(?p > 1000000)

the most->ORDER BY DESC(COUNT(?X)) OFFSET 0 LIMIT 1

知识问答主流方法介绍

基于模板：

模板定义/模板生成/模板匹配

Constructs a query template that directly mirrors the linguistic structure of the question

Instantiates the template by matching natural language expression with ontology concepts

In order to understand a user question,we need to understand:

The words(died in -> dbo:deathPlace)

The semantic structure(who -> SELECT ?x WHERE{......})

Aim:An approach that combines both an analysis of the semantic structure and a mapping of words to URLs

Template generation模板生成

Template instantiation模板实例化

填入模板->排序打分

缺点：创建的模板结构未必和知识图谱中的数据建模相契合/手工准备海量模板的代价非常大

自动生成模板->根据utterance-answer对，根据依存树自动学习utterance-query模板

利用自然语言的组成特点，可以使用从简单问题中学到的模板来解决复杂问题

ILP技术对齐

复杂句的拆分和整合

词典L构建->词典L对齐

新问题->依存分析->S-MART进行NERL(freebase)->去模板库中进行匹配->再使用词典L对对齐关系进行实例化

传统语义分析方法：

问句->语义解析->语义表示->语义匹配、查询、推理->知识库

资源映射——复杂映射(was also born in->PlaceOfBirth)

逻辑表达式

弱监督语义解析：

可以较为轻松地从普通民众获得

文本映射到KB的若干挑战：

字符串匹配不精确/穷举不可行/字符串匹配存在覆盖率低的问题

Tai_Park

发布了66 篇原创文章 · 获赞 28 · 访问量 1万+

私信关注

猜你喜欢