9 知识问答(上)

知识问答概述和相关数据集

基于模板的问答专家系统->基于信息检索的问答->基于社区的问答->基于知识库的问答

测评数据集

QALD,是多语言的链接数据问答系统的评测竞赛活动

多语种问答/基于链接数据的问答/Hybrid QA,基于RDF and free text data

WebQuestions

Free917

KBQA基本概念及挑战

问句分析->语义匹配、推理->候选答案得分->构造query->答案检索和评估

难点在于如何将自然语言变成查询语言

输入的是自然语言却不一定是QA

问句短语:

Wh-words + nouns/adj/adv...

问句类型:

事实型问题——谓词性问题/列表型问题/最高级型问题/对错型问题

观点型问题

因果型问题

方法型问题

解释型问题

关联型问题

比较型问题

答案类型:

缩写/实体/描述/展示....

问题主题:

关于哪个方面的

领域类型:

开放域/特定域

文本/图片/音频/视频

多模态回答

Visual QA

答案格式:

长/短/精确答案

质量评估:

Relevance

Correntness

Conciseness

Completeness

Simplicity

Justification

答案处理:

简单抽取

组合

摘要

推理

映射自然语言表达式到KG元素词汇:

more than 1 million->FILTER(?p > 1000000)

the most->ORDER BY DESC(COUNT(?X))    OFFSET 0 LIMIT 1

知识问答主流方法介绍

基于模板:

模板定义/模板生成/模板匹配

Constructs a query template that directly mirrors the linguistic structure of the question

Instantiates the template by matching natural language expression with ontology concepts

In order to understand a user question,we need to understand:

The words(died in -> dbo:deathPlace)

The semantic structure(who -> SELECT ?x WHERE{......})

Aim:An approach that combines both an analysis of the semantic structure and a mapping of words to URLs

Template generation模板生成

Template instantiation模板实例化

填入模板->排序打分

缺点:创建的模板结构未必和知识图谱中的数据建模相契合/手工准备海量模板的代价非常大

自动生成模板->根据utterance-answer对,根据依存树自动学习utterance-query模板

利用自然语言的组成特点,可以使用从简单问题中学到的模板来解决复杂问题

ILP技术对齐

复杂句的拆分和整合

词典L构建->词典L对齐

新问题->依存分析->S-MART进行NERL(freebase)->去模板库中进行匹配->再使用词典L对对齐关系进行实例化
 

传统语义分析方法:

问句->语义解析->语义表示->语义匹配、查询、推理->知识库

资源映射——复杂映射(was also born in->PlaceOfBirth)

逻辑表达式

弱监督语义解析:

可以较为轻松地从普通民众获得

文本映射到KB的若干挑战:

字符串匹配不精确/穷举不可行/字符串匹配存在覆盖率低的问题

发布了66 篇原创文章 · 获赞 28 · 访问量 1万+

猜你喜欢

转载自blog.csdn.net/qq_36329973/article/details/81942060
9