知识图谱·概念与技术--第1章学习笔记--知识图谱的分类
知识
定义
柏拉图:“justified true belief”,经过检验的信念,是从人类认识世界的角度做出的定义,明确了知识是人类认识世界的结果。知识与认知密不可分。如阿里把面向用户消费认知的知识图谱命名为认知图谱。
只有人类才需要对知识的对错负责,知识对错的相对变化也随着时间、环境的变化而相对变化。
内涵
从数据、信息、知识之间的联系与区别入手。
数据是对世界的一种记录,如”39“这个数字。
信息:赋予意义的数据,将数据放入上下文,如”体温39度“就是信息。
知识:信息蕴含意义的解读,信息之间的有意义关联,如“体温39度”可以联系到”发烧了“
大数据时代的知识
大数据时代数据和信息过载,从中提炼出的知识对人类才是重要的。知识图谱在数据和信息的基础上,提供大数据时代人类社会表达和承载知识的重要方式。
知识图谱中的知识分类
按照当前典型知识图谱中所涵盖的不同知识,对知识图谱进行分类
事实知识(Factual Knowledge)
关于某个特定实体的基本事实,如(柏拉图,出生地,雅典)。事实知识是知识图谱中最常见的知识类型。大部分事实都是在描述实体的特定属性或关系。
有些事实的相关事实未必存在典型的属性或者关系与之对应,只能通过复杂的文本来描述。如:”亚里士多德是西方古典哲学的集大成者“,很难找到明确的属性与之对应。
很多以实体为中心的知识图谱均富含事实知识,如DBpedia,Freebase以及CN-DBpedia等。
概念知识(Taxonomy Knowledge)
分为两类:
实体与概念之间的类属关系(isA关系),如(柏拉图 isA 哲学家);
子概念与父概念之间的子类关系(subClassOf),如(唯心主义哲学家 subClassOf 哲学家)。
一个概念可能有子概念也可能有父概念,全体构成层级体系。概念之间的层级关系是本体定义中最重要的部分,是构建知识图谱的第一步——模式(Schema)设计的重要内容。
特定领域的概念知识是机器认知领域的基本框架。
典型的概念知识图谱有YAGO、Probase、WikiTaxonomy等。
词汇知识(Lexical Knowledge)
实体与词汇之间的关系(如,实体的命名、称谓、英文名等)以及词汇之间的关系(同义、反义、缩略词、上下位词等关系)。如(”Plato“,中文名,柏拉图)
一些跨语言知识库(如BabelNet)专注于建立实体与概念在不同语言中的描述形式。
词汇知识是知识图谱目前在应用中已经取得较好效果的一类知识。因为领域语料往往是丰富的,所以从这些语料中自动挖掘领域词汇,建立词汇之间的语义关联以及词汇与实体之间的关联,已经成为知识图谱构建最重要的一步。
领域词汇知识也是相对简单的知识,此类图谱有WordNet。
常识知识(Commonsense Knowledge)
人类通过自身与世界交互而积累的经验与知识,是人们在交流时无须言明就能理解的知识。如鸟有翅膀、鸟能飞等。
常识知识的获取是构建知识图谱时的一大难点。常识的表征与定义、常识的获取与理解等问题一直是人工智能发展的瓶颈问题。
常识知识的基本特点是,人人都知道,所以很少出现在文本中。面向文本的信息抽取方法对于常识获取显得无能为力。
典型的常识知识图谱有Cyc、ConceptNet等。
其他分类
有时效性、空间局限性的知识,如(奥巴马,职业,美国总统,2009-01-20,2017-01-20),(2019-1-1,平均温度,16,上海),(2019-1-1,平均温度,-5,北京)
含有主观因素的知识,转基因食品是否健康之类的未有定论的问题。
实体多模态表征的知识,如(柏拉图,图片,plato.jpg)
知识图谱的领域特性
按知识类型分类
通用知识图谱(GKG,General-purpose Knowledge Graph)
领域知识图谱(DKG,Domain-specific Knowledge Graph)
特定领域或特定行业适用的图谱
领域知识扩大,就到行业知识,如农业知识图谱。
企业知识图谱(Enterprise Knowledge Graph)
横贯企业各核心流程的知识图谱。
与GKG和DKG相比,企业知识图谱具有典型的”小、杂、专“的特点
- 小
语料与数据规模小 - 专
每个企业往往有自身的业务特色 - 杂
包含的领域众多,按各部门的需求,可能包含如人事、财务、生产、市场等业务。
GKG与DKG的联系
一、领域知识是通过隐喻或者类比从通用知识发展而来的。
二、GKG与DKG相互支撑
GKG可以给DKG提供高质量的种子事实。这些种子事实可以用作样本指导抽取模型的训练。
GKG可以提供领域模式。
GKG与DKG的区别
DKG | GKG | ||
---|---|---|---|
知识表示 | 广度 | 窄 | 宽 |
深度 | 深 | 浅 | |
粒度 | 细 | 粗 | |
知识获取 | 质量要求 | 苛刻 | 高 |
专家参与 | 重度 | 轻度 | |
自动化程度 | 低 | 高 | |
知识应用 | 推理链条 | 长 | 短 |
应用复杂性 | 复杂 | 简单 |
知识表示层面
广度:GKG>DKG,obviously
深度:
层次较深的细粒度概念往往不是基本概念(Basic Concept),这意味着不同人对这些深层次概念有着不同的认知体验,因而会有较大的主观分歧。这是很多人工构建的概念深到一定层级就很难继续下去的重要原因。此时,比较适合采用数据驱动的自下而上的自动化方法来识别与认知细粒度概念。
粒度:
DKG的知识粒度较细,知识的基本单元可以是一个文档,也可以是文章中的一个段落、法律中的条款、教育资源中的知识点等。
知识获取层面
DKG对质量要求往往极为严苛。如医疗中的药物。是不能出错的。
DKG对专家参与程度要求较高,而GKG由于规模庞大,构建过程一定要高度自动化。
知识应用层面
DKG推理链条相对较长,应用相对复杂。
一、DKG相对密集。
如某个疾病在GKG中可能没有多少相关实体,但在DKG中可能有上百个。在GKG中长程推理可能造成语义漂移(Semantic Drift),推理结果容易”面目全非“,因此GKG中一般只做基于上下文的一到两步的推理,如搜索”刘德华“,返回相关歌曲,相关介绍信息。
二、DKG的计算操作也相对复杂。
除了深度推理,领域应用也往往涉及复杂查询。