知识图谱是什么,有什么特点,知识图谱在实际应用主要面临哪些挑战?

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/duozhishidai/article/details/82630578

从哲学角度讲,联系具有普遍性。普遍联系同样适用于金融图谱。本文从黑科技角度,阐述哪些黑科技正在改变金融?知识图谱在金融领域究竟如何落地?

区块链改造供应链金融,金融,互联网金融,金融科技,人工智能,非结构化数据 哪些黑科技正在改变金融?深度解剖知识图谱的四大应用 AI资讯 第1张

在社会网络中,一个著名的理论是:

最多通过六个人,你就能够认识世界上的任何一个陌生人。如果把每个人看作实体,找出人与人之间的联系,其中涉及的就是建设知识图谱的技术。

通过知识图谱的图形化展示,可以很直观地呈现人们错综复杂的社交关系。

据说,这种技术曾经用于情报部门反恐,并取得了良好的效果。今天,知识图谱已经从007的神秘技能演变为金融黑科技。这项金融黑科技真正应用的起点在2012年,谷歌公司将其引入搜索引擎,用于改善搜索体验。简单地说,就是通过对网页信息的爬取和分析,找出不同种类信息的内在联系,从“关系”的角度突破信息碎片化壁垒,提供包含关联关系的搜索结果。

值得注意的是,金融领域由于对数据强烈的依赖性,被认为是人工智能最适合落地的领域之一。海量的数据为人们更好地掌握与认知事物规律,提供了越来越丰富的来源。

但是,由于非结构化数据的急剧增长,对数据的分析与理解的要求已经远远超过人类的生理极限,这对我们的分析手段提出了新的要求与挑战。传统的数据储存方式将数据分门别类的存放,已经很难适应现实瞬息万变的市场行情,无法满足金融分析的实时性和全局性的要求。

金融知识图谱是金融行业语义理解和知识搜索的关键性基础技术,可以为舆情监控、知识发现和推理决策等提供技术支撑。因此,越来越多的金融机构及企业在探索构建金融领域的知识图谱研究,将海量非结构化信息自动化利用起来,为金融领域应用决策提供更精准可靠的依据。下面,我们做个详细介绍。

什么是知识图谱?

知识图谱本质上是一种语义网络,是基于图的数据结构,以图的方式存储知识并向用户返回经过加工和推理的知识。它由“节点”和“边”组成,节点表示现实世界中的“实体”,边表示实体之间的“关系”。

扫描二维码关注公众号,回复: 3227063 查看本文章

一般来说,知识图谱分为通用知识图谱和领域知识图谱。其中,通用知识图谱主要由各大搜索引擎公司研究,以提高搜索准确率,争取直接给出目标答案;而领域知识图谱可根据领域特定的情况,提供各种针对性的应用。

具体到金融领域,因为涉及到各行各业,包含了经济、产业、公司等众多方面的知识,所以金融知识图谱相对于其他领域比较特别。具体来说,金融知识图谱常见的实体包括:公司、产品、证券和人员等。实体间的关系包括:股权关系、任职关系、担保关系、供应商关系、竞争对手关系、生产关系、采购关系和上下游关系等(参见下图)。其中,有些实体和关系,可以自动抽取生成,如股权关系和任职关系等,均可在工商局注册登记平台得到公开信息。而产品间的上下游关系则需要有系统性的数据源,这就给信息获取和识别带来了巨大的挑战。

金融知识图谱 哪些黑科技正在改变金融?深度解剖知识图谱的四大应用 AI资讯 第2张

知识图谱有什么特点?

知识图谱可以最有效、最直观地表达出实体间的关系。简单地说,就是把大量不同种类的信息连接在一起而得到一个关系网络,为人们提供了从“关系”的角度分析问题的能力。

相对于传统的描述方式,知识图谱具有一些自身的特点:

先来看第一个步骤:实体的识别是从文本中抽取出特定的实体信息,如时间、人物、地点、公司、产品等等,由此确定了知识图谱中的点。

再来看第二个步骤:关系的识别则是指实体间的各种关系,如地理位置关系、雇佣关系、股权关系等等,这些关系确定了点与点之间的边。需要说明的是,常用的抽取关系的方法有基于专家知识库和基于机器学习等类型。其中,基于专家知识库的方法是由行业专家构筑大规模的领域知识库,需要专家参与,一般耗时费力,但是质量相对比较可靠;机器学习的方法需要构造特征向量形式的训练数据,使用机器学习算法自动构造。需要特别指出的是,对于非结构化文本,实体识别和关系抽取需要基于自然语言处理算法,以及深度学习算法(例如,用词向量的方式寻找近义词,提高实体模糊识别的准确度),这是一个反复迭代、不断精进的过程。

最后来看第三个步骤:推理能力是人类智能的重要特征,是由一个或几个已知的前提推出结论的过程,也可以从已有的知识中发现隐含的知识。在推理的过程中,往往需要一些规则的支持,例如:从“某人甲”既是“企业A”的法人也是“企业B”的法人,可以推测出“企业A”和“企业B”之间的关联关系。当然,这里会涉及到概率的问题。当信息量特别多的时候,如何把这些信息有效地与推理算法结合在一起是最关键、最有挑战性的工作。常用的推理算法包括基于逻辑和基于分布式表示的方法。随着深度学习在人工智能领域取得的突破,基于分布式表示的方法已成为目前研究的热点。

此外,金融知识图谱还包含了很多其他的形式,例如:A股的公司、港股和美股的公司,各种基本面的数据、行情的数据都在逐渐的知识图谱化,还有公告数据、研报数据、以及工商数据等都是金融知识图谱的分支。

知识图谱应用面临哪些困难?

知识图谱在工业界还没有形成大规模的应用,很多仍处于调研阶段,主要原因在于很多企业对知识图谱并不了解,或者理解不深。但从目前的趋势可以预测,知识图谱在未来几年内必将成为工业界的热门工具。当然,知识图谱在实际应用中仍然将面对很多的挑战。

1、数据的可访问性。数据处理的最大烦恼常常是无法得到数据。由于种种原因,数据往往无法得到充分的公开,被封闭在数据孤岛上;或者仅仅被用书面的方式保存,无法用电子形式读取处理,可访问性不好。提高可访问性的主要手段是把数据电子化和网络化,可以方便地通过网络链接和访问。其中涉及的技术有:网络爬虫、PDF格式转文本、图片中的字符识别和文本清理等。最后,使用大家广泛接受的传输协议,提供不同平台间的兼容。

2、数据的可发现性。原始数据中往往存在很多的噪声,例如,数据本身在收录时有错误,必须被纠正;再如,数据会有冗余,同一家公司的名称可能会有全名、缩写名等形式,处理时被当作不同的公司对待等。这些都会对后继的数据处理造成干扰,降低数据的可发现性。

3、数据的深层关系。因为海量的数据已经远远超出人类的处理能力,依靠人力无法发现在数据中隐藏的众多关系。人类也许能从数据中最多找出几百个维度,但是机器使用自然语言处理的技术可以识别成千上万个维度,特别是关系抽取。此外,各种推理的方法也非常重要,通过推理规则可以发现隐藏得很深的联系。

4、领域知识的集成。金融涉及多个行业,可以分为上百个领域,这些领域都多少需要集成领域的专业知识。不管是投资还是制造,其中的主要概念、产品分类、市场竞争情况等都需要通过行业专家收集整理,并反映到领域知识库中。其中需要的主要技术为:文档篇章分割、中文分词、实体提取及消歧、关系提取、规则库建设等。金融领域中的征信、融资、资管、二级市场交易等都有具体的业务场景,都需要业务逻辑,这些逻辑在数据之上表现为模型,需要在基础数据和领域知识的基础上实现。

5、策略的生成。现有阶段,机器在业务场景中还无法完全替代人类的作用,而是辅助人类作出价值判断、风险判断,通过过往的案例或者既定的逻辑,为人类推荐可行的策略。在此,涉及到人工智能的方方面面:对用户交互而言,有意图理解、语言生成、用户画像匹配等;在业务层面,有逻辑生成、投资模型、风险模型等;涉及的数据处理有规则提取、知识库建设,语义检索、逻辑推理等。

最后,我们必须看到,金融和所有其他领域一样,正在逐渐被人工智能渗透,人类将会越来越多地依靠机器的帮助,更加科学地决策。今天的金融辅助工具已经可以提供大量的帮助,让投资人更容易地获得数据和分析层面的支持,大大提高工作的效率。而在整个技术链中,知识图谱居于核心地位,这是自金融报表电子化以来又一次质的飞跃。知识图谱是金融数据分析从简单的量化模型走向更为复杂的价值判断和风险评估必经的一环,把经验逐步变成可重用、可演化、可验证、可传播的知识模型,从而实现数据到智能的升华。

人工智能未来的前景不可忽视,有兴趣的朋友,可以关注多智时代,多智时代为你推荐:

  1. 未来已来,如何成为一名人工智能产品经理
  2. 如何构建一个有效的知识图谱,知识图谱构建过程主要分为哪几个步骤?
  3. 人工智能时代,你需要了解的9大技术领域

猜你喜欢

转载自blog.csdn.net/duozhishidai/article/details/82630578
今日推荐