图计算发展简史(3)

导读:图数据库的技术的根本是图计算与存储技术(事实上所有IT技术在本质上都是计算、存储与网络,因为计算有网络计算、分布式计算,存储有分布式存储、网络存储,因此我们经常省略掉网络而只说计算和存储),而图计算 (图分析)的理论基础是图论。

本文将通过回顾图论相关学科与技术的发展历史以帮助大家更好地了解图技术。

(五)关系型数据库和非关系型数据库

图计算系统或图数据库一般被认为是NoSQL数据库的子集。NoSQL是相对于以SQL为中心的关系型数据库而言的,它确切的涵义是Not Only SQL,也就是说在SQL之外的广阔天地里面也是NoSQL数据库所覆盖的范畴。

众所周知,自1980s开始成为主流的SQL关系型数据库,至今还在各种大小公司的IT环境中广泛应用,它的核心理念是关系表,用二维表以及表与表之间的关联关系来对纷繁复杂的问题进行数据建模。

图数据库的理论基础是图论,它的核心理念是用高维的图来表述、还原同样高维的世界——用至为简单的顶点与边来表达任意复杂的关联关系。

在大数据计算领域,图论有许多应用场景,例如导航、地图染色、资源调度、搜索和推荐引擎,然而这些场景所对应的大数据框架及解决方案并没有真正意义上使用原生化的图的存储与计算模式。换句话说,人们依然在用关系型数据库、列数据库甚至文档数据库来解决图论的问题,也就是说低效的、低维的工具被用来强行解决复杂、高维的问题,那么它的用户体验可能很差或者是投入产出比例极为糟糕。最近几年,发明互联网40年后,随着知识图谱逐步深入人心,图数据库和图计算的发展才开始重新受到重视。

近半个世纪,有很多图计算的算法问世,包括从知名的Dijkstra算法(图的最短路径问题,1956年),到Google创始人Larry Page在20世纪末发明的PageRank,以及更复杂的各类社区发现算法(用于检测社区、客群、嫌疑人之间的关联)。简而言之,今天许多大型互联网企业、金融科技公司都是基于图计算技术而诞生的,例如:

  • 谷歌: PageRank是一种大规模页面(或链接)排序的算法,可以说,早期谷歌的核心技术就是一种浅层的并发图计算技术。

  • 脸书: 脸书的技术框架的核心是它的Social Graph,即朋友关联朋友再关联朋友。如果你曾经听说过“六度分隔理论”——脸书建立了强大的社交关系网络,在任意两个人之间,只要通过5或6个人就可以建立联系。脸书开源了很多东西,但是这个核心的图计算引擎与架构从未开源过。

  • 推特: 推特是美国(或世界领域)的微博(你也可以说推特在中国的版本叫微博), 它在2014年曾经短暂的在GitHub上面开源了Flock DB,但随后就下线了,原因很简单,图计算是推特的商业与技术核心,开源模式没有增加其商业价值 —— 换句话说,任何商业公司的核心技术与机密如果构建在开源之上,其商业价值形同虚设。

  • 领英: 领英是专业职场社交网络,最核心的社交特点是推荐距离你2层至3层的专家,提供这种推荐服务必须使用到图计算引擎(或图数据库)。

  • 高盛集团: 如果你能回忆起2007-2008年爆发的世界金融危机中, 莱曼兄弟公司破产,当时高盛集团能全身而退,背后的真实原因是高盛集团应用了强有力的图数据库系统——SecDB,它成功计算并预测到即将发生的金融危机。

  • 全球最大的私募基金管理机构黑石集团的最核心的IT系统阿拉丁(Aladdin)—— 即资债管理系统在本质上是通过构建流动性风险要素间的依赖图 (Dependency Graph)来完成对全球超过 20万亿美金资产的管理。这一数额超过 了全球金融资产的10%。

  • Paypal、易趣和许多其他金融或电子商务公司,对于这些技术驱动的新型互联网公司,图计算并不罕见——图的核心竞争力可以帮助他们揭示出数据的内部关联,而传统的关系型数据库或大数据技术实在是太慢了,它们在设计之初就不是用来处理数据间的深度关联关系的。

(六)图计算与后关系型数据库时代

任何一门技术的发展通常会经历技术的萌芽、发展、膨胀、过热、降温、再发展的一个曲线周期,在这个过程中通常会有一些规范或既定事实的标准出现来规范技术的发展,并以此来增强业界的合作与互通。图计算的规范就有两种:

  • RDF:W3C规范

  • LPG→GQL:从既成事实上的业界实践标准LPG演进到第二个数据库查询语言标准GQL(Graph Query Language)。

W3C的RDF规范(2004年通过v1.0版本,2014年通过v1.1版本)最初是用来描述元数据模型(meta-data),通常被用来进行知识管理。今天学术界和相当一部分知识图谱公司都在使用RDF来描述图谱当中的“元数据”。RDF默认的查询语句是SPARQL。但RDF和SPARQL存在逻辑复杂、冗长等问题,很难维护。很快,开发者就不喜欢它了。打个比方,你更喜欢XML还是JSON?可能是JSON,对不对?因为它更简单、便捷。毕竟轻量和快速是这个时代 ——互联网时代的主旋律。

与RDF同时间也催生了LPG (Labeled Property Graph)标签属性图,顾名思义,是带有属性的图,也就是说图中的两大类基础数据类型——点和边都可以带有属性,例如名称 、类型、权重、时间戳等等。

LPG代表着新一代的图技术与产品,而这其中最早也最知名的一个是Neo4j,它是由瑞典团队成立的公司,其在2011年发布了第一款LPG(Labeled Property Graph)图数据库产品。在这个领域也出现了不少竞争者和新的玩家,如:TitanDB(2016年退出市场)、JanusGraph(Titan的衍生品)、AWS的Neptune、百度的HugeGraph、DGraph、TigerGraph、ArangoDB、Ultipa Graph等等。

这些图数据库产品的特征各不相同,例如它们在技术底层所采取的架构构建方式,它们触达用户的服务模式、商业模式、可编程API与SDK都有所差异。很显然,图数据库的发展处于一个百花齐放的阶段,市场的发展极为迅速,且用户的需求五花八门,如果某一种图数据库的解决方案是为了适应某些具体的场景而搭建起来的,那么它在通用性上面就难免会存在问题。

好消息是在SQL成为数据库领域唯一的国际标准40年之后,终于将迎来第二个国际标准GQL(Graph Query Language)。有趣的是,在过去的10年的大数据领域中NoSQL的发展都没有催生任何国标,反而是图数据库的发展将迎来属于自己的国际标准,这恰恰说明图数据库的(标准化的)未来可期!

If Human brains were to be the ultimate database,

Graph Database is the shortest path to be there!

—— END ——

【往期回顾】

图计算发展简史(1)CSDN

图计算发展简史(2)图计算发展简史(2)_Ultipa的博客-CSDN博客

通过本文的背景介绍,希望读者能够做好准备,更好地进入图数据库的世界。

图计算发展简史之完整目录:

一.图计算溯源

二.图论的早期应用场景

三.浅谈拓扑

四.从图到随机图理论的研究

五.关系型数据库和非关系型数据库

六.图计算与后关系型数据库时代

本文摘编于《图数据库原理、架构与应用》,经出版方授权发布。(书号:9787111708100)转载请保留文章来源。

◆内容简介:

这是一本能帮助读者快速掌握图数据库的原理、架构、算法、扩展、规划、测评、优化以及实战应用的著作,书中的理论和实践均来自国内领先的图数据库企业Ultipa的科研成果和实践经验,由Ultipa的创始人兼CTO孙宇熙领衔撰写。

该书内容全面、体系完整、循序渐进、深入浅出、图文并茂,兼具理论性、实战性、趣味性。用通俗的语言将抽象的图数据库技术具体化、形象化,将带领读者经历一次非凡的“图数据之旅”。

通过本书,你将掌握以下内容:

·图数据库、图计算的概念与区别;

· 图计算、图存储、图查询语言的原理;

· 高性能图存储架构、计算架构;

·图数据库查询与分析框架的设计;

· 度计算、中心性计算、相似度计算、连通性计算等图算法;

· 可扩展的图数据库设计;

· 高可用分布式设计;

· 图数据库在决策智能、反欺诈、反洗钱、智能推荐、流动性风险管理等多个领域的实战经验; · 图系统的规划、评测与优化。

◆作者简介:

孙宇熙:业界知名的高性能计算与存储系统专家、大数据专家、数据库专家及学者,Ultipa创始人兼CTO。曾任EMC(易安信)亚太研发集团CTO和中国研究院院长、哈尔滨工业大学客座教授、中国电子学会云计算专家委员会委员;持有50多个美国及中国专利;文物鉴赏家、收藏家,哈佛大学美术馆亚洲艺术鉴赏委员会理事;技术作家,著有《云计算与大数据》《软件定义数据中心》《大数据分析》《程序员生存手册》(The 99 Points of Launching High-Tech Business)等多部中英文科技畅销书。

嬴图(Ultipa)团队 一支致力于构建世界上最快、最直观、最易用的下一代实时图数据库的国际化的技术研发与推广团队。自研的核心产品包括高性能图计算与实时图数据库软件,已构建了一整套针对数据资产管理、数据生命周期管理、数据治理指标管理的智能化产品矩阵。团队目前已获得高密度并行图计算、超级节点处理、高性能查询语言及半结构化图数据处理、海量数据导入、装置、设备及存储介质、数据库深度路径搜索、动态图剪枝过滤等30多项技术成果和专利,100%自研并拥有全部底层架构,研发成果已成功服务于多家大型央企、国有企业及世界500强企业。

猜你喜欢

转载自blog.csdn.net/Ultipa/article/details/126848114
今日推荐