大规模知识图谱数据流设计 - 代码天地

大规模知识图谱数据流设计

其他 2020-04-23 18:34:15 阅读次数: 0

知识图谱的数据量，更新方式，使用场景的不同，决定其数据流如何设计。

在应用有着上亿级别的节点数，数据存在着离线批量更新以及用户实时手工修改两种方式，使用场景也有着图查询以及模糊的搜索查询。这样就决定着数据流设计如下图：
在这里插入图片描述
分别介绍其中的功能模块：
（1）图数据库

采用图数据库来存储知识图谱的数据，图数据库天然地满足节点–>关系–>节点这种存储格式。目前业界多使用neo4j，titan等，使用分布式图数据库。感觉目前业界图数据库还没有一个有压倒性优势的系统，配置运维起来也比较麻烦。

（2）离线计算平台

要求每天会对图谱数据进行一次离线批量更新，在离线计算平台hadoop上完成，具体数据流如下：

2.1，新数据：数据源会有新实体进来，例如新增的歌曲，变化的电影播放次数等；

2.2，全量数据：把图数据库的最新全量数据同步回来，这部分数据里会包含用户的修改，会在后文中讲到；

2.3，增量数据：对新数据和全量数据进行diff，计算出增量数据，为了简洁起见，这里的增量数据仅仅考虑新增的节点，以及某些指定的节点属性，新增的边。

（3）Elasticsearch

由于对于图谱的查询存在一些分词模糊查询，原生的图数据库无法很好地满足查询需求，所以接入了Elasticsearch来承载这部分需求，每天会将图数据库数据同步到search。

（4）用户操作界面

用户有直接编辑知识图谱数据的需求，因此提供了操作界面，可以支持用户的编辑，包括新增节点，删除节点，修改边，修改节点属性等。对于这种用户操作会将其记录到mysql，实现操作记录可追溯，可重放，可撤销。

（5）定时清理程序

在长期的数据操作过程中，由于程序异常，数据异常等原因，不可避免地会出现一些无效数据，而图数据库的数据清理逻辑比较复杂，单独开启了一个定期清理程序。它会清理无效节点和无效边，保证图数据库的数据干净。

链接：https://www.jianshu.com/p/9528ea343d26

发布了25 篇原创文章 · 获赞 8 · 访问量 1万+

私信关注

猜你喜欢

转载自blog.csdn.net/for_yayun/article/details/104192585

大规模知识图谱数据流设计

大数据提取数据深度学习三元组关系抽取大规模知识图谱数据流设

大规模知识图谱的存储

大规模知识图谱的构建、推理及应用

GitHub开源史上最大规模中文知识图谱

论文浅尝 | 大规模知识图谱中的知识图谱补全和多跳推理

论文浅尝 | 打通推荐系统与知识图谱: 第一个公开的大规模链接数据集合

KDD2019 | 开放学术图谱（OAG）: 大规模知识图谱异构实体对齐

大规模、高质量的金融知识图谱，如何自动化构建？

万字详解：腾讯如何自研大规模知识图谱 Topbase

OPPO 自研大规模知识图谱及其在数智工程中的应用

百分点认知智能实验室出品：基于动态知识图谱的大规模数据集成技术

知识图谱应用实战案例100篇（一）-阿里巴巴超大规模知识图谱预训练实践：商品分类

【大数据】阿里巴巴的大规模数据流处理系统

知识图谱的模式层和数据层设计

知识图谱与数据治理

知识图谱-数据集

KG-开源项目：CMeKG【利用自然语言处理与文本挖掘技术，基于大规模医学文本数据，以人机结合的方式研发的中文医学知识图谱】

####案例车辆实时监控系统####在云上搭建大规模实时数据流处理系统

Brooklin: LinkedIn开源的近实时数据流大规模可扩展可靠分布式系统

苏宁构建知识图谱的大规模告警收敛和根因定位实践-AI 监控保证日常和大促稳定性

近实时大规模数据流式传输 Brooklin

大数据工程人员知识图谱

JavaScript数据类型知识图谱

数据分析知识图谱

【转载】大数据面试知识图谱

ML：数据预处理知识图谱

大数据时代的知识图谱

知识图谱数据可视化

知识图谱_数据挖掘主要技术

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

基本数据类型封装类比较 Java源码解读(一) 8种基本类型对应的封装类型

JS实现无缝滚动上

深入解析HashMap原理（基于JDK1.8）

mysql的连接池

关于.htc

linux下的ubuntu12.04图形界面

【数论】好推不好记的扩展欧几里德

设备树详解

cscope + tags 简单设置

xml学习

每日归档

更多

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)