官宣！Amazon EMR正式支持Apache Hudi - 代码天地

官宣！Amazon EMR正式支持Apache Hudi

其他 2019-11-22 11:34:12 阅读次数: 0

Apache Hudi是一个开源的数据管理框架，其通过提供记录级别的insert, update, upsert和delete能力来简化增量数据处理和数据管道开发。Upsert指的是将记录插入到现有数据集中（如果它们不存在）或进行更新（如果它们存在的话）的功能。通过高效管理Amazon S3中数据的布局方式，Hudi允许近乎实时地提取和更新数据。Hudi维护在数据集上所执行的操作的元数据，以确保这些操作的原子性和一致性。
Hudi可与Apache Spark、Apache Hive和Presto集成在一起。在Amazon EMR 5.28.0和更高版本中，Amazon EMR在安装Spark，Hive或Presto时会默认安装Hudi组件。这样就可以使用Spark或Hudi提供的 DeltaStreamer来创建或更新Hudi数据集，便可以使用Hive、Spark或Presto交互式地查询Hudi数据集，还可以进行增量拉取以构建数据处理管道（增量拉取是指仅提取两次操作之间发生变化的数据的能力）。
上述功能将使得 Hudi 适用于以下场景：

使用来自传感器和其他的物联网（IoT）设备，需要特定数据插入和更新事件的流数据。
遵守数据隐私规定，用户可能会选择忘记或修改他们对应用程序如何使用数据的协议。
实现变更数据捕获（Change Data Capture）系统，可以随时间将变更应用于数据集。

随Amazon EMR 5.28.0安装的Hudi版本为0.5.0-incubating。值得注意的是：0.5.0-incubating版本是Hudi社区近一个月内发布的第一个Apache Release版本。Hudi才加入Apache孵化器大半年时间，就以非常惊人的速度被AWS EMR团队集成进5.28.0发布版，这也是Amazon EMR支持的开源项目里唯一一个还处于孵化阶段的项目。至此，已有Uber与Amazon两大巨头使用Hudi，这也充分证明了数据湖方向的火热以及Hudi未来可与Delta Lake形成两强相争的对峙局面。

欢迎关注ApacheHudi

猜你喜欢

转载自www.cnblogs.com/apachehudi/p/11910488.html

官宣！Amazon EMR正式支持Apache Hudi

Amazon EMR Hudi 性能调优——Clustering

官宣！AWS Athena正式可查询Apache Hudi数据集

官宣 | ASF官方正式宣布Apache Hudi成为顶级项目

使用Amazon EMR和Apache Hudi在S3上插入，更新，删除数据

Apache Hudi 介绍与应用

Apache Hudi使用简介

Apache Hudi 是什么？

Apache Hudi源码编译

数据湖风暴来袭，EMR重磅发布Apache Hudi

写入Apache Hudi数据集

Apache Hudi技术与架构-1

Apache+Hudi入门指南: Spark+Hudi+Hive+Presto

Apache Hudi初探(十一)(与spark的结合)--hudi的markers机制

Apache Hudi初探(十)(与spark的结合)--hudi的Compaction操作

Apache Hudi集成Apache Zeppelin实战

Apache Hudi 设计与架构最强解读

Apache RocketMQ + Hudi 快速构建 Lakehouse

Apache Hudi初探(六)(与spark的结合)

Apache Hudi初探(四)(与spark的结合)

Apache Hudi初探(五)(与spark的结合)

Apache Hudi初探(七)(与spark的结合)

Apache Hudi初探(一)(与flink的结合)

Apache hudi 核心功能点分析

Apache Hudi 0.12.2发布

Hudi原理 | 在Apache Hudi中为快速更删配置合适的索引原创

Apache Hudi初探(二)(与flink的结合)--flink写hudi的操作(JobManager端的提交操作)

官宣！微软正式完成GitHub收购

官宣 | Amoro 0.6.0 版本正式发布

Hudi：初识Hudi

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)