下一代大数据处理平台Apache Beam成为Apache顶级项目 - 代码天地

下一代大数据处理平台Apache Beam成为Apache顶级项目

编程语言 2021-04-02 11:31:53 阅读次数: 0

下一代大数据处理平台Apache Beam成为Apache顶级项目

iteblog 过往记忆大数据
下一代大数据处理平台Apache Beam成为Apache顶级项目
Apache软件基金会在2017年01月10正式宣布Apache Beam从孵化项目毕业，成为Apache的顶级项目

Apache Beam(原名Google DataFlow)是Google在2016年2月份贡献给Apache基金会的Apache孵化项目，被认为是继MapReduce，GFS和BigQuery等之后，Google在大数据处理领域对开源社区的又一个非常大的贡献。Apache Beam的主要目标是统一批处理和流处理的编程范式，为无限，乱序，web-scale的数据集处理提供简单灵活，功能丰富以及表达能力十分强大的SDK。

Beam仅仅是一个SDK，是一个应用顶层的API，那么它下层支持的数据处理框架（官方叫做Apache Beam Pipeline Runners）主要包括Apache Apex，Apache Flink，Apache Spark以及它自己的Google Cloud Dataflow。

Apache Beam 的两大特点

1、将数据的批处理（batch）和流处理（stream）编程范式进行了统一；
2、能够在任何的执行引擎上运行。

它不仅为模型设计、更为执行一系列数据导向的工作流提供了统一的模型。这些工作流包括数据处理、吸收和整合。

为什么会诞生Apache Beam

大数据处理领域的一大问题是：开发者经常要用到很多不同的技术、框架、API、开发语言和 SDK。根据任务场景的不一样，开发者很可能会用 MapReduce 进行批处理，用 Apache Spark SQL 进行交互请求，用 Apache Flink 实时流处理。新的分布式处理框架可能带来的更高的性能，更强大的功能，更低的延迟等，但用户切换到新的分布式处理框架的代价也非常大：需要学习一个新的数据处理框架，并重写所有的业务逻辑。

解决这个问题的思路包括两个部分，首先，需要一个编程范式，能够统一，规范分布式数据处理的需求，例如，统一批处理和流处理的需求。其次，生成的分布式数据处理任务应该能够在各个分布式执行引擎上执行，用户可以自由切换分布式数据处理任务的执行引擎与执行环境。Apache Beam正是为了解决以上问题而提出的。

因为笔者并没有实际使用Apache Beam的经验，所以深入的知识请参见Apache Beam的官方文档。

猜你喜欢

转载自blog.51cto.com/15127589/2680423

下一代大数据处理平台Apache Beam成为Apache顶级项目

Apache Beam: 下一代的大数据处理标准

Apache Doris 成为 Apache 顶级项目

Apache InLong 毕业成为 Apache 顶级项目

Storm升级成为Apache顶级项目

Lucene.Net 成为Apache的顶级项目

Apache Gobblin 成为 ASF 顶级项目

Apache Superset 成为 ASF 顶级项目

Aapache ShenYu 毕业成为 Apache 顶级项目！

新一代大数据处理引擎 Apache Flink

下一代Apache Hadoop MapReduce框架的架构

下一代实时数据库：Apache Doris 【一】简介

下一代实时数据库：Apache Doris 【二】编译与安装

下一代云计算平台Apache Mesos定制自己的PaaS-1(Apache Mesos安装部署)

Apache Drill 成为 Apache 基金会顶级项目

Apache ShenYu（神禹）毕业成为Apache顶级项目！

恭喜 Apache ShenYu 毕业成为 Apache 顶级项目！

下一代云计算平台Apache Mesos定制自己的PaaS-3(docker应用发布)

Unomi 成为 Apache 软件基金会顶级项目

Skywalking 结束孵化，成为 Apache 基金会顶级项目

NetBeans 成为 Apache 软件基金会顶级项目

Apache Echarts 顺利毕业，成为 ASF 顶级项目

Apache Kafka：下一代分布式消息系统

使用 Apache Lucene 和 Solr 4 实现下一代搜索和分析

Apache Kafka：下一代分布式消息系统（转）

简介Apache Pulsar-下一代分布式消息系统

下一代分布式消息队列Apache Pulsar

Apache RocketMQ EventBridge：构建下一代事件驱动引擎

官宣！Apache Doris 从 Apache 基金会毕业，正式成为 Apache 顶级项目！

开源工业物联网数据库 Apache IoTDB 毕业成为 Apache 顶级项目！

今日推荐

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

周排行

Family Tree 题解

BZOJ 1093 最大半连通子图 SCC + DP

幂等处理

Spring----学习（2）----XML 配置Bean 自动装配

SQL Server 远程更新目标表数据

HIbernate3.6 环境搭建

特殊符号正则表达式

【Linux】第一章进程的理解

843. n-皇后问题（dfs+输出各种情况）

空间数据库2

每日归档

更多

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)