Flink介绍

两种数据集:无边界数据集(连续不断追加)和有边界数据集

两种执行模式 

- 流式传输(Streaming) :只要数据生成,连续执行的处理 

- 批处理(Batch):在有限的时间内执行并运行到完整的处理,完成后释放计算资源

使用任一类型的执行模型来处理任一类型的数据集都是可能的,但不一定是最优的。
Flink依赖于流式处理模型,这是一种适用于处理无界数据集的流程:流执行是对连续生成的数据进行连续处理。

Flink是分布式流处理的开源框架:

提供准确的结果,即使在无序或延迟数据的情况下也是如此

具有状态和容错能力,可以在保持应用状态的同时无故障地从故障中恢复

大规模执行,在数千个节点上运行,具有非常好的吞吐量和延迟特性

状态管理,无序数据处理,灵活的窗口 - 对于Flink来说在无界数据集上计算的结果准确性至关重要.

Flink保证用于状态计算的一次性语义。“有状态”意味着应用程序可以维护一段时间内已处理的数据的聚合或汇总,Flink的检查点机制可以确保在发生故障时应用程序状态的一致性语义。

Flink支持流处理和窗口与事件时间语义,事件时间使得计算准确的结果变得容易,这些流可能产生无序数据或者数据延迟到达的情况。

除了数据驱动的窗口之外,Flink还支持基于时间,计数或会话的灵活窗口。Windows可以通过灵活的触发条件进行定制,以支持复杂的流式传输模式。Flink的窗口使得可以对创建数据的环境的现实进行建模。

参考文档

Flink简介

猜你喜欢

转载自www.cnblogs.com/badboy200800/p/9992961.html
今日推荐