一文告诉你大数据Flink是什么

Flink简介

一、是什么?

1.1 起源

Flink的前身是Stratosphere项目,Stratosphere是在2010~2014年由3所地处柏林的大学和欧洲的一些其他的大学共同进行的研究项目,2014年4月Stratosphere的代码被复制并捐赠给了Apache软件基金会,参加这个孵化项目的初始成员是Stratosphere系统的核心开发人员,2014年12月,Flink一跃成为Apache软件基金会的顶级项目。

1.2 logo的故事

在这里插入图片描述
在德语中,Flink一词表示快速和灵巧,项目采用一只松鼠的彩色图案作为logo,这不仅是因为松鼠具有快速和灵巧的特点,还因为柏林的松鼠有一种迷人的红棕色,而Flink的松鼠logo拥有可爱的尾巴,尾巴的颜色与Apache软件基金会的logo颜色相呼应,也就是说,这是一只Apache风格的松鼠。

1.3 设计理念

Apache Flink是为分布式、高性能、随时可用以及准确的流处理应用程序打造的开源流处理框架

二、使用情况

2.1 国际

在这里插入图片描述

2.2 国内使用情况

在这里插入图片描述

三、Flink更好的点与特性

更好的点当然是flink的高吞吐、低延时、以及结果的准确与良好的容错性!!!

3.1 主要特性

3.1.1 事件驱动

在这里插入图片描述

3.1.2 基于流的处理概念

Flink处理时任务一切都是由流组成,离线数据是有界的流;实时数据是一个没有界限的流:这就是所谓的有界流和无界流
在这里插入图片描述

3.1.3 其他

  • 支持事件时间(event-time)和处理时间(processing-time)语义
  • 精确一次(exactly-once)的状态一致性保证
  • 低延迟,每秒处理数百万个事件,毫秒级延迟
  • 与众多常用存储系统的连接
  • 高可用,动态扩展,实现7*24小时全天候运行

四、VS竞品Spark Streaming

4.1 流与微批

在这里插入图片描述

在这里插入图片描述

4.2 数据模型

  • spark 采用 RDD 模型,spark streaming 的 DStream 实际上也就是一组 组小批数据 RDD 的集合
  • flink 基本数据模型是数据流,以及事件(Event)序列

4.3 运行时架构

  • spark 是批计算,将 DAG 划分为不同的 stage,一个完成后才可以计算下一个
  • flink 是标准的流执行模式,一个事件在一个节点处理完后可以直接发往下一个节点进行处理

猜你喜欢

转载自blog.csdn.net/qq_39657909/article/details/105643089