airflow介绍 - 代码天地

airflow介绍

其他 2019-01-03 10:42:09 阅读次数: 0

1、为什么需要工作流调度系统

1、数据分析系统由大量的任务单元组成

java job,python job ,bash job ,mapreduce job etc.

2、任务单元之间存在时间先后以及前后依赖关系

2、常见工作流调度系统

系统自带的工具：

windows: 任务计划程序

apache oozie :重量级的任务调度系统，功能全面，配置复杂，XML文件定义工作流

azkaban ：solo server mode / multi server mode

3、为什么airflow

1. 系统配置（$AIRFLOW_HOME/airflow.cfg）

2. 作业管理（$AIRFLOW_HOME/dags/xxxx.py）

3. 运行监控（webserver)

4. 报警（邮件）

5. 日志查看（webserver 或 $AIRFLOW_HOME/logs/*)

6. 后台调度服务（scheduler)

7、支持15+operators，支持自定义operator

灵活易用（纯python编写）学习和维护成本低

4、airflow 的几个重要概念

DAG : directed acyclic graphs 即有向无环图

管理作业依赖关系

操作符 operator

定义实际需要执行的作业

web服务器-webserver

webserver 是 airflow 的界面展示

可显示 DAG 视图，控制作业的启停，清除作业状态重跑，数据统计，查看日志，管理用户及数据连接等

不运行 webserver 并不影响 airflow 作业的调度。

调度器-schduler

调度器 schduler 负责读取 DAG 文件，计算其调度时间，当满足触发条件时则开启一个执行器的实例来运行相应的作业。

task:

task是operator的一个实例，也就是DAGS中的一个node

Task Instance：task的一次运行。task instance 有自己的状态，包括"running", "success", "failed", "skipped", "up for retry"等。

Task Relationships：DAGs中的不同Tasks之间可以有依赖关系，如 TaskA >> TaskB，表明TaskB依赖于TaskA。

执行器-Executor

执行器有 SequentialExecutor, LocalExecutor, CeleryExecutor

1. SequentialExecutor 为顺序执行器，默认使用 sqlite 作为知识库，由于 sqlite 数据库的原因，任务之间不支持并发执行

2. LocalExecutor 为本执行器，任务之间支持并发执行，常用于生产环境，需要配置数据库连接 url。

3. CeleryExecutor 为 Celery 执行器，需要安装 Celery ,Celery 是基于消息队列的分布式异步任务调度工具。需要额外启动工作节点-worker。使用 CeleryExecutor 可将作业运行在远程节点上。消息队列编排各个worker节点

4、DaskExecutor

猜你喜欢

转载自blog.csdn.net/Gzigithub/article/details/85256688

airflow介绍

airflow

airflow 的使用之 Operators 介绍

安装airflow

初探airflow

airflow 笔记

AirFlow简介

Airflow安装

airflow的参数

airflow 安装

Airflow Oddment

airflow分享

airflow脚本

Airflow exploration

airflow框架

airflow-api 插件的安装与使用介绍

Airflow安装详细介绍以及入门Demo

全流程调度-Airflow介绍和使用

airflow 修改中国时区(改airflow源码)

Airflow Python工作流引擎的重要概念介绍

airflow 使用入门

Airflow使用注意

airflow的初次使用一

airflow + CeleryExecutor 环境搭建

Airflow使用入门指南

airflow使用本地时区

airflow 使用踩坑

airflow 配置 CeleryExecutor

airflow run记录

Airflow安装与简单使用

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)