一.Django+Celery实现异步任务
1.1 Celery介绍
celery是一个强大的分布式任务队列的异步处理模块,可以让执行的任务完全脱离主程序,我们通常使用它来实现异步任务(async task)和定时任务(crontab)
Celery的架构由三部分组成,消息中间件(message broker),任务执行单元(worker)和任务执行结果存储backend(task result store)组成
可以看到,Celery 主要包含以下几个模块:
任务模块 Task
包含异步任务和定时任务。其中,异步任务通常在业务逻辑中被触发并发往任务队列,而定时任务由 Celery Beat 进程周期性地将任务发往任务队列。
消息中间件 Broker
Broker,即为任务调度队列,接收任务生产者发来的消息(即任务),将任务存入队列。Celery 本身不提供队列服务,官方推荐使用 RabbitMQ 和 Redis 等。
任务执行单元 Worker
Worker 是执行任务的处理单元,它实时监控消息队列,获取队列中调度的任务,并执行它。
任务结果存储 Backend
Backend 用于存储任务的执行结果,以供查询。同消息中间件一样,存储也可使用 RabbitMQ, redis 和 MongoDB 等。
所以总结一下celery:它是一个处理大量消息的分布式系统,能异步任务、定时任务,使用场景一般用于耗时操作的多任务或者定时性的任务
1.2 Celery模塊安裝/使用
pip install celery
celery中常用方法
task.delay():这是apply_async方法的别名,但接受的参数较为简单;
task.apply_async(args=[arg1, arg2], kwargs={key:value, key:value})
send_task():可以发送未被注册的异步任务,即没有被celery.task装饰的任务;
routing_key:自定义路由键;
queue:指定发送到哪个队列;
exchange:指定发送到哪个交换机;
priority:任务队列的优先级,0-9之间;
serializer:任务序列化方法;通常不设置;
compression:压缩方案,通常有zlib, bzip2
headers:为任务添加额外的消息;
link:任务成功执行后的回调方法;是一个signature对象;可以用作关联任务;
link_error: 任务失败后的回调方法,是一个signature对象;
自定义发布者,交换机,路由键, 队列, 优先级,序列方案和压缩方法:
task.apply_async((2,2),
compression='zlib',
serialize='json',
queue='priority.high',
routing_key='web.add',
priority=0,
exchange='web_exchange')
# 注意,celery4版本后,CELERY_BROKER_URL改为BROKER_URL
BROKER_URL = 'amqp://username:passwd@host:port/虚拟主机名'
# 指定结果的接受地址
CELERY_RESULT_BACKEND = 'redis://username:passwd@host:port/db'
# 指定任务序列化方式
CELERY_TASK_SERIALIZER = 'msgpack'
# 指定结果序列化方式
CELERY_RESULT_SERIALIZER = 'msgpack'
# 任务过期时间,celery任务执行结果的超时时间
CELERY_TASK_RESULT_EXPIRES = 60 * 20
# 指定任务接受的序列化类型.
CELERY_ACCEPT_CONTENT = ["msgpack"]
# 任务发送完成是否需要确认,这一项对性能有一点影响
CELERY_ACKS_LATE = True
# 压缩方案选择,可以是zlib, bzip2,默认是发送没有压缩的数据
CELERY_MESSAGE_COMPRESSION = 'zlib'
# 规定完成任务的时间
CELERYD_TASK_TIME_LIMIT = 5 # 在5s内完成任务,否则执行该任务的worker将被杀死,任务移交给父进程
# celery worker的并发数,默认是服务器的内核数目,也是命令行-c参数指定的数目
CELERYD_CONCURRENCY = 4
# celery worker 每次去rabbitmq预取任务的数量
CELERYD_PREFETCH_MULTIPLIER = 4
# 每个worker执行了多少任务就会死掉,默认是无限的
CELERYD_MAX_TASKS_PER_CHILD = 40
# 设置默认的队列名称,如果一个消息不符合其他的队列就会放在默认队列里面,如果什么都不设置的话,数据都会发送到默认的队列中
CELERY_DEFAULT_QUEUE = "default"
# 设置详细的队列
CELERY_QUEUES = {
"default": {
# 这是上面指定的默认队列
"exchange": "default",
"exchange_type": "direct",
"routing_key": "default"
},
"topicqueue": {
# 这是一个topic队列 凡是topictest开头的routing key都会被放到这个队列
"routing_key": "topic.#",
"exchange": "topic_exchange",
"exchange_type": "topic",
},
"task_eeg": {
# 设置扇形交换机
"exchange": "tasks",
"exchange_type": "fanout",
"binding_key": "tasks",
},
}
二、动态指定任务队列,设置优先级
在提交任务的时候apply_async设置队列指定为优先级队列celery_demo,并且设置优先级为5
sig = add_time.s(1, 1)
sig.apply_async(queue='celery_demo',priority=5)
sig = add_time.s(2, 2)
sig.apply_async(queue='celery_demo',priority=7)
sig = add_time.s(3, 3)
sig.apply_async(queue='celery_demo',priority=8)
可以看到先执行了任务1,然后执行了任务3,最后执行了任务2
为什么会这样呢,不应该是优先级最高的任务3最先执行吗?
这里我们要考虑一个问题,在当前我们的队列是空的,也就是在队列非阻塞的情况下,当然是哪个任务先到先提交,哪个任务就先执行。
接着任务1在执行的时候sleep了10s,也就是把队列阻塞了10s中,这时候队列中还有任务2,任务3。
这时候任务2.任务3就要进行排序了,怎么排序呢,就是根据priority设置的数值,谁大谁优先执行。
这种只会在设置了优先级队列的时候才会进行这种排序,不然都是按照任务提交的顺序进行

设置过期时间代码
# delay
from tasks import add
add.delay(arg1,arg2,kwarg1='x',kwarg2='y')
add.delay(*args, **kwargs).apply_async(args, kwargs)
# apply_async
task.apply_async(args=[arg1,arg2], kwargs={
'kwargs':'x','kwargs':'y'})
tasks.apply_async((arg,), {
'kwarg': value})
# 从现在起10秒内执行
tasks.apply_async(countdown=10)
# 从现在起10秒内执行,使用指定eta
tasks.apply_async(eta=now + timedelta(seconds=10))
# 从现在起一分钟后执行,但在2分钟后过期
tasks.apply_async(countdown=60, expires=120)
# 在2天后到期,设置使用datetime对象
T.apply_async(expires=now + timedelta(days=2))
# send_task:任务未在当前进程中注册
app.send_task('任务', args=[arg,], queue='default')
# signature用于传递任务调用签名的对象(例如通过网络发送),并且它们也支持calling api
task.s(arg1,arg2,kwarg1='x',kwargs2='y').apply_async()