定时爬虫

设置主函数,

import os
import time
while True:
	os.system("scrapy crawl spider")
	time.sleep(86400)  #每隔1天运行一次 24*60*60=86400s

这种方式可以实现每隔一天爬取一次,但每次都会偏移爬取所用的时间。
如果避免这种偏移,可使用crontab
在linux系统中,写一个脚本corn.sh

#!/bin/bash
# source /etc/profile
cd /E/home/user/project/temp/project &&

/E/home/user/.conda/envs/env/bin/scrapy crawl spider  >> /E/home/user/project/logs/log 

使用命令crontab -e打开定时,将前面所写的脚本添加进去

* * * * * sh corn.sh

可以用crontab -l查看定时任务

猜你喜欢

转载自blog.csdn.net/fuzizhu1/article/details/103806871