Redisspider的爬虫和scrapy.spider的区别

Redisspider的爬虫和scrapy.spider的区别

Redisspider 分布式爬虫,请求的持久化,去重的持久化

  • 区别

    • 父类不一样,RedisSpider
    • start_urls没有了,多了redis_key ,往redis_key存入start_url地址
    • settings 中多了几行配置
  • 创建爬虫

    • scrapy genspider 爬虫名 爬取范围
    • 修改父类名
    • 修改redis_key
  • 启动爬虫

      1. 让爬虫就绪:scrapy crawl 爬虫名
      1. redis中存入url地址:lpush redis_key url

RedisCrawlSpider的爬虫和crwalspdier的区别

RedisCrawlSpider 分布式爬虫,请求的持久化,去重的持久化

  • 区别

    • 父类RedisCrawlSpider
    • start_urls没有了,多了redis_key ,往redis_key存入start_url地址
    • settings 中多了几行配置
  • 创建爬虫

    • scrapy genspider -t crawl 爬虫名 爬取范围
    • 修改父类名
    • 修改redis_key
  • 启动爬虫

      1. 让爬虫就绪:scrapy crawl 爬虫名
      1. redis中存入url地址:lpush redis_key url

crontab使用的方法

  • 分钟 小时 日 月 星期 命令
  • 30 9 8 * * ls #每个月的8号的9:30执行ls命令

在爬虫中使用crontab

    1. 爬虫启动命令写入脚本文件
cd `dirname $0`
scrapy crawl 爬虫名 >> run.log 2>&1
    1. 给脚本添加可执行权限
    • chmod +x run.sh
    1. 把脚本文件添加到crontab的配置中
    • 30 6 * * * /home/python/myspider/run.sh

猜你喜欢

转载自blog.csdn.net/weixin_44090435/article/details/86653993