python爬虫之scrapy框架介绍

前言

运用request模块已经能爬取百分之90的网站了,那么scrapy框架是为了解决那百分之10的网站吗?
答案是否定的。scrapy的目的是为了让爬虫更加的高效,简介

使用

  1. 导入模块

pip install scrapy

  1. 创建项目(mySpider是项目名)

scrapy startproject mySpider

会出现下面的目录
在这里插入图片描述

下面来简单介绍一下各个主要文件的作用:

scrapy.cfg :项目的配置文件

mySpider/ :项目的Python模块,将会从这里引用代码

mySpider/items.py :项目的目标文件

mySpider/pipelines.py :项目的管道文件

mySpider/settings.py :项目的设置文件

mySpider/spiders/ :存储爬虫代码目录

  1. 爬数据
    输入命令:

scrapy genspider itcast “itcast.cn”

itcast是爬虫的名字

  1. 运行

scrapy crawl itcast

原创文章 73 获赞 79 访问量 33万+

猜你喜欢

转载自blog.csdn.net/qq_41346335/article/details/103119827