Scrapy新建一个爬虫项目及环境搭建

Scrapy目录结构:

ArticleSpider
└── 
    ├── ArticleSpider
    │   ├── __init__.py
    │   ├── items.py
    │   ├── middlewares.py
    │   ├── pipelines.py
    │   ├── settings.py
    │   └── spiders (该目录下可以写爬虫文件)
    │       └── __init__.py
    |          |__jobbole.py (通过命令创建scrapy genspider jobbole blog.jobbole.com )
    └── scrapy.cfg

scrapy.cfg: 项目的配置文件
tutorial/: 该项目的python模块。之后您将在此加入代码。
tutorial/items.py: 项目中的item文件.
tutorial/pipelines.py: 项目中的pipelines文件.
tutorial/settings.py: 项目的设置文件.
tutorial/spiders/: 放置spider代码的目录.
1、安装scrapy环境(当然你的电脑要有Python3环境)
pip install -i https://pypi.douban.com/simple/ scrapy
执行命令查看版本号:scrapy version

注意:
命令行有3种安装Scrapy的方式:
apt-get:千万不要用,因为你会下载到一个上古时期的Scrapy版本,产生一系列不兼容的问题
easy_install:我没有安装成功
pip:Scrapy官网上推荐的下载方式,我们使用这种方法

2、创建一个scrapy项目
scrapy startproject ArticleSpider

3、用pycharm打开项目,创建一个名为jobblog.py的文件,爬取的网址为blog.jobbole.com
cd ArticleSpider
scrapy genspider jobbole blog.jobbole.com

4、利用pycharm新建项目虚拟环境,File -> Stting -> Project Interpreter -> 选择python3.5

5、setting.py文件里 ROBOTSTXT_OBEY = True 改为: ROBOTSTXT_OBEY = False

6、在settings,py同级新建main.py文件,用来debug调试:
# -*- coding: utf-8 -*-
from scrapy.cmdline import execute

import sys
import os

sys.path.append(os.path.dirname(os.path.abspath(__file__)))

execute(["scrapy", "crawl", "jobbole"])


猜你喜欢

转载自blog.csdn.net/qq_33867131/article/details/81746224
今日推荐