Scrapy新建一个爬虫项目及环境搭建 - 代码天地

Scrapy新建一个爬虫项目及环境搭建

其他 2018-08-17 12:14:03 阅读次数: 0

Scrapy目录结构：

ArticleSpider
└── 
    ├── ArticleSpider
    │   ├── __init__.py
    │   ├── items.py
    │   ├── middlewares.py
    │   ├── pipelines.py
    │   ├── settings.py
    │   └── spiders （该目录下可以写爬虫文件）
    │       └── __init__.py
    |          |__jobbole.py (通过命令创建scrapy genspider jobbole blog.jobbole.com )
    └── scrapy.cfg

scrapy.cfg: 项目的配置文件
tutorial/: 该项目的python模块。之后您将在此加入代码。
tutorial/items.py: 项目中的item文件.
tutorial/pipelines.py: 项目中的pipelines文件.
tutorial/settings.py: 项目的设置文件.
tutorial/spiders/: 放置spider代码的目录.

1、安装scrapy环境（当然你的电脑要有Python3环境）
pip install -i https://pypi.douban.com/simple/ scrapy
执行命令查看版本号：scrapy version

注意：
命令行有3种安装Scrapy的方式：
apt-get:千万不要用，因为你会下载到一个上古时期的Scrapy版本，产生一系列不兼容的问题
easy_install:我没有安装成功
pip:Scrapy官网上推荐的下载方式，我们使用这种方法

2、创建一个scrapy项目
scrapy startproject ArticleSpider

3、用pycharm打开项目，创建一个名为jobblog.py的文件，爬取的网址为blog.jobbole.com
cd ArticleSpider
scrapy genspider jobbole blog.jobbole.com

4、利用pycharm新建项目虚拟环境，File -> Stting -> Project Interpreter -> 选择python3.5

5、setting.py文件里 ROBOTSTXT_OBEY = True 改为： ROBOTSTXT_OBEY = False

6、在settings,py同级新建main.py文件，用来debug调试：
# -*- coding: utf-8 -*-
from scrapy.cmdline import execute

import sys
import os

sys.path.append(os.path.dirname(os.path.abspath(__file__)))

execute(["scrapy", "crawl", "jobbole"])

猜你喜欢

转载自blog.csdn.net/qq_33867131/article/details/81746224

Scrapy新建一个爬虫项目及环境搭建

如何使用Scrapy 搭建一个爬虫项目

新建一个scrapy项目

如何用scrapy新建一个爬虫文件

pycharm怎么新建一个scrapy项目

手把手教你如何新建scrapy爬虫框架的第一个项目（下）

手把手教你如何新建scrapy爬虫框架的第一个项目（上）

vue环境搭建及vue新建一个项目（最简洁版）

规范开始一个scrapy爬虫项目

利用scrapy框架实现一个简单的爬虫项目

Scrapy入门-第一个爬虫项目

如何利用scrapy创建一个爬虫项目

使用scrapy创建第一个爬虫项目

scrapy爬虫笔记（创建一个新的项目并运行） scrapy爬虫笔记（安装）

scrapy爬虫环境搭建

scrapy爬虫框架（二）：创建一个scrapy爬虫

python爬虫九：如何在pycharm中安装scrapy，创建一个scrapy项目

【scrapy爬虫】Scrapy安装、详细指令参数讲解及第一个项目实例

第二章 python分布式爬虫打造搜索引擎环境搭建第一节创建第一个scrapy项目

Scrapy搭建爬虫项目

第一个scrapy爬虫

做一个简单的scrapy爬虫

【Python爬虫：Scrapy】之 PyCharm 搭建Scrapy环境+创建Scrapy项目实例

scrapy 安装及新建爬虫项目并运行

Python爬虫Scrapy环境搭建

Scrapy爬取全网小说到本地TXT，Python少年最爱的一个爬虫项目！

scrapy 一个项目里同时运行多个爬虫

Python爬虫入门实战：创建第一个完整的scrapy项目！

新手爬虫之创建第一个完整的scrapy项目

Python爬虫，利用scrapy来编写一个爬虫！

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)