Python 分布式爬虫框架 Scrapy 4-2 Scrapy安装以及目录结构介绍

新建虚拟环境:

mkvirtualenv --python=C:\Users\Administrator\AppData\Local\Programs\Python\Python37\python.exe Scrapy

安装scrapy包:

pip install -i https://pypi.douban.com/simple scrapy

新建scrapy工程:

scrapy startproject Spider

会提示我们项目创建成功,使用了某个默认模板。实际上,scrapy是可以自定义模板的。

我们目前只是创建了scrapy的工程框架,里面并没有具体spider的模板。

此时,项目目录是这样子的:

scrapy.cfg是配置文件。

settings.py包含了很多关于项目的配置。

pipelines.py中与数据存储相关。

middlewares.py可以用来存放我们自己定义的middleware。

items.py用来定义数据保存的格式。

spiders是一个python包,用来存放具体某个网站的爬虫。

根据命令行中的提示,执行:

cd Spider
scrapy genspider cnblogs news.cnblogs.com

提示我们通过一个basic的template新建了一个spider,实际上spider的模板也可以自定义。

此时项目结构为:

cnblogs.py中默认帮我们生成了一些代码,比如允许的域名和起始url等。

在pycharm中配置好python解释器,就可以开始编写了。

发布了101 篇原创文章 · 获赞 26 · 访问量 1万+

猜你喜欢

转载自blog.csdn.net/liujh_990807/article/details/100027499