新建虚拟环境:
mkvirtualenv --python=C:\Users\Administrator\AppData\Local\Programs\Python\Python37\python.exe Scrapy
安装scrapy包:
pip install -i https://pypi.douban.com/simple scrapy
新建scrapy工程:
scrapy startproject Spider
会提示我们项目创建成功,使用了某个默认模板。实际上,scrapy是可以自定义模板的。
我们目前只是创建了scrapy的工程框架,里面并没有具体spider的模板。
此时,项目目录是这样子的:
scrapy.cfg是配置文件。
settings.py包含了很多关于项目的配置。
pipelines.py中与数据存储相关。
middlewares.py可以用来存放我们自己定义的middleware。
items.py用来定义数据保存的格式。
spiders是一个python包,用来存放具体某个网站的爬虫。
根据命令行中的提示,执行:
cd Spider
scrapy genspider cnblogs news.cnblogs.com
提示我们通过一个basic的template新建了一个spider,实际上spider的模板也可以自定义。
此时项目结构为:
cnblogs.py中默认帮我们生成了一些代码,比如允许的域名和起始url等。
在pycharm中配置好python解释器,就可以开始编写了。