1.创建项目:cmd打开scrapy所在位置,输入命令
scrapy startproject tutorial
2.定义item:编辑item.py,对您想要采集的数据类型进行定义。例如:
3.编写爬虫:在spiders的文件下新建一个domz_spider.py文件,代码如下:
4.启动爬虫:在cmd的命令行转至spiders的根目录下,输入命令
scrapy crawl dmoz
5.保存数据:
scrapy crawl dmoz -o items.json
或者
scrapy crawl dmoz -o items.csv