持久化存储操作:
磁盘文件
基于终端指令
- 保证parse方法返回一个可迭代类型的对象(存储解析到的页面内容)
- 使用终端指令完成数据存储到制定磁盘文件中的操作
- scrapy crawl 爬虫文件名称 –o 磁盘文件.后缀
基于管道
- items:存储解析到的页面数据
- pipelines:处理持久化存储的相关操作
- 代码实现流程:
- 将解析到的页面数据存储到items对象
- 使用yield关键字将items提交给管道文件进行处理
- 在管道文件中编写代码完成数据存储的操作
- 在配置文件中开启管道操作
数据库
mysql
redis
编码流程:
- 将解析到的页面数据存储到items对象
- 使用yield关键字将items提交给管道文件进行处理
- 在管道文件中编写代码完成数据存储的操作
- 在配置文件中开启管道操作
注意
- 需要在管道文件中编写对应平台的管道类
- 在配置文件中对自定义的管道类进行生效操作
***问题:针对多个url进行数据的爬取
解决方案:请求的手动发送