持久化存储操作:
a. 磁盘文件
a) 基于终端指令
i. 保证parse方法返回一个可迭代类型的对象(存储解析到的页面内容)
ii. 使用终端指令完成数据存储到制定磁盘文件中的操作
1. scrapy crawl 爬虫文件名称 –o 磁盘文件.后缀
b) 基于管道
i. items:存储解析到的页面数据
ii. pipelines:处理持久化存储的相关操作
iii. 代码实现流程:
1. 将解析到的页面数据存储到items对象
2. 使用yield关键字将items提交给管道文件进行处理
3. 在管道文件中编写代码完成数据存储的操作
4. 在配置文件中开启管道操作
b. 数据库
a) mysql
b) redis
c) 编码流程:
1. 将解析到的页面数据存储到items对象
2. 使用yield关键字将items提交给管道文件进行处理
3. 在管道文件中编写代码完成数据存储的操作
4. 在配置文件中开启管道操作
需求:将爬取到的数据值分别存储到本地磁盘、redis数据库、mysql数据。
1. 需要在管道文件中编写对应平台的管道类
2. 在配置文件中对自定义的管道类进行生效操作
***问题:针对多个url进行数据的爬取
解决方案:请求的手动发送