将爬取的数据传入到pipeline中，需要对settings.py进行修改 - 代码天地

将爬取的数据传入到pipeline中，需要对settings.py进行修改

其他 2018-11-03 07:49:50 阅读次数: 0

爬虫主代码xx.py完成之后，在Terminal端，运行scrapy crawl xx.py

1.如果运行结果正确，这时候，我们需要将爬取的数据通过某种途径（数据库、.txt存入本地或者其他）存储下来，此时pipeline.py文件用来决定到此是以哪种方式存储下来。

此时，首先编写pipeline.py文件，比如我希望将我爬取的信息存入本地，此时pipeline.py文件如下：

import scrapy
import codecs
import sys
from imp import reload

reload(sys)
#sys.setdefaultencoding('utf-8')


class NewsPipeline(object):
    def process_item(self, item, spider):
        file_name = item['news_title']
        file_name += '.txt'
        fp = codecs.open(item['path'] + '/' + file_name, 'w')
        fp.write('name_id:' + item['name_id'] + '\n')
        fp.write('website_name:' + item['website_name'] + '\n')
        fp.write('post_name:' + item['post_name'] + '\n')
        fp.write('news_url:' + item['news_url'] + '\n')
        fp.write('news_author:' + item['news_author'] + '\n')
        fp.write('publish_time:' + item['publish_time'] + '\n')
        fp.write('crawl_time:' + item['date'] + '\n')
        fp.write('news_tags:' + item['news_tag'] + '\n')
        fp.write('news_title:' + item['news_title'] + '\n')
        fp.write('news_content:' + item['article_contentText'] + '\n')
        fp.close()
        return item

2.其此，需要将爬虫文件获取的数据传入到pipeline中，需要通过设置settings.py文件

将ITEM_PIPELINES中的这三行注释去掉。其中'ｘｘ.pipelines.ＸｘPipeline'　（ｘｘ表示自定义的爬虫名称），这一步完成之后，可以查看到本地已经存储下来爬取的数据。

ITEM_PIPELINES = {
    'news.pipelines.NewsPipeline': 300,
}

３.如果遇到同类问题，可以一同讨论一下。

猜你喜欢

转载自blog.csdn.net/u013155359/article/details/81567192

将爬取的数据传入到pipeline中，需要对settings.py进行修改

将爬取的实习僧网站数据传入HDFS

Django中的settings.py介绍

settings.py中配置静态文件

scrapy中的settings.py文件详情

Django中settings.py配置

settings.py的设置

settings.py

django settings.py

c 将数据传入ThreadStart中

将Excel表格中的数据传入到数据库中

scrapy 中 settings.py 中字段的意思

scrapy 中settings.py配置文件详解

django读写配置settings.py中内容

django settings.py配置

django settings.py 源码

settings.py相关配置

关于Scrapy: 如何分别从Spider、Middleware、Pipeline获取settings.py里的参数

将hdfs上的数据传入hbase表中

Django自学之将views.py中的数据传递到前端html页面，并展示

java将一个类的数据传入到另一个类中。

Django中关于ORM数据库中的操作————（主要是models.py的设计（数据表的设计）与settings.py 的配置）

Django框架（三）---- 设置settings.py

Django框架的设置settings.py

scrapy settings.py简单设置

django项目settings.py的基础配置

django的settings.py文件解析

Django - settings.py 内容分析

scrapy_系统设置_settings.py

django项目settings.py文件内容

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

【转】spring中对控制反转和依赖注入的理解

tms webcore 安装和使用

java程序员进阶相关书籍

SpringMVC接受请求参数、

如何保存训练好的机器学习模型

MyEclipse、Eclipse设置项目JDK的三个地方

商超行业微信小程序开发定制一般多少钱（行业技术人员解读）

Markdown编辑器语言——30分钟入门到到精通

Linux系统下MongoDB的简单安装与基本操作

Power Strings

每日归档

更多

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)