spider----scrapy框架 - 代码天地

spider----scrapy框架

其他 2018-11-07 21:05:55 阅读次数: 0

版权声明：个人原创，所属@jerry 本人 https://blog.csdn.net/qq_42938842/article/details/83757496

scrapy初认识
   scrapy是什么？是一个非常强大的python爬虫框架，底层语言使用python实现。既然是框架，肯定已经实现了很多其他的功能，用户只需要将自己的精力放到自己的业务逻辑中即可。多进程、多线程、队列、去重
   安装：pip install scrapy
   scrapy的工作原理
       引擎（engine）、爬虫（spiders）、调度器（scheduler）、下载器（downloader）、管道（pipeline）

这里用到生成器的使用,不懂得可以先去看看

（1）创建工程
scrapy startproject xxx

生成爬虫文件
cd firstbloodpro
scrapy genspider 爬虫名字网站域名

认识response对象
		运行scrapy
		cd firstblood/firstblood/spiders
		scrapy crawl 爬虫名字
		response.text    字符串格式内容
		response.body    字节格式内容
		response.url     对应请求url
		response.headers 响应头
		response.status  状态码

导出为指定格式文件

scrapy crawl qiubai -o qiubai.json
scrapy crawl qiubai -o qiubai.xml
scrapy crawl qiubai -o qiubai.csv

scrapy shell
   是什么？scrapy的一个调试工具，用来调试你的css、xpath、或者链接提取器，在scrapy shell中是正确的，到代码中肯定没问题
   依赖 ipython 是一个更加智能的python交互环境
       pip install ipython
   一般情况下，在任何终端页码直接输入 scrapy shell url 就可以直接进入调试页面，如果进不去，新建一个工程，做一些简单的配置，然后再工程终端下再执行 scrapy shell <url>

在配置文件setting中
   LOG_LEVEL = 'ERROR'
   和你的print没有，只要你print就会打印出来
   LOG_FILE = 'log.txt'

发送post请求
   如何发送
   启动就发送
       重写一个方法 start_requests(self)

猜你喜欢

转载自blog.csdn.net/qq_42938842/article/details/83757496

spider----scrapy框架

scrapy框架【spider】 scrapy框架之spider

scrapy框架之spider

爬虫框架Scrapy的组件spider

Scrapy框架的使用之Spider Middleware的用法

Scrapy框架的使用之Spider的用法

scrapy框架中Spider源码解析

大数据开发神器——Scrapy Spider框架

scrapy爬虫框架多个spider指定pipeline

Scrapy框架（三）：Spider Middleware的用法

spider数据挖掘-----9、scrapy框架(五)

spider数据挖掘-----8、scrapy框架(四)

spider数据挖掘-----7、scrapy框架(三)

spider数据挖掘-----6、scrapy框架(二)

Scrapy——Spider

Scrapy: Spider

Python scrapy框架教学（三）：scrapy.Spider

Python爬虫：scrapy框架Spider类参数设置

Spider学习笔记（九）:Scrapy框架的基础操作

Spider第四天-scrapy框架初体验

使用scrapy框架报错：Spider must return xxxx

Python笔记：爬虫框架Scrapy之Spider的原理

爬虫(十五)：Scrapy框架(二) Selector、Spider、Downloader Middleware

Python笔记：爬虫框架Scrapy之Spider Middleware的使用

scrapy框架中多个spider,tiems,pipelines的使用及运行方法

spider数据挖掘-----5、scrapy框架使用(一)

【Scrapy 框架】「版本2.4.0源码」Spider中间件（Spider Middleware）详解篇

【spider】满分的scrapy学习资源Learning Scrapy精通Python爬虫框架Scrapy

Scrapy-Spider

scrapy spider及其子类

今日推荐

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

周排行

阿里云短信服务平台注册

Windows下的字符串处理(1)

sqoop: mysql导入数据到hdfs, hive, hbase

commons.lang中常用的工具类

离线安装PostgreSQL11.6

使用PyTorch简单实现卷积神经网络模型

一文彻底搞定谱聚类

一道面试题引发的血案

One Chat for Mac(聊天工具)

TCP/IP的底层队列是如何实现的？

每日归档

更多

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)