爬虫---scrapy - 代码天地

爬虫---scrapy

其他 2018-08-04 15:56:20 阅读次数: 0

scrapy

ubuntu安装:

python3安装依赖库:sudo apt-get install python3 python3-dev python-pip libxml2-dev libxslt1-dev zlib1g-dev libffi-dev libssl-dev
通过pip 安装 Scrapy 框架命令：sudo pip3 install scrapy

基本流程:

startproject 创建一个新工程–scrapy startproject MySpider
进入项目目录 cd MySpider
在当前项目里创建爬虫: scrapy genspider atguigu ‘www.atguigu.com’
运行爬虫: scrapy crawl name

scrapy项目:自定义爬虫程序

需要引入item字段:from 项目名.items import 项目Item
name:与爬虫程序相同
allowed_domains : 定义爬取的域名(可以省略或者写多个)
start_urls 爬取的起始网址
parse_item方法中写解析数据的代码,获取数据方式text = response.xpath('//div[@class="name"]/text()').extract()[0]
item需要创建一个实例化对象 item = nameItem()
将数据放入itemitem['title']=title
yirld item 将每条数据返回

scrapy项目:items

MyscrapyItem类中定义要输出的变量如:teacher_name = scrapy.Field()

scrapy项目:settings:

配置图片保存路径 : IMAGES_STORE = “./Image”
ROBOTSTXT_OBEY = True 是否遵守爬虫协议
ITEM_PIPELINES 填写pipelines的路径,自定义输出管道数字值越小优先级越高
COOKIES_ENABLED = False#是否启用cookie,默认是启用，要设置不起来，防止别人知道我们
LOG_FILE=’name.txt’ 日志保存文件
LOG_LEVEL=’DEBUG’ 日志打印级别

scrapy项目:pipelines:

自定义输出管道
自定义函数需要带(self,spider)两个参数
def open_spider(self, spider):
process_item方法必须写，而且不能修改名称,item是对应的数据，spider是爬虫
def close_spider(self,spider):
使用pycharme运行爬虫

在项目根目录下创建一个py文件name任意,代码:

from scrapy import cmdline
cmdline.execute(“scrapy crawl atguigu”.split()) 参数为终端运行代码相同

创建规则爬虫

scrapy genspider -t crawl spider_name xx.com
spider_name.py:
rules: 规则,可放多个规则的列表或元组
rules = (
Rule(LinkExtractor(allow=r’Items/’), callback=’parse_item’, follow=True),
第一个参数是链接提取器(allow是正则,为空则取所有连接,deny取反)
第二个参数是回调
第三个参数是:是否允许深度爬取(follow=False只爬取当前页面)
)

猜你喜欢

转载自blog.csdn.net/qq_39926957/article/details/80329469

scrapy爬虫

爬虫scrapy

爬虫---scrapy

scrapy 爬虫

爬虫_scrapy

scrapy爬虫与反爬虫

[爬虫框架scrapy]scrapy的安装

爬虫之scrapy网络爬虫

python爬虫-scrapy爬虫框架

爬虫（八）Scrapy爬虫框架

网络爬虫：Scrapy爬虫框架

web爬虫讲解—Scrapy框架爬虫—Scrapy安装—Scrapy指令

Scrapy框架爬虫案例

爬虫框架之Scrapy

scrapy 简单爬虫实验

scrapy爬虫编写流程

scrapy爬虫框架

scrapy爬虫基础

scrapy爬虫cookie设置

Scrapy创建爬虫项目

0.0.1 scrapy 爬虫示例

爬虫框架Scrapy

Scrapy爬虫实战

爬虫Scrapy框架详解

爬虫scrapy学习

scrapy爬虫快速入门

scrapy爬虫环境搭建

scrapy 框架 python 爬虫

爬虫(七)scrapy入门

scrapy的小爬虫

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)