Scrapy1.6 爬虫框架1 安装 - 代码天地

Scrapy1.6 爬虫框架1 安装

其他 2019-06-14 09:52:54 阅读次数: 0

网络爬虫：是一种自动爬取网站内容信息的程序，被广泛运用于搜索引擎和数据挖掘等领域。
网络爬虫的基本执行流程：下载页面 - 提取页面中的数据 - 提取页面中的链接
Scrapy：是一个由Python语言编写的开源的网络爬虫框架，特点：使用简单，跨平台，灵活易拓展等。

安装

本机环境 Mac 10.14, Python3
pip3 install scrapy
安装成功后 scrapy -h 查看包含的命令

image.png

创建一个项目
scrapy startproject tutorial

会生成以下文件

tutorial/
    scrapy.cfg            # deploy configuration file
    tutorial/             # project's Python module, you'll import your code from here
        __init__.py
        items.py          # project items definition file
        middlewares.py    # project middlewares file
        pipelines.py      # project pipelines file
        settings.py       # project settings file
        spiders/          # a directory where you'll later put your spiders
            __init__.py

编写第一个爬虫

其实就是写一个类
创建文件 quotes_spider.py 放到 tutorial/spiders 目录

import scrapy

class QuotesSpider(scrapy.Spider):
   # 爬虫名，必须唯一
    name = "quotes"

    def start_requests(self):
        urls = [
            'http://quotes.toscrape.com/page/1/',
            'http://quotes.toscrape.com/page/2/',
        ]
        for url in urls:
            yield scrapy.Request(url=url, callback=self.parse)

    def parse(self, response):
        page = response.url.split("/")[-2]
        filename = 'quotes-%s.html' % page
        with open(filename, 'wb') as f:
            f.write(response.body)
        self.log('Saved file %s' % filename)

来到项目的根目录，执行scrapy crawl quotes
显示过程

image.png

结果：发现多出了两个 html 文件，等于我们把网页抓取下来了。

参考：https://docs.scrapy.org/en/1.6/intro/tutorial.html

转载于:https://www.jianshu.com/p/90ded0d8787f

猜你喜欢

转载自blog.csdn.net/weixin_34324081/article/details/91072371

Scrapy1.6 爬虫框架1 安装

Scrapy1.6 爬虫框架3 分页处理

Scrapy1.6 爬虫框架2 提取数据

爬虫框架scrapy安装

安装Scrapy爬虫框架

爬虫框架scrapy的安装

Scrapy框架中selector.css方法和selector.xpath方法，如何获取标签属性(含text文本)的三种方法（scrapy1.6版本）

[爬虫框架scrapy]scrapy的安装

python爬虫随笔-scrapy框架(1)——scrapy框架的安装和结构介绍

爬虫scrapy框架安装使用

python爬虫框架scrapy安装

python爬虫框架Scrapy的安装

Anaconda安装Scrapy爬虫框架

爬虫框架（Scrapy）安装详解

python安装scrapy爬虫框架

爬虫 - Scrapy 框架介绍与安装

Scrapy爬虫框架安装与介绍

爬虫实践之爬虫框架Scrapy安装

web爬虫讲解—Scrapy框架爬虫—Scrapy安装—Scrapy指令

Scrapy框架爬虫学习--1

python安装scrapy爬虫框架，提示 error: command 'clang' failed with exit status 1

window下安装爬虫框架scrapy

Python3.6安装Scrapy爬虫框架

Scrapy爬虫框架的安装和使用

python爬虫之scrapy框架的安装（详细）

scrapy爬虫框架简绍与安装使用

scrapy爬虫框架windows下的安装问题

爬虫框架scrapy之MongoDB的安装

关于python爬虫框架scrapy的安装

关于爬虫框架Scrapy 的下载及安装

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)