从零开始的Python爬虫速成指南，本文受众：没写过爬虫的萌新 - 代码天地

从零开始的Python爬虫速成指南，本文受众：没写过爬虫的萌新

其他 2018-11-05 05:11:35 阅读次数: 0

从零开始的 Python 爬虫速成指南，本文受众：没写过爬虫的萌新

引言

用最短的时间写一个最简单的爬虫，可以抓一些简单的论坛、帖子、网页。

入门

1.准备工作

安装Python
安装scrapy框架
一个IDE或者可以用自带的

2.开始写爬虫

从零开始的 Python 爬虫速成指南，本文受众：没写过爬虫的萌新

从零开始的 Python 爬虫速成指南，本文受众：没写过爬虫的萌新

在spiders文件夹中创建一个python文件，比如miao.py，来作为爬虫的脚本。

代码如下：

从零开始的 Python 爬虫速成指南，本文受众：没写过爬虫的萌新

3.运行一下

如果用命令行的话就这样：

从零开始的 Python 爬虫速成指南，本文受众：没写过爬虫的萌新

从零开始的 Python 爬虫速成指南，本文受众：没写过爬虫的萌新

解析

1.试试神奇的xpath

从零开始的 Python 爬虫速成指南，本文受众：没写过爬虫的萌新

从零开始的 Python 爬虫速成指南，本文受众：没写过爬虫的萌新

从零开始的 Python 爬虫速成指南，本文受众：没写过爬虫的萌新

2.看看xpath的效果

在最上面加上引用：

from scrapy import Selector

把parse函数改成：

从零开始的 Python 爬虫速成指南，本文受众：没写过爬虫的萌新

我们再次运行一下，你就可以看到输出“坛星际区”第一页所有帖子的标题和url了。

递归

从零开始的 Python 爬虫速成指南，本文受众：没写过爬虫的萌新

完整的代码如下：

从零开始的 Python 爬虫速成指南，本文受众：没写过爬虫的萌新

从零开始的 Python 爬虫速成指南，本文受众：没写过爬虫的萌新

Pipelines——管道

现在是对已抓取、解析后的内容的处理，我们可以通过管道写入本地文件、数据库。

1.定义一个Item

在miao文件夹中创建一个items.py文件

从零开始的 Python 爬虫速成指南，本文受众：没写过爬虫的萌新

这里我们定义了两个简单的class用来描述我们爬取的结果。

2. 处理方法

从零开始的 Python 爬虫速成指南，本文受众：没写过爬虫的萌新

从零开始的 Python 爬虫速成指南，本文受众：没写过爬虫的萌新

3.在爬虫中调用这个处理方法。

从零开始的 Python 爬虫速成指南，本文受众：没写过爬虫的萌新

从零开始的 Python 爬虫速成指南，本文受众：没写过爬虫的萌新

4.在配置文件里指定这个pipeline

从零开始的 Python 爬虫速成指南，本文受众：没写过爬虫的萌新

从零开始的 Python 爬虫速成指南，本文受众：没写过爬虫的萌新

可以这样配置多个pipeline:

从零开始的 Python 爬虫速成指南，本文受众：没写过爬虫的萌新

Middleware——中间件

从零开始的 Python 爬虫速成指南，本文受众：没写过爬虫的萌新

1.Middleware的配置

从零开始的 Python 爬虫速成指南，本文受众：没写过爬虫的萌新

从零开始的 Python 爬虫速成指南，本文受众：没写过爬虫的萌新

2.破网站查UA, 我要换UA

从零开始的 Python 爬虫速成指南，本文受众：没写过爬虫的萌新

从零开始的 Python 爬虫速成指南，本文受众：没写过爬虫的萌新

这里就是一个简单的随机更换UA的中间件，agents的内容可以自行扩充。

3.破网站封IP，我要用代理

从零开始的 Python 爬虫速成指南，本文受众：没写过爬虫的萌新

从零开始的 Python 爬虫速成指南，本文受众：没写过爬虫的萌新

从零开始的 Python 爬虫速成指南，本文受众：没写过爬虫的萌新

结束

看懂了吗？是不是超简单！

猜你喜欢

转载自blog.csdn.net/qq_40925239/article/details/83687737

从零开始的Python爬虫速成指南，本文受众：没写过爬虫的萌新

从零开始的 Python 爬虫速成指南

从零开始的Python爬虫速成指南

Python3爬虫从零开始：环境配置

Python3爬虫从零开始：Xpath的使用

Python3爬虫从零开始：库的安装

Python3爬虫从零开始：Beautiful Soup的使用

Python从零开始写爬虫（二）BeautifulSoup库使用

《从零开始学Python网络爬虫》CH3

Python从零开始写爬虫（一）requests库使用

从零开始系统化的学习写Python爬虫

Python 从零开始爬虫(二)：BeautifulSoup解析网页

[python]从零开始构建自己的爬虫代理IP池

python爬虫---从零开始（六）Selenium库

python爬虫_从零开始破解js加密（一）

Python从零开始写爬虫-5 获得离线小说

从零开始学python（十六）爬虫集群部署

Python爬虫从入门到精通——爬虫基础：爬虫的基本原理，从零开始学！

Python 从零开始爬虫(零)：爬虫思路&requests模块使用

Java 从零开始学爬虫（gecco）

【爬虫】从零开始使用 Scrapy

还没写过爬虫的小白点进来，一文带你入门python爬虫（小白福利）

Python 从零开始爬虫(一)：爬虫伪装&反“反爬”

从零开始写Python爬虫 -1.3 爬虫实践：获取百度贴吧内容

从零开始写Python爬虫 --- 1.5 爬虫实践：笔趣阁小说批量下载

从零开始的网络爬虫-01.简单的网络爬虫

Python从零开始学爬虫（开始编码前的准备工作)

从零开始写Python爬虫，四大工具你值得拥有！

从零开始学习--Python-爬虫 7月3日

Python3爬虫从零开始：抓取天猫电影排行

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)