Python——爬虫 - 代码天地

Python——爬虫

其他 2020-02-23 15:19:01 阅读次数: 0

爬虫基本操作

在这里插入图片描述

*基本流程
目标数据
来源地址
结构分析
实现构思
操刀编码
*基本手段
破解请求限制
请求头控制
控制请求书频率（根据实际情景）
IP代理
签名/加密参数从html/cookie/js分析
破解登录授权
请求带上用户cookie信息
破解验证码
简单的验证码可以使用识图验证码第三方库
*解析数据
HTML Dom解析
正则匹配，通过的正则表达式来匹配想要爬取的数据，如有些数据不是在html标签里，而是在html的script标签的js变量中。
使用第三方库解析html dom,比较喜欢类jquery
数据字符串
正则匹配（根据场景使用）
转JSON/XML 对象进行解析
反爬虫的手段
合法检测：请求效验（useragent,referer,接口加签名，等）
小黑屋：IP/用户限制请求评率，直接拦截。
投毒：返回虚假的数据给爬取者。、
Python爬虫
涉及模块包
请求：
urllib
requests
多线程：
threading
正则：
re
json解析：
json
html dom 解析：
beautiful soup
lxml：
xpath
操作浏览器

PS: 欢迎补充和指正

发布了19 篇原创文章 · 获赞 3 · 访问量 3475

私信关注

猜你喜欢

转载自blog.csdn.net/qq_43544005/article/details/89333306

【Python爬虫】爬虫实战

Python的爬虫与反爬虫

Python爬虫：爬虫demo

【python爬虫】初识爬虫

（爬虫）Python爬虫02

（爬虫）Python爬虫01

python爬虫--爬虫前奏

python爬虫

python 爬虫

python的爬虫

Python爬虫！

爬虫python

爬虫———python

Python 【爬虫】

Python——爬虫

【Python】爬虫

【python爬虫】python爬虫demo

python爬虫-初识爬虫/反爬虫

python---爬虫[3]：爬虫与反爬虫

python爬虫整理——爬虫简介

爬虫-Python爬虫常用库

Python爬虫（一）爬虫的原理

Python爬虫与反爬虫（7）

Python爬虫实战--WeHeartIt爬虫

Python爬虫实战--TripAdvisor爬虫

python爬虫：爬虫的工作原理

python爬虫-scrapy爬虫框架

python爬虫-入门-了解爬虫

Python爬虫（一）什么是爬虫？

Python爬虫（一）：爬虫伪装

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)