关于爬虫的常见反爬及处理方式 - 代码天地

关于爬虫的常见反爬及处理方式

其他 2019-11-24 17:34:08 阅读次数: 0

1.robots协议：在scrapy中会用到，设置False即可

2.UA检测：访问时headers中携带user-agent参数即可

3.模拟登陆中验证码的检测：这个稍微的麻烦一些，有的时候这些验证码会set-cookie，每次刷新每次变动cookie，这种使用save_screensot对整张页面进行截图，之后找到图片所在位置及坐标再使用PIL模块截取验证码的图片，计算位置及坐标，模拟点击的时候用这种，打码平台能解析图片内容，这个自行查找

4.cookie：手动的话在headers中添加cookie参数即可，或者使用requests.Session()去访问页面就能获得cookie

5.ip：服务器对访问IP做限制，比如禁止短时间内高频率的访问，这个使用ip池就行，但是ip池得自己做，或者买

6.数据动态加载：当你滑动鼠标或者点击获取更多时候才会再次请求数据，这种一般都是请求指定的URL携带固定的参数，这种自己搞

7.图片懒加载：这种是使用了js，当访问页面是先返回部分内容，其他的内容会给个伪属性，当再次触发时，将伪属性改为真属性。这种可以直接获取真属性或者伪属性

8.js混淆：返回的js代码像一对无序的东西，这个直接粘贴到反混淆网站就可以

9.js逆向：现在好多网站开始使用js逆向了，在前端时给页面上的内容绑定事件，点击或者滑动页面时触发事件，向指定的内容发送请求返回内容，有的还会在前端进行加密，这种解决方案是将js代码下载到本地，使用excejs对js函数进行操作，将携带的参数格式化成携带参数的json字符串，模拟js代码运行返回数据

猜你喜欢

转载自www.cnblogs.com/blackball9/p/11923179.html

关于爬虫的常见反爬及处理方式

常见爬虫方式与反

常见的反爬虫的方式

【转载】爬虫常见反爬思路

常见的挖矿程序处理方式

SQL注入常见处理方式

python3爬虫系列20之反爬需要登录的网站三种处理方式

关于Findbugs的一些常见报错的翻译和处理方式

2种常见的spring事物处理方式

Keil常见错误汇总及处理方式

常见的数据签名及加密处理方式

zabbix常见错误处理方式

jQuery常见的几个文档处理方式

Goldengate常见错误处理方式

hive 数据倾斜的常见处理方式

常见内存泄漏场景以及处理方式

cxf 常见错误处理方式

python 对于http Request 请求常见处理方式

Spring 五种常见的异常处理方式

几种组合数的常见处理方式

【2020-10-29】常见反爬虫方式

python爬虫笔记（十）爬虫常见的反爬策略和反爬攻克手段

常见的反爬虫技术

python 爬虫（八）常见的反爬措施以及应对措施（爬虫必备）+ 动态Html页面的处理方法 + selenium+PhantomJS的介绍及安装

异常处理（常见的三种异常处理方式）

常见的爬虫与反爬虫斗争

爬虫提高 - 1 - 常见的反爬手段和解决思路

python爬虫的一个常见简单js反爬

常见的反爬虫技术有哪些？如何防止别人爬自己的网站？

《想学Python爬虫必看系列》常见的反爬手段和解决思路

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)