爬虫遭遇重定向如何解决 - 代码天地

爬虫遭遇重定向如何解决

其他 2018-12-14 17:11:02 阅读次数: 0

错误记录：

1.requests.exceptions.TooManyRedirects: Exceeded 30 redirects

错误提示是requests库有太多的重定向：超过了30个重定向

解决办法：

error_url = requests.get(news, headers=headers, allow_redirects=False)
print(error_url.status_code)
mypage = error_url.headers["Location"]

2.KeyError:

error_url.headers["Location"]　　　＃这里报错

dict[key]的方法取值，如果键key不存在，则会出现报错

解决方法：

dict.get(key, default=None)

    try:
        child_url = requests.get(news, headers=headers)
        mypage = child_url.content.decode("gbk")

    except:
        # allow_redirects=False  拒绝默认的301/302重定向从而可以通过html.headers["Location"]拿到重定向的URL
        error_url = requests.get(news, headers=headers, allow_redirects=False)
        # 200（成功）: 服务器已成功处理了请求。通常，这表示服务器提供了请求的网页
        # 301（永久移动) : 请求的网页已永久移动到新位置。服务器返回此响应（对 GET 或 HEAD 请求的响应）时，会自动将请求者转到新位置
        print(error_url.status_code)
        try:
            # 301
            mypage = error_url.headers["Location"]
        except:
            # 200
            mypage = error_url.content.decode("gbk")

猜你喜欢

转载自blog.csdn.net/qq_18310041/article/details/84646483

爬虫遭遇重定向如何解决

django 重定向如何解决iframe页面嵌套问题

爬虫解决网页重定向问题

如何解决服务器端重定向登陆页面内嵌框架的问题

解决重定向问题

Android WebView 回退到原生goback(）遭遇重定向

python爬虫的重定向问题

爬虫遇到重定向问题

如何解决python爬虫乱码问题

selenium爬虫运行慢如何解决？

如何设置nginx重定向

如何理解转发与重定向？

解决WordPress重定向问题

什么是重定向，怎么解决重定向问题

[selenium]被识别如何解决？爬虫上线的selenium如何配置

java爬虫httpclient循环重定向的处理

爬虫302重定向问题

关于爬虫模拟美团登陆后，解决302重定向的问题的方法

python爬虫<解决URL被重定向无法抓取到数据问题>

Python爬取淘宝商品失败---解决：淘宝的反爬虫机制 - http重定向问题

Python爬虫遇到重定向问题解决办法汇总

爬虫访问中，如何解决网站限制IP的问题？

java 如何解决爬虫ip被封的3种方式

python学习5 爬虫老是被封如何解决

如何实施301重定向

如何重定向WordPress的日期，htaccess设置

wordpress如何设置301重定向

如何重定向hibernate日志到文件

linux下gdb如何重定向输入

Servlet如何运行重定向原理

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)