爬虫返回页面乱码处理

最近写了个小爬虫,返回页面是完全乱码的,连Html结构都是乱码,用chardet的detect方法判断了下response.content,还是看不出返回的页面是什么编码,经过多方查阅,get到一个新的技能(之前从没用过这个库)。。

import urllib3
import requests

http = urllib3.PoolManager()
r = http.request('GET', url)
print(chardet.detect(r.data))
print((r.data).decode('gb2312', 'ignore'))
return (r.data).decode('gb2312', 'ignore')

Note:

我用的是Python3,导包不成功的话可能还需你手动下载urllib3库

猜你喜欢

转载自blog.csdn.net/weixin_40896352/article/details/82715261