如何解决python爬虫乱码问题 - 代码天地

如何解决python爬虫乱码问题

其他 2019-01-24 12:51:08 阅读次数: 0

以爬取百度首页为例子

直接上代码

import requests
url="http://www.baidu.com"
html=requests.get(url).text
print(html)

输出结果乱码，可这是为什么呢？很明显是编码问题造成的
在这里插入图片描述
我们去百度看下网页源码，编码为utf-8

然而我们的编译器，采用的也是utf-8，都是utf-8为什么会乱码呢？这时候就想到了，直接输出百度首页的编码方式

import requests
import sys
//输出我们编译器所用的编码
print(sys.getdefaultencoding())
url="http://www.baidu.com"
html=requests.get(url)
//输出百度的编码
print(html.encoding)

输出结果如下
在这里插入图片描述
乖乖，进入是ISO-8859-1,不是utf-8,可这个是为什么呢，可能是由于网页压缩问题，我也是瞎猜的，哈哈。
那么我们就来用谷歌浏览器查看下该网页是否被压缩

接下来我们就进行编码转化

import requests
url="http://www.baidu.com"
html=requests.get(url).text
#encode解码，将ISO-8859-1解码成unicode
html=html.encode("ISO-8859-1")
#decode编码,将unicode编码成utf-8
html=html.decode("utf-8")
print(html)

问题解决

猜你喜欢

转载自blog.csdn.net/qq_44105778/article/details/86021178

如何解决python爬虫乱码问题

如何解决中文乱码问题

jmeter如何解决乱码问题

Git GuiUI的乱码问题如何解决

php如何解决中文乱码问题？

eclipse乱码问题如何解决

InputStreamReader 出现乱码问题如何解决？

如何解决php中文乱码的问题？

springMVC如何解决post乱码问题？springMVC如何解决get乱码问题？

python学习教程，如何解决Python中文编码乱码问题？

Python3中如何解决中文乱码与编码的问题

如何解决python 图表中文显示乱码问题(matlplotlib 包)

用python3爬虫-教大家如何解决验证码的问题

如何解决python爬虫中Response [200]返回值问题

什么是Python爬虫分布式架构，可能遇到哪些问题，如何解决

GET请求中文乱码问题如何解决

kettle学习笔记，如何解决中文显示乱码的问题

PL SQL Developer中文乱码问题如何解决

Guitar Pro 7乱码问题如何解决

如何解决eclipse中的中文乱码问题

Java读取、写入 file文件如何解决乱码问题

HttpServletResponse详解（包括如何解决Response中文乱码问题）

如何解决request.getParameter()取值乱码问题

如何解决servlet中daGet和doPost的乱码问题

如何解决eclipse里面程序出现的中文乱码的问题

如何解决CAD图纸打开后乱码的问题

PHP基础|如何解决中文乱码问题？

关于servlet中文乱码问题如何解决

如何解决post和get乱码问题

如何解决get和post乱码问题？

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)