爬虫笔记:unicode编码转中文

问题

抓取IT桔子网时,返回的内容都是unicode编码格式。
如下:在这里插入图片描述
随便截取一点翻译后。
在这里插入图片描述
所以,如果想要正确的爬虫内容,还需要将unicode编码的内容转为中文。

方法

将爬虫到的response先编码urf-8后解码。
在这里插入图片描述

print(response.text.encode('utf-8').decode('unicode_escape'))

这个unicode_escape是什么?

本质上是将unicode的内存编码值进行存储,读取文件时在反向转换回来。这里就采用了unicode-escape的方式。

done!

猜你喜欢

转载自blog.csdn.net/qinglianchen0851/article/details/89283076