Python3 怎么将Unicode转中文，以及GBK乱码ÖÐ¹úÉÙÊýÃñ×åÌØÉ«´åÕ¯

其他 2018-05-12 13:39:00 阅读次数: 0

原理：

如果***type(text) is bytes***，
那么text.decode('unicode_escape')

*decode对应bytes*
如果type(text) is str，
那么text.encode(‘latin1’).decode(‘unicode_escape’)
*encode对应str*

1. 案例：

*

#coding=utf-8
import requests,re,json,traceback
from  bs4 import  BeautifulSoup

def qiushibaike():
    content = requests.get('http://baike.baidu.com/city/api/citylemmalist?type=0&cityId=360&offset=1&limit=60').content

    soup = BeautifulSoup(content, 'html.parser')
    print(soup.prettify())  #.decode("unicode_escape")
    #目前soup.prettify()为str
    new=soup.prettify().encode('latin-1').decode('unicode_escape')
    #.dencode('latin-1').encode('latin-1').decode('unicode_escape')

    print(new)


if __name__=='__main__':
    qiushibaike()

2. 结果对比：

这里写图片描述

另外爬取时，网站代码出现GBK无法编译python3,如出现如下：

ÖÐ¹úÉÙÊýÃñ×åÌØÉ«´åÕ¯[6]

示例：

#coding=utf-8
import requests
#共有6页,首页为空不为6
for i in range(6):
    if i==0:
        url='http://www.tcmap.com.cn/list/zhongguoshaoshuminzutesecunzhai.html'

    else:
        url='http://www.tcmap.com.cn/list/zhongguoshaoshuminzutesecunzhai'+str(i)+'.html'
    response=requests.get(url)
    print(type(response))
   #如需成功编译，在.TEXT下面增加#号部分 
    html=response.text   #.encode('latin-1').decode('GBK')
    print(html)

这里写图片描述

猜你喜欢

转载自blog.csdn.net/hhtnan/article/details/76216240

Python3 怎么将Unicode转中文，以及GBK乱码ÖÐ¹úÉÙÊýÃñ×åÌØÉ«´åÕ¯

Python3 Unicode转中文

python3中Unicode字符转中文

原 python3 把\u开头的unicode转中文，把str形态的unicode转中文

python3的中文问题

Python3 中文转拼音

python3 将字符串unicode转换为中文

python3将字符串unicode转换为中文

Python2转Python3

python3 unicode列表转换为中文

Python3的unicode编码转换成中文问题

将16进制的Unicode转换为汉字(python3)

python3中的unicode_escape

unicode 在python3中的编码问题

如何理解python3的unicode,以及全角半角转换

Python3 HTMLTestRunner兼容中文

python3 中的中文编码问题

python3 中文手册

python3帮助文档-中文

python3 opencv 输出中文

python3 下中文报错

python3将dict转为dataframe

Python3 将内容写入文件

python3 怎么安装 PIL

notepad++调用python3中文乱码

python3 抓取网页中文title乱码

python3写入csv文件时中文为乱码

python3 实现 websocket server 解决中文乱码

python3常见中文乱码解决

Python3读取写入json的中文乱码问题

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

static方法和非static方法的区别（java）

如何查找计算机专业paper

java.lang.ClassFormatError: Incompatible magic value 0 in class file com/sitecha

跳跃游戏II

stm32_之【建立工程】

TeaWeb v0.0.9 发布，统计底层优化、主机监控功能改进

事件分发 -----控制字体大小

JavaScript DOM练习（动态表格添加） December 25，2019

JSF Scope & CDI

实现从零搭建一个登录注册页面（附源代码）

每日归档

更多

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)