python chardet 模块 - 代码天地

python chardet 模块

其他 2020-04-02 14:01:07 阅读次数: 0

兴高采烈地，从网页上抓取一段 content

但是，一 print 就不那么兴高采烈了，结果看到一串这个：

b'\xc8\xcb\xc9\xfa\xbf\xe0\xb6\xcc\xa3\xac\xce\xd2\xd3\xc3Python'
这是啥？ 又 x 又 c 的！

再一看，哦，原来是十六进制字节串 (bytes)，\x 表示十六进制

接下来，你一定想转化为人类能看懂的语言，想到 decode：

In [3]: b'\xc8\xcb\xc9\xfa\xbf\xe0\xb6\xcc\xa3\xac\xce\xd2\xd3\xc3Python'.decode()
---------------------------------------------------------------------------
UnicodeDecodeError                        Traceback (most recent call last)
<ipython-input-3-7d0ea6148880> in <module>
----> 1 b'\xc8\xcb\xc9\xfa\xbf\xe0\xb6\xcc\xa3\xac\xce\xd2\xd3\xc3Python'.decode()

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc8 in position 0: invalid continuation byte
马上，一盆冷水泼头上，抛异常了。。。。。

根据提示，UnicodeDecodeError，这是 unicode 解码错误。

原来，decode 默认的编码方法：utf-8

所以排除 b'\xc8\xcb\xc9\xfa\xbf\xe0\xb6\xcc\xa3\xac\xce\xd2\xd3\xc3Python' 使用 utf-8 的编码方式

可是，这不是四选一选择题啊，逐个排除不正确的！

编码方式几十种，不可能逐个排除吧。

那就猜吧！！！！！！！！！！！！！

人生苦短，我用Python

Python， 怎忍心让你受累呢~

尽量三行代码解决问题

第一步，安装 chardet 它是 char detect 的缩写。

第二步，pip install chardet

第三步，出结果

In [6]: chardet.detect(b'\xc8\xcb\xc9\xfa\xbf\xe0\xb6\xcc\xa3\xac\xce\xd2\xd3\xc3Python')
Out[6]: {'encoding': 'GB2312', 'confidence': 0.99, 'language': 'Chinese'}
编码方法：gb2312

解密字节串：

In [7]: b'\xc8\xcb\xc9\xfa\xbf\xe0\xb6\xcc\xa3\xac\xce\xd2\xd3\xc3Python'.decode('gb2312')
Out[7]: '人生苦短，我用Python'

猜你喜欢

转载自www.cnblogs.com/miaoweiye/p/12619279.html

python中的chardet模块

python chardet 模块

python 模块 chardet下载及介绍

chardet模块

【python学习笔记】chardet模块检测编码

Python chardet

Python编程：chardet模块检测byte字节编码

python笔记：常用第三方模块—chardet

python 模块 chardet报错解决方法：下载及介绍

python字符串编码识别模块chardet简单应用

常用模块（chardet）

Python安装 chardet

编码格式检测chardet模块

【Python入门】35.常用第三方模块之编码检测chardet

chardet

笔记-python-lib-chardet

python学习笔记(三十) -- 安装Anaconda以及使用第三方模块Pillow、requests、chardet、psutil

Python学习笔记__13.3章 chardet

python 查看文档编码格式-chardet

Python爬虫教程-03-使用chardet

python之chardet验证编码格式

Python之检测文件的字符编码（chardet）

python 字符编码判断 chardet评测

笔记｜Python 的 chardet 包识别编码类型

python导入第三方类库(chardet)

python 通过chardet库识别判断文件编码类型

Python中chardet.detect()函数检测编码

Python3基础12（collections、struct、itertools、chardet等的使用）

Python获取网页编码的两种方法——requests、chardet

Python中动态检测编码chardet的使用教程

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)