零基础学python之文本和编码问题 - 代码天地

零基础学python之文本和编码问题

其他 2018-06-09 15:42:50 阅读次数: 1

字符串是个相当简单的概念:一个字符串是一个字符序列。问题出在"字符"的定义上。

在2015 年,"字符"的最佳定义是Unicode字符。因此，从Python 3 的str对象中获取的元素是Unicode字符

Unicode 标准把字符的标识和具体的字节表述进行了如下的明确区分。

字符的标识，即码位，是0~1 114 111的数字（十进制），在Unicode标准中以4~6个十六进制数字表示，而且加前缀U+。例如，字母A的码位是U+0041，欧元符号的码位是U+20AC，高音谱号的码位是U+1D11E. 在Unicode 6.3标准中，约10% 的有效码位有对应的字符。

字符的具体表述取决于所用的编码。编码是在码位和字节序列之间转换时使用的算法。在UTF-8编码中,A(U+0041)的码位编码成单个字节\x41，而在UTF-16LE编码中编码成两个字节\x41\x00。再举个例子，欧元符号(U+20AC)在UTF-8编码中是三个字节——\xe2\x82\xac，而在UTF-16LE中编码成两个字节：\xac\x20.

把码位转换成字节序列的过程是编码,使用encode；把字节序列转换成码位的过程是解码,使用decode.

非英语用户常常会搞反所谓的编码解码,可以这样理解: 把Unicode字符串想成“人类可读”的文本.那么，

把字节序列变成人类可读的文本字符串就是解码

而把字符串变成用于存储或传输的字节序列就是编码

所以，我们在做爬虫的时候，遇到乱码的情况，可以先去看看编码格式是否正确！

猜你喜欢

转载自www.cnblogs.com/qun542110741/p/9159627.html

零基础学python之文本和编码问题

零基础学python

python之循环——零基础学python 008

零基础学习 Python 之字符编码

零基础学Python常遇到的哪些问题呢？

零基础学Python最关心的5个问题

零基础学Python注意事项（八）——函数递归和汉诺塔问题

零基础学Python（4 ）之循环与range函数

零基础学Python：list（列表）和tuple（元组）

零基础学Python：while循环和for遍历

零基础可以学Python吗?

零基础学Python pdf

零基础学python要多久？

零基础可以学python吗？

【零基础开始学Python】

[零基础学python]啰嗦的除法

《零基础学python》习题

零基础也能学python！（一）

零基础学Python：函数

零基础学Python：数据容器

零基础学python：错误与异常

零基础学Python(二)

零基础学Python：Pandas用法

零基础可以学python么

datawhale 零基础学PYTHON笔记

零基础学Python3.6.5之结构化数据（附详细的代码解释和执行结果截图）

零基础学python用哪本书好,python零基础需要学多久

【编测编学】零基础学python_06_列表(认识和使用列表)

小猿圈python入门之转行零基础该如何学Python？

零基础学Python|Python学习高阶之网络爬虫入门

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)