python爬虫笔记--编码问题 - 代码天地

python爬虫笔记--编码问题

其他 2018-06-07 05:17:48 阅读次数: 2

import urllib2
import urllib
import requests
from bs4 import BeautifulSoup

url = "https://sh.fang.lianjia.com/loupan/"
respones = requests.get(url).text
soup = BeautifulSoup(respones, 'html.parser')
info = soup.findAll('div', {'class':'resblock-location'}) #info----ResultSet object
for i in info:
# print i.text #'unicode' object
# print i.text.encode('utf-8')#---- (转为utf-8编码)
# c = i.text.split("/") #-----split()方法使用以后，变成list
print i.text

上为其中一项

print i.text.replace('\n', '').replace('/','') #也可使用re.sub 利用正则

#但是print i.text.split("/"),控制台汉字显示为unicode编码，如下：

print i.text.split("/")#-----list split()方法使用以后，str变成 list

原因未知，先记下，下次解决再更新

原因：Python2.7中调用print打印变量X时，操作系统会对变量X做一定的字符处理：如果X是str类型的变量，则直接将X变量交付给终端进行显示；如果X变量是unicode类型，则操作系统首先将X编码成str类型的对象（编码格式取决于stdout的编码格式），然后再交由终端进行显示。在终端显示时，如果str类型的变量的编码方式和终端设置的编码方式不一致，很可能会出现乱码问题。在上面 print i.text 和 print i.text.replace('\n', '').replace('/','') 中，print将i.text等交给操作系统进行转码，编码成str类型，所以可以正常显示中文。而i.text.split()为一个列表，所以print会直接将结果输出，不会交给操作系统编码。

参考：https://www.cnblogs.com/litaozijin/p/6416133.html

猜你喜欢

转载自blog.csdn.net/qq_24568487/article/details/80368907

python爬虫笔记--编码问题

python3爬虫编码问题

python爬虫自动解决字符编码问题

python爬虫编码问题详解 (requests)

【爬虫】编码问题总结

爬虫遇到的编码问题

爬虫编码问题

【爬虫】python解决QQ邮箱查询接口的中文编码问题

Python3的编码问题（笔记）

爬虫学习笔记(3)爬虫中常见的字符串编码问题

爬虫-遇到Unicode编码问题

爬虫中遇到的编码问题

解决爬虫中文的编码问题

Python爬虫 - 获取网页编码

学习笔记第四篇之python编码问题

【Python】Python爬虫编码转换异常

编码--python笔记

python3中编解码、进制、字节、bytes及爬虫中经常遇到的编码问题的总结

基于scrapy的分布式爬虫（4）：python 中的编码问题

Python爬虫开发：中文字符编码问题quote解决

使用python进行URL编码，爬虫时解决参数乱码的问题

Python编码问题

python编码问题

Python字符编码问题

Python - 中文编码问题

Python中编码问题

# python 中文编码问题

python文件编码问题

python的编码问题

python编码问题整理

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

LogN级别的区间查询算法(线段树), 你学会了吗

数论概论(英文版.第4版)

idea 更新后和新的直接安装前，都需要配置 idea64.exe.vmoptions 后再使用

CANOpen系列教程04_CAN总线波特率、位时序、帧类型及格式说明

Java序列化基础

java排序算法整理

异常：org.apache.ibatis.reflection.ReflectionException

（算法练习）——二路归并排序

go 闭包函数

好程序员web前端技术分享媒体查询

每日归档

更多

2024-05-21(8)

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)