python——爬虫中使用xpath过滤结果为空以及几种UnicodeEncodeError - 代码天地

python——爬虫中使用xpath过滤结果为空以及几种UnicodeEncodeError

其他 2019-05-12 19:56:20 阅读次数: 0

情况1：
在网页中使用xpath可以查找到内容，但在pycharm中查找结果为空
情况2：
出现UnicodeEncodeError: ‘latin-1’ codec can’t encode character ‘\u2026’ in position 30: ordinal not in range(256)
情况3：
出现UnicodeEncodeError: ‘ascii’ codec can’t encode characters in position 10-11: ordinal not in range(128)
解决办法：
情况1和情况2的错误和User-Agent有关：

对于情况1只需要去掉User-Agent，也就是封装request时参数headers中不要有User-Agent。或者使用IE浏览器的User-Agent，本人测试了谷歌和火狐的User-Agent（windows），xpath后的结果都为空。
对于情况2应该是User-Agent中有**···****，把User-Agent中的**···**去掉。火狐的User-Agent为 ”Mozilla/5.0 (Windows NT 6.1; W…) Gecko/20100101 Firefox/65.0“，在W后面有···，把”···“这个去掉就可以了。

情况3应该是数据中含有中文，必须对中文进行url编码转换。

如果数据是普通的字符串，如data=‘你好’，使用data= urllib.request.quote(data)将中文转换为url编码格式。
如果数据是字典格式，如data= {‘wd’ : ‘你好’}，使用data= urllib.parse.urlencode(data)将中文转换为url编码格式。

猜你喜欢

转载自blog.csdn.net/watermelon12138/article/details/88695953

python——爬虫中使用xpath过滤结果为空以及几种UnicodeEncodeError

python xpath匹配结果为空

Python对xpath二次解析，解析结果为空[]

【爬虫】在Xpath中使用正则

Python中使用Xpath

XPath匹配标签使用text()判断获取结果失败/为空的问题及解决方法

python爬虫 xpath使用

（十八）Python爬虫：XPath的使用

Python爬虫开发——XPath的使用

Python案例：使用XPath的爬虫

Python爬虫神器Xpath的使用

Python爬虫——XPath的使用（B）

mysql中使用聚合函数结果集为空，仍显示size为1，所有元素为Null问题

爬虫使用xpath解析时返回为空，获取不到相应的元素的原因和解决办法

Python爬虫(十三)_案例：使用XPath的爬虫

Python爬虫(十一)_案例：使用XPath的爬虫

学习笔记(01):21天搞定分布式Python网络爬虫-xpath-在lxml中使用xpath语法

Python 第十讲——xpath元素定位获取及爬虫中使用实例

oracle中使用NOT IN函数查询为空

Python中使用xpath（注意点总结）

python爬虫---xpath使用以及如何创建自定义下载文件路径

python爬虫之xpath的基本使用

python爬虫中xpath的使用方法

python爬虫之xpath的使用方法

Python3--爬虫之Xpath使用

Python 爬虫开发之xpath使用

python爬虫-简单使用xpath下载图片

Python爬虫之xpath使用指南

关于python使用xpath爬取网页内容返回值为空列表的解决方法

关于mysql中使用聚合函数结果集为空，仍显示size为1，所有元素为Null问题的解决办法

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

static方法和非static方法的区别（java）

如何查找计算机专业paper

java.lang.ClassFormatError: Incompatible magic value 0 in class file com/sitecha

跳跃游戏II

stm32_之【建立工程】

TeaWeb v0.0.9 发布，统计底层优化、主机监控功能改进

事件分发 -----控制字体大小

JavaScript DOM练习（动态表格添加） December 25，2019

JSF Scope & CDI

实现从零搭建一个登录注册页面（附源代码）

每日归档

更多

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)