网页爬虫解决乱码 - 代码天地

网页爬虫解决乱码

其他 2018-09-18 17:50:47 阅读次数: 0

# Copyright (c)2018, 东北大学软件学院学生
# All rightsreserved
# 文件名称：justForTest.py
# 作   者：孔云
#问题描述：网络爬虫解决乱码
# coding:utf-8
import requests
url="http://www.baidu.com"
r=requests.get(url)
print("使用编码：",r.encoding)
print("网页内容：\n",r.text)

运行结果如下：

由结果图知，上面代码爬取的网页内容存在乱码，如蓝色框所示，解决办法如下：

import requests
def getHtmlText(url):
    try:
        r=requests.get(url,timeout=30)
        r.raise_for_status()#如果状态不是200，引发HttpError异常
        r.encoding=r.apparent_encoding#备选编码作为使用编码
        print("使用编码：",r.encoding)
        return  r.text
    except:
        return "产生异常"
if __name__=="__main__":
    url="http://www.baidu.com"
    print("网页内容：\n",getHtmlText(url))

运行结果如下：

由上述运行结果知，乱码得到解决。

猜你喜欢

转载自blog.csdn.net/u012369559/article/details/80138292

网页爬虫解决乱码

解决爬虫网页内容乱码问题

爬虫下来的网页中文乱码解决

node.js爬虫解决乱码问题+解析网页小结

学习爬虫过程中解决下载网页乱码的问题

解决java爬虫乱码

爬虫-解决中文乱码

爬虫爬取的网页乱码 response.encoding = "utf-8" 来解决

爬虫之网页乱码解决方法(gb2312 -> utf-8)

[转] node爬虫之gbk网页中文乱码解决方案

网页乱码解决方案

python 解决网页文本乱码

解决网页抓取乱码问题

解决网页乱码以及为什么会出现网页乱码？

爬虫学习----解决中文乱码

tomcat下网页文字乱码解决

HttpURLConnection获取网页内容(解决乱码)

Javadoc Generation 解决生成网页乱码问题

关于网页出现乱码解决办法

Python 网页链接中文乱码的解决

IDEA环境解决网页中文乱码的问题

解决Chrome网页编码显示乱码的问题

Filter的使用(解决网页的中文乱码)

JPS网页中文乱码解决方案

python爬虫出现乱码的解决办法

python爬虫中文乱码解决方法

解决python爬虫中文乱码问题

如何解决python爬虫乱码问题

爬虫响应信息乱码解决方式

爬虫中文乱码解决方法

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

[编程题]学英语

[codeforces 1288A] Deadline 约数+模

Python的web开发

Docker在Centos 7上的部署

python编码

解决Ubuntu16.04 fatal error: json/json.h: No such file or directory

mysql并发插入

rest接口如何适应jsonp的方案

linux 终端上网设置

高数——等号两边同时求导、积分的解释

每日归档

更多

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)