爬虫_使用urllib库无任何反爬手段爬取百度首页

"""
获取百度首页
chardet:解析编码格式的函数
"""

from urllib import request
import chardet

# 获取到二进制网页源代码
url = "https://www.baidu.com/"
byteHtml = request.urlopen(url).read()
print(byteHtml)

# 判断二进制代码编码格式,返回结果为字典
# {'encoding': 'ascii', 'confidence': 1.0, 'language': ''}
result = chardet.detect(byteHtml)
print(result)
print(type(result))
# 将二进制源代码 解码 得到网页编码格式正确的源代码(少许,不完整)
resHtml = byteHtml.decode(result["encoding"])
print(resHtml)




猜你喜欢

转载自www.cnblogs.com/YangQingHong/p/10968898.html