python爬虫02-使用headers属性模拟成浏览器

先获取浏览器的User-Agent信息

任意打开一个网页,如百度的首页,按F12,切换到Network标签

 单击网页中的百度一下,让网页发生一个动作

 点击 图中的 www.baidu.com

扫描二维码关注公众号,回复: 9559023 查看本文章

 打开headers标签

 滚动进度条,找到User-Agent,可以将其复制出来

 1 import urllib.request
 2 
 3 # 使用build_open()修改报头
 4 url = "http://www.baidu.com"
 5 # 使用变量headers存储User-Agent信息
 6 headers = ("User-Agent","Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Safari/537.36")
 7 opene = urllib.request.build_opener() # 创建自定义的opene对象
 8 opene.addheaders = [headers]  # 设置opene对象对应的头信息
 9 data = opene.open(url).read()  # 用open方法打开url,read读取内容
10 fhandle = open("./1.html","wb")  # 存储爬取的内容
11 fhandle.write(data)
12 fhandle.close()
13 
14 # 使用add_header()添加报头
15 url = "http://www.baidu.com"
16 req = urllib.request.Request(url)  # 创建Request对象并赋值给req变量
17 # 添加对应的报头信息
18 req.add_header("User-Agent","Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Safari/537.36")
19 data = urllib.request.urlopen(req).read()  # 读取内容

猜你喜欢

转载自www.cnblogs.com/buzhihuoyu/p/12404270.html