先获取浏览器的User-Agent信息
任意打开一个网页,如百度的首页,按F12,切换到Network标签
单击网页中的百度一下,让网页发生一个动作
点击 图中的 www.baidu.com
扫描二维码关注公众号,回复:
9559023 查看本文章
打开headers标签
滚动进度条,找到User-Agent,可以将其复制出来
1 import urllib.request 2 3 # 使用build_open()修改报头 4 url = "http://www.baidu.com" 5 # 使用变量headers存储User-Agent信息 6 headers = ("User-Agent","Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Safari/537.36") 7 opene = urllib.request.build_opener() # 创建自定义的opene对象 8 opene.addheaders = [headers] # 设置opene对象对应的头信息 9 data = opene.open(url).read() # 用open方法打开url,read读取内容 10 fhandle = open("./1.html","wb") # 存储爬取的内容 11 fhandle.write(data) 12 fhandle.close() 13 14 # 使用add_header()添加报头 15 url = "http://www.baidu.com" 16 req = urllib.request.Request(url) # 创建Request对象并赋值给req变量 17 # 添加对应的报头信息 18 req.add_header("User-Agent","Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Safari/537.36") 19 data = urllib.request.urlopen(req).read() # 读取内容