一、随机User-Agent
库:fake_useragent 库,伪装请求头
from fake_useragent import UserAgent
ua = UserAgent()
print(ua.ie) # ie
print(ua.opera) # opera
print(ua.chrome) # chrome
print(ua.firefox) # firefox
print(ua.safari) # safari
print(ua.random) # 生成随机请求头
二、代理ip
(1)在免费的代理网站爬取代理ip,免费代理的采集也很简单,就是:访问页面页面 —> 正则/xpath提取 —> 保存
代理ip网站
# 有代理:https://www.youdaili.net/Daili/guonei/
# 66代理:http://www.66ip.cn/6.html
# 西刺代理:https://www.xicidaili.com/
# 快代理:https://www.kuaidaili.com/free/
(2)验证代理ip的有效性
第一种方法:通过返回的状态码判断,如果状态码为200,则为有效代理ip,否则无效。
第二种方法:使用telnet
import telnetlib
try:
telnetlib.Telnet('127.0.0.1',port='80',timeout=3)
except:
print('失败')
else:
print('成功')