python爬虫,网页采集器

"""
步骤:
1 指定URL
2 发起请求
3 获取响应数据
4 持久化存储

案例1:网页采集器

反反爬虫方法:
UA伪装 user-agent请求载体身份标识:1 浏览器 2 爬虫
门户网站的服务器会检测对应请求的载体身份标识,如果不是浏览器,则表示该请求为不正常的请求
UA就是伪装成浏览器

"""

import requests
if __name__=="__main__":
    #ua伪装。在 开发者工具-network-headers 中找请求头
    headers = {
        'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Safari/537.36'
    }
    url = 'https://www.sogou.com/web'
    #处理url携带的参数,封装到字典中
    keyword = input("录入你要搜索的关键词:")
    param = {

        'query': keyword

    }
    response =  requests.get(url= url,params=param,headers=headers)
    page_text = response.text
   # print(page_text)
    fileName = keyword+'.html'
    with open("./"+fileName,'w',encoding='utf-8')as fp:
        fp.write(page_text)
    print("爬取数据完毕")











发布了97 篇原创文章 · 获赞 42 · 访问量 12万+

猜你喜欢

转载自blog.csdn.net/LVGAOYANH/article/details/104597242