爬虫01_基于Python的Requests模块GET请求开发的关键词搜索爬虫

需求:

  • 输入一个关键词
  • 爬取相关页面
  • 网页链接:www.sogou.com/web
    在这里插入图片描述

代码:

import requests
import os

#指定搜索关键字
keywords = input('请输入你要爬取的关键词:')
#基于反爬构建,User-Agent
headers = {
    'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.163 Safari/537.36'
}
#搜狗指定的url
url = 'https://www.sogou.com/web'
#封装一些get请求的参数
params = {
    'query':keywords,
    'ie':'utf-8'
}

#向服务器端发起请求
response = requests.get(url=url, params=params, headers=headers)
#获取响应的数据内容
pag_text = response.text

#响应数据持久化到本地
with open('./sougou.html', 'w', encoding='utf-8') as fp:
    fp.write(pag_text)
    print('爬取完毕!')
    fp.close()

总结:

  • .text:表示response对象的.text,可以将返回的内容以文本文件的形式返回
  • .json():表示 response对象的.json()方法,可以将返回的内容以json格式的返回,返回一个字典类型或者列表类型的数据
    两种方法主要取决于通过抓包工具对返回数据,即抓包工具Network栏目下面的Response栏目下的数据进行分析,如果返回的是json格式的,那么就选择.json()方式接收
发布了38 篇原创文章 · 获赞 43 · 访问量 8万+

猜你喜欢

转载自blog.csdn.net/qq_40272386/article/details/105404823
今日推荐