爬虫学习(一)---requests库的使用

1. requests库的安装

通过 cmd 安装 requests库 :

pip install requests

2. requests库的方法

函数 作用
request() 构造一个请求,支撑一下个方法的基础方法
get() 获取HTML网页的主要方法,对应于HTTP的GET
head() 获取HTML网页信息头部的方法,对应于HTTP的HEAD
post() 向HTML网页提交POST请求方法,对应HTTP的POST
put() 向HTML网页提交向URL位置存储一个资源,覆盖原URL位置的资源 ,对应HTTP的PUT
patch() 向HTML网页提交局部修改请求,对应于HTTP的PATCH
delete() 请求删除URL位置存储的资源

requests中除了“request()” 方法,其余六个方法都是request方法的调用

3. requests库抓取网站框架

这里调用了bs4库对源代码进行了美化处理写进txt文档

import requests as req
from bs4 import BeautifulSoup


def get_html_text(url):
    try:
        kv = {'User-Agent': 'Mozilla/5.0'}  # 通过该字典修改标识
        r = req.get(url, headers=kv, timeout=30)  # 修改为浏览器标识后,避免被识别为爬虫
        r.raise_for_status()  # 如果状态不是200,引发HTTPError异常
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return "产生异常"


if __name__ == '__main__':
    url = "http://www.baidu.com"  # 可以随意修改网址
    text = get_html_text(url)
    soup = BeautifulSoup(text, "html.parser")
    text = soup.prettify()
    with open('baidu.txt', 'w', encoding='utf-8') as file:  # 把源码写进这个txt文档中
        file.write(text)
    file.close()

发布了145 篇原创文章 · 获赞 22 · 访问量 9642

猜你喜欢

转载自blog.csdn.net/weixin_44778155/article/details/104458984