爬虫Requests请求流程 - 代码天地

爬虫Requests请求流程

其他 2019-07-01 18:38:14 阅读次数: 0

爬虫三部曲

1.发送请求

def get_page(url):
   respone=requests.get(url)
   return respone

2.解析数据

import re
def parse_index(html):

#findall匹配所有

#re.findall（“匹配所有”，html,re.S）

#re.S(对全部文本进行匹配）

detail_urls=re.findall('<div class="items"><a class="imglink" href="(.*?)"',html,re.S)
   return detail_urls

#解析详情页

def parse_detail(html):
  movie_url=re.findall('<source src="(.*?)">',html,re.S)
  if movie_url:
    return movie_url[0]

3.保存数据

import uuid

#uuid.uuid4()根据时间戳生成一段世界上唯一的字符串

def save_video(content):
  with open(f'{uuid.uuid4()}.mp4','wb')as f:
   f.write(content)
   print('视频下载完毕...')

#main+回车键

测试用例：

if_name_='_main_'
for line in range(5):
 url=f'http://www.xiaohuar.com/list-3-{line}.html'

#发送请求

response=get_page(url)
#print(response)

#返回响应状态码

#print(respone.status_code)

#返回响应文本

#print(response.text)

#解析主页页面

detail_urls=parse_index(response.text)

#循环遍历详情页url

for detail_url in detail_urls:
      #print(detail_url)

#往每一个详情页发送请求

      detail_res=get_page(detail_url)
      #print(response.text)

#解析详情页获取视频url

      move_url=parse_detail(detail_res.text)

#判断视频url存在则打印

      if move_url:
          print(move_url)

#往视频url发送请求获取视频二进制流

      move_res=get_page(move_url)

#把视频的二进制流传给save_video函数去保存到本地

     save_video(move_res.content)

猜你喜欢

转载自www.cnblogs.com/changgeyimeng/p/11115811.html

爬虫Requests请求流程

requests爬虫get请求

爬虫请求库 requests requests模块

爬虫（17）：requests的post请求

Python爬虫requests请求库

1、web爬虫，requests请求

02爬虫requests请求库

Python爬虫【二】请求库requests

爬虫（16）：requests带参的get请求

Python——爬虫【Requests设置请求头Headers】

爬虫基本请求库的使用(二)requests

Python爬虫的开始——requests库建立请求

python爬虫5--requests请求库

爬虫使用requests发送post请求示例

Python爬虫 requests教学（一）：requests的请求参数

爬虫入门：（二）爬虫请求库urllib和requests

Python3爬虫（四）请求库的使用requests

超级详细的Python爬虫介绍(Requests请求)--学习笔记

python3爬虫（一）：请求库之requests

【Python爬虫】Requests 请求并读写、保存到excel文件中

python爬虫笔记（三）requests模块深入—发送post请求

python网络爬虫requests库请求返回response属性解析

python爬虫（八） requests库之 get请求

scrapy爬虫中(Requests+FormRequest)两大请求

爬虫基础（4）发送请求之requests库的使用

Python爬虫requests请求无响应的解决方法

python爬虫学习requests中的模块请求参数之一

python爬虫学习requests中的模块请求参数之二

Web爬虫|入门教程之请求库requests

爬虫（Requests）

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

laravle中orm简单的增删改查

文本分类特征选取之CHI开方检验

Spark核心编程-WordCount

大数据开发实战系列之电信客服(1)

读书笔记 - 把时间当作朋友 by 李笑来

python 笔记--if else

SpringBoot/Mybatis/Druid, 多数据源MultiDataSource配置思路

排序三个整数

redis集群搭建【2】-Windows中Redis集群搭建

STM32F030驱动TM1650点亮4联数码管

每日归档

更多

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)