二次爬取--爬虫经典案例 - 代码天地

二次爬取--爬虫经典案例

其他 2020-04-13 11:59:17 阅读次数: 0

第一次爬取得到的是每个视频页面的链接，第二次爬取的是视频下载链接，分开爬取的。
本次为第二次爬取

import os
import xlrd
import requests
import threading
import time
from lxml import etree
from requests.adapters import HTTPAdapter

header = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Safari/537.36"}
number = 0


def mp4_down():
    global number
    number = 0
    # 读取xls文件
    xls = xlrd.open_workbook(r"C:\Users\Administrator\Desktop\视频文件_.xlsx")
    sheet = xls.sheet_by_name("Sheet1")
    list = []
    urls = sheet.col_values(0)
    nrows = sheet.nrows
    s = requests.Session()
    for i in range(number, nrows):
        print("第{0}个正在开始。。。-{1}-:：{2}：:".format(i, time.strftime("%Y-%m-%d %H:%M:%S", time.localtime()), urls[i]), end="")
        s.mount(urls[i], HTTPAdapter(max_retries=3))        # 重连三次
        res = s.get(urls[i], headers=header, timeout=5)     # 5s超时
        html = etree.HTML(res.text)
        print(str(res.status_code), end="...")

        if res.status_code != 200:
            with open(r'C:\Users\Administrator\Desktop\pachong0.txt', 'a', encoding='gbk') as f:
                f.write(urls[i])
                f.write('\n')
            continue

        result = html.xpath('//div[@class="rm_bq"]//li/a/@href')[0]
        list.append(result)
        print(result, end="...")
        print('当前线程数为{}'.format(threading.activeCount()))
        with open(r'C:\Users\Administrator\Desktop\pachong0.txt', 'a', encoding='gbk') as f:
            f.write(result)
            f.write('\n')
        i += 1
        number += 1
        s.close()

    print(list)


if __name__ == "__main__":
    global timer
    timer = threading.Timer(3.0, mp4_down(), ['hoho'])
    timer.start()

发布了37 篇原创文章 · 获赞 91 · 访问量 1万+

私信关注

猜你喜欢

转载自blog.csdn.net/weixin_43386443/article/details/105255691

二次爬取--爬虫经典案例

python爬虫小练习之四：糗事百科第二次，多页爬取

Python爬虫入门教程 12-100 二次元COS图爬取

requests二次爬取全国邮编

5.MR应用_经典案例二次排序

经典爬虫学习（二）-猫眼电影排行爬取

经典爬虫学习（一）-百度贴吧爬取案例

Python爬虫经典案例详解：爬取豆瓣电影写入Excel表格

Python爬取京东商品信息-cookie登录、二次请求、来源检查

爬虫小案例——爬取网站小说

爬虫小案例爬取（妹子图片）

HaaS年度经典案例：二次元穿越小电视

运用scrapy爬虫,爬取17k小说网的案例-方法二

二次排序与分组取TopN

爬虫【一】python爬虫入门案例-爬取图片

爬虫，第二次实战

二次排序案例（GroupingComparator）

python爬虫【二】爬取新闻

Python爬取B站告诉你UP主如何进行《哪吒》二次创作

python练习7：对爬取有道翻译的二次改进之模拟浏览器行为

python爬取二次元肥宅最喜欢的壁纸图片，看过的都说爱了

Java+Jsoup: 爬取二次元妹子图片并下载到本地（完整代码）

经典爬虫：用Scrapy爬取百度股票

Python爬虫案例：爬取百度图片

案例8 爬虫爬取求职信息

使用scrapy爬虫,爬取起点小说网的案例

网络爬虫 - 6 JsonPath的使用方法与爬取案例

Python 爬虫实战案例 : 微信公众号的爬取

网络爬虫 - 5 Xpath的使用方法与爬取案例

Python爬虫初级案例——爬取网络小说

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

【转】spring中对控制反转和依赖注入的理解

tms webcore 安装和使用

java程序员进阶相关书籍

SpringMVC接受请求参数、

如何保存训练好的机器学习模型

MyEclipse、Eclipse设置项目JDK的三个地方

商超行业微信小程序开发定制一般多少钱（行业技术人员解读）

Markdown编辑器语言——30分钟入门到到精通

Linux系统下MongoDB的简单安装与基本操作

Power Strings

每日归档

更多

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)