深入解析：使用Python爬取Bilibili视频

其他 2025-04-08 05:24:18 阅读次数: 0

深入解析：使用Python爬取Bilibili视频

引言

Bilibili，作为中国领先的年轻人文化社区，拥有海量的视频资源。对于想要下载Bilibili视频的用户来说，手动下载不仅费时费力，而且效率低下。本文将介绍如何使用Python编写一个脚本，自动化地爬取Bilibili上的视频，并将其保存到本地。

环境准备

在开始之前，请确保你已经安装了以下Python库：

requests：用于发送HTTP请求。
json：用于解析JSON数据。
re：用于正则表达式匹配。
os：用于操作系统功能，如文件路径操作。
subprocess：用于执行外部命令，如调用ffmpeg。
sys：用于访问与Python解释器密切相关的变量和函数。

可以通过以下命令安装所需的库：

pip install requests

代码解析

1. 导入必要的库

import requests
import json
import pprint
import re
import os
import subprocess
import sys

2. 获取URL响应体

定义一个函数getResponse，用于发送GET请求并获取响应体。

def getResponse(url):
    headers = {
   
        'referer': 'https://www.bilibili.com/',
        'User-Agent': 'Mozilla/5.0 ...'
    }
    response = requests.get(url=url, headers=headers)
    return response

3. 解析响应体

定义函数parseResponse，用于解析视频页面的响应体，并提取视频和音频的URL。

def parseResponse(url):
    # ... 省略部分代码 ...
    jsonData = json.loads(html_data)
    videoTitle = re.findall('<title ...', response.text)[0]
    audioUrl = jsonData['data']['dash']['audio'][0]['baseUrl']
    videoUrl = jsonData['data']['dash']['video'][0]['baseUrl']
    videoInfo = {
   
        'videoTitle': videoTitle,
        'audioUrl': audioUrl,
        'videoUrl': videoUrl,
    }
    return videoInfo

4. 保存视频和音频

定义函数saveMedia，用于将下载的媒体内容保存到本地文件。

def saveMedia(fileName, content, mediaType):
    os.makedirs('D:\\bilibili', exist_ok=True)
    with open(f'D:\\bilibili\\{fileName}.{mediaType}', 'wb') as f:
        f.write(content)

5. 合并音频和视频

定义函数AvMerge，使用ffmpeg合并音频和视频文件。

def AvMerge(Mp3Name, Mp4Name, savePath):
    # 使用subprocess调用ffmpeg合并音频和视频
    subprocess.run(['ffmpeg', '-i', Mp4Name, '-i', Mp3Name, '-c:v', 'copy', ...])

6. 主函数

main函数是脚本的入口点，负责调用上述函数完成整个爬取和保存流程。

def main():
    url = input("请输入B站视频url地址:")
    videoInfo = parseResponse(url)
    # ... 省略部分代码 ...
    AvMerge(Mp3Name, Mp4Name, savePath)

结语

通过上述脚本，我们可以实现自动化下载Bilibili视频的功能。这不仅大大提升了下载效率，也让我们对Python网络编程有了更深入的理解。请注意，爬虫的使用应遵守网站的爬虫政策和法律法规，合理使用爬虫技术。

代码结果

注意事项

确保在合法合规的前提下使用爬虫技术。
尊重视频作者的版权，不要用于商业用途。
考虑到Bilibili网站的反爬措施，可能需要更新请求头或使用代理。

附录

ffmpeg下载: FFmpeg官网
Python库文档: Requests, json

本文提供了一个基于Python的Bilibili视频爬取方案，希望能够帮助到有需要的朋友。如果你有任何问题或建议，请随时与我联系。

完整代码：


import requests
import json
import pprint
import re
import os
import subprocess
import sys

"""获取url响应体"""
def getResponse(url):
    # 设置请求头
    headers = {
   
        'referer': 'https://www.bilibili.com/',
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/113.0.0.0 Safari/537.36'
    }
    # 发起get请求
    response = requests.get(url=url, headers=headers)
    return response

"""解析响应体"""
def parseResponse(url):
    # 获取url响应体
    response = getResponse(url)
    # 用正则表达式取出返回的视频数据
    html_data = re.findall('<script>window.__playinfo__=(.*?)</script>', response.text)[0]
    # 解析成json数据
    jsonData = json.loads(html_data)
    # 获取视频标题
    videoTitle = re.findall('<title data-vue-meta="true">(.*?)</title>', response.text)[0]
    # 获取音频
    audioUrl = jsonData['data']['dash']['audio'][0]['baseUrl']
    # 获取视频
    videoUrl = jsonData['data']['dash']['video'][0]['baseUrl']
    # 封装视频信息
    videoInfo = {
   
        'videoTitle': videoTitle,
        'audioUrl': audioUrl,
        'videoUrl': videoUrl,
    }
    print("获取Response信息成功！")
    return videoInfo

"""保存视频和音频"""
def saveMedia(fileName, content, mediaType):
    # 创建目录（如果不存在）
    os.makedirs('D:\\bilibili', exist_ok=True)
    # 写入文件
    with open(f'D:\\bilibili\\{fileName}.{mediaType}', mode='wb') as f:
        f.write(content)
    print(f"保存{mediaType}成功！")

def AvMerge(Mp3Name, Mp4Name, savePath):
    print("开始合并音频和视频.........")
    print(f"音频文件: {Mp3Name}")
    print(f"视频文件: {Mp4Name}")
    print(f"合并后文件保存路径: {savePath}")

    # 使用subprocess来调用ffmpeg，并重定向输出
    with open(os.devnull, 'w') as devnull:
        result = subprocess.run(
            ['ffmpeg', '-i', Mp4Name, '-i', Mp3Name, '-c:v', 'copy', '-c:a', 'aac', '-strict', 'experimental', savePath],
            stdout=devnull,
            stderr=devnull
        )

    print("合并成功！")
    os.remove(Mp3Name)
    os.remove(Mp4Name)

def main():
    url = input("请输入B站视频url地址:")
    videoInfo = parseResponse(url)
    # 获取视频标题
    fileName = videoInfo['videoTitle']
    # 下载并保存音频
    audioContent = getResponse(videoInfo['audioUrl']).content
    saveMedia(fileName, audioContent, 'mp3')
    # 下载并保存视频
    videoContent = getResponse(videoInfo['videoUrl']).content
    saveMedia(fileName, videoContent, 'mp4')

    Mp3Name = f'D:\\bilibili\\{fileName}.mp3'
    Mp4Name = f'D:\\bilibili\\{fileName}.mp4'
    savePath = f'D:\\bilibili\\merge_{fileName}.mp4'
    AvMerge(Mp3Name, Mp4Name, savePath)


if __name__ == '__main__':
    main()