python从入门到放弃篇38(selenium库,requests库,lxml库)爬取音乐believer现场MV

我挺喜欢梦龙(Imagine Dragon)的歌。因此,我去搜了一波xx音乐(只可臆想,不可言传),发现要2x币下载,脑热,就去网上搜现场版MV,过瘾有激情。试了一下,不能直接下载,刚好赶上我最近在学爬虫。所以,干脆自己动手爬下来。在此,我跟大家分享一波。

此次案例的网址是:
https://haokan.baidu.com/v?vid=15746080043707732068&pd=bjh&fr=bjhauthor&type=video

喜欢梦龙的朋友,可以跟着我一起用这个方法下载现场版MV。完整代码如下:

from selenium import webdriver
from lxml import etree
import re
import requests

options = webdriver.ChromeOptions()
options.add_argument('--headless')
options.add_argument('--disable-gpu')
driver = webdriver.Chrome(options=options)

url = 'https://haokan.baidu.com/v?vid=15746080043707732068&pd=bjh&fr=bjhauthor&type=video'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36 Edg/84.0.522.50'
}
driver.get(url)
html = driver.page_source
select = etree.HTML(html)

video = select.xpath('//*[@id="mse"]/video/@src')
for v in video:
    believer = requests.get(v,headers=headers)
    with open('E:\\video\\believer.avi','wb+') as f:
        f.write(believer.content)

首先,我们先导入可能会用的库。如下图:
在这里插入图片描述
接着,我们开启万花筒模式(无界面),如下图:
在这里插入图片描述
然后,我们开始设置url地址和请求头headers。如下图:
在这里插入图片描述
接着,我们使用get请求,获得页面的源代码,再根据源代码创建选择器。如下图:
在这里插入图片描述
之后,我们去观察网页结构,如下图:
在这里插入图片描述
发现标签video里面的属性src有一个链接地址,应该是视频地址,我们把它复制下来去访问一下,如下图:
在这里插入图片描述
我们发现是对的,所以,我们的目标明确,接着就开始干!!撸起袖子加油干!!我们要提取这个标签下的属性,所以,我们复制video标签对应的xpath路径,就有:
在这里插入图片描述
然后,我们要把这个地址进行循环(因为返回是列表类型,我们需要的是列表内部的元素!!),以二进制的形式写入视频文件,这样就能下载到本地计算机上了。所以有:
在这里插入图片描述
结果,大家可以看见在我的E盘的video文件夹(目录)下面生成了一个视频文件。
在这里插入图片描述
打开效果,截图没有声音,但是视频是有声音的,因为截图,上传限制,截不了,请大家见谅。
在这里插入图片描述
在这里插入图片描述
很开森,免费下载现场版梦龙MV。心情开森了不少,今天又学了视频爬取,感觉,每天都有收获,很不错。

最后,感谢大家前来观看鄙人的文章,文中或有诸多不妥之处,还望指出和海涵。

猜你喜欢

转载自blog.csdn.net/weixin_43408020/article/details/107739443
今日推荐