记一次失败的直播抓取(包含相关知识点记录)

版权声明:本文为博主原创文章,未经博主允许不得转载。(Copyright © https://blog.csdn.net/s_gy_zetrov. All Rights Reserved) https://blog.csdn.net/S_gy_Zetrov/article/details/82955100

今日首次尝试对直播视频进行抓取

平台:某直播课程
手段:修改useragent为移动端,抓取.ts文件
直播技术支持:经试验,猜测是HLS (HTTP Live Streaming) 直播
程序编写语言:Python 3.6.4

HLS直播

HLS (HTTP Live Streaming) 是有苹果提出的一个基于http的协议。其原理是把整个流切分成一个个的小视频文件,然后通过一个.m3u8的文件(列表)来管理这些.ts视频文件。我试验的平台是通过一个名为record.m3u8的文件。 敲黑板,HLS直播原理:服务器软件将接收到的流每缓存一定时间后包装为一个新的TS文件,然后更新m3u8文件。m3u8文件中只保留最新的几个片段的索引,以保证观众任何时候连接进来都会看到较新的内容,实现近似直播的效果。

HLS完美适应H5的要求,是移动端浏览器天生的直播方案,唯一的缺点是延时大。
HTTP Live Streaming 并不是一个真正实时的流媒体系统,这是因为对应于媒体分段的大小和持续时间有一定潜在的时间延时。在客户端,至少在一个分段媒体文件被完全下载后才能够开始播放,而通常要求下载完两个媒体文件之后才开始播放以保证不同分段音视频之间的无缝连接。
此外,在客户端开始下载之前,必须等待服务器端的编码器和流分割器至少生成一个TS文件,这也会带来潜在的时延。这种方式的理论最小延时为一个ts文件的时长,一般为2-3个ts文件的时长。所以,hls的延时主要由以下三个部分组成:
a. 服务器端的编码器和流分割器生成TS文件的时间
b. 客户端下载TS文件的时间,而通常要求下载完两个TS媒体文件
c. 客户端解码并播放时间
这三个方面里面,前两个方面我们是可以控制调节的,对于第三个方面只能取决于客户端的性能。

延时优化方向
a. 减少每段ts文件的大小——HLS官方推荐每段ts是10s,可以将之调小
b. 减小播放列表长度和最大ts循环数

抓取结果

1小时14分钟的课只抓到了前6分钟和后20分钟

post-mortem

经验不足,判断中间部分未抓取到的原因是没有及时刷新页面导致session过期

TODO

明早好像还有两节课,拟再次尝试抓取。

References

[1] HLS背景知识部分参考资料:
https://www.jianshu.com/p/50feb760cc50?utm_campaign=maleskine&utm_content=note&utm_medium=seo_notes&utm_source=recommendation

猜你喜欢

转载自blog.csdn.net/S_gy_Zetrov/article/details/82955100
今日推荐