版权声明:作者原创,转载请附上文章链接。 https://blog.csdn.net/qq_36330643/article/details/81288903
做nlp项目,除了各大电商评论和微博数据,弹幕分析对于舆论和该视频的推广都是有帮助的,下面主要说说这么从B站爬取弹幕。
过程很简单,我们来看看:
1. 首先,bilibili的弹幕是在xml文件里,每个视频都有其对应的cid和aid,我们取到cid中的数字放入http://comment.bilibili.com/+cid+.xml,即可得到该视频对应的cid。
比如:打开这个链接http://comment.bilibili.com/2015358.xml,就可以看到:
cid取法:在页面上F12,然后查找cid,该cid即为弹幕页的标识。
这样就可以找到该视频的cid,然后根据第一步拼成弹幕url,即可解析提取弹幕。