爬取B站up主视频弹幕并生成词云图（2020年5月） - 代码天地

爬取B站up主视频弹幕并生成词云图（2020年5月）

其他 2020-08-10 11:41:56 阅读次数: 0

1. 打开一个视频
在这里插入图片描述
2. 查看抓包信息找到弹幕接口

3. 请求弹幕接口即可得到包含弹幕的xml

4. 弹幕接口url带有oid参数，需要先获取oid，在网页源代码中搜索oid的值发现cid就是oid，可以通过正则来提取cid

5. 代码实现

# coding=utf-8

import re
import requests
import jieba
import pandas
import matplotlib.pyplot as plt

from lxml import etree
from wordcloud import WordCloud

url = input('请输入B站短视频链接：')
# url = 'https://www.bilibili.com/video/BV11p411o73u'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.92 Safari/537.36'}

# 获取cid和视频标题
html_text = requests.get(url=url, headers=headers).text
cid = re.search('cid=(\d+)&aid=\d+', html_text).group(1)
html = etree.HTML(html_text)
title = html.xpath("//span[@class='tit']/text()")[0]

# 获取弹幕列表
response = requests.get('https://api.bilibili.com/x/v1/dm/list.so?oid={}'.format(cid), headers=headers)
xml = etree.fromstring(response.content)
danmu_list = xml.xpath("/i/d/text()")

# 把弹幕存到csv
dm_df = pandas.DataFrame(danmu_list)
dm_df.to_csv('弹幕-{}.csv'.format(title), encoding='utf_8_sig', header=None, index=None)   # 'utf_8_sig'解决保存到csv乱码问题
with open('弹幕-{}.csv'.format(title), 'r', encoding='utf-8') as f:
    txt = f.read()

# 结巴分词
txt = jieba.lcut(txt)
txt = ' '.join(txt)

# 读取词云图背景图片
mask_ima = plt.imread('heart.jpg')
# 生成词云图
wordcloud = WordCloud(font_path='msyh.ttc',  # 字体微软雅黑
                      min_font_size=10,  # 最小字体大小
                      max_words=1000,  # 最大词数
                      max_font_size=150,  # 最大字体大小
                      stopwords={' '},  # 屏蔽词语
                      # width=1000,  # 词云图宽度
                      # height=1000,  # 词云图高度
                      mask = mask_ima,  # 自定义背景图
                      background_color='black' # 背景颜色
).generate(txt)
# 保存词云图
wordcloud.to_file('B站弹幕词云图.png')

保存到csv的弹幕数据
在这里插入图片描述
词云图效果

猜你喜欢

转载自blog.csdn.net/weixin_44857400/article/details/106111232

爬取B站up主视频弹幕并生成词云图（2020年5月）

词云图是怎么做出来的？Python爬取B站视频弹幕，并做成词云图

Python爬虫b站视频弹幕并生成词云图分析

Python教你爬取某站视频弹幕，并绘制词云图（内含完整源码）

爬取B站视频排名第一《祖国大好河山》1W+弹幕，得出一份词频词云图

爬取钉钉在B站卑微道歉视频弹幕，做成词云

Python爬虫爬取B站视频弹幕 + 绘制词云

用python爬取B站弹幕并绘制词云

爬取b站弹幕

用Python爬取B站视频弹幕

爬虫实战---爬取B站视频弹幕（春物）

冰冰B站视频弹幕爬取原理解析

python 爬取视频评论生成词云图

爬取b站热门视频的弹幕，并进行弹幕分析

如何爬取B站弹幕

爬虫爬取b站弹幕方法

爬取b站歌曲的弹幕

Python3，多线程爬完B站UP主的视频弹幕及评论，我飘了~ ~ ~

关于《后浪》的B站弹幕分析总结（一）——爬取B站视频的上万条弹幕的方法

Python自动化爬取b站实时弹幕并制作WordCloud词云

一文搞定B站弹幕生成云图

【爬虫】爬取B站UP的所有视频细节信息（通过UP名字）

Python爬虫分析——B站UP主视频数据分析

爬取B站视频

python爬取B站视频弹幕分析并制作词云

Python爬取B站不讲武德、耗子尾汁出处的视频弹幕

Python爬取B站耗子尾汁、不讲武德出处的视频弹幕

Python爬虫新手入门教学（五）：爬取B站视频弹幕

宝藏B站UP主，视频弹幕尽收囊中！

爬取B站中的《啥是佩奇》的实时弹幕并利用jieba分词形成词云效果

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)