Python爬虫分析——B站UP主视频数据分析

背景

一个朋友的要求,对B站UP主的视频进行分析。至于要做什么,你懂的。

核心

使用B站提供的API,爬取数据,进行分析。具体B站提供的API就不说了,https://www.bilibili.com/read/cv3430609/,自己看去。

获取UP主的视频列表

使用getSubmitVideos。具体的格式为如下:

https://space.bilibili.com/ajax/member/getSubmitVideos?mid=xxx&page=x

其中:

1、mid表示UP主的UID(每个UP主都有自己的ID)。

2、page表示第几页。B站每页返回最多20个条信息。

样例数据

B站回传的数据是Json格式的。下面是某个UP主的部分信息样例数据,其中关键数据删除。

{
  "status":true,
  "data":{
    "tlist":{
      "36":{
        "tid":36,
        "count":36,
        "name":"      "}},
    "vlist":[{
      "comment":2,
      "typeid":39,
      "play":330,
      "pic":"fb405e9d76dd7268.jpg",
      "subtitle":"",
      "description":"xxxxxx",
      "copyright":"",
      "title":"xxxxxxxxxxx",
      "review":0,
      "author":"xxxxxxxxxx",
      "mid":    ,
      "is_union_video":0,
      "created":1584302350,
      "length":"38:59",
      "video_review":1,
      "is_pay":0,
      "favorites":1,
      "aid":964xxxxx5,
      "is_steins_gate":0,
      "hide_click":false},],
    "count":36,
    "pages":2}
}

配合B站对应的WEB页面可以猜测出部分数据的内容。

关键字 含义 备注
comment 视频评论数量  
typeid 视频隶属的区  
play 视频的播放数量  
pic 封面图片  
subtitle 子标题 不确定
description 描述 UTF-8转码后信息
copyright 版权 不确定
title 视频的名字 UTF-8转码后信息
review   不知道
author 作者 UTF-8转码后信息
mid UP主的UID  
is_union_video   不知道
created 上传时间  
length 视频长度  
video_review   不知道
is_pay 收费 不确定
favorites 收藏  
aid 视频的ID  
is_steins_gate   不知道
hide_click   不知道

所有的数据对我们而言,最重要的数据是 mid 和 aid,其实 mid 是预先知道的。有了这个 aid 后,你就可以为所欲为了。

后面的内容就比较隐私了,就不写了。给各位道歉。

发布了268 篇原创文章 · 获赞 309 · 访问量 108万+

猜你喜欢

转载自blog.csdn.net/justidle/article/details/104964934