Python 网易云音乐评论爬取（附加密算法）

前置需求

可选：fiddler 捉包工具（官网下载）

可选：了解一点AES，RSA加密

任一浏览器

pycryptodome模块（直接pip安装）

base64及binascii模块（直接导入）

可选是指：如果你要深入了解如何找到加密方法，就选

结构分析

我们要爬的是歌曲的评论，而歌曲的来源有多种，有的来源于专辑，有的来源于歌单，有的来源于歌手页；而歌单和专辑的来源又有多种。所以爬取多个歌曲的评论之前，我们要分析一下信息的结构，最好写下来，这样头脑会更清晰减少代码修改量。这里放出一张我自己整理的结构，并选择一条线路来实现（发现音乐→→歌单→→歌曲→→评论）

至于上图所列的其他信息，读者可以过完这个实战后自己动手实现，但是要注意的是：某些信息是无法直接通过网页源码提取出来的，需要通过加密的动态包（其实是API）获得，如果有需要的话我可能会出一篇文章总结网易云音乐的API

收集歌单id

每个歌单都有唯一的id，通过http://music.163.com/playlist... 这个链接就可以找到歌单，所以第一步我们要收集发现音乐下的多个歌单id

首先进入官网的“发现音乐”的“歌单”一栏，这里可以看到很多高分歌单，先到处点一下，可以发现链接是在改变的，说明部分数据不是动态加载的，可通过网页源码获得。最后发现链接有cat，order，offset，和limit四个对我们有用的参数，cat是分类，order是排序，offset=（页数-1）*35，limit=35。还有注意使用前要把链接的井号和一个斜杠去掉，否者会导致网页源码缺失。

先随便找一条链接requests一下先，可以发现目标信息是完整的，和F12看到的源码一样，那歌单id就可以放心提取了，具体用什么方法取决于读者。参考代码：

收集歌单內歌曲id

请求动态数据（评论）

(可选）加密算法详解

可以确定params和encSecKey这两个参数是加密过的了，里面包含着页数信息，服务器收到参数，解密后根据内容返回信息。通常这种加密都是通过js加密的，所以首先要找到这个有加密算法的js。

通过F12查看包的initiator可以得知其发起者是core.js，马上去JS包那里找。

其内容是巨量堆砌在一起的，丢去排版一下后拷贝到本地文件中，代码量20000+，先用搜索一下params和encSecKey看看能否定位到加密算法那里。

结果是可行的，看到这个熟悉的data就知道加密函数是window.asrsea（），接收了4个参数！！！又加大了分析难度，根本不知道这些参数是什么。这时就要上fiddler了来调试js了，能实现本地js覆盖原来的js，让浏览器执行本地的js。（使用fiddler前请配置好代理，网上查）

fiddler调试配置

选到autoresponder，把三个选项全勾上，然后按add rule，添加要替换的js，如图添加rule，第一栏是待替换的js（就是那个core.js包的链接），第二栏是替换物的绝对路径（就是拷贝回来修改过的js文件的绝对路径），然后按save

修改js文件，控制台输出关键值

对刚才找到的代码块进行修改，添加5条语句让它分别输出四个参数和params，通过比较包和输出的params确定成组的4个参数。

注意：①拷贝回来的js一定要趁热修改趁热使用，原来的core.js一段时间后会变动（如上面两幅图第一个参数中的j3x变成了j5o），所以不要照抄我的，以你拷贝回来的为准

②如果修改后的js没在浏览器中加载，fiddler也捉不到这个core.js的话，请清空浏览器的缓存再尝试

寻找参数规律

配置好fiddler修改好js后马上运行fiddler，然后马上打开浏览器，开启F12选择console控制台监测输出，打开测试歌曲链接http://music.163.com/#/song?i...，可以看到有很多组输出，我们可以通过比较评论包的params参数和输出的params参数找到评论对应的那组参数（如下图红色圈着的那组）

我们可以看到，不同组的第二第三第四个输出值都是一样的，所以window.asrsea（）除第一个参数是会变外，其余三个参数是定值。研究对象一下子减到一个。对评论来说，第一个参数是'{rid: "R_SO_4_411907742", offset: "0", total: "true", limit: "20", csrf_token: "f15b016ca1e43812f78a260998917527"}' ，是json object，为了搞清其变化规律，我们把评论翻到第二页看看会变成怎样。第二页评论得到'{rid: "R_SO_4_411907742", offset: "20", total: "false", limit: "20", csrf_token: "f15b016ca1e43812f78a260998917527"}'......

按多几页，多切几首歌后就会总结出第一个参数的规律，这个object包含了歌曲id，页数等信息，应该是被加密之前的原始数据。

rid——‘R_SO_4_’加上歌曲id（其实rid参数可以不要，刚才说过任一页数的两个参数对不同歌曲是通用的，可以让它为空字符串）

offset——字符化的数字，值等于（页数-1）*20

total——第一页是"true",其余页数是"false"

limit——固定"20"

csrf_token——之前遇到过，无规律字符串（这个可以不要，直接让它为空字符串）

window.asrsea()接收的第一个参数还经过JSON.stringify()处理，让其变成了json数据，这个过程我们可以用python的json.dumps(dict)实现

#window.asrsea()接收参数'{......}'#第一参数，那个json数据'010001'#第二参数'00e0b509f6259df8642dbc35662901477df22677ec152b5ff68ace615bb7b725152b3ab17a876aea8a5aa76d2e417629ec4ee341f56135fccf695280104e0312ecbda92557c93870114af6c9d05c4f7f0c3685b7a46bee255932575cce10b424d813cfe4875d3e82047b97ddef52741d546b8e289dc6935b3ece0462db0a22b8e7'#第三参数'0CoJUm6Qyw8W8jud'#第四参数

加密算法

参数是搞明白了，但是如何加密还是不清楚，于是回到刚才的js文件中。追踪window.asrsea()函数，发现它指向一个叫d的函数，仔细研究许久后大概知道加密算法

Python 网易云音乐评论爬取（附加密算法）

猜你喜欢