python 爬虫爬取下载网易云音乐歌单的歌曲(需要使用JS的加密方法得出params去获取下载地址)

要点:1.js加密就是麻烦,只能百度寻找了!设计的加密模块binascii、Crypto、base64

          2.requests.Session的用法,可以指定headers、cookies

         3.可以用scrapy.selector 替代beautiful  搜索

         4.requests 可以直接json()得到json文本

         5.用自己加到requests模块的urlretrieve 下载文件


说干就干,先打开charles,然后进入歌单页面


这时在看看charles,先从code是206(歌曲mp3的网址)开始分析,最后找到歌单

mp3文件


复制mp3的url,看看哪个网站出现


直接找到了包含歌曲url信息的网址,不过蛋疼的是这得POST,再看看post的参数


CTRL+F 了下,完全找不到这2个参数从哪里来,百度了下,特么需要解码,算了,先跳过,先说说歌单


看来很简单的了,歌名前面就是id了,但是特么没有歌手信息啊,还得再折腾

得把’song?id=64006‘ 提取出来,进入每一首歌的页面,再汇总



import requests,os,json,re
from scrapy.selector import Selector

class wangyiyun():
    def __init__(self):
        self.headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36',
            'Referer': 'http://music.163.com/'}
        self.main_url='http://music.163.com/'
        self.session = requests.Session()
        self.session.headers.update(self.headers)

    def get_songurls(self,playlist):
        '''进入所选歌单页面,得出歌单里每首歌各自的ID 形式就是“song?id=64006"'''
        url=self.main_url+'playlist?id=%d'% playlist
        re= self.session.get(url)   #直接用session进入网页,懒得构造了
        sel=Selector(text=re.text)   #scrapySelector,懒得用BS4        songurls=sel.xpath('//ul[@class="f-hide"]/li/a/@href').extract()
        return songurls   #所有歌曲组成的list

    def get_songinfos(self,songurls):
        '''根据songid进入每首歌对应的url,拿到歌手名字,url就是:"http://music.163.com/song?id=64006"'''
        for songurl in songurls:
            url=self.main_url+songurl
            re=self.session.get(url)
            sel=Selector(text=re.text)
            song_id = url.split('=')[1]
            song_name = sel.xpath("//em[@class='f-ff2']/text()").extract_first()
            singer= '&'.join(sel.xpath("//p[@class='des s-fc4']/span/a/text()").extract())
            print(song_id,song_name,singer)

    def work(self,playlist):
        songurls=self.get_songurls(playlist)
        self.get_songinfos(songurls)

d=wangyiyun()
d.work(2214059025)

结果如下:



好了!,终于到了最难搞的部分,解码!!

老实说,我是不太看得明,我把我所参考的3位大神的URL贴上来,大家不妨深入研究!

C语言:https://www.zhanghuanglong.com/detail/csharp-version-of-netease-cloud-music-api-analysis-(with-source-code)

Python单纯的解码部分:https://segmentfault.com/a/1190000012818254?utm_source=tuicool&utm_medium=referral

@Jack-Cherish 老哥的完整代码:https://github.com/Jack-Cherish/python-spider

刚才已经由歌单得到歌曲的ID、歌名、歌手

接着就是如何根据歌曲ID得到MP3的URL了,很明显,中间得经过这个网址


就能得出歌曲的真实地址了,可是,需要post2个参数paramsencSecKey


这2个参数paramsencSecKey哪里来的呢,就是要解码!!

image.png


点击歌曲所在页面的控制台(F12) Sources,可以看到有很多请求的数据,这里包含 js css image 以及页面,基本上大的公司加密的方法都是放在一个单独的js文件中,所以我们可以每一个个展开只选择js文件 然后搜索参数 params 或者 encSecKey 其中一个即可

image.png

可以看到图中这个core.jshttp://s3.music.126.net/sep/s/2/core.js?51c175b69f779986b5f2b7445b85c7b1encSecKey有三个,那应该就是他了,最后再点击红色箭头所指的就可以美化一下代码啦,不然你就只能看着一坨坨的 image.png

通过搜索就可以看到这里有我们需要的两个参数,那么接下来就只需要研究这两个参数所在的上面一部分代码即可,其他代码都无需再管。

var bBj9a = window.asrsea(JSON.stringify(j3x), bwA8s(["流泪", ""]), bwA8s(Uf9W.md), bwA8s(["爱心", "女孩", "惊恐", "大笑"]));
e3x.data = k3x.cC4G({
    params: bBj9a.encText,
    encSecKey: bBj9a.encSecKey

这是JS了,我完全不懂,看了大神们的解说,也一知半解,我还是尝试着跟着他们去搞吧

先把window.asrsea 这个函数代码,ctrl+f  搜索window.asrsea,只有2个,一个是上面的,另外一个就是下面的代码

!function() {
    function a(a) {
        var d, e, b = "abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789", c = "";
        for (d = 0; a > d; d += 1)
            e = Math.random() * b.length,
            e = Math.floor(e),
            c += b.charAt(e);
        return c
    }
    function b(a, b) {
        var c = CryptoJS.enc.Utf8.parse(b)
          , d = CryptoJS.enc.Utf8.parse("0102030405060708")
          , e = CryptoJS.enc.Utf8.parse(a)
          , f = CryptoJS.AES.encrypt(e, c, {
            iv: d,
            mode: CryptoJS.mode.CBC
        });
        return f.toString()
    }
    function c(a, b, c) {
        var d, e;
        return setMaxDigits(131),
        d = new RSAKeyPair(b,"",c),
        e = encryptedString(d, a)
    }
    function d(d, e, f, g) {
        var h = {}
          , i = a(16);
        return h.encText = b(d, g),
        h.encText = b(h.encText, i),
        h.encSecKey = c(i, e, f),
        h
    }
    function e(a, b, d, e) {
        var f = {};
        return f.encText = c(a + e, b, d),
        f
    }
    window.asrsea = d,
    window.ecnonasr = e
}();

注意了,window.asrsea = d,意思就是这个window.asrsea函数就是d!!!

    function d(d, e, f, g) {
        var h = {}
          , i = a(16);
        return h.encText = b(d, g),
        h.encText = b(h.encText, i),
        h.encSecKey = c(i, e, f),
        h
    }

回头看看window.asrsea,有4个参数,其实就是对应上面的d,e,f,g,把这4个参数代入后,返回的

h.encText---------->params: bBj9a.encText,
h.encSecKey-------->encSecKey: bBj9a.encSecKey

所以破解了这个d函数就能得到我们想要的2个参数了,

先是调用a函数得到i---------->i = a(16)

接着h.encTect,调用了2次b函数,h.encText = b(d, g)---------->h.encText = b(h.encText, i)

最后h.encSecKey, 调用了c函数,---------->h.encSecKey = c(i, e, f)

开始破解!

1.好了,那么先破解i,搞懂a函数

function a(a) {
        var d, e, b = "abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789", c = "";
        for (d = 0; a > d; d += 1)
            e = Math.random() * b.length,
            e = Math.floor(e),
            c += b.charAt(e);
        return c
    }

大佬们都说a方法是产生16位随机字符串,其实可以用固定的,但是我还是用Jack的吧!

好像很简单,i=binascii.hexlify(os.urandom(16))[:16]

分析:binascii.hexlify() 就是把字符串每一个字节的数据转换成相应的2位十六进制表示

      os.urandom(n) 是一种随机生成n个字节字符串的方法

        特么真的其实就是随机搞个16位的字符串,而且是bytes

        b'40c9505f1d021439'

2.接着,就是把h.encTect搞出来,b函数

h.encText = b(d, g)---------->h.encText = b(h.encText, i)

function b(a, b) {
        var c = CryptoJS.enc.Utf8.parse(b)
          , d = CryptoJS.enc.Utf8.parse("0102030405060708")
          , e = CryptoJS.enc.Utf8.parse(a)
          , f = CryptoJS.AES.encrypt(e, c, {
            iv: d,
            mode: CryptoJS.mode.CBC
        });
        return f.toString()
    }

很明显,看不懂,先看看大佬们怎写:

from Crypto.Cipher import AES
import base64

def aes_encrypt(text, key):
    iv = "0102030405060708"
    pad = 16 - len(text) % 16
    text = text + pad * chr(pad)
    encryptor = AES.new(key, AES.MODE_CBC, iv)
    result = encryptor.encrypt(text)
    result_str = base64.b64encode(result)
    return result_str

很明显,也看不懂。反正这样写就行了。

3.最后,就是把h.encSecKey搞出来,c函数

    function c(a, b, c) {
        var d, e;
        return setMaxDigits(131),
        d = new RSAKeyPair(b,"",c),
        e = encryptedString(d, a)
    }

大佬们的写法:

def rsa_encrpt(text, pubKey, modulus):
    text = text[::-1]
    rs = pow(int(binascii.hexlify(text), 16), int(pubKey, 16), int(modulus, 16))
    return format(rs, 'x').zfill(256)
OK,现在把函数都搞清楚了,再回头看整个原函数:

var bBj9a = window.asrsea(JSON.stringify(j3x), bwA8s(["流泪", ""]), bwA8s(Uf9W.md), bwA8s(["爱心", "女孩", "惊恐", "大笑"]));
e3x.data = k3x.cC4G({
    params: bBj9a.encText,
    encSecKey: bBj9a.encSecKey
输入的4个参数到底是什么东东呢?

关于这个,大佬们说可以像pycharm可以设断点,就能看这4个参数的值了,我也折腾了很久,终于搞懂了!!


设置断点,然后按播放


还得按多记下右上角的resume,再选中参数,就能看到参数的值了!!

第一个参数明显跟歌曲的id有关,其余3个都是常量,现在可以把这个解码给写出来了!!

 
 
import os,shutil,json,requests
from  binascii import hexlify
from Crypto.Cipher import AES
import base64

class Encrypyed():
    def __init__(self):
        self.pub_key = '010001'
        self.modulus = '00e0b509f6259df8642dbc35662901477df22677ec152b5ff68ace615bb7b725152b3ab17a876aea8a5aa76d2e417629ec4ee341f56135fccf695280104e0312ecbda92557c93870114af6c9d05c4f7f0c3685b7a46bee255932575cce10b424d813cfe4875d3e82047b97ddef52741d546b8e289dc6935b3ece0462db0a22b8e7'
        self.nonce = '0CoJUm6Qyw8W8jud'

    def create_secret_key(self, size):
        return hexlify(os.urandom(size))[:16].decode('utf-8')

    def aes_encrypt(self,text, key):
        iv = '0102030405060708'
        pad = 16 - len(text) % 16
        text = text + pad * chr(pad)
        encryptor = AES.new(key, AES.MODE_CBC, iv)
        result = encryptor.encrypt(text)
        result_str = base64.b64encode(result).decode('utf-8')
        return result_str

    def rsa_encrpt(self,text, pubKey, modulus):
        text = text[::-1]
        rs = pow(int(hexlify(text.encode('utf-8')), 16), int(pubKey, 16), int(modulus, 16))
        return format(rs, 'x').zfill(256)

    def work(self,text):
        text = json.dumps(text)
        i=self.create_secret_key(16)
        encText =self.aes_encrypt(text, self.nonce)
        encText=self.aes_encrypt(encText,i)
        encSecKey=self.rsa_encrpt(i,self.pub_key,self.modulus)
        data = {'params': encText, 'encSecKey': encSecKey}
        return data

do=Encrypyed()
data=do.work(64006)

url='http://music.163.com/weapi/song/enhance/player/url?csrf_token='
headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36',
            'Referer': 'http://music.163.com/'}
session = requests.Session()
session.headers=headers
re=session.post(url,data=data)
print(re.text)


OK!!!成功了,现在就把代码整合下,根据歌单下载网易云的歌曲

完整代码:

import requests,os,json,base64
from scrapy.selector import Selector
from  binascii import hexlify
from Crypto.Cipher import AES

class Encrypyed():
    '''传入歌曲的ID,加密生成'params''encSecKey 返回'''
    def __init__(self):
        self.pub_key = '010001'
        self.modulus = '00e0b509f6259df8642dbc35662901477df22677ec152b5ff68ace615bb7b725152b3ab17a876aea8a5aa76d2e417629ec4ee341f56135fccf695280104e0312ecbda92557c93870114af6c9d05c4f7f0c3685b7a46bee255932575cce10b424d813cfe4875d3e82047b97ddef52741d546b8e289dc6935b3ece0462db0a22b8e7'
        self.nonce = '0CoJUm6Qyw8W8jud'

    def create_secret_key(self, size):
        return hexlify(os.urandom(size))[:16].decode('utf-8')

    def aes_encrypt(self,text, key):
        iv = '0102030405060708'
        pad = 16 - len(text) % 16
        text = text + pad * chr(pad)
        encryptor = AES.new(key, AES.MODE_CBC, iv)
        result = encryptor.encrypt(text)
        result_str = base64.b64encode(result).decode('utf-8')
        return result_str

    def rsa_encrpt(self,text, pubKey, modulus):
        text = text[::-1]
        rs = pow(int(hexlify(text.encode('utf-8')), 16), int(pubKey, 16), int(modulus, 16))
        return format(rs, 'x').zfill(256)

    def work(self,text):
        text = json.dumps(text)
        i=self.create_secret_key(16)
        encText =self.aes_encrypt(text, self.nonce)
        encText=self.aes_encrypt(encText,i)
        encSecKey=self.rsa_encrpt(i,self.pub_key,self.modulus)
        data = {'params': encText, 'encSecKey': encSecKey}
        return data


class wangyiyun():
    def __init__(self):
        self.headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36',
            'Referer': 'http://music.163.com/'}
        self.main_url='http://music.163.com/'
        self.session = requests.Session()
        self.session.headers=self.headers
        self.ep=Encrypyed()

    def get_songurls(self,playlist):
        '''进入所选歌单页面,得出歌单里每首歌各自的ID 形式就是“song?id=64006"'''
        url=self.main_url+'playlist?id=%d'% playlist
        re= self.session.get(url)   #直接用session进入网页,懒得构造了
        sel=Selector(text=re.text)   #scrapySelector,懒得用BS4        songurls=sel.xpath('//ul[@class="f-hide"]/li/a/@href').extract()
        return songurls   #所有歌曲组成的list
        ##['/song?id=64006', '/song?id=63959', '/song?id=25642714', '/song?id=63914', '/song?id=4878122', '/song?id=63650']


    def get_songinfo(self,songurl):
        '''根据songid进入每首歌信息的网址,得到歌曲的信息
        return'64006''陈小春-失恋王'''
        url=self.main_url+songurl
        re=self.session.get(url)
        sel=Selector(text=re.text)
        song_id = url.split('=')[1]
        song_name = sel.xpath("//em[@class='f-ff2']/text()").extract_first()
        singer= '&'.join(sel.xpath("//p[@class='des s-fc4']/span/a/text()").extract())
        songname=singer+'-'+song_name
        return str(song_id),songname

    def get_url(self,ids,br=128000):
        '''self.ep.work输入歌曲ID,解码后返回data{params 'encSecKey}
        然后post,得出歌曲所在url'''
        text = {'ids': [ids], 'br': br, 'csrf_token': ''}
        data=self.ep.work(text)
        url = 'http://music.163.com/weapi/song/enhance/player/url?csrf_token='
        req = self.session.post(url, data=data)
        song_url=req.json()['data'][0]['url']
        return song_url

    def download_song(self, songurl, dir_path):
        '''根据歌曲url,下载mp3文件'''
        song_id, songname = self.get_songinfo(songurl) #根据歌曲url得出ID、歌名
        song_url = self.get_url(song_id)                #根据ID得到歌曲的实质URL
        path = dir_path + os.sep + songname + '.mp3'   #文件路径
        requests.urlretrieve(song_url, path)            #下载文件

    def work(self,playlist):
        songurls=self.get_songurls(playlist)         #输入歌单编号,得到歌单所有歌曲的url
        dir_path=r'C:\Users\Administrator\Desktop'
        for songurl in songurls:
            self.download_song(songurl,dir_path)     #下载歌曲


if __name__ == '__main__':
    d=wangyiyun()
    d.work(2214059025)
 
  
 

OK,完成,收工!!





猜你喜欢

转载自blog.csdn.net/qq_38282706/article/details/80251666