最近在学习爬虫技术,就用抖音练了一下手,发现抖音爬虫并不是那么难,主要还是签名算法花了我一点时间,只要能搞定签名,要爬取哪些数据基本就迎刃而解了。
至于签名算法的实现,网上有很多文章,大家如果要自己实现,可以多找找看,不过作者并不公开签名算法,毕竟这是核心嘛。看到网上有通过抓包工具来爬取的方式,这种方式只适合玩玩,不能批量、连续爬取抖音数据。目前本人已经实现的数据类型有以下这些:
另外需要说明一点的是,数据爬取的量不能太大,如果量很大的话,需要自己弄一个代理,否则可能被抖音识别到,导致数据爬不下来,怎么加代理,网上教程一大堆,自己学吧!!
挂几张爬取后数据呈现的图片,数据很多,要使用哪些数据自行选用:
1、作品:
2、user list
3、user fans
说明一点,不要用于商业用途!!!!