基于node egg框架下爱奇艺影视爬虫 - 代码天地

基于node egg框架下爱奇艺影视爬虫

其他 2018-10-11 05:38:02 阅读次数: 0

基于node egg框架下做的一个爱奇艺爬虫数据（会员的也可以观看）我们先看下最终的效果下图地址

第一步：获取电影资源我们选择的平台是爱奇艺

大部分的电影资源这些数据都在 html 页面上，这样的话就方便我们爬取数据，当然也有一些平台这些数据死动态获取的

这种的话就比在html的要麻烦一些当然也是可以爬的，这次我们主要讲讲静态爬取

打开爱奇艺官网调试我们可以看到下面这两张图

1.

图1中的上面模块对应的都是一页地址

url： http://list.iqiyi.com/www/1/-------------11-1-1-iqiyi--.html

2.

图2中的对应的模块对应的都是http://list.iqiyi.com/www/1/-------------11-1-1-iqiyi--.html的目标

最下面的点击下页可以看出每次加一我们可以得出http://list.iqiyi.com/www/1/-------------11-‘这个值是累加的’-1-iqiyi--.html

我们知道了每页的对应关系后再出每页中找出每个电影直接的结构

下面看下图3：

我们可以看出每个div盒子包裹着的url 都是 site-piclist_pic 下的a标签：div.site-piclist_pic > a

第二步：知道了电影所在的 url，也有了通过 url 获取 html 页面数据的方法，接下来要解析出 html 内的电影数据（使用node.js实现）

这里我们用的是 jsdom

jsdom 是模拟足够的Web浏览器子集，以便测试和抓取Web应用程序（最新版本的jsdom需要Node.js v6或更新版本）

使用 jsdom 库解析 html 获取所有的电影标签返回需要的数据

在config配置文件中有几个重要的配置

pageMaxNum：控制拉取的页码数和并发的数量

parseURL：这个接口是提供视频解析的

以上内容都是基于egg.js框架下实现的（代码中的中间件是为了规范统一的返回结果处理）

代码地址

https://github.com/xinjiewl/reptiles-aiqiyi

参考

https://eggjs.org/
http://www.iqiyi.com/
http://nodejs.cn/api/
蓝桥杯

猜你喜欢

转载自blog.csdn.net/qq_24884955/article/details/81541925

基于node egg框架下爱奇艺影视爬虫

webstorm 调试egg 框架下的node程序

爱奇艺开源 Qigsaw，基于 Android App Bundle 的动态化框架

爱奇艺基于 Android App Bundle 动态化框架 Qigsaw 1.1.5 版本发布

爱奇艺基于 Android App Bundle 动态化框架 Qigsaw 1.2.0 版本发布啦

爱奇艺基于 Android App Bundle 动态化框架 Qigsaw 1.2.3 版本发布啦

爱奇艺 Qigsaw 1.3.2 版本发布，基于 Android App Bundle 的动态化框架

基于node实现的简单爬虫

基于node的koa框架初识

基于node.js的express框架

基于Node.js的WEB开发框架

基于node.js的开发框架 — Koa

基于node.js的爬虫框架 node-crawler简单尝试

php 爬虫爱奇艺视频、内容

基于爱奇艺HCDN视频分发网络的开放缓存

基于Apache Flink的爱奇艺实时计算平台建设实践

爱奇艺数据湖实战 - 基于数据湖的日志平台架构演进

基于 Egg.js 框架的 Node.js 服务构建之用户管理设计

基于express框架下Node.js+MySQL连接池的数据库增添操作

基于Node.js的裁判文书网爬虫分析

初步了解Express(基于node.js的后端框架)

基于Promise的Node.js MVC框架 ThinkJS

Node.js基于Express框架的简单案例

基于Knex.js的Node.js ORM框架 bookshelf

搭建基于node Express框架运行环境,并使用html引擎

Sequelize 5 beta 15 发布，基于 Node 的异步 ORM 框架

基于 Node.js 平台的web开发框架-----express

Foxify v0.10.7 发布，基于 TypeScript 的 node 框架

基于node.js的express框架的图书管理功能

基于node.js的koa框架入门

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)