如何爬取icourse163 中国慕课上课程信息（上）， - 代码天地

如何爬取icourse163 中国慕课上课程信息（上），

其他 2019-12-08 21:17:33 阅读次数: 0

中国大学MOOC网上有着特别完善的课程信息，我觉得这是一份可以让我们充分利用的资源

那么，接下来的问题就是我们该如何爬取这里的资源

选择其中的计算机课程进行尝试

import requests
from bs4 import BeautifulSoup

import io
import sys
sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='gb18030')

r=requests.get('https://www.icourse163.org/channel/3002.htm')
r.encoding=r.apparent_encoding
result=r.text
bs=BeautifulSoup(result,'html.parser')
print(bs.prettify())

按理说可以通过上述代码就可以很容易地爬取出该页面的源代码，但最后发现这里面没有正常的显示课程信息。因为这些课程列表信息是通过js加载的数据，js需要浏览器才能加载出来，像上面的普通请求只能得到渲染前的源代码。那么现在就需要我们给他一个浏览器渲染之后再去请求，爬取信息。

关键便是如何给它添加一个浏览器渲染。

在网上找了一下后发现，selenium+phantomjs便是一个很好的无头浏览器。这需要在python中安装下selenium

输入指令：pip install selenium 即可

然后在官方下载一个phantomjs就行。

这两个工具安装好后就可以直接使用，再去爬取该网页的源代码，在这里面便有了课程列表的信息。

猜你喜欢

转载自www.cnblogs.com/jackyfive/p/12007204.html

如何爬取icourse163 中国慕课上课程信息（上），

python爬取慕课网课程信息

中国大学MOOC课程信息爬取与数据存储

简单python爬虫案例(爬取慕课网全部实战课程信息)

如何爬取看雪学院的课程

如何使用 Springboot 爬取页面信息？

爬取futurelearn课程网上的课程信息

scrapy爬虫-爬取慕课网全部课程

爬虫项目实战十四：爬取慕课课程

python3 爬虫 urllib +采用bs4（三）批量爬取慕课网免费课程及课程详细章节信息

python爬取course课程的信息

如何爬取猫眼全部信息（电影信息、演员信息）

慕课中爬取淘宝商品信息

使用java如何爬取12306的余票信息？

如何爬取链家网页房源信息

如何用Python爬取boss直聘职业信息

我是如何爬取全国机票和航班信息的

如何从YouTube上爬取1080p视频

java + webmagic 静态爬取知乎列表信息，下个版本将给大家介绍如何动态爬取列表信息

爬取股票信息

帖子信息爬取

爬取酒店信息

python爬虫实例练习：爬取慕课网课程名称以及对应的链接

python爬取极客学院课程信息实例

关于python的中国历年城市天气信息爬取

爬取futurelearn课程网

《慕课网》『免费路径』爬取

国内大学排名如何？用Python爬取中国大学排名

（79）--爬取网页信息

python 爬取淘宝信息

今日推荐

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

周排行

阿里云短信服务平台注册

Windows下的字符串处理(1)

sqoop: mysql导入数据到hdfs, hive, hbase

commons.lang中常用的工具类

离线安装PostgreSQL11.6

使用PyTorch简单实现卷积神经网络模型

一文彻底搞定谱聚类

一道面试题引发的血案

One Chat for Mac(聊天工具)

TCP/IP的底层队列是如何实现的？

每日归档

更多

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)