Python--校园网爬虫记 - 代码天地

Python--校园网爬虫记

其他 2019-04-11 22:06:05 阅读次数: 0

查成绩，算分数，每年的综合测评都是个固定的过程，作为软件开发者，这些过程当然可以交给代码去做，通过脚本进行网络请求获取数据，然后直接进行计算得到基础分直接填表就好了，查成绩再手动计算既容易出错也繁琐，所以本篇的内容就是开发一个爬虫脚本取抓取成绩表，至于综合测评计算，这个没什么意义这里就不说了，分数都有了就都够了。

我们的目的就是通过编写脚本，模仿浏览器进行请求获取源码，再进行解析本地化（或者直接计算）

要抓取到数据，其实方案不止一种，这里会介绍两种不同的方案，达到同样的目的：

模仿浏览器进行请求（速度快）

操作浏览器进行请求（速度慢）

先说第一种，这种方案是普遍的爬虫技术，因为爬取的内容不多，对速度要求也不够，所以就是很简单的一个爬虫过程：

分析请求

模仿请求

对于普通的校园网，一般不做流量限制，所以就算请求频繁，也基本不用担心IP被封禁，所以编写爬虫代码可以不用太过担心。先说我所在学校的校园网，是杭州方正软件公司开发的。

学习Python中的小伙伴，需要学习资料的话，可以前往我的微信公众号：速学Python，后台回复：csdn，即可拿Python学习资料

这里有我自己整理了一套最新的python系统学习教程，包括从基础的python脚本到web开发、爬虫、数据分析、数据可视化、机器学习等。送给正在学习python的小伙伴！这里是python学习者聚集地，欢迎初学和进阶中的小伙伴！

① 分析请求

分析请求很简单，就是使用浏览器进行请求，然后分析每个请求所发送和接收的信息，这里最简单应该是使用chrome的开发者模式（F12打开）

输入用户名和密码，勾选已认真阅读，接着点击登陆，这样右边的网络窗口中会检查到所有的网络请求，我们只需要找到对应登陆的一个（这里会带有表单）：

这个时候，我们可以通过一些测试工具，尝试进行请求对应的这个地址，并且把表单提交上去试试登陆能否成功，如果成功的话，脚本也就可以模拟这个请求，这里用的是chrome商店的一个工具Postman，用法很简单：

登陆成功之后，我们再进行查询成绩：

这里可以看到这次得到了两个新的请求（上图红框的前两个）

仔细观察会发现，第一个请求头中的Referer指向的是第二个请求的地址，所以可以知道，第二个请求是先于第一个请求发送的。其次，我们发现这个请求中也有表单。

再看第二个请求：

它的Referer指向第三个请求，而这个第三个请求实际上登陆成功之后，就已经存在了，它就是请求到主界面的，而这个请求的类型是Get，所以也表明，第三个请求没有传递任何信息给这个请求。

整理可以知道，流程是这样的：

登陆成功后跳转：http://202.192.72.4/xs_main.aspx?xh=2013034743130

点击查询成绩按钮请求：http://202.192.72.4/xscj_gc.aspx?xh=2013034743130&xm=%B3%C2%D6%BE%B7%AB&gnmkdm=N121605 （Get）

点击查询在校成绩请求：http://202.192.72.4/xscj_gc.aspx?xh=2013034743130&xm=%u9648%u5fd7%u5e06&gnmkdm=N121605 （Post）

所以，我们先来模拟第二个，这个请求是Get类型，所以直接请求即可，但是会发现请求会失败，原因是服务器不能知道我们已经进行登陆了：

所以最先想到的办法是带上第一个请求得到的Cookie，但是也是不行，这个时候要用到上面说的Referer标识，这个标识会告诉服务器请求来源，因为登陆成功会在服务器进行登记，这个标记会让服务器知道请求来源于登陆成功的账号：

此时请求返回正常，我们在源码中可以发现有两个隐藏的<input>标签：

这两个标签传递的，其实是第三个请求的参数，这个时候，模拟第三个请求，并且添加对应的Referer（第二个请求的URL），会发现请求也成功了：

这个请求中的url中的一个参数xm被我更改为1了，原本使用的是一种unicode加密编码，把用户名编码过去了，但是实际上这个参数并没有实际意义，%u的格式会破坏Python程序，所以这里直接改成1了。

② 模仿请求

请求分析完毕，就可以开始写代码了：

用到的包：

登录：

点击查询成绩按钮：

第五行队请求设置Referer，接着通过BeautifulSoup解析源码得到两个隐藏的<input>标签里面value值，第三个请求要用到。

查询所有成绩请求：

得到成绩单源码之后，就可以进行解析了，这里解析存放到xls表格中：

最后遍历学号进行爬取，这里只爬取默认账号密码的成绩：

第二种方案，是通过模拟浏览器来进行登录，点击按钮等操作获取成绩，这里用到的是自动化测试框架Selenium。

这种方案的优点是我们不需要像第一种那样要去分析请求，只需要告诉浏览器要怎么做就行了，但是缺点是速度慢。

这种方法的意义只是熟悉一下自动化测试框架，因为速度实在太慢了，也就不详细介绍了，这里粗略说一下，其实原理就是通过查到网页中对应的控件，进行点击或者悬浮于上面等等的操作，一步一步的到达最后的成绩单，要做的是控制整个流程，明确在什么时候应该停一下等控件出现，什么时候要去点击。

而且到目前为止，这个框架还是有一些Bug的，比如火狐浏览器的驱动无法实现在一个按钮上Hover的操作等等。

猜你喜欢

转载自blog.csdn.net/qq_40196321/article/details/89206716

Python--校园网爬虫记

利用python爬虫实现对校园网的自动登录！

Python——校园网登录

python实现校园网自动登录

Python自动登录校园网

Python 实现校园网自动登录

python自动连接校园网的脚本

【python爬虫】校园网的自动登录脚本+python+request

python爬虫自动登录武汉大学校园网

数字校园网

校园网破解

tarjan校园网

校园网搭建

校园网DDNS

简易爬虫实现校园网剩余流量查询

python 脚本自动登陆校园网

python实现校园网一键自动连接

如何用Python优雅的登录校园网？

python实现数字中南校园网自动登陆

校园网免认证/校园网pojie

Ubuntu连接校园网

GDUT校园网破解

小记——GTMD校园网

校园网结构分析

校园网WIFI钓鱼

校园网免认证

基于eNSP的校园网

校园网自动认证

校园网不能登录

校园网-校园网wifi-校园网免认证教程

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)