Python爬虫实战之全国高校信息综合查询系统 - 代码天地

Python爬虫实战之全国高校信息综合查询系统

其他 2019-01-21 02:59:03 阅读次数: 0

鉴于小编本科专业为遥感科学与技术专业，所以爬取了在全国高校信息综合查询系统查询了遥感科学与技术专业到但现在为止的所有院校。

爬取网址：https://gkcx.eol.cn/soudaxue/querySchoolSpecialty.html?&argspecialtyname=%E9%81%A5%E6%84%9F%E7%A7%91%E5%AD%A6%E4%B8%8E%E6%8A%80%E6%9C%AF&argzycengci=%E6%9C%AC%E7%A7%91

所需Python包：

1. BeautifulSoup

2. selenium

3. csv

具体代码：

#!/usr/bin/python
# -*- coding: utf-8 -*-
# author:zhoulong_GISER
# -*- coding: utf-8 -*-
# blog:https://blog.csdn.net/qq_33356563
from bs4 import BeautifulSoup
from selenium import webdriver

def main():
    driver_path = r'E:\spiter\data\phantomjs.exe\phantomjs-2.1.1-windows\bin\phantomjs.exe'
    value = []
    driver = webdriver.PhantomJS(executable_path=driver_path)
    for i in range(1, 5, 1):
        url = 'https://gkcx.eol.cn/soudaxue/querySchoolSpecialty.html?&argspecialtyname=%E9%81%A5%E6%84%9F%E7%A7%91%E5%AD%A6%E4%B8%8E%E6%8A%80%E6%9C%AF&page=' + str(i)
        driver.get(url)
        data = driver.page_source
        dfcontent = BeautifulSoup(data, 'lxml')
        trs = dfcontent.find_all('tr')
        for tr in trs:
            tup1 = []
            for td in tr:
                if td.string!="学校名称" and td.string!="专业名称" and td.string!="重点专业" and td.string!="院校属性"and td.string!="高校对比"and td.string!='\n':
                    if str(td.string)[-3:]=="...":
                        tdstring=str(td.string[0:-3])+"学"
                        tup1.append(tdstring)
                    else:
                        tup1.append(td.string)
            if len(tup1)!=0:
                value.append(tup1[0])
    #去除重复项
    lis = []
    for va in value:
        if va not in lis:
            lis.append(va)
    for li in lis:
        print(li)



if __name__ == '__main__':
    main()

效果展示(排名不分先后)：

猜你喜欢

转载自blog.csdn.net/qq_33356563/article/details/85240645

Python爬虫实战之全国高校信息综合查询系统

Python 3爬取全国高校基本信息

全国高校测绘排名

python爬虫-全国列车信息查询

PhantomJS爬虫 -----全国高校查询-------计算机科学与技术前50大学 Selenium和PhantomJS 拓展详解

2019全国高校名单

【算法】全国高校绿色计算大赛

零代码爬取全国高校信息（火车采集器）

全国高校名单及地理位置经纬度信息（含分校区）

2018年全国高校教师“Python编程、应用及华为大数据”培训班

全国高校json数据包（复python解析代码）

全国高校计算机能力挑战赛（基于tensorflow+python+opencv）!

用 Python 展示全国高校的分布情况，你知道志愿该填哪了吗?

内附源码！使用Python和requests库轻松爬取全国高校排名

鲁宾逊微积分“知识共享”，全国高校“衍生扩散”

关于2016全国高校SAS大赛初赛的解题想法

全国高校名单-完整收藏版

2020年全国高校计算机能力挑战赛Python组区域赛

2022年全国高校计算机能力挑战赛Python程序设计国赛

Python网络爬虫与信息提取（3）—— 实战之IP地址归属地查询

【Python实战】Python采集高校信息

关于第五届全国高校新一代信息技术暑假教师培训班的通知

AI算法工程师手册、Google软件开发指南、全国高校生活质量信息汇总 | ShowMeAI资讯日报 #2022.07.02

python3爬虫全国地址信息

python 3爬取全国高校对四川历年招生数据（文理省控线，文理专业线）存入Excel表

python 3爬取全国高校对四川历年招生数据（文理省控线，文理专业线）存入Excel表（重构）

python爬虫之12306网站--车站信息查询

python实战之网络爬虫（爬取新闻内文信息）

Python爬虫实战项目之小说信息爬取

[转载]全国高校IPv6地址分配情况

今日推荐

周排行

JAVA音视频解决方案----音视频基础知识

Tomcat启动优化参数说明

swift使用OC第三方库配置流程以及使用方法

串口简介和代码分析

2018-04-27周测试题

管理Linux中的输入输出【RHEL8】

Running pipenv gives TypeError: 'module' object is not callable

U_Net(Convolutional Networks for Biomedical Image Segmentation)学习笔记

微信小程序 canvas 绘图问题

Python yield详解

每日归档

更多

2024-08-02(0)

2024-08-01(0)

2024-07-31(0)

2024-07-30(0)

2024-07-29(0)

2024-07-28(0)

2024-07-27(0)

2024-07-26(0)

2024-07-25(0)

2024-07-24(0)