基于requests库和BeautifulSoup库的大学排名网络爬虫 - 代码天地

基于requests库和BeautifulSoup库的大学排名网络爬虫

其他 2020-04-23 09:01:31 阅读次数: 0

用requests库和BeautifulSoup库爬取“最好大学网”中的大学排名信息。
代码如下：

import requests
from bs4 import BeautifulSoup
import bs4


def getHTMLText(url):
    try:
        Headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36',
        }
        r = requests.get(url, headers=Headers, timeout=30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return "产生异常"


def fillUnivList(univ_list, html):
    soup = BeautifulSoup(html, "html.parser")
    for tr in soup.find('tbody').children:
        # 如果tr标签不是bs4定义的Tag类型将过滤掉
        if isinstance(tr, bs4.element.Tag):
            # print(tr)
            tds = tr('td')  # 等价于 tr.find_all('td')
            univ_list.append([tds[0].string, tds[1].string, tds[2].string, tds[3].string])


def printUnivList(ulist, num):
    # 中英文全半角造成不对齐的原因产生在1号位
    # 排名、学校名称、总分、省市，4个地方需要填充，即为4
    tplt = "{0:^9}\t{1:{4}^10}\t{2:^10}\t{3:^4}"
    print(tplt.format("排名", "学校名称", "省市", "总分", chr(12288)))  # chr(12288)中文空格字符填充
    for i in range(num):
        u = ulist[i]
        print(tplt.format(u[0], u[1], u[2], u[3], chr(12288)))


def main():
    uinfo = []
    url = 'http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html'
    html = getHTMLText(url)
    fillUnivList(uinfo, html)
    print();
    printUnivList(uinfo, 20)  # 20 univs


main()

记录学习

浩然丶

发布了10 篇原创文章 · 获赞 1 · 访问量 135

私信关注

猜你喜欢

转载自blog.csdn.net/qq_39419113/article/details/105658753

基于requests库和BeautifulSoup库的大学排名网络爬虫

python中用requests库和BeautifulSoup库爬的大学排名

Python爬虫之BeautifulSoup库——爬取大学排名

Python使用BeautifulSoup与Requests爬取大学排名

网络爬虫爬取中国大学排名，并存入数据库

爬虫库requests和BeautifulSoup的基本使用

基于requests库和re库的淘宝商品网络爬虫

网络爬虫：中国大学排名定向爬虫

Beautiful Soup库入门及信息标记、提取方法与浙江大学排名定向爬虫案例

【Python网络爬虫】使用requests和beautifulsoup4库轻松实现

【python爬虫学习笔记】05 利用requests-bs4的大学排名定向爬虫的实例

自己设计大学排名-数据库实践

大学排名之数据库练习

设计大学排名+数据库实践

Python 自己设计大学排名——数据库实践

自己设计大学排名——数据库实践

网络爬虫——Requests库

中国大学排名定向爬虫

4爬虫实例----大学排名

爬虫中国最好的大学排名

爬虫爬取大学排名示例

python爬虫--09 大学排名

爬虫中国大学排名

网络爬虫BeautifulSoup库的使用

python爬虫笔记（五）网络爬虫之提取——实例：中国大学排名爬虫

python爬虫笔记（五）网络爬虫之提取——实例优化：中国大学排名爬虫

Python:requests库、BeautifulSoup4库的基本使用（实现简单的网络爬虫）

（待整理）Python:requests库、BeautifulSoup4库的基本使用（实现简单的网络爬虫）

爬虫 - requests 和 BeautifulSoup

利用python网络爬虫获取软科中国最好大学排名2019数据

今日推荐

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

最强开源大模型 Llama 3 上架 Gitee AI

周排行

自媒体文章如何提高原创度以及如何检测原创度

开启qq邮箱的smtp服务

Qt程序单次启动（QSingleApplication类）

国外的外包网站

更新IDEA主题——放飞代码风格

cocos2dx 实现搓牌效果（翻牌效果），包括铺平动画

dict和json之间的互相转换

angular的一些思考

. Fibonacci数列是这样定义的： F[0] = 0 F[1] = 1 for each i ≥ 2: F[i] = F[i-1] + F[i-2] 因此，Fibonacci数列就形如：0, 1

洛谷P1064 金明的预算方案

每日归档

更多

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)