爬取最新通知 - 代码天地

爬取最新通知

数据库 2022-05-13 17:30:17 阅读次数: 0

1.爬取最新通知

要导入的包：

from urllib.request import Request  
from urllib.request import urlopen  
import urllib.parse  
import datetime  
from bs4 import BeautifulSoup

定义解析网址的函数

def get_new_notice(website:str):  
    # 直接使用 urlopen('网址') 返回 404 错误，对方网站设置有反爬虫机制  
	 requst = Request(website)  
	    requst.add_header('User-Agent', 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)')  # 添加请求头，模仿人使用浏览器访问页面  
	 response = urlopen(requst)  
	    # 一、获取该网址的源代码  
	 html = response.read()  
	  
	    # 二、解析源代码  
	 bs = BeautifulSoup(html, 'html.parser')  # 爬取该网址的 HTML 源代码  
	 # print(bs)  
	  
	 # 三、使用 find_all 方法找到最新通知所在的标签  
	 nameList = bs.find_all('div', {
    
    'id': 'line_u3_0'})  # 使用 find_all() 方法 id 选择器找到指定的 tr 标签  
	 # print(nameList)  # 爬取的的结果存放在列表中，使用时需要加下标，否则会报错  
	 # AttributeError: ResultSet object has no attribute 'find_all'.  
	  
	 print('--------------------------------')  
	    notice_time = nameList[0].span.get_text()  
	    notice_title = nameList[0].a.get_text()  
	    notice_link = 'http://sjxy.whpu.edu.cn/' + nameList[0].a['href'][2:]  
	    print('通知时间：', notice_time)  
	    print('通知标题：', notice_title)  
	    print('链接：', notice_link)  
	    print('-----------分割线----------------')  
	  
	    currdate = datetime.date.today()  
	    currdate = str(currdate).replace('-', '/')  
	    if notice_time == currdate:  
	        return notice_time, notice_title, notice_link  
	    else:  
	        return -1

get_new_notice（网址），返回当天的通知，没有当天没有通知就返回-1

-调用函数

if __name__ == '__main__':  
    website = 'http://sjxy.whpu.edu.cn/index/tzgg.htm'  
  
 res = get_new_notice(website)  
    if res == -1:  
        print("No new notice")  
    else:  
        print(res)

2. 结果

请添加图片描述

猜你喜欢

转载自blog.csdn.net/y_h_k_666/article/details/123846598

爬取最新通知

python 爬取教务处通知

爬取豆瓣的最新推荐图书

20200311_最新爬取mzitu

python爬虫爬取wallpapers最新壁纸

爬取电影天堂最新电影的名称和下载链接(增量爬取mysql存储版)

Python实现爬取电影天堂最新电影资源

Python爬取最新反爬虫汽车之家口碑

站长之家最新备案域名信息爬取

爬虫练习（1）-- 爬取豆瓣最新电影

用Python定时爬取网站最新资源

python3 爬取电影天堂最新电影

爬取电影天堂最新电影的名称和下载链接

requests结合xpath爬取豆瓣最新上映电影

爬取博客园最新文章

每日爬虫练习：爬取最新搞笑段子

Scrapy设置广度优先，爬取最新数据

实战：最新爬取boss直聘的岗位信息

Python不仅能爬网页还能爬取APP呢！批量爬取抖音视频！最新代码

爬取某学校教务处发布的含有申报的通知的正文、标题、日期、链接

Python爬虫练习（爬取OJ题目和学校信息通知）

小红书很难爬？最新爬取方法教给你啦~

python爬取斗图网中的 “最新套图”和“最新表情”

爬取

如何用Python爬取微博内容，进行文本情绪评分，实时通知女神的真实情绪

python3_scrapy爬取腾讯视频“最新上架”影片信息

scrapy入门小案例--爬取电影天堂最新电影下载地址

最新的今日头条美图爬取(这真是一篇很烂的博客)

python网络爬虫爬取汽车之家的最新资讯和照片

最新用Python 批量爬取网上美眉图片（其实其他的图片也可以啦！）

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

周排行

Metasploit文件目录与入侵基本概念

跨域(CORS)请求问题[No 'Access-Control-Allow-Origin' header is present on the requested resource]常见解决方案

CodeIgniter 源码解读之 CodeIgniter.php（二）

SAS入门之（四）改变数据类型

初识元组

[数学建模]数学建模算法和模型（B站视频）（二）

Nginx 服务器源码安装配置流程

C#实现语音视频录制【基于MCapture + MFile】

开发进度4

下载安装vue的方法网址

每日归档

更多

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)