用Python定时爬取网站最新资源 - 代码天地

用Python定时爬取网站最新资源

其他 2018-09-09 23:16:03 阅读次数: 0

记录一下。

写做个网站，爬了另一个网站的内容来做自己网站的内容。

把脚本挂到服务器，每隔一个小时去爬一次资源，然后保存到一个HTML文件里。

用flask做web对接，当有请求的时候就返回那个HTML文件。

这样就实现了一个api接口。思路大概就这样，比较简单，没做什么防护。

下面这个是脚本代码。

 1 import requests,time,re     #一共三个模块，没装的先装
 2 
 3 def zyw():
 4     while(True):
 5         url='https://www.525zyw.com/'  #爬的网站URL
 6         html=requests.get(url).text        #获取网站的首页源代码
 7         re_url=re.findall('<li class="column half"><div class="lbbt_c00">(.*?)</div>.*?</li>',html,re.S)   #比配最新资源
 8         list_r=''
 9         for i in re_url:
10             tiem=re.findall('.*?>(.*?)</span>.*?',i,re.S)[0]   #这里的四个正则主要是进一步的提取我们需要的东西
11             src=re.findall('.*?<img src="(.*?)"/>.*?',i,re.S)[0]   #
12             href=re.findall('.*?<a href="(.*?)".*?',i,re.S)[0]
13             title=re.findall('.*?title="(.*?)".*?',i,re.S)[0]
14             res='<span style="font-weight: bold;">%s</span><img src="%s%s"/> <a href="%s%s" title="%s" style="color:#000000;" target="_blank">%s</a><br><br>'%(tiem,url,src,url,href,title,title)
15             list_r=list_r+res   #经过上面的拼接，这里是所有的内容加入一个字符串
16         f=open('./templates/zyw.html','w')   #打开文件
17         f.write(list_r)    #把字符串写入文件
18         f.close()
19         time.sleep(3600)    #这里是每隔1个小时去爬一次，测试时先注释掉
20 
21 if __name__ == '__main__':
22     zyw()    #调用

这里是用flask框架做对接。本来是想直接返回HTML文件的，但是出现了点问题，我就读HTML文本直接返回文本。

 1 from flask import Flask
 2 from flask import request
 3 
 4 app=Flask(__name__)
 5 @app.route('/zyw/ziyuan/')
 6 def hm():
 7     ff=open("templates/zyw.html")
 8     str=ff.read()
 9     ff.close()
10     return str

猜你喜欢

转载自www.cnblogs.com/hongming/p/9615670.html

用Python定时爬取网站最新资源

用Python爬取美剧网站

用Python爬取某网站小说

Python实现爬取电影天堂最新电影资源

用wget爬取网站

用python爬取租房网站信息

用 python 爬取某珠宝网站

用一串Python代码爬取网站数据

用python爬取某个图片网站的图片

Python爬取大型网站JS动态，想要的“资源”都能爬

[Python]爬取mzitu网站

Python爬取网站数据

Python爬取网站图片

python 爬取网站图片

用Python爬取图片

用Python从网站爬图片

python scrapy爬取豆瓣即将上映电影用邮件定时推送给自己

最新用Python 批量爬取网上美眉图片（其实其他的图片也可以啦！）

python爬虫爬取wallpapers最新壁纸

用python爬取全网百度网盘资源的神器

Python爬虫-爬取音乐资源

用python实现多线程爬取影视网站全部视频方法【笔记】

用Python爬取影视网站，直接解析播放地址。

怎样用python3爬取电子书网站所有下载链接

用Python登录主流网站，我们的数据爬取少不了它！

用 Python 登录主流网站，我们的数据爬取少不了它

用 Python 登录主流网站，我们的数据爬取少不了它!

用 Python 登录主流网站，我们的数据爬取少不了它！

用Python爬取各大网站招聘平台，终于让我给知道对口的工作

用Python爬取各大网站招聘平台，终于让我给找到了对口的工作

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)