python搜集整个网站的数据 - 代码天地

python搜集整个网站的数据

其他 2018-08-10 18:06:16 阅读次数: 0

直接上代码，从百度开始，爬取所有

import requests
from bs4 import BeautifulSoup
headers={'User-Agent':'........'}#写下你的user-agent
pages=set()
#集合可以去重哦，是最简单的去重方法

def getlinks(url):
         html=requests.get(url,headers=headers)
         selector=BeautifulSoup(html.text,'lxml')
         objs=selector.findAll('a'，href=re.compile('.*?baidu.com.*?'})#我们寻找baidi页面里的所有符合条件的a标签，返回一个列表
         for link in objs:#对列表进行迭代
             if link.attrs['href'] not in pages:#确保遇到新页面，当然我们上面创建了一个空的集合，也可以省略这一步
                 newpage=link.attrs['src']#提取a标签下的url
                 pages.add(newpage)#把url添加到集合里

print('---get a new link---',nwepage)
print('len:',len(pages))

getlinks(newpage)#从新的页面在此开启爬取

url='https://www.baidu.com'

getlinks(url)#运行代码

这段代码很长时间不会停下来，当然你可以在中间添加条件，比如len（pages）>20的时候break。

猜你喜欢

转载自blog.csdn.net/weixin_42557907/article/details/81121861

python搜集整个网站的数据

数据搜集网站

python 下载整个网站

网站搜集

数据库问题的整理（各大网站搜集）

数据的搜集

工具网站搜集

源码搜集网站

网站案例搜集

好的网站资源搜集

算法网站搜集

免费的网站模板搜集

python爬虫-基础入门-爬取整个网站《1》

python爬虫-基础入门-爬取整个网站《2》

python爬虫-基础入门-爬取整个网站《3》

5分钟学会Python爬取整个网站

Python爬取整个网页的数据

python数据分析-整个学习流程

python网络数据采集实例-在一个网站上随机地从一个链接跳到另一个链接&采集整个网站

怎么下载整个网站

下载整个网站

搜集的好资源网站

大数据做安全的网站-搜集暴露给互联网的服务器和服务

python学习资源搜集

音乐数据搜集

使用wget下载整个网站

用Wget下载整个网站

wget下载整个网站或目录

工具·wget下载整个网站

网站搭建发布的整个流程

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)