链接爬虫实战 - 代码天地

链接爬虫实战

其他 2018-12-22 16:22:47 阅读次数: 0

import re
import urllib
import urllib.request as request

def getlink(url):
    #模拟成浏览器
    headers = ('User-Agent','Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0')
    opener = request.build_opener()
    opener.addheaders = [headers]

    #将opener安装成全局
    request.install_opener(opener)
    file = request.urlopen(url)
    data = str(file.read())
    pat = '(https?://[^\s)";]+\.(\w|/)*)'
    link = re.compile(pat).findall(data)
    #去重
    link = list(set(link))
    return link

url = "http://blog.csdn.net/"
link = getlink(url)
for i in link:
    print(i[0])

结果：

http://blog.csdn.net
https://avatar.csdn.net/5/1/1/1_liumiaocn.jpg
https://avatar.csdn.net/C/3/E/1_csdnnews.jpg
https://avatar.csdn.net/4/C/8/1_super828.jpg
https://avatar.csdn.net/5/4/0/1_qq_43168841.jpg
https://blog.csdn.net/turingbooks/article/details/82995901
https://avatar.csdn.net/2/8/1/1_qq_40196321.jpg
https://avatar.csdn.net/A/E/8/1_zwjweb.jpg
https://csdnimg.cn/feed/20181122/78125a13a79e15dfeb089c2c0148f79e.png
https://blog.csdn.net/n994298535/article/details/84451828
https://blog.csdn.net/valada/article/details/84660265
https://avatar.csdn.net/6/3/D/1_weixin_42882439.jpg
https://blog.csdn.net/u012999985/article/details/80877671
https://avatar.csdn.net/5/C/1/1_j_java1.jpg
https://blog.csdn.net/qq_43202482
https://csdnimg.cn/feed/20181009/d0cb3efb1bb3ea90705dcbefeb17884e.jpg
。。。

其中正则表达式的基本格式为https//xxx.yyy/

猜你喜欢

转载自blog.csdn.net/qq_41359265/article/details/84674707

爬虫实战：链接爬虫实战

链接爬虫实战

链接爬虫实战（CSDN博客）

Python爬虫入门<八>—链接爬虫实战

[简单的python爬虫实战] ，在torrentkittyzw获取磁力链接

爬虫实战：基于 HtmlParser 实现网页链接的提取

爬虫实战1——获取某主页的所有跳转链接

实战爬虫

爬虫实战

《Python实战：：四周实现爬虫系统》视频附下载链接

Python爬虫实战入门四：使用Cookie模拟登录—获取电子书下载链接

推荐书籍《Python爬虫开发与项目实战》附下载链接

推荐书籍《精通Python网络爬虫核心技术、框架与项目实战》附下载链接

Java爬虫实战（一）：抓取一个网站上的全部链接

爬虫，第八次实战xpath之（下载网站的视频播放链接）

Python爬虫实战，requests模块，Python多线程抓取5千多部最新电影下载链接

从视频分享网站获取视频信息及下载链接：一个Python爬虫实战案例

【Python爬虫】爬虫实战

爬虫-链接深度

go语言链接爬虫

爬虫的相关链接

爬虫常用链接

网页爬虫文章链接

隐藏链接反爬虫

爬虫-链接验证

项目实战相关链接

python爬虫实战，干翻一个网站，爬取资源链接并用多线程下载！

分享百度云链接 Python 3网络爬虫开发实战 ,崔庆才著

Python爬虫开发与项目实战pdf电子书|网盘链接带提取码直接提取|

【Python爬虫实战】1.爬取A股上市公司年报链接并存入Excel

今日推荐

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

最强开源大模型 Llama 3 上架 Gitee AI

虽然老乡鸡开源的不是代码，但背后的原因却让人很暖心

周排行

决策树的部分理解

STM32软件IIC的实现

RocketMQ原理解析-HA

vue-动态路由（路由的传参和接参）

利用python对Excel中的特定数据提取并写入新表

【Ubuntu】 Ubuntu16.04搭建NFS服务

Elasticsearch基础操作与对应的curl命令行，python对接实现

JVM数据存储结构 & Java的值传递和址传递

yum命令使用指南

java基础（一）：java语法基础

每日归档

更多

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)

2024-04-15(42)