Python网络爬虫学习笔记（四） - 代码天地

Python网络爬虫学习笔记（四）

其他 2018-07-18 05:10:38 阅读次数: 0

链接爬虫

目的：把一个网页中所有的链接地址提取出来

实现思路：

确定好要爬取的入口链接
根据需求构建好链接提取的正则表达式
模拟成浏览器并爬取对应网页
根据2中的正则表达式提取出该网页中包含的链接
过滤掉重复的链接
后续操作，例如打印这些链接

以下程序是获取“http://blog.csdn.net/”网页上的所有链接

import re
import urllib.request
import urllib.error

def getlink(url):
    #模拟成浏览器
    headers=("User-Agent","Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36")
    opener=urllib.request.build_opener()
    opener.addheaders=[headers]
    #将opener安装为全局
    """注：urlopen()不支持验证、cookie或者其他HTTP的高级功能
       想要支持这些功能，必须使用build_opener()来创建自定义的opener对象
       将opener安装为全局作为urlopen()使用的全局对象，即以后调用uelopen()都会使用自定义的opener对象"""
    urllib.request.install_opener(opener)
    file=urllib.request.urlopen(url)     #爬取网页内容
    data=str(file.read())           #转化为string
    pat='(https?://[^\s)";]+\.(\w|/)*)'   #设计正则表达式，用于提取网页中的所有链接
    link=re.compile(pat).findall(data)
    link=list(set(link))    #用set将link转化成集合来去除重复链接，再转化成list
    return link


if __name__=='__main__':
    url="http://blog.csdn.net/"
    linklist=getlink(url)
    for link in linklist:
        print(link[0])

运行结果如下：

猜你喜欢

转载自blog.csdn.net/qq_29599907/article/details/80744944

Python网络爬虫学习笔记（四）

《精通python网络爬虫》学习笔记四——多线程爬虫

python网络爬虫学习笔记（四）：异常处理

Python爬虫学习笔记（四）

python网络爬虫学习笔记

Python（学习笔记—网络爬虫）

Python网络爬虫笔记（四）——requests与BeautifulSoup

Python实现网络爬虫基础学习（四）

Python爬虫学习笔记（四）————XPath解析

python网络爬虫四

网络爬虫学习（四）

python网络爬虫学习笔记之四 Selenium操作元素和浏览器

Python网络爬虫学习笔记（二）

Python网络爬虫学习笔记（五）

Python网络爬虫学习笔记（三）

Python网络爬虫学习笔记（一）

《精通python网络爬虫》学习笔记三

《精通python网络爬虫》学习笔记二

《精通python网络爬虫》学习笔记一

python网络爬虫学习笔记2

python 学习笔记----网络爬虫(详细)

python网络爬虫学习笔记（1）

python网络爬虫学习笔记（2）

Python学习（笔记3-网络爬虫）

Python学习笔记-网络爬虫基础

python学习笔记4---（python网络爬虫-爬虫前奏）

python学习笔记5---（python网络爬虫-网络请求）

python网络爬虫学习笔记之一爬虫基础入门

python网络爬虫学习笔记（3）简单爬虫

python爬虫学习笔记_初识网络爬虫_1

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)