python3 urllib网页下载 - 代码天地

python3 urllib网页下载

其他 2021-02-08 15:24:30 阅读次数: 0

构建一个网页下载函数

环境：python3，模块：python内置模块urllib

import urllib.request
import urllib.error

def get_html(url,user_agent='xxx',num_retries):
    headers = {
    
    'User-agent':user_agent}  #设置默认用户代理
    request = urllib.request.Request(url=url,headers=headers)  #添加请求头参数
    try:
        return urllib.request.urlopen(url=request).read().decode('utf-8')
    except urllib.error.URLError as e:
        print('Error:', e.reason) #抛出异常reason
        html = None
        if num_retries > 0:
        #4xx错误发生在请求存在问题时，5xx错误发生在服务器端存在问题时。只需保证在5xx时重新下载
            if hasattr(e, 'code') and  500 <= e.code < 600:# hasattr() 函数用于判断对象是否包含对应的属性。
                return download(url,user_agent,num_retries-1)
        return html

注释：
url：下载网址
user_agent：用户代理
num_retries：重试下载次数
该函数下载网页并返回HTML，捕获异常，对服务器端错误进行重试下载，设置用户代理。

猜你喜欢

转载自blog.csdn.net/heheyangxyy/article/details/113665314

python3 urllib网页下载

Python网页下载器urllib2

python3 urllib

Python3 使用urllib 爬取网页

Python实战（二）—— urllib2 下载网页的方式总结

Python3 的urllib实例

python3 urllib学习

python3 urllib模块

Python3 urllib使用

python3 urllib 详解

Python3 Urllib库

已解决（Python3中urllib请求网页报错）AttributeError: module ‘urllib‘ has no attribute ‘request‘

利用python下载网页到本地(python3)

Pyhton3.x 爬虫网页下载器 urllib 和 Pyhton2.x 网页下载器urllib2 的不同（pycharm编程细节）

【转载】Python3网络爬虫(一)：利用urllib进行简单的网页抓取

Python3网络爬虫(一)：利用urllib进行简单的网页抓取

Python3爬虫之urllib携带cookie爬取网页的方法

python3如何使用urllib2的类库获取网页的源码？

Python3~scrapy项目之下载网页图片

python3爬虫下载网页上的pdf

python3网页抓取与下载文件

python3 beautifulsoup解析网页下载图片

Python3中urllib使用介绍

python3 爬虫（一）--初识urllib

python3 urllib和requests模块

python3之模块urllib

python3: 爬虫---- urllib, beautifulsoup

Python3爬虫实战（urllib模块）

python3爬虫-urllib+BeautifulSoup

Python3 Urllib库的基本使用

今日推荐

周排行

TryParse的使用方法小结

Android之高仿手机QQ聊天

关于在java中关键字private能否用来修饰类的问题

去雾算法总结

前端面试题：事件防抖，函数节流，事件防抖和函数节流的区别

随堂小测

【OpenCV + Python】归一化函数cv2.normalize()的原理讲解

05: redis 主从复制

python3-基础5

持续更新-使用 Maven Module 搭建spring boot项目（整合Spring Security、Spring Social、spring OAuth）第一篇

每日归档

更多

2025-03-18(0)

2025-03-17(0)

2025-03-16(0)

2025-03-15(0)

2025-03-14(0)

2025-03-13(0)

2025-03-12(0)

2025-03-11(0)

2025-03-10(0)

2025-03-09(0)