网络请求urllib库的基本使用 ----------python的爬虫学习 - 代码天地

网络请求urllib库的基本使用 ----------python的爬虫学习

其他 2019-07-28 00:14:36 阅读次数: 0

简单的网络请求：

from urllib import request
url = "http://www.baidu.com"
rep=request.urlopen(url)

urlopen请求数据，返回给了变量rep

对返回数据的操作：

urlopen()返回的结果是类文件对象，也是可迭代的，下面列举出比较常用的方法
read()、readline()、readlines() ：读取文件

rep = request.urlopen(url)
rep.read()
【Squeezed text】

　　

rep.readline()

b'<!DOCTYPE html>\n'

rep.readlines()
【Squeezed text】

　　

info()：返回头信息

print(rep.info())

Date: Sat, 27 Jul 2019 03:32:18 GMT
Content-Type: text/html
Transfer-Encoding: chunked
Connection: Close
Vary: Accept-Encoding
Set-Cookie: BAIDUID=71F5315626EBFC522CD27C212E0BDC71:FG=1; expires=Thu, 31-Dec-37 23:55:55 GMT; max-age=2147483647; path=/; domain=.baidu.com
Set-Cookie: BIDUPSID=71F5315626EBFC522CD27C212E0BDC71; expires=Thu, 31-Dec-37 23:55:55 GMT; max-age=2147483647; path=/; domain=.baidu.com
#太多了省略.......

　　

getcode()：返回http状态码

print(rep.getcode())
200

　　

geturl()：返回url

print(rep.geturl())
http://www.baidu.com

　　

urllib中内置了一个方法使保存网页数据更加方便

from urllib.request import urlretrieve
url = "http://www.baidu.com"
urlretrieve(url,r'D:/baidu.html')

　　

上面代码等同于

from urllib import request
request.urlretrieve("http://www.baidu.com",r"D:/baidu.html")
('D:/baidu.html', <http.client.HTTPMessage object at 0x03576A30>)

　　

urlretrieve(url, filename=None, reporthook=None, data=None)

url: 文件url
filename: 保存到本地时,使用的文件(路径)名称
reporthook: 文件传输时的回调函数,常用于显示进度条
data: post提交到服务器的数据
该方法返回一个二元元组("本地文件路径",<http.client.HTTPMessage对象>)

猜你喜欢

转载自www.cnblogs.com/lcyzblog/p/11257286.html

网络请求urllib库的基本使用 ----------python的爬虫学习

爬虫基本请求库的使用(一) urllib

python 网络爬虫入门-Urllib库的基本使用

网络请求requess库的基本使用 ----------python的爬虫学习

学习笔记(03):21天搞定分布式Python网络爬虫-urllib库-基本使用

Python网络爬虫基本库之 urllib

Python爬虫学习总结——Urllib库的基本使用

python网络爬虫学习笔记（三）：urllib库的使用

Python网络请求---urllib库

Python爬虫入门：Urllib库的基本使用

python爬虫 urllib库基本使用

Python爬虫 Urllib库的基本使用

Python爬虫：urllib库的基本使用

爬虫基本库的使用(urllib)

爬虫——urllib库的基本使用

python爬虫系列一——urllib基本请求库

python内置http请求库urllib基本使用，发送请求，添加请求头，添加cookie信息

python爬虫学习——urllib、urllib2库的使用

Python Urllib 库基本使用

【Python】Urllib库基本使用

python urllib库基本使用

爬虫基本库的使用---urllib库

Python爬虫之urllib库和requests库的基本使用

python3爬虫(1)--urllib请求库使用

Python网络爬虫(一) | urllib包基本使用教程

Python爬虫入门之Urllib库的基本使用

Python爬虫入门三之Urllib库的基本使用

Python爬虫入门之三urllib库的基本使用

【python爬虫自学笔记】-----urllib库的基本使用

python之爬虫（三） Urllib库的基本使用

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)