【网络爬虫】：Python：url基础：urllib

其他 2018-11-07 03:06:19 阅读次数: 0

版权声明：转载请联系博主。 https://blog.csdn.net/sunyaowu315/article/details/83622293

文章目录

1 简单介绍
2 相关区别
3 实例讲解

（1）urllib
（2）ulrlib2
（3）httplib
（4）requests

4 项目实战

1 简单介绍

相信许多小伙伴学Python的时候，印象最深刻的便是爬虫。而像numpy、pandas一样，Urllib库是Python中一个功能强大、用于操作URL、并在做爬虫的时候经常要用到的库。
在Python2.x中，分为Urllib库和Urllin2库，Python3.x之后都合并到Urllib库中，使用方法略微不同。
httplib实现了HTTP和HTTPS的客户端协议，一般不直接使用，在python更高层的封装模块中（urllib,urllib2）使用了它的http实现。
Requests 是用Python语言编写，基于 urllib，采用 Apache2 Licensed 开源协议的 HTTP 库。它比 urllib 更加方便，可以节约我们大量的工作，完全满足 HTTP 测试需求。Requests 的哲学是以 PEP 20 的习语为中心开发的，所以它比 urllib 更加 Pythoner。更重要的一点是它支持 Python3 哦！

2 相关区别

总结1：urllib 和urllib2都是接受URL请求的相关模块，但是urllib2可以接受一个Request类的实例来设置URL请求的headers，urllib仅可以接受URL。这意味着，你不可以伪装你的User Agent字符串等。
总结2：urllib提供urlencode方法用来GET查询字符串的产生，而urllib2没有。这是为何urllib常和urllib2一起使用的原因。
目前的大部分http请求都是通过urllib2来访问的

3 实例讲解

（1）urllib

urllib简单用法
urllib.urlopen(url[, data[, proxies]]) :

google = urllib.urlopen('http://www.google.com')
print 'http header:/n', google.info()
print 'http status:', google.getcode()
print 'url:', google.geturl()
for line in google: # 就像在操作本地文件
    print line,
google.close()

（2）ulrlib2

urllib2简单用法

（3）httplib

httplib简单用法

（4）requests

request简单用法

4 项目实战

猜你喜欢

转载自blog.csdn.net/sunyaowu315/article/details/83622293

【网络爬虫】：Python：url基础：urllib

Python网络爬虫--urllib

python爬虫 urllib模块url编码处理

python 爬虫urllib基础示例

[Python3.x]网络爬虫（一）：利用urllib通过指定的URL抓取网页内容

Python网络爬虫基本库之 urllib

python 爬虫基础之urllib 库详解

（十五）Python爬虫基础库：urllib

python爬虫基础02-urllib库

Python 爬虫基础教程-Urllib详解

Python爬虫1.1 — urllib基础用法教程

Python——关于爬虫基础Urllib实战

python爬虫 urllib模块url编码处理详解

Python网络爬虫：爬虫原理、正则表达式、正则表达式函数、urllib基础、超时设置

Python爬虫基础：简单的爬虫入门示例（urllib库）

爬虫基础——urllib模块

爬虫--urllib基础

python网络爬虫指南一：网页基础（html/css/JavaScript）、网络请求（urllib/requests)、数据解析(XPath/BeautifulSoup)

python爬虫——urllib库

Python爬虫——urllib的使用

PYTHON爬虫（urllib详解）

python爬虫，Urllib库

Python爬虫--urllib

Python 爬虫 ---- urllib 库

Python爬虫-urllib模块

Python爬虫(一) | urllib

python爬虫之urllib

python爬虫-urllib

【python】urllib库（爬虫）

2.03_01_Python网络爬虫urllib2库

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)