python爬虫系列一——urllib基本请求库 - 代码天地

python爬虫系列一——urllib基本请求库

其他 2018-10-14 08:19:51 阅读次数: 0

urllib定义：

python内置的http请求库

urllib.request – 请求模块
urllib.error – 异常处理模块
urllib.parse – url解析模块

urllib库的基本使用

常用的抓取网页的方法

post和get数据传送

urllib的爬取网页

import urllib.request
#urlopen():向目标服务器发送一个请求
file=urllib.request.urlopen("http://www.baidu.com")
#获取的是字节流形式数据,有点乱码
#print(file.read())
#转码函数decode(),相应数据格式的字节流--字符串
result=file.read().decode("utf-8")#可以到官网head查看charset
print(result)

answer:
<html>
<head>

    <meta http-equiv="content-type" content="text/html;charset=utf-8">
    <meta http-equiv="X-UA-Compatible" content="IE=Edge">
    <meta content="always" name="referrer">
    <meta name="theme-color" content="#2932e1">
    <link rel="shortcut icon" href="/favicon.ico" type="image/x-icon" />
    <link rel="search" type="application/opensearchdescription+xml" href="/content-search.xml" title="百度搜索" />
    <link rel="icon" sizes="any" mask href="//www.baidu.com/img/baidu_85beaf5496f291521eb75ba38eacbd87.svg">
    ------

urllib-post请求

urllib带data的就是post请求

测试网址：http://www.iqianyue.com/mypost/

import urllib.request#请求网页
import urllib.parse#解析网页

#定义需要提交给表单的data,然后解析转码再发送
#encode()：把字符串转换成相应的数据格式的字节流数据
data=urllib.parse.urlencode({
    "name":"[email protected]",
    "pass":"1234"

}).encode("utf-8")
#2.带data发送请求
respose=urllib.request.urlopen("http://www.iqianyue.com/mypost/")
result=respose.read()#字节流
fl=open("1.html","wb")#建立html文件
fl.write(result)
fl.close()

urllib-post超时设置

timeout=20是超时设置，超过这个时间还没有解析出来，就会报错

import urllib.request

respose=urllib.request.urlopen("http://www.ibeifeng.com/",timeout=20)
print(respose.read())

猜你喜欢

转载自blog.csdn.net/qq_42787271/article/details/81559016

python爬虫系列一——urllib基本请求库

爬虫基本请求库的使用(一) urllib

网络请求urllib库的基本使用 ----------python的爬虫学习

Python3爬虫（一）：请求库之urllib

爬虫系列-urllib基本库的使用

python 爬虫基本库使用urllib之urlopen(一)

Python爬虫系列-Urllib库详解

Python爬虫入门：Urllib库的基本使用

python爬虫 urllib库基本使用

Python爬虫 Urllib库的基本使用

Python爬虫：urllib库的基本使用

Python网络爬虫基本库之 urllib

Python爬虫库urllib，requests基本方法

python爬虫目录一、开发环境配置-python3和相关库二、开发环境配置-安装数据库三、开发环境配置-存储库、Web库、App爬取相关库四、爬虫框架安装五、HTTP基本原理、网页基础六、爬虫基本原理、代理七、urllib库（一）发请求八、urllib库（二）处理异常九、urllib库（三）解析链接十、urllib库（分析Robots协议）十一、requests（一）

python爬虫——urllib库

python爬虫，Urllib库

Python 爬虫 ---- urllib 库

【python】urllib库（爬虫）

Python爬虫之urllib库和requests库的基本使用

python爬虫4--urllib请求库之robotparser模块

python爬虫3--urllib请求库之parse模块

python爬虫2--urllib请求库之error模块

python爬虫1--urllib请求库之request模块

python3爬虫(1)--urllib请求库使用

爬虫基本库的使用(urllib)

爬虫——urllib库的基本使用

Python爬虫(一) | urllib

Python爬虫入门之Urllib库的基本使用

Python爬虫入门三之Urllib库的基本使用

Python爬虫入门之三urllib库的基本使用

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)