python爬虫学习11 - 代码天地

python爬虫学习11

物联网 2022-04-15 19:35:27 阅读次数: 0

python爬虫学习11

目录

- - python爬虫学习11

解析连接

urlencode

之前已经提到过，urlencode可以实现对数据的转化

from urllib import parse

params = {
          
          
    'name': 'germey'
    , 'age': '25'
}
base_url = 'http://www.baidu.com？'
url = base_url + parse.urlencode(params)
print(url)

运行结果：可以看到参数已经被转换为GET类型的请求参数

在这里插入图片描述

prase_qs

作用是将序列化的请求参数还原为字典

# parse_qs
from urllib.parse import parse_qs

qurey = 'name=germey&age=25'
print(parse_qs(qurey))

运行结果：

在这里插入图片描述

parse_qsl
- parse_qsl 用于将参数转化为由元组组成的列表
```
# parsa_qsl
from urllib.parse import parse_qsl

query = 'name=germey&age=25'
print(parse_qsl(query))
```
  运行结果：
  
  扫描二维码关注公众号，回复： 13792634 查看本文章

quote

将内容转化为URL编码格式，可以将中文字符转化为字符编码

# quote
from urllib.parse import quote

kw = '雪容融'
url = 'http://www.baidu.com/s?wd'+quote(kw)
print(url)

运行结果：

在这里插入图片描述

unquote

与 quote 相对，可以实现解码

# unquote
from urllib.parse import unquote

url = '%E9%9B%AA%E5%AE%B9%E8%9E%8D'
print('%E9%9B%AA%E5%AE%B9%E8%9E%8D 解码后为：',unquote(url))

运行结果：

在这里插入图片描述

分析Robots 协议
- Robots协议
  - 也称作爬虫协议、机器人协议，全称为网络爬虫排除标准（Robots Exclusion Protocal），用来表名爬虫或者搜索引擎哪些页面可以抓取，哪些不可以。它通常是一个叫做robots.txt的文本文件，一般放在网站的根目录下。
  - 搜索爬虫在访问一个网站时，首先会检查这个站点的根目录下是否有robots.txt文件，如果存在，就会根据其中定义的爬取的范围来爬取。如果没有找到这个文件，爬虫便会访问所有可以直接访问的页面。
```
# 样例

user-agent: *	# 搜索爬虫名称，*代表对所有爬虫都有效 
Disallow:/		# 指定了不允许爬虫爬取的目录，/代表不允许爬虫爬取所有页面
Allow:/pubilc/	# 一般会和disallow相互配合，用来排除某些限制，所以综上所述，此例中代表所有页面都不允许爬取，但是可以爬取pubilc目录
```
- 爬虫名称
  - 爬虫是有固定名称的，例如百度的爬虫就叫做 BaiduSpider。

未完待续。。。。

猜你喜欢

转载自blog.csdn.net/szshiquan/article/details/123364718

python爬虫学习11

Python入门学习笔记11：原生爬虫

Python学习笔记11：爬虫（requests和BeautifulSoup）

【python爬虫系列】11异步爬虫

python爬虫--11 京东商城

python爬虫11：实战3

Python学习（爬虫学习）

Python学习笔记--Python 爬虫入门 -17-11 tesseract-OCR

Python爬虫学习：简单的爬虫

Python学习之旅 -11-爬虫利器Requests-HTML使用方法

Python数据挖掘学习笔记（11）爬虫防屏蔽之代理服务器

Python数据爬虫学习笔记（11）爬取千图网图片数据

【Python3 爬虫学习笔记】基本库的使用 11—— 正则表达式 4

【Python3 爬虫学习笔记】解析库的使用 11 —— 使用pyquery 4

Python爬虫学习（五）

Python爬虫学习（四）

Python爬虫学习（三）

Python爬虫学习（二）

Python爬虫学习（一）

python爬虫专栏学习

Python爬虫学习

Python——爬虫学习1

python爬虫学习记录

Python——爬虫学习2

如何学习python爬虫

python爬虫学习01

学习python爬虫步骤

python 爬虫学习1

Python 爬虫学习2

python 爬虫学习（一）

今日推荐

周排行

django中south支持多数据库

2、实时同步项目

http协议状态码解析

codeup 又一版 A+B(C++)

js三座大山之外的其他知识点

正向代理VS反向代理总结

规范的测试流程（转自51testing）

3、python-连接sql server

转~Jenkins pipeline：pipeline 使用之语法详解

cookie与sessio系列（一）：基本知识入门

每日归档

更多

2024-06-11(0)

2024-06-10(0)

2024-06-09(0)

2024-06-08(0)

2024-06-07(0)

2024-06-06(0)

2024-06-05(0)

2024-06-04(10)

2024-06-03(52)

2024-06-02(4)