python 爬虫初学的几个概念

其他 2020-07-23 10:33:12 阅读次数: 0

GET和POST

GET : 查询参数都会在URL上显示出来
POST : 查询参数和需要提交数据是隐藏在Form表单里的,不会在URL地址上显示出来

URL组成部分

URL: 统⼀资源定位符
https://new.qq.com/omn/TWF20200/TWF2020032502924000.html
https: 协议-
new.qq.com: 主机名
port 端⼝号: 80 /new.qq.com 在他的后⾯有个 :80 可以省略
TWF20200/TWF2020032502924000.html 访问资源的路径
#anchor: 锚点用在前端做页面定位的
注意 : 在浏览器请求⼀个url,浏览器会对这个url进行⼀个编码。(除英文字母、数字和部分标识其他的全部使用% 加十六进制码进行编码)
- 例如：https://tieba.baidu.com/ffr=wwwt&kw=%E6%9F%AF%E5%8D%97
- %E6%9F%AF%E5%8D%97等于柯南

User-Agent 用户代理

作用:记录用户的浏览器、操作系统等,为了让用户更好的获取HTML页面效果
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36
Mozilla Firefox：(Gecko内核)

Refer

表明当前这个请求是从哪个URL过来的。一般情况下添加这个参数可以避免反爬机制

状态码

200 : 请求成功
301 : 永久重定向
302 : 临时重定向
403 : 服务器拒绝请求
404 : 请求失败(服务器无法根据客户端的请求找到资源（网页）)
500 : 服务器内部请求

抓包工具

在这里插入图片描述

Elements : 元素，里面有网页源代码，提取数据和分析数据(有些数据是经过特殊处理的所以并不是都是准确的)
Console : 控制台 (打印信息)
Sources : 信息来源 (整个网站加载的文件)
Network : 网络工作(信息抓包) 能够看到很多的网页请求

猜你喜欢

转载自blog.csdn.net/weixin_44604586/article/details/107269265

python 爬虫初学的几个概念

python scrapy 爬虫初学

初学python爬虫

Python网络爬虫初学

python之初学爬虫

初学python 爬虫

python-初学爬虫

初学python，爬虫开刀

想学习Python爬虫技术？GitHub上几个适合初学者的项目

Python初学的几个迷惑点

python爬虫基础概念

Python爬虫——相关概念

Python初学12-爬虫

初学Python之爬虫学习

python中几个概念汇总

Python 网络爬虫的几个库

Python初学者的几个迷惑点

Python爬虫==入门基础概念

Python爬虫相关基础概念

[ python ] 爬虫笔记(一）概念

Python爬虫-0：爬虫的概念及分类

Python通用爬虫，聚焦爬虫概念理解

一 Python爬虫之爬虫概念

【Python】初学class概念引例--添加家具

Python初学者之网络爬虫

Python3爬虫初学习

python：爬虫练习爬取小说(初学)

初学Python之爬虫的简单入门

python爬虫初学（二）——使用代理

python学习笔记—编程中的几个概念

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)