python网络爬虫基础知识学习笔记 - 代码天地

python网络爬虫基础知识学习笔记

其他 2019-04-06 00:10:51 阅读次数: 0

1、链接url
2、robots.txt允许爬虫爬取哪些，不允许爬取哪些
3、哪些语言可以做爬虫
（1）php 多线程、多进程支持不好
（2）java 最主要的竞争对手，代码臃肿，重构成本大
（3）C、C++能力体现，良好选择
（4）python 学习成本低，支持模块多，scrapy
4、通用爬虫
（1）过程
抓取网页——采集数据——数据处理——提供检索服务
（2）通用爬虫如何抓取网页
主动提交url
设置友情链接
百度会和DNS合作商合作，抓取新网站
（3）检索排名
竞价排名，根据pagerank值（访问量、点击量（SEO））
5、聚焦爬虫
（1）根据特定的需求，抓取指定的数据
（2）思路：代替浏览器上网
（3）网页特点：网页都有自己唯一的url
网页内容全是HTML
使用http或者https协议
（4）爬取步骤：给一个url
写程序，模拟浏览器访问url
解析内容，提取数据
（5）解析网页内容：正则表达式、BS4、XPath、jsonpath
（6）涉及到动态html：selenium+phantomjs、chromeheadless
（7）scrapy框架：高性能框架使用
（8）scrapy-redis组件 Redis、分布式爬虫
6、HTTP与HTTPS协议的区别
（1）http是超文本传输协议，信息是明文传输，https是具有安全性的ssl加密传输协议
（2）http与https使用完全不同的连接方式，用的端口也不一样，前者为80，后者为443
（3）http是无状态的连接很简单，由ssl+http构建可进行加密性
7、http响应永远是客户端发送请求，服务器回送响应
工作流程：
（1）建立连接
（2）建立连接后，客户机发送一个请求给服务器
（3）服务接收到请求后，给予相关信息
（4）客户端接收服务器返回信息显示在显示屏上
8、http常用信息头
accept、accept-charest、accept-encoding、accept-language
9、响应内容
常见响应头：location、server

猜你喜欢

转载自blog.csdn.net/weixin_37411471/article/details/88954755

python网络爬虫基础知识学习笔记

实战Python网络爬虫笔记之一基础知识

爬虫之笔记网络基础知识

Python 爬虫及pytorch基础知识学习笔记

网络爬虫基础知识（Python实现）

Python 网络爬虫基础知识及体验

网络爬虫基础知识学习

网络基础知识学习笔记11

Python基础知识全网最全6(网络爬虫)

Python网络爬虫数据采集实战：基础知识

python爬虫基础知识

Python爬虫：基础知识

python学习笔记（一）---基础知识

Python学习笔记（1）——基础知识

【学习笔记】python基础知识

Python学习笔记：基础知识

Python 学习笔记（基础知识）

Python基础知识学习笔记

Python基础知识学习笔记02

Python学习笔记（二）：基础知识

Python爬虫实习笔记 | Week1 软件安装及基础知识学习

Python连载笔记（九）——————爬虫基础知识

Python爬虫笔记——存储数据的基础知识(Csv、Excel)

python爬虫基础知识—01request库学习

Python学习笔记-网络爬虫基础

网络爬虫基础知识（Java实现）

Java 网络爬虫基础知识

关于Java网络爬虫的基础知识

python爬虫基础知识—02python网络爬虫与信息提取

七月在线爬虫班学习笔记（三）——爬虫基础知识与简易爬虫实现

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)