Python爬虫入门1:序章

☞ ░ 老猿Python博文目录

一、引言

老猿学爬虫应该是2019年7月初开始的,学习了2个多月,写了免费的《https://blog.csdn.net/laoyuanpython/category_9103810.html 爬虫专栏》。

相关实战文章都是以爬取CSDN文章介绍,但2020年CSDN进行改版之后,相关实战文章实际已经失去了意义。因此在原有爬虫基础上,结合最新情况重新撰写爬虫专栏。该专栏将介绍爬虫入门的基础知识,以及爬取CSDN文章信息、博主信息、给文章点赞、评论等实战内容。

在该专栏内爬虫实战应用的场景与网上大部分已知的场景基本都不一样,是从复用网站登录会话信息来开发应用的。如果要从网站登录开始写应该也可以,但老猿没有去做这方面的工作,因为网上有很多这样的文章。老猿的这种场景有助于大家理解cookies以及http处理过程。

本专栏站在一个互联网前端开发小白的角度介绍爬虫开发应知应会内容,未学爬虫前可能感觉爬虫很高深,学习之后入门其实很容易。对于一个程序员来说爬虫世界内外相隔的就是一张白纸,要捅破这张白纸是不费吹灰之力的,关键是要有人告知你怎么去捅破这张白纸,本专栏就是告诉未学习爬虫的你怎样去捅破这层纸。

二、通过Python爬取网页的学习步骤

如果要从一个互联网前端开发的小白,学习爬虫开发,结合自己的经验老猿认为爬虫学习之路应该是这样的:

2.1、了解HTML语言及css知识

这方面的知识请大家通过w3school 去学习,老猿对于html总结了部分基础知识内容,在后续将有单独一节进行介绍,其他的大家到w3school 去学习。

2.2、学习http协议相关的知识

需要了解url的构成、http协议头的结构、http协议支持的get方法等内容。这方面推荐大家学习如下老猿转发的博文:

  1. url的组成结构信息
  2. HTTP请求头和响应头详解【转】
  3. 转:解析HTTP协议六种请求方法,get,head,put,delete,post有什么区别
2.3、学习cookies相关知识

要登录网站爬取信息,按现在绝大多数网站的会话管理机制,cookies是必不可少的,了解cookies并利用cookies实现网站登录管理。这方面推荐大家学习如下老猿转发的博文:

  1. 转:Http协议中Cookie详细介绍
  2. 转:Chrome浏览器查看网站登录 Cookie 信息的方法
2.4、 分析浏览器访问网站网址的过程

如是否需要先登录、是否有代理、是否多次交互等,可以通过浏览器来获取网站访问信息来分析访问过程,这个与具体要爬取的网站及爬取内容相关。老猿将介绍通过IE11及google浏览器获取网站访问信息的方法;

2.5、学习Python访问web网站编程的知识,这个老猿主要介绍使用urllib模块相关方法读取网页内容
2.6、 学习网页解析的方法,老猿将比较详细BeautifulSoup的使用;
2.7、分析准备爬取网页内容的结构,获取网页内容后,根据爬取内容的要求针对性进行分析;
2.8、 分析怎么完成爬取自己感兴趣内容的http交互过程。

其中最后两步有可能是交替的,有可能爬取一个网页分析其结构解读内容,再根据解读内容爬取下一个网页。老猿将以此为主线介绍爬虫相关的知识,但第一、二步就不介绍了。

写博不易,敬请支持:

如果阅读本文于您有所获,敬请点赞、评论、收藏,谢谢大家的支持!

更多Python爬虫入门的介绍请参考专栏《Python爬虫入门 》
专栏网址https://blog.csdn.net/laoyuanpython/category_10762553.html

关于老猿的付费专栏

  1. 付费专栏《https://blog.csdn.net/laoyuanpython/category_9607725.html 使用PyQt开发图形界面Python应用》专门介绍基于Python的PyQt图形界面开发基础教程,对应文章目录为《 https://blog.csdn.net/LaoYuanPython/article/details/107580932 使用PyQt开发图形界面Python应用专栏目录》;
  2. 付费专栏《https://blog.csdn.net/laoyuanpython/category_10232926.html moviepy音视频开发专栏 )详细介绍moviepy音视频剪辑合成处理的类相关方法及使用相关方法进行相关剪辑合成场景的处理,对应文章目录为《https://blog.csdn.net/LaoYuanPython/article/details/107574583 moviepy音视频开发专栏文章目录》;
  3. 付费专栏《https://blog.csdn.net/laoyuanpython/category_10581071.html OpenCV-Python初学者疑难问题集》为《https://blog.csdn.net/laoyuanpython/category_9979286.html OpenCV-Python图形图像处理 》的伴生专栏,是笔者对OpenCV-Python图形图像处理学习中遇到的一些问题个人感悟的整合,相关资料基本上都是老猿反复研究的成果,有助于OpenCV-Python初学者比较深入地理解OpenCV,对应文章目录为《https://blog.csdn.net/LaoYuanPython/article/details/109713407 OpenCV-Python初学者疑难问题集专栏目录
  4. 付费专栏《https://blog.csdn.net/laoyuanpython/category_10762553.html Python爬虫入门 》站在一个互联网前端开发小白的角度介绍爬虫开发应知应会内容,包括爬虫入门的基础知识,以及爬取CSDN文章信息、博主信息、给文章点赞、评论等实战内容。

前两个专栏都适合有一定Python基础但无相关知识的小白读者学习,第三个专栏请大家结合《https://blog.csdn.net/laoyuanpython/category_9979286.html OpenCV-Python图形图像处理 》的学习使用。

对于缺乏Python基础的同仁,可以通过老猿的免费专栏《https://blog.csdn.net/laoyuanpython/category_9831699.html 专栏:Python基础教程目录)从零开始学习Python。

如果有兴趣也愿意支持老猿的读者,欢迎购买付费专栏。

跟老猿学Python!

☞ ░ 前往老猿Python博文目录 https://blog.csdn.net/LaoYuanPython

猜你喜欢

转载自blog.csdn.net/LaoYuanPython/article/details/113029451
今日推荐