python可以用那些技术来实现爬虫？这里就有 - 代码天地

python可以用那些技术来实现爬虫？这里就有

企业开发 2023-06-05 14:28:21 阅读次数: 0

最近学习了用python语言写的爬虫，在惊叹于python强大的同时，也真真实实感谢那些为开源做出贡献的前辈。在这个知识付费的时代，真的是不容易。

在这里我就对python爬虫进行一个系统的阐述，介绍其python丰富的爬虫实现方法。

1.爬虫的原理

爬虫就是追寻着url，不断地进行请求，并且解析获得的相应，然后解析响应，获得自己想要的数据的网络机器人。

2.python丰富的爬虫库

2.1获取请求的库：

urlib3(现在基本没用)

使用文档：用户指南 - urllib3 1.26.7 文档https://www.osgeo.cn/urllib3/user-guide.html

urllib库（最原始的一个库，官方解释功能要有的都有，但是个人操作感觉，现在网站用这个库抓取总是会失败）

使用文档：requestshttps://www.cnblogs.com/sherlockChen/p/8064896.html

requests库（也挺好的）

使用文档：：requets-htmlhttps://docs.python-requests.org/zh_CN/latest/user/quickstart.html

requests-html（一个非常方便的二次封装库，代码最少我的最爱）

使用文档：requests-html - 简书

2.2解析请求的库：

re库（比较难用）

使用文档：Python 正则表达式 | 菜鸟教程 (runoob.com)https://www.runoob.com/python/python-reg-expressions.html

beautifulsoup库（流行的解析库）

使用文档：https://beautifulsoup.readthedocs.io/zh_CN/latest/

2.3储存数据的库：

sqllit（使用python标准模块sqllite3来操作）

使用文档：使用 SQLite 3 — Flask 中文文档 (2.0.2) (dormousehole.readthedocs.io)https://dormousehole.readthedocs.io/en/latest/patterns/sqlite3.html

MYSQL(使用pymysql模块来操作，大型数据储存比较合适)

使用文档：Python之pymysql的使用 - liubinsh - 博客园 (cnblogs.com)https://www.cnblogs.com/liubinsh/p/7568423.html

最后如果想要构建一个功能强大的爬虫工程：那就用

scrapy爬虫框架吧！相信他会给你想要的。

猜你喜欢

转载自blog.csdn.net/m0_56022510/article/details/123142561

python可以用那些技术来实现爬虫？这里就有

jmeter+python可以用jython来实现

JS没有contains方法，可以用indexof实现

Mac 上没有 Total Commander，可以用这两款软件来代替

python开发也可以用sublime | Sublime

可以用Python做什么

竟然可以用python炒股？

Python可以用中文命名

普通人可以用ChatGPT来做什么？

推荐一个软件，可以用IT来做事

财务可以用python做什么,财务人学python有意义吗

写爬虫时一些可以用的代理

php 有时候难以输出显示的信息可以用ob缓冲区来做

是否所有的递归问题都可以用栈实现？

原来可以用Python代码画出这么漂亮有仙境感的樱花树

这张动态可视化大屏，也可以用 Python 轻松实现

量化股票配对交易可以用Python语言实现吗？

基于RPC协议的接口自动化测试可以用Python语言实现

可以用Python实现RPC协议的接口自动化测试

python列表只有字符串可以用join链接，如果含有数字用for循环

想自学编程？你可以用的渠道都在这里!!!

汇编中的变量也可以用LABEL或EQU来定义吗？（可以）

appium可以用multiaction实现地图缩放

震惊！！！python可以用中文来写代码

python可以用哪些数据库

format 可以用 * 星号

人脸融合技术，用 Python - OpenCV 来帮你实现！

当我准备出门时，发现了......我可以用Python实现12306自动买票

微信跳一跳技术手段高分秘籍：不仅可以用 Python 刷分，竟然还可以直接改分

微信《跳一跳》这个一根手指能玩的游戏，是可以用 Python 来玩的

今日推荐

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

最强开源大模型 Llama 3 上架 Gitee AI

周排行

自媒体文章如何提高原创度以及如何检测原创度

开启qq邮箱的smtp服务

Qt程序单次启动（QSingleApplication类）

国外的外包网站

更新IDEA主题——放飞代码风格

cocos2dx 实现搓牌效果（翻牌效果），包括铺平动画

dict和json之间的互相转换

angular的一些思考

. Fibonacci数列是这样定义的： F[0] = 0 F[1] = 1 for each i ≥ 2: F[i] = F[i-1] + F[i-2] 因此，Fibonacci数列就形如：0, 1

洛谷P1064 金明的预算方案

每日归档

更多

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)