Datewhale组队学习-爬虫task01学习笔记

Datewhale组队学习-爬虫task01学习笔记

机器学习算法没有报上名,有些小失落,but……爬虫也很香啊!!!学会爬虫可以干什么呢?可以别人用鼠标键盘一个一个点的找东西,而我却代码刷刷的从网上搜刮资料;可以宏观上网,大格局的上网;可以给之前学的机器学习、深度学习框架喂饲料(数据);可以……

其实之前也接触过一些爬虫,直观感觉吧,那些个“十分钟“系列、“几行代码”系列都有炫耀作者水平高的意思,看是看懂了,就是用起来还是容易忘。

所以,为了方便我以后重拾记忆,我决定来个简单粗暴截图版的。

python-我的版本是3.7
谷歌浏览器,以及XPath插件
在这里插入图片描述
F12开发者工具起手,会看到一个复杂的世界。东西很多,不过我们只看爬虫需要的User-Agent,这个东西就是告诉豆瓣网站,我是个浏览器我不是爬虫,豆瓣不允许我名目张胆的使用爬虫。

在这里插入图片描述
就是这个东西,复制过来就行了。为什么这个是马甲呢?仔细的看,仿佛看到了谷歌浏览器、苹果浏览器等名字。

在这里插入图片描述
代码就是这样……
在这里插入图片描述
响应ok,爬虫已完成最要的一步!豆瓣同意把数据给我了!
但是这个返回结果……我还不如去看网页呢?(爬虫劝退第一步)
可是,网页全都是文字了啊!可以分析了
分析的工具我知道的有re、bs4、lxml,我发现lxml好像最好用,所以先用lxml
在这里插入图片描述
打开谷歌的xpath助手,选到”肖申克的救赎“,自动出现了一堆代码。
我觉得这堆代码有用,拽过来,结果返回了个element。
why!!!
原来需要加个text()把文本读出来哈哈哈

在这里插入图片描述
但系,虽然有用,这段代码太长太不好看,偏离了zen of python,所以降成本啊瘦身啊,最后发现前面的一切都不重要,**//**足以!
后续的,我们点下一页下一页,很容易发现url的规律,for循环搞定。

发布了1 篇原创文章 · 获赞 0 · 访问量 5

猜你喜欢

转载自blog.csdn.net/Andrew_zjc/article/details/105669884