零基础Python爬取网页文章和图片详细教学(内附源码、教学视频)

Python爬虫,这个我相信对于很多人来说都不陌生!

今天小编给大家提供一份零基础Python爬取网页图片以及小说的代码并且详细的和大家讲解一下!

需要中文软件,案例源码,讲解视频可以加QQ群:838197940!进群备注“资料”!​​​​


开发环境:版本Python3.6.2!(2版本会在20年的时候停止更新库,建议大家现在想学习的话可以学习3版本,但是不建议用3.7,还存在很多库不支持)

版本

编译器:PyCharm!(新手的话pycharm比较适合)

使用的库:

在Python2.x中使用 import.urllib

在Python3.x中使用 importurllib.request

(这是在Python2和3中最直接区别)


OK!进入正题!想要完成到最后一步下载小说,之前我们应该完成什么操作呢?

1.获取主页面源代码

2.获取章节超链接

3.获取章节源代码

4.获取内容

5.下载小说

第一步:定义函数(驼峰命名法,对于刚接触编程的小伙伴来说,养成良好的习惯很重要,还有就是注释)

def getNovelContent():

pass

第二步:获取页面源代码

获取页面源代码

这里需要注意的点就在于,需要调整获取的编码,不然会形成乱码

html = html.decode('gbk')

将编码格式切换为gbk!!!

第三步:获取章节超链接

需要用到库:正则表达式

**import **re

获取超链接

第四步:获取章节源代码

获取章节源代码

同样,跟之前获取主页源代码一样,需要统一格式!

第五步:获取内容

获取内容

同样使用正则表达式!

第六步:下载小说

下载小说

代码运行到这里基本上就已经结束了,可以看到小图代码成功运行,正在下载小说

运行完成

其实这个不仅仅可以爬取免费的小说,收费的按道理也是可以的,但是因为不能侵犯别人的版权等!最好是不要去这么做!


今天就分享到这里了,感谢各位大大关注!转发哦!有什么不对的可以在评论里面直接写出来的!

需要中文软件,案例源码,讲解视频可以加QQ群:838197940!进群备注“资料”!​​​​

猜你喜欢

转载自blog.csdn.net/qq_36400378/article/details/81561938