为了找一份Python实习,我用爬虫收集数据

张世润,知乎专栏:https://zhuanlan.zhihu.com/p/26409764

记录下爬取招聘网站上Python实习信息,为了找实习做好准备。

==============================================

环境准备:

Python3.5

PyCharm

fake_useragent

实习僧还是挺不错的网站,打开http://www.shixiseng.com/interns?k=Python

打算把职位名称、地点、公司、薪水和职位的URL爬取并保存下来

本人对于Python学习创建了一个小小的学习圈子,为各位提供了一个平台,大家一起来讨论学习Python。欢迎各位到来Python学习群:960410445一起讨论视频分享学习。Python是未来的发展方向,正在挑战我们的分析能力及对世界的认知方式,因此,我们与时俱进,迎接变化,并不断的成长,掌握Python核心技术,才是掌握真正的价值所在。


对页面简单分析,发现需要三步爬取所需信息。

1、爬取搜索页面的职位、地点、公司、薪水

用到的工具是requests加xpath,直接上代码


job,location,company,salary,link都是list,方便接下来的文件写入

网页只有9页,每一页有10条职位信息,一共90个职位。

可以使用print打印出来看看,结果对不对 

fake-useragent是一个可以伪造浏览器头的库,非常好用:https://github.com/hellysmile/fake-useragent

用法:

2、爬取职位详细页面的信息

打开第一个职位页面 http://www.shixiseng.com/intern/inn_geghnqp8j3oz


发现所有的描述都在class="dec_content"的div标签下,原本是想使用xpath解析,但是发现了一个问题,某些职位描述是在<span>标签下,某些是在<p>标签下

最后选择BeautifulSoup来解决问题

3、将所爬到的信息保存下来

使用xlwt来保存到excel文件中

.

最后的结果:

猜你喜欢

转载自blog.csdn.net/qq_40925239/article/details/86574142