张世润,知乎专栏:https://zhuanlan.zhihu.com/p/26409764
记录下爬取招聘网站上Python实习信息,为了找实习做好准备。
==============================================
环境准备:
Python3.5
PyCharm
fake_useragent
实习僧还是挺不错的网站,打开http://www.shixiseng.com/interns?k=Python
打算把职位名称、地点、公司、薪水和职位的URL爬取并保存下来
本人对于Python学习创建了一个小小的学习圈子,为各位提供了一个平台,大家一起来讨论学习Python。欢迎各位到来Python学习群:960410445一起讨论视频分享学习。Python是未来的发展方向,正在挑战我们的分析能力及对世界的认知方式,因此,我们与时俱进,迎接变化,并不断的成长,掌握Python核心技术,才是掌握真正的价值所在。
对页面简单分析,发现需要三步爬取所需信息。
1、爬取搜索页面的职位、地点、公司、薪水
用到的工具是requests加xpath,直接上代码
job,location,company,salary,link都是list,方便接下来的文件写入
网页只有9页,每一页有10条职位信息,一共90个职位。
可以使用print打印出来看看,结果对不对
fake-useragent是一个可以伪造浏览器头的库,非常好用:https://github.com/hellysmile/fake-useragent
用法:
2、爬取职位详细页面的信息
打开第一个职位页面 http://www.shixiseng.com/intern/inn_geghnqp8j3oz
发现所有的描述都在class="dec_content"的div标签下,原本是想使用xpath解析,但是发现了一个问题,某些职位描述是在<span>标签下,某些是在<p>标签下
最后选择BeautifulSoup来解决问题
3、将所爬到的信息保存下来
使用xlwt来保存到excel文件中
.
最后的结果: