1、获取信息
信息的来源主要为智联招聘上关于Python的职位信息。因为我个人感觉智联招聘的信息更全面一点,不过找工作的网站都大同小异,爬取适合自己的就可以了。
整个爬取过程就不在这里仔细叙述了,完整代码见Github:https://github.com/alpha87/Zhilian.
爬取信息所用到的库:
相信经常爬虫的小伙伴们对这些库一定不陌生。
Pymongo是Python和Mongo数据库相关操作的库;
requests这个库应该不用介绍了吧,网络请求必备;
pyquery主要是作为CSS选择器,指定网页中的对应信息;
multiprocessing是多进程模块。
2、思路
首先,使用requests请求所需的智联网页,得到网页数据。
然后利用正则或pyquery从得到的网页数据中定位需要采集的信息。
最后将信息保存在Mongo数据库中,一些特定的信息单独保存到不同的txt文件中,之后的分析起来会更方便些。配合分词处理以及数据可视化,生成最后的分析结果。
由于需爬取的数据量太大,所以使用了多进程技术。加上随机休眠降低速度,作为简单的反爬手段。
最后,虽然用了不少时间,但也无惊无险的爬完所有数据(此处应有掌声)。
终于到了关键时刻,我们来分析一下抓取好的数据。
3、数据分析
3.1职位要求
每份工作都会对应一份公司自己拟定的职位要求,我们在爬取过程中单独保存成txt文件。利用词频统计的方式生成词云。
这是处理后的职位要求生成的词云。可以看出公司希望求职者具备扎实的专业技能,良好的沟通能力和合作能力。可以是实习生,可以是学徒,当然更好可以是专家,这些在职位要求中都有体现。
3.2工作地点
Python在一线城市非常受欢迎,北京、上海、深圳就占据了一半的用工需求。
北上广深这些地方的同学找工作找实习会方便不少啊,需求量还是蛮大的。
3.2职业薪资
这个图大家感受一下,python工作的薪资主要集中在15000元左右,配合上图工作地点的分布,说明北上广地区的工资集中在8000~20000元左右,还是比较有诱惑力的。这也为你继续深入学习python提供了动力啊!
3.3工作经验
公司对工作经验的要求还是蛮高的,3~5年出现的次数比较多。
3.4员工福利
给你们一张图感受一下,其实福利还是蛮不错的,还有的总会有的。
3.5python热度
python已经进了最流行编程语言的前五,而且python还被运用于各个方面,不论是科学计算,数据分析,还是艺术,游戏,都有python的身影。这么有用的语言,有什么理由不坚持下来学习呢?
4、总结
我们爬取了python职位的相关信息,然后利用这些信息做了简单的分析。得出python还是比较有前途的,不论是为了工作,还是自己的兴趣,我们都应该尝试学学这门语言。入门简单,而且网上的资源也很丰富。
人工智能、大数据、云计算和物联网的未来发展值得重视,均为前沿产业,多智时代专注于人工智能和大数据的入门和科谱,在此为你推荐几篇优质好文:
Python和R语言对比,数据分析与挖掘该选哪一个?
http://www.duozhishidai.com/article-21757-1.html
自学Python爬虫学到什么程度?就可以去找工作了?
http://www.duozhishidai.com/article-14913-1.html
Python工程师与人工智能工程师之间,最根本的区别是什么?
http://www.duozhishidai.com/article-14635-1.html