数据工程师的成长之路

最近,我和导师、同门一起交流,说到怎么才能成为一名合格的数据工程师,要学什么样的教材,对于技术的学习是否是有规律可寻进行了探讨。谈谈作为一名计算机专业的学生,我是如何来进行学习的。

注重基础,《python学习手册》无疑是一本不错的入门手册,重点在前面九章。之后的内容都是计算机编程的,简单的看一看,会用就行了。

爬虫基础,这将来或许会成为一个数据工程师必备的技能。《python数据抓取技术与实战》是一本入门的好书,没有源代码,估计作者就是想让我们自己动动手。学完基础部分你就可以尝试写一些爬虫代码了,我知道对于新手来说会感到陌生,但是别害怕去尝试,用自己的兴趣去做一个爬虫项目。例如《爬取猫眼电影票价,低价看片不是梦》、《大数据教你如何在LOL中排位上分》。

数据分析,numpy和pandas无疑是必学的,《利用python进行数据分析》将会给你带来一些收获。我们有了分析数据的基础后,就能够更好、更高效地去清洗数据了,你可以借助网上公开的几个数据集(movielens、iris、titanic等)来练习,当然你也可以参加一些数据竞赛,分工负责数据清洗也是不错的选择。

机器学习,李航的《统计学习方法》固然是一本不错的选择,但是这本书重在原理方法。我们这里更强调应用,用代码去快速实现,《机器学习系统设计》就是一本不错的书籍。把它们俩结合起来,你就会加深对机器学习的理解。同时,文本分析应放在这个部分学习,有了前面的基础,相信掌握起来也是很快的。

推荐系统,这算是数据挖掘领域的应用之一,《推荐系统实战》、《推荐系统》、《推荐系统:技术、评估及高效算法》这三本书都值得你花时间去读的,花点时间去把常用的推荐算法实现。

python的web开发,用Django做一个《基于bilibili社交网站的视频推荐》项目,实现一个小型的推荐系统。同时,你也可以根据你的兴趣去尝试,做一个有特色的项目。

深度学习,这是数据挖掘发展的必然趋势。由于目前还在学习中,就不做过多评价。摸索完成之后,会给大家推荐一个合理的学习过程。

猜你喜欢

转载自blog.csdn.net/dylan_me/article/details/80931342