什么是数据工程师,主要做哪些工作?

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/duozhishidai/article/details/87891004

1.什么是数据工程师

数据工程师这个概念其实很模糊,不同的人和公司对它赋予的含义也区别很大,感兴趣的可以看一下多智时代的相关文章。在这里,我们大概聊一下一般意义上的数据工程师在工作中会做什么?

集群运维:安装、测试、运维各种大数据组件

数据开发:细分一点的话会有ETL工程师、数据仓库工程师等

数据系统开发:偏重Web系统开发,比如报表系统、推荐系统等

这里面有很多内容其实是十分重合的,下面大致聊一下每一块内容大致需要学什么,以及侧重点。

2.集群运维

数据工程师,基本上是离不开集群搭建,比如hadoop、Spark、Kafka,不要指望有专门的运维帮你搞定,新组件的引入一般都要自己来动手的。

因此这就要求数据工程师了解各种大数据的组件。

由于要自己的安装各种开源的组件,就要求数据工程师要具备的能力:Linux。要对Linux比较熟悉,能各种自己折腾着玩。

由于现在的大数据生态系统基本上是JVM系的,因此在语言上,就不要犹豫了,JVM系的Java和Scala基本上跑不掉,Java基本上要学的很深,Scala就看情况了。

3.ETL

ETL在大数据领域主要体现在各种数据流的处理。这一块一方面体现在对一些组件的了解上,比如Sqoop、Flume、Kafka、Spark、MapReduce;另一方面就是编程语言的需要,Java、Shell和Sql是基本功。

4.系统开发

我们大部分的价值最后都会由系统来体现,比如报表系统和推荐系统。因此就要求有一定的系统开发能力,最常用的就是JavaWeb这一套了,当然Python也是挺方便的。

需要注意的是,一般数据开发跑不掉的就是各种提数据的需求,很多是临时和定制的需求,这种情况下,Sql就跑不掉了,老老实实学一下Sql很必要。
  人工智能、大数据、云计算和物联网的未来发展值得重视,均为前沿产业,多智时代专注于人工智能和大数据的入门和科谱,在此为你推荐几篇优质好文:
入行大数据,需要学习哪些基本知识
http://www.duozhishidai.com/article-15279-1.html
对于大数据开发的学习,最经典的学习路线是什么
http://www.duozhishidai.com/article-1544-1.html
在人工智能和大数据的开发过程中,需要注意的要点
http://www.duozhishidai.com/article-2052-1.html
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/duozhishidai/article/details/87891004