大数据部门的作用与大数据工程师的工作

1.大数据部门作用

    随着大数据产业迎来了发展的黄金期,越来越多的互联网公司转型为大数据公司。为促进大数据公司的健康发展,解决发展中遇到的问题,从大数据公司的概念及业务内容等入手,剖析大数据公司因有着不同于传统企业的复杂业务,在发展中不断遇到新问题而更需要构建内部控制。基于大数据公司的业务特点及出现的问题,认为内部控制环境、风险控制和内控监督、信息与沟通等要素是公司内部控制的重点,应构建适于大数据公司特点的企业发展战略、诚信的生态系统及文化理念、胜任大数据业务的人力资源战略、实时风险防控和监督体系等内部控制策略。

1.1大数据的概念

    《大数据的冲击》一书中将大数据通俗定义为“用现有的一般技术难以管理的大量数据的集合”,并广义地定义为“大数据是一个综合性概念,它包括因具备多、高速、多样的特征而难以进行管理的数据,对这些数据进行存储、处理、分析的技术以及能够通过分析这些数据获得实用意义和观点的人才和组织。因此,大数据这一概念不仅指规模庞大的数据对象,也包含对这些数据对象的处理和应用活动,是数据对象、技术与应用三者的统一。

1.2大数据公司的概念及业务范围

    大数据公司通常是指有获取大数据能力的公司。已经具备获取大数据能力的公司即数据型的大数据公司,如百度、腾讯、阿里巴巴等互联网巨头以及华为、浪潮、中兴等国内企业,这类大数据公司通常是与人们日常生活密切相关的,涵盖了数据采集、数据存储、数据分析、数据可视化以及数据安全等领域。
    大数据公司的业务范围主要涉及:一是为电商企业提供个性化推荐引擎的大数据公司,包括推荐引擎、分析引擎和营销引擎等,覆盖大数据全产业链的实现路径。二是大数据分析技术提供商,面向企业或者政府部门提供数据分析的结果。这类公司可以完整地实现大数据的采集、分析、处理,为各大企业提供高端信息技术。三是为传统企业提供大数据技术平台搭建和大数据驱动的SaaS应用的大数据公司,整合高性能的计算和存储能力,为大数据的挖掘和分析提供专业稳定的IT基础设施平台,实现大数据存储统一管理,能够帮助企业精准预测和构建用户特征,搭建以用户为中心的大数据运营体系。
    由此可见,大数据公司有着不同于传统企业的复杂业务,更需要构建内部控制。

2.大数据开发工程师

    从大数据开发这个方向的主要工作来说,通常分为大数据系统研发和大数据应用开发两个大的方向,这两个方向的区别,主要在于开发面对的对象不同。
大数据系统研发工程师,主要是针对大数据系统平台自身进行开发。
大数据系统研发,需要完成大规模非结构化数据业务模型构建、大数据存储、数据库构设、优化数据库构架、解决数据库中心设计等,这些工作要求很深的理论知识以及资深的项目实操经验才能完成。

大数据应用开发工程师,主要负责搭建大数据应用平台以及开发分析应用程序。
大数据应用开发,主要是基于开源框架进行工作,比如说Hadoop、Spark、Storm、Flink等主流计算框架。这就要求大数据应用开发工程师们,要熟悉工具或算法、编程、优化以及部署不同大数据系统,能够基于数据需求,来完成技术开发任务。

大数据工程师们,需要掌握的主要技术如下——
文件存储:Hadoop HDFS、Tachyon、KFS
离线计算:Hadoop MapReduceSpark
流式、实时计算:Storm、Spark Streaming、S4、Heron
K-V、NOSQL数据库:HBaseRedis、MongoDB
资源管理:YARN、Mesos
日志收集:Flume、Scribe、Logstash、Kibana
消息系统:Kafka、StormMQ、ZeroMQ、RabbitMQ
查询分析:HiveImpalaPig、Presto、Phoenix、SparkSQL、Drill、Flink、Kylin、Druid
分布式协调服务:Zookeeper
集群管理与监控:Ambari、Ganglia、Nagios、Cloudera Manager
数据挖掘、机器学习:Mahout、Spark MLLib
数据同步:Sqoop
任务调度:Oozie

猜你喜欢

转载自blog.csdn.net/qq_40921561/article/details/108089359