大数据平台002-数据平台技术组件概述

我的数据平台需要具备哪些能力?以及数据平台技术选型及理由

本文就针对以上两个问题为大家进行一次概述

数据平台应该具备的能力

一、应该具有多维度抓取数据的能力,能够通过ETL或者数据流组件的方式
ETL,是英文 Extract-Transform-Load 的缩写,用来把数据从来源端经过抽取(extract)、交互转换(transform)、加载(load)至数据仓库的过程。源端一般包括各种数据库,日志文件、表格等。
数据流组件主要用来收集实时数据,如:埋点、实时日志。

二、数据平台应该具备离线的复杂计算功能,如MapRedurce或RDD,可以进行多步骤计算流任务,以及可以用编程语言编写自己的业务算子,来完成更复杂的任务。

三、支持平台任务运费管理, 当你的计算任务越来越多,之间的关系越来越交错复杂,又都是分开在不同时段执行的,这时如果没有一个管理端你肯定会崩溃。
计算流运维功能主要包括: 任务监控、错误报警、任务关系维护、错误排查、补数据。

四、数据市场,经过一系列繁杂的数据清洗工作,终于得到了价值数据,这时需要把数据回写到数据市场,由数据市提供接口把数据展示出去。

五、最好具备近实时查询能力,一般数据仓库查询起来会比较慢,动则分钟级别的响应,一般的业务都没办法接受。回写到数据市场还需要另建回写任务以及新建数据接口。所以你的数据仓库若具备近实时查询的功能(OLAP),那么就会省去不少麻烦事。

六、具备实时计算能力,数据处理的越快就越有价值称之为热数据

七、存储能力,列式存储数据量级一般都达到PB级是没问题的

八、如果你的流式数据具有时空属性,推荐你使用时序数据库

要把数据平台建设的足够强大你要做的远不止表面上看到的这些,做数据是个细活不但要在技
术上精细,更为重要的是对各方业务都得特别精通。

选取数据平台的具体组件

这份工作可大可小,结合你当前团队的人力物力以资源来综合评估,我在项目中是使用阿里云加自建服务做的混合云数据平台,具体如下:

核心组件:数据仓库maxcompute(原odps)
这是阿里云上的一个很强大的工具,使用它你就得到了存储、离线计算、运维管理、权限管理的强大功能

数据集成:等同于上面说的ETL

数据流组件: serverlog (原sls)
其实他是一个类似于kafka的组件,但是在其基础上包装了更多好用的功能,对数据进行直接查询、订阅以及投递功能。 契合本文本的场景来说,他可以把数据直接投递到maxcompute

数据市场:自建服务, 创建ETL任务,把数据从数仓同步到RDS,然后由数据市场来组织并展现

实时计算:自建服务,采用的是storm并行计算技术,从serverlog中订阅数据到storm中进行实时的计算

近实时查询能力: Data Lake Analytics 这是阿里云上的新功能(OLAP)

时序数据库:自己搭建是比较我麻烦的,可以使用阿里云的TSDB

说的不够细节,因为每一块展开来说都是有的说的,如果大家有什么需要可以给我留言。就比
如前面说的埋点功能,即使单独拿出来说也是说的很浅,只能说明思路和要点,更多的是经验。

如果我的文章对您有帮助,我恭喜你
如果对我的文章有任何的疑问或批评,我特别感谢你,即使你不确定也请大胆的说出来

生命不止,let’s go go go !

猜你喜欢

转载自blog.csdn.net/wangqiang9x/article/details/84581688
今日推荐