文章目录
什么是数据中台
各种信息系统大多是独立建设的,无法做到信息的互联互通,导致形成了多个数据孤岛。数据中台的作用是融合新老信息,整合各个孤岛上的信息,快速形成数据服务能力,为企业经营决策、精细化运营提供支持。
数据中台和业务中台的区别: 业务中台是抽象业务流程的共性形成通用业务服务能力,数据中泰是抽象数据能力的共性形成通用数据服务能力。
数据中台 VS 数据仓库
数据仓库的主要场景是支持管理决策和业务分析,而数据中台则是将数据服务化之后提供给业务系统,目标是将数据能力渗透到各个业务环节,不限于决策分析类场景。
数据中台的建设包含数据仓库的完整内容,数据中台将企业数据仓库建设的投入价值进行最大化,以加快数据赋能业务的速度,为业务提供速度更快、更多样的数据服务。数据中台也可以将已建好的数据仓库当成数据源,对接已有数据建设成果,避免重复建设。当然也可以基于数据中台提供的能力,通过汇聚、加工、治理各类数据源,构建全新的离线或实时数据仓库。
数据中台的业务价值与技术价值
业务价值:从洞察走向赋能业务创新,形成核心壁垒
1.以客户为中心,用洞察驱动企业稳健行动
数据中台极大提升数据的应用能力,将海量数据转化为高质量数据资产,为企业提供更深层的客户洞察,从而为客户提供更具个性化和智能化的产品和服务。
2.以数据为基础,支持大规模商业模式创新
依托数据和算法,将由海量数据提炼的洞察转化为行动,才能推动大规模的商业创新。将数据变成业务人员可阅读、易理解的内容,这样才能更好地支撑商业模式的创新。
3.盘活全量数据,构筑坚实壁垒以持续领先
数据中台的突出优势在于能充分利用内外部数据,打破数据孤岛的现状,能够降低使用数据服务的门槛,繁荣数据服务的生态,实现数据“越用越多”的价值闭环。
技术价值:能力多、成本低、应用广
针对不同的数据应用场景,需要能够快速应对多数据处理需求
比如:
要保持原来的报表需求,仍需要保持批量离线计算的能力(Hadoop、Oracle RAC);
针对准实时的指标统计和实时推荐,需要实时流式计算的能力(Storm、Spark Streaming、Flink);
针对决策类业务如海量人群的圈人需求和ad-hoc需求,需要即席计算能力(Greenplum、Elasticsearch、Impala);
针对高并发业务场景(如用户画像),需要在线计算能力(MySQL、Redis、Oracle)。
数据中台建设与架构
数据中台作为整个企业各个业务所需数据服务的提供方,通过自身的平台能力和业务对数据的不断滋养(业务数据化),会形成一套高效可靠的数据资产体系和数据服务能力(数据资产化和资产服务化)。这样一来,当出现新的市场变化,需要构建新的前台应用时,数据中台可以迅速提供数据服务(服务业务化),从而敏捷地响应企业的创新。
数据中台建设方法论
1种战略行动: 把用数据中台驱动业务发展定位为企业级战略,全局谋划。
2项保障条件: 通过宣导统一组织间的数据认知,通过流程加速组织变革。
3条目标准则: 将数据的可见、可用、可运营3个核心准则始终贯穿于中台建设的全过程,保障建设在正确轨道上。
4套建设内容: 通过技术体系、数据体系、服务体系、运营体系建设保证中台建设的全面性和可持续性。
5个关键步骤: 通过理现状、立架构、建资产、用数据、做运营5个关键行动控制中台建设关键节点的质量。
数据中台架构
1.数据汇聚
数据汇聚是数据中台数据接入的入口。所有数据来自于业务系统、日志、文件、网络等,这些数据分散在不同的网络环境和存储平台中,数据汇聚把各种异构网络、异构数据源的数据方便地采集到数据中台中进行集中存储,为后续的加工建模做准备。
数据汇聚方式一般有数据库同步、埋点、网络爬虫、消息队列等;从汇聚的时效性来分,有离线批量汇聚和实时采集。
2.数据开发
数据开发是一整套数据加工以及加工过程管控的工具,有经验的数据开发、算法建模人员利用数据加工模块提供的功能,可以快速把数据加工成对业务有价值的形式,提供给业务使用。
3.数据体系
有了数据汇聚、数据开发模块,中台已经具备传统数据仓库(后面简称:数仓)平台的基本能力。大数据时代,必须考虑数据的一致性和可复用性,垂直的、烟囱式的数据和数据服务的建设方式注定不能长久存在。建议数据按照贴源数据、统一数仓、标签数据、应用数据的标准统一建设。
4.数据资产管理
数据资产管理包括对数据资产目录、元数据、数据质量、数据血缘、数据生命周期等进行管理和展示,以一种更直观的方式展现企业的数据资产,提升企业的数据意识。
5.数据服务体系
数据服务体系就是把数据变为一种服务能力,通过数据服务让数据参与到业务,激活整个数据中台,数据服务体系是数据中台存在的价值所在。
6.运营体系和安全管理
通过前面的数据汇聚、数据开发、数据体系、数据资产管理、数据服务体系,已经完成了整个数据中台的搭建和建设,也已经在业务中发挥一定的价值。运营体系和安全管理是数据中台得以健康、持续运转的基础,如果没有它们,数据中台很可能像个一般项目一样,会在搭建起平台、建设部分数据、尝试一两个应用场景之后而止步,无法正常地持续运营,不能持续发挥数据的应用价值。这也就完全达不到建设数据中台的目标。
数据汇聚联通:打破企业数据孤岛
要构建企业级的数据中台,第一步就是要让企业内部各个业务系统的数据实现互联互通,从物理上打破数据孤岛,这主要通过数据汇聚和交换的能力来实现。
数据采集、汇聚的方法和工具
从空间维度来看,用户行为可以分为线上行为和线下行为两类。
1.线上行为采集
线上行为的主要载体可以分为传统互联网和移动互联网两种。在技术上,数据采集主要有客户端SDK埋点和服务端SDK埋点等方式。其中客户端SDK埋点主要是通过在终端设备内嵌入埋点功能模块,通过模块提供的能力采集客户端的用户行为,并上传回行为采集服务端。
(1)客户端埋点
常见的客户端埋点方式有三种:全埋点、可视化埋点和代码埋点。
全埋点:将终端设备上用户的所有操作和内容都记录并保存下来,只需要对内嵌SDK做一些初始配置就可以实现收集全部行为的目的。这也经常被称为无痕埋点、无埋点等。
可视化埋点:将终端设备上用户的一部分操作,通过服务端配置的方式有选择性地记录并保存。
代码埋点:根据需求来定制每次的收集内容,需要对相应的终端模块进行升级。
(2)服务端埋点
除了前面介绍的客户端埋点,常见的线上埋点还有服务端埋点,通过在系统服务器端部署相应的数据采集模块,将这部分数据作为行为数据进行处理和分析。服务端埋点常见的形态有HTTP服务器中的access_log,即所有的Web服务的日志数据。
2.线下行为采集
线下行为数据主要通过一些硬件来采集,如常见的Wi-Fi探针、摄像头、传感器等。常见的主要有Wi-Fi信号采集、信令数据采集、图像视频采集以及传感器探测等。
3.互联网数据采集
网络爬虫又称为网页蜘蛛,是一种按照既定规则自动抓取互联网信息的程序或者脚本,常用来做网站的自动化测试和行为模拟。网络爬虫有多种实现方式,目前有较多的开源框架可以使用,如Apache Nutch 2、WebMagic、Scrapy、PHPCrawl等。
4.内部数据汇聚
数据汇聚不同于数据采集,数据采集有一定的数据生产属性,将终端的用户行为信息通过特定的方法记录后,通过中间系统的流转写入目标存储中。
从数据组织形式来分,数据主要分成三类:
结构化数据: 规则、完整,能够通过二维逻辑来表现的数据,严格遵循数据格式与长度规范,常见的有数据库表、Excel等二维表。
半结构化数据: 数据规则、完整,同样严格遵循数据格式与长度规范,但无法通过二维关系来表现,常见如JSON、XML等形式表达的复杂结构。
非结构化数据: 数据结构不规则或不完整,不方便用二维逻辑表来表现,需要经过复杂的逻辑处理才能提取其中的信息内容,如办公文档、图片、图像和音视频等。
从时效性和应用场景来分,数据汇聚可以分成离线和实时两类:
离线: 主要用于大批量数据的周期性迁移,对时效性要求不高,一般采用分布式批量数据同步的方式,通过连接读取数据,读取数据过程中可以有全量、增量的方式,经过统一处理后写入到目标存储。
实时: 主要面向低时延的数据应用场景,一般通过增量日志或通知消息的方式实现,如通过读取数据库的操作日志(RedoLog、BinLog)来实现相应的实时处理,业界常见的Canal、MaxWell、StreamSets、NiFi等框架和组件都有较多的实际应用。
在数据建设过程中有ETL(Extract-Transform-Load,抽取–转换–存储)的操作,即在数据抽取过程中进行数据的加工转换,然后加载至存储中。
但在大规模数据场景下,一般不建议采用ETL的方式,建议采用ELT(Extract-Load-Transform,抽取–存储–转换)的模式,即将数据抽取后直接加载到存储中,再通过大数据和人工智能相关技术对数据进行清洗和处理。
如果采用ETL的模式在传输过程中进行复杂的清洗,会因为数据体量过大和清洗逻辑的复杂性导致数据传输的效率大大降低。另一方面,ETL模式在清洗过程中只提取有价值的信息进行存储,而是否有价值是基于当前对数据的认知来判断的,由于数据价值会随着我们对数据的认知以及数据智能相关技术的发展而不断被挖掘,因此ETL模式很容易出现一些有价值的数据被清洗掉,导致当某一天需要用这些数据时,又需要重新处理,甚至数据丢失无法找回。
在数据能力建设过程中,很多企业结合自身的场景和最佳实践也开源了一些优秀的汇聚工具,如Sqoop、DataX、Canal等,适用场景不同,也各有优缺点。
(1).Canal
Canal Server模拟MySQL Slave的交互协议,伪装自己为MySQL的Slave向Master发送dump协议,Master收到请求后开始推送binary log,Canal解析byte流产出解析后的增量数据。主要优点是流程架构非常清晰,部署和配置等相对简单,同时可以额外做一些配置管理、开发改造的工作。 Canal的 主要缺点是Server中的Instance和Client之间是一对一的消费,不太适用于多消费和数据分发的场景。
(2).Sqoop
Sqoop是目前市面上相对通用的一种解决方案,是在结构化数据和HDFS之间进行批量数据迁移的工具。整体框架以Hadoop为核心,底层使用MapReduce程序实现,MapReduce天生的特性保证了并行化和高容错率,任务运行在Hadoop集群上,减少了服务器资源的使用情况。其主要优势是,在特定场景下,数据交换过程会有很大的性能提升。主要缺点是,处理过程定制程度较高,目前主要通过在命令行中配置参数来调整数据同步操作行为,在用户的一些自定义逻辑和数据同步链路监控方面比较薄弱。除此之外,任务运行完全依赖于MapReduce,功能扩展性方面受到比较明显的约束和限制。
(3).DataX
DataX是阿里巴巴开源的一套插件式离线数据交换工具,以实现各种异构数据源之间的高效数据交换为目标而设计,提供数据交换作业全链路的流量监控,将作业本身的状态、数据流量、数据速度、执行进度等信息进行展示,提供脏数据探测功能,支持传输过程中对传输报错(如类型转换错误)进行策略化处理。由于它是基于进程内读写直连的方式,高并发数据交换场景下对机器内存要求比较高。除此之外,DataX不支持非结构化数据的同步,目前支持结构化数据源、半结构化数据源、非结构化数据源,但是非结构化数据源中需要存储的是一张逻辑意义上的二维表,例如CSV格式的文本信息,本质上还是结构化数据。
数据交换
从数据类型来看,有结构化数据和非结构化数据;
从实效性来看,有实时数据交换和离线数据交换。
数据交换中心的首要目的是屏蔽底层工具的复杂性,以可视化配置的方式提供给企业用户;其次需要考虑,为了解决数据孤岛,需要满足异构存储、异构数据类型的交换需求;同时,还要考虑不同时效要求下的数据互通。
数据体系建设
数据体系规划
中台数据体系应具备以下特征:
覆盖全域数据: 数据集中建设,覆盖所有业务过程数据,业务在中台数据体系中总能找到需要的数据。
结构层次清晰: 纵向的数据分层,横向主题域、业务过程划分,让整个层次结构清晰易理解。
数据准确一致: 定义一致性指标,统一命名、统一业务含义、统一计算口径,并有专业团队负责建模,保证数据的准确一致。
性能提升: 统一的规划设计,选用合理的数据模型,清晰地定义并统一规范,并且考虑使用场景,使整体性能更好。
降低成本: 数据体系的建设使得数据能被业务共享,这避免了大量烟囱式的重复建设,节约了计算、存储和人力成本。
方便易用: 易用的总体原则是越往后越能方便地直接使用数据,把一些复杂的处理尽可能前置,必要时做适当的冗余处理。
统一数仓层建设——标准化的数据底座
建模方法有范式建模、维度建模、实体建模等。维度建模更适合大数据时代数据量巨大的特点。
维度建模是实现统一数仓层建设目标的一种推荐建模方式,它用事实表、维度表来组织数据。模型简单易理解:仅有维度、事实两种类型数据。 维度建模具备以下特点:
性能好: 维度建模使用的是可预测的标准框架,允许数据库系统和最终用户通过查询工具在数据方面生成强大的假设条件,这些数据主要在表现和性能方面起作用。
可扩展性好: 具有非常好的可扩展性,可以在不改变模型粒度的情况下,很方便地增加新的分析维度和事实,不需要重载数据,也不需要为了适应新的改变而重新编码。良好的可扩展性意味着以前的所有应用都可以继续运行,并不会产生不同的结果。
数据冗余: 由于在构建事实表星型模式之前需要进行大量的数据预处理,因此会导致大量的数据处理工作。而且,当业务发生变化,需要重新进行维度的定义时,往往需要重新进行维度数据的预处理。而在这些预处理过程中,往往会导致大量的数据冗余。
相关概念
统一数仓层建设过程以维度建模为理论基础,构建总线矩阵,划分业务板块,定义数据域、业务过程、维度、原子指标、修饰类型、修饰词、时间周期、派生指标,进而确定维度表、事实表的模型设计。统一数仓层建设过程如图所示:
**原子指标:**原子指标是针对某一业务事件行为的度量,是一种不可拆分的指标,具有明确业务含义,比如支付金额。原子指标有确定的字段名称、数据类型、算法说明、所属数据域和业务过程。
派生指标: 派生指标可以理解为对原子指标业务统计范围的圈定,比如最近1天北京买家支付金额(“最近1天”是时间周期,“北京”是修饰词,修饰词“买家”是维度)。派生指标=1个原子指标+多个修饰词+时间修饰词。
维度表: 维度是观察事物的角度,提供某一业务过程事件所涉及的用于过滤及分类事实的描述性属性,用于描述与“谁、什么、哪里、何时、为什么、如何”(5W1H)有关的事件。**比如“早上小王在小卖部花费5元钱购买了一个面包”,以购买为业务过程进行分析,可从这段信息中提取三个维度,即时间维度(早上)、地点维度(小卖部)和商品维度(面包)。**维度表是统一设计的,在整个数据仓库中共享,所有数据域、业务过程都需要用到维度,都可以在公共维度表中获取相关维度属性。
事实表: 事实是观察事物得到的事实数据,事实涉及来自业务过程事件的度量,基本都是以数量值表示,比如一次购买行为就可以理解为是一个事实,5元就是事实信息。 事实表不跨数据域,根据需要,一个事实表可能对应同数据域下一个或者多个业务过程。事实表又分为明细事实表和汇总事实表。明细事实表记录事务层面的事实,保存的是原子数据,数据的粒度通常是每个事务一条记录,明细事实表数据被插入,数据就不再进行更改,其更新方式为增量更新。汇总事实表是把明细事实聚合形成的事实表,包括以具有规律性的、可预见的时间间隔来记录事实的周期快照事实表和以不确定的周期来记录事实的累计快照事实表。
指标设计
指标就是在企业业务运转过程中产生的度量事实,一致性指标设计是为了在企业内外部使指标的命名、计算方法、业务理解达到一致,避免不同部门同一个指标的数据对不上或者对同一个指标的数据理解不一致。
一致性指标的定义为,描述原子指标、修饰词、时间周期和派生指标的含义、类型、命名、算法,被用于模型设计,是建模的基础。
维度表设计
维度表包含了事实表所记录的业务过程度量的上下文和环境,它们除了记录5W等信息外,通常还包含了很多描述属性字段。每个维度表都包含单一的主键列。
1)选择维度: 维度作为维度建模的核心,在企业级数据仓库中必须保证维度的唯一性。维度一般用于查询约束条件、分组、排序的关键属性。
2)确定主维表: 主维表一般直接从业务系统同步而来,是分析事实时所需环境描述的最基础、最频繁的维度属性集合。比如用户维表从业务系统的用户基本信息表中产出。
3)梳理关联维表: 根据对业务的梳理,确定哪些表和主维表存在关联关系,并选择其中的某些表用于生成维度属性。如商品与类目、SPU、卖家、店铺等维度存在关联关系。
4)定义维度属性: 从主维表或关联维表中选择维度属性或生成新的维度属性,并维护和描述维度属性的层次及关联关系。如商品维表,商品属于类目,类目属于行业。
事实表设计
事实表是统一数仓层建设的主要产出物,统一数仓层绝大部分表都是事实表。一般来说事实表由两部分组成:一部分是由主键和外键组成的键值部分,另一部分是用来描述业务过程的事实度量。
在Kimball的维度建模理论中主要定义了事务事实表、周期快照事实表、累积快照事实表三种类型的事实表。
事务事实表: 事务事实表描述业务过程事务层面的事实,每条记录代表一个事务事件,保留事务事件活动的原始内容,其更新方式为增量更新。事务事实表相对其他事实表保存的数据粒度更细,可以通过事务事实表对事务行为进行详细分析。
周期快照事实表: 周期快照事实表以具有规律性、可预见的时间间隔产生快照来记录事实,每行代表某个时间周期的一条记录,记录的事实是时间周期内的聚集事实值或状态度量,更新方式为增量更新。周期快照事实表一般是建立在事务事实表之上的聚集,维度比事务事实表少,粒度比事务事实表粗,但是一般事实会比事务事实表多。
累计快照事实表: 累积快照事实表覆盖一个事务从开始到结束之间所有的关键事件,覆盖事务的整个生命周期,通常具有多个日期字段来记录关键事件时间点。 周期快速事实表涉及的多个事件中任意一个的产生都要做记录,由于周期快照事实表涉及的多个事件的首次加载和后续更新时间是不确定的,因此在首次加载后允许对记录进行更新,一般采用全量刷新的方式更新。