《数据中台:让数据用起来》读书笔记

本篇博客是通过阅读《数据中台:让数据用起来》,结合现在自己正在一个数据中台还没成体系化的公司中的一些工作经历写的一些笔记和个人感想。一直很喜欢数据产品经理这个岗位,也希望有一天能够真正理解数据中台的含义和构建过程,能够独自带领搭建一个公司的数据中台
1、数据化平台
特征:充分协同并融入业务流程,统一数据模型并可平滑交换数据,云原生和数据能力开放,以及智能化
数据资产:能够直接作用于业务领域,业务能够阅读、能理解的数据才叫数据资产
数据中台建设特点:业务数据化–数据资产化–资产服务化–服务业务化
2、数据中台
① 定义:数据中台是一套可持续“让企业的数据用起来”的机制,是一种战略选择和组织形式,是依据企业特有的业务模式和组织架构,通过有形的产品和实施方法论支撑,构建的一套持续不断把数据变成资产并服务于业务的机制
在这里插入图片描述
② 数据中台的核心能力
数据汇聚整合–数据提纯加工–数据服务可视化–数据价值变现
在这里插入图片描述
③ 数据中台建设目标评估
在这里插入图片描述
在这里插入图片描述
④ 建设内容
技术体系–数据体系–服务体系–运营体系

技术体系:分两个层面,大数据存储计算技术和数据中台工具技术组件,技术体系主要关注点是工具技术组件。
数据体系:是数据中台建设、管理、使用的核心要素,全企业的数据通过各种方式汇聚到数据中台,在数据中台按照一定的建模方式进行加工,形成企业的数据资产体系
服务体系:是通过数据中台的服务组件能力,把数据变为一种服务能力,比如客户微观画像服务、信用评估服务、风险预警服务等,让数据能够方便地参与到业务中并为业务带去价值。
运营体系:是数据中台得以健康、持续运转的基础。运营体系包括平台流程规范执行监督、平台资源占用的监管及优化推动、数据质量的监督及改进推动、数据价值的评估、数据服务的推广、稽查排名等

3、数据中台架构
在这里插入图片描述
4、数据中台建设的评估与选择
在这里插入图片描述
公司数据情况梳理:
①梳理公司现有有哪些业务线,每个业务线有哪些数据,分别以什么形式存储以及数据的应用情况有哪些
②对数据的应用成熟度进行模型评估
5、数据开发
元数据管理:可以将Topic中相应的元数据信息统一维护到元数据注册中心,将数据和元数据进行解耦, Topic中只需要存入数据即可
特征工程:是指在算法开发过程中,利用特征选择、特征加工、特征降维等技术手段构建对结果具有显著影响或便于模型处理的特征。利用特征工程相关的组件可以快速构建特征体系、快速选择有效特征,进而大幅提高算法的质量,提升分析效率。常见的组件有主成分分析、特征尺度变换、特征离散、特征异常平滑、奇异值分解、one-hot编码等
6、数据体系建设
①中台数据体系特征:
a、覆盖全域数据:数据集中建设,覆盖所有业务过程数据,业务在中台数据体系中总能找到需要的数据
b、结构层次清晰:纵向的数据分层,横向主题域、业务过程划分,让整个层次结构清晰易理解
c、数据准确一致:定义一致性指标,统一命名、统一业务含义、统一计算口径,并有专业团队负责建模,保证数据的准确一致
d、性能提升:统一的规划设计,选用合理的数据模型,清晰地定义并统一规范,并且考虑使用场景,使整体性能更好
f、降低成本:数据体系的建设使得数据能被业务共享,这避免了大量烟囱式的重复建设,节约了计算、存储和人力成本
g、方便易用:易用的总体原则是越往后越能方便地直接使用数据,把一些复杂的处理尽可能前置,必要时做适当的冗余处理。比如在数据的使用中,可以通过维度冗余和事实冗余来提前进行相关处理,以避免使用时才计算,通过公共计算下沉、明细与汇总共存等为业务提供灵活性
②中台数据体系架构
在这里插入图片描述
a、贴源数据层ODS(Operational Data Store,又称操作数据层):对各业务系统数据进行采集、汇聚,尽可能保留原始业务流程数据,与业务系统基本保持一致,仅做简单整合、非结构化数据结构化处理或者增加标识数据日期描述信息,不做深度清洗加工。
b、统一数仓层DW(Data Warehouse):又细分为明细数据层DWD(Data Warehouse Detail)和汇总数据层DWS (Data Warehouse Summary),与传统数据仓库功能基本一致,对全历史业务过程数据进行建模存储。对来源于业务系统的数据进行重新组织。业务系统是按照业务流程方便操作的方式来组织数据的,而统一数仓层从业务易理解的视角来重新组织,定义一致的指标、维度,各业务板块、业务域按照统一规范独立建设,从而形成统一规范的标准业务数据体系。
c、标签数据层TDM(Tag Data Model):面向对象建模,对跨业务板块、跨数据域的特定对象数据进行整合,通过ID-Mapping把各个业务板块、各个业务过程中的同一对象的数据打通,形成对象的全域标签体系,方便深度分析、挖掘、应用。
d、应用数据层ADS(Application Data Store):按照业务的需要从统一数仓层、标签数据层抽取数据,并面向业务的特殊需要加工业务特定数据,以满足业务及性能需求,向特定应用组装应用数据。
③统一数仓层的建设过程
在这里插入图片描述
举例:
业务板块:商品素材板块、作品板块、短视频板块、评论帖子板块
业务过程:业务过程与事实表一对一,点击事实、购买事实、曝光事实、使用事实
原子指标:曝光次数、点击次数、购买次数
派生指标:7天曝光次数、7天点击,7天购买
维度属性:时间维度、地点维度、商品维度
④数据域划分
第一阶段:数据调研
业务调研和数据调研
第二阶段:业务分类
业务过程提取、业务过程拆分、业务过程分类
第三阶段:数据域定义
业务分类确认、数据域定义
第四阶段:总线矩阵构建
关系梳理、矩阵构建
举例:
在这里插入图片描述
④指标设计
指标就是在企业业务运转过程中产生的度量事实,一致性指标设计是为了在企业内外部使指标的命名、计算方法、业务理解达到一致,避免不同部门同一个指标的数据对不上或者对同一个指标的数据理解不一致
一致性指标:
在这里插入图片描述
a、维度表设计
维度表设计主要包括选择维度、确定主维表、梳理关联维表、定义维度属性等过程。
b、事实表设计
事实表由两部分组成:一部分是由主键和外键组成的键值部分,另一部分是用来描述业务过程的事实度量
⑤标签设计
a、标签分类
属性标签:对象本身的性质,性别、年龄等
统计标签:一致性指标,日均登录次数等
算法标签:规则型和挖掘型指标,比如信用指数、购买能力、品牌偏好
b、标签的设计内容
标签的标签,即元标签的设计内容主要包括标签类目、标签名、标签加工类型、标签逻辑、值字典、取值类型、示例、更新周期、安全等级、表名、字段名、负责人、完成时间等。其中“标签类目、标签名、标签加工类型、标签逻辑、值字典、取值类型、示例、更新周期、安全等级”偏向业务方向,主要登记与业务所需相关的指标;“表名、字段名、负责人、完成时间”偏向技术方向,主要登记的技术开发实施过程相关的指标
在这里插入图片描述
7、数据服务
查询服务、分析服务、检索服务、圈人服务、推荐服务、风控服务等多种数据服务类型
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/qq_41046286/article/details/107189889