数据仓库基础--ETL原理及作用

  • 全量数据、增量数据
    全量数据指的是全部数据
    增加数据指的是某个时间段内新增加的数据
  • 什么叫做好的数据?
    数据跟分析需求直接的关联性 在满足相关的前提下 数据当然越多越好。
  • 何为数据不可更新?
    不可更改更多指的是数据之间的规律不可更改。
    1.2k----->1200元
    0.2w----->2000元
  • 数仓4大特性
    • 面向主题:主题是数据的综合体 是一个抽象的概念
    • 集成性:数仓的数据需要在确定的主题下收集来自于各个不同的数据源 集成中需要ETL
    • 不可更新性:数仓是分析数据规律 而不是创造数据规律的
    • 时变性:数仓数据会随着时间的周期 成批次变化 因为也把离线称之为批处理分析

在这里插入图片描述
FTP:文件传输协议
采用 Client/Server 架构。用户可以通过各种
不同的 FTP 客户端程序,借助 FTP 协议,来连接 FTP 服务器,以上传或者下载文
件。它使用两个连接与客户端通信:
命令连接:用于传输文件管理类命令,在客户端连接后会始终在线;
数据连接:用于传输文件数据,此连接会按序创建。
在这里插入图片描述

ETL: 抽取extra 转换 transfer 装载 load (重点)是数据仓库的生命线,贯穿整个数据分析
不管数据来源是哪里,我需要抽取不同数据,转换为我需要的格式,最后再加载的流程

猜你喜欢

转载自blog.csdn.net/weixin_44654375/article/details/87897893