大数据开发之数据仓库

概念

数据仓库:Data warehouse 数仓 DW ,用于存储,分析,报告的数据系统;目的是构建面向分析的集成化数据环境,分析结果为企业提供决策支持

面向分析

  • 数据仓库本身不产生任务的数据,其数据来源于各个不同的外部系统
  • 数据仓库也不需要任务外部数据,只是把收集好的数据整理好,在提供给外部使用

在这里插入图片描述

数仓和OLTP区别

在面对大量数据的时候,我们很多时候也会使用OLTP 型数据库

在大多数的OLTP ,是面向业务的,支持事务,对于大量数据的分析还是有很大的压力;

还有就是,大多数不同的业务系统数据存储在不同的数据库和表中,字段类型还不一致,关联处理比较麻烦;

数仓特点

面向主题:比较抽象的一个概念,可以理解为一个纬度,一个业务模块归类后的数据上的抽象

集成性:一个主题的数据,可能是发布在不同的应用系统中,各个系统独立存储,数据分散,需要综合的集成到数据仓库中来;

非易失性:拉取其他系统的数据,分析数据,不创造新的数据

时变性:数仓的数据需要随着时间更新,适应决策需要

数仓开发语言

数仓前面也说到了,主要是为了分析数据,只要你这个语言可以读取数据,处理数据,就可以作为数仓的开发语言;

比如说是C,Java ,Python 都可以作为数仓开发的语言,主要是学习成本的问题,说到学习成本,SQL语言应该是相对比较简单的了,所以现在数据分析领域的主要开发语言就是SQL;

像是后面介绍的HIVE 就是把我们编写的SQL 转变成Map Reduce任务 跑在Hadoop 集群上来处理大数据查询分析;

在Hadoop 集群上来处理大数据查询分析;

猜你喜欢

转载自blog.csdn.net/weixin_44244088/article/details/126078981