大数据的完整讲解--初级班 Datawhle

1.什么是大数据
1.1 大数据特征
在这里插入图片描述
我们引用了大数据的4V特征
Volume 大数据数据量大,数据量单位为T 或者P级
Variety 数据类型多,大数据包含多种数据维度 比如 日志、视频、图片
Value 价值密度低,商业价值高 比如监控视频,其中关键1-2秒可能具有极高的价值
Velocity 要求处理速度块 【微 无忧获客全拼 + 01】
1.2 大数据的4个关键技术
在这里插入图片描述
1.3 ETL/ELT的区别
ETL 包含的过程是 Extract、Transform、Load的缩写
包括了数据抽取 => 转换 => 加载三个过程
在这里插入图片描述
在数据源抽取后首先进行转换,然后将转换的结果写入目的地
ETL 包含的过程是 Extract、Load、Transform的缩写
ELT的过程是,在抽取后将结果先写入目的地,然后利用数据库的聚合分析能力或者外部计算框架,如Spark来完成转换
目前数据主流框架是ETL,重抽取和加载,轻转换,搭建的数据平台属于轻量级
ELT架构,在提取完成之后,数据加载会立即开始,更省时,数据变换这个过程根据后续使用需求在 SQL 中进行,而不是在加载阶段
ELT框架的优点就是保留了原始数据,能够将原始数据展现给数据分析人员
ETL相关软件:
商业软件:Informatica PowerCenter、IBM InfoSphere DataStage、Oracle Data Integrator、Microsoft SQL Server Integration Services等
开源软件:Kettle、DataX、Sqoop
1.4 大数据与数据库管理系统
DataBase Management System,数据库管理系统,可以管理多个数据库
目前关系型数据库在DBMS中占据主流地位,常用的关系型数据库有Oracle、MySQL和SQL Server
其中SQL就是关系型数据库的查询语言
SQL是与数据直接打交道的语言,是与前端、后端语言进行交互的“中台”语言
SQL语言特点:
价值大,技术、产品、运营人员都要掌握SQL,使用无处不在
很少变化,SQL语言从诞生到现在,语法很少变化
入门并不难,很多人都会写SQL语句,但是效率差别很大
除了关系型数据库还有文档型数据库MongoDB、键值型数据库Redis、列存储数据库Cassandra等
提到大数据就不得不说Hive
Hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。
Hive与关联型数据库RDBMS相比
不足:
不能像 RDBMS 一般实时响应,Hive 查询延时大
不能像 RDBMS 做事务型查询,Hive 没有事务机制
不能像 RDBMS 做行级别的变更操作(包括插入、更新、删除)
优点:
Hive 没有定长的 varchar 这种类型,字符串都是 string
Hive 是读时模式,保存表数据时不会对数据进行校验,而在读数据时将校验不符合格式的数据设置为NULL
1.5 OLTP/OLAP
在数据仓库架构中有非常相关的2个概念,一个是OLTP,一个是OLAP

OLTP( On-Line Transaction Processing )
联机事务处理,主要是对数据的增删改
记录业务发生,比如购买行为,发生后,要记录是谁在什么时候做了什么事,数据会以增删改的方式在数据库中进行数据的更新处理操作
实时性高、稳定性强,ATM,ERP,CRM,OA等都属于OLTP
OLAP( On-Line Analytical Processing )
联机分析处理,主要是对数据的分析查询 【微 无忧获客全拼 + 01】
当数据积累到一定的程度,需要做总结分析,BI报表=> OLAP
OLTP产生的数据通常在不同的业务系统中
OLAP需要将不同的数据源 => 数据集成 => 数据清洗 => 数据仓库,然后由数据仓库统一提供OLAP分析。

猜你喜欢

转载自blog.csdn.net/benli8541/article/details/112671724