大数据系列(8)Hadoop生态简介

生态圈在这里插入图片描述

HBase简介

  • 高可靠,高性能,面向列,可伸缩,实时读写的分布式数据库
  • 利用HDFS作为其文件存储系统,支持MR程序读取数据
  • 存储非结构化和半结构化数据

RowKey:数据唯一标识,按字典排序
Column Family:列族,多个列的集合,最多不要超过3个
**TimeStamp时间戳:**支持多版本数据同时存在
在这里插入图片描述

Spark

  • 基于内存的大数据并行计算框架
  • Spark是MapReduce的替代方案,兼容HDFS,HIVE等数据源
  • 抽象出分布式内存存储数据结构,弹性分布式数据集RDD
  • 基于事件驱动,通过线程池复用线程提高性能
发布了35 篇原创文章 · 获赞 3 · 访问量 3300

猜你喜欢

转载自blog.csdn.net/qq_43430261/article/details/105545115