1.大数据时代的在线结构化存储-HBase

image

产品功能

image

产品简介

概述

定位:面向大数据场景的高可靠、高性能、高伸缩的分布式结构化存储系统

HBase – Hadoop Database,是一个高可靠性、高性能、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。

Ali-HBase,基于阿里巴巴/蚂蚁的环境和业务需求,对社区HBase进行深度定制与改进,从软件系统、解决方案、稳定护航、发展支撑等全方位提供一站式大数据基础存储服务。
它是以松散表的形式组织数据,提供实时更新增量导入随机查询范围查询多维删除能力,与实时计算离线计算流计算高度集成,高扩展高可用高可靠高性能高适应的在线分布式NoSQL数据库

基本架构

HBase是Google Bigtable的开源实现,类似Google Bigtable利用GFS作为其文件存储系统,HBase利用Hadoop HDFS作为其文件存储系统;Google运行MapReduce来处理Bigtable中的海量数据,HBase同样利用Hadoop MapReduce来处理HBase中的海量数据;Google Bigtable利用 Chubby作为协同服务,HBase利用Zookeeper作为对应。

hbase-arch

基本特点

  • 数据模型
    • 松散的表Schema,列的名字、数目、长度无需定义
    • 数据类型:唯一支持字节数组(byte[])
    • 支持多版本
    • 支持多数据类型
  • 访问方式
    • 实时写入/更新/删除,支持批量、异步等方式
    • 后台导入,直接生成存储格式的文件,十分高效
    • 设置数据有效期,过期自动删除
    • 指定主键(Row)的随机查询
    • 有条件(为主键或列设定条件)的范围查询
    • 协处理器 (类似于RDB中的触发器与存储过程)
    • 事务:支持单行、同分区跨行的事务
    • 索引:主键索引,支持局部二级索引
    • 数据强一致性,强持久性
    • 程序语言支持:原生客户端仅支持JAVA,C、PHP等可以通过代理方式访问(自带Thrift框架)
    • 支持SQL
    • 支持异步API
    • 与JStorm/Galaxy集成,支持基于HBase的实时流计算
  • 性能与扩展
    • 水平扩展,支持千台物理机级规模
    • 扩容无需数据迁移,即扩即用
    • 大表自动分裂,支持分区在线合并
    • 扩展能力依赖表分区,Row设计需要防热点
    • 存储层采用LSM树,相比于B-Tree(读写对等),写能力>读能力
    • 支持多副本异构介质存储
    • 支持二级缓存
  • 安全与稳定
    • 存储层默认三副本,数据可靠性高
    • 支持表快照,方便冷备
    • 系统内部采用M-S架构
      • Master支持热备,Master故障影响DDL,不影响DML
      • Slave故障,影响可用性,部分数据区域的DML不可用,会自动恢复
    • 支持双集群数据复制
    • 支持用户认证与授权
    • 支持集群一键切换和自动切换
    • 支持单元化多地多集群部署
  • 数据导入导出
    • 跨系统,支持导入/导出CSV格式的数据
    • 同系统,支持distcp直接拷贝底层存储文件,快速导入
    • 使用sqoop,在HBase/mysql/orcale/hive等系统间相互迁移数据
    • 与在云端集成,支持HBase与其他系统的数据全量/增量迁移
    • 与TT和ODPS集成,支持HBase上的数据实时生产到TT,供其他订阅方消费,并支持同步到ODPS上,进行实时计算
  • 运维与服务
    • 完善的监控与报警
    • 全链路请求追踪
    • 7*24一站式服务

使用场景

  • 结构化数据
    • 场景描述:用户的前台数据实时读写HBase,如交易记录、评价记录、物流记录等
    • 案例代表:支付宝消费记录、菜鸟物流详情
  • 高吞吐写入
    • 场景描述:日志、消息、监控、聊天等需要高吞吐实时写入的数据存取
    • 案例代表:AliMonitor、集团TimeTunel、旺旺聊天
  • 海量数据实时访问
    • 场景描述:安全风控场景,在/离线写入大量用户行为数据,实时查询判断行为风险
    • 案例代表:蚂蚁风控、集团安全
  • 大数据实时计算
    • 场景描述:数据BI、实时运营等场景,流计算、批量计算的结果实时回流到HBase,供在线访问
    • 案例代表:媒体大屏、生意参谋、蚂蚁服务宝

Ali-HBase与社区HBase的关系与区别

  • 社区HBase是一个开源软件,Ali-HBase是定制软件、解决方案、护航配套、服务支撑的集合
  • 与阿里/蚂蚁的环境高度集成,享受一站式的数据场景服务,支撑这个服务的系统包括云平台(业务接入、资源管理、集群管控、数据运营)、监控报警、高可用切换、数据流动与计算支撑系统等,经过业务多年锤炼的配套体系,满足业务拎包入住
  • Ali-HBase拥有的超越社区版本的独有能力
    • 可用性:可达99.99%,全年不可用<1小时
      • 完善的集群间异步复制,支持多单元、表级复制、延迟/拓扑可视等功能,更加地稳定、高效(性能提升1倍)
      • 支持集群数据的同步复制
      • 切换系统,支持一键切换、自动切换
      • 深度优化的宕机恢复能力,快N倍
    • 稳定性:多年沉淀,久经双11沙场
    • 功能性:深耕需求,独特风景
      • 二级索引
      • 新缓存BucketCache,支持二级缓存
      • 资源分组隔离,支持多租户
      • 冷热分级存储
      • 异步API,提高吞吐
      • 内置计算,高效支持数据的聚合、校正、清洗
      • 反向Scan
      • OffsetScan,以支持分页
      • 支持请求级超时
      • 离散式TTL
      • 支持SQL,数据类型、全局二级索引、热点消除等能力尽在SQL层
    • 运维性:一切尽在掌握
      • 核心模块和关键链路的完善监控
      • 请求的全链路跟踪与调试
      • 多级请求控制能力:限制、隔离、拒绝
      • 对业务完全透明的数据搬迁
    • 性能:深入场景的提升,优秀源于大体量的锤炼
      • 多副本异构介质混合存储
      • 内存自管理Map,深度优化GC
      • 双集群双活架构,请求稳定性提升一个数量级
      • Compaction算法的深度改进
      • Small Scan
      • C/S传输压缩,HLog压缩
      • 前缀BloomFilter
      • 上百个细节优化
    • 灵活性:易流动,易计算
      • 异构系统间的数据全量/增量/实时迁移
      • 数据实时同步ODPS,定期计算
      • JStorm/Galaxy,支持基于HBase的实时流计算


产品优势

易用

  • 无需部署与维护,直接使用数据服务
  • 丰富监控与报表,轻松优化应用
  • 专业团队提供支持

可扩展

  • 弹性高效的水平扩展

稳定可靠

  • 多副本的高可靠保障
  • 支持冷备和热备
  • 节点故障自动恢复

持续可用

  • 主备架构
  • 同城容灾
  • 多地容灾
  • 支持一键切换和自动切换

深入整合

  • 与实时计算、离线计算、流计算高度整合
  • 集成于在云端,支持异构系统间的数据迁移

成本

  • 深入场景的性能优化
  • 无需基础(网络、机器)和系统运维

猜你喜欢

转载自blog.csdn.net/szr4630/article/details/79700026