Hive高可用性部署及管理

作者:禅与计算机程序设计艺术

1.简介

随着企业对数据的需求越来越多、应用系统复杂度越来越高、数据量越来越大、业务规模越来越大、成本逐渐上升,传统数据仓库技术的部署越来越依赖于集群架构和资源,但同时也越来越受到“单点故障”、“脑裂”、“主备失效”等问题的困扰。Hadoop生态圈提供了一个比较完善的分布式计算框架,在实现数据分析、机器学习等场景中发挥着不可替代的作用。Hive作为Hadoop生态中非常重要的一部分,不仅可以用来进行复杂的数据查询,还可以通过MapReduce或者Spark等计算引擎将查询结果集转化为可视化、报表等形式。因此,对于大型数据仓库的高可用部署及维护,在Hadoop生态里也是至关重要的。这篇文章将会从分布式计算框架的整体架构出发,讲述Hive的部署方式、集群规划、运行原理以及维护方法。

2.基本概念术语说明

Ⅰ.分布式计算框架

Hadoop是由Apache基金会开发的一个开源的分布式计算框架,其包括HDFS(Hadoop Distributed File System)和MapReduce两种基础服务,并通过YARN(Yet Another Resource Negotiator)提供资源调度。除此之外,Hadoop还提供了Spark、Storm等大数据处理框架。

Ⅱ.HDFS(Hadoop Distributed File System)

HDFS是一个分布式文件存储系统,可以高度扩展。它具有高容错能力、高容量和高吞吐率,支持流数据访问模式。HDFS被设计用于部署在廉价的商用服务器上,同时也能够部署在高度配备的大数据计算平台上,满足各种不同的数据存储场景。HDFS既支持高吞吐量访问,也适合批处理的需求࿰

猜你喜欢

转载自blog.csdn.net/universsky2015/article/details/132899705