作者：禅与计算机程序设计艺术

1.简介

随着企业对数据的需求越来越多、应用系统复杂度越来越高、数据量越来越大、业务规模越来越大、成本逐渐上升，传统数据仓库技术的部署越来越依赖于集群架构和资源，但同时也越来越受到“单点故障”、“脑裂”、“主备失效”等问题的困扰。Hadoop生态圈提供了一个比较完善的分布式计算框架，在实现数据分析、机器学习等场景中发挥着不可替代的作用。Hive作为Hadoop生态中非常重要的一部分，不仅可以用来进行复杂的数据查询，还可以通过MapReduce或者Spark等计算引擎将查询结果集转化为可视化、报表等形式。因此，对于大型数据仓库的高可用部署及维护，在Hadoop生态里也是至关重要的。这篇文章将会从分布式计算框架的整体架构出发，讲述Hive的部署方式、集群规划、运行原理以及维护方法。

2.基本概念术语说明

Ⅰ．分布式计算框架

Hadoop是由Apache基金会开发的一个开源的分布式计算框架，其包括HDFS（Hadoop Distributed File System）和MapReduce两种基础服务，并通过YARN（Yet Another Resource Negotiator）提供资源调度。除此之外，Hadoop还提供了Spark、Storm等大数据处理框架。

Ⅱ．HDFS（Hadoop Distributed File System）

HDFS是一个分布式文件存储系统，可以高度扩展。它具有高容错能力、高容量和高吞吐率，支持流数据访问模式。HDFS被设计用于部署在廉价的商用服务器上，同时也能够部署在高度配备的大数据计算平台上，满足各种不同的数据存储场景。HDFS既支持高吞吐量访问，也适合批处理的需求࿰

Hive高可用性部署及管理

1.简介

2.基本概念术语说明

猜你喜欢