当我们说大数据Hadoop,究竟在说什么?

提到大数据,大抵逃不过两个问题,一个是海量的数据该如何存储,另外一个就是那么多数据该如何进行查询计算呢

好在这些问题前人都有了解决方案,而Hadoop就是其中的佼佼者,是目前市面上最流行的一个大数据软件,那它包括哪些内容呢?有什么特点呢?

一.Hadoop介绍

提到Hadoop,大家的理解是什么?

狭义上理解,Hadoop指的是Apache软件基金会的一款用java语言实现,开源的软件,允许用户使用简单的编程模型实现跨机器集群对海量数据进行分布式计算处理。

广义上,Hadoop指的是围绕Hadoop打造的大数据生态圈,如下图所示, 其中Hadoop是整个生态圈的底座、地基,构建出整个大数据的生态系统。在这里插入图片描述

二.Hadoop三大核心组件

hadoop主要由3大部分组成,俗称Hadoop三剑客:

1.Hadoop HDFS(分布式文件存储系统)
全称分布式文件系统,本质是一个文件系统,由于数据量很大,总不能将将所有数据存储到一台"电脑"上,哪有那么大磁盘的电脑,那么是不是可以存储到多个不同的"电脑"上,也就是分布式的,把文件存储在不同的节点中,主要是为了解决海量数据存储的问题,它处在生态圈的底层与核心地位。

2.Hadoop MapReduce(分布式计算框架)
MapReduce作为大数据生态圈第一代分布式计算框架,主要是解决了海量数据的计算问题。

传统的计算方式一般都是将数据从各个节点上加载过来,然后统一计算。这样有个最大的弊端就是计算十分慢,只有一个节点工作。而MapReduce计算框架可以分布在各个节点上并行计算,最后进行归并。

注意,MapReduce只是一个计算框架,或者说编程模型,不是一个软件,无需部署。

3.Hadoop YARN(集群资源管理和任务调度平台)
YARN是分布式通用的集群资源管理系统和任务调度平台,怎么理解呢?

大数据的很多计算任务,比如MapReduce任务、或者其他的Spark任务等等,他们在计算的时候需要CPU、内存、磁盘等资源,那么多个任务进行运算的时候需要有个管理者去给他们进行资源分配、调度等,这个管理员就是YARN。

三.Hadoop优点

Hadoop为什么这么流行,这和它的众多优点分不开。

  • 扩容能力
    Hadoop是在可用的计算机集群间分配数据并完成计算任务的,这些集群可方便灵活的方式扩展到数以千计的节点。
  • 成本低
    Hadoop集群允许通过部署普通廉价的机器组成集群来处理大数据,以至于成本很低。看重的是集群整体能力。
  • 效率高
    通过并发数据,Hadoop可以在节点之间动态并行的移动数据,使得速度非常快。
  • 可靠性
    能自动维护数据的多份复制,并且在任务失败后能自动地重新部署(redeploy)计算任务。所以Hadoop的按位存储和处理数据的能力值得人们信赖。
  • 开源
    由于Hadoop开源,所以整个社区活跃度很高,很多企业都是基于Hadoop构建他们的大数据平台。

四.Hive 与 SQL Studio

Hadoop只是一套工具的总称,它包含三部分:HDFS,Yarn,MapReduce,功能分别是分布式文件存储、资源调度和计算。

按理来说,这就足够了,就可以完成大数据分析了。

但第一个问题就是麻烦。这一套相当于用Yarn调度资源,读取HDFS文件内容进行MR计算。要写Java代码,但做数据的最好的工具是什么?SQL!所以Hive相当于这一套标准流程的SQL化。

hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。

Hive的优点是学习成本低,可以通过类似SQL语句实现快速MapReduce统计,使MapReduce变得更加简单,而不必开发专门的MapReduce应用程序。hive十分适合对数据仓库进行统计分析。

目前可支持Hadoop的SQL工具并不多,除开Hive外,还有SQL Studio,最近SQL Studio已全面支持Hadoop。在这里插入图片描述
SQL Studio是一款跨平台的数据库管理工具,支持Linux、Mac、Windows系统:

  1. SQl Studio最值得一提的就是它免费;
  2. 如今国产数据库正发展的如火如荼,但支持国产数据库的SQL工具却不多,SQL Studio正是这少数中的金子,不仅支持MySQL、Oracel等主流数据库,还支持武汉达梦、人大金仓等国产数据库;
  3. 它是Web版工具,一键解压,点开就能使用无需安装非常方便,支持团队实时在线进行代码沟通协调,效率更高;
  4. 自动生成测试数据功能,不再需要写代码,SQL Studio自动帮你生成百万测试数据,省心省力;
  5. 支持超大数据量:毫秒级查询千万级数据,导出3000W速度比Navicat还快,展开1W张表格稳定丝滑不卡顿。

更多功能优点您可下载后自行探索。

猜你喜欢

转载自blog.csdn.net/ylguoguo6666/article/details/130357578