大数据 Hadoop的生态系统和组件 - 代码天地

大数据 Hadoop的生态系统和组件

其他 2018-12-17 03:03:00 阅读次数: 0

Hadoop生态系统组件主要包括：MapReduce|HDFS|HBase|Hive|Pig|Zookeeper|Mahout

大数据 Hadoop的生态系统和组件

如果有对大数据感兴趣程序员，可来我们的大数据交流扣qun哦：591305687里面免费送大数据的系统教程噢！小编也是一名从事了5年的数据算法工程师，花了近两个月整理了一份较适合当下学习的干货，以及我这5年的工作经验，分享给每一位想学大数据的小伙伴，这里是大数据学习者聚集地，欢迎初学和进阶中的小伙伴。

MapReduce

主要由Google Reduce而来，它简化了大型数据的处理，是一个并行的，分布式处理的编程模型。

hadoop2.0它是基于YARN框架构建的。YARN的全称是Yet-Another-Resource-Negotiator。Yarn可以运用在S3|Spark等上。

HDFS

它是由Google File System而来，全称是Hadoop Distributed File System，是Hadoop的分布式文件系统，有许多机器组成的，可以存储大型数据文件。

它是由NameNode和DataNode组成，NameNode可以配置成HA(高可用)，避免单点故障。一般用Zookeeper来处理。两个NameNode是同步的。

Hive

它是Hadoop的数据仓库(DW),它可以用类似SQL的语言HSQL来操作数据，很是方便，主要用来联机分析处理OLAP（On-Line Analytical Processing）,进行数据汇总|查询|分析。

HBase

它是由Google BigTable而来。是Hadoop的数据库。HBase底层还是利用的Hadoop的HDFS作为文件存储系统，可以利用Hadoop的MR来处理HBase的数据，它也通常用Zookeeper来做协同服务。

Zookeeper

它是一个针对大型分布式系统的可靠协调系统，在Hadoop|HBase|Strom等都有用到，它的目的就是封装好复杂易出错的关键服务，提供给用户一个简单|可靠|高效|稳定的系统。提供配置维护|分布式同步|名字服务等功能，Zookeeper主要是通过lead选举来维护HA或同步操作等

Pig

它提供一个引擎在Hadoop并行执行数据流。它包含了一般的数据操作如join|sort|filter等，它也是使用MR来处理数据。

Mahout

它是机器学习库。提供一些可扩展的机器学习领域经典算法的实现，目的是帮助开发人员更加方便快捷地创建智能应用程序。Mahout包含许多实现，包括聚类、分类、推荐算法等。

猜你喜欢

转载自blog.csdn.net/qq_40196321/article/details/85040505

大数据 Hadoop的生态系统和组件

【大数据】图解 Hadoop 生态系统及其组件

大数据概况和Hadoop生态系统

大数据 Hadoop生态系统

大数据——Hadoop生态系统

大数据学习笔记：大数据技术框架和Hadoop生态系统

Hadoop大数据生态系统及常用组件（山东数漫江湖）

大数据框架Hadoop生态系统各组件与Yarn的兼容性如何？

大数据生态系统基础：Hadoop（七）：Hadoop MapReduce 工作原理和 YARN架构

Hadoop大数据生态系统介绍

大数据入门（Hadoop生态系统）

大数据生态系统（Hadoop）的安装部署

大数据概况及Hadoop生态系统

大数据生态系统基础：Hadoop（一）：介绍和安装

大数据生态系统基础：Hadoop（六）：Mac 下Hadoop-Eclipse-plugin编译和集成环境配置

大数据生态系统基础：Hadoop（二）：Hadoop 3.0.0集群安装和验证

大数据不等于Hadoop 国内Hadoop生态系统亟待完善

Hadoop生态系统：用于处理大数据的Hadoop工具

大数据生态系统基础：Hadoop（五）：Hadoop 3.0.0 HDFS读写及编程基础

大数据生态系统基础：Hadoop（四）：Hadoop 3.0.0 HDFS SHELL 命令

大数据生态系统基础：Hadoop（三）：Hadoop 3.0.0 HDFS 体系结构

一步一步学习大数据：Hadoop 生态系统与场景

大数据之（4）Hadoop生态系统体系架构及基本概念

Hadoop生态系统在壮大：十大炫酷大数据项目

阿里巴巴飞天大数据架构体系与Hadoop生态系统

2020.9.9课堂笔记（大数据概况及Hadoop生态系统）

Hadoop生态系统中的大数据基础知识教程

大数据生态系统组成，各组件及其作用（持续补充）

大数据系统-Spark生态系统

大数据生态系统的环境搭建

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

周排行

购置笔记本常识

从源码看Spring Security之采坑笔记（Spring Boot篇）

大数据学习——高可用配置案例

如何避免选择不专业的建站公司?

Euclid's Game HDU - 1525（博弈）

面试笔记（六）---Js实现eventHandler

Windows 实例搭建的 FTP 在外网无法连接和访问

设计模式 : 桥接模式

USB 设备驱动开发之几个重要结构体分析

14-p14_sqrt求平方根

每日归档

更多

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)