hadoop生态的大体介绍 - 代码天地

hadoop生态的大体介绍

企业开发 2019-01-11 13:50:45 阅读次数: 0

hadoop生态的大体介绍
重点组件：
HDFS：Hadoop 的分布式文件存储系统
MapReduce：Hadoop 的分布式程序运算框架，也可以叫做一种编程模型
Hive：基于 Hadoop 的类 SQL 数据仓库工具
HBase：基于 Hadoop 的列式分布式 NoSQL 数据库
ZooKeeper：分布式协调服务组件
Mahout：基于 MapReduce/Flink/Spark 等分布式运算框架的机器学习算法库
Oozie/Azkaban：工作流调度引擎
Sqoop：数据迁入迁出工具
Flume：日志采集工具

数据的处理流程：
hadoop生态的大体介绍
A、数据采集：定制开发采集程序，或使用开源框架 Flume 或者 LogStash
B、数据预处理：定制开发 MapReduce 程序运行于 Hadoop 集群，或者专门数据收集工具也能进行数据预处理
C、数据仓库技术：基于 Hadoop 之上的 Hive
D、数据导出：基于 Hadoop 的 Sqoop 数据导入导出工具
E、数据可视化：定制开发 web 程序或使用 Kettle 等产品
F、数据统计分析：Hadoop 中的 MapReduce 或者基于 Hadoop 的 Hive，或者 Spark，Flink
G、整个过程的流程调度：Hadoop 生态圈中的 Oozie/Azkaban 工具或其他类似开源产品

猜你喜欢

转载自blog.51cto.com/14048416/2341495

hadoop生态的大体介绍

Hadoop-1-生态圈的组件大体介绍

Hadoop生态圈介绍

hadoop 生态圈介绍

Hadoop生态Flume（一）介绍

Hadoop生态hive（一）介绍

大数据-Hadoop生态(3)-Hadoop介绍

hadoop生态系统介绍

hadoop和周围生态常用端口介绍

Hadoop生态系统的详细介绍

hadoop生态系统基本介绍

Hadoop生态圈组件介绍

(20)hadoop生态圈介绍

Hadoop生态hive（三）Hive QL介绍

大数据Hadoop生态圈介绍

Hadoop生态系统全面介绍

hadoop生态

Hadoop大数据生态系统介绍

Hadoop的生态体系，HDFS和MapReduce等的具体介绍

大数据基石Hadoop生态圈-组件介绍

大数据Hadoop生态圈各个组件介绍（详情）

大数据Hadoop生态圈-组件介绍

Java中的IO流大体介绍

Java大体介绍(超级短的那种)

FFmpeg大体介绍和内存模型

安装Hadoop Hadoop生态的配置

hadoop生态圈

hadoop生态环境

hadoop生态集群的搭建

Hadoop生态体系

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

OOP第二次作业

java web 乱码问题

android 禁止scrollview 因控件变化自动滚动到底的方法

mysql服务解压版的安装(5.7)

centos7 nginx+tomcat配置https 安装免费SSL Let’s Encrypt

使用Mosquitto遗嘱机制实现感知客户端上下线功能的方法

面向对象之------多态与多态性

开发Teams Tabs应用程序

C# 希尔排序

第2章 Jupyter Notebooks

每日归档

更多

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)