要研究大数据，你必须得知道Hadoop - 代码天地

要研究大数据，你必须得知道Hadoop

其他 2019-06-12 03:20:40 阅读次数: 0

工欲善其事,必先利其器。像大数据这种多维度、高复杂度的东西，必须要有良好的平台来支撑。

Hadoop是什么?

Hadoop是一种分析和处理大数据的软件平台，是Appach的一个用Java语言所实现的开源软件的加框，在大量计算机组成的集群当中实现了对于海量的数据进行的分布式计算。

Hadoop的框架最核心的设计就是： HDFS和MapReduce.HDFS为海量的数据提供了存储，则MapReduce为海量的数据提供了计算.

大数据在Hadoop处理的流程可以参照下面简单的图来进行理解：数据是通过了Hadoop的集群处理后得到的结果。

HDFS:Hadoop Distributed File System,Hadoop的分布式文件系统.

大文件被分成默认64M一块的数据块分布存储在集群机器中.如下图中的文件 data1被分成3块,这3块以冗余镜像的方式分布在不同的机器中.

MapReduce:Hadoop为每一个input split创建一个task调用Map计算，在此task中依次处理此split中的一个个记录(record),map会将结果以key–value 的形式输出,hadoop负责按key值将map的输出整理后作为Reduce的输入,Reduce Task的输出为整个job的输出，保存在HDFS上.

扫描二维码关注公众号，回复： 6423596 查看本文章

Hadoop的集群主要由 NameNode,DataNode,Secondary NameNode,JobTracker,TaskTracker组成.如下图所示:

NameNode中记录了文件是如何被拆分成block以及这些block都存储到了那些DateNode节点.NameNode同时保存了文件系统运行的状态信息. DataNode中存储的是被拆分的blocks.Secondary NameNode帮助NameNode收集文件系统运行的状态信息.JobTracker当有任务提交到Hadoop集群的时候负责Job的运行,负责调度多个TaskTracker.TaskTracker负责某一个map或者reduce任务

作者强力推荐阅读文章：

大数据工程师必须掌握开源工具汇总

大数据高级工程师教你如何读懂大数据核心技术

顶级大数据工程师需要掌握的技能

大数据、机器学习和人工智能未来发展的8个因素

猜你喜欢

转载自blog.csdn.net/sdddddddddddg/article/details/91402247

要研究大数据，你必须得知道Hadoop

币圈投资哪些陷阱你必须得知道（附建议）

你必须得知道的人工智能领域的大师与大事

MATLAB小技巧整理-那些你必须得知道的matlab技巧

不常用但必须得知道的CSS选择器

Python这么火，能干什么？这三大主要用途是你必须得知道的！

大数据入门到精通课程学习,大数据学习，你还得知道这些

除了Hadoop，其他6个你必须知道的热门大数据技术

除了Hadoop，还有6个你必须知道的热门大数据技术

你得知道的HTTPS！！！

大数据开发入门你必须知道的事情

学好大数据，你必须知道的知识！

你必须知道的10项大数据思维原理

大数据开发如何入门你必须知道这些

Postman这个操作你得知道(共享数据)

vultr 你得知道这些

你得知道的HTTP协议！！！

大数据零基础学习，从0到1你需要的不仅仅是努力！首先得知道该学啥？

从事大数据征信行业，你必须知道这些

应对程序员面试，你必须知道的八大数据结构

大数据工作中你必须知道的基础命令集锦

你必须知道的8大数据结构，程序员面试

你必须知道的八大数据结构

你得知道的TCP和UDP！！！

编写css你得知道的潜规则

你得知道为什么重要！

大数据，为什么要学习Hadoop

分享要面试的你一套大数据技术Hadoop面试题（附答案）

我必须得告诉你的MySQL优化原理3

Docker火遍全球！dockerfile构建你必须得会

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)