Hadoop前言

文章目录

Hadoop前言
Hadoop用来作什么
一、使用Hadoop的例子
二、Hadoop 的核心：HDFS 和 MapReduce 和 YARN
三、怎么使用Hadoop?

Hadoop用来作什么

Hadoop 是一个开源的分布式数据存储和处理框架，主要用于处理大规模数据集。
Hadoop不是指一个具体的软件或者应用，它是一个编程模型（思想）来处理实际的问题.
Hadoop 用于处理大规模的数据集，包括存储、管理和分析。它提供了一些工具和技术，让用户能够更方便地进行数据处理和分析，同时还能够提高数据处理的效率和可靠性。

一、使用Hadoop的例子

一个使用 Hadoop 的例子是大规模的日志分析。例如一个网站可能每天产生大量的日志数据，包括用户行为、访问时间、IP 地址等信息。这些日志数据可以非常大，很难在单个计算机上进行处理。

使用 Hadoop，可以将这些日志数据存储在 HDFS 中，然后使用 MapReduce 进行分析。例如，可以使用 MapReduce 计算每个用户的访问次数，或者计算每个页面的访问量。这些任务可以并行执行，并且可以在多个计算机上分配计算资源，从而提高计算速度和处理能力。

另一个例子是机器学习模型训练。机器学习需要大量的数据来训练模型，因此需要处理大规模的数据集。使用 Hadoop，可以将这些数据集存储在 HDFS 中，并使用 MapReduce 进行并行化处理。同时，还可以使用其他工具和技术，例如 Spark 或 Mahout，来加速模型训练的速度和效率。

总之，Hadoop 可以用于处理各种大规模数据处理任务，包括日志分析、机器学习、数据挖掘等。通过使用 Hadoop，可以提高数据处理的效率和可靠性

二、Hadoop 的核心：HDFS 和 MapReduce 和 YARN

上面的例子中可以看出 HDFS是用于存储，MapReduce是用于并行计算
而YARN就是
Hadoop HDFS：分布式存储系统。
Hadoop MapReduce：一种基于Hadoop YARN的大型数据集并行计算处理系统。
Hadoop YARN：任务调度和集群资源管理的框架。

YARN还有两个组件下面举个列子说明：

ResourceManager和NodeManager。ResourceManager就像餐厅的管理员，负责管理和分配资源。NodeManager就像餐厅的服务员，负责监控和报告每个餐桌和厨房的状态。通过使用YARN，我们可以像餐厅管理员一样，对资源进行更好的管理和利用，使我们的数据处理应用程序更高效、可靠和可扩展。

三、怎么使用Hadoop?

使用条件：
Hadoop集群的搭建
无论是在windows上装几台虚拟机玩Hadoop，还是真实的服务器来玩，说简单点就是把Hadoop的安装包放在每一台服务器上，改改配置，启动就完成了Hadoop集群的搭建。
上传文件到Hadoop集群
Hadoop集群搭建好以后，可以通过web页面查看集群的情况，还可以通过Hadoop命令来上传文件到hdfs集群，通过Hadoop命令在hdfs集群上建立目录，通过Hadoop命令删除集群上的文件等等。
编写map/reduce程序
通过集成开发工具（例如eclipse）导入Hadoop相关的jar包，编写map/reduce程序，将程序打成jar包扔在集群上执行，运行后出计算结果。

Hadoop学习前言1-1