Hadoop学习前言1-1

Hadoop前言



Hadoop用来作什么

  1. Hadoop 是一个开源的分布式数据存储和处理框架,主要用于处理大规模数据集。
  2. Hadoop不是指一个具体的软件或者应用,它是一个编程模型(思想)来处理实际的问题.
  3. Hadoop 用于处理大规模的数据集,包括存储、管理和分析。它提供了一些工具和技术,让用户能够更方便地进行数据处理和分析,同时还能够提高数据处理的效率和可靠性。

一、使用Hadoop的例子

一个使用 Hadoop 的例子是大规模的日志分析。例如一个网站可能每天产生大量的日志数据,包括用户行为、访问时间、IP 地址等信息。这些日志数据可以非常大,很难在单个计算机上进行处理。

使用 Hadoop,可以将这些日志数据存储在 HDFS 中,然后使用 MapReduce 进行分析。例如,可以使用 MapReduce 计算每个用户的访问次数,或者计算每个页面的访问量。这些任务可以并行执行,并且可以在多个计算机上分配计算资源,从而提高计算速度和处理能力。

另一个例子是机器学习模型训练。机器学习需要大量的数据来训练模型,因此需要处理大规模的数据集。使用 Hadoop,可以将这些数据集存储在 HDFS 中,并使用 MapReduce 进行并行化处理。同时,还可以使用其他工具和技术,例如 Spark 或 Mahout,来加速模型训练的速度和效率。

总之,Hadoop 可以用于处理各种大规模数据处理任务,包括日志分析、机器学习、数据挖掘等。通过使用 Hadoop,可以提高数据处理的效率和可靠性

二、Hadoop 的核心:HDFS 和 MapReduce 和 YARN

上面的例子中可以看出 HDFS是用于存储,MapReduce是用于并行计算
而YARN就是
Hadoop HDFS:分布式存储系统。
Hadoop MapReduce:一种基于Hadoop YARN的大型数据集并行计算处理系统。
Hadoop YARN: 任务调度和集群资源管理的框架。

YARN还有两个组件下面举个列子说明:

ResourceManager和NodeManager。ResourceManager就像餐厅的管理员,负责管理和分配资源。NodeManager就像餐厅的服务员,负责监控和报告每个餐桌和厨房的状态。通过使用YARN,我们可以像餐厅管理员一样,对资源进行更好的管理和利用,使我们的数据处理应用程序更高效、可靠和可扩展。

三、怎么使用Hadoop?

使用条件:
Hadoop集群的搭建
无论是在windows上装几台虚拟机玩Hadoop,还是真实的服务器来玩,说简单点就是把Hadoop的安装包放在每一台服务器上,改改配置,启动就完成了Hadoop集群的搭建。
上传文件到Hadoop集群
Hadoop集群搭建好以后,可以通过web页面查看集群的情况,还可以通过Hadoop命令来上传文件到hdfs集群,通过Hadoop命令在hdfs集群上建立目录,通过Hadoop命令删除集群上的文件等等。
编写map/reduce程序
通过集成开发工具(例如eclipse)导入Hadoop相关的jar包,编写map/reduce程序,将程序打成jar包扔在集群上执行,运行后出计算结果。

猜你喜欢

转载自blog.csdn.net/L2489754250/article/details/129429360
1-1