hadoop学习3---hadoop集群

1、hadoop简介
    Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop
分布式文件系统(HDFS,Hadoop Distributed Filesystem)和MapReduce(Google
MapReduce的开源实现)为核心的Hadoop为用户提供了系统底层细节透明的
分布式基础架构。
    对于Hadoop的集群来讲,可以分成两大类角色:Master和Salve。一个HDFS集群是
由一个NameNode和若干个DataNode组成的。其中NameNode作为主服务器,管理文件系
统的命名空间和客户端对文件系统的访问操作;集群中的DataNode管理存储的数据。
MapReduce框架是由一个单独运行在主节点上的JobTracker 和运行在每个集群从节点的
TaskTracker共同组成的。主节点负责调度构成一个作业的所有任务,这些任务分布在不同
的从节点上。主节点监控它们的执行情况,并且重新执行之前的失败任务;从节点仅负责由
主节点指派的任务。当一个Job被提交时,JobTracker接收到提交作业和配置信息之后,就
会将配置信息等分发给从节点,同时调度任务并监控TaskTracker的执行。
     从上面的介绍可以看出,HDFS和MapReduce共同组成了Hadoop分布式系统体系结构
的核心。HDFS在集群上实现分布式文件系统,MapReduce在集群上实现了分布式计算和
任务处理。HDFS在MapReduce任务处理过程中提供了文件操作和存储等支持,MapReduce
在HDFS的基础上实现了任务的分发、跟踪、执行等工作,并收集结果,二者相互作用,
完成了Hadoop分布式集群的主要任务。
 
2、hadoop测试环境安装情况
四台虚拟机,1个Master,3个Salve,节点之间可以互相ping通。
master 192.168.1.2
salve1 192.168.1.3
salve2 192.168.1.4
salve3 192.168.1.5
操作系统使用centos6.0
 
3、网络配置
查看当前机器的名称
hostmane
 
发现机器名称不对,修改配置文件“/etc/sysconfig/network”,
修改其中的"HOSTNAME",设定形式:设定值=值
修改方式如下:
 
vi /etc/sysconfig/network
 
将HOSTNAME修改为
HOSTNAME=Master.Hadoop
 
备注:
NETWORKING 是否利用网络
GATEWAY 默认网关
IPGTEWAYDEV 默认网关的网卡名
HOSTNAME 主机名
DOMAIN 域名
 
 
 
修改当前机器IP
假定我们的机器连IP
文件进行配置,该文件位于“/etc/sysconfig/network-scripts”文件夹下。
 
  在这个目录下面,存放的是网络接口(网卡)的制御脚本文件(控制文件),
ifcfg-eth0默认的第一个网络接口,如果机器中有多个网络接口,那么名字就将依此类推ifcfg-eth1,
ifcfg-eth2,ifcfg- eth3,……。
 
备注:
EVICE 接口名(设备,网卡)
假定我们的机器连IP
文件进行配置,该文件位于“/etc/sysconfig/network-scripts”文件夹下。
在这个目录下面,存放的是网络接口(网卡)的制御脚本文件(控制文
认的第一个网络接口,如果机器中有多个网络接口,那么名字就将依此类推ifcfg-eth1,
ifcfg-eth2,ifcfg- eth3,……。
这里面的文件是相当重要的
设定形式:设定值=值
设定项目项目如下:
D
BOOTPROTO IP的配置方法(static:固定IP,dhcpHCP,none:手动)
HWADDR MAC地址
ONBOOT 系统启动的时候网络接口是否有效(yes/no)
TYPE 网络类型(通常是Ethemet)
NETMASK 网络掩码
IPADDRIP地址
IPV6INIT IPV6是否有效(yes/no)
GATEWAY 默认网关IP地址
 
vi /etc/sysconfig/network-scripts/ifcfg-eth0
修改
IPADDR=192.168.1.2
GATEWAY=192.168.1.1
DNS1=202.113.222.123
 
ifconfig查看修改后结果
 
 
配置Hosts文件
我们要测试俩台机器之间是否联通,一般是ping机器的IP,如果想ping机器的名字
而不是机器的IP,就需要修改Hosts文件。
 
vi /etc/hosts
增加 Master.Hadoop
 
ping Master.Hadoop
 
 
二、Hadoop安装
1、下载jdk.tar和hadoop1.0.tar
将这俩个文件通过FTP上传到linux
 
2、SSH无密码验证配置
   Hadoop运行过程中需要管理远端Hadoop守护进程,在Hadoop启动以后,NameNode
是通过SSH(Secure Shell)来启动和停止各个DataNode上的各种守护进程的。这就必须在
节点之间执行指令的时候是不需要输入密码的形式,故我们需要配置SSH运用无密码公钥
认证的形式,这样NameNode使用SSH无密码登陆并启动DataName进程,
同样原理,DataNode上也能使用SSH无密码登录到NameNode。

猜你喜欢

转载自501565246-qq-com.iteye.com/blog/2041089