hadoop单机版和伪分布式搭建

单机版:使用的是linux上的文件系统,用于测试
使用过程: 解压到 /usr/local/ 配置/etc/profile下的环境变量
source /etc/profile ,然后修改 /usr/local/etc/hadoop/hadoop-env.sh 中的JAVA_HOME为jdk的路径
 /usr/local/
hadoop-env.sh 的配置

测试:
查找input目录下查找含有dfs的单词
1)在 /usr/local/ hadoop-2.7.2 路径下
mkdir input
cp /usr/local/ hadoop-2.7.2 /etc/hadoop/*.xml input (把hadoop的etc下的hadoop的xml复制到input下)
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar grep input output ‘dfs[a-z.]+’ (grep 查找 output之前不能存在)
计算文件中含有的单词数
新建一个文件夹wcinput,再问夹中新建有文字的文件wc.txt(也可以直接用文件)

mkdir wcinput
touch wcinput/wc.txt
 bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount  wcinput wcoutput 

伪分布式:在搭建伪分布式后,wordcount 和grep 等 命令所指的文件都是 hdfs 上的 ,而不是linux系统上的文件
http://192.168.136.128:50070
先把数据源放到hdfs(分布式文件系统后,在hdfs上运行)
1)修改xml配置文件
修改安装目录下/usr/local/hadoop/etc/hadoop 下的 core-site.xml

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://hadoop01:9000</value>  nameNode所在的主机
    </property>
</configuration>

修改安装目录下/usr/local/hadoop/etc/hadoop 下的 hdfs-site.xml

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>副本数量 为1
    </property> </configuration>

2)启动集群
a) 格式化namenode(第一次启动时格式化,以后就不要总格式化)
bin/hdfs namenode -format
b) a启动 namenode
sbin/hadoop-daemon.sh start namenode
c)启动datanode
sbin/hadoop-daemon.sh start datanode
注:可以直接用sbin/start-dfs.sh,一块启动namenode 和 datanode
3)查看是否启动成功
jps查看是否启动成功 输入jps 出现NameNode、DataNode

4) web端查看HDFS文件系统:
http://ip地址:50070

猜你喜欢

转载自blog.csdn.net/Lu_Xiao_Yue/article/details/82730317
今日推荐