01.大数据及Hadoop的安装

大数据技术基本上需要解决两个核心技术：
数据存储：分布式存储
数据运算：分布式运算

Hadoop就是提供分布式存储和运算的框架
1、HDFS：提供分布式存储
2、MapReduce：分布式计算
3、Yarn：为MapReduce提供硬件资源调度
在这之上衍生了一些快捷开发工具：
1、HIVE：用户只需写SQL来表达数据处理逻辑即可；

这里我认为你已经有CentOS7的操作基础了。
前导课程：我文章的Linux分类
http://blog.csdn.net/qq_27607539/article/details/78958192
及之后的文章。

安装：：
1、HDFS集群的安装
两类角色：主节点1台NAME NODE，从节点DATA NODE
（1）准备机器
主机名、网络配置、主机名映射、防火墙、JDK
JDK安装参考http://blog.csdn.net/qq_27607539/article/details/79025845
我装的是8u151：http://download.oracle.com/otn-pub/java/jdk/8u151-b12/e758a0de34e24606bca991d704f6dcbf/jdk-8u151-linux-x64.rpm

查看网络
ss -nltp

centos7中防火墙为firewalld
service firewalld stop
systemctl disable firewalld.service

hadoop下载
http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.6.5/hadoop-2.6.5.tar.gz
上传到namenode中，解压
修改配置文件
1、hadoop-env.sh
修改其中的JAVA_HOME
2、core-site.xml
在中添加,里面FS是大写

fs.defaultFS
hdfs://centos701:9000/

hadoop.tmp.dir
/tmp/hadoop

使所有节点的上述配置一样

3、配置HADOOP_HOME
vi /etc/profile
最末尾加入这两行
export HADOOP_HOME=/usr/hadoop-2.6.5
export PATH= $PATH:$ HADOOP_HOME/bin:$HADOOP_HOME/sbin
source /etc/profile

4、初始化NAMENODE
NAMENODE运行需要一个特定的目录结构，启动之前要构造好
hdfs namenode -format

5、启动集群
启动namenode
hadoop-daemon.sh start namenode
jps ##查看是否启动成功，成功会有namenode一行
第一次启动失败了，提示
starting namenode, logging to /usr/hadoop-2.6.5/logs/hadoop-root-namenode-CentOS701.out
查看日志
less /usr/hadoop-2.6.5/logs/hadoop-root-namenode-CentOS701.log
这时候会启动两个端口，9000和50070
可上http://centos701:50070/查看集群状态
http://centos702:50075/

6、启动datanode
将namenode的/etc/profile拷贝到各datanode中并source /etc/profile

启动之后发现datanode无法连接到namenode，查看了namenode的端口监听之后，9000端口是127.1在监听，修改/etc/hosts上的配置，我之前配置了127.1 centos701

批量自动启动hdfs
修改配置文件
HADOOP_HOME/etc/hadoop/slaves写上主机名即可
记住要配置自己到自己和datanode的SSH免密
启动start-dfs.sh即可

secondarynamenode配置
vi HADOOP_HOME/etc/hadoop/hdfs-site.xml

dfs.namenode.secondary.http-address
centos701:50090

停止集群stop-dfs.sh

hdfs安装包里有客户端
往hdfs存文件
hadoop fs -put 文件目标目录
hadoop fs -copyFromLocal 本地路径 hdfs的路径

从hdfs下载
hadoop fs -get 要下载的文件和目录
hadoop fs -copyToLocal hdfs的路径

查看hdfs的/目录下的文件
hadoop fs -ls /
操作和LINUX类似hadoop fs 要操作的事

HDFS的配置属性
在hdfs.site.xml中添加dfs.replication可以修改副本数量默认3个，这个也由客户端决定
在hdfs.site.xml中添加dfs.blockssize可以修改块大小默认128M，这个参数用于客户端，客户端定义的上传的块大小
在hdfs.site.xml中添加dfs.namenode.name.dir可以修改元数据存储目录namenode的工作目录默认在HADOOP_HOME.tmp.dir/dfs/name下，namenode使用的，用逗号分隔可以配置多目录备份，放在不同的磁盘上。
而在hdfs.site.xml中添加dfs.datenode.data.dir默认HADOOP_HOME.tmp.dir/dfs/data,同namenode可以配置在多个目录下，不过是当成整个磁盘来使用，不是备份

用JAVA编程实现HDFS的操作时，记得在代码中写入不使用本地库来操作，使用JAVA来操作。

如果觉得此文章有用，访问一下
https://www.2345.com/?ksudo234
这里写图片描述

01.大数据及Hadoop的安装

猜你喜欢