Hadoop系列（一）Hadoop简介--HDFS分布式系统环境搭建

文章目录

Hadoop简介:

大数据4V特征：
Hadoop三大核心：
Hadoop4大特征：
Hadoop与普通数据库差别：
HDFS环境搭建：

Hadoop简介:

大数据4V特征：

Volume： 90%的数据是过去两年产生----大数据量
Velocity： 数据增长速度快，时效性高----速度快
Variety： 数据种类和来源多样化：结构化数据，半结构化数据，非结构化数据----多样化
Value： 需挖掘获取数据价值----价值密度低

Hadoop三大核心：

HDFS： Hadoop Distributed File System 分布式存储系统
- 提供高可靠性，高扩展性和高吞吐率的数据存储服务
YARN： Yet Another Resource Negotiator资源管理调度系统，负责集群资源的管理和调度
MapReduce： 分布式运算框架

Hadoop4大特征：

扩容能力：可靠存储和处理千兆字节（PB）数据
成本低：用普通机器组成得服务器群来分发以处理数据，可达数千节点。
高效率：通过分发数据，Hadoop可以并行处理
可靠性：Hadoop自动维护数据多份副本，失败任务自动重新部署计算任务。

Hadoop与普通数据库差别：

	RDBMS	Hadoop
格式	写数据时要求	读数据时要求
速度	读数据速度快	写数据速度快
数据监管	标准结构化	任意结构数据
数据处理	有限的处理能力	强大处理能力
数据类型	结构化数据	结构化，半结构化，非结构化
应用场景	交互式OLAP分析ACID事务处理企业业务系统	处理非结构化数据，海量数据存储计算

HDFS环境搭建：

第一步： 下载选择cdh版本hadoop2.6.0的tar包放在linux的opt文件夹下：

tar -zxvf hadoop-2.6.0-cdh5.14.2tar.gz

第二步： 将文件移动到soft/hadoop260文件夹下

mv hadoop-2.6.0-cdh5.14.2 /opt/soft/hadoop260

第三步： 来到/opt/soft/hadoop2
60/etc/hadoop文件夹处，一共需要修改5个配置文件
先修改第一个配置文件hadoop-env.sh

vi hadoop-env.sh

将虚拟机的JAVA_HOME环境变量修改为自己的文件夹下，保存退出

export JAVA_HOME=/opt/soft2/jdk180/jdk1.8.0_111

第四步： 修改第二个配置文件core-site.xml
在configuration之间加入4个property标签

<configuration>
        <property>
                <name>fs.defaultFS</name>
                <value>hdfs://192.168.56.101:9000</value>
        </property>
        <!-- 临时文件配置-->
        <property>
                <name>hadoop.tmp.dir</name>
                <value>/opt/soft/hadoop260/tmp</value>
        </property>
        <!-- 代理用户权限-->
        <property>
                <name>hadoop.proxyuser.root.hosts</name>
                <value>*</value>
        </property>
        <property>
                <name>hadoop.proxyuser.root.groups</name>
                <value>*</value>
        </property>
</configuration>

第五步： 修改hdfs-site.xml配置文件，

<!-- 设置副本数 -->
<configuration>
        <property>dfs.replication</property>
        <value>1</value>
</configuration>

第六步： 修改yarn-site.xml配置文件

<configuration>

<!-- Site specific YARN configuration properties -->
        <property>
                <name>yarn.resourcemanager.localhost</name>
                <value>localhost</value>
        </property>
        <property>
                <name>yarn.nodemanager.aux-services</name>
                <value>mapreduce_shuffle</value>
        </property>
</configuration>

第七步： 修改mapred-site.xml配置文件
ps:如果没有marped-site.xml文件，将mapred-site.xml.template复制一份起名为mapred-site.xml

<!-- 配置让yarn调度资源 -->
<configuration>
        <property>
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
        </property>
</configuration>

第八步：
添加配置文件

vi /etc/profile

在文件末尾添加内容

export HADOOP_HOME=/opt/soft/hadoop260/         //修改这里地址
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
export HADOOP_INSTALL=$HADOOP_HOME

配置成功后，我们更新一下系统配置文件信息

source /etc/profile

之后我们将节点信息格式化硬盘，建立标准索引

#  对目录格式化
hadoop namenode -format

然后输入命令启动hadoop

start-all.sh

并用jps检查进程
在这里插入图片描述
查看到5个节点进程已启动之后，访问虚拟机ip+50070端口查看

启动成功