Hadoop系列(一)Hadoop简介--HDFS分布式系统环境搭建

Hadoop简介:

大数据4V特征:

  • Volume: 90%的数据是过去两年产生----大数据量
  • Velocity: 数据增长速度快,时效性高----速度快
  • Variety: 数据种类和来源多样化:结构化数据,半结构化数据,非结构化数据----多样化
  • Value: 需挖掘获取数据价值----价值密度低

Hadoop三大核心:

  • HDFS: Hadoop Distributed File System 分布式存储系统

    • 提供高可靠性,高扩展性和高吞吐率的数据存储服务
  • YARN: Yet Another Resource Negotiator资源管理调度系统,负责集群资源的管理和调度

  • MapReduce: 分布式运算框架

Hadoop4大特征:

  • 扩容能力:可靠存储和处理千兆字节(PB)数据
  • 成本低:用普通机器组成得服务器群来分发以处理数据,可达数千节点。
  • 高效率:通过分发数据,Hadoop可以并行处理
  • 可靠性:Hadoop自动维护数据多份副本,失败任务自动重新部署计算任务。

Hadoop与普通数据库差别:

RDBMS Hadoop
格式 写数据时要求 读数据时要求
速度 读数据速度快 写数据速度快
数据监管 标准结构化 任意结构数据
数据处理 有限的处理能力 强大处理能力
数据类型 结构化数据 结构化,半结构化,非结构化
应用场景 交互式OLAP分析ACID事务处理企业业务系统 处理非结构化数据,海量数据存储计算

HDFS环境搭建:

第一步: 下载选择cdh版本hadoop2.6.0的tar包放在linux的opt文件夹下:

tar -zxvf hadoop-2.6.0-cdh5.14.2tar.gz

第二步: 将文件移动到soft/hadoop260文件夹下

mv hadoop-2.6.0-cdh5.14.2 /opt/soft/hadoop260

第三步: 来到/opt/soft/hadoop2
60/etc/hadoop文件夹处,一共需要修改5个配置文件
先修改第一个配置文件hadoop-env.sh

vi hadoop-env.sh

将虚拟机的JAVA_HOME环境变量修改为自己的文件夹下,保存退出

export JAVA_HOME=/opt/soft2/jdk180/jdk1.8.0_111

第四步: 修改第二个配置文件core-site.xml
在configuration之间加入4个property标签

<configuration>
        <property>
                <name>fs.defaultFS</name>
                <value>hdfs://192.168.56.101:9000</value>
        </property>
        <!-- 临时文件配置-->
        <property>
                <name>hadoop.tmp.dir</name>
                <value>/opt/soft/hadoop260/tmp</value>
        </property>
        <!-- 代理用户权限-->
        <property>
                <name>hadoop.proxyuser.root.hosts</name>
                <value>*</value>
        </property>
        <property>
                <name>hadoop.proxyuser.root.groups</name>
                <value>*</value>
        </property>
</configuration>

第五步: 修改hdfs-site.xml配置文件,

<!-- 设置副本数 -->
<configuration>
        <property>dfs.replication</property>
        <value>1</value>
</configuration>

第六步: 修改yarn-site.xml配置文件

<configuration>

<!-- Site specific YARN configuration properties -->
        <property>
                <name>yarn.resourcemanager.localhost</name>
                <value>localhost</value>
        </property>
        <property>
                <name>yarn.nodemanager.aux-services</name>
                <value>mapreduce_shuffle</value>
        </property>
</configuration>

第七步: 修改mapred-site.xml配置文件
ps:如果没有marped-site.xml文件,将mapred-site.xml.template复制一份起名为mapred-site.xml

<!-- 配置让yarn调度资源 -->
<configuration>
        <property>
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
        </property>
</configuration>

第八步:
添加配置文件

vi /etc/profile

在文件末尾添加内容

export HADOOP_HOME=/opt/soft/hadoop260/         //修改这里地址
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
export HADOOP_INSTALL=$HADOOP_HOME

配置成功后,我们更新一下系统配置文件信息

source /etc/profile

之后我们将节点信息格式化硬盘,建立标准索引

#  对目录格式化
hadoop namenode -format

然后输入命令启动hadoop

start-all.sh

并用jps检查进程
在这里插入图片描述
查看到5个节点进程已启动之后,访问虚拟机ip+50070端口查看
在这里插入图片描述
启动成功

猜你喜欢

转载自blog.csdn.net/qq_35050438/article/details/106471311