Hadoop简介:
大数据4V特征:
- Volume: 90%的数据是过去两年产生----大数据量
- Velocity: 数据增长速度快,时效性高----速度快
- Variety: 数据种类和来源多样化:结构化数据,半结构化数据,非结构化数据----多样化
- Value: 需挖掘获取数据价值----价值密度低
Hadoop三大核心:
-
HDFS: Hadoop Distributed File System 分布式存储系统
- 提供高可靠性,高扩展性和高吞吐率的数据存储服务
-
YARN: Yet Another Resource Negotiator资源管理调度系统,负责集群资源的管理和调度
-
MapReduce: 分布式运算框架
Hadoop4大特征:
- 扩容能力:可靠存储和处理千兆字节(PB)数据
- 成本低:用普通机器组成得服务器群来分发以处理数据,可达数千节点。
- 高效率:通过分发数据,Hadoop可以并行处理
- 可靠性:Hadoop自动维护数据多份副本,失败任务自动重新部署计算任务。
Hadoop与普通数据库差别:
RDBMS | Hadoop | |
---|---|---|
格式 | 写数据时要求 | 读数据时要求 |
速度 | 读数据速度快 | 写数据速度快 |
数据监管 | 标准结构化 | 任意结构数据 |
数据处理 | 有限的处理能力 | 强大处理能力 |
数据类型 | 结构化数据 | 结构化,半结构化,非结构化 |
应用场景 | 交互式OLAP分析ACID事务处理企业业务系统 | 处理非结构化数据,海量数据存储计算 |
HDFS环境搭建:
第一步: 下载选择cdh版本hadoop2.6.0的tar包放在linux的opt文件夹下:
tar -zxvf hadoop-2.6.0-cdh5.14.2tar.gz
第二步: 将文件移动到soft/hadoop260文件夹下
mv hadoop-2.6.0-cdh5.14.2 /opt/soft/hadoop260
第三步: 来到/opt/soft/hadoop2
60/etc/hadoop文件夹处,一共需要修改5个配置文件
先修改第一个配置文件hadoop-env.sh
vi hadoop-env.sh
将虚拟机的JAVA_HOME环境变量修改为自己的文件夹下,保存退出
export JAVA_HOME=/opt/soft2/jdk180/jdk1.8.0_111
第四步: 修改第二个配置文件core-site.xml
在configuration之间加入4个property标签
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://192.168.56.101:9000</value>
</property>
<!-- 临时文件配置-->
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/soft/hadoop260/tmp</value>
</property>
<!-- 代理用户权限-->
<property>
<name>hadoop.proxyuser.root.hosts</name>
<value>*</value>
</property>
<property>
<name>hadoop.proxyuser.root.groups</name>
<value>*</value>
</property>
</configuration>
第五步: 修改hdfs-site.xml配置文件,
<!-- 设置副本数 -->
<configuration>
<property>dfs.replication</property>
<value>1</value>
</configuration>
第六步: 修改yarn-site.xml配置文件
<configuration>
<!-- Site specific YARN configuration properties -->
<property>
<name>yarn.resourcemanager.localhost</name>
<value>localhost</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
第七步: 修改mapred-site.xml配置文件
ps:如果没有marped-site.xml文件,将mapred-site.xml.template复制一份起名为mapred-site.xml
<!-- 配置让yarn调度资源 -->
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
第八步:
添加配置文件
vi /etc/profile
在文件末尾添加内容
export HADOOP_HOME=/opt/soft/hadoop260/ //修改这里地址
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
export HADOOP_INSTALL=$HADOOP_HOME
配置成功后,我们更新一下系统配置文件信息
source /etc/profile
之后我们将节点信息格式化硬盘,建立标准索引
# 对目录格式化
hadoop namenode -format
然后输入命令启动hadoop
start-all.sh
并用jps检查进程
查看到5个节点进程已启动之后,访问虚拟机ip+50070端口查看
启动成功