大数据学习1-Apache的hadoop-独立模式搭建

继Linux 基础篇之后:

关系型数据库无法处理海量级别(TB等)的数据 引出 大数据

大数据是什么:海量数据量

(特点:(4v)

大量(存储单元Tb) 

多样(大数据的数据:人脸识别 指纹识别图片视频等)

高速(实时分析) 

价值(价值密度低,

))

Hadoop:分布式计算:

一台机器就是一个服务器  磁盘有限所以存储有限====》改变为数据存储到不同的服务节点上  每个节点计算一部分数据然后再汇总

Hadoop发行版本: Apache 、Cludera、Hortonworks

Hadoop特点:

高可靠:出现故障的节点重新分布处理  (有副本 一般存有三分)

高扩展:多个节点处一起来工作  那么多个节点就是集群

高效性:并行工作

高容错:存有副本 (冗余存储)

Hadoop组成:

Hadoop三种安装方式:

本地模式:开发和测试的,安装就是tar命令 不对配置文件修改 这只是本地文件系统 不是分布式文件系统

              可以在window系统上测试开发好的 然后打成包 然后发布到linux系统上

集群模式:生长环境 所以主机上安装jdk Hadoop 组成互通网络 然后ssh免密登录

伪分布式模式:只有一个节点 需要搭建一个伪分布式 一台主机模拟多态主机

首先在Hadoop之前必须确保安装了 jdk:

1.查询是否已经安装jdk : 命令行  rpm -qa|grep java

jdk需要高于1.7

1.第一种模式(本地模式也就是独立模式)的安装教程:

    可以在opt目录下 或者安装在 用户目录下    以下演示 安装到用户目录下

  

要是目录不对 会报错  确保 在执行命令前的目录下是正确的寻找路径:

解压之后   就要进行环境变量的配置:

1.进入到 ~/.ssh 文件夹下

2.利用vi 编辑器 修改 ~/.bash_profile

lib包可以存放其他额外的包    但hadoop相关的包的东西存放在share 中

hadoop的独立模式不需要单独在hadoop的etc包下进行配置变量


 

source 命令是 bash shell 的内置命令   

3. 查看是否配置的hadoop环境变量成功

发布了68 篇原创文章 · 获赞 21 · 访问量 2万+

猜你喜欢

转载自blog.csdn.net/Taylor_Ocean/article/details/89085829
今日推荐