继Linux 基础篇之后:
关系型数据库无法处理海量级别(TB等)的数据 引出 大数据
大数据是什么:海量数据量
(特点:(4v)
大量(存储单元Tb)
多样(大数据的数据:人脸识别 指纹识别图片视频等)
高速(实时分析)
价值(价值密度低,
))
Hadoop:分布式计算:
一台机器就是一个服务器 磁盘有限所以存储有限====》改变为数据存储到不同的服务节点上 每个节点计算一部分数据然后再汇总
Hadoop发行版本: Apache 、Cludera、Hortonworks
Hadoop特点:
高可靠:出现故障的节点重新分布处理 (有副本 一般存有三分)
高扩展:多个节点处一起来工作 那么多个节点就是集群
高效性:并行工作
高容错:存有副本 (冗余存储)
Hadoop组成:
Hadoop三种安装方式:
本地模式:开发和测试的,安装就是tar命令 不对配置文件修改 这只是本地文件系统 不是分布式文件系统
可以在window系统上测试开发好的 然后打成包 然后发布到linux系统上
集群模式:生长环境 所以主机上安装jdk Hadoop 组成互通网络 然后ssh免密登录
伪分布式模式:只有一个节点 需要搭建一个伪分布式 一台主机模拟多态主机
首先在Hadoop之前必须确保安装了 jdk:
1.查询是否已经安装jdk : 命令行 rpm -qa|grep java
jdk需要高于1.7
1.第一种模式(本地模式也就是独立模式)的安装教程:
可以在opt目录下 或者安装在 用户目录下 以下演示 安装到用户目录下
要是目录不对 会报错 确保 在执行命令前的目录下是正确的寻找路径:
解压之后 就要进行环境变量的配置:
1.进入到 ~/.ssh 文件夹下
2.利用vi 编辑器 修改 ~/.bash_profile
lib包可以存放其他额外的包 但hadoop相关的包的东西存放在share 中
hadoop的独立模式不需要单独在hadoop的etc包下进行配置变量
source 命令是 bash shell 的内置命令
3. 查看是否配置的hadoop环境变量成功