Hadoop学习第一集,初始大数据与环境搭建

大数据:指无法在一定范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力,洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
主要解决:海量数据的存储和海量数据的分析计算的问题。
大数据的特点:Volume(大量)、Velocity(高速)、Variety(多样)让数据被分为结构化和非结构化数据(音频图片)、Value低价值密度价值密度的高低和数据总量的大小成反比。
大数据应用场景:物流仓储、零售、旅游、商品广告推荐、保险、金融、房地产、人工智能。

Hadoop是分布式系统的基础架构
Hadoop通常是一个更广泛的概念,Hadoop生态圈
Google是Hadoop的思想之源:
三篇论文:GFS–》HDFS
Map-Reduce—>MR
BigTable----》HBase
分布式系统:
Hadoop三大发行版本:Apache、Cloudera(CDH版)、Hortonworks
Hadoop的优势:1、高可靠性底层有3个以上的数据副本,即使某个计算元素出现故障也不会导致数据的丢失,
2、高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点
3、高效性:在MapReduce的思想下。Hadoop是并行工作的,以加快任务处理速度
4、高容错性:能够自动将失败的任务重新分配。
Hadoop1.x:common(辅助工具),HDFS(数据存储),MapReduce(计算和资源调度)
Hadoop2.x:common(辅助工具),HDFS(数据存储),Yarn(资源调度),MapReduce(计算)
在Hadoop1.x时代Hadoop中的MapReduce同时处理业务逻辑运算和资源调度,耦合性较大。
在Hadoop2.x时代,增加了Yarn,Yarn只负责资源的调度,MapReduce只负责计算。
HDFS由NameNode(nn)、DataNode(dn)、SecondaryNameNode(2nn)
NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性,以及每个文件块列表和块所在的DataNode等
DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验和.
Secondary NameNode(2nn):用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照
节点等于服务器等于电脑
YARN:ResourceManager(RM),NodeManager(NM), ApplicationMaster(AM),Container
ResourceManager(RM):管理所有节点1、处理客户端请求,2、监控NodeManager3、启动或监控ApplicationMaster4、资源的分配与调度
NodeManager(NM):单个节点的老大1、管理单个节点的资源2、处理来自ResourceManager的命令3、处理来自ApplicationManager的命令
ApplicationMaster(AM):1、负责数据的切分2、为应用程序申请资源并分配给内部的任务3、任务的监控与容错
Container:是YARN中资源的抽象,它封装了某个节点上的多维度资源,如内存、CPU、磁盘、网络等
MapReduce分为两个节点:Map阶段(并行处理输入数据),Reduce阶段对Map结果进行汇总。

业务模型层:业务模型,数据可视化,业务应用
任务调度层:Oozle任务调度(重量级),Azkaban任务调度
数据计算层:MapReduce(Hive数据查询,Mahout数据挖掘),Spark Core内存计算(Mahout数据挖掘,SparkMlib数据挖掘,SparkR数据分析,SparkSql数据查询,SparkStreaming实时计算),Storm实时计算
资源管理层:YARN资源管理
数据存储层:HDFS文件存储,HBase文件存储,Kafka消息队列
数据传输层:Sqoop数据传递,Flume日志手机,Kafka消息队列
数据来源层:数据库(结构化数据),文件日志(半结构化数据),视频等(非结构化数据)
ZooKeeper数据平台配置和调度。

推荐系统框架图:从TomCat日志中获得信息。

Hadoop运行环境搭建
0.VMWare安装&安装CentOS7
安装远程控制软件
为在CentOS7上安装Hadoop进行系统配置
单机模式配置和部署
伪分布式模式配置和部署
集群模式配置和部署
虚拟机名称HadoopMaster
位置D:\VM\master
15G单个文件(所在硬盘的文件系统不能是Fat32,最好是NTFS||exFat)
选择桥接方式
GNOME桌面,GNOME应用程序,互联网应用程序
网络和主机名
主机名:master.Hadoop
root密码:root
创建用户和密码:icss

启动Hadoop集群&验证&基本操作
克隆虚拟机
修改克隆虚拟机的静态IP
修改主机名
关闭防火墙
创建atguigu用户
配置atguigu用户具有root权限

发布了48 篇原创文章 · 获赞 9 · 访问量 2404

猜你喜欢

转载自blog.csdn.net/jjy19971023/article/details/104765932