Hadoop基础篇(理论指导)

Hadoop基础篇(理论指导) 草稿。。。。。

Hadoop基础之入门简介(1)

大数据的概念

1.多机并发进行处理数据
2.大数据的核心是样本=总体

为什么需要大数据?

答:样本抽查分析出来的结果不够可靠,我们希望可以从业务的海量数据中要提取出样本数据。

大数据几个特性:

大量性:数据G级别
快速性:数据变化快
多样性:结构多样
易变性:数据流波动
准确性:数据分析的结果可靠
复杂性:数据的各种抽取操作复杂

大数据的关键技术

   1.分布式
        分布式保证了2点,可靠和高性能。
    2.计算随数据走
        数据在最近的机器上运算,避免频繁网络迁移数据,
        将代码程序迁移到数据所在机器上。
    3.串行IO取代随机IO
        传输时间<<寻道时间,一般将数据写入后不再修改。

Hadoop诞生背景

2003年第一轮互联网泡沫破灭,Hadoop之父Cutting怀着梦想开发出了Nutch搜索引擎,
受谷歌的三篇论文启发,在2006年诞生了Hadoop项目,Hadoop在雅虎公司不断成长成熟,
2011年脱离雅虎成立子公司Hortonworks。

为什么学大数据要学Hadoop?

  IBM,微软等大公司都接纳了Hadoop,并在Hadoop基础上改进实现自己的大数据平台。
	Hadoop的优点主要有高可靠(按位顺序存储)、高扩展(允许新节点加入)、
	高效(动态移动数据)、高容错(有备份)、低成本(廉价的pc机即可部署)。

Hadoop是一个大家族,都有那些成员?

1、HDFS
	我们首先应该考虑的是海量数据怎么保存,怎么管理。
	这就有了分布式文件系统,HDFS。

2、Map-Reduce
	数据保存后,我们怎样处理这些数据呢,如果我处理的方法复杂,
	而不仅仅是排序,查找这样的操作怎么办?
	需要有一个能够提供编写代码的地方,让我们自己写出操作,
	它内部再进行分解,分配,回收数据等等。

3、Hive
	能编代码是好的,但编代码太麻烦,而且数据库人员是熟悉SQL语句的,
	能用SQL语句处理,就不用Map-Reduce了吧,所以出现了Hive。
	而且大数据无论如何是离不开数据库,离不开表,
	Hive就能讲数据映射成数据表,然后再操作就方便了,
	它的缺点是速度较慢。

4、HBase
	既然Hive的速度较慢,那么有没有较快的数据库呢?
	HBase就是,他为查询而生的,查询的速度很快。

5、Sqoop
	以前不是有很多有名的数据库像MySQL,Oracle,
	我数据都是存在这里面的,	
	怎么导入到HDFS中呢?Sqoop提供了关系型数据库和HDFS之间的相互转换。

6、Flume
	在这么多电脑上工作,如果其中一台有点问题,
	或者上面哪个服务有点问题,怎样知道哪坏了呢?
	Flume提供了一个高可靠的日志采集系统。

7、Mahout
	处理大数据很多是用来进行数据挖掘,有那几种常见的机器学习算法,
	既然算法都固定了而且就那几种,那就开发个叫Mahout的东西
	实现各种算法,开发人员就能更快捷的使用。

8、Zookeeper
	ZooKeeper的目标是封装好复杂易出错的关键服务,
	将简单易用的接口和性能高效、功能稳定的系统提供给用户。
	他就是动物园管理员,他是用来来管大象(Hadoop) 、 蜜蜂(Hive)的。
  
家族成员总结:
	HBase(Hadoop Database)[分布式存储系统]
	Hive[数据仓库基础框架]
	Sqoop[转换工具,将Hive与关系型数据库互转]
	Pig[大规模的数据分析平台,转换SQL以适配MapReduce运算]。
	Flume[日志收集传递系统]
    Chukwa[监控分布式系统的运行]
  	Zookeeper[分布式应用的协调者]

Hadoop的两个重点(划重点)

 分布式文件存储系统HDFS
        分布式文件系统,围绕着可扩展,高效,高容量展开。
    分布式计算框架MapReduce
        分布式运算,围绕着map(映射),reduce(归纳总结)

Hadoop的卖点有那些?

答:高容错、高可靠、高扩展。
    特别适合写一次,读多次的场景。Hadoop解决了数据存储和利用的问题,
    现在的业务产生的数据多,传统的单机存储不能满足数据存储的需要,
    Hadoop通过分布式存储实现了可靠的共享存储。不仅如此Hadoop还实现了抽象的分析接口(分布式分析)

Hadoop不适合那些业务场景?

答:低延时的数据访问难以保证,大量的小文件管理起来开销大,频繁修改文件。

相比于 Hadoop 1.0,Hadoop 2.0 框架优点?

答:加入了资源管理框架 YARN,
	带来更好的扩展性、可用性、可靠性、向后兼容性和更高的资源利用率。
	可靠性举例:解决了NameNode HA 不支持自动切换且切换时间过长的风险。

Hadoop的体系层次怎么分布?

答:简单分3层,底层-中间层-运算层 
    底层是HDFS: 分布式文件存储;
    中间层是YARN: 分布式资源管理;
    运算层:
        MapReduce: 分布式计算
        Others: 利用YARN的资源管理功能实现其他的数据处理方式
    其中内部各节点基本都是采用Master-Woker架构

Hadoop的商业产品有那些?

答:除了社区的 Apache Hadoop 外,
	Cloudera、
	Hortonworks、
	MapR、EMC、IBM、INTEL、华为等都提供了自己的商业版本。
发布了96 篇原创文章 · 获赞 172 · 访问量 25万+

猜你喜欢

转载自blog.csdn.net/ai_64/article/details/100640177
今日推荐