Hadoop基础篇（理论指导）

Hadoop基础篇（理论指导）草稿。。。。。

Hadoop基础之入门简介（1）

大数据的概念

1.多机并发进行处理数据
2.大数据的核心是样本=总体

为什么需要大数据？

答：样本抽查分析出来的结果不够可靠，我们希望可以从业务的海量数据中要提取出样本数据。

大数据几个特性：

大量性：数据G级别
快速性：数据变化快
多样性：结构多样
易变性：数据流波动
准确性：数据分析的结果可靠
复杂性：数据的各种抽取操作复杂

大数据的关键技术

   1.分布式
        分布式保证了2点，可靠和高性能。
    2.计算随数据走
        数据在最近的机器上运算，避免频繁网络迁移数据，
        将代码程序迁移到数据所在机器上。
    3.串行IO取代随机IO
        传输时间<<寻道时间，一般将数据写入后不再修改。

Hadoop诞生背景

2003年第一轮互联网泡沫破灭，Hadoop之父Cutting怀着梦想开发出了Nutch搜索引擎，
受谷歌的三篇论文启发，在2006年诞生了Hadoop项目，Hadoop在雅虎公司不断成长成熟，
2011年脱离雅虎成立子公司Hortonworks。

为什么学大数据要学Hadoop？

  IBM,微软等大公司都接纳了Hadoop，并在Hadoop基础上改进实现自己的大数据平台。
	Hadoop的优点主要有高可靠（按位顺序存储）、高扩展（允许新节点加入）、
	高效（动态移动数据）、高容错（有备份）、低成本（廉价的pc机即可部署）。

Hadoop是一个大家族，都有那些成员?

1、HDFS
	我们首先应该考虑的是海量数据怎么保存，怎么管理。
	这就有了分布式文件系统，HDFS。

2、Map-Reduce
	数据保存后，我们怎样处理这些数据呢，如果我处理的方法复杂，
	而不仅仅是排序，查找这样的操作怎么办？
	需要有一个能够提供编写代码的地方，让我们自己写出操作，
	它内部再进行分解，分配，回收数据等等。

3、Hive
	能编代码是好的，但编代码太麻烦，而且数据库人员是熟悉SQL语句的，
	能用SQL语句处理，就不用Map-Reduce了吧，所以出现了Hive。
	而且大数据无论如何是离不开数据库，离不开表，
	Hive就能讲数据映射成数据表，然后再操作就方便了，
	它的缺点是速度较慢。

4、HBase
	既然Hive的速度较慢，那么有没有较快的数据库呢？
	HBase就是，他为查询而生的，查询的速度很快。

5、Sqoop
	以前不是有很多有名的数据库像MySQL，Oracle，
	我数据都是存在这里面的，	
	怎么导入到HDFS中呢？Sqoop提供了关系型数据库和HDFS之间的相互转换。

6、Flume
	在这么多电脑上工作，如果其中一台有点问题，
	或者上面哪个服务有点问题，怎样知道哪坏了呢？
	Flume提供了一个高可靠的日志采集系统。

7、Mahout
	处理大数据很多是用来进行数据挖掘，有那几种常见的机器学习算法，
	既然算法都固定了而且就那几种，那就开发个叫Mahout的东西
	实现各种算法，开发人员就能更快捷的使用。

8、Zookeeper
	ZooKeeper的目标是封装好复杂易出错的关键服务，
	将简单易用的接口和性能高效、功能稳定的系统提供给用户。
	他就是动物园管理员，他是用来来管大象(Hadoop) 、 蜜蜂(Hive)的。
  
家族成员总结：
	HBase(Hadoop Database)[分布式存储系统]
	Hive[数据仓库基础框架]
	Sqoop[转换工具，将Hive与关系型数据库互转]
	Pig[大规模的数据分析平台,转换SQL以适配MapReduce运算]。
	Flume[日志收集传递系统]
    Chukwa[监控分布式系统的运行]
  	Zookeeper[分布式应用的协调者]

Hadoop的两个重点（划重点）

 分布式文件存储系统HDFS
        分布式文件系统，围绕着可扩展，高效，高容量展开。
    分布式计算框架MapReduce
        分布式运算，围绕着map(映射)，reduce(归纳总结)

Hadoop的卖点有那些？

答：高容错、高可靠、高扩展。
    特别适合写一次，读多次的场景。Hadoop解决了数据存储和利用的问题，
    现在的业务产生的数据多，传统的单机存储不能满足数据存储的需要，
    Hadoop通过分布式存储实现了可靠的共享存储。不仅如此Hadoop还实现了抽象的分析接口（分布式分析）

Hadoop不适合那些业务场景？

答：低延时的数据访问难以保证，大量的小文件管理起来开销大，频繁修改文件。

相比于 Hadoop 1.0，Hadoop 2.0 框架优点？

答：加入了资源管理框架 YARN，
	带来更好的扩展性、可用性、可靠性、向后兼容性和更高的资源利用率。
	可靠性举例：解决了NameNode HA 不支持自动切换且切换时间过长的风险。

Hadoop的体系层次怎么分布？

答：简单分3层，底层-中间层-运算层 
    底层是HDFS: 分布式文件存储;
    中间层是YARN: 分布式资源管理;
    运算层：
        MapReduce: 分布式计算
        Others: 利用YARN的资源管理功能实现其他的数据处理方式
    其中内部各节点基本都是采用Master-Woker架构

Hadoop的商业产品有那些？

答：除了社区的 Apache Hadoop 外，
	Cloudera、
	Hortonworks、
	MapR、EMC、IBM、INTEL、华为等都提供了自己的商业版本。

ai_64

发布了96 篇原创文章 · 获赞 172 · 访问量 25万+

私信关注

Hadoop基础篇（理论指导）

猜你喜欢