学习hadoop——第1篇

正式从数据库往大数据，冲冲冲！！！

先把整体框架以及整体思路建立，好理解

Hadoop的思想之源：Google

Google搜索引擎，Gmail，安卓，AppspotGoogle Maps，Google earth，Google 学术，Google翻译，Google+，

下一步Google what？？

 不使用超级计算机，不使用存储（淘宝的去i，去e，去o之路） 

大量使用普通的pc服务器（去掉机箱，外设，硬盘），提供有冗余的集群服务 

全世界多个数据中心，有些附带发电厂 

运营商向Google倒付费

Google面对的数据和计算难题

大量的网页怎么存储？ 

搜索算法 

Page-Rank计算问题

倒排索引

Page Rank ：

这是Google最核心的算法，用于给每个网页价值评分，是Google“在垃圾中找黄金 ”的关键算法，这个算法成就了今天的Google

Map-reduce思想：计算PR

Google带给我们的关键技术和思想

GFS 

Map-Reduce 

Bigtable

Hadoop的源起——Lucene

Doug Cutting开创的开源软件，用java书写代码，实现与Google类似的全文搜索功能，它提供了全文检索引擎的架构，包括完整的查询引

擎和索引引擎

早期发布在个人网站和SourceForge，2001年年底成为apache软件基金会jakarta的一个子项目

Lucene的目的是为软件开发人员提供一个简单易用的工具包，以方便的在目标系统中实现全文检索的功能，或者是以此为基础建立起完整

的全文检索引擎

对于大数量的场景，Lucene面对与Google同样的困难。迫使Doug Cutting学习和模仿Google解决这些问题的办法

一个微缩版：Nutch

目前Hadoop达到的高度

实现云计算的事实标准开源软件

包含数十个具有强大生命力的子项目

已经能在数千节点上运行，处理数据量和排序时间不断打破世界纪录

Hadoop组件

Hadoop的架构

Namenode 名称节点

Secondary Namenode 辅助名称节点

DataNode 数据节点

JobTracker 作业跟踪

程序和数据在同一物理节点上

TaskTracker 任务跟踪

Master与Slave

数据分析者面临的问题

 数据日趋庞大，无论是入库和查询，都出现性能瓶颈

用户的应用和分析结果呈整合趋势，对实时性和响应时间要求越来越高 

使用的模型越来越复杂，计算量指数级上升

Hadoop的思想

用更多的小型组件来代替大型组件，并且开源

Hadoop体系下的分析手段

主流：Java程序 

轻量级的脚本语言：Pig 

SQL技巧平稳过渡：Hive 

NoSQL：HBase