学习hadoop——第1篇

正式从数据库往大数据,冲冲冲!!!

先把整体框架以及整体思路建立,好理解

Hadoop的思想之源:Google 

Google搜索引擎,Gmail,安卓,AppspotGoogle Maps,Google earth,Google 学术,Google翻译,Google+,

下一步Google what??

 不使用超级计算机,不使用存储(淘宝的去i,去e,去o之路) 

    大量使用普通的pc服务器(去掉机箱,外设,硬盘),提供有冗余的集群服务 

    全世界多个数据中心,有些附带发电厂 

    运营商向Google倒付费 


Google面对的数据和计算难题

      大量的网页怎么存储?

      搜索算法 

      Page-Rank计算问题


倒排索引  

 Page Rank

这是Google最核心的算法,用于给每个网页价值评分,是Google“在垃圾中找黄金 ”的关键算法,这个算法成就了今天的Google 

Map-reduce思想:计算PR

Google带给我们的关键技术和思想

 GFS 

 Map-Reduce

 Bigtable 


Hadoop的源起——Lucene 

Doug Cutting开创的开源软件,用java书写代码,实现与Google类似的全文搜索功能 ,它提供了全文检索引擎的架构,包括完整的查询引

擎和索引引擎 

早期发布在个人网站和SourceForge,2001年年底成为apache软件基金会jakarta的 一个子项目

Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中 实现全文检索的功能,或者是以此为基础建立起完整

的全文检索引擎 

对于大数量的场景,Lucene面对与Google同样的困难。迫使Doug Cutting学习和模 仿Google解决这些问题的办法 

一个微缩版:Nutch


目前Hadoop达到的高度

          实现云计算的事实标 准开源软件

         包含数十个具有强大 生命力的子项目 

         已经能在数千节点上 运行,处理数据量和 排序时间不断打破世界纪录 

                                  


Hadoop组件


Hadoop的架构

Namenode 名称节点


Secondary Namenode 辅助名称节点


DataNode 数据节点

JobTracker 作业跟踪

程序和数据在同一物理节点上


TaskTracker 任务跟踪



Master与Slave

数据分析者面临的问题

 数据日趋庞大,无论是入库和查询,都出现性能瓶颈

    用户的应用和分析结果呈整合趋势,对实时性和响应时间要求越来越高 

    使用的模型越来越复杂,计算量指数级上升

Hadoop的思想

  用更多的小型组件来代替大型组件,并且开源

Hadoop体系下的分析手段

     主流:Java程序 

     轻量级的脚本语言:Pig 

     SQL技巧平稳过渡:Hive 

     NoSQL:HBase 

猜你喜欢

转载自blog.csdn.net/y805805/article/details/85418359