hadoop生态圈

分布式文件系统:
HDFS(可计算资源仓库)、mooseFS、fastDFS+nginx(115网盘)、riak、GlusterFS(intel hbase发行版)

分布式爬虫:
Nutch、httpclient

计算框架:
MapReduce:
hadoop的mapreduce(依托于hadoop、适合于100T以上计算)
mongodb

DAG:
hadoop2的Tez框架(hive on hadoop2支持tez框架,TB以上)
spark:(依托于rdd,GB以上,窄依赖最佳)

Graph图计算:
Giraph、graphX(spark)
neo4j(不支持分布式)

MPI:
HAMA
openmpi

流计算:
storm、spark streaming(小批量流)

日志收集:
chukwa
flume
Scribe

数据导入:
Hiho, sqoop

newsql:
Pig, Hive、Phoenix
spark on sql-->前身是shark(处理java程序统计数据困难)
impala、drill

数据处理流:
oozie, Cascading

监控工具:
ganglia,nagos,zabbix,ambari

高一致性:
zookeeper、bookeeper

大表(大磁盘缓存、避免sql等运算出结果)(nosql):
hbase、Cassandra

k,v库(nosql):
redis、memcached、leveldb(SSD磁盘)

文档库(nosql):
couchdb、mongodb

简单的web框架:h5+node.js+mongodb

机器学习:
mahout、mlib(spark)、R(Rhadoop,Rspark)、weka


消息队列:
activemq、rabbitmq、qpid、kafka、hedwig,redis,memcacheq

ETL:
kettle

分布式搜索:
solr(web)、elasticsearch







猜你喜欢

转载自andilyliao.iteye.com/blog/2205145