【备忘】关于大数据计算平台的一些思考

一个完整的大数据平台应该提供离线计算、即时查询、实时计算、实时查询这几个方面的功能.hadoop、spark、storm 无论哪一个,单独不可能完成上面的所有功能。

hadoop+spark+hive是一个很不错的选择.hadoop的HDFS毋庸置疑是分布式文件系统的解决方案,解决存储问题;hadoop mapreduce、hive、spark application、sparkSQL解决的是离线计算和即席查询的问题;spark streaming解决的是实时计算问题;另外,还需要HBase或者Redis等NOSQL技术来解决实时查询的问题

猜你喜欢

转载自blog.csdn.net/chenbinkria/article/details/80445607