给想进入大数据行业的朋友的建议（三）

我们在上一篇文章中给大家介绍了数据的收集需要学到的知识，想进入大数据行业需要学的知识还有很多。今天在这篇文章中我们给大家介绍数据的传输以及数据的储存方面需要学的知识。

在数据的传输方面，我们需要知道数据的传输到底在什么时候开始呢？在上一篇文章中我们给大家介绍了数据上报，在大数据模式下，通常上报过来的数据因为涉及到不同部分其效率不一样，都不会马上执行的，所以，数据的传输在大数据领域中有着不可替代的左右，会出现在各种系统耦合之间，一方面用作数据的传输，另一方面用作数据的缓冲。这句需要我们学习Hadoop的应用了。这是因为在hadoop生态中，kafka与flume的组合搭配是十分适合数据传输的，收集数据，并进行数据传输，此外还有不少类似的消息队列存在，在这里，我们需要理解的就是，为什么要引入这么一层组件，只有知道了这些我们才能够更好的做好数据的传输。

然后我们说收数据的储存，数据的储存在大数据方面是十分重要的，而在Hadoop生态中最核心的存储组件莫过于HDFS了，这是支撑hadoop能够做大批量数据处理的基础支撑，便捷而强悍的横向扩展能力。当然我们不能忽略的传统类型的SQL存储方式。不同的存储方式应对于实际的应用场景是不同的，HDFS是最基础的分布式文件系统，Hive其更作用更多用于类传统式的SQL查询操作，其对于效应效率要求并不高，但对于数据规模的支撑性良好；而HBase则更偏向于即席查询，要求有更高的响应效率，但对于查询的复杂性支持上则相对较弱。而ES、Solr都也勉强算是一种数据存储的组织方式，其实也是有一定道理的，因为他们本身也支持这种分布式的数据存储，只不过他们是为了应对于自己框架的检索需求而设计的数据存储组织。Redis也算是目前大数据生态中不可缺少的数据存储方式之一，基于内容，应对于高效的数据存储与读取，在很多的实际应用场景中都用的到。这就需要我们根据不同的情况选择出不同的方式进行数据的储存。

以上的内容就是我们给大家介绍的有关数据传输方面以及数据的储存方面的相关知识的学习了，希望这篇文章能够给大家带来帮助，我们在下一篇文章中给大家介绍更多的内容。

给想进入大数据行业的朋友的建议（三）

猜你喜欢