大数据到底能做什么?需要学习哪些知识?

相信很多大数据的初学者或者想转行大数据开发的朋友最关注的问题就是大数据开发到底可以做什么。

什么是大数据?

 "大数据"这个词频繁的出现在媒体是2007年之后的事了。尽管已经过去了10多年的时间,但是大家对它的理解并不统一,甚至有时候会对它有误解,比如很多人将”大数据“跟“大规模数据”混为一谈。

要想知道大数据能做什么,我们得首先搞清楚到底什么是大数据,它有哪些特征。

 大数据最明显的特征就是体量大,但是数据仅仅是体量大,并不能算是大数据。比如一个人的基因全图谱的数据是上百GB到1TB之间,从数据量上来说已经够大了。但是它没有太大的统计意义。所以体量大,仅仅是大数据一个特点,并不是数据量大都能称得上大数据。

大数据除了数据量大之外,一些大数据专家将大数据的特征概括成了三个V,即Vast(大数据量)、Variety(多样性)、Velocity(及时性)

仅仅数据量大是没有任何意义的,我们需要对数据进行管理‘分析才能实现较高的商业价值。

大数据究竟可以用在哪些方面呢? 

大数据的应用实在太过广泛,可以说大数据已经对各行各业都有着革命性的改革,物流、×××、营销、客户管理、医疗、零售、环保等等都有其身影。

零售行业,可以根据需求和库存的情况,适时调整价格 。

扫描二维码关注公众号,回复: 6405930 查看本文章

医疗行业,可以根据众多病人的特征,分析原因,量级太小的时候,这些特征根本不明显,不会得到重视,只有在大量数据中,才能发现平时注意不到的现象。

公共安全方面,可以根据以往犯罪数据预测发生犯罪事件的地区与概率。

娱乐方面,比如《纸牌屋》的制作公司根据以往的用户习惯,打造出大受欢迎的电视剧

学习大数据需要掌握哪些知识呢?

  1. Java SE也就是所谓的Java基础、sql(建议从mysql入手)、 Linux

2. 大数据离线分析:如Hadoop Hive HBase、sqoop、flume等

  1. 大数据实时分析:scalc语言、Spark等

  2. 大数据机器学习(扩展) 
    spark MLlib:机器学习库 
    pyspark编程:Python和spark的结合 
    推荐系统 
    python数据分析 
    Python机器学习

大家有什么想了解更多可以加wx:fiercelf


作者:友信科创-名师刘峰
来源:CSDN
原文:https://blog.csdn.net/weixin_36043432/article/details/91367065
版权声明:本文为博主原创文章,转载请附上博文链接!

猜你喜欢

转载自blog.51cto.com/7478974/2407039