Python发展迅速,成为学术界新主流

如果说2018年以前R是数据学术界的主流,但是现在Python正在慢慢取代R在学术界的地位。

Python与R相比速度要快。Python可以直接处理上G的数据;R不行,R分析数据时需要先通过数据库把大数据转化为小数据(通过goupby)才能交给R做分析,因此R不可能直接分析行为详单,只能分析统计结果。所以有人说:Python=R+SQL/Hive,并不是没有道理的。

Python的一个最明显的优势在于其胶水语言的特性,很多书里也都会提到这一点,一些底层用C写的算法封装在Python包里后性能非常高效(Python的数据挖掘包Orange Canvas 中的决策树分析50万用户10秒出结果,用R几个小时也出不来,8G内存全部占满)。

现在Python有了pandas。pandas提供了一组标准的时间序列处理工具和数据算法。因此,你可以高效处理非常大的时间序列,轻松地进行切片/切块、聚合、对定期/不定期的时间序列进行重采样等。可能你已经猜到了,这些工具中大部分都对金融和经济数据尤为有用,但你当然也可以用它们来分析服务器日志数据。于是,近年来,由于Python有不断改良的库(主要是pandas),使其成为数据处理任务的一大替代方案。学习资料也可以加下扣扣裙:四八三五四六四一六大家可以进群下载学习下,有什么问题可以在群里和大家一起讨论分享。

总的来说Python是一套比较平衡的语言,各方面都可以,无论是对其他语言的调用,和数据源的连接、读取,对系统的操作,还是正则表达和文字处理,Python都有着明显优势。结合其在通用编程方面的强大实力,我们完全可以只使用Python这一种语言去构建以数据为中心的应用程序。、

Python已经成为越来越多美国顶级大学的计算机编程入门语言了。美国计算机排名顶尖的麻省理工学院和加州大学伯克利分校已经将他们的计算机编程入门教学语言改为了 Python。

三大MOOC提供商(edX、Cousera、Udacity)都提供使用Python教学的计算机编程入门课程。同时,不同专业领域的教授也都倡导使用 Python 作为入门语言进行教学。

用Python来做整个流程的框架,然后核心的CPU密集操作部分调用C函数,这样开发效率和性能都不错,因此学习Python已经是想从事大数据事业不可或缺的一门技能‘。’

猜你喜欢

转载自my.oschina.net/u/3839556/blog/1808529