数据分析常用工具和库

常用数据分析工具

open source
1 R
2 python
3 apache spark
4 PIG & HIVE
5 apache spark
commercial
1 SAS
2 Tableau
3 Excel
4 QlikView
5 Splunk

数据分析中常用的库

Numpy:用于数值分析的标准python库。 NumPy最强大的功能是n维数组。 该库还包含基本的线性代数函数,傅立叶变换,高级随机数功能以及用于与其他低级语言(如Fortran,C和C ++)集成的工具。
Scipy:用于科学计算的标准python库。SciPy构建于NumPy上。它是离散傅里叶变换,线性代数,优化和稀疏矩阵等各种高级科学和工程模块最有用的库之一。
Matplotlib:绘制各种各样的图,从直方图开始,直线图到热点图。您可以在ipython笔记本中使用Pylab功能(来内嵌使用这些绘图功能。如果忽略内联选项,则pylab会将ipython环境转换为与Matlab非常相似的环境。您还可以使用Latex命令将数学添加到您的绘图。
Pandas:用于结构化数据操作。它广泛用于数据管理和预处理。Pandas是最近被添加到Python中,并且有效提高Python了在数据科学家社区中的使用率。
Scikit-Learn :机器学习库。该库建立在NumPy,SciPy和matplotlib之上,包含许多用于机器学习和统计建模的高效工具,包括分类,回归,聚类和降维。
Statmodels:用于统计模型。 Statsmodels是一个Python模块,允许用户探索数据,估计统计模型并执行统计测试。
Seaborn:统计数据可视化。Seaborn是一个用于制作有吸引力和信息丰富的统计图形的库。它基于matplotlib。 Seaborn旨在将可视化作为探索和理解数据的核心部分。
Bokeh:用于在现代Web浏览器上创建交互式绘图,仪表板和数据应用程序。它使用户能够以D3.js的风格生成优雅和简洁的图形。而且,它具有在非常大型或流式数据集上进行高性能交互的能力。
Blaze:将Numpy和Pandas的能力扩展到分布式和流式数据集。它可用于访问来自多种来源的数据,包括Bcolz,MongoDB,SQLAlchemy,ApacheSpark,PyTables等。与Bokeh一起,Blaze可以充当一个非常强大的工具,用于在大量数据上创建有效的可视化和仪表板。
Scrapy:爬虫,用于网页爬取数据。
SymPy:符号计算。它具有从基本符号算术到微积分,代数,离散数学和量子物理的广泛功能。另一个有用的功能是将计算结果格式化为LaTeX代码的功能。
Requests:访问网络。它的工作方式类似于标准的python库urllib2,但编码起来更容易。你会发现与urllib2的细微差别,但对于初学者来说,Requests可能会更方便。

Python数据可视化库

matplotlib Seaborn ggplot Bokeh pygal ploty geoplotlib Gleam missingno Leather

内容来源

https://blog.modeanalytics.com/python-data-visualization-libraries/
https://analyticstraining.com/2011/10-most-popular-analytic-tools-in-business/
https://www.analyticsvidhya.com/blog/2016/01/complete-tutorial-learn-data-science-python-scratch-2/
https://www.datacamp.com/community/tutorials/r-or-python-for-data-analysis

猜你喜欢

转载自blog.csdn.net/zyy0908/article/details/80342435
今日推荐