Python数据分析工具，主要有哪些？

python数据分析工具一：IPython

IPython是一个在多种编程语言之间进行交互计算的命令行shell，最开始是用python开发的，提供增强的内省，富媒体，扩展的shell语法，tab补全，丰富的历史等功能。IPython提供了如下特性：

更强的交互shell(基于Qt的终端)

一个基于浏览器的记事本，支持代码，纯文本，数学公式，内置图表和其他富媒体

支持交互数据可视化和图形界面工具

灵活，可嵌入解释器加载到任意一个自有工程里

简单易用，用于并行计算的高性能工具

python数据分析工具二：GraphLabGreate

GraphLabGreate是一个Python库，由C++引擎支持，可以快速构建大型高性能数据产品。

这有一些关于GraphLabGreate的特点：

可以在您的计算机上以交互的速度分析以T为计量单位的数据量。

在单一平台上可以分析表格数据、曲线、文字、图像。

最新的机器学习算法包括深度学习，进化树和factorizationmachines理论。

可以用HadoopYarn或者EC2聚类在你的笔记本或者分布系统上运行同样的代码。

借助于灵活的API函数专注于任务或者机器学习。

在云上用预测服务便捷地配置数据产品。

为探索和产品监测创建可视化的数据。

python数据分析工具三：Pandas

pandas是一个开源的软件，它具有BSD的开源许可，为Python编程语言提供高性能，易用数据结构和数据分析工具。在数据改动和数据预处理方面，Python早已名声显赫，但是在数据分析与建模方面，Python是个短板。Pands软件就填补了这个空白，能让你用Python方便地进行你所有数据的处理，而不用转而选择更主流的专业语言，例如R语言。

整合了劲爆的IPyton工具包和其他的库，它在Python中进行数据分析的开发环境在处理性能，速度，和兼容方面都性能卓越。Pands不会执行重要的建模函数超出线性回归和面板回归;对于这些，参考statsmodel统计建模工具和scikit-learn库。为了把Python打造成顶级的统计建模分析环境，我们需要进一步努力，但是我们已经奋斗在这条路上了。

python数据分析工具四：PuLP

线性编程是一种优化，其中一个对象函数被最大程度地限制了。PuLP是一个用Python编写的线性编程模型。它能产生线性文件，能调用高度优化的求解器，GLPK，COINCLP/CBC，CPLEX，和GUROBI，来求解这些线性问题。

python数据分析工具五：Matplotlib

matplotlib是基于Python的2D(数据)绘图库，它产生(输出)出版级质量的图表，用于各种打印纸质的原件格式和跨平台的交互式环境。matplotlib既可以用在python脚本，python和ipython的shell界面(alaMATLAB?或Mathematica?)，web应用服务器，和6类GUI工具箱。

matplotlib尝试使容易事情变得更容易，使困难事情变为可能。你只需要少量几行代码，就可以生成图表，直方图，能量光谱(powerspectra)，柱状图，errorcharts，散点图(scatterplots)等。

为简化数据绘图，pyplot提供一个类MATLAB的接口界面，尤其是它与IPython共同使用时。对于高级用户，你可以完全定制包括线型，字体属性，坐标属性等，借助面向对象接口界面，或项MATLAB用户提供类似(MATLAB)的界面。

python数据分析工具六：Scikit-Learn

Scikit-Learn是一个简单有效地数据挖掘和数据分析工具(库)。关于最值得一提的是，它人人可用，重复用于多种语境。它基于NumPy，SciPy和mathplotlib等构建。Scikit采用开源的BSD授权协议，同时也可用于商业。Scikit-Learn具备如下特性：

分类(Classification)–识别鉴定一个对象属于哪一类别回归(Regression)–预测对象关联的连续值属性聚类(Clustering)–类似对象自动分组集合降维(DimensionalityReduction)–减少需要考虑的随机变量数量模型选择(ModelSelection)–比较、验证和选择参数和模型预处理(Preprocessing)–特征提取和规范化。

python数据分析工具七：Spark

Spark由一个驱动程序构成，它运行用户的main函数并在聚类上执行多个并行操作。Spark最吸引人的地方在于它提供的弹性分布数据集(RDD)，那是一个按照聚类的节点进行分区的元素的集合，它可以在并行计算中使用。RDDs可以从一个Hadoop文件系统中的文件(或者其他的Hadoop支持的文件系统的文件)来创建，或者是驱动程序中其他的已经存在的标量数据集合，把它进行变换。用户也许想要Spark在内存中永久保存RDD，来通过并行操作有效地对RDD进行复用。最终，RDDs无法从节点中自动复原。

Spark中第二个吸引人的地方在并行操作中变量的共享。默认情况下，当Spark在并行情况下运行一个函数作为一组不同节点上的任务时，它把每一个函数中用到的变量拷贝一份送到每一任务。有时，一个变量需要被许多任务和驱动程序共享。Spark支持两种方式的共享变量：广播变量，它可以用来在所有的节点上缓存数据。另一种方式是累加器，这是一种只能用作执行加法的变量，例如在计数器中和加法运算中。
人工智能、大数据、云计算和物联网的未来发展值得重视，均为前沿产业，多智时代专注于人工智能和大数据的入门和科谱，在此为你推荐几篇优质好文：
Python和R语言对比，数据分析与挖掘该选哪一个?
http://www.duozhishidai.com/article-21757-1.html
Python工程师与人工智能工程师之间，最根本的区别是什么?
http://www.duozhishidai.com/article-14635-1.html
java大数据与python大数据如何选择？
http://www.duozhishidai.com/article-12540-1.html

多智时代-人工智能和大数据学习入门网站|人工智能、大数据、物联网、云计算的学习交流网站

Python数据分析工具，主要有哪些？

猜你喜欢