数据分析基础

数据分析介绍

1、数据分析是什么?
2、数据分析能干什么?
3、为什么利用Python进行数据分析?
4、数据分析过程概述
5、常用库简介

1、数据分析是什么?

  数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程;

在我们如今这个时代,相信大多数人都能明白数据的重要性,数据就是信息,而数据分析就是可以让我们发挥这些信息功能的重要手段。  

2、数据分析能干什么?

对于数据分析能干什么其实我们可以简单的举几个例子:

1、淘宝可以观察用户的购买记录、搜索记录以及人们在社交媒体上发布的内容选择商品推荐

2、股票可以根据相应的数据选择买进卖出

3、今日头条可以将数据分析应用到新闻推送排行算法当中

4、爱奇艺可以为用户提供个性化电影推荐服务

其实数据分析不仅可以完成像以上这样的推荐系统,在制药行业也可运用数据分析来预测什么样的化合物更有可能制成高效药物等

所以说数据分析绝对是未来所有公司不可或缺的岗位,目前社会上获取数据方式太多了,这么多的数据,只要我们拥有数据分析的技能,绝对可以应付任何岗位上的工作。

3、为什么利用Python进行数据分析

"""
1、Python的代码语法简单易学
2、Python可以很容易的整合C、C++等语言的代码
3、Python有大量用于科学计算的库
4、Python不仅可以用于研究和原型构建,同时也适用于构建生产系统

"""

数据整理

整理数据主要分为三步:

# (1)、收集数据

通过多种途径拿到数据,导入到Jupyter Notebook# (2)、评估数据

这一步主要是需要找出数据是否存在质量或者结构等方面的问题

# (3)、清理数据

通过修改、替换、删除等方式保证数据质量高、结构好

数据分析常用库简介

  Python数据分析需要安装的第三方扩展库有:Numpy、Pandas、SciPy、Matplotlib、Scikit-Learn、Keras、Gensim、Scrapy等

常用库简介

  Numpy

    Numpy是Numerical Python的简写,主要可以用来做Python数值计算。它提供了多种数据结构、算法以及大部分涉及Python数值计算所需的接口。

  • 快速、高效的多维数组对象ndarray
  • 基于元素的数组计算以及直接对数组执行数学运算的函数
  • 用于读写硬盘上基于数组的数据集的工具
  • 线性代数运算、傅里叶变换,以及随机数生成
  • 用于将C、C++、Fortran代码集成到python的工具
  • Pandas

    Pandas使我们进行数据分析的一个主要工具。它所包含的数据结构和数据处理工具的设计使得Python中进行数据清洗和分析非常快捷。pandas一般也是和其他数值计算工具一起使用的,

支持大部分Numpy语言风格的数组计算。pandas和numpy最大的区别就是pandas是用来处理表格型或者异质性数据的,而Numpy则刚好相反,它更适合处理同质型的数值类数组数据

matplotlib

  matplotlib是最流行的用于绘制数据图表的python库。

Scipy

    Scipy是科学计算领域针对不同标准问题域的包集合。提供了强大的科学计算方法(矩阵分析、信号分析、数理分析等)

IPython和Juypyter notebook

    IPython是一个加强版的Python解释器,Jupyter notebook是一种基于Web的代码笔记本,最初也是源于IPython项目。

IPython的使用

安装

 简单的使用:可以临时的书写检验一些代码的功能。

 

 jupyter notebook的使用

两种安装和和启动方式:

# a.  命令行安装:
                pip3 install jupyter
            启动
                C:\Users\oldboy>jupyter notebook
    
            缺点:
                必须手动去安装数据分析包 
        
        # b.  anaconda: 软件
                优点: 包含了数据分析的基础包 大概 200 个左右的科学运算包

命令行安装

 使用:

 enter回车后类似加载server服务端,加载启动该软件

也可以用其他浏览器登录连接启动,但需要输入token或password验证

切换到目录文件夹下启动:jupyter notebook,启动即可获取该文件下的所有内容

 创建python3进入界面

以上的打开以及使用包比较麻烦,建议安装Anaconda使用

 # anaconda: 软件
                优点: 包含了数据分析的基础包 大概 200 个左右的科学运算包

数据分析开发环境部署

Anaconda
下载安装
配置环境变量
管理包
管理环境
运行anaconda
补充

1、Anaconda

  Anaconda是Python的一个开源的发行版本,里面包含了很多科学计算相关的包,它和Python的关系就像linux系统中centos和Ubuntu的关系一样,不冲突,你可以同时在电脑上安装这两个东西。那至于为什么我已经在电脑上安装了pycharm还要安装这个Anaconda呢,主要有以下几点原因:

(1)Anaconda附带了一大批常用数据科学包,它附带了conda、Python和 150 多个科学包及其依赖项。因此你可以用Anaconda立即开始处理数据。

(2)管理包。Anaconda 是在 conda(一个包管理器和环境管理器)上发展出来的。在数据分析中,你会用到很多第三方的包,而conda(包管理器)可以很好的帮助你在计算机上安装和管理这些包,包括安装、卸载和更新包。

(3)管理环境。为什么需要管理环境呢?比如你在A项目中用到了Python2,而新的项目要求使用Python3,而同时安装两个Python版本可能会造成许多混乱和错误。这时候conda就可以帮助你为不同的项目建立不同的运行环境。还有很多项目使用的包版本不同,比如不同的pandas版本,不可能同时安装两个pandas版本。你要做的应该是在项目对应的环境中创建对应的pandas版本。这时候conda就可以帮你做到。

总结:Anaconda解决了官方Python的两大痛点:

(1)提供了包管理功能,Windows平台安装第三方包经常失败的场景得以解决

(2)提供环境管理功能,解决了多版本Python并存、切换的问题。

接下来就需要了解Anaconda如何进行安装

按照上面的路径点击下载,下载完成后就可以一路点击下一步完成安装,如果中间需要修改安装路径可以自己改一下。

安装成功之后我们会发现,多出来几个应用

  • Anaconda Navigtor :用于管理工具包和环境的图形用户界面,后续涉及的众多管理命令也可以在 Navigator 中手工实现。
  • Jupyter notebook :基于web的交互式计算环境,可以编辑易于人们阅读的文档,用于展示数据分析的过程。
  • qtconsole :一个可执行 IPython 的仿终端图形界面程序,相比 Python Shell 界面,qtconsole 可以直接显示代码生成的图形,实现多行代码输入执行,以及内置许多有用的功能和函数。
  • spyder :一个使用Python语言、跨平台的、科学运算集成开发环境。

安装Anaconda自带的应用:

 配置环境变量

  如果是Windows环境的话就需要在控制面板\系统和安全\系统\高级系统设置\环境变量\用户变量\PATH当中添加anaconda的安装目录的Scripts文件夹。

验证:
打开命令行输入conda --version,如果能输出版本号就对了

jupyter notebook的使用

打开并创建一个python3文件

一些常用的快捷键操作

 # jupyter notebook:
        
        """
    快捷键:
        
            1. 运行当前代码并选中下一个单元格  shift+enter
            2. 运行当前的单元格  crtl + enter
              
              绿色: 编辑模式
              蓝色: 命令行模式
              
            3. 在单元格的上方添加一个单元格 , 按esc进入命令行模式,接下来按 a (above) 添加
            4. 在单元格的上方添加一个单元格 , 按esc进入命令行模式,接下来按 b (below) 添加

            5. 删除一个单元格, 按esc进入命令行模式, 接下来,按 dd(delete) 删除

            6. 代码和markdown的切换,  按esc进入命令行模式, 接下来,按 m 切换    
        """

 文件的后缀名默认为

常用快捷键的使用

 

  

猜你喜欢

转载自www.cnblogs.com/Gaimo/p/11970686.html
今日推荐