山东大学Python（13）——机器学习介绍

#%%
# 使用 jupyter notebook 编写
"""
本章知识目录：
    1.什么是机器学习
    2.机器学习的应用
    3.机器学习的任务
    4.机器学习的通用步骤
    5.为什么数据处理是重要的
    6.数据预处理的主要任务
    7.数据清理（Data Cleaning）
    8.数据集成
"""

#%%

"""
什么是机器学习：
    1.是寻找一种对自然/人工主题、现象或活动可预测且/或可执行的机器理解方法
    2.什么是机器学习
      机器通过分析大量数据来进行学习，不需要编程而从而归纳和识别特定的目标。
      重在发现数据之间内在的模式(相关性)，并做出预测。
    3.机器学习与人工智能的关系
      机器学习是人工智能领域的一部分，并且和知识发现与数据挖掘有所交集。
      深度学习是机器学习的一个子集，现在兴起的人工智能主要是大规模的深度学习。
    4.机器学习最基本的做法，是使用算法来解析数据、从中学习，
        然后对真实世界中的事件做出决策和预测。
        与传统的为解决特定任务、硬编码的软件程序不同，
        机器学习是用大量的数据来“训练”，通过各种算法从数据中学习如何完成任务。
    5.机器学习直接来源于早期的人工智能领域，
        传统的算法包括决策树、聚类、贝叶斯分类、支持向量机、EM、Adaboost等等。
        从学习方法上来分，机器学习算法可以分为监督学习（如分类问题）、
        无监督学习（如聚类问题）、半监督学习、集成学习、深度学习和强化学习。
    6.传统的机器学习算法在指纹识别、人脸检测、物体检测等领域的应用
        基本达到了商业化的要求或者特定场景的商业化水平，但每前进一步都异常艰难，
        直到深度学习算法的出现。

机器学习的应用：
    机器学习已经有了十分广泛的应用，
    例如：数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、
    医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、
    战略游戏和机器人运用。
    
机器学习的任务：
    1。令W是这个给定世界的有限或无限所有对象的集合，由于观察能力的限制，
        我们只能获得这个世界的一个有限的子集Q⊂W，称为样本集。
    2.机器学习就是根据这个有限样本集Q ，推算这个世界的模型，
        使得其对这个世界为真。

机器学习的通用步骤：
    1.数据采集及预处理：对获取的数据进行清洗，集成，规约等操作
    2.选择数据：将数据分成三组：训练数据、验证数据和测试数据
        (训练效果，验证效果，泛化效果)
    3.数据建模：使用训练数据来构建使用相关特征的模型  
        (特征：对分类或者回归结果有影响的数据属性，例如，表的字段)  
    4.训练模型：使用你的特征数据接入你的算法模型，来确定算法模型的类型，参数等。
    5.测试模型：使用你的测试数据检查被训练并验证的模型的表现
        (模型的评价标准 准确率，精确率，召回率等)
    6.使用模型：使用完全训练好的模型在新数据上做预测
    7.调优模型：使用更多数据、不同的特征或调整过的参数来提升算法的性能表现

为什么数据处理是重要的：
    没有高质量的数据，就没有高质量的数据分析和挖掘结果！
        高质量的决策必然依赖高质量的数据
            例如, 重复或遗漏的数据可能导致不正确或误导的统计.
        数据仓库需要高质量数据的一致集成

数据预处理的主要任务：
    1.数据清理：填充缺失值, 识别/去除离群点, 光滑噪音, 并纠正数据中的不一致
    2.数据集成：多个数据库, 数据立方体, 或文件的集成
    3.数据变换：规范化和聚集
    4.数据归约：得到数据的归约表示, 它小得多, 
        但产生相同或类似的分析结果：维度规约、数值规约、数据压缩
    5.数据离散化和概念分层

数据清理（Data Cleaning）：
    1.现实世界de数据是脏：很多潜在的不正确的数据，比如，
        仪器故障，人为或计算机错误，许多传输错误
        incomplete:缺少属性值, 缺少某些有趣的属性, 或仅包含聚集数据
            e.g., 职业=“ ” (missing data)
        noisy:包含错误或孤立点
            e.g., Salary=“−10” (an error)
        inconsistent:编码或名字存在差异, 
            e.g., Age=“42”, Birthday=“03/07/2010”
            以前的等级 “1, 2, 3”, 现在等级 “A, B, C”
            重复记录间的差异
        有意的(e.g.,变相丢失的数据)
            Jan. 1 as everyone’s birthday?

数据集成：
    1.数据集成 Data integration: 
        合并多个数据源中的数据，存入一个一致的数据存储中
        涉及3个主要问题：模式集成、冗余数据、冲突数据值
    2.模式集成 Schema integration 
    3.冗余：某个属性可以由别的属性推出。

"""
ALTLI
发布了36 篇原创文章 · 获赞 20 · 访问量 2839
私信关注
山东大学Python（13）——机器学习介绍

猜你喜欢