山东大学Python(13)——机器学习介绍

#%%
# 使用 jupyter notebook 编写
"""
本章知识目录:
    1.什么是机器学习
    2.机器学习的应用
    3.机器学习的任务
    4.机器学习的通用步骤
    5.为什么数据处理是重要的
    6.数据预处理的主要任务
    7.数据清理(Data Cleaning)
    8.数据集成
"""

#%%

"""
什么是机器学习:
    1.是寻找一种对自然/人工主题、现象或活动可预测且/或可执行的机器理解方法
    2.什么是机器学习
      机器通过分析大量数据来进行学习,不需要编程而从而归纳和识别特定的目标。
      重在发现数据之间内在的模式(相关性),并做出预测。
    3.机器学习与人工智能的关系
      机器学习是人工智能领域的一部分,并且和知识发现与数据挖掘有所交集。
      深度学习是机器学习的一个子集,现在兴起的人工智能主要是大规模的深度学习。
    4.机器学习最基本的做法,是使用算法来解析数据、从中学习,
        然后对真实世界中的事件做出决策和预测。
        与传统的为解决特定任务、硬编码的软件程序不同,
        机器学习是用大量的数据来“训练”,通过各种算法从数据中学习如何完成任务。
    5.机器学习直接来源于早期的人工智能领域,
        传统的算法包括决策树、聚类、贝叶斯分类、支持向量机、EM、Adaboost等等。
        从学习方法上来分,机器学习算法可以分为监督学习(如分类问题)、
        无监督学习(如聚类问题)、半监督学习、集成学习、深度学习和强化学习。
    6.传统的机器学习算法在指纹识别、人脸检测、物体检测等领域的应用
        基本达到了商业化的要求或者特定场景的商业化水平,但每前进一步都异常艰难,
        直到深度学习算法的出现。

机器学习的应用:
    机器学习已经有了十分广泛的应用,
    例如:数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、
    医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、
    战略游戏和机器人运用。
    
机器学习的任务:
    1。令W是这个给定世界的有限或无限所有对象的集合,由于观察能力的限制,
        我们只能获得这个世界的一个有限的子集Q⊂W,称为样本集。
    2.机器学习就是根据这个有限样本集Q ,推算这个世界的模型,
        使得其对这个世界为真。

机器学习的通用步骤:
    1.数据采集及预处理:对获取的数据进行清洗,集成,规约等操作
    2.选择数据:将数据分成三组:训练数据、验证数据和测试数据
        (训练效果,验证效果,泛化效果)
    3.数据建模:使用训练数据来构建使用相关特征的模型  
        (特征:对分类或者回归结果有影响的数据属性,例如,表的字段)  
    4.训练模型:使用你的特征数据接入你的算法模型,来确定算法模型的类型,参数等。
    5.测试模型:使用你的测试数据检查被训练并验证的模型的表现
        (模型的评价标准 准确率,精确率,召回率等)
    6.使用模型:使用完全训练好的模型在新数据上做预测
    7.调优模型:使用更多数据、不同的特征或调整过的参数来提升算法的性能表现

为什么数据处理是重要的:
    没有高质量的数据,就没有高质量的数据分析和挖掘结果!
        高质量的决策必然依赖高质量的数据
            例如, 重复或遗漏的数据可能导致不正确或误导的统计.
        数据仓库需要高质量数据的一致集成

数据预处理的主要任务:
    1.数据清理:填充缺失值, 识别/去除离群点, 光滑噪音, 并纠正数据中的不一致
    2.数据集成:多个数据库, 数据立方体, 或文件的集成
    3.数据变换:规范化和聚集
    4.数据归约:得到数据的归约表示, 它小得多, 
        但产生相同或类似的分析结果:维度规约、数值规约、数据压缩
    5.数据离散化和概念分层

数据清理(Data Cleaning):
    1.现实世界de数据是脏:很多潜在的不正确的数据,比如,
        仪器故障,人为或计算机错误,许多传输错误
        incomplete:缺少属性值, 缺少某些有趣的属性, 或仅包含聚集数据
            e.g., 职业=“ ” (missing data)
        noisy:包含错误或孤立点
            e.g., Salary=“−10” (an error)
        inconsistent:编码或名字存在差异, 
            e.g., Age=“42”, Birthday=“03/07/2010”
            以前的等级 “1, 2, 3”, 现在等级 “A, B, C”
            重复记录间的差异
        有意的(e.g.,变相丢失的数据)
            Jan. 1 as everyone’s birthday?

数据集成:
    1.数据集成 Data integration: 
        合并多个数据源中的数据,存入一个一致的数据存储中
        涉及3个主要问题:模式集成、冗余数据、冲突数据值
    2.模式集成 Schema integration 
    3.冗余:某个属性可以由别的属性推出。

"""

发布了36 篇原创文章 · 获赞 20 · 访问量 2839

猜你喜欢

转载自blog.csdn.net/weixin_43360801/article/details/103318216