22.机器学习 - 代码天地

22.机器学习

其他 2018-10-19 07:22:24 阅读次数: 0

22.机器学习

day01（特征：抽取<值化>，预处理，降维）

主成分分析pca的原理没有学习看这个连接【需要了解】

交叉表【需要了解】

概念

监督学习：有特征值和目标值
- 聚类
无监督学习：有特征值无目标值
- 离散【区间内不可分】：分类
- 连续【区间内可分】：回归

day02

数据集划分

训练数据：用于训练，构建模型
测试数据：在模型检验时使用，用于评估模型是否有效

在sklearn中，估计器(estimator)是一个重要的角色，分类器和回归器都属于estimator，是一类实现了算法的API

1、用于分类的估计器：
- sklearn.neighbors k-近邻算法
- sklearn.naive_bayes 贝叶斯
- sklearn.linear_model.LogisticRegression 逻辑回归
2、用于回归的估计器：
- sklearn.linear_model.LinearRegression 线性回归
- sklearn.linear_model.Ridge 岭回归

sklearn.neighbors k-近邻算法

需要标准化，要调参数k
k值取很小：容易受异常点影响
k值取很大：容易受最近数据太多导致比例变化
优点：
简单，易于理解，易于实现，无需估计参数，无需训练
缺点：
懒惰算法，对测试样本分类时的计算量大，内存开销大
必须指定K值，K值选择不当则分类精度不能保证

朴素贝叶斯

优点：不用调参数，
缺点：特征独立，依赖训练集的精度和数量
【遗留问题】：不知道小数在贝叶斯公式里怎么计算

评价标准

准确率（有没有错）
召回率（有没有查全，务必不可放过）
精确率（查出来的有几个是真的）
交叉验证和网格搜索GridSearchCV
- 传入估计器，超参数，几折交叉数

决策树和随机森林

信息论
- 熵：用来描述属性的不纯度（不确定性）
- 熵的理解
- 熵就是信息量的数学期望；条件熵就是在新条件下熵（本质也是信息量的）的数学期望；两熵之差就是信息增益（决策树的分类依据之一）；
决策树就是按照特征信息增益的大小顺序进行决策；
- 决策树在训练集表现的非常好，在测试集不行称为过拟合
随机森林参数（集成学习方法，选择多个模型一起评估）
- 决策树数量，树的深度，特征选择
- 不需要降维
- 决策树解决过拟合（区别离散和连续数据的过拟合解决方法）：随机森林、删叶子节点

开始迭代算法：回归，神经网络

回归：采用最小二乘法的测量（损失函数的建立，评估预测和真实的偏差）
- 使用函数推导or梯度下降对损失函数的参数求解
- 需要标准化<特征值和目标值要分别标准化，因为大家的方差不一样>（k-近邻也需要）
- 性能评估（metric模块）：均方误差
回归选择方式的区别
- 函数推导：样本大了消耗性能，适用性小（无法解决过拟合问题）
- 梯度下降：需要选择学习率，适用性大；迭代收敛
了解欠拟合（underfitting）与过拟合（overfitting）
- 过拟合：学习了训练集里的局部特征，而不是一般特征，学的特征太多了；
  - 识别方式：通过交叉验证，结果是训练集表现好，测试集表现差
  - 解决方法：去噪
- 欠拟合：学的特征太少了；
  - 识别方式：通过交叉验证，结果是训练集和测试集表现都不好
  - 解决方法：增加特征

正则化

特征选择：过滤式（低方差特征），包裹式，嵌入式
嵌入式包含正则化、神经网络和决策树（选择重要的特征）
正则化（解决过拟合）：普通的线性回归容易出现过拟合，是因为先把所有的数据都拟合进去。正则化就是减少复杂关系的特征的权重
可以采用Ridge回归（正则化的方式）：尝试让某些特征的权重变小，适用病态数据较多的情况
- 超参数：正则化力度（越大权重就越小，模型越简单）、回归系数

###day03 逻辑回归、

逻辑回归（解决二分类问题）

可以得到概率值
输入和线性回归一样，也会有过拟合问题
采用罗杰斯特（sigmoid）函数把值转化到0-1之间{可以映射概率}；分类的时候可以把＜0.5的视为0，反之为1
在线性回归模块下的逻辑回归模块
逻辑回归处理二分类问题，一般定概率小得来计算
需要标准化（已经sigmode了），目标值不用标准化（是分类问题）
正则化 L2，正则化力度C
迭代收敛

生成模型（需要先验概率比如朴素贝叶斯）和判别模型

聚类

聚类做在分类前，方便分类
聚类评估标准：外部距离大，内部距离小；
轮廓系数：（外部距离-内部距离）/max（外部距离，内部距离）[-1,1]
迭代收敛；
针对局部最优，可以多次的方式处理

猜你喜欢

转载自blog.csdn.net/hukou6335490/article/details/82955447

22.机器学习

22. 概率与统计 - 贝叶斯统计&机器学习分类指标

ElasticSearch 6.x 学习笔记：22.桶聚合

树莓派学习 22. USB摄像头使用

JAVA学习22.文件的操作（代码示例）

22.熔断器学习,控制最大并发数目

NOIP学习之循环控制:22.与7无关的数

java学习之路：22.数字格式化

【youcans 的 OpenCV 学习课】22. Haar 级联分类器

22. Generate Parentheses

22. 轻松打车

22.平面列表

22.变基

22.网络编程

22.储存过程

22. 括号生成

22. Generate Parenthese

22. 打包礼物

22.生成括号

22.括号生成

22. 接口文档

22. loacte命令

22.内置函数

22.字符？正则？

22. Generate Parentheses**

22.创建对象

22.【动态代理】

22.用户分组

22. Generate Parentheses(回溯)

leetcode 22. 括号生成

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)