浅尝辄止_数学建模(笔记_用SPSS进行逻辑回归和Fisher线性判别分析)

一、二分类问题(方法:逻辑回归)

对于因变量为分类变量的情况,我们可以使用逻辑回归进行处理。把y看成事件发生的概率,y≥0.5表示发生,y<0.5表示不发生。


1.数据预处理:生成虚拟变量

导入数据 — 转换 — 创建虚变量 — 将需要转换的变量移到右侧 — 命名根变量 — 删去意义相同的重复列,删去空白项,留取一列即可


2.求解逻辑回归

分析 — 回归 — 二元 — 转移对应的因变量和自变量 — 勾选保存中的概率和组成员 — 确定


3.判断依据

根据PRE_1(实际上就是y_hat),越接近1,则y事件发生概率越大;越接近0,则y事件不发生概率越大。
根据PGR_1,1表示y事件发生;0表示y事件不发生。


4.逐步回归的设置

2.求解逻辑回归过程中补充:
分析 — 回归 — 二元 — 转移对应的因变量和自变量 — 方法,选择向前逐步回归或者向后逐步回归 — 选项,步进概率,进入或者删除自变量的显著性水平可自行调节 — 勾选保存中的概率和组成员— 确定


5.假如自变量有分类变量怎么办?

两种方法:

  1. 转换 — 创建虚变量(先创建虚变量,然后删除任意一列以排除完全多重共线性的影响)
  2. 2.求解逻辑回归过程中补充:
    分析 — 回归 — 二元 — 转移对应的因变量和自变量 — 分类,右移需要的变量,使其成为分类协变量 — 勾选保存中的概率和组成员— 确定

二、多分类问题

1.方法:逻辑回归

  1. 在运用SPSS中,选择多元,而非二元,即可利用逻辑回归处理多分类问题。
  2. 根据比较EST的值,也就是该变量在各个类别中发生的概率,得到PRE_1,其代表SPSS判断出的类别。

2.方法:Fisher线性判别分析

2.1.简介

LDA(Linear Discriminant Analysis)是一种经典的线性判别方法,又称Fisher判别分析,该方法思想比较简单:给定训练集样例,设法将样例投影到一维的直线上,使得同类样例的投影点尽可能接近和密集,异类投影点尽可能远离。
 
详细证明和求解步骤:机器学习-白板推导系列(四)-线性分类(Linear Classification)

2.2.核心问题:找到线性系数 ω ω

SPSS操作:
分析 — 分类 — 判别式 — 右移自变量和因变量(分组变量)— 定义范围(具体问题具体分析,多分类)— 统计 — 勾选费希尔、非标准化 — 分类 — 勾选摘要表 — 保存 — 勾选预测组成员、组成员概率 — 确定
 
结果分析:
典则判别函数系数对应的是线性系数向量 ω ω ;Dis_1代表的是预测的类别;Dis1_1代表其结果属于0的概率;Dis2_1代表其结果属于1的概率…Disn_1代表其结果属于n-1的概率…


三、逻辑回归预测结果太差怎么办?

可以在logistic回归模型中加入平方项、交互项等:
转换 — 计算变量 — 命名目标变量 — 构建数字表达式
 
这个做法的缺点:过拟合现象
对于样本数据的预测结果非常好,但是对于样本外的数据的预测效果可能会很差。

 
解决方法:确定合适模型
把数据分成训练组和测试组,用训练组的数据估计出模型,再用测试组的数据来进行测试。随机抽取的训练组和测试组的比例一般设置为80%和20%。(为了消除偶然性的影响,可以重复操作此步骤,最终对每个模型求一个平均的准确率,这个步骤称为交叉验证)

猜你喜欢

转载自blog.csdn.net/ICISTRUE/article/details/108300576
今日推荐