pyTorch框架:模型的子类写法--改进版二分类问题

编程语言 2025-04-09 18:13:08 阅读次数: 0

1.导包

import torch
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

2.加载数据

data = pd.read_csv('./dataset/HR.csv')


data.head()  #查看数据的前5条

data.shape  #共计14999个数据，10个特征

(14999, 10)

data.info()  #查看数据信息
#data原数据没有缺失数据，    若有缺失数据，可以使用机器学习中的特征工程进行缺失值的处理

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14999 entries, 0 to 14998
Data columns (total 10 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   satisfaction_level     14999 non-null  float64
 1   last_evaluation        14999 non-null  float64
 2   number_project         14999 non-null  int64  
 3   average_montly_hours   14999 non-null  int64  
 4   time_spend_company     14999 non-null  int64  
 5   Work_accident          14999 non-null  int64  
 6   left                   14999 non-null  int64  
 7   promotion_last_5years  14999 non-null  int64  
 8   part                   14999 non-null  object 
 9   salary                 14999 non-null  object 
dtypes: float64(2), int64(6), object(2)
memory usage: 1.1+ MB

data.part.unique()  #查看数据part列数据中的去重之后的数据

array(['sales', 'accounting', 'hr', 'technical', 'support', 'management',
       'IT', 'product_mng', 'marketing', 'RandD'], dtype=object)

3.数据的特征工程

#深度学习是机器学习的一部分，一个分支，不分家
#分类数据：即离散数据， 取值很有限
# 对于离散的字符串, 有两种处理方式, 1. 字典映射：转化成数字. 2. 进行one-hot编码.
#这里进行one-hot编码.的链式写法（同时编码多列数据）

#join() 是 在dataframe数据结构中 横向添加数据（即新增列数据）
#两次连续使用join(), 属于链式调用API方法

#不能多次运行
# data = data.join(pd.get_dummies(data.part)).join(pd.get_dummies(data.salary))    #使用pd.get_dummies()时，独热编码默认转化为bool值（True 或 False）
data = data.join(pd.get_dummies(data.part, dtype=int)).join(pd.get_dummies(data.salary, dtype=int))     # dtype=int 规定 转化为 1 或 0


# 把part和salary删掉. 
data.drop(columns=['part', 'salary'], inplace = True)


data.left.value_counts()  #left列数据是分类目标标记

0    11428
1     3571
Name: left, dtype: int64

#深度学习 受 数据分布不均衡的影响 没有机器学习 大
#对于不均衡的数据 ， 在机器学习中需要使用 SMOTE算法 进行平衡性处理

11428 / (11428 + 3571)  #数据标记分布不均衡，还在可接受的范围

0.7619174611640777

Y_data = data.left.values.reshape(-1, 1)


Y_data

array([[1],
       [1],
       [1],
       ...,
       [1],
       [1],
       [1]], dtype=int64)

Y = torch.from_numpy(Y_data).type(torch.FloatTensor)


Y

tensor([[1.],
        [1.],
        [1.],
        ...,
        [1.],
        [1.],
        [1.]])

#条件判断花式索引 获取X数据
data.columns != 'left'

array([ True,  True,  True,  True,  True,  True, False,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True])

#条件判断花式索引 获取X数据
[c for c in data.columns if c != 'left']

猜你喜欢

转载自blog.csdn.net/Hiweir/article/details/147001907

pyTorch框架:模型的子类写法--改进版二分类问题

【DeepLearning】二分类、多分类与PyTorch

0041-pytorch入门-猫狗二分类-pth转onnx模型

Pytorch使用VGG16模型进行预测猫狗二分类

二分类问题

深度学习之PyTorch---- Logistic回归（二分类问题）

CNN+pytorch实现文本二分类

电影评论分类：二分类问题

二分类器解决多分类问题

文本分类——怎么将二分类模型应用到多分类问题？

Pythonic版二分查找

Pytorch之模型微调（Finetune）——用Resnet18进行蚂蚁蜜蜂二分类为例

Pytorch迁移学习使用Resnet50进行模型训练预测猫狗二分类

二分类模型评价指标-Sklearn

二分类模型评价指标-KS值

二分类模型常用评价指标汇总

二分类模型评价指标-AUC

二分类模型AUC评价法

二分类模型评估指标

用 pytorch 进行分类（二分类，多分类）

二分类

机器学习二（二分类问题）

深度学习框架tensorflow二实战（训练一个简单二分类模型）

pytorch十四：pytorch实战（猫和狗二分类）

pytorch --- 二分类与多分类label及损失的使用

神经网络解决二分类问题

二分类问题的评价指标：ROC，AUC

Kaggle实战之二分类问题

基于逻辑回归的二分类问题

二分类问题常用评价指标

今日推荐

Electron中的关于静态资源加载问题解决方案

《Cursor-AI编程》基础篇-界面指南

《Cursor-AI编程》基础篇-Tab代码智能补充

《Cursor-AI编程》基础篇-Composer功能详解

《Cursor-AI编程》基础篇-Chat功能详解

《Cursor-AI编程》进阶篇-自定义模型

《Cursor-AI编程》进阶篇-上下文详解

【大模型系列篇】最强检索增强技术GraphRAG基本原理详解

【大模型系列篇】基于Ollama和GraphRAG v2.0.0快速构建知识图谱

解释什么是迁移学习？在 CNN 中如何应用？（面试题200合集，高频、关键）

解释数据增强（Data Augmentation）的概念和方法（（面试题200合集，高频、关键））

揭秘大模型“魔法”：Function Calling 让 AI 不止会说，更能“做”！

周排行

ConfigurationClassParser类的parse方法源码解析

基础大讲堂-java 位运算符

ConsecutiveInteger判断给定的整数n能否表示成连续的m(m>1)个正整数之和

多项式问题之六——多项式快速幂

Spring Security技术栈开发企业级认证与授权（四）RESTful API服务异常处理

Linux基础命令---apachectl

MATLAB中的线性插值

Unity编辑器拓展之十七：NGUI ComponentSelector增加搜索框

SqlServer 备份还原教程

[Unity动画]01.

每日归档

2025-04-12(10529)

2025-04-11(9561)

2025-04-10(1213)

2025-04-09(10354)

2025-04-08(12998)

2025-04-07(0)

2025-04-06(0)

2025-04-05(0)

2025-04-04(0)

2025-04-03(0)