Pandas数据离散化&one-hot编码 - 代码天地

Pandas数据离散化&one-hot编码

其他 2019-09-09 19:44:56 阅读次数: 0

为什么要离散化

连续属性离散化的目的是为了简化数据结构，数据离散化技术可以用来减少给定连续属性值的个数。离散化方法经常作为数据挖掘的工具
扔掉一些信息,可以让模型更健壮,泛化能力更强

什么是数据的离散化

连续属性的离散化就是在连续属性的值域上，将值域划分为若干个离散的区间，最后用不同的符号或整数值代表落在每个子区间中的属性值

分箱

案例

1.先读取股票的数据，筛选出p_change数据

data = pd.read_csv("./data/stock_day.csv")
p_change= data['p_change']

2.将股票涨跌幅数据进行分组

使用的工具：

pd.qcut(data, bins)——等深分箱：
- 对数据进行分组将数据分组一般会与value_counts搭配使用，统计每组的个数
series.value_counts()：统计分组次数

# 自行分组
qcut = pd.qcut(p_change, 10)
# 计算分到每个组数据个数
qcut.value_counts()

自定义区间分组：

pd.cut(data, bins)——等宽分箱：
- bins是整数—等宽
- bins是列表--自定义分箱

# 自己指定分组区间
bins = [-100, -7, -5, -3, 0, 3, 5, 7, 100]
p_counts = pd.cut(p_change, bins)

one-hot编码/哑编码/热编码

要把类别变成可用于数值计算的值
加入非线性
距离信息得到很好的转换--距离相等
pandas.get_dummies(data, prefix=None)
- data:array-like, Series, or DataFrame
- prefix:分组名字

dummies = pd.get_dummies(p_counts, prefix="rise")

猜你喜欢

转载自www.cnblogs.com/oklizz/p/11493683.html

Pandas数据离散化&one-hot编码

pandas：数据离散化与离散化数据的后期处理(one-hot)

离散数据处理_one-hot编码

pandas实现one-hot编码

pandas进行one-hot编码

one-hot编码

one-hot 编码

Python 对数据one-hot编码

文本离散表示（二）：新闻语料的one-hot编码

python对离散变量的one-hot编码方法

离散型特征编码方式：one-hot与哑变量

【自用】 Pandas 预处理 —— 补全和编码(one-hot)

pandas使用get_dummies进行one-hot编码

pandas的get_dummies进行one-hot编码

sklearn的one-hot编码

keras one-hot编码

详解one-hot编码

[转载]One-hot编码

pytorch one-hot编码

Pandas将数据转化为one-hot形式

数据预处理：独热编码（One-Hot Encoding）

sklearn实现one-hot编码处理符号型数据

one-hot编码（独热编码）

离散型变量的编码方式——one-hot与哑变量(dummy variable)

one-hot 独热编码tf.one_hot()

keras one-hot 编码和解码

【python】实现one-hot编码

Python: 进行one-hot编码

独热编码 one-hot Encoding

One-Hot Encoding独热编码

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)