数据分桶 - 代码天地

数据分桶

其他 2021-03-05 01:53:32 阅读次数: 0

对于一些连续的数字特征，其数值分布较大，可以进行数据的分桶

具体好处：

离散后稀疏向量内积乘法运算速度更快，计算结果也方便存储，容易扩展；
离散后的特征对异常值更具鲁棒性，如 age>30 为 1 否则为 0，对于年龄为 200 的也不会对模型造成很大的干扰；
LR 属于广义线性模型，表达能力有限，经过离散化后，每个变量有单独的权重，这相当于引入了非线性，能够提升模型的表达能力，加大拟合；
离散后特征可以进行特征交叉，提升表达能力，由 M+N 个变量编程 M*N 个变量，进一步引入非线形，提升了表达能力；
特征离散后模型更稳定，如用户年龄区间，不会因为用户年龄长了一岁就变化

bin = [i*10 for i in range(31)]
data['power_bin'] = pd.cut(data['power'], bin, labels=False)

参考：https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.12586969.1002.6.1cd8593adJtg6P&postId=95501

猜你喜欢

转载自blog.csdn.net/qq_40860934/article/details/114286260

【数据结构】分桶法和平方分割

大数据Doris（十六）：分桶Bucket和分区、分桶数量和数据量的建议

大数据技术之数据仓库工具Hive分区表和分桶表

Hive 表操作（HIVE的数据存储、数据库、表、分区、分桶）

Doris--数据表建表语法&数据划分（分区&分桶）

数据仓库和hive语句中的分区表和分桶表

【数据结构与算法】二分查找全家桶 C++

hive创建表、数据库、分区和分桶及其他语句

【数据结构】哈希桶

数据分桶

大数据：数据表操作，分区表，分桶表，修改表，array，map， struct

分区表和分桶表以及各种复杂数据类型自我总结

数据结构-排序-桶排序

数据结构-排序算法-桶排序

海量数据处理--桶排序

数据结构(十一)桶排序

hive：数据模型—桶表

大数据处理——双层桶

Go数据结构与算法-桶排序

java - 数据结构 - 桶排序

数据结构算法--7 桶排序

HIVE數據仓库操作（数据库操作，表操作，开窗函数，炸裂函数，外部表，内部表，分区表，分桶表）

海量数据处理专题5——双层桶划分

【数据结构】哈希表及哈希桶的基本操作

20180904期 Hive数据模型-桶表

常用数据结构之桶式排序

计算与数据结构篇 - 排序(桶排序)

【Java数据结构与算法】基数排序（桶排序）

数据结构与算法：桶排序的C++实现

聊聊Python数据处理全家桶，最全总结！

今日推荐

周排行

阿里云服务器ECS开放8080端口

求正弦和余弦

链表倒数第n个节点

vue.js入门（13）实战demo

Java学习——day 15

My First Day in CSDN

Oracle11g 密码延迟认证导致library cache lock的情况分析

SAP ALV输出字段内容前增加空格

CloudFlare 推出免费 VPN 服务「Warp」，你懂的！

BUG(跑SLAM14-ch10)

每日归档

更多

2025-03-16(0)

2025-03-15(0)

2025-03-14(0)

2025-03-13(0)

2025-03-12(0)

2025-03-11(0)

2025-03-10(0)

2025-03-09(0)

2025-03-08(0)

2025-03-07(0)