【数据预处理】如何将某一类别特征的极少数类别归为一类 - 代码天地

【数据预处理】如何将某一类别特征的极少数类别归为一类

其他 2019-06-28 02:58:17 阅读次数: 0

比如：有个10000样本的数据集，其中某个特征是包含有很多地名的类别特征，有的地名出现了很多次，但也有很多地名只出现了一次，现在想把这些只出现了一次的地名归为一类，然后这个类别特征经过one_hot编码之后维度会大大减少，后续处理也相对容易！

废话不多说，直接上代码。。。

import pandas as pd
import numpy as np          
df = pd.DataFrame(np.array(list('abcdcbaceebcabcdacbeaabcbfnaeb')).reshape(5,6),index=range(5),columns=['a','b','c','d','地名','f'])         


def handle(data):
    
    # 将该特征的类别进行归类统计，返回数据类型为series,index为所有的类别，value为每个类别对应的个数
    feature_count = data['地名'].value_counts()  
    l = len(feature_count.values)
    small_list=[]  # 将样本个数只有1的类别放进列表
    for i in range(l):
        if feature_count.values[i]==1:
            small_list.append(feature_count.index[i])   # 

    
    m = len(data)
    feature_values=data['地名'].values
    for j in range(m):
        for i in small_list:
            if i==feature_values[j]:
                feature_values[j]='少数'
    data['地名']=feature_values
    return data
    
handle(df)

猜你喜欢

转载自www.cnblogs.com/lmcltj/p/11100482.html

【数据预处理】如何将某一类别特征的极少数类别归为一类

yolov5检测单一类别

对一组list或set集合按照某一类别进行分类，按照键值对存入map集合中

【python3】批量删除voc数据集xml文件里的某些节点，得到单独某一类别的数据集（代码清晰，易操作！）

将文件下的某一类型的文件批量设置为隐藏文件

批量删除某一类进程

react将多个公共组件归成一类，方便调用

ubuntu 下dns一类的处理

matlab数据图像化处理的另一类

isinstance——python判断变量是否为某一类型

linux批量kill 某一类型进程

按某一列里面同一类横向显示数据总数

一类分治问题

一类枚举算法

极少数据就能微调大模型，一文详解LoRA等方法的运作原理

针对训练数据xml中获取需要的某一类或几类

循环更改某一类目下所有数据的状态

一文速学-特征数据类别分析与预处理方法详解+Python代码

浅谈一类转移带有数据结构操作特征的DP的优化

ios开发--应用中为某一类型对象设置统一的值(ios5.0以上)

三道习题（1、将单词表中由相同字母组成的单词归成一类，每类单词按照单词的首字母排序，并按 #每类中第一个单词字典序由大到小排列输出各个类别。 #输入格式：按字典序由小到大输入若干个单词，每个单词占一行，以end结束输入。）

postman如何生成rap一类的接口文档？

预处理时如何处理类别型特征

谈一类神奇的数据结构——猫树

nan （数值数据类型的一类值）

Linux下如何指定某一类型程序用特定程序打开（通过binfmt_misc）

浅谈分块思想在一类数据处理问题中的应用

一、 tensorflow中有一类在tensor的某一维度上求值的函数。如：

一类锁表问题的分析

对工具一类网站的看法

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)