pandas使用汇总

1. 取label和API序列

  如何取出该数据集中每个file_id对应的label的api_sequence,其中每个fild_id包括多个api:
在这里插入图片描述

df = pd.read_csv('data.csv')

  由于label后续要进行fancy indexing操作,所以我们要把label转换成np.array,而API序列后续会经过特征提取,所以表示成list of list即可。

1.1 取label

方法一删除冗余:

label = df.drop_duplicates(subset=['file_id', 'label'])['label'].values

方法二取第一个,注意pd.Series取第一个元素是用iloc方法:

label = df.groupby(['file_id'])['api'].apply(lambda x: x.iloc[0]).values

方法三去重,注意unique返回的是np.array类型:

label = df.groupby(['file_id'])['api'].apply(lambda x: x.unique()[0]).values

方法四

label = df.groupby(['file_id'])['api'].first().values

四种方法乱斗评测:
在这里插入图片描述

1.2 取API序列

api_seq = df.groupby(['file_id'])['api'].apply(','.join).tolist()

2. 对DataFrame整行/列进行操作

  假设我们做的是八分类任务,提交结果为每一类的概率,想通过代码对预测的概率进行定量修改。如有一类概率大于等于0.995,则将该类概率修改为1.0,其余类别概率修改为0。

  首先我们要理解axis=0和axis=1,的区别,axis=0是在行的方向上进行伸缩,而axis=1是在列的方向上进行伸缩。由于此时我们是对每一行进行操作,在每一行的作用域内,本质是是对不同即列方向上的伸缩运算,所以此时axis=1。

def process_row(row):
    if row.max() >= 0.995:
        row[row.argmax()] = 1
        row[row.argsort().iloc[:-1]] = 0

    return row

df = df.apply(process_row, axis=1)

3. 显示完整信息

import pandas as pd

# 显示所有列
pd.set_option('display.max_columns', None)
# 显示所有行
pd.set_option('display.max_rows', None)
# 设置value的显示长度为100,默认为50
pd.set_option('max_colwidth',100)

猜你喜欢

转载自blog.csdn.net/herosunly/article/details/105771901
今日推荐