1. 取label和API序列

如何取出该数据集中每个file_id对应的label的api_sequence，其中每个fild_id包括多个api：
在这里插入图片描述

df = pd.read_csv('data.csv')

由于label后续要进行fancy indexing操作，所以我们要把label转换成np.array，而API序列后续会经过特征提取，所以表示成list of list即可。

1.1 取label

方法一删除冗余：

label = df.drop_duplicates(subset=['file_id', 'label'])['label'].values

方法二取第一个，注意pd.Series取第一个元素是用iloc方法：

label = df.groupby(['file_id'])['api'].apply(lambda x: x.iloc[0]).values

方法三去重，注意unique返回的是np.array类型：

label = df.groupby(['file_id'])['api'].apply(lambda x: x.unique()[0]).values

方法四

label = df.groupby(['file_id'])['api'].first().values

四种方法乱斗评测：
在这里插入图片描述

1.2 取API序列

api_seq = df.groupby(['file_id'])['api'].apply(','.join).tolist()

2. 对DataFrame整行/列进行操作

假设我们做的是八分类任务，提交结果为每一类的概率，想通过代码对预测的概率进行定量修改。如有一类概率大于等于0.995，则将该类概率修改为1.0，其余类别概率修改为0。

首先我们要理解axis=0和axis=1,的区别，axis=0是在行的方向上进行伸缩，而axis=1是在列的方向上进行伸缩。由于此时我们是对每一行进行操作，在每一行的作用域内，本质是是对不同即列方向上的伸缩运算，所以此时axis=1。

def process_row(row):
    if row.max() >= 0.995:
        row[row.argmax()] = 1
        row[row.argsort().iloc[:-1]] = 0

    return row

df = df.apply(process_row, axis=1)

3. 显示完整信息

import pandas as pd

# 显示所有列
pd.set_option('display.max_columns', None)
# 显示所有行
pd.set_option('display.max_rows', None)
# 设置value的显示长度为100，默认为50
pd.set_option('max_colwidth',100)

pandas使用汇总

1. 取label和API序列

1.1 取label

1.2 取API序列

2. 对DataFrame整行/列进行操作

3. 显示完整信息

猜你喜欢