Pandas Task4 变形

1. 问题

【问题一】上面提到了许多变形函数，如melt/crosstab/pivot/pivot_table/stack/unstack函数，请总结它们各自的使用特点。

pivot函数是透视表，不过局限性比较大，除了功能上较少之外，还不允许values中出现重复的行列索引对；

pivot_table是pivot函数的引申，允许出现行索引的重复，默认为求均值mean，与pivot相比，运行速度较慢；

melt函数相当于pivot_table的逆操作，将unstacked状态的数据，压缩成stacked，使“宽”的DataFrame变“窄”，即相当于多列数据压缩在一列里面；
crosstab是交叉表，交叉表是一种特殊的透视表，典型的用途如分组统计，若参数不给定默认为统计个数count

stack函数是最基本的变形函数，顾名思义就是压缩，总共只有两个参数：level和dropna，stack函数可以看做将横向的索引放到纵向，因此功能类似与melt，参数level可指定变化的列索引是哪一层（或哪几层，需要列表）¶，比如stack(0)相当于压缩最外层的行，若没给定数值stack()相当于压缩最内层的行

unstack函数是stack函数的逆操作，即解压，性质与stack函数类似

【问题二】变形函数和多级索引是什么关系？哪些变形函数会使得索引维数变化？具体如何变化？

相似的关系，近似对DataFrame分组；melt会使索引维度增加

【问题三】请举出一个除了上文提过的关于哑变量方法的例子。

【问题四】使用完stack后立即使用unstack一定能保证变化结果与原始表完全一致吗？

不一定，经过测试发现结果不一样

【问题五】透视表中涉及了三个函数，请分别使用它们完成相同的目标（任务自定）并比较哪个速度最快。

【问题六】既然melt起到了stack的功能，为什么再设计stack函数？¶

stack是有针对性的处理，比如在pivot_table处理后使用stack，不会破坏DataFrame的结构，而使用melt则会直接破坏pivot_table的结构，详细见练习2

2. 练习
【练习一】继续使用上一章的药物数据集：
(a) 现在请你将数据表转化成如下形态，每行需要显示每种药物在每个地区的10年至17年的变化情况，且前三列需要排序：

df_USA = pd.read_csv('../data/Drugs.csv')
df_pivot = pd.pivot_table(df_USA, index=['State','COUNTY', 'SubstanceName'], columns='YYYY', values='DrugReports').reset_index().rename_axis(columns={
    
    'YYYY':''})
df_pivot = df_pivot.fillna('-')

在这里插入图片描述
(b) 现在请将(a)中的结果恢复到原数据表，并通过equal函数检验初始表与新的结果是否一致（返回True）¶

df_melt = df_pivot.melt(id_vars=['State', 'COUNTY', 'SubstanceName'], value_vars=df_pivot.columns[-8:], var_name='YYYY', value_name='DrugReports')\
            .replace('-', np.nan).dropna()
df_melt = df_melt.sort_values(by=['State','COUNTY','YYYY' ,'SubstanceName']).reset_index().drop(columns='index')

cols = list(df_melt.columns)
cols.remove('YYYY')
cols.insert(0, 'YYYY')
cols

[‘YYYY’, ‘State’, ‘COUNTY’, ‘SubstanceName’, ‘DrugReports’]

df_melt = df_melt[cols].astype({
    
    'DrugReports':'int64'})

df_USA = df_USA.sort_values(by=['State','COUNTY','YYYY' ,'SubstanceName']).reset_index().drop(columns='index')
df_USA.equals(df_melt)

True

【练习二】现有一份关于某地区地震情况的数据集，请解决如下问题：
(a) 现在请你将数据表转化成如下形态，将方向列展开，并将距离、深度和烈度三个属性压缩：

df_eq = pd.read_csv('../data/Earthquake.csv')
df_stack = pd.pivot_table(df_eq, index=['日期', '时间', '维度', '经度'], columns='方向', values=['距离', '深度', '烈度'], fill_value='-').stack(0).rename_axis(index={
    
    None: '地震参数'})
df_stack

在这里插入图片描述

(b) 现在请将(a)中的结果恢复到原数据表，并通过equal函数检验初始表与新的结果是否一致（返回True）¶

# 切记这里unstack()不可以写成unstack(0)，因为最外层的列unique太多了，会导致维度爆炸，使计算机死机
df_unstack = df_stack.unstack().stack(0).reset_index().replace('-', np.nan).dropna().sort_values(by=['日期', '时间', '维度', '经度'])\
                .reset_index().rename_axis(columns={
    
    '地震参数':''}).drop(columns='index')
cols = list(df_unstack.columns)
a, b, c = cols.index('深度'), cols.index('烈度'), cols.index('距离')
cols[a], cols[b], cols[c] = cols[c], cols[a], cols[b]
df_unstack = df_unstack[cols]

df_eq = df_eq.sort_values(by=['日期', '时间', '维度', '经度']).reset_index().drop(columns='index')
df_eq.equals(df_unstack)

True

Pandas Task4 变形

Pandas Task4 变形

猜你喜欢