数据前处理---dplyr包

用dplyr 包处理数据时,要先将数据转化成tbl_df 的tibble类型的数据。
可以直接用dplyr自带的tbl_df函数 tbl_df(data)
select: 选择操作
select(data,a,b,c)
select(data,a:c)
select(data,-a,-c)
select(data,-(a:c))

filter:类似SQL的where语句 条件选择操作
filter(data,a==1,b==2)
filter(data,a==1&b==2)
filter(data,a==1&(b==2|b==3))

arrange:函数按给定的列名排序,默认升序,也可以用desc()降序
arrange(data,a) 升序
arrange(data,desc(a)) 降序

mutate: 变量变换、重新构造
mutate(data,y = a-b,z = a*0.6)#在data数据后加上y,z 字段

summarize:数据汇总
summarize(data,avg_a = mean(a),sum_b = sum(b))

group_by : 数据进行分组# 结合summarize 可以对数据进行分组汇总统计
summarize(group_by(data,a),
m = mean(b),
sd = sd(c),
…)

dplyr包中引进了一种操作符 %>% 称为管道函数
使用时用数据集(data)作为开头,
data %>% select(a,b,c) %>% filter(a==1&b==1&(c==2|c==3)) %>% group_by(c) %>% summarize(m=mean(a),sd=sd(b)) %>% arrange(sd)

挑选随机样本
1: sample_n 随机挑出指定个数
sample_n(data,10)# 挑10个
2:sample_frac(data,0.1)# 随机挑选10% 的数据

猜你喜欢

转载自blog.csdn.net/cutwind/article/details/78186280