R语言数据去重 - 代码天地

R语言数据去重

其他 2021-04-05 16:42:01 阅读次数: 0

R语言数据列去重

unique对于一个向量管用，对于matrix、data frame那些指定列去重就不管用了

1、unique函数

查看重复的方式，有点像分类变量个数一样，unique() 或者 table() 都是很好的方式去检测。

> c
  a b d
1 1 a 1
2 2 b 1
3 3 c 1
4 1 a 1
5 2 b 1
6 3 c 1
> unique(c)
  a b d
1 1 a 1
2 2 b 1
3 3 c 1
> unique(c,fromLast = T)
  a b d
4 1 a 1
5 2 b 1
6 3 c 1

以上是根据你的数据得到的，R中默认的是fromLast=FALSE,即若样本点重复出现，则取首次出现的；

否则去最后一次出现的。列名不变，去掉重复样本值之后的行名位置仍为原先的行名位置。

2、duplicated函数

在数据框（data.frame）中应用较为广泛

> c[!duplicated(c)]
  a b d
1 1 a 1
2 2 b 1
3 3 c 1
4 1 a 1
5 2 b 1
6 3 c 1
> c[!duplicated(c),] ###注意`,`
  a b d
1 1 a 1
2 2 b 1
3 3 c 1
> c[!duplicated(c[3]),]
  a b d
1 1 a 1


#用法与is.na()对比
x[!is.na(x)]  #选中不是缺失值的数据

3、distinct（dplyr包）

distinct（data，列名，.keep_all=F）

## .keep_all默认FALSE
> distinct(c,d)
  d
1 1

> distinct(c,d,.keep_all = T)
  a b d
1 1 a 1

> distinct(c,a)
  a
1 1
2 2
3 3

4 引用

R语言︱数据去重

R语言去重复数据

猜你喜欢

转载自blog.csdn.net/LeaningR/article/details/115211219

R语言数据去重

R语言数据去重函数

R 数据去重

R语言预处理（去重去NA排序）

R 去重+计数

R语言去重操作unique duplicate filter

R语言的重编码

mysql数据去重

数据去重

js 数据去重

海量数据去重

HadoopMapReduce数据去重

oracle数据去重

Hadoop 数据去重

爬虫数据去重

线上数据去重

【项目】数据去重

MapReduce数据去重

List数据去重

数据筛选，去重

Oracle 数据去重

【pandas】数据去重

MongoDB数据去重

C语言数组去重

MySql数据查重、去重的实现

海量数据去重（上亿数据去重）

MR/hive 数据去重

数据库去重

数据表去重

大数据去重——位图

今日推荐

周排行

阿里云服务器ECS开放8080端口

求正弦和余弦

链表倒数第n个节点

vue.js入门（13）实战demo

Java学习——day 15

My First Day in CSDN

Oracle11g 密码延迟认证导致library cache lock的情况分析

SAP ALV输出字段内容前增加空格

CloudFlare 推出免费 VPN 服务「Warp」，你懂的！

BUG(跑SLAM14-ch10)

每日归档

更多

2025-03-16(0)

2025-03-15(0)

2025-03-14(0)

2025-03-13(0)

2025-03-12(0)

2025-03-11(0)

2025-03-10(0)

2025-03-09(0)

2025-03-08(0)

2025-03-07(0)