[转] R 2 数据观察

# 1、主体查看 

class(data)    #查看对象类型  
str(data)      #探寻数据集内部结构  
summary(data)   #获取数据集data的概括信息  
dim(data)      #查看数据集data的纪录数和维度数
	nrow(data)     #查看行数  
	ncol(data)     #查看列数  
	length(data)     #查看列数 
table(data$is_do)    #查看数据集data中维度is_do的数值分布 

# 2、数据查看

head(data)     #前若干条数据
tail(data)     #后若干条数据

row.names(mtcars)  #查看行标题
names(mtcars)     #查看字段

mtcars[3,2]    #查看指定行、列
mtcars[c(1,3),]  #查看1,3行
mtcars[mtcars$mpg>15,3]  查看3列,条件是mpg列大于15
mtcars[which.max(mtcars$mpg),]  #mpg最大的行
mtcars$mpg[which.max(mtcars$mpg)]   #mpg列,条件是mpg最大

# 3、分布情况

max(iris[,1])  #最大值
min(iris[,1])  #最小值
hist(iris[,1])  #数据直方图
table(iris[,1])  #数据频数
prop.table(table(iris[,1])) #数据各水平占比
pie(table(iris[,1]))  #各水平占比饼图
barplot(table(iris[,1]))  #各水平占比条形图

# 4、统计量

length(a)    #向量长度
mean(a)      #求平均数
median(a)    #求中位数
sort(a)      #向量排序
var(a)       #求方差
sd(a)        #求标准差
quantile(x)  #求百分位数
    # quantile(x,probs = seq(0,1,0.25),na.rm = FALSE,names = TRUE,type = 7,...)
    # probs给出相应的百分位数,默认是0,1/4.1/2,3/4,1;
    # na.rm是逻辑变量,当ra.rm=TRUE时可以处理缺失数据的情况。

# 5、贡献度

ss<-mtcars[order(-mtcars[,4]),]
total<-c()  #新建累积变量
for(i in 1:length(mtcars[,1])){ total[i]=sum(ss[1:i,4])/sum(ss[,4])}
plot(total)  #画出累积频率点图
abline(h=0.8)  #添加累计线

# 6、相关性

plot(ss[,1],ss[,4]) #散点图观察
cor(ss[,1],ss[,4]) #相关系数
cor(ss[,1:4])  #相关系数矩阵
pairs(ss[,1:4])  #相关系数矩阵图

# 7、周期性

原文地址:http://www.ppvke.com/Blog/archives/28979

猜你喜欢

转载自blog.csdn.net/scpcmoon/article/details/80604619