# 1、主体查看
class(data) #查看对象类型 str(data) #探寻数据集内部结构 summary(data) #获取数据集data的概括信息 dim(data) #查看数据集data的纪录数和维度数 nrow(data) #查看行数 ncol(data) #查看列数 length(data) #查看列数 table(data$is_do) #查看数据集data中维度is_do的数值分布
# 2、数据查看
head(data) #前若干条数据 tail(data) #后若干条数据 row.names(mtcars) #查看行标题 names(mtcars) #查看字段 mtcars[3,2] #查看指定行、列 mtcars[c(1,3),] #查看1,3行 mtcars[mtcars$mpg>15,3] 查看3列,条件是mpg列大于15 mtcars[which.max(mtcars$mpg),] #mpg最大的行 mtcars$mpg[which.max(mtcars$mpg)] #mpg列,条件是mpg最大
# 3、分布情况
max(iris[,1]) #最大值 min(iris[,1]) #最小值 hist(iris[,1]) #数据直方图 table(iris[,1]) #数据频数 prop.table(table(iris[,1])) #数据各水平占比 pie(table(iris[,1])) #各水平占比饼图 barplot(table(iris[,1])) #各水平占比条形图
# 4、统计量
length(a) #向量长度 mean(a) #求平均数 median(a) #求中位数 sort(a) #向量排序 var(a) #求方差 sd(a) #求标准差 quantile(x) #求百分位数 # quantile(x,probs = seq(0,1,0.25),na.rm = FALSE,names = TRUE,type = 7,...) # probs给出相应的百分位数,默认是0,1/4.1/2,3/4,1; # na.rm是逻辑变量,当ra.rm=TRUE时可以处理缺失数据的情况。
# 5、贡献度
ss<-mtcars[order(-mtcars[,4]),] total<-c() #新建累积变量 for(i in 1:length(mtcars[,1])){ total[i]=sum(ss[1:i,4])/sum(ss[,4])} plot(total) #画出累积频率点图 abline(h=0.8) #添加累计线
# 6、相关性
plot(ss[,1],ss[,4]) #散点图观察 cor(ss[,1],ss[,4]) #相关系数 cor(ss[,1:4]) #相关系数矩阵 pairs(ss[,1:4]) #相关系数矩阵图
# 7、周期性