Excel文件是日常工作中最常见的数据处理软件之一,如何读取

 下面内容摘录自《用R探索医药数据科学》专栏文章的部分内容(原文7833字)。

2章7节:读写RDS,CSV,TXT,Excel,SPSS、SAS、Stata、Minitab等的数据文件(更新20240807)_r语言读取rds文件-CSDN博客

一、RDS或RData格式文件

二、CSV或TXT格式

三、Excel的格式文件

Excel文件是日常工作中最常见的数据处理软件之一,虽然有时候,我们可以将EXCEL的文件转化为更加普遍的CSV格式。尽管CSV格式在数据处理和交换中非常流行,但在处理复杂的Excel文件时,例如需要保留公式、格式或多个工作表的文件,直接读取Excel文件更为方便和高效。

Excel文件通常有两种格式:.xls.xlsx.xls是早期的Excel版本使用的格式,而.xlsx是从Excel 2007版本开始使用的更新格式。.xlsx格式基于XML标准,支持更大的数据容量和更复杂的格式设置。

.xls(Excel 97-2003格式) .xlsx(Excel 2007及之后格式)
文件扩展名 .xls .xlsx
文件结构 二进制格式 基于XML的压缩文件格式
最大行数 65,536行 1,048,576行
最大列数 256列 16,384列
文件大小限制 通常较小(约2GB) 较大(理论上无实际限制)
支持的单元格样式 限制较多,样式功能较少 支持更多样式和格式
公式支持 支持基本公式和一些函数 支持更复杂的公式和更多函数
图表支持 支持基本图表 支持更多图表类型和图表功能
数据验证 基本的数据验证功能 支持复杂的数据验证和条件格式
跨平台兼容性 较差,可能需要转换为其他格式 更好,广泛支持于各种应用和平台
读取/写入支持 老旧版本的Excel和其他软件通常支持 大多数现代应用程序和库支持
使用环境 旧版Excel(2003及之前版本) 新版Excel(2007及之后版本)
安全性 较低,易受潜在风险影响 提供更好的数据保护和加密选项
openxlsx包简介

openxlsx包是R中用于读取、写入和格式化Excel文件的工具。与其他Excel处理包相比,openxlsx包不依赖于Java,操作更为简洁高效,支持多种Excel格式的读写。在使用openxlsx包之前,需要首先安装并加载该包。可以通过以下命令安装并加载openxlsx。

install.packages("openxlsx")
library(openxlsx)

要读取Excel文件中的数据,可以使用read.xlsx()函数。这个函数允许我们将Excel文件中的数据导入到R的data.frame中进行进一步分析。read.xlsx()函数的基本语法如下:

read.xlsx(file, sheet = 1, colNames = TRUE, rowNames = FALSE)

file:指定Excel文件的路径。

sheet:指定要读取的工作表编号或名称。默认值是1,表示第一个工作表。

colNames:逻辑值,指示是否将第一行作为列名。默认为TRUE。

rowNames:逻辑值,指示是否将第一列作为行名。默认为FALSE。

假设我们有一个名为frmgham.xlsx的Excel文件,其中第一个工作表包含我们需要的数据(Excel文件可以包含多个工作表,这点一定要注意)。我们可以使用以下代码将其读取到R中:

# 读取Excel文件中的第一个工作表
frmgham <- read.xlsx("frmgham.xlsx", sheet = 1)

# 查看数据框的前几行
head(frmgham)

除了读取Excel文件,openxlsx包还支持将数据写入Excel文件。我们可以使用write.xlsx()函数将数据框保存为Excel文件。继续使用之前读取的数据框frmgham,我们可以将其保存为一个新的Excel文件Myfrmgham.xlsx。

# 将数据框写入新的Excel文件
write.xlsx(frmgham, "Myfrmgham.xlsx")

# 查看文件保存成功的消息
cat("数据已成功保存到 Myfrmgham.xlsx 文件中。\n")

​​​​​​​

~~~~~~~~~~

随着数据科学行业的迅速发展,工具的种类和使用方法层出不穷,传统的纸质R语言教材由于篇幅限制和出版审核的繁琐程序,难以及时涵盖最新的技术动态和复杂应用场景。此外,市面上虽有不少R语言免费视频,但大多仅面向初学者,缺乏对如医药等复杂领域的深入探讨。为了解决这些问题,我们在CSDN论坛推出了《用R 探索医药数据科学》专栏。这一专栏将持续更新,不仅是一份教材,更是你掌握最新、最全医药数据科学的得力助手。我们为你精心整理了领域内的深度资料,提供专业且实战导向的内容,帮助你高效提升研究能力,加快医药数据科学领域科研成果的产出。

  • 《用R 探索医药数据科学》专栏会持续更新。
  •  每篇文章篇幅在5000字 至9000字之间。
  • 专栏已更新超过 110篇文章,超60万字。
  • 内容涵盖试验统计、预测模型、科研绘图、数据库、机器学习等热点领域。

https://blog.csdn.net/2301_79425796/category_12729892.html?spm=1001.2014.3001.5482

《用R探索医药数据科学》目录

(鉴于专栏处于持续更新状态,请自行查阅最新文章)

第一章:认识数据科学和R

1章1节:医药数据科学的历程和发展,用R语言探索数据科学(更新20241029)-CSDN博客

1章2节:机器学习、统计学与ChatGPT的概述,与R语言的相关 (更新20241229)_ai、chatgpt和机器学习什么关系-CSDN博客

1章3节:R 语言的产生与发展轨迹(更新2024/08/14)-CSDN博客

1章4节:数据可视化, R 语言的静态绘图和 Shiny 的交互可视化演示(更新20240814)-CSDN博客

第二章:R的安装和数据读取

2章1节:R和RStudio的下载和安装(Windows 和 Mac)-CSDN博客

2章2节:RStudio 四大区应用全解,兼谈 R 的代码规范与相关文件展示_rstudio的console和terminal-CSDN博客

2章3节:RStudio的高效使用技巧,自定义RStudio环境(更新20241023)_rstudio如何使用-CSDN博客

2章4节:用RStudio做项目管理,静态图和动态图的演示,感受ggplot2的魅力-CSDN博客

2章5节:详解R的扩展包管理(从模糊安装到自动更新)及工作目录和工作空间的设置(更新20241030 )-CSDN博客

2章6节:R的数据集读取和利用,如何高效地直接复制黏贴数据到R(20240807 )_r语言 复制数据集-CSDN博客

2章7节:读写RDS,CSV,TXT,Excel,SPSS、SAS、Stata、Minitab等的数据文件(更新20240807)_r语言读取rds文件-CSDN博客

2章8节:一文学会 R Markdown 的文档核心操作,切记文末有R资源的分享_r markdown文件(.rmd)-CSDN博客

2章9节:认识R与数据库连接和网络爬虫,学会在R中使用SQL语言_sql和r语言-CSDN博客

2章10节:用 R 直接下载并分析 NHANES 数据库的数据,文末示例自创便捷下载函数(更新20240807)_nhanes数据分析-CSDN博客

第三章:认识数据

3章1节:数据的基本概念以及 R 中的数据结构、向量与矩阵的创建及运算-CSDN博客

3章2节:继续讲R的数据结构,数组、数据框和列表-CSDN博客

3章3节:R的赋值操作与算术运算_r里面的赋值-CSDN博客

3章4节:R的逻辑运算和矩阵运算-CSDN博客

3章5节:R 语言的循环与遍历函数全解析-CSDN博客

第四章:数据的预处理

4章1节:全面了解 R 中的数据预处理,通过 R 基本函数实施数据查阅_r数据预处理-CSDN博客

4章2节:从排序到分组和筛选,通过 R 的 dplyr 扩展包来操作-CSDN博客

4章3节:处理医学类原始数据的重要技巧,R语言中的宽长数据转换,tidyr包的使用指南-CSDN博客

4章4节:临床数据科学中如何用R来进行缺失值的处理_临床生存分析缺失值r语言-CSDN博客

4章5节:数据科学中的缺失值的处理,删除和填补的选择,K最近邻填补法-CSDN博客

4章6节:R的多重填补法中随机回归填补法的应用,MICE包的实际应用和统计与可视化评估-CSDN博客

4章7节:用R做数据重塑,数据去重和数据的匹配-CSDN博客

4章8节:用R做数据重塑,行列命名和数据类型转换-CSDN博客

4章9节:用R做数据重塑,增加变量和赋值修改,和mutate()函数的复杂用法_r语言如何在数据集中添加变量-CSDN博客

4章10节:用R做数据重塑,变体函数应用详解和可视化的数据预处理介绍-CSDN博客

4章11节:用R做数据重塑,数据的特征缩放和特征可视化-CSDN博客

4章12节:R语言中字符串的处理,正则表达式的基础要点和特殊字符-CSDN博客

4章13节:R语言中Stringr扩展包进行字符串的查阅、大小转换和排序-CSDN博客

4章14节:R语言中字符串的处理,提取替换,分割连接和填充插值_r语言替换字符串-CSDN博客

4章15节:字符串处理,提取匹配的相关操作扩展,和Stringr包不同函数的重点介绍和举例-CSDN博客

4章16节:R 语言中日期时间数据的关键处理要点_r语言 时刻数据-CSDN博客

第五章:定量数据的统计描述

5章1节:用R语言进行定量数据的统计描述,文末有众数的自定义函数-CSDN博客

5章2节:离散趋势的描述,文末1个简单函数同时搞定20个结果-CSDN博客

5章3节:在R语言中,从实际应用的角度认识假设检验-CSDN博客

5章4节:从R语言的角度认识正态分布与正态性检验-CSDN博客

5章5节:认识方差和方差齐性检验(三种方法全覆盖)-CSDN博客

5章6节:R语言中的t检验,独立样本的t检验-CSDN博客

5章7节:单样本t检验和配对t检验-CSDN博客

5章8节:方差分析(ANOVA)及其应用-CSDN博客

5章9节:组间差异的非参数检验,Wilcoxon秩和检验和Kruskal-Wallis检验-CSDN博客

第六章:定性数据的统计描述 

6章1节:定性数据的统计描述之列联表,文末有优势比计算介绍-CSDN博客

6章2节:认识birthwt数据集,EpiDisplay和Gmodels扩展包的应用-CSDN博客

6章3节:独立性检验,卡方检验,费希尔精确概率检验和Cochran-Mantel-Haenszel检验-CSDN博客

6章4节:相关关系和连续型变量的Pearson相关分析-CSDN博客

6章5节:分类型变量的Spearman相关分析,偏相关分析和相关图分析-CSDN博客

6章6节:相关图的GGally扩展包,和制表的Tableone扩展包-CSDN博客

第七章:R的传统绘图

7章1节:认识R的传统绘图系统,深度解析plot()函数和par()函数的使用-CSDN博客

7章2节:R基础绘图之散点图、直方图和概率密度图-CSDN博客

7章3节:R基础绘图之条形图和堆积条形图-CSDN博客

7章4节:饼图,箱线图和克利夫兰点图-CSDN博客

7章5节:散点矩阵图,与小提琴图、Cleveland 点图、马赛克图和等高图-CSDN博客

7章6节:用R进行图形的保存与导出,详细的高级图形输出,一文囊括大多数保存的各种问题,和如何批量保存不同情况的图形-CSDN博客

 第八章:R的进阶绘图

8章1节:认识 ggplot2 扩展包,深度解析 qplot() 函数的使用-CSDN博客

8章2节:ggplot2绘图之原理逻辑分解,掌握绘图步骤(更新20241104)-CSDN博客

8章3节:ggplot2绘图之内置主题设置全解析(更新20241104)-CSDN博客

8章4节:ggplot2绘图之几何体解析(一),参考线和基准线与分布图和频数图(更新20241104)-CSDN博客

8章5节:ggplot2绘图之几何体解析(二),关系图和时间序列图与误差条和高级图形平滑曲线(更新20241104)-CSDN博客

8章6节:维恩图和UpSet图的认识与绘制_维恩图 约翰·维恩-CSDN博客

8章7节:绘制平行坐标图_r语言parallelplot绘制平行坐标图-CSDN博客

8章8节:雷达图及RadViz图_radviz雷达图-CSDN博客

8章9节:词云图,矩形树状图和三维散点图(更新20241024)_echarts 可以生成词云图吗-CSDN博客

8章10节:R的地理图绘制(更新20241104)-CSDN博客

8章11节:高质量动态图和交互式动态图_ae做柱状图动态图-CSDN博客

第九章:临床试验的统计 

9章1节:初步认识临床试验(约7500字)-CSDN博客

9章2节:样本量估计的初步介绍-CSDN博客

9章3节:用R进行样本量估计的统计学参数-CSDN博客

9章4节:两组例数相同的均数比较的样本量估计和绘制功效曲线-CSDN博客

9章5节:两组的例数不等的均数比较的样本量估计和可视化-CSDN博客

9章6节:自身配对设计的均数比较临床试验的样本量估计和可视化-CSDN博客

9章7节:与总体均数比较的样本量估计和可视化-CSDN博客

9章8节: 两、三组试验组率比较的样本量估算和可视化-CSDN博客

9章9节:试验的随机分组认识,用R做简单随机化-CSDN博客

9章10节:用R实现分层随机化-CSDN博客

9章11节:用R实现区组随机化和置换区组随机化-CSDN博客

9章12节:动态随机化方法介绍,和用R绘制随机化卡片-CSDN博客

第十章:Meta分析攻略

10章1节:认识循证医学中的Meta分析,并予代码演示分析绘图-CSDN博客

​​10章2节:Meta分析的7大步骤的扼要解读-CSDN博客

10章3节:二分类变量的Meta分析模型,分析公式构建和结果解读-CSDN博客

10章4节:二分类变量的Meta分析模型,绘制漏斗图和应用剪补法,最后绘制和解读轮廓增强漏斗图-CSDN博客

10章5节:二分类变量的Meta分析模型,敏感性分析和亚组分析,绘制森林图-CSDN博客

10章6节:连续型变量的Meta分析和可视化分析全解-CSDN博客

10章7节:用R进行单个率Meta分析-CSDN博客

10章8节:用R进行网状Meta分析细解-CSDN博客

第十一章:主成分分析

11章1节:深度讲解用R进行主成分分析(上)-CSDN博客

11章2节:​深度讲解用R进行主成分分析(中)-CSDN博客

11章3节:​深度讲解用R进行主成分分析(下)-CSDN博客

11章4节:学会用R进行因子分析(上)-CSDN博客  

11章5节:学会用R进行因子分析(中)-CSDN博客

11章6节:学会用R进行因子分析(下)-CSDN博客

第十二章:常见类型回归分析

12章1节:认识回归分析的历史背景及应用-CSDN博客

12章2节:构建一元和多元的线性回归模型-CSDN博客

12章3节:回归模型中哑变量的应用和设置-CSDN博客

12章4节:深度解读构建回归模型表达式的九个关键符号-CSDN博客

12章5节:深度剖析回归模型结果的相关函数-CSDN博客

12章6节:深度解读线性回归模型的绘图判断-CSDN博客

12章7节:构建因变量为分类变量的二分类Logistic回归模型-CSDN博客

12章8节:详解不同逻辑回归模型的比较,和如何进行变量优化-CSDN博客

12章9节:深度讲解有序多分类Logistic回归模型的分析-CSDN博客

12章10节:条件Logistic回归模型的分析-CSDN博客

第十三章:生存分析模型

13章1节:生存分析的基本概念和主要内容-CSDN博客

13章2节:用R进行生存率的描述与估计-CSDN博客

13章3节:生存分析的假设检验及可视化展示-CSDN博客

13章4节:认识比例风险模型和Cox比例风险模型,学会从协变量的调整选择最优模型-CSDN博客

13章5节:用逐步回归方法来选择模型协变量,比例风险假定的检验和森林图的绘制-CSDN博客

第十四章:匹配技术应用

14章1节:认识临床研究的匹配技术-CSDN博客

14章2节:匹配结果的可视化和匹配后新数据分析-CSDN博客

第十五章:判别和聚类分析

15章1节:医学研究中的判别分析和聚类分析-CSDN博客

15章2节:线性判别分析预测模型构建评估和可视化演示-CSDN博客

15章3节:二次判别分析技术的运用-CSDN博客

15章4节:K-Means聚类分析的运用,和改进算法的K-Means++-CSDN博客

15章5节:实现k-medoids聚类算法的PAM和CLARA方法-CSDN博客

15章6节:凝聚层次聚类和分裂层次聚类-CSDN博客

第十六章:机器学习入门 

16章1节:机器学习和人工智能的基础知识-CSDN博客

16章2节:机器学习在临床预测中的应用场景,与临床预测模型的关键步骤解析-CSDN博客

16章3节:详析训练数据集、测试数据集和验证数据集及其划分策略-CSDN博客

16章4节:采用随机抽样法和等比抽样法对数据集进行二份及三份的划分-CSDN博客

16章5节:划分数据的多次随机抽样的Bootstrap法和加权随机抽样法-CSDN博客

16章6节:交叉验证概述与分类,R中K折交叉验证的详细解析-CSDN博客

16章7节:机器学习算法解读,与数值预测回归模型构建-CSDN博客

16章8节:朴素贝叶斯分类预测模型,从构建、解析到实战-CSDN博客

16章9节:认识决策树,构建CART算法的决策树模型-CSDN博客

16章10节:深度解析如何构建随机森林算法预测模型-CSDN博客

16章11节:构建人工神经网络反向传播算法预测模型-CSDN博客

猜你喜欢

转载自blog.csdn.net/2301_79425796/article/details/143509293