R语言下载GDC TCGA数据!注:非R包

本文将介绍TCGA数据库是什么,以及作为新手小白该如何在TCGA上找到自己想要的数据。这篇推文,来跟大家一步一步下载TCGA数据。

从TCGA下载数据的方式主流的主要有三种:

1、用TCGA官方工具gdc-client下载:这个方法可以保证下载的是实时的最新文件,但是步骤稍微繁琐,要自己 merge单个文件,不利于新手操作

2、用R语言中的TCGA biolinks包下载:首推这个方法,尤其是在在官网用gdc-client下载卡顿下载不成功的时候,这个包很快就会下好,提供merge功能

3、UCSC xena浏览器下载:这是最简单最傻瓜的方法,初学者推荐用这个方法来探索TCGA

(条条大路通罗马,下载个数据还不简单?)

但是最近,博主发现,可能是自己的网络不好或者其他问题,总是在GDC TCGA网页下载数据后解压失败,另寻出路,搞R语言下载,会是一个很靠谱又快速的方法!

我们2022年4月份TCGA数据库改版更新了,从Data release 18.0已经更到了 Data release 33.0,Release Notes - GDC Docs (cancer.gov),当然未来还会持续更新。

图片

我们可以看到,这些更新中跟我们要的TCGA RNAseq数据自己研究的肿瘤无关,这些数据就算TCGA数据库更新,它也不会变。那更新了什么呢?根据每次更新的介绍,我们可以了解到GDC添加了很多新数据,比如下面添加了New project——Exceptional Responders Initiative,我们需要留心的是哪些更新数据与我们有关:临床数据!比如说随访数据,我们做预后分析用到的生存资料,这些也是在不断更新的。

在此处,博主先更新获取GDC TCGA转录组数据R语言...加脚本的那种哦~

图片

 更新后采用了STAR 作为比对工具,Workfolw Type只有一个STAR- Counts,这其实是算TCGA “良心发现“的好消息,因为表达矩阵的整合难度降低了,每一个样本的一个文件中提供gene_name,基因类型,以及校正的Counts,FPKM,TPM三种数据格式供我们提取。

 开始实操

打开GDC TCGA官网(GDC),点击repository 进入仓库--下载个样本量少的试试水!

图片

然后files里面选择下载数据的类型,比如下载转录组数据,选择只是在出现多个选项的时候才选,如果只有一个选项,不勾选也没有关系

比如,当前数据格式tsv只有一种,不勾选没有关系

图片

 接下来把选择的数据加入到购物车,购物车里面数量会变成文件数目,当前是40,这里大家可能会有疑问,明明case是33,最后购物车里的file数是40?这其实是正常的,因为case是癌症病人编号,有时候一个癌症病人取样时同时取了多个组织(例如原发癌组织,转移癌组织,血液对照等),不同的file name可能对应了一个case ID,所以会存在file数多于case数的情况。

图片

此时点击购物车,就会进入下载页面,当数据量很大的时候,不建议直接下载而是采用官方推荐的GDC Data Transfer Tool来进行--大家如果没有--链接:https://pan.baidu.com/s/1K8fPxi3R1bW79_KLvF5etA 
提取码:aaaa 
--来自百度网盘超级会员V4的分享

博主已经搞好,拿走不谢!这里是windows64x

图片

 而使用这个工具,需要在GDC TCGA 下载这两个文件,一个是Manifest,一个是metadata,这两个文件,会根据下载时间的不同,生成对应日期的名称

需要把GDC Data Transfer Tool和这些文件放进去,然后再创建一些文件夹,这些是习惯,非必须。 

图片

在当前目录下,开始下载数据!

rm(list = ls())

setwd("D:/R.result/2.He/ww2023.8.3_breast cancer/04.symbol")#设置自己的路径

if(!file.exists("rawdata")) dir.create("rawdata")#创建原始数据下载的文件夹
manifest <- "gdc_manifest_20230817_063606.txt"#
rawdata <- "rawdata"

command <- sprintf("./gdc-client download -m %s -d %s",
                   manifest,
                   rawdata)
system(command = command)

然后等待片刻,会出现下载进度条,下载速度因人而异,我这里的下载速度很慢

图片

 当然每个人在这里下载的时候,都可能出现一些状况,如果有问题,可以重复运行一下,下载完毕后会显示:

图片

图片

这时候所有数据都在rawdata这个文件夹中,总共有40个文件夹,每一个里面点开后有一个文件 

 

这时候,如果第一次弄,一定要打开文件看看,里面有什么,我们需要什么。其中第一列 gene_id我们是需要的,第四列unstranded 就是传统的counts 数据,以前的TCGA数据只提供两列。

改版后的TCGA就妙在提供了转换过后的gene_name,还有gene_type,包括protein_coding和非编码信息,这个可以保留一份用来做基因注释。

图片

 好啦!到这里我们使用R语言下载数据已经结束了,后续博主可能还会有临床数据下载,下载好的数据合并处理分析等等~~  欲知后事如何,清代下次分享

猜你喜欢

转载自blog.csdn.net/Queen_yu/article/details/132341075
今日推荐