1000G | 数据下载-待补充

1000G简单介绍

千人基因组也许是被研究得和使用得最多的数据库了。其包含的个体是来自不同人群(如欧美、亚洲等)的健康对照样本,可以很方便的下载到原始数据,在缺乏对照研究时可以作为很好的对照。

另,仅有少部分样本进行了深度测序;绝大部分数据都是低深度测序,所以,使用原始数据做对照时也要注意哦。

主要数据组成

1000G是按阶段实施的,主要包括4个阶段的数据,pilot, phase1, phase2, phase3;每个阶段包含的样本、使用的基因组版本、数据存储位置均有所不同;而且一直在更新,包括分析结果的迭代、数据扩充等。

  • pilot是试点阶段,包括pilot1,2,3,比对到NCBI36
  • Phase 1 第一批1092例样本的低深度和外显子数据的分析,比对到GRCh37
  • Phase 2 包含1700例样本,分析方法有更新
  • Phase 3 包含3115例样本,比对到GRCh37,公开的数据里一般包含2504例样本的信息。
  • 1000 Genomes on GRCh38 包含2709例样本,最新版本的数据,比对到GRCh38

Note: We also have frozen versions of the alignments use for both the pilot and the phase 1 analyses in different directories on the ftp site.

GRCH37不同版本是咋回事?GRCH37.p1, GRCH37.p2...是指对GRCH37的修补(patch),坐标不会改变。

目录介绍

http://www.internationalgenome.org/
Data 数据详细介绍
Portal 在该目录下可以根据人群、测序数据类型等筛选样本;有各样本、群体的介绍。
比如中国人群包括,CDX(西双版纳的傣族人群 n=109)、CHB(北京人,基本代表北方人群 n=112)、CHS(南方人群 n=171)

1787454-980dc92ade40b1a5.png

![取样人群分布图][2]

数据下载——待更新

  1. 样本筛选
    http://www.internationalgenome.org/data-portal/sample
    筛选比对到hg19(GRCh37)的高深度测序的中国样本(不包含傣族)使用的关键词:CHB, CHS, Phase 3, High cov WGS。有86个样本符合要求,点击Download the list下载得到样本名称。
  2. 下载在指定区域的SNP基因型信息
tabix -h ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/20130502/ALL.chr6.phase3_shapeit2_mvncall_integrated_v5.20130502.genotypes.vcf.gz 6:7580958-7580959

3.下载比对文件(bam/cram)

猜你喜欢

转载自blog.csdn.net/weixin_34189116/article/details/87057547