GATK官方文档翻译-Data pre-processing for variant discovery

原文所在链接:Data pre-processing for variant discovery

针对变异发现的数据预处理
1.目的

     为进行变异发现而进行的数据预处理,是强制性的第一阶段,必须先于所有变异发现。需要对以FASTQ或uBAM格式提供的原始序列化数据进行预处理,以生成可用于分析的BAM文件。涉及到对照参考基因组操作、一些数据清洗操作,来纠正技术偏差、使得数据更适于分析。

                                                   

2.期望输入

      这个工作流是被设计用于对单个样本进行操作的,因此,数据最初以被称为readgroups的不同子集组织起来。这些readgroups对应于由多重化(是混合多个文库、在多条泳道上序列化这些文库的过程,以减少风险和人为因素的影响)产生的文库交集(从生物样本中提取、用于测序的DNA产物,包含用可识别条形码进行片段化、标记的产物)和泳道(在DNA测序芯片上的物理分离单位)。

        我们所参照实现的,期望读取的数据是以未映射的BAM(uBAM)格式输入的。转换使用程序可以实现从FASTQ格式到uBAM格式的转换。

3.主要步骤

        通过将序列读取映射到参考基因组,我们开始进行数据预处理,这种方式可以产生按坐标排序的SAM/BAM格式的文件。而后,我们标记重复数据,来减轻数据生成步骤(如PCR扩增)引入的偏差。最后,考虑到变体调用算法很大程度上依赖于每个序列读取分配给各个碱基调用的质量分数,我们重新对基准质量评分进行。 

3.1映射到参考基因组

需要的工具:BWA,MergeBamAlignments

        作为第一个处理步骤,这个步骤是按每个读取组进行的,由将每个独立的读取对映射到参考基因组(一种对常见基因组序列--用于所有基因组分析的共同协调框架,的合成单链表示)操作组成。由于映射算法独立地处理每个读取对,因此,这一步骤可以采取大规模并行化的形式进行处理,以提高吞吐量,满足需求。

3.2标记重复

需要的工具:MarkDuplicates,SortSam

        作为第二个处理步骤,这个步骤是按每个样本进行的,识别可能通过一些人为过程从相同原始DNA片段的重复中产生的读取对。识别过程中所需要的操作被认为是非独立地观察,因此,程序在每一组重复内标记除读取对之外的所有对,使得它们在变体发现过程中被默认忽略。这一步骤构成了一个主要的瓶颈,因为它涉及在所有readgroups范围内对所有属于样本的读取对进行大量比较。而后,进行排序操作(没有明确地显示在工作流中),排序操作也导致了性能瓶颈,因为它也是对所有属于样本的读取对进行操作。两种算法持续地成为优化工作的目标,来减少对延迟的影响。

3.3基准(质量评分)重新校准

需要的工具:BaseRecalibrator,Apply Recalibration,AnalyzeCovariates(可选)

        作为第三个处理步骤,这个步骤是按每个样本进行的,应用机器学习来检测和校正基准质量评分(由定序器对每个基准指定的置信度值)中的系统误差模式。在变异发现过程中,基因质量评分对衡量支持/反对可能的变异等位基因的证据的权重发挥着重要作用,因此,纠正在数据中所观察到的任何系统性偏差都是很重要的。偏差可能源于文库制备、测序过程中的生物化学过程,也可能源于芯片的制造缺陷或测序仪中的仪器缺陷。重新校准过程包含从数据集的所有碱基调用中收集协变量统计数据,根据这些统计数据构建模型,而后基于构建的模型,将基准调整应用与数据集中。初试数据收集可通过散射基因组坐标并行化,通常通过对染色体或染色体批次进行散射,如果需要也可以进一步细分以提高吞吐量。

       而后,必须将按区域统计的数据收集到单个全基因组共变模型中,这一步是不可能并行化的,单它在计算上是微不足道的,因而不会成为一个瓶颈。最后,应用从模型导出的重新校准规则到原始数据集中,来生成重新校准数据集。与初始统计信息收集的并行化处理方式相同,在基因组区域间进行并行化处理,而后,通过一个最终的文件合并操作,为每个样本生成一个可用于分析的文件。


猜你喜欢

转载自blog.csdn.net/orange_612/article/details/79359347