Basset: learning the regulatory code of the accessible genome with deep convolutional neural network

摘要

文章介绍了一个开源软件包Basset,使用CNN网络,从基因组数据中学习DNA序列的功能性活动。该软件包提供了一种计算方法来注释和解释非编码基因组,可以对感兴趣的细胞类型中进行单个测序分析,了解细胞染色质的可访问性编码,注释基因组中的每个突变,以及这个突变对当前可访问性和潜在可访问性的影响。

一些生物学知识

基因在染色体上占有的特定位置叫基因位点
非编码区(Non-coding region)是不能够转录为相应信使RNA,不能指导蛋白质合成的区段。非编码区位于编码区前后,同属于一个基因,控制基因的表达和强弱。
某些变异在统计学上与疾病或性状相关。然而,它们的功能作用在很大程度上还不清楚。
以全基因组关联分析研究(GWAS)为代表的统计分析研究发掘出了海量的具有统计显著意义的非编码序列变异,但却无法做到像对基因编码区域变异那样的对所涉及之生物学机制的准确预测和鉴定。相比于直接改变蛋白质序列的非同义突变所造成之功能性后果的明确和强效,非编码区域的序列变异可能导致的增强子-启动子接触抑制、转录因子结合扰动、染色质开放性变化及邻近表观修饰改变等功能性后果则极为繁杂且不确定极高。
传统上对非编码序列的体内生物学功能进行鉴定的方法主要依赖于外源已编辑序列的随机整合(random integration),但这种策略往往受到基因表达位置效应(position effect)的严重干扰,导致结果的可重复性较低。

解决的问题

目前的研究存在的问题是不能有效的解释非编码变体。但是可以通过DNA可及性和某些组蛋白修饰来丰富这些和表型统计相关的变体。
机器学习中比较常见的作法是将注释和变体重叠,但是这样并不能充分的利用已经有的数据。我们可以通过把DNA-蛋白质相互作用理解为潜在序列的功能,来提取更多的信息。也就是使用给定的训练数据,使用机器学习,来预测序列中的蛋白质结合、DNA可及性、组蛋白修饰和DNA甲基化。经过训练的模型可以注释每个核苷酸(和变体)对调节属性的影响。
使用机器学习有两点好处:
1.可以优先考虑预测驱动调节活动的变体。
2.引入罕见变体不会和公开数据中的监管注释重叠。
为什么使用CNN网络:
1.在训练期间自适应地学习特征。
2.CNN在DNA序列分析中的早期应用在预测蛋白质结合和可访问性方面超过了更成熟的算法。

网络结构

Alt

图1 网络结构

输入

hg19参考基因组中点周围提取600bp。每个位点的训练输入数据包括其600 bp DNA序列和二元载体,以指示164种细胞类型中每种细胞中存在显著峰值。
首先将每个峰值从其中点扩展到600 bp。根据峰与相邻峰的距离将各个峰合并,直到没有重叠超过200 bp的峰。在峰合并期间,将新峰的活性指定为每个峰的活性细胞类型集合的并集。通过扩展两个峰值中点的加权平均值来指定新的限制,该值由每个峰值活跃的细胞数加权。

输出

输出164个预测,预测序列在164种细胞类型中的每种细胞类型中可访问的概率

过程

首先将序列转换为“one-hot”编码表示,其中每个位置都有一个四元素向量,其中一个核苷酸的位设置为1,表示每个核苷酸位置是否存在A、C、G或T,如图1中的橘色矩形框所示。
对于DNA序列,初始卷积层对应于优化一组位置权重矩阵(PWMs)的权重。矩阵权重是从数据中学习的参数,通常称为过滤器。这些PWM过滤器沿序列搜索其模体,并输出一个矩阵,其中对于每个滤波器有一行,对于序列中每个位置有一列,得到图1蓝色矩形框中的蓝色矩阵。
之后连接relu函数(避免梯度消失),和池化操作。池化操作可以实现在一个小窗口中取最大值来汇集相邻值。该操作减少了下一层输入的维数(从而减少了训练中所需的计算量)。它还为向左或向右的小序列移位提供不变性。
后续的卷积操作是对前一层的卷积进行类似的操作,总共包括3个卷积层。
全连接层对输入的向量执行线性变换后使用relu函数。
最后一层对代表目标细胞的164个元素的向量执行线性变换。
sigmoid非线性将该向量映射到0到1的范围。
之后这些元素用作DNase I超敏反应的概率预测,通过损失函数与真实超敏反应向量进行比较。
损失函数使用的是最小化二进制交叉熵损失函数。
Alt

图2 Basset初始卷积层能够发现已知和新的序列基序。(A) 在散点图中,x轴描述了由第一层300个卷积滤波器表示的PWM的信息内容。y轴描述了一个影响分数,通过将滤波器的所有输出设置为其平均值(从而使滤波器无效),并取所有单元格上可达性预测变化向量的平方和来计算该分数。我们通过TomTom模体比较工具是否可以在q值阈值为0.1的情况下对滤光片进行注释,从而对人类CIS-BP数据库中的已知TF模体进行着色。(B) 总的来说,45%的过滤器可以注释,包括此处显示的对齐。(C) 通过对每种细胞类型中可及性预测的影响对过滤器进行聚类,发现这组过滤器与TP63、GRHL1和KLF因子相匹配,已知这些因子参与上皮发育

Basset恢复了已知的蛋白质结合基序

卷积层部分的信息流

DNase I酶超敏位点(DHS)通常代表核小体缺失(nucleosome-depleted)的顺式调控元件,或者说核小体缺失区域。其中蛋白质与DNA结合,创建一个可访问的位点。模型可以通过学习各种通用和细胞特异性蛋白质的DNA结合位点来捕捉这种依赖性。
第一次卷积层使用一组模式识别滤波器(卷积滤波器)扫描DNA序列,能够捕捉蛋白质结合信息。
在三个卷积层中分别使用了300,300,500个滤波器。在第一层中的300个卷积滤波器能够恢复大量已知的DNA结合蛋白基序,如图2中的B。
为了解释这个现象,文章将滤波器的所有输出设置为其平均值(从而使滤波器无效),并取所有单元格上可达性预测变化向量的平方和来计算一个影响分数,就是图2A中的y轴。x轴描述了由第一层300个卷积滤波器表示的PWM的信息内容。
通过TomTom模体比较工具是否可以在q值阈值为0.1的情况下对滤光片进行注释,从而对人类CIS-BP数据库中的已知TF模体进行着色。
从图2B来看,总的来说,45%的过滤器可以注释,包括此处显示的对齐。(C) 通过对每种细胞类型中可及性预测的影响对过滤器进行聚类,发现这组过滤器与TP63、GRHL1和KLF因子相匹配,已知这些因子参与上皮发育。

关键基因组结构蛋白CTCF能预测所有细胞类型的可及性。模型第一层卷积层中,有12个过滤器来表示CTCF的19 bp长DNA识别位点。
每个过滤器都关注图案的重叠部分和变化。
Alt

图3 12个第一层卷积滤波器与CTCF CIS-BP基序显著对齐,其中此处所示的7个与正向基序对齐

由JUN、FOS、ATF和JDP家族的蛋白质组成的AP-1复合物,主要是通过4个过滤器来识别。

在q值阈值为0.1时,45%的过滤器与通过独立芯片序列或体外实验获得的CIS-BP中的蛋白质基序显著对齐。
更多的过滤器能够捕获已知基序的部分coverage,但是经过多次测试校正后,认为捕获的这些基序是和数据库不匹配的。
已知允许两个组分之间可变间距的基序未被这些部分基序滤波器显著识别。
一些未识别的过滤器能够捕捉到低阶序列组成,例如已知TF结合DHS中GC含量较高的富集。
一个过滤器能够直接检测到CpG(CpG可以甲基化,并且经过充分研究,它是调节模块的一个的特征)。

滤波器如何影响预测

AP-1

通过AP-1共有基序TGASTCA来研究这些滤波器如何影响预测。
Basset能够准确地捕捉到了这些结合事件的细微差别,而不是在检测到基序时不加区分地预测可访问性。
为了确定模型使用什么特征来改变其对AP-1基序的预测,文章将基序人工插入到随机序列集中,并比较前后的预测。
文章点分析了乳腺成纤维细胞(HMF)和H7人胚胎干细胞,这两种细胞分别对AP-1基序产生强和中等强度的反应。可以注意到,Basset在预测的过程中有几个特征:
第一个核苷酸5′偏好[ACG]而不是T,第一个核苷酸3′偏好[CGT]而不是A。这在模型用于识别AP-1的主滤波器的权重矩阵中很明显。
Alt

图4 该模型学习到强烈偏好避免5’T和3’a的TGACTCA基序,这可以从第一卷积层的滤波器91的权重矩阵中看到

侧翼序列的~100nt的附加序列

最明显的效果来自于拉伸处的侧面多边形,能够推动预测。

额外的蛋白质结合位点

GGAART基序(由ETS家族成员FEV在顺式-BP中表现最好),该基序可以与AP-1基序重叠5′以进行高预测(图5)。
TTASTCA AP-1基序增加了预测(图5)。
(A)
Alt
Alt

图5 Basset预测,在Chr20:10763795-10764395处,与多个ETS家族TF(包括FEV)匹配的基序直接与AP-1基序相邻并重叠,该位点的可达性非常高。(B) 插入FEV/AP-1联合基序将HMF细胞中预测的可达性分布从仅含AP-1基序的平均值0.49转移到平均值0.66。(C) 位于Chr3:157775355-15777595的一个位点说明了一种情况,即非一致性AP-1基序TTASTCA增强了可达性预测。

几个未识别的过滤器具有较高的信息含量,这表明它们可能涉及未注释的蛋白质或注释蛋白质的替代结合模式。

这些观察结果表明,CNN提供了一种简单有效的方法,可以自动捕捉局部序列组成对功能活动的微妙影响。

精确定位核苷酸驱动可访问性

通过计算序列所有可能突变的预测可达性,Basset可用于执行硅内饱和突变,预测任意序列的功能活性。
文章构建了热图,显示从每个位置的突变到每个备选核苷酸的预测可及性的变化。这些图谱突出了对序列活性最关键的单个核苷酸。为每个职位分配了两个分数:(1)损失分数衡量最大可能的减少,(2)收益分数衡量最大的增加。
高损失分数标记具有现有功能基序的位置,其中突变可能会损坏基序并降低可及性。基序内的突变和大量侧翼核苷酸导致预测可及性降低。全基因组范围内,所有细胞类型的损失分数的合成与PhyloP显著相关(图6)。
相反,高增益分数表明序列中存在潜在潜力;相应的突变通常引入功能基序以增加预测的可访问性。
Alt

Alt

图6 DNA酶I超敏反应的硅饱和诱变。(A) 我们使用Basset预测每个突变对H1人胚胎干细胞中Chr 9区域可达性的影响:118434976–118435175。热图显示了突变序列的预测可访问性的变化。每列对应于序列中的一个位置。每行代表对应核苷酸的突变。在下面的折线图中,损失分数衡量真实核苷酸的所有突变中的最大减少。增益分数衡量最大增长。我们绘制的核苷酸与损失分数成比例,超过最小高度。在该位点,该模型突出了AP-1复合物的TGASTCA基序(显示为FOS的CIS-BP数据库基序)。H1人胚胎干细胞中JUN和JUND的芯片序列证实了复合物的结合。根据PhyloP,结合基序显示出高度保守性。(B) 全基因组损失分数与PhyloP密切相关。(C,D)单独的增益分数与(C)的关系较弱,但增益和损失分数的组合与(D)的关系最强。

GWAS SNP可能因果性的可及性变化

Basset能够更好地预测GWAS SNP可能因果性的可及性变化。
Basset捕获了驱动可访问性的序列信号,并且应该具有对非编码变体进行优先排序的预测能力,并为进一步研究其对表型的因果作用提出了机械假设。

利用大规模模型可以准确高效地预测新数据集

通过利用基于公共数据的预训练模型,Basset可以快速学习准确预测新数据。
为了验证这个假设,文章从上述164个研究库中删除了跨越AUC范围的15个数据集。对剩下的149个“公共”数据集进行了再训练,以建立一个“预训练”模型。该模型在149个细胞中的平均AUC为0.892,与上面分析的完整模型相当。
对于每个剩余的数据集,分别从“公共”149个站点中抽取匹配数量的站点作为反例。文章没有仅在数据集上从头开始训练,而是使用“预训练”模型中的参数初始化模型参数。通过提供这种领先优势,只需对新数据进行一次训练,即可获得预测精度与上述完整164单元模型(上述完整164单元模型)相当的模型。

模型的评估

和gkm-SVM对比,使用AUC下的面积来评估模型(绘制了假阳性率和真阳性率)。
经过对比,Basset在所有细胞上实现了0.895的平均AUC,相对于gkm-SVM的0.780(图7B)。Basset显著提高了每种细胞类型的AUC。在10%的假阳性率下,Basset识别出55%-80%的真阳性DHS序列(图7C)
可以看出Basset比gkm-SVM更精确。
在一些不平衡数据集中,使用精度召回曲线(AUPRC)下的区域来进行评估。
通过该评估可以发现,尽管Basset提取了大量关于序列如何决定可访问性的信息,但目前没有能力从头注释大型基因组。
但是除了预测组成位点外,Basset还可以捕获细胞和谱系特定的可及性。

Alt

图7 Basset准确预测细胞特异性DNA可及性

模型优点

  • 通过直接建模从序列到活性的映射,Basset揭示了影响可访问性的精确核苷酸,提供了比仅与广泛区域重叠更精细的分辨率视图。
  • 如果原始实验中测序的基因组仅包括不可访问的等位基因,则没有迹象表明可访问性与SNP相关。Basset很容易识别这些功能增益突变。

猜你喜欢

转载自blog.csdn.net/dawnyi_yang/article/details/125804907