笔记:《Graph Convolutional Neural Networks for Predicting Drug-Target Interactions》-2019

1. 读《Graph Convolutional Neural Networks for Predicting Drug-Target Interactions》-2019

1.1概述

文章模型的目标:靶标-配体匹配,图卷积学习有意义的蛋白质口袋的框架

提出的算法模型:用于预测蛋白质-配体相互作用的GCN。

算法性能:在常见的虚拟筛选基准数据集上获得了更好或可比的3dcnn配体评分、Autodock Vina、RF-Score和nnScore

在GCN中,每一个node对应一个残基,每一个边缘表征节点之间的距离,蛋白质口袋由所有的残基空间排列而成,与不同的配体结合后就会发生对应graph的变化;在本文中,我们将蛋白质口袋表示为关键残基的图,其中每个节点对应于一个口袋残基。每个残基节点进一步接受一个描述局部氨基酸微环境的属性向量。

本文的图卷积网络框架

  1. 无监督的口袋图自编码器在具有代表性的可放置药物的口袋用来学习一般的口袋特征并将蛋白质口袋嵌入固定大小的潜在空间中。
  2. 构造了一个Pocket Graph-CNN和一个配体Graph-CNN,分别从Pocket图表和2D配体图中提取特征。允许网络以识别各种口袋特征,口袋Graph-CNN使用步骤1中学习的权重进行初始化。然后,交互层集成了从口袋和配体Graph-CNN中学习到的功能。最后,分类器吸收学习到的交互来执行预测。

另外,在步骤二中,模型训练由绑定分类标签驱动。因此,该模型将自动提取特定于任务的表征靶标和配体之间相互作用的特征。此外,由于模型分别接受了口袋图和配体图,因此该模型不需要蛋白质-配体复合物作为输入。

验证的数据集:DUD-E和Maximum Unbiased Validtion (MUV)数据集。

1.2 具体方法

数据集:DUD-E训练目标和配体结合的分类器,同时构造了两个基于原始DUD-E数据集的数据集,负袋以及经过实验验证的负配体;MUV作为独立的测试集。

蛋白质分子特征化流程:每一个蛋白质袋表示为关键残基的graph,检测口袋残基周围6Å的原子残基可以结合的配体,每个定义口袋图
口袋残基作为残基节点。功能的位置使用相应残基类型的原子定义每个残差节点的中心坐标。当然不同的氨基酸的接待你的范围不同。

小分子特征话流程:表示为二维的分子graph,其中graph的node是键的单个原子以及边缘。每一个原子节点为一个大小为62的描述符:元素one-hot码、原子的度数、连接氢原子的个数、内价、芳香度等等,边缘的话有大小为6的描述符:包括粘结类型(单,双,
三键或芳香键)、键是否共轭的和键是否为环。

整体算法结构

在这里插入图片描述

  1. 无监督预训练的口袋graph自编码器

    • 由于DUD-E数据集本身的label仅有102个,所以直接的网络会限制解决更多种类的问题解决。所以这里的算法设计了一个无监督的框架来学习一般的蛋白质口袋965个代表性蛋白质袋的功能特点。

    • 其优势在于,使用无监督可以利用可用的蛋白质结构的已知结合位点,

    • 缺点是没有足够的结合数据学习通用的,固定大小的蛋白质袋描述符。

      • 其中编码器,将输入降维,权重矩阵 W W ,偏置 b b ,以及非线性激活函数

      • 解码器,权重矩阵 W W' ,偏置 b b' ,以及非线性激活函数回到原始尺寸

      • loss function:输入信号 x x 和重建信号 x x' 间的差

      • h = t a n h ( W x + b ) x = t a n h ( W T h + b ) h=tanh(Wx+b)\\ x'=tanh(W^Th+b')

    • 使用Duvenaud的方法,使用图卷积运算将自编码器用到graph上,图卷积自编码器包括两个自编码器:

    • 第一个autoencoder:

在这里插入图片描述
编码器1由一组图形组成邻域卷积滤波器 W d e g y i , y 0 , 1 , D W_{deg_yi},y \in {0,1…,D} ,两个结果向量(度向量+自向量+偏置)的ReLU。解码器1由使用编码器对应的矩阵转置生成,(类比普通的自编码器结构)。loss function是最小化邻域嵌入的差 v n i 1 v n i 1 v_{n_{i-1}} - v_{n_{i-1}}’ 与残差嵌入的差 v x i 1 v x i 1 v_{x_{i-1}} - v_{x_{i-1}}’ 的和。这里与传统的自编码器不同的是,解码部分需要解码一个hidden vector的不同的向量。训练后,解码器丢弃。

  • 第二个autoencoder:

在这里插入图片描述

编码器2由将残基嵌入物 v x i v_{x_i} (自编码器的编码器的输入结果)进行进一步的计算如下:
F P x i = s o f t m a x W F P i v x i + b F P i FP_{x_i} =softmax(W_{FP_i}v_{x_{i}}+b_{FP_i})

解码器2同解码器1。
v x i = t a n h W F P i T F P x i + b F P i v_{x_i}'' =tanh(W_{FP_i}^T FP_{x_i}+b_{FP_i}')

loss function 对于所有节点 v x i v x i v_{x_i}-v_{x_i}'' 的和

最终同样舍弃解码过程,计算 F P p o c i FP_{poc_i} :

F P p o c i = a v e r a g e ( F P x i ) FP_{poc_i}=average(FP_{x_i})

  1. 监督图卷积绑定分类器

在这里插入图片描述

  • 步骤1中我们已经提取了蛋白质的通用特征,所以步骤2中构建的是完整的模型来预测药物-靶标的相互作用。
    • pocket图卷积模块:从第一大步的自编码器的512维特征输出作为输入,这样可以直接从第一大步中使用权重,然后直接对于训练权重进行微调。(节点属性为特征向量)
    • 分子图卷积模块:直接使用特征长度为216的,两层卷积网络。(节点属性原子描述符,边特征连接描述符)
    • 交互层:上面两个网络输出特征的concatenate,输出的100维表示favorable和nonfavorable interaction between the target and ligand。
    • softmax分类层:计算binging或者non-binding
  1. 网络训练以及数据部分:
  • 网络训练:
    • 自编码器一500个epoch收敛,自编码器二100个epoch收敛。
    • 训练GCNN时,使用的是DUD-E数据集,进行了4折交叉验证。
    • 口袋图卷积模块使用来自部分的预训练编码器权重进行初始化。 分子图、相互作用层和分类器的权重是随机初始化的。 在有监督的培训阶段,第一pocket Graph-CNN层的权重固定为保留低级功能,我们允许更高层次的口袋Graph-CNN中的权重可以进行微调。
    • 测试数据集使用MUV
    • 使用RMSProp作为优化函数,深度学习架构为Theano。
  • 网络评估:
    • 对于预训练模型,将最后层的fingerprint使用t-SNE映射到2D space。不同的class使用不同的颜色进行标注。
    • 对于监督模型,使用ROC(AUC)进行评估。具体的,各个靶配体的结合概率通过对应的test fold model进行评估。并且3DCNN protein-ligand scoring,Vina, and two other machine learning scoring functions, RFScore and NNScore等模型进行对比评估。
    • 进行了配体至靶标滥交的指标判断,这里主要使用了层次聚类的方法,直接使用scipy.cluster.hierarchy。对于所有测试列的并集所有四个结合倾向矩阵来构建测试结合倾向矩阵。同样,层次聚类是在测试矩阵的行和列上执行发现靶标和配体的分组。
    • 对于更加具有挑战性的target-ligand数据集(分离程度小于0.05),产生了八个最终的MUV目标配体集。
    • 评估target-ligand数据集使用MUV数据集,使用AUC和RE metric指标,并与3DCNN protein-ligand scoring,Vina, RF-Score, and NNScore进行比较。
    • 对于MUV数据集的交叉验证:使用GCNN和之前的3DCNN进行同参数下的比较。
    • 图的计算范围对于预测的影响以及模型对于pocket构造的敏感性度量。
    • 关键相互作用节点的识别以及口袋和配体重要性分数的推导基于分层显着性图计算。
  1. 结果:
  • 无监督的预训练模型,graph自编码器:
    • 使用t-SNE分别降维到2D、3D进行编码器的可视化,使用SCOP进行相近颜色的标注。
    • 使用AUC和RE进行Graph-CNNs, Vina, 3DCNN 、RF-Score, and NNScore 的评价,基于DUD-E的模型。
    • 对于DUD-E的绑定配置文件,通过矩阵显示:其中的行对应于靶标的活性配体,列对应于靶标的结合口袋。矩阵中的条目[i,j]包含活性成分的预测靶标i的活性配体的于目标j的平均结合倾向。(不同于混淆矩阵,列和、行和不为0)。对于层次聚类后的结果也进行了讨论,基本类似,除了列上的层次化聚类会导致聚类稍微分散。
    • 对于muv数据集进行外部验证,其中X轴显示活性物质与负离子的分离相应的MUV目标,Y轴显示平均值MUV目标与DUD-E结合的口袋相似性网络关系。 使用四个象限可以比较好的描述。
    • 使用AUC和RE进行Graph-CNNs, Vina, 3DCNN 、RF-Score, and NNScore 的评价,基于MUV的模型,还有就是分别只用structure-base和ligand-Base的结果。
    • MUX数据集上的交叉验证。
    • Pocket Graphs的贡献。
    • 网络可视化工作。
  1. 进一步讨论:
    • 无监督的pocket结果可以表示pocket的相似性。
    • 与3DCNN的区别:1.无需使用共晶结构作为输入;2.3-fold vs 4-fold
    • 使用AUC和RE来评估模型在预测靶与配体结合关系,并进一步评估了网络预测结合倾向的能力。
    • GCNN没有使用MUV作为数据集进行训练,仅仅使用其作为测试,所以三个字数据集的效果弱于原先的算法。

1.3 结论

  • DUD-E数据集仍然不完整。高质量的大规模数据集,包括目标配体和配体与靶标的结合倾向可以大大改善深度学习的方法对预测的配体-靶标结合的性能。

1.4 领域内的名词:

  • SMILES :使用ASCII码表述分子结构。(用字符串表示三维的化学结构)
  • PDB-ID:每个新的(蛋白质等的)结构被收录时,将会被赋予一个4个字符的PDB ID。
  • DUD-E数据集:包括102个跨不同蛋白质家族的靶点。对于每个目标,该数据集提供一组活性物(阳性示例)和一组诱饵配体(阴性示例)。平均每个目标有224个活动和10000个诱饵。计算诱饵在物理上与活动诱饵相似,但在拓扑上与活动诱饵不同。每个目标的代表性X射线结构被选为优先考虑更高的结构分辨率、更高的对接能力和人体正射影像。

猜你喜欢

转载自blog.csdn.net/qq_39867051/article/details/106976508