【论文阅读】中医类药性分析:使用机器学习方法预测类药性

版权声明:欢迎转载,转载请注明出处:土豆洋芋山药蛋 https://blog.csdn.net/qq_33414271/article/details/85643309

论文来源:
Sheng, Tian,Junmei, Wang,Youyong, Li,Xiaojie, Xu,Tingjun, Hou.Drug-likeness analysis of traditional Chinese medicines: prediction of drug-likeness using machine learning approaches.[J].Molecular pharmaceutics,2012,9(10):2875-86.

背景知识:

新药创制过程:
在这里插入图片描述
先导物的发现与优化约占价值链10%,时程约3-5年, 但决定了后面90%的命运。

优化先导物并确定候选药物对于新药创制的成败至关重要,候选药物的质量取决于先导物的优劣和优化准则,发现和确定高质量先导物是重要的起点。

我们需要做的工作:确定先导化合物是否有类药性。(类药性是对先导化合物的要求,成药性是对候选药物的要求)

摘要

从大量化合物中挑选出高质量的先导化合物有利于帮助新药创制的整个流程。基于这个目的,文中就搭建了基于分子理化性质和结构指纹图谱的贝叶斯分类模型,以此预测类药性。(作者还建立了RP(recursive partitioning )模型,最后发现还是贝叶斯好 (NBC))

首先:分子理化性质和结构指纹图谱是确定可以使用的,而且研究发现指纹图谱相比较于分子理化性质预测结果更加重要。结果也表明,贝叶斯分类器的预测精度与训练集的大小和均衡程度密切相关。当使用平衡训练集时,基于21个理化性质的和LCFP_6指纹集的最佳贝叶斯分类器可以使总体leave-one -out (LOO)交叉验证精度为91.4%,训练集中的14万个分子为90.9%,测试集中的4万个分子为90.9%。

其次:利用结构指纹的贝叶斯分类器突出了对药物相似度有利或不利的重要子结构,为在药物设计/发现过程的早期获得高质量先导化合物提供了额外有价值的信息。

最后:最优贝叶斯分类器用于中医药数据库(Traditional Chinese Medicine Compound Database (TCMCD))时,结果显示其中59.73%分子被认为是类药性分子,说明中药是类药物分子的优良来源。对TCMCD中重要的结构指纹图谱进行了检测和分析后,考虑到TCMCD的药理学和MDDR(MDL Drug Data Report)是重要的共同联系的结构特点,潜在的化合物的药理学TCMCD可能因此被这些从贝叶斯分析出的重要结构注释签名确认,这也可能会促进中药的发展。

一、介绍

1.不是所有化学分子都能成药。
化学分子空间或许有 1 0 40 1 0 100 10^{40}-10^{100} 这么大,已发现的大概有 2. 7 7 2.7^{7} 种,但能成药的或具有类药性的就更少了。

2.从化合物到药有很多困难,如何避免这种耗时的方式是一个值得去解决的问题。

3.药物数据库:
CMC (Current Medicinal Chemistry),
MDDR (MDL Drug Data Report),
WDI (World Drug Index)
非药物数据库(nondrug databases),如ACD (Available Chemicals Directory)

二、方法

1.准备数据库

想要知道是否有类药性,需要分子数据库来判断。
选择的原始数据库:
MDDR:142,747 分子
ACD:2,175,382 分子
TCMCD:63,759 分子

处理:
1.大分子不具有较好的吸收性质,所以去电分子量大于600的。
2.ACD子数据库中分子的平均分子量比MDDR子数据库中分子的平均分子量少约120。为了使预测分子类药性不依赖与分子量,所以从ACD和TCMCD中抽取和MDDR中分子量类似的分子。

最终构成:
MDDR:123927个分子
TCMCD:33961个分子
ACD:123927个分子

2.训练集&测试集

测试集:

共:40,000 个分子
组成:随机在MDDR中选20,000 ,ACD中选20,000 。

训练集:

上面选出后剩下的就是训练集,但具体怎么使用训练集是一个值得思考的问题。

1998年,Sadowski和Kubinyi分别从WDI和ACD中分别选取5000个分子作为训练集进行药物相似度分析。

2003年,Byvatov等人使用了来自WDI的4998个类药物分子和来自ACD的4210个非类药物分子的训练集。Byvatov等人认为,ACD中的分子数量远远大于WDI中的分子数量,因此,WDI中的类药物分子与ACD中的非类药物分子的比例从原来的1:44.4倾斜到几乎1:1。

在这篇工作中,为了了解训练集的大小以及类药物分子与非类药物分子的比例如何影响类药物模型的分类精度,我们基于不同的训练集开发了多个分类模型。

平衡的训练集
首先,随机从ACD和MDDR中提取10000个分子,得到2万个分子的平衡训练集(第一个训练集)。然后,通过每次从MDDR和ACD子集中随机选取20,000个分子(分别为MDDR和ACD子集中的10,000个和ACD子集中的10,000个)加入到现有最大的训练集中,生成更多的训练集。最后一个训练集包含ACD和MDDR子集的所有条目,不包括进入测试集的条目。总共准备了10个训练集。基于这些训练集建立贝叶斯分类器,并通过相同的测试集进行验证。

不平衡的训练集:
从上述40000个分子的平衡测试集中,将MDDR随机选取的2000个分子和ACD随机选取的2000 - 18000个分子合并到不平衡测试集中,类药物分子与非类药物分子的比例由1:2变为1:9。

在平衡测试集外的分子中,随机从MDDR中选取10000个类药物分子,从ACD中选取20000 - 90000个分子构建不平衡训练集。对于每个训练和测试周期,训练集中类药物分子与非类药物分子的比例与测试集相同。根据计算结果,评估训练集的不平衡程度对预测精度的影响。

3.分子描述符的计算

文中采取21个分子描述符
在这里插入图片描述

4.分子指纹图谱的计算

利用SciTegic扩展连接性指纹(ECFP, FCFP, LCFP)和基于日光路径的指纹(EPFP, FPFP, LPFP)来表征所研究分子的子结构特征。应该注意的是,指纹类后面跟着下划线和最大距离。例如,最大直径6的函数类扩展连接指纹生成一个名为FCFP_6的属性。在这里,对于每一类指纹,我们的分析都考虑了两种直径,4和6。(较小的直径2没有被使用,因为基于直径2的结构碎片非常小和普遍)。指纹表示的特征集比预定义的子结构集大得多。此外,这些指纹不需要预先选择或预定义,因为它们是直接从分子生成的。因此,新的分子类和普通类一样容易处理。使用Discovery Studio分子模拟包生成结构指纹

5.类药性的贝叶斯分类器

贝叶斯分类能够处理大量的数据,学习速度快,对随机噪声具有容忍度。此外,朴素贝叶斯分类只需要少量的训练数据来估计分类所需的参数(变量的均值和方差)。
在这里插入图片描述
C表示化合物是否具有类药性,F表示特征。
p ( C F 1 , F 2 ,   , F 3 ) p(C|F1,F2,\cdots,F3) 是化合物类别的后验概率。
p ( C ) p(C) 为先验概率,由训练集得到。
p ( F 1 , F 2 ,   , F 3 C ) p(F1,F2,\cdots,F3|C) 是一类药物或非药物的化合物具有一定描述符的概率。
p ( F 1 F n ) p(F1,…,Fn) 是给定描述符在数据集中出现的边际概率。

右侧的三种概率可以从包含大量类药物和非类药物分子的训练集中得到。前面描述了训练朴素贝叶斯分类器的数学过程。朴素贝叶斯分类器是在Discovery Studio分子仿真包中开发的。

6.评价标准

true positives (TP)
true negatives(TN)
false positives (FP)
false negatives (FN)

敏感度:SE = TP/(TP + FN)
特异性:SP = TN/(TN + FP)
类药性预测正确概率:Q+ = TP/(TP + FP)
非类药性预测正确概率:Q− = TN/(TN + FN)
马修斯相关指数: C = ( T P × T N F N × F P ) / [ ( T P + F N ) ( T P + F P ) ( T N + F N ) ( T N + F P ) ] 1 / 2 C = (TP × TN − FN × FP)/[(TP +FN)(TP + FP)(TN + FN)(TN + FP)]^{1/2} 注:马修斯相关指数从0到1,越大越好。

三、结果分析

3.1平衡数据集分析

如上所述,训练集的分子数在20,000到207,854之间,测试集的分子数为40,000 (MDDR为20,000,ACD为20,000)。首先,利用20,000个分子的最小训练集,评估了基于分子特性和/或结构指纹的朴素贝叶斯分类器的性能。表1总结了这些分类器的统计数据。通过对训练集的低leaone -out (LOO)交叉验证Matthews相关系数C(0.277),可以观察到仅使用21个分子描述符的分类器的性能并不好。
在这里插入图片描述
在训练中加入分子指纹,可以大大提高贝叶斯分类器的性能。基于分子特性的贝叶斯分类器加入ECFP_4、LCFP_4、ECFP_6或LCFP_6指纹,在C值大于0.700时,具有良好的分类性能。

尤其是结合分子特性和LCFP_6指纹集的最佳分类器,对训练集的敏感性为89.3%,特异性为86.0%,类药物分子分类准确率为86.4%,非类药物分子分类准确率为88.9%,C值为0.753。

与此同时,四个更好的分类器(MP + ECFP_4,MP + LCFP_4,MP + ECFP_6,MP + LCFP_6)的训练集也给C值比其他测试集高。

基于分子特性的最佳贝叶斯分类器和LCFP_6指纹图谱对检测集的敏感性为87.7%,特异性为85.0%,C值为0.728。


为了更深入的了解训练集的大小对分类模型性能的影响,我们将平衡训练集中的分子数量从20000个改变为207854个,并构建和验证了相应的分类器。结果表明,贝叶斯分类器的预测精度随着训练集的增长而提高。基于21个分子特性的贝叶斯分类器的预测结果,以及LCFP_6指纹集的预测结果如图1所示。
在这里插入图片描述

当平衡训练集的大小从20,000增加到140,000时,测试集的C值从0.753迅速增加到0.818。然而,当训练集的大小从140,000增加到207,854时,测试集的C值仅从0.818略微增加到0.829。一个有趣的发现是,训练集的预测精度并不总是比测试集高。当训练集的大小增加到180000年的预测精度训练(C = 0.828)和测试集(C = 0.825)非常相似。基于以上分析,我们认为140,000的训练集就足以在计算效率和预测精度之间取得良好的平衡。


然后利用140,000个分子的训练集,对基于21个分子特性和不同指纹集的贝叶斯分类器进行相同的测试集训练和验证,这些贝叶斯分类器的C值如图2所示。我们观察到基于140,000训练集的不同指纹集对预测精度的影响与基于20,000分子训练集的指纹集相似。正如我们所预期的,结合分子特性和LCFP_6指纹集也可以得到最佳的贝叶斯分类器。该分类器的敏感性为91.4%,特异性为90.4%,类药物分子预测准确率为90.5%,非类药物分子预测准确率为91.3%,训练集交叉验证C值为0.818,测试集C值为0.815。
在这里插入图片描述


通过训练集和测试集的两个双峰直方图,评价了基于21个分子特性的朴素贝叶斯分类器和用于区分类药物和非类药物分子的LCFP_6指纹集的预测精度。如图3所示,类药物分子的贝叶斯正分数较多,而非类药物分子的贝叶斯负分数较多。最好的分手贝叶斯评分值分离药物如从非类药性−2.358左右。同时,我们注意到,有一个稍微−25和25之间的重叠区域的训练集和测试集。所以−25和25之间的区域可以被定义为“不确定的区域”。当一个分子的贝叶斯分数位于不确定区域时,对该分子的预测是不可靠的。
在这里插入图片描述

最后,质量最好的贝叶斯分类器是进一步的特点是接受者操作特征(ROC)曲线(图4),和ROC曲线下的面积(AUC) 0.967 0.984 140000个分子的训练集和测试集的40000分子,分别展示了预测的贝叶斯分类器是准确和可靠的。
在这里插入图片描述

3.2非平衡数据集分析

我们都知道非药物类分子的数量明显大于药物类分子的数量;也就是说,非药物分子和药物分子是相当不平衡的。为了研究训练集的不平衡组成对贝叶斯分类器预测能力的影响,制备了多个不平衡训练集和测试集,构造并验证了相应的分类器。对于每个贝叶斯分类器,训练集和测试集都使用相同的类药物分子与非类药物分子的比例,类药物分子与非类药物分子的比例由1:2变为1:9。例如,如果使用1:2的比例,训练集有10000个类药物分子和20000个非类药物分子,测试集有2000个类药物分子和4000个非类药物分子。基于不平衡训练和测试集的贝叶斯模型预测精度如图5所示。
在这里插入图片描述
显然,贝叶斯模型的预测精度随着类药物分子与非类药物分子比例的增加而降低。当1:2的比例增加1:9,贝叶斯模型的C值从0.726减少到0.564为训练集和测试集的0.739到0.575。

与此同时,训练集的假阳性数从2871迅速增加到11949,测试集的假阳性数从545迅速增加到2282;然而,假阴性的数量变化不大。

不平衡训练集的C值随训练集大小的函数增大而增大,而不平衡训练集的C值随训练集大小的函数减小。我们的观察并不令人惊讶,因为当类药物分子与非类药物分子的比例降低时,假阳性的增长速度远远快于假阴性。显然,基于不同训练集和不同比例的分类器是无法直接比较的,所以我们很难选择最好的比例。**考虑到预测的稳定性,基于平衡训练集训练的分类器的分析可能是更好的选择。**所以在接下来的讨论中,我们使用了基于140,000个分子的平衡训练集的贝叶斯分类器。

3. 药物相似的重要片段分析

根据贝叶斯分类器,将每个指纹的相对重要性按贝叶斯分数进行排序,这些重要的分子片段可以为实验和计算化学家设计出具有更好药物相似性的分子提供帮助。利用21个分子性质的14万个分子的平衡训练集和LCFP_6指纹集训练出的最佳贝叶斯分类器,得到了前6000个好的分子片段和前6000个不好的分子片段。从图6中分子片段的累积百分比可以看出,在训练和测试集中,超过一半的分子共享前2500个好的或坏的分子片段。因此,类药物分子和非类药物分子包括一些常见的化学亚结构或分子片段
在这里插入图片描述


按照贝叶斯分数排序的前30个好片段和30个坏片段如图7所示。图7a所示的这些良好的指纹为我们提供了一些关于分子如何变得更像药物的线索。
在这里插入图片描述
我们系统分析了训练集中MDDR分子中片段前10的药理活性(图8),有趣的是,具有相同片段或亚结构的分子通常具有与MDDR相似的药理活性。具体来说,药理作用对于大多数MDDR分子片段1是支气管扩张剂,那些对于大多数MDDR分子片段2抗关节炎药和抗肿瘤药,对大多数MDDR分子片段3、7和8是抗高血压,这些对于大多数MDDR分子片段4抗心律失常的防心绞痛的,这对于大多数MDDR分子片段5,6,9日和10是碳青霉烯抗生素。例如,前2个片段的20个分子如图9所示。根据我们的观察,我们可以得出以下结论:贝叶斯分类器识别出一些关键亚结构的分子更有可能具有相似或相同的药理活性;也就是说,重要的分子片段可以作为结构特征来推断研究分子的药理作用。

图8:
在这里插入图片描述

图9:
在这里插入图片描述

前30个不利于药物相似的指纹如图7b所示。要理解为什么这些子结构是不利的不是很简单。一个可能的原因是这些子结构有反应中心。例如,其中3个指纹图谱(片段3、6和11)含有1,2-二羰基,这是一个具有代表性的反应官能团,负责实验结合实验的体外假阳性。

4.分子分类错误的分析

利用最佳贝叶斯分类器,预测试验集中类药物MDDR分子1814个为假阴性,预测试验集中非类药物ACD分子1883个为假阳性。药物类药物概率最高的20个ACD分子和非药物类药物概率最高的20个MDDR分子如图10所示。
图10:
图10
如图10a所示,通过贝叶斯分析,可以明显看出MDDR中前20位非药物样分子存在不良片段。例如,分子1、2和3有片段5,如图7b所示。有趣的是,图10a中的分子7、8、10、14含有芴基团,这与之前的研究报道的观察结果一致。18此外,我们发现图10a中的4个分子至少违反了Lipinski的“五法则”中的两条规则。然后我们对MDDR中排名前20位的非药物样分子进行了发展阶段的检测,发现有18个分子处于生物检测阶段,2个处于临床前阶段。这些在MDDR中预测的非药物样分子很可能处于药物发现的早期阶段。

同样,根据贝叶斯评分,测试集中ACD前20个类药分子如图10b所示。ACD的前20例假阳性病例可能具有良好的药物相似性片段。例如,分子1、2、3、13、14、15和19包含片段29,如图7a所示。目前还没有完全非药物类数据库。虽然ACD通常用作非药物类数据集,但一些ACD化合物也用于高通量筛选。因此,ACD含有许多类药物分子也就不足为奇了。然后我们检查了ACD前20个类药分子与训练集MDDR中70000个类药分子的分子相似性,这20个假阳性在MDDR中发现了846个类似类药分子。这可能是这20个ACD分子分类错误的重要原因。根据我们的预测,ACD中约9%的化合物为类药物分子,而贝叶斯分类器预测的ACD类药物分子在虚拟筛选中需要更多的关注

5.TCMCD是类药物还是非类药物

如前所述,我们已经得到了一个基于140,000个分子的平衡训练集的具有惊人预测精度的药物相似贝叶斯分类器。然后我们使用贝叶斯分类器来评估TCMCD中分子的药物相似性。需要注意的是,提取了含有33961个分子(分子量小于600)的TCMCD子集,训练时TCMCD子集的分子量分布与MDDR子集相似。我们希望这些定量预测能够解决一个多年来一直困扰着医学和计算化学家的难题:TCMCD是类药物还是非类药物?根据我们的预测,在TCMCD亚群中,20163个为类药物分子,20163个为非类药物分子,类药物分子在TCMCD中的比例为59.37%。如果将TCMCD中的所有分子都纳入药物相似分析,则预测43,108个分子(67.61%)为药物相似分子。也就是说,TCMCD更像药物而不是非药物。纽曼和同事指出,一半的新化学实体(NCEs)FDA批准的天然产品的起源或来源于天然产物在1981−2002.37当然,分子在TCMCD天然产物的重要组成部分。因此,我们认为TCMCD是类药物分子的良好来源。

为了了解TCMCD中一些重要的分子指纹图谱的分布情况,我们对TCMCD中包含前50个片段的分子进行了研究。图12显示了来自TCMCD的20个分子,这些分子具有前50个有利于药物相似性的指纹图谱。
图12:
在这里插入图片描述
此外,这些指纹图谱的主要药理活性如图12所示。我们的分析和广泛的文献检索表明,图12中的一些分子的生物活性已经被报道。例如,分子2有保护作用,38岁的39个分子3强心剂和抗惊厥的活动,40、41分子7具有抗菌和抗生素活动,42−45分子8显示抗炎,血管舒张,和磷酸二酯酶(PDE) III和IV抑制活动,46−49和分子11日12日13日和20日展览抗菌和抗真菌作用。50,51令人兴奋的是,我们发现4个分子(2,3,7,8)的实验药物活性与指纹图谱的药物效应预测的相同或相当相似。例如,包含Bayesian评分最高片段的分子8的活性与MDDR中包含相同片段的分子(抗炎、支气管扩张剂、磷酸二酯酶(PDE) IV活性)十分相似(图7a)。因此,TCMCD和MDDR中具有相同重要指纹的分子可能具有相似甚至相同的生物活性

我们知道,在酶或细胞水平上对TCMCD的药理学研究还很有限,对大多数TCMCD分子的药理活性尚不清楚。利用重要指纹图谱的药理作用来注释TCMCD分子的药理活性可能是一种较好的方法。希望本研究能为医药和计算化学家加速中药的开发提供一些线索。

总结

本文以分子量分布相似的MDDR和ACD子集为基础,采用朴素贝叶斯分类和递归划分技术建立药物相似度预测模型。首先系统研究了分子特性和不同指纹图谱对预测的影响,发现加入分子指纹图谱可以显著提高预测效果,尤其是LCFP_6指纹图谱。各种构造贝叶斯分类器是通过改变药物如non-drug-like分子的比例和训练集的大小。结果表明,平衡训练集的大小和程度与贝叶斯分类器的预测精度密切相关,当平衡训练集,最好的贝叶斯分类器基于21分子物理化学性质和LCFP_6指纹设置了一个厕所旨在准确性91.4%的训练集和测试集的90.9%。

另一方面,通过贝叶斯分析,识别出最重要的对药物相似度有利或不利的分子片段,对药物设计/发现过程早期设计高质量的先导化合物有很大的帮助。最后,**利用最优贝叶斯分类器对TCMCD的药物相似度进行了评价,发现TCMCD中大部分分子为类药物。**基于这一观察,TCMCD被认为是类药物分子的良好来源。我们希望我们的研究能够促进中医在未来的发展。

猜你喜欢

转载自blog.csdn.net/qq_33414271/article/details/85643309