论文笔记_大作业PPT: 这是我自己做的配套PPT,仅供参考 (gitee.com)
基本信息
Nature Computational Science ( IF 12.0 )
Pub Date : 2024-06-17
一作:Jenna C. Fromer,目前是一名化学工程系的博士生
二作:Connor W. Coley ,是MIT化学工程系、电子工程系和计算机科学系的副教授,研究方向是机器学习、实验室自动化、化学合成、分子设计、药物发现。
引言
具有理想性质的小分子一般都通过设计分子、合成分子和测试分子这一迭代过程来得到,但从大量可能的候选分子中选择哪些分子进行合成和测试是一个关键问题,而且在许多化学研究中都存在这个问题,比如药物发现、催化剂和溶剂的选择等。现有的计算工作流+化学家的经验,的确能做到针对性合成自己想要的分子,但合成这些分子所需要的成本、测试这些分子所需要的成本,经常会被简化,甚至是忽略。一些生成式模型,经常会给出一些不太可能合成的分子,也间接导致评估这些复杂分子的成本特别高。
因此,我们需要一个充分考虑分子合成成本的方案,来优化分子合成的过程,确保在有限的资源下,优先合成那些既具有高价值和成本效益的分子。作者提出SPARROW (Synthesis Planning And Rewards-based Route Optimization Workflow,这个名字也很有意思,组合起来叫麻雀,令人印象深刻) 。这是一个算法决策框架,它使用一个综合考虑分子价值和成本效益的优化标准,从候选分子池中选择最优的分子并给出设计路线。
候选集合中的每个分子,包括数据库现有的、算法从头设计的、专家猜想的,都被标注了预期的性能和潜在的合成路线。SPARROW权衡每个候选分子的效用和它们的合成成本——不是一个一个权衡,而是作为一个批次来权衡,然后选择一个最佳的候选物子集进行合成和测试。在所描绘的分子逆合成图中,橙色圆圈表示反应节点,粉色代表目标化合物,蓝色代表中间化合物,绿色圆圈代表可购买化合物,也就是起始材料。
SPARROW是怎么做到权衡的呢?是因为作者提出了一个基于图优化的数学公式,目标是求出这个公式的最大值。这个公式可以被形式化为:所有选定分子的期望奖励除以涉及到选定分子的合成路线的总成本,如图所示:
为了更好地解决最优化问题,作者将该公式转换为一个线性函数,力求最大化分子累积效用,最小化合成成本和反应失败的风险,该函数一共有三个项:
第一项是被选中的候选分子的累积奖励,第二项是购买起始材料的成本,第三项是发生反应的步骤数及其成功的可能性。正加权因子λ = [λ1,λ2,λ3]为每个目标分配权重,并且可以个性化调整,以得到明显平衡成本和效用的解决方案。λ1的值越高,通常会导致解决方案中有更多候选分子和更高累积奖励值。λ2的值越高,起始的化合物材料越便宜。λ3值越高,解决方案中的反应次数就越少,实验成功可能性较低的反应也越少。
随后,作者在文章中举了三个例子展示SPARROW的能力。通过三个案例研究对SPARROW进行了测试,以展示其识别成本效益路线、平衡信息获取和成本、联合化合物库与从头设计的优越性。这三个案例都使用了ASKCOS平台(这个平台我第一次接触,我查了一下,说它是一个用于化学合成规划和反应成功预测的计算平台。它利用人工智能来辅助化学家在药物发现和有机合成研究中的工作)。作者做了一个限制,要求只保留在平台上路线生成时间小于60秒的路线。
作者接入了Chemspace数据库,并使用2023年10月的化合物的价格作为SPARROW关于成本的参考。而且作者很严谨地在支撑材料附上了一张图,说明从2023年10月到2024年4月用于实验的化合物,它们的成本并没有太大的波动,不会影响到SPARROW和其他baseline的比较。
案例研究一
SPARROW需要从14个候选分子选择部分分子进行合成,这14个分子是针对丙氨酸-丝氨酸-半胱氨酸转运蛋白2(ASCT2)的抑制剂。SPARROW展示了如何根据不同的权重因子选择不同的合成路线,以平衡成本和信息增益。比如λ = [8,1,1],SPARROW便从14个候选分子中选择3个进行合成,累积奖励是2.2,也就是0.64+1+0.6,一共选择了5种起始化合物,产生8个反应;在反应箭头旁边的得分和合成条件是根据ASKCOS平台获得的。
也就是说,用户对成本和信息增益的偏好直接影响SPARROW的解决方案。这里再重申一下,λ1的值越高,通常会导致解决方案中有更多候选分子和更高累积奖励值。λ2的值越高,起始的化合物材料越便宜。λ3值越高,解决方案中的反应次数就越少,实验成功可能性较低的反应也越少。同时,SPARROW会尽可能地利用共同的起始材料和重叠的反应步骤来降低合成一批分子的总成本,作者称这一成本为non-additivity of batch synthetic costs。有一点需要注意,作者在起始材料中标注的价格是单价,起始材料成本依据的是单价的总和,而不考虑材料所需的数量。所以这一点就是我认为SPARROW的局限性,万一某个材料单价低,但需要量大,才能成功合成我想要的分子,这个成本是不应该被忽略的,之后的研究者可以根据这一点进行创新改进。
我们将SPARROW的性能与不考虑non-additivity of batch synthetic costs的策略进行比较——这种策略也是就baseline,有三种情况——仅基于奖励的,仅基于合成可能性(SA)得分的,以及基于综合得分的。对于每种策略,改变λ和目标化合物的数量与种类,就能得到多种解决方案。
在这种情况下,SPARROW和Baseline方案需要的反应步骤数与对应的累积奖励如图a。然而,与baseline相比,SPARROW选择的路线所需要的起始材料更便宜,并且更可能被化学反应合成出来,且需要的反应步骤数更少,如图b。能做到这么多优点集于一身,也是挺不容易的。
案例研究二
展示了SPARROW利用共同中间体、联合化合物库与从头设计来合成分子的能力。这个案例选择了121个待合成的分子,也就是候选分子,它们来自同一个设计周期并通过了逆合成过滤器。作者根据属性预测模型对每个候选分子进行评分,并采用非支配排序(non-dominated sorting)从1到14进行排序。根据U =(14−rank)/13,将非支配等级转换为0 ~ 1之间的奖励。非支配排序的每个等级也被称为Pareto前沿,因为它们代表了在目标之间的最佳权衡。我查了很多资料,实在不理解这个排序到底是什么意思,如果师兄师姐有接触过的话可以解答一下。具体的合成过程如图所示。
SPARROW从联合化合物库中得知,这121个候选分子中有些可以直接购买到,于是SPARROW建议直接购买它们,如标红的分子所示,再次说明了SPARROW具有权衡购买候选分子和合成候选分子的成本的能力。尽管在当前案例二下,所有候选分子都是通过生成模型提出的,但SPARROW提出的合成路线也证明了它整合联合化合物库和从头设计分子的能力。该图所示的合成路线,展示了某些候选分子同时也作为反应中间体的情况。
与所有baseline相比,SPARROW不负众望,依旧选择了由更便宜的起始材料、更少的反应步骤数和更高的模型置信度分数组成的路线来合成目标分子,如图所示。
作者说SPARROW的筛选过程还可以被可视化为一个已选择节点和未选择节点的网络图。这个图画的还挺好的,看起来很舒服
案例研究三
突出了SPARROW为具有数百个分子的候选集优化合成路线的能力。这个案例使用了300个阿来替尼类似物的候选集,SPARROW能够为大多数候选化合物找到合成路线(顺便说一下,这个阿来替尼alectinib被称为对抗肺癌的最强靶向药)。
以从300个候选分子开始规划设计周期为例,SPARROW工作流程的总运行时间约为13小时。计算成本中约有5小时用于合成规划,4小时用于搜索可购买性和成本,4小时用于条件推荐和评分。对于最优化问题,通常使用PuLP工具包和一些开源求解器在几秒钟内解决。这表明了在SPARROW框架中,一旦定义了优化问题(例如,选择合成路线的问题),就可以利用这些高效的计算工具快速找到解决方案。
PULP的速度会受到一些情况的影响,比如权重因子跨越不同的数量级(例如,λ =[20,0.1, 0.1]),导致需要几分钟或几小时才能得出答案。这一观察结果与作者先前对路线选择任务的研究结果一致,可能是由于对不同数量级的数字进行算术运算所产生的数值不稳定性造成的。在得到合成路线前的步骤中,逆向合成规划(retrosynthetic planning)、可购性搜索(buyability search)、反应条件推荐(condition recommendation)、计算反应得分(reaction scoring)最耗时,这些步骤速度的提高将有助于未来研究将SPARROW的线性优化问题扩展到更大的候选集。这个案例面对的是300个候选分子的候选集,如果候选集更大,有上千个候选分子,SPARROW就会采用更快的逆向合成树搜索算法和对建议反应更快的评估。
SPARROW会将合成路线按共享的起始材料分组。SPARROW会容忍较长的合成路线,以获得更高的回报,证明其平衡成本和回报的能力。有一些合成路线虽然长,但是性价比很高,这个在某些情况下是SPARROW所推荐的,而且SPARROW会尽可能使用常见的起始材料和商业上可用的候选材料,降低购买成本。该图展示了SPARROW高效构建合成路线的能力,只需四个起始材料就能合成三个候选分子。
讨论
总的来说,SPARROW是一个集中的框架,提供了一个统一的平台来评估不同来源的分子和合成路线。,可以补足现有分子设计工具在准确捕获效用和合成成本方面的短板,并通过三个案例展示了SPARROW的强大能力。“成本”被作者反复强调,我们在分子候选池中选择合成哪些分子时,不仅要考虑分子的潜在价值,还要考虑合成它们的成本。SPARROW框架通过算法来实现这一平衡,使得分子的合成决策更加科学和经济。它为药物发现和化学研究提供了一种新的工具,可以帮助研究人员在分子合成的早期阶段做出更加明智的决策,从而提高研究的效率和成本效益。这对于药物开发和化学、材料科学等领域具有重要的应用前景。
SPARROW也有局限性,作者说:目前SPARROW假设分子的效用是相互独立的,这意味着在评估分子时不考虑它们之间的相互作用或关系。这对某些情况,比如需要优化分子多样性,或优先考虑匹配分子对揭示微妙的结构-活性趋势的作用来说,是不够的。同时SPARROW假设每个反应的成本是恒定的,并相互独立于其他选定反应,且其中没有包括试剂和催化剂的成本,这种假设忽略了可能存在的规模经济等复杂因素,让成本计算出现误差。SPARROW将合成成本作为一个最小化目标,而不是作为一个约束条件来处理,这可能不适用于那些有明确预算限制的项目。在多目标优化中,调整多个λ权重因子以找到最佳解决方案可能会很复杂,需要大量手动调整和经验判断。
关于代码
SPARROW中的--target-csv是唯一必需的参数,其他的都会有默认值,比如--reward-weightL、--start-cost-weightL、--reaction-weightL、--max-rxnsE等。SPARROW 将一组结果文件和检查点(如果相关)输出到指定的输出目录 (--output-dir)。用于该运行的所有参数都以 params.ini 输出。summary.json 中包含 SPARROW 输出的摘要,包括候选化合物的数量、反应和所选的起始材料。所选路线以两种单独的格式提供,均为 json 文件。routes.json 为每个选定的候选化合物提供合成路线,solution_list_format.json单独列出选定的候选化合物、选定的反应和选定的可购买材料。作者在GitHub上说,他未来还有一些要实现的目标,比如将反应条件合并到目标函数中、制作逆合成树的可视化、修改优化函数公式以更好地捕获信息增益和成本。
其他研究
作者的其他研究也很有参考意义,而且许多都发表到了Nature子刊上,大家有兴趣的话可以深入了解,主要内容都是关于分子设计与合成的。举几个例子:
Gao, W. & Coley, C. W. (2020). The synthesizability of molecules proposed by generative models.
Coley, C. W., Rogers, L., Green, W. H. & Jensen, K. F. (2018). SCScore: synthetic complexity learned from a reaction corpus.
Coley, C. W. et al.(2019). A robotic platform for flow synthesis of organic compounds informed by AI planning.
Gao, W., Mercado, R. & Coley, C. W.(2022). Amortized tree generation for bottom-up synthesis planning and synthesizable molecular design.