跳转至

RetroExplainer

论文标题:Retrosynthesis prediction with an interpretable deep-learning framework based on molecular assembly tasks
期刊:Nature Communications(2023)

Abstract

1.现有深度学习逆合成方法的问题
- 大多数深度学习方法都难以解释,如同一个“黑箱”,其中蕴含的insight较少。

2.本文工作
- 提出RetroExplainer,将逆合成任务形式化为分子组装过程
- 分子组装过程包含多个深度学习引导的逆合成操作步骤

3.模型的核心部件
- 多感知、多尺度图Transformer
- 具有结构感知能力的对比学习
- 动态自适应多任务学习

4.单步逆合成实验结果
- 在12个大规模benchmark数据集上的结果证明了RetroExplainer的有效性,其表现优于现有的SOTA单步逆合成方法

5.分子组装的可解释性
- 赋予模型良好的可解释性,使得决策过程透明化,允许进行定量归因

6.多步逆合成实验结果
- 成功识别出101条路径,其中86.9%的单步反应已有文献报道过的。

Introduction

1.分子逆合成任务
  • 为目标分子的高效合成,确定一组合适的反应物
2.基于模板的逆合成方法
  • 依赖于反应模板将产物转化为反应物
  • 通常使用分子指纹结合MLP,以编码分子产物,并推荐合理的模板
  • 举例
    • Segler等人利用扩展连接性指纹Extended-Connectivity Fingerprints, ECFPs),结合扩张策略网络来指导模板搜索。
    • Chen等人采用一种类似于单步逆合成预测器的策略,用于神经网络引导下的多步逆合成规划。
  • 问题
    • 构建反应模板的过程,目前仍然依赖于人工编码或者复杂的子图同构算法,使得在庞大的化学空间中探索潜在的反应模板变得困难
3.半模板、无模板逆合成方法
  • 目的:解决基于模板方法难以探索潜在模板的问题
  • 分子表示:利用分子指纹技术获取分子级别的表示。
  • 举例
    • Chen等人引入FeedForward EBM (FF-EBM)方法,由无模板模型进行补充与完善(complemented by template-free models)。
  • 分类
    • 基于序列的方法:将分子表示为线性化的字符串
    • 基于图的方法:将分子表示为图结构
4.基于序列的逆合成方法
  • 产物分子的表征:使用线性化记号,如SMILES(simplified molecular-input line-entry system)
  • 举例
    • Liu等人引入了 Seq2Seq模型,该模型包含双向长短时记忆(LSTM)编码器和解码器以进行逆合成转换。
    • Karpov等人针对逆合成分析调整了Transformer架构的学习率调度策略,并采用快照学习方法。
    • Tetko等人提出一种基于Transformer的逆合成模型,通过SMILES增强提高了性能。
    • 随着预训练-微调范式的兴起,Irwin等人提出了MolBART,利用大规模自监督预训练,加速逆合成任务的收敛。
  • 方法局限性
    • 线性化的分子表示方式(如SMILES)难以直接探索结构信息原子性质,这些内容对于逆合成分析至关重要。
    • 基于SMILES的分子表示方法语法严格,语义有效性不足,容易导致频繁出现无效语法
  • 解决方法
    • 其他一些方法被提出,以避免无效字符串的生成,或嵌入更为丰富的结构信息
5.基于图的逆合成方法
  • 两阶段范式实现
    • 反应中心预测RCP, Reaction Center Prediction
    • 合成子完成SC, Synthon Complesion)。
  • 应用——正向反应预测
    • Jin等人将其应用于正向反应预测,提出使用Weisfeiler-Lehman同构测试[30]图学习来预测反应结果。
  • 基于GNN框架的模型发展
    • 随着GNN的发展,许多基于GNN的框架出现于逆合成领域,并且在性能上取得了显著的提升。
    • Shi等人提出G2G框架,利用关系图卷积网络R-GCN)进行RCP,并结合强化学习进行SC
    • Yan等人提出的RetroXpert应用了图注意力网络GAT)的变种进行RCP,以及基于序列Transformer进行SC
    • Somnath等人提出的GraphRetro两个阶段设计了两种消息传递神经网络MPNNs)。
    • Dai等人提出GLN方法,利用反应模板连接产物和反应物
  • 传统基于GNN方法的问题
    • 主要关注分子的局部结构,忽略了长距离特征(如范德华力)的影响。
  • 问题解决
    • Ying等人提出Graphormer,引入了基于最短路径的方法进行多尺度拓扑编码
  • 直接模拟图变化的方法以外的其余方法
    • 其他基于图的方法通过翻译反应物,以预测图变化。
6.现有逆合成方法的问题
  • 信息表征的不足
    • 基于序列的方法:处理分子时,丧失先验信息。
    • 基于的方法:忽视顺序信息、长距离特征。
  • 可解释性差
    • 现有模型的决策机制尚不清晰,极大限制模型可靠性与实际应用价值
    • 无法解释模型的工作原理,或提供实质性的insight
  • 单步逆合成、反应物不易获取
    • 大多数现有方法侧重于单步逆合成预测,能够生成看似合理,但可能不易购得的反应物,
    • 通常伴随手工筛选预测结果的繁琐过程。
    • 从产物到容易获得的反应物,进行多步逆合成预测和路径规划,更有实际意义。
7.论文贡献
  • 提出RetroExplainer——一种结合化学知识、深度学习引导的分子组装方法,用于进行具有量化可解释性逆合成预测

  • 贡献一——构建强大、信息丰富的分子表征

    • 设计一种多感知、多尺度图TransformerMulti-Sense Multi-Scale Graph Transformer, MSMS-GT),用于通用的分子表征学习
    • 使用动态适应性多任务学习Dynamic Adaptive Multi-Task Learning, DAMT),以实现平衡的多目标优化
    • 使用结构感知对比学习Structure-Aware Contrastive Learning, SACL),以捕捉分子结构信息。
    • 结果:RetroExplainer在包括三个常用数据集(USPTO-50KUSPTO-FULLUSPTO-MIT)在内的共12个大规模benchmark数据集上表现优秀。
  • 贡献二——良好的可解释性
    • 引入分子组装过程
      • 提供透明的决策过程。
      • 生成能量决策曲线,将预测分解为多个阶段,并允许在子结构级别进行归因分析。
      • 有助于理解“反事实”预测,揭示数据集中潜在的偏置。
    • 引入可解释逆合成预测
      • 提供更细致的参考信息(例如:对某一特定化学键断裂的置信度),启发研究人员设计定制化的反应物。
  • 贡献三——确保预测产物的可合成性避免手动筛选候选反应物
    • 做法:整合RetroExplainer模型与Retro算法。
    • 结果:对101种复杂药物分子进行合成路线,86.9%的单步反应都能在文献报道中找到对应。

Results

一、基于USPTO数据集的性能比较
1.实验设置
  • 三个常用USPTObenchmark数据集:USPTO-50K, USPTO-FULL, USPTO-MIT
  • 比较:与21种逆合成方法进行对比。
  • 数据集分割方法:与以往工作相同的随机分割方法。
2.USPTO50K数据集实验结果(表1

  • 性能评估标准:top-k精确匹配准确度k分别设置为1, 3, 5, 10
  • RetroExplainer实验结果
    • 5项指标上,取得最优水平。
      • k = 1, 3, 5时,针对已知反应类型。
      • k = 1, 3时,针对未知反应类型。
    • k = 10的实验结果
      • 未达到最优精确度
      • 在已知/未知反应类型的条件下,精确度接近最优模型LocalRetro,与其差距分别为0.2%1%
    • 综合结果(不同top-k下的平均精度)
      • 分别根据是否提供反应类别信息,综合考虑top-1, top-3, top-5, top-10预测的平均精度RetroExplainer均获得最高精确度
      • 相比于第二名模型(已知反应类型为LocalRetro,未知反应类型为R-SMILES),平均精度分别改进1%0.1%
3.现有数据分割方法的问题及解决方案
  • 骨架评估偏差与信息泄露
    • 随机分割的数据集中,相似分子可能同时出现于训练集和测试集中,容易导致训练数据的信息泄露,进而使模型评估产生偏差。
  • 解决方案
    • 采用Kovács等人提出的基于Tanimoto相似性的数据分割方法。
    • 考虑3相似度阈值0.4, 0.5, 0.6)和3测试集分割比例0.2, 0.25, 0.3),由此产生了九种基于Tanimoto相似性的数据集。
    • 在上述9个数据集上,将RetroExplainerR-SMILESLocalRetro两种现有的最优方法进行比较。
  • 结果(图2
    • 针对上述9个数据集中的大部分数据集,RetroExplainertop-1, top-3, top-5, top-10精确匹配准确度上,均超过baseline方法
  • 结论
    • 进一步证明了RetroExplainer有效性、健壮性
    • 相比现有方法,RetroExplainer在处理未曾见过的分子骨架结构时,能展现出更强的领域适应性
4.大型数据集USPTO-FullUSPTO-MIT的实验结果
  • 结果(表2
    • 对于两个数据集的4中评价指标(top-1, top-3, top-5, top-10精确度)中,RetroExplainer均以较大优势取得最佳性能
    • USPTO-FULL数据集:RetroExplainertop-1, top-3, top-5, top-10精确度上,分别比第二名的R-SMILES高出2.5%, 4.1%, 2.7%, 2.8%
    • USPTO-MIT数据集:结果类似。
  • 结论
    • 更大规模数据集的评估条件下,RetroExplainer与以往的最先进相比方法,更为有效和稳定
    • RetroExplainer更适合大规模训练场景的应用,具有更大潜力。
  • 补充研究(后文)
    • 消融研究:讨论尺度信息、增强策略模块的有效性。
    • 案例研究:说明MSMS-GT如何聚焦于分子的多尺度结构
5.模型SOTA性能的解释
  • RetroExplainer取得更有表现的可能原因:数据建模的独特方法
  • 两种分布的同时捕捉
    • 提供产物分子图时,反应中心RC, Reaction Centers)和离去基团LG, Leaving Groups)之间的联合条件分布
      • 通过联合分布,考虑离去集团对反应中心的影响,使得模型可以学习信息更丰富的表示
    • 确定反应中心、离去集团和产物后离去集团之间连接关系条件分布
  • 效果
    • 增强模型泛化能力(尤其是涉及多个反应中心和离去集团的情形)
    • 避免了由于多个离去集团(或反应中心)问题,而产生的过度迭代需求。
    • 通过学习合成子连接关系的条件分布RetroExplainer能够有效适应更庞大、更复杂的数据集。
二、RetroExplainer模型架构及其可解释的insight

1.深度学习引导的六阶段透明决策过程(图3a
  • 原始产物P, Product
  • 离去基团匹配S-LGM, Leaving Group Matching
  • 初始化IT, Initializing
  • 离去基团连接S-LGC, Leaving Group Connecting
  • 反应中心键变化S-RCP, Reaction Center Bond Changing
  • 氢原子数量变化HC, Hydrogen Number Changing
2.决策阶段的“能量分数(energy score)”
  • 各阶段依据对最终决策的贡献,生成相应的能量分数
  • 能量分数来源:由经过训练的模块计算得出。
    • 离去基团匹配模块(LGM, Leaving Group Matching
    • 带氢原子的反应中心预测模块(RCP-H, Reaction Center Prediction for Attached Hydrogens
    • 键反应中心预测模块(RCP-B, Reaction Center Prediction for Bond
    • 离去基团连接模块(LGC, Leaving Group Connecting
  • 能量分数计算细节:见补充信息笔记4
3.六阶段决策过程的具体描述
  • P阶段出发,将该阶段的能量分数初始化为0。(在图3a中记为\(E\)
  • S-LGM阶段,根据LGM模块给出的概率预测选择一个离去基团LG),并基于LGM的概率预测,为该离去基团赋予一个能量分数
  • 计算IT阶段的能量分数。该步骤通过添加S-LGM阶段所选离去基团的能量,以及由RCP-HRCP-BLGM模块各自预测出的相应事件的概率而完成。
  • LGCRCP阶段,使用动态规划算法扩展搜索树中的所有可能结点。选择了概率大于设定阈值的事件,并据此给定各阶段的能量分数
  • 针对每个原子,调整氢原子数量和形式电荷,确保修改后的分子图遵循价键规则;最后,根据氢原子数量变化(HC, Hydrogen Number Changing)的成本,计算出最终的能量分数。
4.模型决策过程的作用与解释
  • RetroExplainer生成的决策曲线的作用
    • 揭示模型为何可能会做出“错误”(化学上合理,但与数据集中记录的实际答案不符)的预测
    • 有助于识别训练数据集中的潜在偏差(bias)。
  • 举例(图3b
    • 现象一
      • 通过胺脱保护法合成目标产物的“正确”答案在模型中排名第6,排名第1的预测则是C-N偶联反应
    • 解释
      • 经研究发现,氢原子数量变化HC, Hydrogen Number Changing)阶段是导致能量分数差异的关键阶段。
      • RetroExplainerHC阶段,倾向于预测胺基氢原子数量增加的反应物,表明模型在类似的分子骨架存在HC偏向性
    • 现象二
      • 在前12个预测的LGCRCP阶段区间,观察到两条斜率不同的直线,表明RCP阶段中,两种不同类型的反应中心RCs)有不同的反应模式C-N键是否断裂(进行合成还是分解)。
    • 解释
      • RetroExplainer理解到,合成模式有利于降低能量分数;相应地,在LGCRCP区间内的直线斜率为负
      • 上述内容解释了去除苯环中氢原子的困难反应排在第二位的原因
      • 排名第一、更容易合成目标产物的反应相比,苯环中移除的氢原子导致的能量差异较明显,表明决策曲线反应困难程度之间存关联
  • 更多RetroExplainer性能示例:见补充信息笔记5
5.分子组装过程的子结构(substructure)归因能力
  • 子结构归因能力
    • 通过针对各阶段对最终能量得分的贡献比例的分析,分子组装过程能够在子结构(substructure)层级实现归因能力。
  • 子结构归因能力的必要性
    • 在涉及多个反应中心RCs)的情况下,多个化学键的数量变化,或者多个氢原子的变化,往往会合并到同一阶段,从而造成某种程度的不确定性。(图3c展示了六个有代表性的相关实例)
  • 归因分析一——能量得分与反应难易程度的关联
    • 现象:通过对比排名第一、第二的预测(图3c中分子1、分子2),可以发现能量得分可能与反应的难易程度(例如选择性)相关。
    • 原因:尽管I:33C:26之间的连接不利于能量的减少,但在C:26添加一个氢原子所导致的能量增长约为前者的13(分别为13.51.02)。
    • 以往研究的结论:C–N交叉偶联反应通常涉及特定催化剂,并面临选择性问题。
    • I:33减弱了这种选择性问题,正与分子1的预测能量分数小于分子2的事实相对应。
  • 归因分析二——正确答案能量得分被高估的原因
    • 比较分子3、4和5可得,正确答案的能量得分被高估的原因是,模型倾向于断裂C:26N:27之间的化学键
    • 这一做法既能带来5.40的能量收益(源自化学键断裂),又能因N:27处增加一个氢原子而导致能量得分降低9.95。这两种形式的能量降低完全抵消了C:26处氢原子数增加所带来的能量增加影响
    • 因此,来自分子3的正确答案排名在分子2和分子5的预测之后,因为它未能从C:26N:27化学键断裂带来的能量减少中受益
  • 归因分析三——空间位阻对模型推理的影响
    • 现象:分子4、分子6分子结构相同,但预测出的能量分数不同。二者的唯一差别是,离去基团(LG)连接到了一对对称但编号不同的氮原子上。分子6的能量分数排名为21位。
    • 原因
      • 尽管这导致了在分子6的预测中N:27N:30处氢原子数量的变化,但它们相互抵消,对能量值总效应的影响仅为-0.53%。
      • 相比之下,最重要的因素是由C:33−N:30C:33−N:27形成的化学键所引起的能量变化;而前者导致的能量变化几乎只有后者的十分之一
      • 这是因为后者连接发生在化学键断裂之前,而C:30N:27之间的连接相对于N:30而言,会造成更大的空间位阻,最终导致能量增加
6.RetroExplainer对其他方法预测结果的重新排序
  • 通过采用如图3a所示基于能量的过程,RetroExplainer还可以对其他现有方法作出的预测进行重新排序
  • 重新排序算法伪代码:见补充信息笔记6
  • 实验设定
    • 选取3种不同的逆合成方法(RetroXpert, GLN, NeuralSym)生成的预测结果,使用RetroExplainer进行重新排序。
    • 选择原因:预测结果相对容易获取
    • 预测结果选取:对于每个目标产物,挑选50个预测结果进行重新排序;针对许多目标产物的预测结果不足50个的问题,引入一种基于平均百分比排名的评估策略。
  • 结果
    • 重新排序后的top-1, top-3, top-5, top-10准确率结果如图4所示。
  • 实验结论
    • 重新排序后,预测准确率取得显著提高
    • RetroExplainer具有强大的重新排序能力,能够改善其他已有方法的预测结果
三、RetroExplainer应用于多步逆合成预测






- 将RetroExplainer模型与Retro*算法、可购买分子列表相结合,用RetroExplainer替换了Retro的单步模型。
- 以protokylol(一种用于支气管扩张剂的β-肾上腺素受体激动剂)为例,说明RetroExplainer提供的解释。(图5
- RetroExplainerprotokylol设计了一条四步合成路线。
- 决策过程的能量得分揭示了支持RetroExplainer做出相应预测的关键子过程。

  • 方案的实用性
    • 许多提出的反应未能找到文献中的直接对应结果,但能发现具有高产率,且与RetroExplainer提出反应相匹配的类似反应
  • 提供了包含176个单步的101个路径规划案例,其中153个单步预测可以通过SciFindern引擎搜索40找到相似反应模式。
  • 实验设置、多路径规划结果及文献检索发现的更多详细信息:见补充信息附录7、补充数据1和补充数据2。
四、反应类型对实验的影响
  • 反应类型信息的注入方式
    • 给出反应类型时,super node中添加额外嵌入
    • \(L\)消息汇聚层后,super node被提取为图级别的表征
  • (表1)引入反应类型后top-k准确率的提升

  • 反应类型影响RetroExplainer性能的机制探究

    • 根据隐藏特征来源(最后一个RCP层/最后一个LGM层)、是否了解反应类型,提取4种类型的隐藏特征
    • (图6)反应类型对隐藏特征的影响
    • 方法:使用t-SNEt分布随机邻居嵌入)对反应类型标签进行着色,以展示压缩隐藏特征的分布情况。
    • 结论
      • 相比于不受反应类型限制的情况,反应类型对产物隐藏表征施加了更为规范的约束
      • 约束反应中心(RCs)的定位过程、离去基团(LGs)的匹配过程进行增强,从而提高了整体性能。

Discussion——RetroExplainer局限性与未来研究展望

  • 模型对离去基团(LG)预测能力的局限性
    • 预测罕见LGs性能受限
      • LGM模块是基于预先收集的LGs数据库预测分类器,简化了从补充信息附录3中的方程(S3.5)生成LGs的困难,并通过强先验保证了LGs合法性(即所有LGs均来自预收集的数据库)。
      • 受到训练集质量的根本限制,LGM方法在生成稀有LGs方面的灵活性有限,这是许多数据驱动模型共同面临的挑战。
      • 即使是基于翻译的模型,在预测常见LGs以便生成未曾见过LGs方面也不够健壮
    • 模型对常见LG的偏差
      • 尽管模型采用了如SACL等策略,使得LGM模块能够在重新排序外源反应物模式期间,从数据库中找到与未见LGs相似LGs作为代理(参考补充信息附录6中的算法),并扩大LGs数据库(在USPTO-FULL数据集中,作者收集了约7万个LGs),但仍无法完全消除这种偏向于常见LGs的偏差
      • 案例展示:见补充信息附录9
    • 有前景的改进技术
      • LGM进行预训练
      • 元学习
      • 主动学习
      • 数据增强
      • 上述技术有望改善模型在处理罕见化学结构片段(即LGs)预测问题时的性能和适应性。
  • 决策过程灵活性受限
    • 本实验涉及的分子组装过程
      • 作者在逆合成预测中提出了一种类似于SN2分子组装的过程,以生成带有能量的决策行动
      • 上述过程较为固定,虽然确实有效,但一些决策行动并不直观地符合其他不同的反应类型
      • 例如:没有明确LGs(离去基团)参与的特殊反应类型,可能直觉上更适合SN2机制(案例:见补充信息附录10)。
      • 对于不遵循SN2机制的其他多种反应类型,当前方法可能不够灵活
    • 可能的改进方法
      • 引入其他反应机制
        • 引入环加成反应、消去-加成反应等机制,反应机制可根据实际情况灵活选取,以设计更加灵活的决策过程。
      • 增加反应机制选择模块
        • 建议增加一个由LGM离去基团预测模块)和RCP反应中心预测)置信度决定的机制选择模块,以判断哪种类型的机制更适合用来产生更易于人类理解的解释。
      • 改进效果
        • 模型能更好地适应各种不同类型的化学反应,并且生成的人工智能解释将更为贴近化学家的思维习惯,以及实际反应机制。
  • 无法进行细粒度预测
    • 无法预测的详细反应信息
      • 反应操作
      • 温度
      • 反应时间
    • 反应条件预测已成为自动化合成平台发展过程中愈发紧迫的挑战,未来研究有待探索。

Methods

一、问题定义
1.基于图的逆合成预测
  • 化学反应的一般表示
    • \((\{G_{p;i}\}_{i = 1}^{N_p}, \{G_{r;j}\}_{j = 1}^{N_r})\),其中,\(G_p\)表示产物图,\(G_{r}\)表示反应物图。
  • 反应推理模型
    • \(f_{\theta}(\{G_{p;i}\}_{i = 1}^{N_p}, \{G_{r;j}\}_{j = 1}^{N_r})\),其中\(\theta\)是一组可学习的参数。
  • 前向推理模型
    • \(f_{\gamma}(\{G_{p;i}\}_{i = 1}^{N_p}, \{G_{r;j}\}_{j = 1}^{N_r})\)
  • 逆合成模型
    • 只有主产物输入,作为先验条件忽略了其余副产品。
    • \(f_{\gamma}(\{G_{p;i}\}_{i = 1}^{N_p}, \{G_{r;j}\}_{j = 1}^{N_r}/\{G_{p:m}\}|\{G_{p:m}\})\),其中\(\{G_{p:m}\}\)表示主产物。
    • 事实上,逆合成模型比前向模型更加复杂,前向模型的表现总体好于逆合成模型。
2.反应中心(Reaction Center, RC)和离去集团(Leaving Group, LG)
  • 反应中心
    • 子图\(G_c = \{(u, v), e_{uv}|e_{uv} \in G_{p}, e_{uv} \notin G_{r:j}, \forall G_{r:j} \in \{G_{r:j}\}_{i = 1}^{N_r}\}\),其中\((u, v)\)表示原子对,\(e_{uv}\)表示原子对之间的边。
  • 合成子
    • 一组图,根据反应中心,对产物图进行变换而成。
    • 合成子通常并不在化学上有效,后续过程通过在合成子上添加离去集团(LGs),形成最终反应物。
  • 离去集团
    • 反应物的子图,包含了并未出现于主产物之中的反应物原子和及其关联边。
3.基于GNNTransformer
  • 基于GNNTransformer的数据流
    • 一个句子,可以视为带有语义边(semantic edge)的全连接图。
    • 单词(word tokens)作为结点进行处理。
  • 多头注意力(MHA)
    • \(m_a^{(l)}:= \sum_{w' \in N_{w}}\tilde{a}_{w'w}S_{w'}^{(l - 1)}W_v, m_{w}^{(l)}:= \tilde{a}_{ww}S_{w}^{(l - 1)}W_V \cdots (1)\)
    • \(\tilde{a}_{w'w} = SOFTMAX(\frac{S_{w'}^{(l - 1)}W_Q(S_{w}^{(l - 1)}W_K)^T}{\sqrt{d_{k}}})\cdots (2)\)
    • \(S_{w}^{''(l)} = COMBINE(m_a^{(l)}, m_{w}^{(l)}) := CONCAT(\{m_a^{(l:k)} + m_{w}^{(l:k)}\}_{k = 1}^{n_{head}})W^O\cdots (3)\)
    • 上式中:\(N_{w} = S/{w}\)是结点\(w\)的语义邻域集合;\(d_{k}\)\(W_k\)的隐藏维度数目。
  • RetroExplainer对基于GNN的标准Transformer的改进
    • 标准Transformer无法处理拓扑空间中的边。
    • RetroExplainer中的Transformer解决了上述问题。
二、RetroExplainer框架

1.模型架构列举

(1)MSMS-GT, Multi-Sence and Multi-Scale Graph Transformer组件
(2)DAMT学习组件
(3)可解释的决策组件
(4)预测与路径规划组件

2.MSMS-GT, Multi-Sence and Multi-Scale Graph Transformer(多感知、多尺度图Transformer)组件
  • MSMS-GT模块(图1b右侧)
    • 模型利用多感知、多尺度化学键嵌入策略,以及原子拓扑编码策略,以捕捉化学上重要的信息。
    • 前两个编码器产生的分子向量通过多头注意力(MHA)机制进行混合。
3.DAMT学习模块(图1b左侧)


- 产出的隐藏分子表示同时传送给三个特定任务头:RCP(Reaction Center Prediction)、LGM(Leaving Group Matching)和LGC(Leaving Group Completion)。

4.动态适应多任务学习(DAMT, Dynamic Adaptive Multi-Task Learning)技术(图1c


- 目的:平等训练每个子任务。
- RCP, Reaction Center Prediction:识别化学键和各个原子连接的氢原子个数变化情况。
- LGM, Leaving Group Matching:对于产物、产品离去基团数据库中的离去基团进行匹配。
- LGC, Leaving Group Connection:对离去基团和产物片段进行连接。

5.决策组件(图1d


- 使用由5个逆合成动作,以及决策曲线能量分数组成的决策过程,将产物变换为反应物。

6.启发式树搜索算法
  • 树搜索算法基于单步逆合成预测,融入最后一个组件,以发现高效的合成路线,使用透明的决策流程,同时保证反应物的可获得性。
三、多感知多尺度图Transformer(MSMS-GT)组件的细节
1.原子嵌入表示与拓扑嵌入表示(Atomic and Topological Embedding)
  • 给定反应数据的SMILES表示\(S_r\),产物的相应分子图\(G_{p} = (V, A)\)得到构建,其中原子被视为一个规模为\(N\)的结点集合。
  • 将原子视为单词(word tokens),构建语义域(semantic domain)的全连接图。
  • 拓扑嵌入表示的引入
    • 额外添加拓扑嵌入表示,目的:衡量原子在图的空间域中的重要性。
    • 用拓扑嵌入表示替代传统位置编码,以免破坏最初的排列不变性。
    • 使用结点的度数,用以描述原子的空间重要性。
  • 初始化结点特征
    • \(h_{\nu}^{(0)} = \sum_{i = 1}^{K_a}\phi_{x_i}(x_i) + \phi_d(deg(\nu))\)
    • 带有不同下标的\(\phi(\cdot)\):分别表示不同的嵌入函数。
    • \(x_{i}\):第\(i\)个原子特征(例如:原子序数、形式电荷等)。
    • \(deg(\nu) \in \mathbb{R}\):表示原子\(\nu\)的总度数。
  • 引入总度数的作用:作为强大的先验知识,使得注意力分数可以同时捕捉语义和空间信息。
2.多感知、多尺度化学键嵌入表示
  • 引入化学键信息的作用:提高图的表达能力。
  • 化学键性质编码
    • 对于\(\sigma/\pi\)轨道、共轭键等化学键性质进行编码,编码后使用邻接矩阵\(\{A_{i} \in \{0, 1\}^{N \times N}\}_{i = 1}^{K_b}\)记录。其中,\(K_b\)是不同的感知。
    • 不使用基于类型的方法进行边特征嵌入表示。
    • 原因:直接揭示隐藏在化学键类型背后的反应相关属性(如:是否在环中),能提高模型对复杂反应类型的理解能力。
    • 不同的化学键类习惯可能共享相同属性。
      • C-C, C=C均具有\(\sigma\)轨道。
      • 传统化学键类型编码无法表达这一信号。
  • 化学键信息融入图数据
    • 受到公式\((2)\)的启发(对基于原子对的语义边进行学习),作者考虑将化学键信息作为分子结构的一种先验。
    • 将化学键信息添加到\(SOFTMAX(\cdot)\)之前的语义分数。
  • 化学键特征嵌入公式
    • \(m_{a}^{(l)} = \sum_{u \in N_{v}}\tilde{a}_{uv}h_u^{(l - 1)}W_V, m_{V}^{(l)} = \tilde{a}_{vv}h_{v}^{(l - 1)}W_V \cdots (5)\)
    • \(a_{uv} = \frac{h_{u}^{(l - 1)}W_Q(h_v^{(l - 1)}W_k)^T}{\sqrt{d_k}} + \sum_{i}^{K_b}\phi_i(A_{i; uv}), \tilde{a}_{uv} = SOFTMAX(a_{uv}) \cdots (6)\)
    • 上式中,\(N_{v} = V / \{v\}\)是原子\(v\)的邻域集合。
3.空间特征的嵌入表示
  • 上述模型架构的表达能力仍然不如简单GNN,简单GNN过分关注空间域中的1跳邻居。
  • Graphormer的解决方案
    • 使用一种最短路径嵌入表示。
  • 全局距离\(A_g\)的计算
    • 路径距离:由化学键长度进行计算
    • 三维距离:由MMFF优化得到的构象进行计算
  • 引入全局距离嵌入表示后的Transformer公式
    • \(a_{uv} = \frac{h_u^{(l - 1)}W_Q(h_v^{(l - 1)}W_K)^T}{\sqrt{d}_{k}} + \sum_{i}^{K_b}\phi_i(A_{i; uv}) + RBF(A_{g;uv}) \cdots (7)\)
    • 高斯径向基函数:\(RBF(A) = \frac{exp(-(A - \phi_{mean})^2)/2\phi_{std}^2}{\sqrt{2\pi} \phi_{std}} \cdots (8)\)
  • 全局距离的特点
    • 引入空间信息,但总体上忽略了化学键信息。
  • 原子环境(AE, Atom Environment)
    • 将数个原子视为一个token
    • 对于逆合成预测发挥了重要作用。
  • 最终的注意力分数公式
    • \(bias_{uv} = \sum_{i}^{K_b}\sum_{j = 1}^{K_r} \phi_i(A_{i; uv}^j) + RBF(A_{g;uv}) \cdots (9.1)\),第一项为局部项,第二项为全局项。
    • \(a_{uv} = \frac{h_u^{(l - 1)}W_Q(h_v^{(l - 1)}W_K)^T}{\sqrt{d_k}} + bias_{uv} \cdots (9.2)\)
    • \(A_i^j\):矩阵\(A_i\)\(j\)次幂矩阵,描述了半径为\(j\)的原子环境。
    • \(K_r\):原子环境的最大半径。
    • 局部项:\(\phi_i(A_{i; uv}^j)\)
    • 全局项:\(RBF(A_{g;uv})\)
    • \(A_{i}^j, A_i \in\{0, 1\}^{N \times N}\):记录了各原子之间距离为\(j\)的路径数目,从而对半径为\(j\)的原子环境进行了描述。
  • 最终注意力公式(公式\((9)\))的理解
    • 利用自注意力机制,学习结点特征之间的语义关联性。
    • 引入多层级环境\(\{A_i^j\}_{j = 1}^{K_r}\),以及多感知嵌入表示\(\{A_{i}\}_{i = 1}^{K_b}\),以在局部尺度充分利用丰富的化学键信息。
    • 添加原子的全局嵌入表示,以在空间域捕捉全局范围。
    • 结论:RetroExplainer的表达能力至少与GNN等量齐观;此外,全局项\(RBF(A_{g;uv})\)允许了三维距离嵌入表示的引入(本实验结果:引入三维距离嵌入表示不是必要的)。
四、特定任务头(Specific Task Heads)、决策组件
1.特定任务头
  • 设计3个不同的特定任务头以满足不同需求。
  • RCP(Reaction Center Prediction):在判定反应中心时,针对各个化学键的变化给出一个概率分布。
  • LGM(Leaving Group Matching):在产物和各个候选离去基团间,计算相容性分数。