RetroExplainer

论文标题：Retrosynthesis prediction with an interpretable deep-learning framework based on molecular assembly tasks
期刊：Nature Communications(2023)

`Abstract`

1.现有深度学习逆合成方法的问题
- 大多数深度学习方法都难以解释，如同一个“黑箱”，其中蕴含的insight较少。

2.本文工作
- 提出RetroExplainer，将逆合成任务形式化为分子组装过程
- 分子组装过程包含多个由深度学习引导的逆合成操作步骤

3.模型的核心部件
- 多感知、多尺度图Transformer
- 具有结构感知能力的对比学习
- 动态自适应多任务学习

4.单步逆合成实验结果
- 在12个大规模benchmark数据集上的结果证明了RetroExplainer的有效性，其表现优于现有的SOTA单步逆合成方法

5.分子组装的可解释性
- 赋予模型良好的可解释性，使得决策过程透明化，允许进行定量归因。

6.多步逆合成实验结果
- 成功识别出101条路径，其中86.9%的单步反应是已有文献报道过的。

`Introduction`

1.分子逆合成任务

为目标分子的高效合成，确定一组合适的反应物。

2.基于模板的逆合成方法

依赖于反应模板将产物转化为反应物
通常使用分子指纹，结合MLP，以编码分子产物，并推荐合理的模板。
举例
- Segler等人利用扩展连接性指纹（Extended-Connectivity Fingerprints, ECFPs），结合扩张策略网络来指导模板搜索。
- Chen等人采用一种类似于单步逆合成预测器的策略，用于神经网络引导下的多步逆合成规划。
问题
- 构建反应模板的过程，目前仍然依赖于人工编码或者复杂的子图同构算法，使得在庞大的化学空间中探索潜在的反应模板变得困难。

3.半模板、无模板逆合成方法

目的：解决基于模板方法难以探索潜在模板的问题。
分子表示：利用分子指纹技术获取分子级别的表示。
举例
- Chen等人引入FeedForward EBM (FF-EBM)方法，由无模板模型进行补充与完善(complemented by template-free models)。
分类
- 基于序列的方法：将分子表示为线性化的字符串。
- 基于图的方法：将分子表示为图结构。

4.基于序列的逆合成方法

产物分子的表征：使用线性化记号，如SMILES(simplified molecular-input line-entry system)。
举例
- Liu等人引入了 Seq2Seq模型，该模型包含双向长短时记忆（LSTM）编码器和解码器以进行逆合成转换。
- Karpov等人针对逆合成分析调整了Transformer架构的学习率调度策略，并采用快照学习方法。
- Tetko等人提出一种基于Transformer的逆合成模型，通过SMILES增强提高了性能。
- 随着预训练-微调范式的兴起，Irwin等人提出了MolBART，利用大规模自监督预训练，加速逆合成任务的收敛。
方法局限性
- 线性化的分子表示方式（如SMILES）难以直接探索结构信息和原子性质，这些内容对于逆合成分析至关重要。
- 基于SMILES的分子表示方法语法严格，语义有效性不足，容易导致频繁出现无效语法。
解决方法
- 其他一些方法被提出，以避免无效字符串的生成，或嵌入更为丰富的结构信息。

5.基于图的逆合成方法

两阶段范式实现
- 反应中心预测（RCP, Reaction Center Prediction）
- 合成子完成（SC, Synthon Complesion）。
应用——正向反应预测
- Jin等人将其应用于正向反应预测，提出使用Weisfeiler-Lehman同构测试[30]图学习来预测反应结果。
基于GNN框架的模型发展
- 随着GNN的发展，许多基于GNN的框架出现于逆合成领域，并且在性能上取得了显著的提升。
- Shi等人提出G2G框架，利用关系图卷积网络（R-GCN）进行RCP，并结合强化学习进行SC。
- Yan等人提出的RetroXpert应用了图注意力网络（GAT）的变种进行RCP，以及基于序列的Transformer进行SC。
- Somnath等人提出的GraphRetro为两个阶段设计了两种消息传递神经网络（MPNNs）。
- Dai等人提出GLN方法，利用反应模板连接产物和反应物。
传统基于GNN方法的问题
- 主要关注分子的局部结构，忽略了长距离特征（如范德华力）的影响。
问题解决
- Ying等人提出Graphormer，引入了基于最短路径的方法进行多尺度拓扑编码。
直接模拟图变化的方法以外的其余方法
- 其他基于图的方法通过翻译反应物，以预测图变化。

6.现有逆合成方法的问题

信息表征的不足
- 基于序列的方法：处理分子时，丧失先验信息。
- 基于图的方法：忽视顺序信息、长距离特征。
可解释性差
- 现有模型的决策机制尚不清晰，极大限制模型可靠性与实际应用价值。
- 无法解释模型的工作原理，或提供实质性的insight。
单步逆合成、反应物不易获取
- 大多数现有方法侧重于单步逆合成预测，能够生成看似合理，但可能不易购得的反应物，
- 通常伴随手工筛选预测结果的繁琐过程。
- 从产物到容易获得的反应物，进行多步逆合成预测和路径规划，更有实际意义。

7.论文贡献

提出RetroExplainer——一种结合化学知识、深度学习引导的分子组装方法，用于进行具有量化可解释性的逆合成预测。
贡献一——构建强大、信息丰富的分子表征
- 设计一种多感知、多尺度图Transformer（Multi-Sense Multi-Scale Graph Transformer, MSMS-GT），用于通用的分子表征学习。
- 使用动态适应性多任务学习（Dynamic Adaptive Multi-Task Learning, DAMT），以实现平衡的多目标优化。
- 使用结构感知对比学习（Structure-Aware Contrastive Learning, SACL），以捕捉分子结构信息。
- 结果：RetroExplainer在包括三个常用数据集（USPTO-50K、USPTO-FULL和USPTO-MIT）在内的共12个大规模benchmark数据集上表现优秀。
贡献二——良好的可解释性
- 引入分子组装过程
  - 提供透明的决策过程。
  - 生成能量决策曲线，将预测分解为多个阶段，并允许在子结构级别进行归因分析。
  - 有助于理解“反事实”预测，揭示数据集中潜在的偏置。
- 引入可解释逆合成预测
  - 提供更细致的参考信息（例如：对某一特定化学键断裂的置信度），启发研究人员设计定制化的反应物。
贡献三——确保预测产物的可合成性、避免手动筛选候选反应物
- 做法：整合RetroExplainer模型与Retro算法。
- 结果：对101种复杂药物分子进行合成路线，86.9%的单步反应都能在文献报道中找到对应。

`Results`

一、基于`USPTO`数据集的性能比较

1.实验设置

三个常用USPTO的benchmark数据集：USPTO-50K, USPTO-FULL, USPTO-MIT。
比较：与21种逆合成方法进行对比。
数据集分割方法：与以往工作相同的随机分割方法。

2.`USPTO50K`数据集实验结果（表`1`）

性能评估标准：top-k精确匹配准确度，k分别设置为1, 3, 5, 10。
RetroExplainer实验结果
- 在5项指标上，取得最优水平。
  - k = 1, 3, 5时，针对已知反应类型。
  - k = 1, 3时，针对未知反应类型。
- k = 10的实验结果
  - 未达到最优精确度
  - 在已知/未知反应类型的条件下，精确度接近最优模型LocalRetro，与其差距分别为0.2%和1%。
- 综合结果（不同top-k下的平均精度）
  - 分别根据是否提供反应类别信息，综合考虑top-1, top-3, top-5, top-10预测的平均精度，RetroExplainer均获得最高精确度。
  - 相比于第二名模型（已知反应类型为LocalRetro，未知反应类型为R-SMILES），平均精度分别改进1%和0.1%。

3.现有数据分割方法的问题及解决方案

骨架评估偏差与信息泄露
- 在随机分割的数据集中，相似分子可能同时出现于训练集和测试集中，容易导致训练数据的信息泄露，进而使模型评估产生偏差。
解决方案
- 采用Kovács等人提出的基于Tanimoto相似性的数据分割方法。
- 考虑3种相似度阈值（0.4, 0.5, 0.6）和3种测试集分割比例（0.2, 0.25, 0.3），由此产生了九种基于Tanimoto相似性的数据集。
- 在上述9个数据集上，将RetroExplainer与R-SMILES和LocalRetro两种现有的最优方法进行比较。
结果（图2）
- 针对上述9个数据集中的大部分数据集，RetroExplainer在top-1, top-3, top-5, top-10精确匹配准确度上，均超过baseline方法。
结论
- 进一步证明了RetroExplainer的有效性、健壮性。
- 相比现有方法，RetroExplainer在处理未曾见过的分子骨架结构时，能展现出更强的领域适应性。

4.大型数据集`USPTO-Full`和`USPTO-MIT`的实验结果

结果（表2）
- 对于两个数据集的4中评价指标（top-1, top-3, top-5, top-10精确度）中，RetroExplainer均以较大优势取得最佳性能。
- USPTO-FULL数据集：RetroExplainer在top-1, top-3, top-5, top-10精确度上，分别比第二名的R-SMILES高出2.5%, 4.1%, 2.7%, 2.8%。
- USPTO-MIT数据集：结果类似。
结论
- 在更大规模数据集的评估条件下，RetroExplainer与以往的最先进相比方法，更为有效和稳定。
- RetroExplainer更适合大规模训练场景的应用，具有更大潜力。
补充研究（后文）
- 消融研究：讨论尺度信息、增强策略模块的有效性。
- 案例研究：说明MSMS-GT如何聚焦于分子的多尺度结构。

5.模型`SOTA`性能的解释

RetroExplainer取得更有表现的可能原因：数据建模的独特方法。
两种分布的同时捕捉
- 提供产物分子图时，反应中心（RC, Reaction Centers）和离去基团（LG, Leaving Groups）之间的联合条件分布。
  - 通过联合分布，考虑离去集团对反应中心的影响，使得模型可以学习信息更丰富的表示。
- 在确定反应中心、离去集团和产物后，离去集团之间连接关系的条件分布。
效果
- 增强模型泛化能力（尤其是涉及多个反应中心和离去集团的情形）
- 避免了由于多个离去集团（或反应中心）问题，而产生的过度迭代需求。
- 通过学习合成子连接关系的条件分布，RetroExplainer能够有效适应更庞大、更复杂的数据集。

二、`RetroExplainer`模型架构及其可解释的`insight`

1.深度学习引导的六阶段透明决策过程（图`3a`）

原始产物（P, Product）
离去基团匹配（S-LGM, Leaving Group Matching）
初始化（IT, Initializing）
离去基团连接（S-LGC, Leaving Group Connecting）
反应中心键变化（S-RCP, Reaction Center Bond Changing）
氢原子数量变化（HC, Hydrogen Number Changing）

2.决策阶段的“能量分数(`energy score`)”

各阶段依据对最终决策的贡献，生成相应的能量分数。
能量分数来源：由经过训练的模块计算得出。
- 离去基团匹配模块（LGM, Leaving Group Matching）
- 带氢原子的反应中心预测模块（RCP-H, Reaction Center Prediction for Attached Hydrogens）
- 键反应中心预测模块（RCP-B, Reaction Center Prediction for Bond）
- 离去基团连接模块（LGC, Leaving Group Connecting）
能量分数计算细节：见补充信息笔记4。

3.六阶段决策过程的具体描述

从P阶段出发，将该阶段的能量分数初始化为0。（在图3a中记为\(E\)）
在S-LGM阶段，根据LGM模块给出的概率预测，选择一个离去基团（LG），并基于LGM的概率预测，为该离去基团赋予一个能量分数。
计算IT阶段的能量分数。该步骤通过添加S-LGM阶段所选离去基团的能量，以及由RCP-H、RCP-B和LGM模块各自预测出的相应事件的概率而完成。
在LGC和RCP阶段，使用动态规划算法扩展搜索树中的所有可能结点。选择了概率大于设定阈值的事件，并据此给定各阶段的能量分数。
针对每个原子，调整氢原子数量和形式电荷，确保修改后的分子图遵循价键规则；最后，根据氢原子数量变化（HC, Hydrogen Number Changing）的成本，计算出最终的能量分数。

4.模型决策过程的作用与解释

RetroExplainer生成的决策曲线的作用
- 揭示模型为何可能会做出“错误”（化学上合理，但与数据集中记录的实际答案不符）的预测
- 有助于识别训练数据集中的潜在偏差(bias)。
举例（图3b）
- 现象一
  - 通过胺脱保护法合成目标产物的“正确”答案在模型中排名第6，排名第1的预测则是C-N偶联反应。
- 解释
  - 经研究发现，氢原子数量变化（HC, Hydrogen Number Changing）阶段是导致能量分数差异的关键阶段。
  - RetroExplainer在HC阶段，倾向于预测胺基氢原子数量增加的反应物，表明模型在类似的分子骨架中存在HC偏向性。
- 现象二
  - 在前12个预测的LGC至RCP阶段区间，观察到两条斜率不同的直线，表明RCP阶段中，两种不同类型的反应中心（RCs）有不同的反应模式，即C-N键是否断裂（进行合成还是分解）。
- 解释
  - RetroExplainer理解到，合成模式有利于降低能量分数；相应地，在LGC至RCP区间内的直线斜率为负。
  - 上述内容解释了去除苯环中氢原子的困难反应排在第二位的原因。
  - 与排名第一、更容易合成目标产物的反应相比，苯环中移除的氢原子导致的能量差异较明显，表明决策曲线与反应困难程度之间存关联。
更多RetroExplainer性能示例：见补充信息笔记5。

5.分子组装过程的子结构(`substructure`)归因能力

子结构归因能力
- 通过针对各阶段对最终能量得分的贡献比例的分析，分子组装过程能够在子结构(substructure)层级实现归因能力。
子结构归因能力的必要性
- 在涉及多个反应中心（RCs）的情况下，多个化学键的数量变化，或者多个氢原子的变化，往往会合并到同一阶段，从而造成某种程度的不确定性。（图3c展示了六个有代表性的相关实例）
归因分析一——能量得分与反应难易程度的关联
- 现象：通过对比排名第一、第二的预测（图3c中分子1、分子2），可以发现能量得分可能与反应的难易程度（例如选择性）相关。
- 原因：尽管I:33与C:26之间的连接不利于能量的减少，但在C:26处添加一个氢原子所导致的能量增长约为前者的13倍（分别为13.5和1.02）。
- 以往研究的结论：C–N交叉偶联反应通常涉及特定催化剂，并面临选择性问题。
- I:33减弱了这种选择性问题，正与分子1的预测能量分数小于分子2的事实相对应。
归因分析二——正确答案能量得分被高估的原因
- 比较分子3、4和5可得，正确答案的能量得分被高估的原因是，模型倾向于断裂C:26和N:27之间的化学键。
- 这一做法既能带来5.40的能量收益（源自化学键断裂），又能因在N:27处增加一个氢原子而导致能量得分降低9.95。这两种形式的能量降低完全抵消了C:26处氢原子数增加所带来的能量增加影响。
- 因此，来自分子3的正确答案排名在分子2和分子5的预测之后，因为它未能从C:26和N:27化学键断裂带来的能量减少中受益。
归因分析三——空间位阻对模型推理的影响
- 现象：分子4、分子6的分子结构相同，但预测出的能量分数不同。二者的唯一差别是，离去基团（LG）连接到了一对对称但编号不同的氮原子上。分子6的能量分数排名为21位。
- 原因
  - 尽管这导致了在分子6的预测中N:27和N:30处氢原子数量的变化，但它们相互抵消，对能量值总效应的影响仅为-0.53%。
  - 相比之下，最重要的因素是由C:33−N:30和C:33−N:27形成的化学键所引起的能量变化；而前者导致的能量变化几乎只有后者的十分之一。
  - 这是因为后者的连接发生在化学键断裂之前，而C:30与N:27之间的连接相对于N:30而言，会造成更大的空间位阻，最终导致能量增加。

6.`RetroExplainer`对其他方法预测结果的重新排序

通过采用如图3a所示基于能量的过程，RetroExplainer还可以对其他现有方法作出的预测进行重新排序。
重新排序算法伪代码：见补充信息笔记6。
实验设定
- 选取3种不同的逆合成方法（RetroXpert, GLN, NeuralSym）生成的预测结果，使用RetroExplainer进行重新排序。
- 选择原因：预测结果相对容易获取。
- 预测结果选取：对于每个目标产物，挑选前50个预测结果进行重新排序；针对许多目标产物的预测结果不足50个的问题，引入一种基于平均百分比排名的评估策略。
结果
- 重新排序后的top-1, top-3, top-5, top-10准确率结果如图4所示。
实验结论
- 重新排序后，预测准确率取得显著提高。
- RetroExplainer具有强大的重新排序能力，能够改善其他已有方法的预测结果。

三、`RetroExplainer`应用于多步逆合成预测

- 将RetroExplainer模型与Retro*算法、可购买分子列表相结合，用RetroExplainer替换了Retro的单步模型。
- 以protokylol（一种用于支气管扩张剂的β-肾上腺素受体激动剂）为例，说明RetroExplainer提供的解释。（图5）
- RetroExplainer为protokylol设计了一条四步合成路线。
- 决策过程的能量得分揭示了支持RetroExplainer做出相应预测的关键子过程。

方案的实用性
- 许多提出的反应未能找到文献中的直接对应结果，但能发现具有高产率，且与RetroExplainer提出反应相匹配的类似反应。
提供了包含176个单步的101个路径规划案例，其中153个单步预测可以通过SciFindern引擎搜索40找到相似反应模式。
实验设置、多路径规划结果及文献检索发现的更多详细信息：见补充信息附录7、补充数据1和补充数据2。

四、反应类型对实验的影响

反应类型信息的注入方式
- 给出反应类型时，向super node中添加额外嵌入。
- 经\(L\)个消息汇聚层后，super node被提取为图级别的表征。
（表1）引入反应类型后top-k准确率的提升
反应类型影响RetroExplainer性能的机制探究
- 根据隐藏特征来源（最后一个RCP层/最后一个LGM层）、是否了解反应类型，提取4种类型的隐藏特征。
- （图6）反应类型对隐藏特征的影响
- 方法：使用t-SNE（t分布随机邻居嵌入）对反应类型标签进行着色，以展示压缩隐藏特征的分布情况。
- 结论
  - 相比于不受反应类型限制的情况，反应类型对产物隐藏表征施加了更为规范的约束。
  - 约束对反应中心（RCs）的定位过程、离去基团（LGs）的匹配过程进行增强，从而提高了整体性能。

`Discussion`——`RetroExplainer`局限性与未来研究展望

模型对离去基团(LG)预测能力的局限性
- 预测罕见LGs性能受限
  - LGM模块是基于预先收集的LGs数据库的预测分类器，简化了从补充信息附录3中的方程(S3.5)生成LGs的困难，并通过强先验保证了LGs的合法性（即所有LGs均来自预收集的数据库）。
  - 受到训练集质量的根本限制，LGM方法在生成稀有LGs方面的灵活性有限，这是许多数据驱动模型共同面临的挑战。
  - 即使是基于翻译的模型，在预测常见LGs以便生成未曾见过的LGs方面也不够健壮。
- 模型对常见LG的偏差
  - 尽管模型采用了如SACL等策略，使得LGM模块能够在重新排序外源反应物模式期间，从数据库中找到与未见LGs相似的LGs作为代理（参考补充信息附录6中的算法），并扩大LGs数据库（在USPTO-FULL数据集中，作者收集了约7万个LGs），但仍无法完全消除这种偏向于常见LGs的偏差。
  - 案例展示：见补充信息附录9。
- 有前景的改进技术
  - 对LGM进行预训练
  - 元学习
  - 主动学习
  - 数据增强
  - 上述技术有望改善模型在处理罕见化学结构片段（即LGs）预测问题时的性能和适应性。
决策过程灵活性受限
- 本实验涉及的分子组装过程
  - 作者在逆合成预测中提出了一种类似于SN2分子组装的过程，以生成带有能量的决策行动。
  - 上述过程较为固定，虽然确实有效，但一些决策行动并不直观地符合其他不同的反应类型。
  - 例如：没有明确LGs（离去基团）参与的特殊反应类型，可能直觉上更适合SN2机制（案例：见补充信息附录10）。
  - 对于不遵循SN2机制的其他多种反应类型，当前方法可能不够灵活。
- 可能的改进方法
  - 引入其他反应机制
    - 引入环加成反应、消去-加成反应等机制，反应机制可根据实际情况灵活选取，以设计更加灵活的决策过程。
  - 增加反应机制选择模块
    - 建议增加一个由LGM（离去基团预测模块）和RCP（反应中心预测）置信度决定的机制选择模块，以判断哪种类型的机制更适合用来产生更易于人类理解的解释。
  - 改进效果
    - 模型能更好地适应各种不同类型的化学反应，并且生成的人工智能解释将更为贴近化学家的思维习惯，以及实际反应机制。
无法进行细粒度预测
- 无法预测的详细反应信息
  - 反应操作
  - 温度
  - 反应时间
- 反应条件预测已成为自动化合成平台发展过程中愈发紧迫的挑战，未来研究有待探索。

`Methods`

一、问题定义

1.基于图的逆合成预测

化学反应的一般表示
- \((\{G_{p;i}\}_{i = 1}^{N_p}, \{G_{r;j}\}_{j = 1}^{N_r})\)，其中，\(G_p\)表示产物图，\(G_{r}\)表示反应物图。
反应推理模型
- \(f_{\theta}(\{G_{p;i}\}_{i = 1}^{N_p}, \{G_{r;j}\}_{j = 1}^{N_r})\)，其中\(\theta\)是一组可学习的参数。
前向推理模型
- \(f_{\gamma}(\{G_{p;i}\}_{i = 1}^{N_p}, \{G_{r;j}\}_{j = 1}^{N_r})\)
逆合成模型
- 只有主产物输入，作为先验条件忽略了其余副产品。
- \(f_{\gamma}(\{G_{p;i}\}_{i = 1}^{N_p}, \{G_{r;j}\}_{j = 1}^{N_r}/\{G_{p:m}\}|\{G_{p:m}\})\)，其中\(\{G_{p:m}\}\)表示主产物。
- 事实上，逆合成模型比前向模型更加复杂，前向模型的表现总体好于逆合成模型。

2.反应中心(`Reaction Center, RC`)和离去集团(`Leaving Group, LG`)

反应中心
- 子图\(G_c = \{(u, v), e_{uv}|e_{uv} \in G_{p}, e_{uv} \notin G_{r:j}, \forall G_{r:j} \in \{G_{r:j}\}_{i = 1}^{N_r}\}\)，其中\((u, v)\)表示原子对，\(e_{uv}\)表示原子对之间的边。
合成子
- 一组图，根据反应中心，对产物图进行变换而成。
- 合成子通常并不在化学上有效，后续过程通过在合成子上添加离去集团(LGs)，形成最终反应物。
离去集团
- 反应物的子图，包含了并未出现于主产物之中的反应物原子和及其关联边。

3.基于`GNN`的`Transformer`

基于GNN的Transformer的数据流
- 一个句子，可以视为带有语义边(semantic edge)的全连接图。
- 单词(word tokens)作为结点进行处理。
多头注意力(MHA)
- \(m_a^{(l)}:= \sum_{w' \in N_{w}}\tilde{a}_{w'w}S_{w'}^{(l - 1)}W_v, m_{w}^{(l)}:= \tilde{a}_{ww}S_{w}^{(l - 1)}W_V \cdots (1)\)
- \(\tilde{a}_{w'w} = SOFTMAX(\frac{S_{w'}^{(l - 1)}W_Q(S_{w}^{(l - 1)}W_K)^T}{\sqrt{d_{k}}})\cdots (2)\)
- \(S_{w}^{''(l)} = COMBINE(m_a^{(l)}, m_{w}^{(l)}) := CONCAT(\{m_a^{(l:k)} + m_{w}^{(l:k)}\}_{k = 1}^{n_{head}})W^O\cdots (3)\)
- 上式中：\(N_{w} = S/{w}\)是结点\(w\)的语义邻域集合；\(d_{k}\)是\(W_k\)的隐藏维度数目。
RetroExplainer对基于GNN的标准Transformer的改进
- 标准Transformer无法处理拓扑空间中的边。
- RetroExplainer中的Transformer解决了上述问题。

二、`RetroExplainer`框架

1.模型架构列举

（1）MSMS-GT, Multi-Sence and Multi-Scale Graph Transformer组件
（2）DAMT学习组件
（3）可解释的决策组件
（4）预测与路径规划组件

2.`MSMS-GT, Multi-Sence and Multi-Scale Graph Transformer`（多感知、多尺度图`Transformer`）组件

MSMS-GT模块（图1b右侧）
- 模型利用多感知、多尺度化学键嵌入策略，以及原子拓扑编码策略，以捕捉化学上重要的信息。
- 前两个编码器产生的分子向量通过多头注意力(MHA)机制进行混合。

3.`DAMT`学习模块（图`1b`左侧）

- 产出的隐藏分子表示同时传送给三个特定任务头：RCP(Reaction Center Prediction)、LGM(Leaving Group Matching)和LGC(Leaving Group Completion)。

4.动态适应多任务学习(`DAMT, Dynamic Adaptive Multi-Task Learning`)技术（图`1c`）

- 目的：平等训练每个子任务。
- RCP, Reaction Center Prediction：识别化学键和各个原子连接的氢原子个数变化情况。
- LGM, Leaving Group Matching：对于产物、产品离去基团数据库中的离去基团进行匹配。
- LGC, Leaving Group Connection：对离去基团和产物片段进行连接。

5.决策组件（图`1d`）

- 使用由5个逆合成动作，以及决策曲线能量分数组成的决策过程，将产物变换为反应物。

6.启发式树搜索算法

树搜索算法基于单步逆合成预测，融入最后一个组件，以发现高效的合成路线，使用透明的决策流程，同时保证反应物的可获得性。

三、多感知多尺度图`Transformer`(`MSMS-GT`)组件的细节

1.原子嵌入表示与拓扑嵌入表示(`Atomic and Topological Embedding`)

给定反应数据的SMILES表示\(S_r\)，产物的相应分子图\(G_{p} = (V, A)\)得到构建，其中原子被视为一个规模为\(N\)的结点集合。
将原子视为单词(word tokens)，构建语义域(semantic domain)的全连接图。
拓扑嵌入表示的引入
- 额外添加拓扑嵌入表示，目的：衡量原子在图的空间域中的重要性。
- 用拓扑嵌入表示替代传统位置编码，以免破坏最初的排列不变性。
- 使用结点的度数，用以描述原子的空间重要性。
初始化结点特征
- \(h_{\nu}^{(0)} = \sum_{i = 1}^{K_a}\phi_{x_i}(x_i) + \phi_d(deg(\nu))\)
- 带有不同下标的\(\phi(\cdot)\)：分别表示不同的嵌入函数。
- \(x_{i}\)：第\(i\)个原子特征（例如：原子序数、形式电荷等）。
- \(deg(\nu) \in \mathbb{R}\)：表示原子\(\nu\)的总度数。
引入总度数的作用：作为强大的先验知识，使得注意力分数可以同时捕捉语义和空间信息。

2.多感知、多尺度化学键嵌入表示

引入化学键信息的作用：提高图的表达能力。
化学键性质编码
- 对于\(\sigma/\pi\)轨道、共轭键等化学键性质进行编码，编码后使用邻接矩阵\(\{A_{i} \in \{0, 1\}^{N \times N}\}_{i = 1}^{K_b}\)记录。其中，\(K_b\)是不同的感知。
- 不使用基于类型的方法进行边特征嵌入表示。
- 原因：直接揭示隐藏在化学键类型背后的反应相关属性（如：是否在环中），能提高模型对复杂反应类型的理解能力。
- 不同的化学键类习惯可能共享相同属性。
  - C-C, C=C均具有\(\sigma\)轨道。
  - 传统化学键类型编码无法表达这一信号。
化学键信息融入图数据
- 受到公式\((2)\)的启发（对基于原子对的语义边进行学习），作者考虑将化学键信息作为分子结构的一种先验。
- 将化学键信息添加到\(SOFTMAX(\cdot)\)之前的语义分数。
化学键特征嵌入公式
- \(m_{a}^{(l)} = \sum_{u \in N_{v}}\tilde{a}_{uv}h_u^{(l - 1)}W_V, m_{V}^{(l)} = \tilde{a}_{vv}h_{v}^{(l - 1)}W_V \cdots (5)\)
- \(a_{uv} = \frac{h_{u}^{(l - 1)}W_Q(h_v^{(l - 1)}W_k)^T}{\sqrt{d_k}} + \sum_{i}^{K_b}\phi_i(A_{i; uv}), \tilde{a}_{uv} = SOFTMAX(a_{uv}) \cdots (6)\)
- 上式中，\(N_{v} = V / \{v\}\)是原子\(v\)的邻域集合。

3.空间特征的嵌入表示

上述模型架构的表达能力仍然不如简单GNN，简单GNN过分关注空间域中的1跳邻居。
Graphormer的解决方案
- 使用一种最短路径嵌入表示。
全局距离\(A_g\)的计算
- 路径距离：由化学键长度进行计算
- 三维距离：由MMFF优化得到的构象进行计算
引入全局距离嵌入表示后的Transformer公式
- \(a_{uv} = \frac{h_u^{(l - 1)}W_Q(h_v^{(l - 1)}W_K)^T}{\sqrt{d}_{k}} + \sum_{i}^{K_b}\phi_i(A_{i; uv}) + RBF(A_{g;uv}) \cdots (7)\)
- 高斯径向基函数：\(RBF(A) = \frac{exp(-(A - \phi_{mean})^2)/2\phi_{std}^2}{\sqrt{2\pi} \phi_{std}} \cdots (8)\)
全局距离的特点
- 引入空间信息，但总体上忽略了化学键信息。
原子环境(AE, Atom Environment)
- 将数个原子视为一个token。
- 对于逆合成预测发挥了重要作用。
最终的注意力分数公式
- \(bias_{uv} = \sum_{i}^{K_b}\sum_{j = 1}^{K_r} \phi_i(A_{i; uv}^j) + RBF(A_{g;uv}) \cdots (9.1)\)，第一项为局部项，第二项为全局项。
- \(a_{uv} = \frac{h_u^{(l - 1)}W_Q(h_v^{(l - 1)}W_K)^T}{\sqrt{d_k}} + bias_{uv} \cdots (9.2)\)
- \(A_i^j\)：矩阵\(A_i\)的\(j\)次幂矩阵，描述了半径为\(j\)的原子环境。
- \(K_r\)：原子环境的最大半径。
- 局部项：\(\phi_i(A_{i; uv}^j)\)
- 全局项：\(RBF(A_{g;uv})\)
- \(A_{i}^j, A_i \in\{0, 1\}^{N \times N}\)：记录了各原子之间距离为\(j\)的路径数目，从而对半径为\(j\)的原子环境进行了描述。
最终注意力公式（公式\((9)\)）的理解
- 利用自注意力机制，学习结点特征之间的语义关联性。
- 引入多层级环境\(\{A_i^j\}_{j = 1}^{K_r}\)，以及多感知嵌入表示\(\{A_{i}\}_{i = 1}^{K_b}\)，以在局部尺度充分利用丰富的化学键信息。
- 添加原子的全局嵌入表示，以在空间域捕捉全局范围。
- 结论：RetroExplainer的表达能力至少与GNN等量齐观；此外，全局项\(RBF(A_{g;uv})\)允许了三维距离嵌入表示的引入（本实验结果：引入三维距离嵌入表示不是必要的）。

四、特定任务头(`Specific Task Heads`)、决策组件

1.特定任务头

设计3个不同的特定任务头以满足不同需求。
RCP(Reaction Center Prediction)：在判定反应中心时，针对各个化学键的变化给出一个概率分布。
LGM(Leaving Group Matching)：在产物和各个候选离去基团间，计算相容性分数。

RetroExplainer

Abstract

Introduction

1.分子逆合成任务

2.基于模板的逆合成方法

3.半模板、无模板逆合成方法

4.基于序列的逆合成方法

5.基于图的逆合成方法

6.现有逆合成方法的问题

7.论文贡献

Results

一、基于USPTO数据集的性能比较

1.实验设置

2.USPTO50K数据集实验结果（表1）

3.现有数据分割方法的问题及解决方案

4.大型数据集USPTO-Full和USPTO-MIT的实验结果

5.模型SOTA性能的解释

二、RetroExplainer模型架构及其可解释的insight

1.深度学习引导的六阶段透明决策过程（图3a）

2.决策阶段的“能量分数(energy score)”