RetroExplainer
论文标题:Retrosynthesis prediction with an interpretable deep-learning framework based on molecular assembly tasks
期刊:Nature Communications(2023)
Abstract
1.现有深度学习逆合成方法的问题
- 大多数深度学习方法都难以解释,如同一个“黑箱”,其中蕴含的insight
较少。
2.本文工作
- 提出RetroExplainer
,将逆合成任务形式化为分子组装过程
- 分子组装过程包含多个由深度学习引导的逆合成操作步骤
3.模型的核心部件
- 多感知、多尺度图Transformer
- 具有结构感知能力的对比学习
- 动态自适应多任务学习
4.单步逆合成实验结果
- 在12
个大规模benchmark
数据集上的结果证明了RetroExplainer
的有效性,其表现优于现有的SOTA
单步逆合成方法
5.分子组装的可解释性
- 赋予模型良好的可解释性,使得决策过程透明化,允许进行定量归因。
6.多步逆合成实验结果
- 成功识别出101条路径,其中86.9%的单步反应是已有文献报道过的。
Introduction
1.分子逆合成任务
- 为目标分子的高效合成,确定一组合适的反应物。
2.基于模板的逆合成方法
- 依赖于反应模板将产物转化为反应物
- 通常使用分子指纹,结合
MLP
,以编码分子产物,并推荐合理的模板。 - 举例
Segler
等人利用扩展连接性指纹(Extended-Connectivity Fingerprints, ECFPs
),结合扩张策略网络来指导模板搜索。Chen
等人采用一种类似于单步逆合成预测器的策略,用于神经网络引导下的多步逆合成规划。
- 问题
- 构建反应模板的过程,目前仍然依赖于人工编码或者复杂的子图同构算法,使得在庞大的化学空间中探索潜在的反应模板变得困难。
3.半模板、无模板逆合成方法
- 目的:解决基于模板方法难以探索潜在模板的问题。
- 分子表示:利用分子指纹技术获取分子级别的表示。
- 举例
Chen
等人引入FeedForward EBM (FF-EBM)
方法,由无模板模型进行补充与完善(complemented by template-free models
)。
- 分类
- 基于序列的方法:将分子表示为线性化的字符串。
- 基于图的方法:将分子表示为图结构。
4.基于序列的逆合成方法
- 产物分子的表征:使用线性化记号,如
SMILES(simplified molecular-input line-entry system)
。 - 举例
Liu
等人引入了Seq2Seq
模型,该模型包含双向长短时记忆(LSTM
)编码器和解码器以进行逆合成转换。Karpov
等人针对逆合成分析调整了Transformer
架构的学习率调度策略,并采用快照学习方法。Tetko
等人提出一种基于Transformer
的逆合成模型,通过SMILES
增强提高了性能。- 随着预训练-微调范式的兴起,
Irwin
等人提出了MolBART
,利用大规模自监督预训练,加速逆合成任务的收敛。
- 方法局限性
- 线性化的分子表示方式(如SMILES)难以直接探索结构信息和原子性质,这些内容对于逆合成分析至关重要。
- 基于
SMILES
的分子表示方法语法严格,语义有效性不足,容易导致频繁出现无效语法。
- 解决方法
- 其他一些方法被提出,以避免无效字符串的生成,或嵌入更为丰富的结构信息。
5.基于图的逆合成方法
- 两阶段范式实现
- 反应中心预测(
RCP, Reaction Center Prediction
) - 合成子完成(
SC, Synthon Complesion
)。
- 反应中心预测(
- 应用——正向反应预测
Jin
等人将其应用于正向反应预测,提出使用Weisfeiler-Lehman
同构测试[30]图学习来预测反应结果。
- 基于
GNN
框架的模型发展- 随着
GNN
的发展,许多基于GNN
的框架出现于逆合成领域,并且在性能上取得了显著的提升。 Shi
等人提出G2G
框架,利用关系图卷积网络(R-GCN
)进行RCP
,并结合强化学习进行SC
。Yan
等人提出的RetroXpert
应用了图注意力网络(GAT
)的变种进行RCP
,以及基于序列的Transformer
进行SC
。Somnath
等人提出的GraphRetro
为两个阶段设计了两种消息传递神经网络(MPNNs
)。Dai
等人提出GLN
方法,利用反应模板连接产物和反应物。
- 随着
- 传统基于
GNN
方法的问题- 主要关注分子的局部结构,忽略了长距离特征(如范德华力)的影响。
- 问题解决
Ying
等人提出Graphormer
,引入了基于最短路径的方法进行多尺度拓扑编码。
- 直接模拟图变化的方法以外的其余方法
- 其他基于图的方法通过翻译反应物,以预测图变化。
6.现有逆合成方法的问题
- 信息表征的不足
- 基于序列的方法:处理分子时,丧失先验信息。
- 基于图的方法:忽视顺序信息、长距离特征。
- 可解释性差
- 现有模型的决策机制尚不清晰,极大限制模型可靠性与实际应用价值。
- 无法解释模型的工作原理,或提供实质性的
insight
。
- 单步逆合成、反应物不易获取
- 大多数现有方法侧重于单步逆合成预测,能够生成看似合理,但可能不易购得的反应物,
- 通常伴随手工筛选预测结果的繁琐过程。
- 从产物到容易获得的反应物,进行多步逆合成预测和路径规划,更有实际意义。
7.论文贡献
-
提出
RetroExplainer
——一种结合化学知识、深度学习引导的分子组装方法,用于进行具有量化可解释性的逆合成预测。 -
贡献一——构建强大、信息丰富的分子表征
- 设计一种多感知、多尺度图
Transformer
(Multi-Sense Multi-Scale Graph Transformer, MSMS-GT
),用于通用的分子表征学习。 - 使用动态适应性多任务学习(
Dynamic Adaptive Multi-Task Learning, DAMT
),以实现平衡的多目标优化。 - 使用结构感知对比学习(
Structure-Aware Contrastive Learning, SACL
),以捕捉分子结构信息。 - 结果:
RetroExplainer
在包括三个常用数据集(USPTO-50K
、USPTO-FULL
和USPTO-MIT
)在内的共12
个大规模benchmark
数据集上表现优秀。
- 设计一种多感知、多尺度图
- 贡献二——良好的可解释性
- 引入分子组装过程
- 提供透明的决策过程。
- 生成能量决策曲线,将预测分解为多个阶段,并允许在子结构级别进行归因分析。
- 有助于理解“反事实”预测,揭示数据集中潜在的偏置。
- 引入可解释逆合成预测
- 提供更细致的参考信息(例如:对某一特定化学键断裂的置信度),启发研究人员设计定制化的反应物。
- 引入分子组装过程
- 贡献三——确保预测产物的可合成性、避免手动筛选候选反应物
- 做法:整合
RetroExplainer
模型与Retro
算法。 - 结果:对
101
种复杂药物分子进行合成路线,86.9%
的单步反应都能在文献报道中找到对应。
- 做法:整合
Results
一、基于USPTO
数据集的性能比较
1.实验设置
- 三个常用
USPTO
的benchmark
数据集:USPTO-50K, USPTO-FULL, USPTO-MIT
。 - 比较:与
21
种逆合成方法进行对比。 - 数据集分割方法:与以往工作相同的随机分割方法。
2.USPTO50K
数据集实验结果(表1
)
- 性能评估标准:
top-k
精确匹配准确度,k
分别设置为1, 3, 5, 10
。 RetroExplainer
实验结果- 在
5
项指标上,取得最优水平。k = 1, 3, 5
时,针对已知反应类型。k = 1, 3
时,针对未知反应类型。
k = 10
的实验结果- 未达到最优精确度
- 在已知/未知反应类型的条件下,精确度接近最优模型
LocalRetro
,与其差距分别为0.2%
和1%
。
- 综合结果(不同
top-k
下的平均精度)- 分别根据是否提供反应类别信息,综合考虑
top-1, top-3, top-5, top-10
预测的平均精度,RetroExplainer
均获得最高精确度。 - 相比于第二名模型(已知反应类型为
LocalRetro
,未知反应类型为R-SMILES
),平均精度分别改进1%
和0.1%
。
- 分别根据是否提供反应类别信息,综合考虑
- 在
3.现有数据分割方法的问题及解决方案
- 骨架评估偏差与信息泄露
- 在随机分割的数据集中,相似分子可能同时出现于训练集和测试集中,容易导致训练数据的信息泄露,进而使模型评估产生偏差。
- 解决方案
- 采用
Kovács
等人提出的基于Tanimoto
相似性的数据分割方法。 - 考虑
3
种相似度阈值(0.4, 0.5, 0.6
)和3
种测试集分割比例(0.2, 0.25, 0.3
),由此产生了九种基于Tanimoto
相似性的数据集。 - 在上述
9
个数据集上,将RetroExplainer
与R-SMILES
和LocalRetro
两种现有的最优方法进行比较。
- 采用
- 结果(图
2
)
- 针对上述
9
个数据集中的大部分数据集,RetroExplainer
在top-1, top-3, top-5, top-10
精确匹配准确度上,均超过baseline
方法。
- 针对上述
- 结论
- 进一步证明了
RetroExplainer
的有效性、健壮性。 - 相比现有方法,
RetroExplainer
在处理未曾见过的分子骨架结构时,能展现出更强的领域适应性。
- 进一步证明了
4.大型数据集USPTO-Full
和USPTO-MIT
的实验结果
- 结果(表
2
)
- 对于两个数据集的
4
中评价指标(top-1, top-3, top-5, top-10
精确度)中,RetroExplainer
均以较大优势取得最佳性能。 USPTO-FULL
数据集:RetroExplainer
在top-1, top-3, top-5, top-10
精确度上,分别比第二名的R-SMILES
高出2.5%, 4.1%, 2.7%, 2.8%
。USPTO-MIT
数据集:结果类似。
- 对于两个数据集的
- 结论
- 在更大规模数据集的评估条件下,
RetroExplainer
与以往的最先进相比方法,更为有效和稳定。 RetroExplainer
更适合大规模训练场景的应用,具有更大潜力。
- 在更大规模数据集的评估条件下,
- 补充研究(后文)
- 消融研究:讨论尺度信息、增强策略模块的有效性。
- 案例研究:说明
MSMS-GT
如何聚焦于分子的多尺度结构。
5.模型SOTA
性能的解释
RetroExplainer
取得更有表现的可能原因:数据建模的独特方法。- 两种分布的同时捕捉
- 提供产物分子图时,反应中心(
RC, Reaction Centers
)和离去基团(LG, Leaving Groups
)之间的联合条件分布。- 通过联合分布,考虑离去集团对反应中心的影响,使得模型可以学习信息更丰富的表示。
- 在确定反应中心、离去集团和产物后,离去集团之间连接关系的条件分布。
- 提供产物分子图时,反应中心(
- 效果
- 增强模型泛化能力(尤其是涉及多个反应中心和离去集团的情形)
- 避免了由于多个离去集团(或反应中心)问题,而产生的过度迭代需求。
- 通过学习合成子连接关系的条件分布,
RetroExplainer
能够有效适应更庞大、更复杂的数据集。
二、RetroExplainer
模型架构及其可解释的insight
1.深度学习引导的六阶段透明决策过程(图3a
)
- 原始产物(
P, Product
) - 离去基团匹配(
S-LGM, Leaving Group Matching
) - 初始化(
IT, Initializing
) - 离去基团连接(
S-LGC, Leaving Group Connecting
) - 反应中心键变化(
S-RCP, Reaction Center Bond Changing
) - 氢原子数量变化(
HC, Hydrogen Number Changing
)
2.决策阶段的“能量分数(energy score
)”
- 各阶段依据对最终决策的贡献,生成相应的能量分数。
- 能量分数来源:由经过训练的模块计算得出。
- 离去基团匹配模块(
LGM, Leaving Group Matching
) - 带氢原子的反应中心预测模块(
RCP-H, Reaction Center Prediction for Attached Hydrogens
) - 键反应中心预测模块(
RCP-B, Reaction Center Prediction for Bond
) - 离去基团连接模块(
LGC, Leaving Group Connecting
)
- 离去基团匹配模块(
- 能量分数计算细节:见补充信息笔记
4
。
3.六阶段决策过程的具体描述
- 从
P
阶段出发,将该阶段的能量分数初始化为0
。(在图3a
中记为\(E\)) - 在
S-LGM
阶段,根据LGM
模块给出的概率预测,选择一个离去基团(LG
),并基于LGM
的概率预测,为该离去基团赋予一个能量分数。 - 计算
IT
阶段的能量分数。该步骤通过添加S-LGM
阶段所选离去基团的能量,以及由RCP-H
、RCP-B
和LGM
模块各自预测出的相应事件的概率而完成。 - 在
LGC
和RCP
阶段,使用动态规划算法扩展搜索树中的所有可能结点。选择了概率大于设定阈值的事件,并据此给定各阶段的能量分数。 - 针对每个原子,调整氢原子数量和形式电荷,确保修改后的分子图遵循价键规则;最后,根据氢原子数量变化(
HC, Hydrogen Number Changing
)的成本,计算出最终的能量分数。
4.模型决策过程的作用与解释
RetroExplainer
生成的决策曲线的作用- 揭示模型为何可能会做出“错误”(化学上合理,但与数据集中记录的实际答案不符)的预测
- 有助于识别训练数据集中的潜在偏差(
bias
)。
- 举例(图
3b
)- 现象一
- 通过胺脱保护法合成目标产物的“正确”答案在模型中排名第
6
,排名第1
的预测则是C-N
偶联反应。
- 通过胺脱保护法合成目标产物的“正确”答案在模型中排名第
- 解释
- 经研究发现,氢原子数量变化(
HC, Hydrogen Number Changing
)阶段是导致能量分数差异的关键阶段。 RetroExplainer
在HC
阶段,倾向于预测胺基氢原子数量增加的反应物,表明模型在类似的分子骨架中存在HC
偏向性。
- 经研究发现,氢原子数量变化(
- 现象二
- 在前
12
个预测的LGC
至RCP
阶段区间,观察到两条斜率不同的直线,表明RCP
阶段中,两种不同类型的反应中心(RCs
)有不同的反应模式,即C-N
键是否断裂(进行合成还是分解)。
- 在前
- 解释
RetroExplainer
理解到,合成模式有利于降低能量分数;相应地,在LGC
至RCP
区间内的直线斜率为负。- 上述内容解释了去除苯环中氢原子的困难反应排在第二位的原因。
- 与排名第一、更容易合成目标产物的反应相比,苯环中移除的氢原子导致的能量差异较明显,表明决策曲线与反应困难程度之间存关联。
- 现象一
- 更多
RetroExplainer
性能示例:见补充信息笔记5
。
5.分子组装过程的子结构(substructure
)归因能力
- 子结构归因能力
- 通过针对各阶段对最终能量得分的贡献比例的分析,分子组装过程能够在子结构(
substructure
)层级实现归因能力。
- 通过针对各阶段对最终能量得分的贡献比例的分析,分子组装过程能够在子结构(
- 子结构归因能力的必要性
- 在涉及多个反应中心(
RCs
)的情况下,多个化学键的数量变化,或者多个氢原子的变化,往往会合并到同一阶段,从而造成某种程度的不确定性。(图3c
展示了六个有代表性的相关实例)
- 在涉及多个反应中心(
- 归因分析一——能量得分与反应难易程度的关联
- 现象:通过对比排名第一、第二的预测(图
3c
中分子1
、分子2
),可以发现能量得分可能与反应的难易程度(例如选择性)相关。 - 原因:尽管
I:33
与C:26
之间的连接不利于能量的减少,但在C:26
处添加一个氢原子所导致的能量增长约为前者的13
倍(分别为13.5
和1.02
)。 - 以往研究的结论:
C–N
交叉偶联反应通常涉及特定催化剂,并面临选择性问题。 I:33
减弱了这种选择性问题,正与分子1
的预测能量分数小于分子2
的事实相对应。
- 现象:通过对比排名第一、第二的预测(图
- 归因分析二——正确答案能量得分被高估的原因
- 比较分子
3、4和5
可得,正确答案的能量得分被高估的原因是,模型倾向于断裂C:26
和N:27
之间的化学键。 - 这一做法既能带来
5.40
的能量收益(源自化学键断裂),又能因在N:27
处增加一个氢原子而导致能量得分降低9.95
。这两种形式的能量降低完全抵消了C:26
处氢原子数增加所带来的能量增加影响。 - 因此,来自分子3的正确答案排名在分子
2
和分子5
的预测之后,因为它未能从C:26
和N:27
化学键断裂带来的能量减少中受益。
- 比较分子
- 归因分析三——空间位阻对模型推理的影响
- 现象:分子
4
、分子6
的分子结构相同,但预测出的能量分数不同。二者的唯一差别是,离去基团(LG
)连接到了一对对称但编号不同的氮原子上。分子6
的能量分数排名为21
位。 - 原因
- 尽管这导致了在分子
6
的预测中N:27
和N:30
处氢原子数量的变化,但它们相互抵消,对能量值总效应的影响仅为-0.53%。 - 相比之下,最重要的因素是由
C:33−N:30
和C:33−N:27
形成的化学键所引起的能量变化;而前者导致的能量变化几乎只有后者的十分之一。 - 这是因为后者的连接发生在化学键断裂之前,而
C:30
与N:27
之间的连接相对于N:30
而言,会造成更大的空间位阻,最终导致能量增加。
- 尽管这导致了在分子
- 现象:分子
6.RetroExplainer
对其他方法预测结果的重新排序
- 通过采用如图
3a
所示基于能量的过程,RetroExplainer还可以对其他现有方法作出的预测进行重新排序。 - 重新排序算法伪代码:见补充信息笔记
6
。 - 实验设定
- 选取
3
种不同的逆合成方法(RetroXpert, GLN, NeuralSym
)生成的预测结果,使用RetroExplainer
进行重新排序。 - 选择原因:预测结果相对容易获取。
- 预测结果选取:对于每个目标产物,挑选前
50
个预测结果进行重新排序;针对许多目标产物的预测结果不足50
个的问题,引入一种基于平均百分比排名的评估策略。
- 选取
- 结果
- 重新排序后的
top-1, top-3, top-5, top-10
准确率结果如图4
所示。
- 重新排序后的
- 实验结论
- 重新排序后,预测准确率取得显著提高。
RetroExplainer
具有强大的重新排序能力,能够改善其他已有方法的预测结果。
三、RetroExplainer
应用于多步逆合成预测
- 将RetroExplainer
模型与Retro*
算法、可购买分子列表相结合,用RetroExplainer
替换了Retro
的单步模型。
- 以protokylol
(一种用于支气管扩张剂的β
-肾上腺素受体激动剂)为例,说明RetroExplainer
提供的解释。(图5
)
- RetroExplainer
为protokylol
设计了一条四步合成路线。
- 决策过程的能量得分揭示了支持RetroExplainer
做出相应预测的关键子过程。
- 方案的实用性
- 许多提出的反应未能找到文献中的直接对应结果,但能发现具有高产率,且与
RetroExplainer
提出反应相匹配的类似反应。
- 许多提出的反应未能找到文献中的直接对应结果,但能发现具有高产率,且与
- 提供了包含
176
个单步的101
个路径规划案例,其中153
个单步预测可以通过SciFindern
引擎搜索40找到相似反应模式。 - 实验设置、多路径规划结果及文献检索发现的更多详细信息:见补充信息附录7、补充数据1和补充数据2。
四、反应类型对实验的影响
- 反应类型信息的注入方式
- 给出反应类型时,向
super node
中添加额外嵌入。 - 经\(L\)个消息汇聚层后,
super node
被提取为图级别的表征。
- 给出反应类型时,向
-
(表
1
)引入反应类型后top-k准确率的提升
-
反应类型影响RetroExplainer性能的机制探究
- 根据隐藏特征来源(最后一个
RCP
层/最后一个LGM
层)、是否了解反应类型,提取4
种类型的隐藏特征。 - (图6)反应类型对隐藏特征的影响
- 方法:使用
t-SNE
(t
分布随机邻居嵌入)对反应类型标签进行着色,以展示压缩隐藏特征的分布情况。 - 结论
- 相比于不受反应类型限制的情况,反应类型对产物隐藏表征施加了更为规范的约束。
- 约束对反应中心(
RCs
)的定位过程、离去基团(LGs
)的匹配过程进行增强,从而提高了整体性能。
- 根据隐藏特征来源(最后一个
Discussion
——RetroExplainer
局限性与未来研究展望
- 模型对离去基团(
LG
)预测能力的局限性- 预测罕见
LGs
性能受限LGM
模块是基于预先收集的LGs
数据库的预测分类器,简化了从补充信息附录3
中的方程(S3.5
)生成LGs
的困难,并通过强先验保证了LGs
的合法性(即所有LGs
均来自预收集的数据库)。- 受到训练集质量的根本限制,
LGM
方法在生成稀有LGs
方面的灵活性有限,这是许多数据驱动模型共同面临的挑战。 - 即使是基于翻译的模型,在预测常见
LGs
以便生成未曾见过的LGs
方面也不够健壮。
- 模型对常见
LG
的偏差- 尽管模型采用了如
SACL
等策略,使得LGM
模块能够在重新排序外源反应物模式期间,从数据库中找到与未见LGs
相似的LGs
作为代理(参考补充信息附录6
中的算法),并扩大LGs
数据库(在USPTO-FULL
数据集中,作者收集了约7
万个LGs
),但仍无法完全消除这种偏向于常见LGs
的偏差。 - 案例展示:见补充信息附录
9
。
- 尽管模型采用了如
- 有前景的改进技术
- 对
LGM
进行预训练 - 元学习
- 主动学习
- 数据增强
- 上述技术有望改善模型在处理罕见化学结构片段(即
LGs
)预测问题时的性能和适应性。
- 对
- 预测罕见
- 决策过程灵活性受限
- 本实验涉及的分子组装过程
- 作者在逆合成预测中提出了一种类似于
SN2
分子组装的过程,以生成带有能量的决策行动。 - 上述过程较为固定,虽然确实有效,但一些决策行动并不直观地符合其他不同的反应类型。
- 例如:没有明确
LGs
(离去基团)参与的特殊反应类型,可能直觉上更适合SN2
机制(案例:见补充信息附录10
)。 - 对于不遵循
SN2
机制的其他多种反应类型,当前方法可能不够灵活。
- 作者在逆合成预测中提出了一种类似于
- 可能的改进方法
- 引入其他反应机制
- 引入环加成反应、消去-加成反应等机制,反应机制可根据实际情况灵活选取,以设计更加灵活的决策过程。
- 增加反应机制选择模块
- 建议增加一个由
LGM
(离去基团预测模块)和RCP
(反应中心预测)置信度决定的机制选择模块,以判断哪种类型的机制更适合用来产生更易于人类理解的解释。
- 建议增加一个由
- 改进效果
- 模型能更好地适应各种不同类型的化学反应,并且生成的人工智能解释将更为贴近化学家的思维习惯,以及实际反应机制。
- 引入其他反应机制
- 本实验涉及的分子组装过程
- 无法进行细粒度预测
- 无法预测的详细反应信息
- 反应操作
- 温度
- 反应时间
- 反应条件预测已成为自动化合成平台发展过程中愈发紧迫的挑战,未来研究有待探索。
- 无法预测的详细反应信息
Methods
一、问题定义
1.基于图的逆合成预测
- 化学反应的一般表示
- \((\{G_{p;i}\}_{i = 1}^{N_p}, \{G_{r;j}\}_{j = 1}^{N_r})\),其中,\(G_p\)表示产物图,\(G_{r}\)表示反应物图。
- 反应推理模型
- \(f_{\theta}(\{G_{p;i}\}_{i = 1}^{N_p}, \{G_{r;j}\}_{j = 1}^{N_r})\),其中\(\theta\)是一组可学习的参数。
- 前向推理模型
- \(f_{\gamma}(\{G_{p;i}\}_{i = 1}^{N_p}, \{G_{r;j}\}_{j = 1}^{N_r})\)
- 逆合成模型
- 只有主产物输入,作为先验条件忽略了其余副产品。
- \(f_{\gamma}(\{G_{p;i}\}_{i = 1}^{N_p}, \{G_{r;j}\}_{j = 1}^{N_r}/\{G_{p:m}\}|\{G_{p:m}\})\),其中\(\{G_{p:m}\}\)表示主产物。
- 事实上,逆合成模型比前向模型更加复杂,前向模型的表现总体好于逆合成模型。
2.反应中心(Reaction Center, RC
)和离去集团(Leaving Group, LG
)
- 反应中心
- 子图\(G_c = \{(u, v), e_{uv}|e_{uv} \in G_{p}, e_{uv} \notin G_{r:j}, \forall G_{r:j} \in \{G_{r:j}\}_{i = 1}^{N_r}\}\),其中\((u, v)\)表示原子对,\(e_{uv}\)表示原子对之间的边。
- 合成子
- 一组图,根据反应中心,对产物图进行变换而成。
- 合成子通常并不在化学上有效,后续过程通过在合成子上添加离去集团(
LGs
),形成最终反应物。
- 离去集团
- 反应物的子图,包含了并未出现于主产物之中的反应物原子和及其关联边。
3.基于GNN
的Transformer
- 基于
GNN
的Transformer
的数据流- 一个句子,可以视为带有语义边(
semantic edge
)的全连接图。 - 单词(
word tokens
)作为结点进行处理。
- 一个句子,可以视为带有语义边(
- 多头注意力(
MHA
)- \(m_a^{(l)}:= \sum_{w' \in N_{w}}\tilde{a}_{w'w}S_{w'}^{(l - 1)}W_v, m_{w}^{(l)}:= \tilde{a}_{ww}S_{w}^{(l - 1)}W_V \cdots (1)\)
- \(\tilde{a}_{w'w} = SOFTMAX(\frac{S_{w'}^{(l - 1)}W_Q(S_{w}^{(l - 1)}W_K)^T}{\sqrt{d_{k}}})\cdots (2)\)
- \(S_{w}^{''(l)} = COMBINE(m_a^{(l)}, m_{w}^{(l)}) := CONCAT(\{m_a^{(l:k)} + m_{w}^{(l:k)}\}_{k = 1}^{n_{head}})W^O\cdots (3)\)
- 上式中:\(N_{w} = S/{w}\)是结点\(w\)的语义邻域集合;\(d_{k}\)是\(W_k\)的隐藏维度数目。
RetroExplainer
对基于GNN
的标准Transformer
的改进- 标准
Transformer
无法处理拓扑空间中的边。 RetroExplainer
中的Transformer
解决了上述问题。
- 标准
二、RetroExplainer
框架
1.模型架构列举
(1)MSMS-GT, Multi-Sence and Multi-Scale Graph Transformer
组件
(2)DAMT
学习组件
(3)可解释的决策组件
(4)预测与路径规划组件
2.MSMS-GT, Multi-Sence and Multi-Scale Graph Transformer
(多感知、多尺度图Transformer
)组件
MSMS-GT
模块(图1b
右侧)
- 模型利用多感知、多尺度化学键嵌入策略,以及原子拓扑编码策略,以捕捉化学上重要的信息。
- 前两个编码器产生的分子向量通过多头注意力(
MHA
)机制进行混合。
3.DAMT
学习模块(图1b
左侧)
- 产出的隐藏分子表示同时传送给三个特定任务头:RCP
(Reaction Center Prediction
)、LGM
(Leaving Group Matching
)和LGC
(Leaving Group Completion
)。
4.动态适应多任务学习(DAMT, Dynamic Adaptive Multi-Task Learning
)技术(图1c
)
- 目的:平等训练每个子任务。
- RCP, Reaction Center Prediction
:识别化学键和各个原子连接的氢原子个数变化情况。
- LGM, Leaving Group Matching
:对于产物、产品离去基团数据库中的离去基团进行匹配。
- LGC, Leaving Group Connection
:对离去基团和产物片段进行连接。
5.决策组件(图1d
)
- 使用由5
个逆合成动作,以及决策曲线能量分数组成的决策过程,将产物变换为反应物。
6.启发式树搜索算法
- 树搜索算法基于单步逆合成预测,融入最后一个组件,以发现高效的合成路线,使用透明的决策流程,同时保证反应物的可获得性。
三、多感知多尺度图Transformer
(MSMS-GT
)组件的细节
1.原子嵌入表示与拓扑嵌入表示(Atomic and Topological Embedding
)
- 给定反应数据的
SMILES
表示\(S_r\),产物的相应分子图\(G_{p} = (V, A)\)得到构建,其中原子被视为一个规模为\(N\)的结点集合。 - 将原子视为单词(
word tokens
),构建语义域(semantic domain
)的全连接图。 - 拓扑嵌入表示的引入
- 额外添加拓扑嵌入表示,目的:衡量原子在图的空间域中的重要性。
- 用拓扑嵌入表示替代传统位置编码,以免破坏最初的排列不变性。
- 使用结点的度数,用以描述原子的空间重要性。
- 初始化结点特征
- \(h_{\nu}^{(0)} = \sum_{i = 1}^{K_a}\phi_{x_i}(x_i) + \phi_d(deg(\nu))\)
- 带有不同下标的\(\phi(\cdot)\):分别表示不同的嵌入函数。
- \(x_{i}\):第\(i\)个原子特征(例如:原子序数、形式电荷等)。
- \(deg(\nu) \in \mathbb{R}\):表示原子\(\nu\)的总度数。
- 引入总度数的作用:作为强大的先验知识,使得注意力分数可以同时捕捉语义和空间信息。
2.多感知、多尺度化学键嵌入表示
- 引入化学键信息的作用:提高图的表达能力。
- 化学键性质编码
- 对于\(\sigma/\pi\)轨道、共轭键等化学键性质进行编码,编码后使用邻接矩阵\(\{A_{i} \in \{0, 1\}^{N \times N}\}_{i = 1}^{K_b}\)记录。其中,\(K_b\)是不同的感知。
- 不使用基于类型的方法进行边特征嵌入表示。
- 原因:直接揭示隐藏在化学键类型背后的反应相关属性(如:是否在环中),能提高模型对复杂反应类型的理解能力。
- 不同的化学键类习惯可能共享相同属性。
C-C, C=C
均具有\(\sigma\)轨道。- 传统化学键类型编码无法表达这一信号。
- 化学键信息融入图数据
- 受到公式\((2)\)的启发(对基于原子对的语义边进行学习),作者考虑将化学键信息作为分子结构的一种先验。
- 将化学键信息添加到\(SOFTMAX(\cdot)\)之前的语义分数。
- 化学键特征嵌入公式
- \(m_{a}^{(l)} = \sum_{u \in N_{v}}\tilde{a}_{uv}h_u^{(l - 1)}W_V, m_{V}^{(l)} = \tilde{a}_{vv}h_{v}^{(l - 1)}W_V \cdots (5)\)
- \(a_{uv} = \frac{h_{u}^{(l - 1)}W_Q(h_v^{(l - 1)}W_k)^T}{\sqrt{d_k}} + \sum_{i}^{K_b}\phi_i(A_{i; uv}), \tilde{a}_{uv} = SOFTMAX(a_{uv}) \cdots (6)\)
- 上式中,\(N_{v} = V / \{v\}\)是原子\(v\)的邻域集合。
3.空间特征的嵌入表示
- 上述模型架构的表达能力仍然不如简单
GNN
,简单GNN
过分关注空间域中的1
跳邻居。 Graphormer
的解决方案- 使用一种最短路径嵌入表示。
- 全局距离\(A_g\)的计算
- 路径距离:由化学键长度进行计算
- 三维距离:由
MMFF
优化得到的构象进行计算
- 引入全局距离嵌入表示后的
Transformer
公式- \(a_{uv} = \frac{h_u^{(l - 1)}W_Q(h_v^{(l - 1)}W_K)^T}{\sqrt{d}_{k}} + \sum_{i}^{K_b}\phi_i(A_{i; uv}) + RBF(A_{g;uv}) \cdots (7)\)
- 高斯径向基函数:\(RBF(A) = \frac{exp(-(A - \phi_{mean})^2)/2\phi_{std}^2}{\sqrt{2\pi} \phi_{std}} \cdots (8)\)
- 全局距离的特点
- 引入空间信息,但总体上忽略了化学键信息。
- 原子环境(
AE, Atom Environment
)- 将数个原子视为一个
token
。 - 对于逆合成预测发挥了重要作用。
- 将数个原子视为一个
- 最终的注意力分数公式
- \(bias_{uv} = \sum_{i}^{K_b}\sum_{j = 1}^{K_r} \phi_i(A_{i; uv}^j) + RBF(A_{g;uv}) \cdots (9.1)\),第一项为局部项,第二项为全局项。
- \(a_{uv} = \frac{h_u^{(l - 1)}W_Q(h_v^{(l - 1)}W_K)^T}{\sqrt{d_k}} + bias_{uv} \cdots (9.2)\)
- \(A_i^j\):矩阵\(A_i\)的\(j\)次幂矩阵,描述了半径为\(j\)的原子环境。
- \(K_r\):原子环境的最大半径。
- 局部项:\(\phi_i(A_{i; uv}^j)\)
- 全局项:\(RBF(A_{g;uv})\)
- \(A_{i}^j, A_i \in\{0, 1\}^{N \times N}\):记录了各原子之间距离为\(j\)的路径数目,从而对半径为\(j\)的原子环境进行了描述。
- 最终注意力公式(公式\((9)\))的理解
- 利用自注意力机制,学习结点特征之间的语义关联性。
- 引入多层级环境\(\{A_i^j\}_{j = 1}^{K_r}\),以及多感知嵌入表示\(\{A_{i}\}_{i = 1}^{K_b}\),以在局部尺度充分利用丰富的化学键信息。
- 添加原子的全局嵌入表示,以在空间域捕捉全局范围。
- 结论:
RetroExplainer
的表达能力至少与GNN
等量齐观;此外,全局项\(RBF(A_{g;uv})\)允许了三维距离嵌入表示的引入(本实验结果:引入三维距离嵌入表示不是必要的)。
四、特定任务头(Specific Task Heads
)、决策组件
1.特定任务头
- 设计
3
个不同的特定任务头以满足不同需求。 RCP(Reaction Center Prediction)
:在判定反应中心时,针对各个化学键的变化给出一个概率分布。LGM(Leaving Group Matching)
:在产物和各个候选离去基团间,计算相容性分数。