Uni-Mol
论文标题:UNI-MOL: A UNIVERSAL 3D MOLECULAR REPRESENTATION LEARNING FRAMEWORK
发表期刊:ICLR 2023
代码链接:github
Abstract
1.分子表示学习的重要性
- 分子表示学习(Molecular Representation Learning
)因其在药物设计等应用中的有限监督数据学习方面发挥的关键作用,而备受关注。
2.分子表示的常用方法
- 表示为一维token
序列
- 表示为二维拓扑图
- 缺陷:限制了将三维信息整合到下游任务中的能力,尤其是几乎无法完成3D
几何预测/生成。
3.本文贡献
- 提出了一种通用的三维MRL
框架——Uni-Mol
,显著扩大了MRL
的表示能力、应用范围。
4.Uni-Mol
简介
- 包含两个具有相同SE(3) Transformer
架构的预训练模型
- 一个分子模型,由2.09
亿个分子构象预训练得到。
- 一个口袋模型,由300
万个候选蛋白口袋数据预训练得到。
- 包含几种微调策略,可将预训练模型应用于各种下游任务。
5.实验结果
- 通过适当整合三维信息,Uni-Mol
在14/15
个分子属性预测任务中超过了最先进的模型。
- Uni-Mol
在三维空间任务中也取得卓越的性能
- 蛋白质-配体结合姿态预测
- 分子构象生成
- ······
1 Introduction
1.表示学习近期进展
- 最近,表示学习/预训练/自监督学习在许多应用中盛行。
- 自然语言处理中的BERT
和GPT
- 计算机视觉中的ViT
- 共同特点:无标签数据丰富,有标签数据稀缺。
- 为解决上述问题,典型的表示学习方法通常包括两个阶段:
- 首先通过预训练过程,利用大规模无标签数据学习到一个好的数据表示
- 然后实施微调策略,以便从有限的有监督数据中进一步提取更多信息。
2.药物设计领域对表示学习的需求
- 候选药物所处的化学空间极为广阔,而与药物相关的带标签数据却十分有限。
- 进展
- 与传统的基于分子指纹的模型相比,近期的分子表示学习模型在大多数性质预测任务上表现得更为出色。
- 关键问题——三维结构
- 分子的性质及药物的作用,很大程度上是由它们的3D
结构决定的。
- 当前大多数MRL
方法
- 将分子表示为1D
序列字符串,如SMILES
和InChI
- 将分子表示为2D
拓扑图。
- 问题:可能限制了它们在下游任务中整合3D
信息的能力,特别是对于3D
几何结构预测或生成的任务来说,几乎无法实现。
- 举例:蛋白质-配体结合构象预测。
- 对3D
信息的尝试及其局限性
- 尽管最近有一些尝试试图在MRL中利用3D信息[26; 27],但其性能仍未达到最佳状态,这可能是因为3D数据集的规模较小,而且在微调过程中不能直接使用3D位置作为输入/输出,因为它们仅作为辅助信息。
3.本文贡献 - 在这项工作中,我们提出了Uni-Mol,据我们所知,这是首个通用的3D分子预训练框架,它源自大规模的未标注数据,并且能够直接将3D位置同时作为输入和输出处理。具体而言,Uni-Mol包含三个部分。