Uni-Mol

论文标题：UNI-MOL: A UNIVERSAL 3D MOLECULAR REPRESENTATION LEARNING FRAMEWORK
发表期刊：ICLR 2023
代码链接：github

`Abstract`

1.分子表示学习的重要性
- 分子表示学习(Molecular Representation Learning)因其在药物设计等应用中的有限监督数据学习方面发挥的关键作用，而备受关注。

2.分子表示的常用方法
- 表示为一维token序列
- 表示为二维拓扑图
- 缺陷：限制了将三维信息整合到下游任务中的能力，尤其是几乎无法完成3D几何预测/生成。

3.本文贡献
- 提出了一种通用的三维MRL框架——Uni-Mol，显著扩大了MRL的表示能力、应用范围。

4.Uni-Mol简介
- 包含两个具有相同SE(3) Transformer架构的预训练模型
- 一个分子模型，由2.09亿个分子构象预训练得到。
- 一个口袋模型，由300万个候选蛋白口袋数据预训练得到。
- 包含几种微调策略，可将预训练模型应用于各种下游任务。

5.实验结果
- 通过适当整合三维信息，Uni-Mol在14/15个分子属性预测任务中超过了最先进的模型。
- Uni-Mol在三维空间任务中也取得卓越的性能
- 蛋白质-配体结合姿态预测
- 分子构象生成
- ······

`1 Introduction`

1.表示学习近期进展
- 最近，表示学习/预训练/自监督学习在许多应用中盛行。
- 自然语言处理中的BERT和GPT
- 计算机视觉中的ViT
- 共同特点：无标签数据丰富，有标签数据稀缺。
- 为解决上述问题，典型的表示学习方法通常包括两个阶段：
- 首先通过预训练过程，利用大规模无标签数据学习到一个好的数据表示
- 然后实施微调策略，以便从有限的有监督数据中进一步提取更多信息。

2.药物设计领域对表示学习的需求
- 候选药物所处的化学空间极为广阔，而与药物相关的带标签数据却十分有限。
- 进展
- 与传统的基于分子指纹的模型相比，近期的分子表示学习模型在大多数性质预测任务上表现得更为出色。
- 关键问题——三维结构
- 分子的性质及药物的作用，很大程度上是由它们的3D结构决定的。
- 当前大多数MRL方法
- 将分子表示为1D序列字符串，如SMILES和InChI
- 将分子表示为2D拓扑图。
- 问题：可能限制了它们在下游任务中整合3D信息的能力，特别是对于3D几何结构预测或生成的任务来说，几乎无法实现。
- 举例：蛋白质-配体结合构象预测。
- 对3D信息的尝试及其局限性
- 尽管最近有一些尝试试图在MRL中利用3D信息[26; 27]，但其性能仍未达到最佳状态，这可能是因为3D数据集的规模较小，而且在微调过程中不能直接使用3D位置作为输入/输出，因为它们仅作为辅助信息。

3.本文贡献 - 在这项工作中，我们提出了Uni-Mol，据我们所知，这是首个通用的3D分子预训练框架，它源自大规模的未标注数据，并且能够直接将3D位置同时作为输入和输出处理。具体而言，Uni-Mol包含三个部分。