跳转至

Uni-Mol

论文标题:UNI-MOL: A UNIVERSAL 3D MOLECULAR REPRESENTATION LEARNING FRAMEWORK
发表期刊:ICLR 2023
代码链接:github

Abstract

1.分子表示学习的重要性
- 分子表示学习(Molecular Representation Learning)因其在药物设计等应用中的有限监督数据学习方面发挥的关键作用,而备受关注。

2.分子表示的常用方法
- 表示为一维token序列
- 表示为二维拓扑图
- 缺陷:限制了将三维信息整合到下游任务中的能力,尤其是几乎无法完成3D几何预测/生成

3.本文贡献
- 提出了一种通用的三维MRL框架——Uni-Mol显著扩大MRL表示能力、应用范围

4.Uni-Mol简介
- 包含两个具有相同SE(3) Transformer架构预训练模型
- 一个分子模型,由2.09亿个分子构象预训练得到。
- 一个口袋模型,由300万个候选蛋白口袋数据预训练得到。
- 包含几种微调策略,可将预训练模型应用于各种下游任务。

5.实验结果
- 通过适当整合三维信息Uni-Mol14/15个分子属性预测任务超过最先进的模型。
- Uni-Mol三维空间任务中也取得卓越的性能
- 蛋白质-配体结合姿态预测
- 分子构象生成
- ······

1 Introduction

1.表示学习近期进展
- 最近,表示学习/预训练/自监督学习许多应用中盛行。
- 自然语言处理中的BERTGPT
- 计算机视觉中的ViT
- 共同特点无标签数据丰富,有标签数据稀缺
- 为解决上述问题,典型的表示学习方法通常包括两个阶段
- 首先通过预训练过程,利用大规模无标签数据学习到一个好的数据表示
- 然后实施微调策略,以便从有限的有监督数据进一步提取更多信息

2.药物设计领域表示学习的需求
- 候选药物所处的化学空间极为广阔,而与药物相关的带标签数据却十分有限
- 进展
- 与传统的基于分子指纹的模型相比,近期的分子表示学习模型在大多数性质预测任务上表现得更为出色
- 关键问题——三维结构
- 分子的性质及药物的作用,很大程度上是由它们的3D结构决定的。
- 当前大多数MRL方法
- 将分子表示为1D序列字符串,如SMILESInChI
- 将分子表示为2D拓扑图
- 问题:可能限制了它们在下游任务中整合3D信息的能力,特别是对于3D几何结构预测或生成的任务来说,几乎无法实现
- 举例:蛋白质-配体结合构象预测
- 对3D信息的尝试及其局限性
- 尽管最近有一些尝试试图在MRL中利用3D信息[26; 27],但其性能仍未达到最佳状态,这可能是因为3D数据集的规模较小,而且在微调过程中不能直接使用3D位置作为输入/输出,因为它们仅作为辅助信息。

3.本文贡献 - 在这项工作中,我们提出了Uni-Mol,据我们所知,这是首个通用的3D分子预训练框架,它源自大规模的未标注数据,并且能够直接将3D位置同时作为输入和输出处理。具体而言,Uni-Mol包含三个部分。