DSDP - A Blind Docking Strategy Accelerated by GPUs

[Abstract]

1.【论文观点】基于机器学习的对接方法虽然大幅度减少运行时间，但是精度仍然有限。
2.【数据集】本文使用一个无偏的、具有挑战性的新颖测试集。

[1 Introduction]

1.采样方法及其优化（1）传统对接任务：针对一整个蛋白质进行采样。
（2）\(QuickVina \space 2\)：只针对潜在重要的空间点进行搜索。
·优化方法：在进行局部优化前，检查评分函数的梯度。
·优化目的：降低局部搜索频率。
2.缩小搜索空间——识别分子对接口袋
（1）FunFOLD, COFACTOR：计算目标口袋、已知模板口袋之间的相似度。
（2）使用设计好的探针进行口袋搜索，根据探针和蛋白质的相互作用能量识别口袋。
3.端到端的机器学习方法 ·TANKBind：蛋白质分块，评估蛋白质与配体的相互作用能量。
4.评分函数（1）基于知识
（2）基于物理
（3）经验主义
（4）基于机器学习
（5）常用评分函数的作用：针对采样获得的对接姿态进行重新评分、排名。
5.\(DSDP\)简述
（1）首先预测对接位点，提供配体的潜在位置，以减小搜索空间。
（2）使用几何信息引导采样。
（3）具有适应性的搜索空间。

[2 Methods]

1.对接口袋预测（1）实现方法：对\(PUResnet\)模型作一些修改后，调用模型进行预测。

（2）\(PUResnet\)方法简介 ·网络结构：\(3D\)-\(CNN\).
·蛋白质结构表示：\(36\times 36\times 36 \times 18\)个体素。
·对接口袋预测：二进制切割问题。
·网络结构：联合使用\(U\)-\(Net\)和\(ResNet\)。
·损失函数：\(Dice\)损失函数。
·训练集：\(scPDB\)的一个经过过滤的子集。
3.对比——\(DSDP\)和\(PUResnet\) （1）学习目标
·\(DSDP\)：配体原子的精确位置。
·\(PUResNet\)：由\(Volsite\)生成的对接口袋。
·原因一：配体原子的精确位置，需要在下游对接姿态采样任务中使用。
·原因二：训练集可以拓展到所有的蛋白质和配体位置，而非受限于\(scPDB\)数据集本身。
（2）化学特征的修改 ·\(DSDP\)：将\(Se\)和\(S\)原子归并到一个频道。
·\(DSDP\)：新的频道用于表示蛋白质表面。
（3）\(DSDP\)新增：表面识别工具
（4）坐标读取、特征生成加速
·使用\(Numpy\)读取蛋白质坐标。
·使用\(protein\)-\(feature\)-\(tool\)加速特征生成
（5）新增：损失函数项
·\(DSDP\)：新增了最高分数对应中心与实际配体中心的距离。
·目的：使得输出位置更接近口袋中心。
（6）针对各个体素评分并提取对接口袋
·对体素进行提取、聚类。
·选择分数最高的\(200\)个体素。
·预测表示对接口袋的离散点。
2.基于传统方法的对接姿态搜索

（1）评分函数 ·采用\(AutoDock \space Vina\)的评分函数，因其能在精确度和简单程度之间取得平衡。
【思考】\(simplicity\)可能是传统方法为了提高速度而不得不考虑的一个限制，对于更加快速的深度学习方法，可能基于\(Diffusion\)的评分函数更占优势。
（2）基于网格的能量评估方法
·每个格点存储的内容：在限定距离内，配体跟蛋白质原子的相互作用情况。
·配体原子的评分：根据格点评分进行三线性插值计算得出。
·插值区域内梯度非连续性的解决方法：建立蛋白质网格时，不仅包含分数，也包含分数的梯度，以增加计算精确度。
·原子梯度的计算：利用格点梯度，进行三线性插值，作为原子梯度的近似值。
（3）采样所得构象的局部优化
·\(Vina\)方法：\(BFGS\).
·本文：使用\(BB\)方法。
·优点：只需向量内积以估计步长，无需进行线性搜索，时间复杂度降低。
（4）\(Vina\)——搜索空间与配体初始位置
·搜索空间：由用户确定的立方体。
·配体初始位置：在立方体中随机生成。
·问题：采样空间巨大，导致效率低下。
（5）\(DSDP\)——搜索空间与配体初始位置
·利用口袋预测工具，围绕着预测得到的口袋中心，生成一个边长为\(30 \space A\)的立方体。
·根据预测得到的对接口袋离散点，生成一系列半径\(7 \space A\)的球体。
·搜索空间：球体先取并集，然后和立方体取交集，作为搜索空间。
·搜索空间的好处：与空腔形状较为接近，搜索空间减小。
（6）\(GPU\)加速
·减少蒙特卡洛法的搜索步数。
·使用\(CUDA\)提供的异步并行计算。
·\(GPU\)的工作：蒙特卡洛搜索与优化。
·工作流程
3.数据集（1）训练集
使用\(Equibind\)预处理得到的\(PDBBind\)数据集。
（2）测试集——旧测试集的问题：\(EquiBind\), \(TankBind\)和\(DiffDock\)使用的都是基于时间分割的\(PDBBind\)数据集，该数据集跟\(PDBBind\)重叠程度很大，会给测试结果带来偏差。
（3）测试集——提出新的测试集(subset of scPDB)
·从\(scPDB\)数据库中挖掘一个子集，该子集中的数据跟\(PDBBind \space v2020\)没有交集。
（4）新测试集的数据处理工作
·去除水分子、金属离子。
·选择位于配体原子\(10 A\)以内的蛋白质链条。
·使用\(OpenBabel, RDkid, Reduce, ChimeraX\)进行数据清理。
（5）对于旧测试集的保留
保留了基于时间分割的\(PDBBind\)测试集，以及\(DUD-E\)数据集。
4.\(Baseline\)设定

[3 Results and Discussion]

1.蛋白质口袋预测

（1）比较对象：\(PUResNet, P2Rank\).
（2）衡量标准
·\(DCC\)：预测的口袋中心与真实的配体中心之间的距离。
·\(VCR\)：配体实际位置的受覆盖程度。
（3）实验结果：
对于\(DCC\)和\(VCR\)，\(DSDP\)的表现均胜过旧有方法。
2.重对接任务
（1）有关\(Vina\)的实验结论
·采样备份从8份增加到64份后，精确度只有细微变化。
·原因：采样空间受限，采样步数对重对接结果影响不大。
（2）\(GNINA\)获得更高精确度的原因：在采样后添加了重新评分的过程。
（3）重对接任务实验结果
3.盲对接任务
（1）传统方法：采样备份数大幅度影响盲对接精确度。
（2）\(DiffDock\)在新数据集上的表现，弱于在\(PDBBind\)测试集以及\(DUD-E\)测试集上的表现。
（3）从\(scPDB\)挖掘的新测试集：比原有的测试集更有挑战性。
（4）盲对接任务实验结果
·新测试集
·时间分割的\(PDBBind\)测试集
·\(DUD-E\)测试集（成功率普遍偏高，作用甚至不如\(PDBBind\)）

DSDP - A Blind Docking Strategy Accelerated by GPUs

DSDP: A Blind Docking Strategy Accelerated by GPUs

[Abstract]

[1 Introduction]

[2 Methods]

[3 Results and Discussion]

[4 Conclusion]