Nat Mach Intell | “数据 + 知识 + AI”解锁新靶标药物虚拟筛选
文章来源:上海药物研究所 | 发布时间:2024-06-11 | 【打印】 【关闭】
2024年6月6日,中国科学院上海药物研究所郑明月课题组在Nature Machine Intelligence期刊发表题为“Generic protein–ligand interaction scoring by integrating physical prior knowledge and data augmentation modelling”的研究论文。团队利用等变图神经网络来整合蛋白质-配体相互作用相关的物理先验知识,并且使用多种数据增强、数据去冗余策略来避免模型过拟合潜在的数据分布偏差,最终构建了一种通用蛋白质-配体相互作用评分方法EquiScore。在药物虚拟筛选场景和先导化合物优化场景中,EquiScore对训练未见的新靶标表现出了良好的泛化性能。此外,EquiScore的可解释性分析为基于结构的药物设计提供了有价值的线索。
精准的评估蛋白质-配体相互作用对药物发现至关重要。然而,开发可靠的评估方法一直是学术界和工业界的长期挑战。近年来,人工智能技术在该领域已经取得了显著进展,以AlphaFold为代表的深度学习方法在蛋白质三维结构,蛋白质-配体复合物结构预测方面表现卓越。然而,在新靶标的药物虚拟筛选场景中,高精度的活性预测评分方法仍然非常匮乏。研究表明,深度学习模型倾向学习数据中的分布偏差,对分布内的数据可以给出很好的性能指标。但在实际应用中,尤其面对训练集未见的新靶标和化学多样性空间,却无法展现出良好的泛化效果。
图1. EquiScore 架构图。a:构造异质图引入物理先验信息。b: 嵌入层。c: EquiScore层。d:任务层。e: 应用场景。
本研究主要从两个方面来提高深度学习评分函数对新蛋白的预测能力。首先,科研人员收集了更多的阳性样本,并使用重对接来生成更多样的阳性样本。同时,使用交叉蛋白对接,分子生成模型来生成更多具有欺骗性和多样性的诱饵分子,以减少构建训练数据集时可能出现的类似物偏差(analog bias)、数据分布偏差(data distribution bias)以及人工富集偏差(artificial enrichment bias)(见图1)。其次,团队提出了一种异质图构建流程,可以通过引入新的节点和边来整合分子间相互作用的物理先验信息。同时,科研人员提出了一种信息感知注意力机制,用于整合不同信息中的相互作用,这些信息包括包括:(1) 等变几何信息,(2) 化学结构信息,(3) 经验相互作用信息。研究人员通过使用新构建的数据集和等变异质图网络来训练最终的评分模型 EquiScore。
图2. 在DEKOIS2.0上对22种评分方法进行评估。a、d: AUROC,b、e: BEDROC (α = 80.5)和c、f: 5.0% EF。箱形图中的蓝色三角形代表每个箱子的平均值。所有方法按其平均值排序。
在训练集中未见过的蛋白质上的虚拟筛选能力能够更好的反映评分方法在实际应用中的泛化性能。为了进行充分的比较,科研人员选择了21种不同的评分方法作为基准。最近报道的所有方法都是基于PDBbind数据集训练得到的,该数据集与外部测试集具有高度的“软重叠”,即很多蛋白都是在训练过程中模型已经见过的。为了进一步检查这种数据泄漏是否会导致性能高估,作者将外部测试集涉及“软重叠”的数据进行了去重,并对所有方法的结果进行重新评估。在DEKOIS2.0测试集上的分析结果显示(图2),EquiScore的排序能力和富集能力都排在第一或者第二。值得注意的是,当只考虑训练过程中未见过的蛋白时,EquiScore 在所有的结果上都排在第一位。以上结果表明,在严格的测试下,EquiScore的综合排序能力超过了现有的方法。此外,EquiScore对新蛋白的富集能力超过了传统评分方法和深度学习方法。
同时,科研人员还在外部的先导化合物优化数据集上比较了EquiScore与其它方法对结构类似物的活性排序能力;使用不同的对接方法生成蛋白-配体复合物结合构象,进一步评价EquiScore作为评分方法的鲁棒性。最后,研究人员还分析了模型的可解释性。
浙江大学与上海药物所联合培养博士研究生曹端华,国科大杭州高等研究院硕士研究生陈庚为本文的共同第一作者。上海药物所郑明月研究员为本文通讯作者。本研究得到了国家自然科学基金、国家重点研发计划、上海药物所与上海中医药大学中医药创新团队联合研究项目、中国科学院青年创新促进会会员项目、上海市科技重大专项资助。