虚拟筛选-2|打分函数的概念及分类
虚拟筛选
2025-09-11
导语
你是否想过:
为什么虚拟筛选能在百万分子中快速锁定“潜力股”?
为何同一靶点的不同筛选软件给出的“最佳分子”截然不同?
在计算机辅助药物筛选的舞台上,“打分函数”扮演着至关重要的“裁判”角色。它能快速评估药物分子(配体)与疾病靶标(蛋白质)结合的“亲密度”,为筛选潜力药物提供关键依据。今天,我们就来深入了解一下这位幕后功臣的概念和它的几大家族成员。
一、 打分函数:概念与定位
- 概念核心: 打分函数的核心使命,就是定量化评估药物分子(配体)与生物靶标(蛋白质)之间相互作用的强弱。简单说,它给“药物-靶标”这对搭档的结合能力打一个分数,分数越高(或越低,取决于具体函数),通常意味着结合越紧密,潜在的药效可能越好。
- 核心优势:速度快! 相比于精确但耗时极长的物理计算方法(如自由能微扰 FEP、热力学积分 TI),打分函数的最大优势在于计算速度极快。这使得它能够胜任大规模虚拟筛选任务,从成千上万甚至百万计的化合物中快速找出潜在的苗头化合物。
- 显著短板:精度有限。 天下没有免费的午餐,速度的提升往往以牺牲部分精度为代价。打分函数的结果准确性相对欠佳,难以达到实验级别的精度或媲美高级别自由能计算。例如,文中提到的 WaterSwap 方法虽然精度很高(R²=0.969),但计算一个分子就需要约 2 天,这在大规模筛选中是不现实的。打分函数的目标是在“速度”和“精度”之间找到一个实用的平衡点。
二、 打分函数的四大“家族”
市面上已有超过百种的打分函数(对应众多的分子对接程序),根据其基本原理,可以大致分为四类:
1. 基于物理的打分函数 (Physics-Based / Force Field-Based)
- 原理: 根植于经典的物理化学理论(如分子力学力场)。它将结合自由能拆解为一系列物理能量项的贡献:
基本公式:
- 代表选手: GoldScore, DOCK energy score, MM-PBSA/GBSA(严格说MM-PBSA/GBSA是后处理方法,但其能量项构成类似)。
- 优点: 理论根基扎实,能量项具有明确的物理意义,逻辑清晰,相对“靠谱”。
- 缺点: 每个能量项本身可能存在系统误差,叠加后可能导致最终结果与实验值偏差较大。计算速度虽然快于高级自由能计算,但通常慢于其他三类打分函数。
2. 基于经验的打分函数 (Empirical / Regression-Based)
- 原理: 通过统计分析大量已知结合亲和力的蛋白质-配体复合物结构数据,用线性回归拟合出一套“能量项”及其权重系数。其公式通常是各项的加权和:
基本公式:
- 代表选手: ChemScore, GlideScore (SP/XP)
- 优点: 紧密结合实验数据,通过拟合保留了实际体系中观察到的关联信息,通常在实际虚拟筛选中表现稳健。
- 缺点: 模型性能高度依赖于训练集的质量和规模。难以全面、无偏差地描述所有可能影响结合的复杂因素。其“经验”本质使其物理意义不如基于物理的函数清晰。
3. 基于知识的打分函数 (Knowledge-Based)
- 原理: 从大量已知的蛋白质-配体复合物晶体结构中,统计出不同原子对(如蛋白质的Cα与配体的O)在一定距离范围内出现的“偏好性”(频率)。利用玻尔兹曼分布原理,将这种观察频率转化为相互作用的“势能”(即统计势)。
基本公式:
- 代表选手: DrugScore, PMF, IT-Score, SMoG。
- 优点: 概念简洁,计算速度快,不直接依赖实验结合亲和力数据,主要利用结构信息。
- 缺点: 对蛋白质-配体界面复杂的化学环境(如强极化、金属配位、共价键等)处理能力较弱。结果的物理意义不如基于物理的函数明确。统计势依赖于结构数据库的质量和代表性。
4. 基于机器学习的打分函数 (Machine Learning-Based / Descriptor-Based)
- 原理: 这是当前最活跃的研究领域。首先计算或提取一系列描述蛋白质-配体复合物特征的描述符(Descriptors,如几何特征、化学特征、能量项等)。然后利用这些描述符作为输入,训练复杂的机器学习模型(如随机森林 RF、支持向量机 SVM、深度学习 DL)来预测结合亲和力或分类(结合/不结合)。函数形式高度复杂且非线性,没有固定表达式,是一个“黑箱”模型。
- 代表选手: ΔVina RF20, RF-Score, DeepDock, DeepScore, PIGNet。
- 优点: 在拟合实验数据方面往往表现最佳(尤其是在训练集分布内),能够捕捉非常复杂的模式,预测能力(相关性)常优于前三类传统函数。
- 缺点: 可解释性差(“黑箱”问题),难以理解模型做出判断的具体物理化学原因。对训练集之外的数据泛化能力可能存在挑战。通常难以显式地、充分地考虑关键物理效应,如溶剂化效应、构象熵变等。计算速度取决于模型复杂度(一些简单模型如RF-Score很快,深度学习模型可能较慢)。
三、 总结:如何选择你的“打分员”?
打分函数是计算机辅助药物设计,特别是虚拟筛选和分子对接的核心引擎。它们各具特色,共同目标是快速评估“药效潜力”:
- 追求速度与理论基础: 基于物理的打分函数是基础,物理意义清晰,计算速度相对较快,适合需要理论支撑的场景。
- 追求稳健性与实验贴合度: 基于经验的打分函数在实践中应用最广泛,通过拟合实验数据获得较好的预测稳健性,是虚拟筛选的主力军。
- 利用结构信息: 基于知识的打分函数提供了一种不依赖亲和力数据的独特视角,计算速度快,可作为补充验证。
- 追求预测精度(数据驱动): 基于机器学习的打分函数代表了前沿方向,在数据拟合和预测能力上潜力巨大,是目前提升打分精度的主要途径,但需警惕“黑箱”和泛化性问题。
关键点:
- 没有“万能”的打分函数! 每种方法都有其适用范围和局限性。
- “速度”与“精度”是永恒的权衡。 高级自由能计算(如FEP)精度高但极慢;打分函数速度快但精度有限。机器学习打分函数试图在两者之间找到更好的平衡点。
- 实际应用常“组合拳”: 在药物研发流程中,通常会结合多种打分函数的结果(共识打分 Consensus Scoring),或者先用快速方法初筛,再对少数候选分子使用更精确(也更慢)的方法进行验证和优化。
- 机器学习是趋势,但挑战犹存: 基于机器学习的打分函数是当前研究热点,性能提升显著,但其可解释性不足、对熵和溶剂化等关键效应建模不充分的问题,仍是未来需要突破的方向。
参考文献:
- Guedes IA, Pereira FSS, Dardenne LE. Empirical Scoring Functions for Structure-Based Virtual Screening: Applications, Critical Aspects, and Challenges. Front Pharmacol. 2018 Sep 24;9:1089.
- Huang SY, Zou X. An iterative knowledge-based scoring function to predict protein-ligand interactions: II. Validation of the scoring function. J Comput Chem. 2006 Nov 30;27(15):1876-82.
- Wang R, Lu Y, Fang X, Wang S. An extensive test of 14 scoring functions using the PDBbind refined set of 800 protein-ligand complexes. J Chem Inf Comput Sci. 2004 Nov-Dec;44(6):2114-25.
- Jiménez J, Doerr S, Martínez-Rosell G, Rose AS, De Fabritiis G. DeepSite: protein-binding site predictor using 3D-convolutional neural networks. Bioinformatics. 2017 Oct 1;33(19):3036-3042.