虚拟筛选-2|打分函数的概念及分类

虚拟筛选

2025-09-11

导语

你是否想过：

为什么虚拟筛选能在百万分子中快速锁定“潜力股”？

为何同一靶点的不同筛选软件给出的“最佳分子”截然不同？

在计算机辅助药物筛选的舞台上，“打分函数”扮演着至关重要的“裁判”角色。它能快速评估药物分子（配体）与疾病靶标（蛋白质）结合的“亲密度”，为筛选潜力药物提供关键依据。今天，我们就来深入了解一下这位幕后功臣的概念和它的几大家族成员。

一、 打分函数：概念与定位

概念核心： 打分函数的核心使命，就是定量化评估药物分子（配体）与生物靶标（蛋白质）之间相互作用的强弱。简单说，它给“药物-靶标”这对搭档的结合能力打一个分数，分数越高（或越低，取决于具体函数），通常意味着结合越紧密，潜在的药效可能越好。
核心优势：速度快！ 相比于精确但耗时极长的物理计算方法（如自由能微扰 FEP、热力学积分 TI），打分函数的最大优势在于计算速度极快。这使得它能够胜任大规模虚拟筛选任务，从成千上万甚至百万计的化合物中快速找出潜在的苗头化合物。
显著短板：精度有限。 天下没有免费的午餐，速度的提升往往以牺牲部分精度为代价。打分函数的结果准确性相对欠佳，难以达到实验级别的精度或媲美高级别自由能计算。例如，文中提到的 WaterSwap 方法虽然精度很高（R²=0.969），但计算一个分子就需要约 2 天，这在大规模筛选中是不现实的。打分函数的目标是在“速度”和“精度”之间找到一个实用的平衡点。

二、 打分函数的四大“家族”

市面上已有超过百种的打分函数（对应众多的分子对接程序），根据其基本原理，可以大致分为四类：

1. 基于物理的打分函数 (Physics-Based / Force Field-Based)

原理： 根植于经典的物理化学理论（如分子力学力场）。它将结合自由能拆解为一系列物理能量项的贡献：

基本公式：

代表选手： GoldScore, DOCK energy score, MM-PBSA/GBSA（严格说MM-PBSA/GBSA是后处理方法，但其能量项构成类似）。
优点： 理论根基扎实，能量项具有明确的物理意义，逻辑清晰，相对“靠谱”。
缺点： 每个能量项本身可能存在系统误差，叠加后可能导致最终结果与实验值偏差较大。计算速度虽然快于高级自由能计算，但通常慢于其他三类打分函数。

2. 基于经验的打分函数 (Empirical / Regression-Based)

原理： 通过统计分析大量已知结合亲和力的蛋白质-配体复合物结构数据，用线性回归拟合出一套“能量项”及其权重系数。其公式通常是各项的加权和：

基本公式：

代表选手： ChemScore, GlideScore (SP/XP)
优点： 紧密结合实验数据，通过拟合保留了实际体系中观察到的关联信息，通常在实际虚拟筛选中表现稳健。
缺点： 模型性能高度依赖于训练集的质量和规模。难以全面、无偏差地描述所有可能影响结合的复杂因素。其“经验”本质使其物理意义不如基于物理的函数清晰。

3. 基于知识的打分函数 (Knowledge-Based)

原理： 从大量已知的蛋白质-配体复合物晶体结构中，统计出不同原子对（如蛋白质的Cα与配体的O）在一定距离范围内出现的“偏好性”（频率）。利用玻尔兹曼分布原理，将这种观察频率转化为相互作用的“势能”（即统计势）。

基本公式：

代表选手： DrugScore, PMF, IT-Score, SMoG。
优点： 概念简洁，计算速度快，不直接依赖实验结合亲和力数据，主要利用结构信息。
缺点： 对蛋白质-配体界面复杂的化学环境（如强极化、金属配位、共价键等）处理能力较弱。结果的物理意义不如基于物理的函数明确。统计势依赖于结构数据库的质量和代表性。

4. 基于机器学习的打分函数 (Machine Learning-Based / Descriptor-Based)

原理： 这是当前最活跃的研究领域。首先计算或提取一系列描述蛋白质-配体复合物特征的描述符（Descriptors，如几何特征、化学特征、能量项等）。然后利用这些描述符作为输入，训练复杂的机器学习模型（如随机森林 RF、支持向量机 SVM、深度学习 DL）来预测结合亲和力或分类（结合/不结合）。函数形式高度复杂且非线性，没有固定表达式，是一个“黑箱”模型。
代表选手： ΔVina RF20, RF-Score, DeepDock, DeepScore, PIGNet。
优点： 在拟合实验数据方面往往表现最佳（尤其是在训练集分布内），能够捕捉非常复杂的模式，预测能力（相关性）常优于前三类传统函数。
缺点： 可解释性差（“黑箱”问题），难以理解模型做出判断的具体物理化学原因。对训练集之外的数据泛化能力可能存在挑战。通常难以显式地、充分地考虑关键物理效应，如溶剂化效应、构象熵变等。计算速度取决于模型复杂度（一些简单模型如RF-Score很快，深度学习模型可能较慢）。

三、 总结：如何选择你的“打分员”？

打分函数是计算机辅助药物设计，特别是虚拟筛选和分子对接的核心引擎。它们各具特色，共同目标是快速评估“药效潜力”：

追求速度与理论基础： 基于物理的打分函数是基础，物理意义清晰，计算速度相对较快，适合需要理论支撑的场景。
追求稳健性与实验贴合度： 基于经验的打分函数在实践中应用最广泛，通过拟合实验数据获得较好的预测稳健性，是虚拟筛选的主力军。
利用结构信息： 基于知识的打分函数提供了一种不依赖亲和力数据的独特视角，计算速度快，可作为补充验证。
追求预测精度（数据驱动）： 基于机器学习的打分函数代表了前沿方向，在数据拟合和预测能力上潜力巨大，是目前提升打分精度的主要途径，但需警惕“黑箱”和泛化性问题。

关键点：

没有“万能”的打分函数！ 每种方法都有其适用范围和局限性。
“速度”与“精度”是永恒的权衡。 高级自由能计算（如FEP）精度高但极慢；打分函数速度快但精度有限。机器学习打分函数试图在两者之间找到更好的平衡点。
实际应用常“组合拳”：在药物研发流程中，通常会结合多种打分函数的结果（共识打分 Consensus Scoring），或者先用快速方法初筛，再对少数候选分子使用更精确（也更慢）的方法进行验证和优化。
机器学习是趋势，但挑战犹存： 基于机器学习的打分函数是当前研究热点，性能提升显著，但其可解释性不足、对熵和溶剂化等关键效应建模不充分的问题，仍是未来需要突破的方向。

参考文献：

Guedes IA, Pereira FSS, Dardenne LE. Empirical Scoring Functions for Structure-Based Virtual Screening: Applications, Critical Aspects, and Challenges. Front Pharmacol. 2018 Sep 24;9:1089.
Huang SY, Zou X. An iterative knowledge-based scoring function to predict protein-ligand interactions: II. Validation of the scoring function. J Comput Chem. 2006 Nov 30;27(15):1876-82.
Wang R, Lu Y, Fang X, Wang S. An extensive test of 14 scoring functions using the PDBbind refined set of 800 protein-ligand complexes. J Chem Inf Comput Sci. 2004 Nov-Dec;44(6):2114-25.
Jiménez J, Doerr S, Martínez-Rosell G, Rose AS, De Fabritiis G. DeepSite: protein-binding site predictor using 3D-convolutional neural networks. Bioinformatics. 2017 Oct 1;33(19):3036-3042.