虚拟筛选-3|基于配体的虚拟筛选
2025-09-11
导语
在药物研发的浩瀚海洋里,寻找一个能精准作用于靶点的分子,堪比 “大海捞针”。据估计,化学空间中可能存在超过 1020种 “类药物” 分子,而目前已知的化合物仅约 3000 万种。传统的高通量筛选(HTS)虽然能测试数百万种化合物,但成本高昂,且难以覆盖整个化学空间。基于配体的虚拟筛选(Ligand-Based Virtual Screening, LBVS)作为一种富有价值的计算辅助手段逐渐受到关注。它通过分析已知活性分子的特征,借助算法从庞大的化合物数据库中筛选出具有潜在活性的候选分子,为药物研发提供了更具针对性的方向指引。
一、什么是基于配体的虚拟筛选?
简单来说,基于配体的虚拟筛选是一种利用计算机模拟技术,通过分析已知活性分子(配体)的结构特征,从化合物数据库中筛选出具有相似性质分子的方法。它的核心逻辑基于 “相似性原理”——结构相似的分子往往具有相似的生物活性。例如,从吗啡的结构出发,通过寻找结构相似的分子,科学家能快速发现其他潜在的镇痛化合物。
LBVS 主要适用于靶点结构未知,但已知某些活性分子的场景。根据已知信息的丰富度,它又可分为两类:
- 活性分子已知:直接基于单个或多个活性分子的结构进行相似性搜索。
- 活性与非活性分子均已知:结合机器学习算法,构建更精准的活性预测模型。
二、核心技术:如何从 “分子长相” 预测 “生物活性”?
LBVS 的关键在于如何量化分子间的相似性,这需要三大核心技术的协同作用:
1. 分子描述符:给分子拍张 “数字照片”
分子描述符是将分子结构转化为数值的工具,就像给分子做了一张 “数字身份证”。常见的描述符包括:
- 二维指纹(2D Fingerprints):用二进制字符串(如 1000 位左右的 “0-1” 编码)记录分子中特定结构片段的有无。例如,Daylight 指纹可通过算法生成分子路径片段,MACCS Keys 则基于预定义的化学碎片。
- 三维特征(3D Features):捕捉分子的空间几何信息,如原子间距离、氢键供体 / 受体位置、疏水区域分布等。例如,Pharmacophore(药效团)模型会定义 “必须包含一个氢键受体和两个疏水基团” 等特征组合。
- 物理化学性质:如分子量(MW)、脂水分配系数(logP)、极性表面积(PSA)等,这些参数直接影响分子的药代动力学性质。
2. 相似性系数:计算分子间的 “相似度”
有了分子描述符,还需要一个 “尺子” 来衡量两个分子的相似程度。最常用的是Tanimoto 系数(适用于二维指纹),计算公式为:
其中,overlapAB为两个分子共有的特征数,selfA和 selfB 分别为参考分子和目标分子的特征数。此外,还有余弦系数、欧氏距离等方法,适用于不同类型的描述符。
3. 构象灵活性处理:应对分子的 “变形记”
许多分子并非刚性结构,单键旋转会导致其呈现不同构象(如 “椅子型” 和 “船型” 环己烷)。LBVS 通过两种方式解决这一问题:
- 构象预生成:在筛选前为每个分子生成多个低能构象,分别进行匹配。
- 动态搜索:在筛选过程中实时探索分子的构象空间,如使用遗传算法(GOLD 软件)或分子动力学模拟。
三、经典应用场景:从 “me-too 药物” 到 “ scaffold 跳跃”
1. 快速发现 “类似物”(Me-too Drugs)
通过二维指纹的相似性搜索,LBVS 能高效找到与已知药物结构相近的分子,这类分子通常具有相似的作用机制,可大幅缩短研发周期。例如北京理工大学梁建华教授课题组针对 sEH 酶的研究,以二苯乙烯 WS-82(IC₅₀ = 644 nM)为先导化合物,结合抗炎活性优良的生物碱类化合物结构,通过骨架跃迁理念设计并全合成一系列新型小檗碱、血根碱衍生物。
2. 突破专利壁垒: scaffold 跳跃(Scaffold Hopping)
当需要规避竞争对手的专利时,LBVS 可通过三维药效团模型或简化图(Reduced Graphs),寻找与原分子核心结构不同但功能基团排列相似的分子。
3. 结合机器学习:提升筛选精准度
若同时拥有活性和非活性分子数据,可利用机器学习算法(如随机森林、支持向量机)构建构效关系(SAR/QSAR)模型。这类模型能自动识别与活性相关的关键结构特征,甚至预测 “非直观” 的活性分子。例如,通过分析数万种化合物的结构与活性数据,模型可对新分子的活性概率进行排序。
四、挑战与未来:如何让 “导航仪” 更智能?
尽管 LBVS 已成为药物研发的核心工具,但其仍面临挑战:
- 相似性的主观性:不同描述符对 “相似性” 的定义不同,可能导致筛选结果差异。例如,二维指纹擅长找 “近亲”,而三维药效团更易发现 “远亲”。
- 构象不确定性:生物活性构象可能只是分子众多构象中的一种,如何确保筛选时覆盖该构象仍是难题。
- 数据依赖性:机器学习模型需要大量高质量数据,而许多靶点的活性分子数据稀缺。
未来,LBVS 的发展将聚焦于多方法融合(如结合分子对接、深度学习)和动态化学空间探索。例如,通过 “数据融合” 技术整合不同描述符的筛选结果,或利用生成式 AI(如 GPT-chem)从头设计全新分子骨架,进一步拓展筛选范围。
结语
从吗啡到现代镇痛药的研发历程,从 “盲目试错” 到 “精准设计”,基于配体的虚拟筛选见证了药物研发的智能化变革。它不仅是化学家的 “数字显微镜”,更是打开未知化学空间的 “钥匙”。
参考资料
- Liu XZ, Du XY, Xie WS, Ding J, Zhu MZ, Feng ZQ, Wang H, Feng Y, Yu MJ, Liu SM, Liu WT, Zhu XH, Liang JH. Redesigning Berberines and Sanguinarines to Target Soluble Epoxide Hydrolase for Enhanced Anti-Inflammatory Efficacy. J Med Chem. 2024 Dec 26;67(24):22168-22190.
- Leach AR, Gillet VJ, Lewis RA, Taylor R. Three-dimensional pharmacophore methods in drug discovery. J Med Chem. 2010 Jan 28;53(2):539-58.
- Ripphausen P, Nisius B, Bajorath J. State-of-the-art in ligand-based virtual screening. Drug Discov Today. 2011 May;16(9-10):372-6.
- Scior T, Bender A, Tresadern G, Medina-Franco JL, Martínez-Mayorga K, Langer T, Cuanalo-Contreras K, Agrafiotis DK. Recognizing pitfalls in virtual screening: a critical review. J Chem Inf Model. 2012 Apr 23;52(4):867-81.