虚拟筛选-7|虚拟筛选常用的化合物数据库

2025-10-14

导语

  虚拟筛选如同一场分子寻宝游戏,而化合物数据库就是藏宝图。无论是药物研发、材料科学还是环境毒理研究,选对数据库能让你事半功倍。今天带你快速了解虚拟筛选中的六大核心化合物库及其使用场景。


 

1. 小分子化合物库:虚拟筛选的基石

  • ZINC22:全球最大开源小分子库,覆盖35亿可购买分子,包含3D结构、类药性评分及合成路线。其现成化合物子库(如ZINC-In-Stock)支持直接采购,大幅缩短研发周期。

  • Enamine REAL Space专攻虚拟分子库,包含360亿化学空间分子,支持基于片段的药物设计(FBDD)。2024年抗真菌药物研发中,研究者通过该库筛选出活性提升5倍的候选分子。

           

  • PubChem收录1.3亿化合物,整合生物活性数据(如IC50值),适合靶点-配体关系初探。例如,新冠药物瑞德西韦的早期靶点验证曾依赖此库。

 

 2. 生物活性数据库:靶向筛选的导航仪

           

  • ChEMBL涵盖200万化合物与1.4万靶点的活性数据,提供ADMET预测模型。2023年阿尔茨海默病研究中,科学家通过ChEMBL筛选出抑制Tau蛋白聚集的天然分子。

  • BindingDB聚焦蛋白-配体结合数据,包含60万条亲和力记录。针对GPCR等难成药靶点,其动态构象数据可提升分子对接精度30%

 

3. 药物与临床化合物库:老药新用的捷径

  • DrugBank收录1.6万已上市药物及临床试验分子,支持药物再利用研究。例如,降压药洛沙坦通过该库被重新定位为抗纤维化药物,研发周期缩短4年。

 

  • FDA Orange Book涵盖美国获批药物的专利与成分信息,规避专利纠纷。2025年某仿制药企业通过该库成功设计非侵权分子结构。

 

4. 天然产物库:大自然的分子宝箱

  • TCMSP(中药系统药理学数据库):收录500种中药的3万成分及靶点,支持中药现代化研究。例如,青蒿素抗疟机制的二次解析曾依赖此库。

  • NPASS收录3.5万天然产物及其抗菌、抗肿瘤活性数据,适合抗生素开发。2024年某团队从中发现抑制超级细菌的萜类化合物。

 

5. 虚拟生成库:AI造物的试验田

  • GDB-17包含166亿虚拟有机小分子,突破合成可行性限制。结合生成式AI模型(如MolGPT),可设计全新骨架分子,如2025年发表的抗抑郁先导化合物XZ-203
  • MOSES提供基准数据集与生成模型评估工具,帮助优化分子性质。某AI药企通过该库训练模型,使生成分子的类药性评分提升22%

 

 6. 特色数据库:垂直领域的利器

  • PROMISCUOUS专注药物多靶点效应,含1.6万药物的脱靶数据,适合毒理预测。

 

化合物数据库的预处理

  在药物发现的早期,准确快速地排除非药物类化合物将有利于达到富集活性化合物、降低筛选成本的目的。在药物筛选的化合物样品准备阶段,非药物类化合物排除法(removal of non-drug-like compounds)常常是首先采取的方法,它是根据化合物类药性(drug- likeness)的特点,排除化合物数据库中违背化合物类药性特征的化合物。这种方法简单易行,在化合物数据库管理系统中即可完成。非药物类化合物主要包括以下几种类型:

(1)存在非药物类元素如过渡金属元素的化合物;

(2)分子量小于100或大于1000的化合物;

(3)碳原子总数小于3的化合物;

(4)无氮原子、氧原子或硫原子的化合物;

(5)违反“Lipinskis rule of five”中两条或两条以上规则的化合物;

(6)对于非中枢神经系统的药物筛选,应排除血脑屏障系数logBB大于03的化合物。其中logBB 是药物分子在大脑和血液中稳态浓度比值的对数,即log(C/C);

(7)对于中枢神经系统的药物筛选,则应排除血脑屏障系数logBB小于0的化合物;


 

总结

虚拟筛选的成功离不开精准选库+严格预处理。面对ZINCEnamineChEMBL等多样化的化合物库,需结合靶点特性(如小分子/天然产物需求)、库存规模(亿级或千万级分子)及数据维度(3D结构/活性数据)择优选用;在进行虚拟筛选之前对化合物进行过滤预处理提升整体的筛选质量。


 

参考文献

1. Irwin JJ, Tang KG, Young J, Dandarchuluun C, Wong BR, Khurelbaatar M, Moroz YS, Mayfield J, Sayle RA. ZINC20-A Free Ultralarge-Scale Chemical Database for Ligand Discovery. J Chem Inf Model. 2020 Dec 28;60(12):6065-6073.

2. https://pubchem.ncbi.nlm.nih.gov/docs/

3. Zdrazil B, Felix E, Hunter F, Manners EJ, Blackshaw J, Corbett S, de Veij M, Ioannidis H, Lopez DM, Mosquera JF, Magarinos MP, Bosc N, Arcila R, Kizilören T, Gaulton A, Bento AP, Adasme MF, Monecke P, Landrum GA, Leach AR. The ChEMBL Database in 2023: a drug discovery platform spanning multiple bioactivity data types and time periods. Nucleic Acids Res. 2024 Jan 5;52(D1):D1180-D1192.

4. https://go.drugbank.com/