DrugHive:基于结构的药物设计与生成人工智能
虚拟筛选的最新创新已将可获取的化合物扩展到数十亿甚至数万亿种,然而,探索化学空间的其余部分仍然具有挑战性。在这里,生成架构发挥了创造符合设计标准的新分子的能力。除了从头生成分子外,它们还能够将分子连接在一起、进行片段生长和分子优化。
虽然这听起来很不错,但迄今为止我们测试过的大多数架构都在与更复杂的目标作斗争,或者生成让药物和合成化学家想哭的疯狂化合物。为了有效地执行这些任务,仍然需要做大量的工作。当我们遇到 DrugHIVE,一种由 Jesse A. Weller 等人发布的深度分层变分自动编码器时。早在七月份,我们就认为测试一下它并看看它有什么能力可能是个好主意。根据作者的说法,它在速度和效率方面应该优于现有的方法,例如自回归和基于扩散的模型,这听起来已经很有趣了。
DrugHIVE 还可以与实验结构和 AphaFold 预测结构一起使用,这使得它可以用于新颖或尚未结晶的靶标。
该工具可用于基于结构的药物设计中各种任务的自动化,特别是连接子设计、支架跳跃、片段生长和模式替换。手工完成此操作通常需要强大的化学专业知识,因此生成的结果可以用作进一步开发的想法,也可以直接合成和测试。 DrugHive 可应用于早期命中发现阶段(片段生长/连接)以及先导化合物优化(潜在毒性子结构、PAINS、不需要的部分等的替换)。
优化分子特定部分的能力大大拓宽了该工具的应用范围,因为其他模型通常在需要修改时从头开始重建整个分子,从而限制了灵活性。
分层复杂性级别:DrugHIVE 能够处理不同“复杂性级别”的分子特征,其区分和处理大量结构图案以及特定原子细节的能力就证明了这一点。这种详细程度提高了模型生产适合蛋白质靶标的独特化合物的能力。 力场最小化:利用分子力学力场最大限度地提高预期结构的稳定性和结合潜力。 先验-后验系数调整:该机制允许在生成的分子的新颖性和参考结构相似性之间进行平衡。根据该系数的调整,DrugHIVE 可以产生现有分子的紧密复制品或探索化学空间的新区域,从而使该过程更加可定制。我们 Chemspace 总是在测试不同的生成架构,以了解它们在现实世界任务中的真实性能。不幸的是,我们在训练外的蛋白质上安装和运行的大多数东西都产生了不足的结果,尽管有时会产生有趣的想法。
我们在 2 个内部晶体结构上测试了 DrugHIVE,看看它在分子优化任务上的表现如何。结果非常有希望:大多数结构都非常合理,看起来不错,并且得分有所提高,这就是优化目标。它们也没有我们在其他架构中注意到的伪影,例如奇怪的环系统或过多的功能组。
一个有趣的发现是,生成的分子最终比种子分子小。也许这是 DrugHIVE 内部尺寸校正亲和力计算功能的作用,其目的是确保较大的分子不会仅仅因为其尺寸而受到青睐。
平衡生成的分子多样性的可能性也很方便,因为您可以在优化轮次中尝试不同的系数,以根据任务获得更多样化或更有针对性的化合物集。
尽管生成的分子非常合理,但不幸的是它们仍然需要定制合成,这可能是漫长且昂贵的。看到该工具与商业化学空间中的即时搜索的潜在组合将很有趣,以确保这些分子确实可以制造。
1. 内存效率
DrugHIVE 带来了相对较新的分子优化和从头生成方法,该方法基于基于网格的表示和具有不同空间尺度的分层结构表示。该模型的双分辨率实现显着降低了内存需求,尽管 DrugHIVE 只能生成适合输入密度网格 (24 Å) 的分子,这限制了其对较大分子的适用性。但其他生成方法(例如基于图和点云的模型)可以避免这个问题。
2. 化合物的多目标优化
DrugHIVE 的分层先验使模型能够更好地学习分子内和分子间关系的分布,从而更好地预测化合物的亲和力。而进化潜搜索使得模型能够保持在分子特性的最优状态。该模型可以根据结合亲和力 (Vina)、药物相似性 (QED)、可合成性 (SA) 和疏水性 (ALogP) 值在潜在空间中导航。
3、人口生成的灵活性
DrugHIVE 模型的分层性质导致在不同的空间尺度上对输入分子结构进行编码,并能够生成具有高水平空间控制的新分子——群体的多样性/相似性可以通过先验-后验采样系数来控制。
4. 性能可与最先进的型号相媲美
DrugHIVE 为 100 种不同蛋白质结构生成的分子显示,与来自晶体复合物的参考配体相比,预测亲和力高出 8.7%。它可以通过筛选生成的分子来进行命中识别,这些分子超过随机 ZINC 化合物的虚拟筛选子集,并使模型与当前的 SOTA 生成模型相当。
5. 预测蛋白质结构的化合物生成的可及性
DrugHIVE 可用于晶体结构不可用的情况。它可以对高置信度预测的蛋白质结构进行执行,并应给出对接分数的合理预测。但是,应谨慎使用此功能,因为它不一定以正确的绑定姿势进行操作。