2024-12-04 17:33来源:本站编辑
有了MassiveFold,科学家们已经释放了AlphaFold的全部潜力,使高co信心蛋白质预测更快,更容易获得,推动生物学和药物发现的突破。
在最近发表在《自然计算科学》杂志上的一项研究中,来自法国的研究人员开发了MassiveFold,这是AlphaFold的增强版,专门为并行处理量身定制。他们的目标是将蛋白质结构的预测时间从几个月缩短到几个小时。他们发现MassiveFold有效地增强了蛋白质和蛋白质组件的结构建模,同时降低了计算成本,提高了预测质量,并且可以在各种硬件设置中进行扩展。
AlphaFold和AlphaFold蛋白质结构数据库改变了对蛋白质结构预测的访问,使单链和复杂蛋白质组装的建模成为可能。然而,尽管AlphaFold具有广泛采样的优势,但它仍然需要计算和耗时。
大量的采样已经显示出单体和蛋白质复合物的结构多样性和构象变异性,包括复杂的组装,如纳米体复合物和抗原-抗体相互作用。但是这种高采样在提高预测精度的同时,也带来了GPU需求和长处理时间方面的重大挑战。
具体来说,AlphaFold对图形处理单元(GPU)的高要求以及无法并行运行造成了实际限制。标准的alphafold - multitimer运行,特别是对于大型程序集,通常会超过计算基础设施设置的GPU集群时间,从而阻碍了复杂预测的完成。这使得AlphaFold的全部潜力难以在现有GPU资源限制下实现,这促使开发更有效的解决方案,用于单链和复杂结构预测。
为了应对这些挑战,研究人员在本研究中开发了MassiveFold,这是AlphaFold的并行化,可定制版本,可在cpu和gpu之间分配计算任务,以加速蛋白质结构的预测。
提供的输入是FASTA序列和AFmassive或ColabFold的参数选项。然后,MassiveFold在CPU上运行对齐,生成多个序列对齐(msa),并将批量大规模采样的结构预测划分为在gpu上运行。完成后,MassiveFold自动收集所有预测,并根据AlphaFold排名置信度评分、预测模板建模评分(pTM)和界面预测模板建模评分(ipTM)对其进行排名,并生成图。
在Bash和Python 3中开发的MassiveFold 1.2.5版本将AlphaFold的结构预测功能与通过AFmassive或ColabFold增强的采样功能相结合,并优化了跨中央处理单元(cpu)和gpu的并行化。它为灵活性而设计,允许用户调整参数,如辍学率、模板使用和Javascript Object Notation (JSON)文件中指定的回收步骤,以增加结构多样性。SLURM工作负载管理器通过调整批大小来有效地平衡资源,以确保在指定的时间内完成作业。
该过程包括以下步骤:(1)在CPU内核上生成对齐(使用JackHMMer, HHblits或MMseqs2),(2)在gpu上基于批处理的结构推断,以及(3)最后的后处理阶段对预测进行排序并生成图。一个节省时间的特性是,预先计算的对齐也可以重用。一个脚本编译了多次运行的结果来巩固排名,就像在结构预测的关键评估16 (CASP16)研究中所做的那样,在这个研究中,MassiveFold为每个目标生成了多达8040个预测并进行了排名。
研究发现,MassiveFold通过调整采样参数、回收和退出,有效地增加了蛋白质结构预测的多样性和置信度,从而为复杂的蛋白质目标产生高置信度的结构。例如,在CASP15 H1140靶标中,MassiveFold通过扩展采样和使用dropout无模板,可以生成多个具有高置信度分数的多样化结构。
此外,延长回收的使用增强了结构多样性,这是一种经过各种CASP目标验证的方法。
在CASP15目标上比较MassiveFold和AlphaFold3的测试表明,MassiveFold的大规模采样方法为8个目标中的7个目标产生了良好的模型,而AlphaFold3仅在8个目标中的3个目标上略微优于MassiveFold。计划将AlphaFold3整合到MassiveFold中,以进一步增强抗体-抗原预测模型,潜在地结合两个工具的独特优势。
总之,MassiveFold证明克服标准AlphaFold的计算限制,特别是对于大型和复杂的蛋白质组装,是可以实现的。MassiveFold优化了GPU集群对大规模蛋白质结构预测的使用,平衡了GPU和CPU资源,有效地处理大规模采样。
这种设计不仅增强了结构多样性,减少了计算时间,而且还为大型多gpu设置和单gpu环境提供了灵活性。MassiveFold的功能使其非常适合AlphaFold蛋白质结构预测领域的广泛探索,有望在研究和药物发现中得到重要应用。