“阿尔法折叠2”贡献额外25%蛋白结构，可促进癌症研究和药物发现

21个物种的“阿尔法折叠2”结构模型中特征结构元素的空间。图片来源：《自然·结构与分子生物学》

科技日报实习记者张佳欣

据最近发表在《自然·结构与分子生物学》上的论文，包括西班牙何塞·卡雷拉斯白血病研究所癌症免疫遗传学小组负责人爱德华·波尔塔博士在内的一个团队，比较了现有可用的新结构得出结论：“阿尔法折叠2”为任何给定物种贡献了额外25%的高质量蛋白质结构。

“阿尔法折叠2”是深度思维公司开发的一种神经网络，专门用于根据蛋白质的氨基酸序列精确解析蛋白质的3D结构。

“阿尔法折叠2”数据库已经发布了21种模式生物的典型蛋白质亚型的预测，几乎涵盖了365198个蛋白质中的每一个残基。这大约是蛋白质结构数据库（PDB）中实验结构数量的两倍，独特蛋白质数量的六倍。

许多蛋白质在癌症等疾病中发挥的关键作用已为人所知，但科学家缺乏对它们在分子水平上的功能的深入了解。这些结构信息将帮助科学家更好地了解这些蛋白质，了解它们可能在细胞内与哪些其他分子相互作用，并设计能够在它们改变时干扰其功能的新药。

“阿尔法折叠2”的功能也有局限性。团队发现，该算法在试图重建蛋白质复合体时存在问题。大多数蛋白质与其他蛋白质一起完成生物功能，因此极其需要预测不同蛋白质是如何粘在一起的。另一个局限性是它无法显示突变蛋白质的结构，突变通常会导致蛋白质功能异常，是癌症等许多疾病的原因。

尽管如此，团队认识到“阿尔法折叠2”将在未来几年极大地影响基础和生物医学研究。这不仅归功于它的直接贡献，即数千个新的可靠的3D蛋白质模型，而且还因为它开启了一个基于人工智能的计算工具的新时代，能够产生没有人能预料的结果。

事实上，这个时代已经开始了。最近，“脸书”母公司Meta的一个团队使用了其自然语言预测器的修改版本来“自动补全”蛋白质。这款名为ESMFold的人工智能工具似乎没有谷歌的同类工具那么准确，但速度要快60倍，并可以克服一些已知的“阿尔法折叠2”的局限性，例如处理突变的序列。

正如论文作者所言，“‘阿尔法折叠2’和即将到来的工具的应用将对生命科学产生革命性的影响”。