Odyssey:超千亿参数蛋白质语言模型发布
Anthrogen 团队发布了参数规模超过 1020 亿的蛋白质语言模型 Odyssey。该模型采用创新的 Consensus 机制和离散扩散训练目标,在数据效率和生成能力上表现突出,为蛋白质设计与工程提供了新工具。
蛋白质是生命活动的主要承担者,其设计与改造对于生物医药、工业酶催化等领域至关重要。近年来,基于深度学习的蛋白质语言模型成为该领域的研究热点,旨在理解和生成具有特定功能的蛋白质序列。近日,Anthrogen 团队发布了名为 Odyssey 的蛋白质语言模型,其参数规模超过 1020 亿,是目前已知最大的同类模型。值得注意的是,该模型由一个 6 人小团队以远低于行业竞争对手的研发成本完成,展示了算法创新在资源受限条件下的潜力。

核心内容
Odyssey 的核心技术创新主要体现在模型架构、训练目标和数据效率三个方面。
在模型架构上,Odyssey 用名为“Consensus”的机制替代了 Transformer 中传统的自注意力机制。该机制首先让蛋白质序列的局部邻域达成“共识”,然后通过稀疏图进行信息传播。这种方法旨在模拟蛋白质结构变化在真实生物物理环境中的传播路径,从而提升了模型在处理长序列时的稳定性与扩展性。
在训练目标上,模型采用了离散扩散方法。这一训练范式模拟了自然界中蛋白质进化的过程,即先产生突变提议,再经历自然选择。相比传统的掩码语言模型训练目标,离散扩散在推理时能生成更符合自然进化动态的蛋白质序列,效果表现更优。
在数据利用方面,Odyssey 展现出极高的效率。据报道,该模型仅使用了同类模型约十分之一的训练数据量,但其性能已能超越它们。在高质量生物实验数据相对稀缺的背景下,这一特性具有显著优势。
此外,模型展现出多目标对齐的能力。在没有进行显式多任务训练的情况下,Odyssey 生成的蛋白质序列已能同时偏好合理的全局折叠(常作为蛋白质可表达性的代理指标)和准确的活性位点三维定位(常作为蛋白质功能活性的代理指标)。这种内在的对齐特性极大增强了其在酶等功能性蛋白质设计中的应用潜力。
价值与影响
Odyssey 的发布不仅是蛋白质计算设计领域的一次重要技术进展,也为大规模生物模型的研发模式提供了新思路。它证明了通过核心算法创新,小团队同样可以推动前沿模型的开发。该模型的高数据效率和对蛋白质功能与结构的协同优化能力,有望加速新型生物催化剂、治疗性蛋白质乃至人工生命元件的设计周期。团队表示未来将开源模型代码,并发布更多实验室规模的数据以及对 Consensus 机制的深入分析,这将进一步促进学术社区和工业界的相关研究与应用探索。
来源:黑洞资源笔记