ProtGPT2 is a deep unsupervised language model for protein desig-天天观焦点
(资料图)
蛋白质设计的目标是构建定制化的新型蛋白质,以解决许多环境和生物医学问题。最近,基于Transformer的架构的进展使得语言模型能够生成具有人类化能力的文本。在这里,受到这一成功的启发,我们介绍了ProtGPT2,这是一个在蛋白质空间上训练的语言模型,可以按照自然规律生成全新的蛋白质序列。生成的蛋白质显示出自然氨基酸的偏好,并且无序预测表明,在ProtGPT2生成的蛋白质中,88%是球状的,与自然序列一致。在蛋白质数据库中进行敏感序列搜索显示,ProtGPT2序列与自然序列有一定的远缘关系,而相似性网络进一步证明ProtGPT2正在对蛋白质空间中未被探索的区域进行采样。AlphaFold对ProtGPT2序列的预测显示,它们具有完全折叠的非理想化结构,包括大环和具有独特拓扑结构的片段,这些结构在当前的结构数据库中尚未被捕捉到。ProtGPT2可以在几秒钟内生成序列,并且是免费提供的。
自然语言处理(NLP)在最近几年取得了非凡的进展。大规模预训练的语言模型彻底改变了NLP领域,以及我们在日常生活中使用的许多工具,如聊天机器人、智能助手或翻译机器。我们和其他人一直注意到蛋白质序列和人类语言之间的类比1,2。蛋白质序列可以被描述为一串来自化学上定义的字母表,即天然氨基酸的拼接,就像人类语言一样,这些字母排列组成次级结构元素("单词"),进而组装成域("句子")来执行一项功能("意义")。其中最有吸引力的相似之处之一是蛋白质序列和自然语言一样是信息完备的:它们以极高的效率按照氨基酸的顺序完全存储了结构和功能。随着NLP领域对理解和生成接近人类能力的语言的非凡进展,我们假设这些方法为仅基于序列的蛋白质相关问题(如蛋白质设计)提供了一扇新的大门。
尽管蛋白质序列和人类语言存在差异,但它们的类比已经刺激了将NLP方法应用于蛋白质研究问题几十年2。监督式NLP方法通过将输入序列与标签一起训练以产生预测模型已被应用于各种任务,如检测结构相似性或预测稳定性3,4。在BioSeq-BLM平台5,6中提供了大量应用于生物分子的监督式语言模型。然而,自从Transformer7诞生以来,无监督学习,即在无标签数据上进行训练的方法,已经成为一种多功能的语言建模工具。几种基于Transformer的模型,如TCR-BERT8,epiBERTope9,ESM10,ProtTrans11或ProteinBERT12,已经证明在其他方法13,14 中具有很高的竞争力。其中大多数模型都使用了类似BERT的15架构和去噪自编码训练目标,即通过以某种方式损坏输入记号并尝试重构原始句子来进行预训练2。尽管可以调整这些模型进行生成16,但它们最直接的应用是序列嵌入。
语言模型的另一个重要分支受益于自回归训练,即将模型训练为在给定上下文的情况下预测后续单词。这些模型,其中最著名的可能是GPT-x系列17,擅长生成长且连贯的文本,有时甚至达到了引起关于其潜在滥用的辩论的程度18。蛋白质自回归语言模型,如ProGen19–21、RITA22和DARK23也进行了研究,并展示了自回归Transformer在蛋白质设计中的潜力。受到这些工作以及英语模型(如GPT-x系列)不断增强的能力的启发,我们想知道是否可以训练一个生成模型,能够(i)有效地学习蛋白质语言,(ii)生成适用且稳定的蛋白质,以及(iii)了解这些序列与自然序列的关系,包括它们是否采样了蛋白质空间的未知区域。
在这里,我们介绍了ProtGPT2,一个拥有亿参数的自回归Transformer模型,能够高效地以高吞吐量生成全新的蛋白质序列。通过在涵盖整个蛋白质空间的大约五千万个未注释的序列上进行训练,ProtGPT2已有效地学习了蛋白质语言。ProtGPT2生成的蛋白质序列的氨基酸组成和无序倾向与自然序列相当,同时与当前蛋白质空间“进化地”远离。二级结构预测计算表明,88%的序列是球状的,与自然蛋白质一致。使用相似性网络对蛋白质空间的表示表明,ProtGPT2序列通过扩展自然超家族勘探了蛋白质空间的“未知”区域。生成的序列显示出与自然蛋白质对应物类似的稳定性和动态特性。由于ProtGPT2已经进行了预训练,它可以在标准工作站上在几秒钟内用于生成序列,或者可以在用户选择的序列集上进行进一步的微调,以增强特定蛋白质家族。模型和数据集可在HuggingFace代码库24(/nferruz/ProtGPT2)上获取。由于蛋白质设计在从生物医学到环境科学等领域解决问题具有巨大潜力25,26,我们认为ProtGPT2是朝着高效高吞吐量蛋白质工程和设计的时代前进的重要进展。