Anne Trafton | MIT News · 2026-02-17

MIT用大语言模型优化蛋白质药物生产

摘要

MIT化学工程师团队利用大语言模型分析工业酵母Komagataella phaffii的密码子使用模式,成功预测并优化了目标蛋白质的最佳DNA序列。实验显示,该方法在六种测试蛋白质中五种表现最优,包括人生长激素和癌症治疗单抗。这项技术有望缩短药物开发时间并降低成本,代码已公开供其他研究者使用。

内容框架与概述

蛋白质药物开发中,酵母菌株需要被工程化改造以大量生产目标蛋白质,这涉及优化DNA密码子序列、整合基因组和调控生长条件等复杂步骤,目前这些过程主要依赖繁琐的实验操作,占药物商业化成本的15%到20%。

MIT团队采用编码器-解码器类型的大语言模型,用K. phaffii自然产生的约5000种蛋白质的氨基酸序列和对应DNA序列进行训练。模型学习了密码子的语法和使用模式,包括相邻密码子之间的关系以及长距离依赖关系。

研究团队用该模型优化了六种不同蛋白质的密码子序列,并与四种商业化密码子优化工具对比。结果显示,MIT模型的序列在其中五种蛋白质上表现最佳,第六种排名第二。该模型还展现出对生物学原理的学习能力,例如自动避免包含负重复元件等抑制基因表达的序列。

研究人员已将代码公开,并开始在实验室中使用该模型优化感兴趣的蛋白质。针对不同生物体的测试显示,每个物种需要专门的模型来优化目标蛋白质的密码子。这项研究得到了MIT多个基金和机构的资助。

核心概念及解读

密码子优化:通过选择最优的三字母DNA序列组合来提高特定生物体中目标蛋白质的表达效率。 Komagataella phaffii:一种工业酵母菌株,广泛用于生产胰岛素、乙肝疫苗和单抗等生物制药产品。 编码器-解码器模型:一种大语言模型架构,MIT团队用它来分析DNA序列并学习密码子之间的关联模式。 转移RNA:负责将正确氨基酸运送到核糖体的分子,每种密码子对应特定的tRNA,其可用性影响蛋白质合成效率。


原文信息

字段内容
原文New AI model could cut the costs of developing protein drugs
作者Anne Trafton
发表日期2026-02-17

此摘要卡片由 AI 自动生成