Anne Trafton | MIT News · 2026-02-17

MIT用大语言模型优化蛋白质药物生产

摘要

MIT化学工程师团队利用大语言模型分析工业酵母Komagataella phaffii的密码子使用模式，成功预测并优化了目标蛋白质的最佳DNA序列。实验显示，该方法在六种测试蛋白质中五种表现最优，包括人生长激素和癌症治疗单抗。这项技术有望缩短药物开发时间并降低成本，代码已公开供其他研究者使用。

内容框架与概述

蛋白质药物开发中，酵母菌株需要被工程化改造以大量生产目标蛋白质，这涉及优化DNA密码子序列、整合基因组和调控生长条件等复杂步骤，目前这些过程主要依赖繁琐的实验操作，占药物商业化成本的15%到20%。

MIT团队采用编码器-解码器类型的大语言模型，用K. phaffii自然产生的约5000种蛋白质的氨基酸序列和对应DNA序列进行训练。模型学习了密码子的语法和使用模式，包括相邻密码子之间的关系以及长距离依赖关系。

研究团队用该模型优化了六种不同蛋白质的密码子序列，并与四种商业化密码子优化工具对比。结果显示，MIT模型的序列在其中五种蛋白质上表现最佳，第六种排名第二。该模型还展现出对生物学原理的学习能力，例如自动避免包含负重复元件等抑制基因表达的序列。

研究人员已将代码公开，并开始在实验室中使用该模型优化感兴趣的蛋白质。针对不同生物体的测试显示，每个物种需要专门的模型来优化目标蛋白质的密码子。这项研究得到了MIT多个基金和机构的资助。

核心概念及解读

密码子优化：通过选择最优的三字母DNA序列组合来提高特定生物体中目标蛋白质的表达效率。 Komagataella phaffii：一种工业酵母菌株，广泛用于生产胰岛素、乙肝疫苗和单抗等生物制药产品。 编码器-解码器模型：一种大语言模型架构，MIT团队用它来分析DNA序列并学习密码子之间的关联模式。 转移RNA：负责将正确氨基酸运送到核糖体的分子，每种密码子对应特定的tRNA，其可用性影响蛋白质合成效率。