Latent.Space · 2026-01-28

Moonshot Kimi K2.5:超越Sonnet的开源多模态模型

摘要

文章深入介绍了Moonshot AI发布的Kimi K2.5模型,这是一个32B激活参数的专家混合模型,通过15万亿视觉与文本混合token的持续预训练而成。该模型在多项基准测试中超越了Claude Sonnet 4.5,但API成本仅为后者的一半。K2.5首次实现了原生多模态能力,可同时处理图像和视频,并推出了创新的Agent Swarm技术,能够动态管理多达100个并行子代理。该模型已迅速在Ollama、Together AI、Fireworks等平台上线,标志着中国与西方在开源模型领域的差距进一步扩大。

内容框架与概述

文章首先介绍了Kimi K2.5的基本架构和技术细节。该模型在K2基础上进行了持续预训练,增加了MoonViT视觉编码器,使模型能够原生处理图像和视频输入。值得注意的是,这是一个在已有大规模模型基础上改变架构的成功案例,对模型训练领域具有重要参考价值。模型上下文窗口从128K扩展到256K,并采用INT4量化技术,在保持性能的同时降低了部署成本。

文章重点强调了K2.5的核心创新功能Agent Swarm。该功能允许模型自主创建和管理多达100个并行子代理,在最多1500个协调步骤中执行复杂任务。这种并行化处理使最终结果性能提升,速度提高达4.5倍。文章展示了一个实际案例,要求模型收集并整理顶级AI初创公司信息,体现了该技术在处理复杂多步骤任务时的强大能力。

文章还提到了K2.5在基准测试中的表现。在HLE和BrowseComp测试中宣称达到SOTA水平,在视觉和编码任务上同样取得开源模型领先地位。第三方评估显示其在GDPval-AA Elo评分达1309分,MMMU Pro达到75%,幻觉率相比K2 Thinking有所改善。该模型已快速集成到多个平台,甚至在双M3 Ultra设备上可以本地运行,显示出良好的可部署性。

核心概念及解读

原生多模态能力:模型首次原生支持图像和视频理解,通过大规模视觉文本联合预训练实现,可直接处理屏幕录制等视频输入并重建网站。

Agent Swarm:创新的代理编排技术,模型可自主创建并管理多达100个并行子代理,在最多1500个步骤中动态执行复杂工作流,无需预定义角色或手工设计流程。

持续预训练:在已有15T token训练基础上,再进行15万亿混合视觉文本token的持续训练,并在此过程中改变模型架构,是模型训练领域的重要突破。

INT4选择性量化:仅对路由专家进行量化,在保持模型性能的同时显著降低内存需求和部署成本,使INT4版本仅需约595GB存储空间。

MoE架构:采用384个专家的混合专家模型,实际激活参数为32B,在保持高性能的同时优化了推理效率。


原文信息


此摘要卡片由 AI 自动生成