OK Computer · 2026-01-27

Kimi发布K2.5模型：全新视觉理解与Agent集群能力

摘要

Kimi发布并开源K2.5模型，这是Kimi迄今最智能和全能的模型。K2.5在Agent、代码、图像视频理解等领域取得开源先进水平，首次引入Agent集群能力，可自主创建分身组成团队并行工作。同时正式发布Kimi Code编程工具，支持多模态输入和主流编辑器集成。

内容框架与概述

文章开篇介绍了Kimi K2.5的核心定位：这是Kimi迄今最智能和全能的开源模型。K2.5采用原生多模态架构设计，同时支持视觉与文本输入、思考与非思考模式、对话与Agent任务，在Agent、代码、图像视频等多个任务上达到开源先进水平。

文章详细阐述了三大核心能力。首先是代码与视觉的融合，K2.5能从自然语言生成完整前端界面，支持通过录屏自动拆解交互逻辑并用专业代码复现，大幅降低编程门槛。其次是革命性的Agent集群功能，K2.5可根据任务需求现场调度多达100个分身，并行处理1500个步骤，相比单Agent执行，关键步骤减少3到4.5倍，实际运行时间最高缩短4.5倍。

文章还介绍了正式发布的Kimi Code编程工具，该工具可在终端运行并无缝集成到VSCode、Cursor、JetBrains和Zed等主流编辑器，充分发挥K2.5的多模态优势。最后说明了K2.5的四种使用模式：快速、思考、Agent和Agent集群模式，现已登陆Kimi.com、Kimi App、API开放平台和Kimi Code产品。