Kimi K2.6 技术博客:推进开源编程
Kimi K2.6 技术博客:推进开源编程
Kimi 团队发布了新一代开源模型 K2.6,在编码能力、长程执行与智能体集群方面均达到业界领先水平。这篇技术博客详细拆解了模型的核心设计思路与实测表现,其中最令人印象深刻的并非基准测试分数,而是 K2.6 在真实复杂工程任务中展现出的自主性与可靠性:它曾用 Zig 语言在 Mac 上从零优化 Qwen3.5-0.8B 的推理性能,历经四千余次工具调用和十多小时的持续迭代,最终将吞吐量提升至 193 tokens/秒;也曾自主重构一个已有八年历史的开源金融撮合引擎,分析火焰图定位瓶颈、重构核心线程拓扑,最终实现 185% 的中位数吞吐量跃升。多位测试方的反馈也指向同一个结论——K2.6 真正突破的是长程任务中的稳定性和指令遵循能力,这使其成为构建自主智能体管线的可靠底座。对于关注开源大模型前沿进展、智能体编码工作流的读者而言,这篇文章提供了翔实且有说服力的技术参考。
长程编码(Long-Horizon Coding)
编码驱动设计(Coding-Driven Design)
升级版智能体集群(Agent Swarms, Elevated)
主动式智能体(Proactive Agents)
自带智能体(Bring Your Own Agents)
基准测试表(Benchmark Table)
脚注(Footnotes)
我们正在开源最新模型 Kimi K2.6,具备 业界领先的编码能力、长程执行能力与智能体集群能力。Kimi K2.6 现已可通过 Kimi.com、Kimi App、API 和 Kimi Code 使用。
通用智能体(General Agents)
Humanity's Last Exam (Full) w/ tools
BrowseComp
DeepSearchQA (f1-score)
Toolathlon
OSWorld-Verified
编码(Coding)
Terminal-Bench 2.0 (Terminus-2)
SWE-Bench Pro
SWE-Multilingual
视觉智能体(Visual Agents)
MathVision w/ python
V* w/ python
长程编码
Kimi K2.6 在长程编码任务上展现出显著提升,能够跨编程语言(如 Rust、Go 和 Python)及任务类型(如前端、DevOps 和性能优化)实现可靠的泛化。在 Kimi Code Bench(我们内部覆盖多种复杂端到端任务的编码评测基准)上,Kimi K2.6 相比 Kimi K2.5 显示出明显改进。
Kimi K2.6 在复杂工程任务中展现出强大的长程编码能力:
Kimi K2.6 成功在 Mac 上本地下载并部署了 Qwen3.5-0.8B 模型。通过使用高度小众的编程语言 Zig 实现并优化模型推理,它展示了卓越的分布外泛化能力。在 超过 4,000 次工具调用、12 小时以上的持续执行以及 14 轮迭代 中,Kimi K2.6 将吞吐量从约 15 tokens/秒大幅提升至 约 193 tokens/秒,最终速度比 LM Studio 快约 20%。
Kimi K2.6 自主重构了 exchange-core——一个已有 8 年历史的开源金融撮合引擎。在 13 小时的执行过程 中,模型迭代了 12 种优化策略,发起超过 1,000 次工具调用,精确修改了 4,000 多行代码。Kimi K2.6 扮演了专家级系统架构师的角色,通过分析 CPU 和分配火焰图来定位隐藏瓶颈,并大胆重构了核心线程拓扑(从 4ME+2RE 改为 2ME+1RE)。尽管该引擎已接近其性能极限运行,Kimi K2.6 仍然实现了 185% 的中位数吞吐量跃升(从 0.43 到 1.24 MT/s)以及 133% 的性能吞吐量提升(从 1.23 攀升至 2.86 MT/s)。
在 Beta 测试中,K2.6 在企业评测的长程编码任务上表现优异(按字母顺序排列):
Kimi K2.6 的进化令人印象深刻。 它的编码能力达到了与顶尖闭源模型相当的水平,并且由于对第三方框架的深刻理解,提供了强大的工具调用质量。Kimi K2.6 出色的可靠性使其成为复杂长程工程任务的绝佳选择。
Kimi K2.6 为开源模型树立了新标杆,尤其是在长程、智能体式编码工作流方面。 它能处理复杂的多步任务,指令遵循能力更强,代码质量始终如一。我们发现它能以显著的稳定性维持长时间的编码会话,远超普通模型。它还能发现深层次、不明显的 bug,而这些 bug 通常需要开发者花费大量时间才能找出。总体而言,K2.6 为可靠编码设立了新标准。
在 CodeBuddy 内部评测中,Kimi K2.6 相比 K2.5 有显著提升:代码生成准确率提高 12%,长上下文稳定性提升 18%,工具调用成功率达到 96.60%。 其更强的推理能力和更一致的输出质量为确保 CodeBuddy WorkBuddy 的可靠用户体验提供了有力支撑。
在我们自己的基准测试(+15%)和并排对比中,K2.6 相比 K2.5 都有明显改进。 它的指令遵循能力更强,探索和推理更深入,编码错误或使用 hack 的可能性更低。
我们非常高兴看到 Kimi K2.6 的发布再次推动了开源模型的飞跃,这标志着高风险智能体工作流的重大进步。最具影响力的改进在于其长程可靠性和指令遵循能力。 K2.6 擅长在长时间编码过程中保持架构完整性,使其成为自主智能体管线(如同各类 "claws")的稳定基础。它在长上下文任务上相比 K2.5 有了可量化的飞跃,在复杂推理中达到了业界领先水平。
我们提前体验了 K2.6 并在 Hermes Agent 上进行了测试。工具调用和智能体循环感觉明显更紧凑,编码能力明显提升,创意范围也令我们惊喜。 我们对与 Kimi 合作举办创意黑客马拉松感到非常兴奋。Kimi 团队持续超越预期!
K2.6 以极低的成本提供了业界顶尖水平的性能。 它在跨代码库的长上下文任务以及支持 KiloClaw 这类常驻智能体的日常工作中都表现出色。
Kimi K2.6 提升了开源模型的标准。 它在编码方面表现卓越,尤其适用于 OpenClaw 和 Hermes 等智能体工具。在早期测试中,它能以令人印象深刻的稳定性维持长时间的多步会话。它将开箱即用地支持 Ollama 的全部集成,我们期待看到开发者用它构建的作品。
在 OpenCode 中,Kimi K2.6 被证明异常可靠。 它在任务分解和工具调用方面既稳健又一致。凭借对任务需求更精准的把握和更简化的多步操作,它能有效减少重复开销,带来更流畅、更可信的端到端体验。
Kimi K2.6 在 Qoder 内部评测中表现强劲,相比 K2.5 取得了显著进步。 具体而言,工具调用和模型调用的频率明显增加,反映了模型在任务执行过程中的主动性和智能性有了大幅提升。工具调用中这种增强的主动性使模型能够更主动地理解开发者意图并自动补全上下文,从而减少对用户的打断和等待时间。
K2.6 在我们开发者最关心的能力上比 K2.5 有重大提升:我们在 Next.js 基准测试上看到了超过 50% 的改进,使其跻身该平台上的顶尖模型之列。结合其性价比,它是通过 AI Gateway 进行智能体编码和前端生成的极具吸引力的选择。
01 / 06
编码驱动的设计
基于强大的编码能力,Kimi K2.6 能够将简单的提示词转化为完整的前端界面,生成具有深思熟虑设计选择的结构化布局,例如美观的 Hero 区域,以及交互元素和丰富的动画效果,包括滚动触发的动效。凭借对图像和视频生成工具的娴熟运用,Kimi K2.6 支持生成视觉上协调一致的素材,并有助于打造更高质量、更突出的 Hero 区域。
此外,Kimi K2.6 的能力超越了静态前端开发,扩展至简单的全栈工作流——涵盖身份验证、用户交互到数据库操作,适用于诸如事务记录或会话管理等轻量级用例。
我们建立了内部 Kimi Design Bench(Kimi 设计基准测试),分为四个类别:视觉输入任务、Landing Page 构建、全栈应用开发和通用创意编程。与 Google AI Studio 相比,Kimi K2.6 在这些类别中表现出了令人期待的结果和良好的性能。
以下是由 K2.6 Agent 从单个提示词生成的示例,配有预配置的 harness 和工具:
美观:精美前端设计,交互丰富
功能:内置数据库和身份验证
工具使用:利用图像/视频生成工具创建精美的网站
智能体集群,全面升级
横向扩展,而非仅仅纵向扩展。 智能体集群将任务动态分解为异构子任务,由自行创建的领域专用智能体并发执行。
基于 K2.5 Agent Swarm 研究预览版,Kimi K2.6 Agent Swarm 在智能体集群体验上展现了质的飞跃。它无缝协调异构智能体,将互补技能融合在一起:广度搜索与深度研究相结合、大规模文档分析与长文写作相融合,以及多格式内容的并行生成。这种组合式智能使集群能够在单次自主运行中交付端到端的输出——涵盖文档、网站、幻灯片和电子表格。
该架构横向扩展至 300 个子智能体同时在 4,000 个协调步骤中执行,相比 K2.5 的 100 个子智能体和 1,500 个步骤有了大幅扩展。这种大规模并行化从根本上降低了端到端延迟,同时显著提升了输出质量,并扩展了智能体集群的运作边界。
它还可以将任何高质量文件(如 PDF、电子表格、幻灯片和 Word 文档)转化为 Skills(技能)。Kimi K2.6 捕捉并保持文档的结构和风格 DNA,使你能够在未来的任务中重现相同的质量和格式。
以下是一些示例:
在 100 个全球半导体资产上设计并执行了 5 种量化策略,提炼出 McKinsey 风格的 PPT 作为可复用技能,并交付了详细的建模电子表格和完整的高管演示文稿。
将一篇包含丰富视觉数据的高质量天体物理学论文转化为可复用的学术技能,提炼其推理流程和可视化方法,并生成了一篇 40 页、7,000 词的研究论文、一个包含 20,000+ 条目的结构化数据集,以及 14 张天文学级图表。
基于上传的简历,K2.6 生成了 100 个子智能体,匹配加利福尼亚州的 100 个相关职位,交付了结构化的机会数据集和 100 份完全定制的简历。
从 Google Maps 中识别出洛杉矶 30 家没有官方网站的零售店,并为每家生成了高转化率的 Landing Page,展现了机会发现和端到端执行能力。
主动式智能体
K2.6 在诸如 OpenClaw 和 Hermes 等自主、主动式智能体上展现了强劲性能,这些智能体跨多个应用持续全天候运行。
与简单的基于聊天的交互不同,这些工作流要求 AI 以持久化后台智能体的方式主动管理日程、执行代码并编排跨平台操作。
我们的 RL 基础设施团队使用了一个基于 K2.6 的智能体,它自主运行了 5 天,管理监控、事件响应和系统运维,展现了持久化上下文、多线程任务处理以及从告警到解决的完整周期执行能力。以下是 K2.6 的工作日志(已匿名化处理以去除敏感信息):
K2.6 Agent Trace——5 天自主工程工作日志
Kimi K2.6 在真实世界可靠性方面带来了可衡量的改进:更精确的 API 解读、更稳定的长时运行性能,以及在扩展研究任务中更强的安全意识。
性能提升通过我们的内部 Claw Bench(Claw 基准测试)进行量化,该评测套件涵盖五个领域:编码任务、IM 生态系统集成、信息研究与分析、定时任务管理和记忆利用。在所有指标上,Kimi K2.6 在任务完成率和工具调用准确率方面显著优于 Kimi K2.5——尤其是在需要无需人工监督的持续自主运行的工作流中。
自带智能体
基于 Kimi K2.6 强大的编排能力,Kimi K2.6 将你的主动式智能体扩展到 Claw Groups(以研究预览形式推出)——这是智能体集群(Agent Swarm)架构的一个新实例。
Claw Groups 拥抱一个开放、异构的生态系统:多个智能体与人类作为真正的协作者共同运作。用户可以从任何设备接入智能体,它们运行着不同的模型,各自携带专用的工具包、技能和持久记忆上下文。无论是部署在本地笔记本、移动设备还是云实例上,这些多样的智能体都能无缝集成到一个共享的操作空间中。
在这个集群的中心,Kimi K2.6 充当着一个自适应协调器。它根据智能体各自的技能画像和可用工具,动态匹配任务,优化能力适配。当某个智能体遭遇失败或停滞时,协调器会检测到中断,自动重新分配任务或重新生成子任务,并主动管理交付物的完整生命周期——从启动到验证直至完成。
我们还要感谢 Claw Groups 中由 K2.6 驱动的智能体——我们一直在通过在实践中打磨人机协作工作流,亲身使用(dogfooding)自己的智能体营销团队。借助 Claw Groups,我们运行端到端的内容制作和发布活动,让 Demo 制作智能体、基准测试制作智能体、社交媒体智能体和视频制作智能体等各类专门智能体协同工作。K2.6 协调整个过程,使智能体能够共享中间结果,将创意转化为一致的、完整打包的交付物。
我们正在超越简单地向 AI 提问或分配任务的阶段,步入一个人与 AI 作为真正伙伴协作的时代——汇聚各自优势共同解决问题。Claw Groups 标志着我们向这样一个未来迈出的最新努力:在那里,"我的智能体"、"你的智能体"和"我们的团队"之间的边界无缝消融,融为一个协作系统。
基准测试表
| 基准测试 | Kimi K2.6 | GPT-5.4 (xhigh) | Claude Opus 4.6 (max effort) | Gemini 3.1 Pro (thinking high) | Kimi K2.5 |
|---|---|---|---|---|---|
| 智能体 | |||||
HLE-Full w/ tools | 54.0 | 52.1 | 53.0 | 51.4 | 50.2 |
BrowseComp | 83.2 | 82.7 | 83.7 | 85.9 | 74.9 |
BrowseComp (agent swarm) | 86.3 | — | — | — | 78.4 |
DeepSearchQA (f1-score) | 92.5 | 78.6 | 91.3 | 81.9 | 89.0 |
DeepSearchQA (accuracy) | 83.0 | 63.7 | 80.6 | 60.2 | 77.1 |
WideSearch (item-f1) | 80.8 | — | — | — | 72.7 |
Toolathlon | 50.0 | 54.6 | 47.2 | 48.8 | 27.8 |
MCPMark | 55.9 | 62.5* | 56.7* | 55.9* | 29.5 |
Claw Eval (pass^3) | 62.3 | 60.3 | 70.4 | 57.8 | 52.3 |
Claw Eval (pass@3) | 80.9 | 78.4 | 82.4 | 82.9 | 75.4 |
APEX-Agents | 27.9 | 33.3 | 33.0 | 32.0 | 11.5 |
OSWorld-Verified | 73.1 | 75.0 | 72.7 | — | 63.3 |
| 编程 | |||||
Terminal-Bench 2.0 (Terminus-2) | 66.7 | 65.4* | 65.4 | 68.5 | 50.8 |
SWE-Bench Pro | 58.6 | 57.7 | 53.4 | 54.2 | 50.7 |
SWE-Bench Multilingual | 76.7 | — | 77.8 | 76.9* | 73.0 |
SWE-Bench Verified | 80.2 | — | 80.8 | 80.6 | 76.8 |
SciCode | 52.2 | 56.6 | 51.9 | 58.9 | 48.7 |
OJBench (python) | 60.6 | — | 60.3 | 70.7 | 54.7 |
LiveCodeBench (v6) | 89.6 | — | 88.8 | 91.7 | 85.0 |
| 推理与知识 | |||||
HLE-Full | 34.7 | 39.8 | 40.0 | 44.4 | 30.1 |
AIME 2026 | 96.4 | 99.2 | 96.7 | 98.3 | 95.8 |
HMMT 2026 (Feb) | 92.7 | 97.7 | 96.2 | 94.7 | 87.1 |
IMO-AnswerBench | 86.0 | 91.4 | 75.3 | 91.0* | 81.8 |
GPQA-Diamond | 90.5 | 92.8 | 91.3 | 94.3 | 87.6 |
| 视觉 | |||||
MMMU-Pro | 79.4 | 81.2 | 73.9 | 83.0* | 78.5 |
MMMU-Pro w/ python | 80.1 | 82.1 | 77.3 | 85.3* | 77.7 |
CharXiv (RQ) | 80.4 | 82.8* | 69.1 | 80.2* | 77.5 |
CharXiv (RQ) w/ python | 86.7 | 90.0* | 84.7 | 89.9* | 78.7 |
MathVision | 87.4 | 92.0* | 71.2* | 89.8* | 84.2 |
MathVision w/ python | 93.2 | 96.1* | 84.6* | 95.7* | 85.0 |
BabyVision | 39.8 | 49.7 | 14.8 | 51.6 | 36.5 |
BabyVision w/ python | 68.5 | 80.2* | 38.4* | 68.3* | 40.5 |
V* w/ python | 96.9 | 98.4* | 86.4* | 96.9* | 86.9 |
如需复现官方 Kimi-K2.6 基准测试结果,建议使用官方 API。若使用第三方提供商,请参考 Kimi Vendor Verifier(KVV)选择高精度服务。详情:https://kimi.com/blog/kimi-vendor-verifier
1. 通用测试细节
- 我们报告的 Kimi K2.6 和 Kimi K2.5 结果均启用了思考模式(thinking mode),Claude Opus 4.6 采用最大努力(max effort),GPT-5.4 采用 xhigh 推理努力(xhigh reasoning effort),Gemini 3.1 Pro 采用高思考层级(high thinking level)。
- 除非另有说明,所有 Kimi K2.6 实验均使用 temperature = 1.0、top-p = 1.0、上下文长度(context length)262,144 tokens 进行。
- 未公开分数的基准测试在与 Kimi K2.6 相同的条件下重新评估,并以星号(*)标记。除标注星号的结果外,其他所有结果均引用自官方报告。
2. 推理基准测试
- GPT-5.4 和 Claude 4.6 的 IMO-AnswerBench 分数来自 https://z.ai/blog/glm-5.1。
- 人类最后的考试(Humanity's Last Exam, HLE)及其他推理任务的最大生成长度(maximum generation length)为 98,304 tokens。默认报告 HLE 完整集(full set)的结果。在纯文本子集上,Kimi K2.6 无工具时准确率为 36.4%,使用工具时为 55.5%。
3. 工具增强 / 智能体任务
- Kimi K2.6 在 HLE with tools、BrowseComp、DeepSearchQA 和 WideSearch 中配备了搜索(search)、代码解释器(code-interpreter)和网页浏览(web-browsing)工具。
- 对于 HLE-Full with tools,最大生成长度为 262,144 tokens,每步限制 49,152 tokens。我们采用简单的上下文管理(context management)策略:一旦上下文窗口超出阈值,仅保留最近一轮工具相关消息。
- 对于 BrowseComp,我们报告的分数采用与 Kimi K2.5 和 DeepSeek-V3.2 相同的丢弃所有(discard-all)策略进行上下文管理。
- 对于 DeepSearchQA,Kimi K2.6 测试未应用上下文管理,超出支持上下文长度的任务直接计为失败。Claude Opus 4.6、GPT-5.4 和 Gemini 3.1 Pro 在 DeepSearchQA 上的分数引自 Claude Opus 4.7 System Card。
- 对于 WideSearch,我们在"隐藏工具结果"(hide tool result)上下文管理设置下报告结果。一旦上下文窗口超出阈值,仅保留最近一轮工具相关消息。
- 测试系统提示词(system prompts)与 Kimi K2.5 技术报告 中使用的相同。
- Claw Eval 使用 1.1 版本进行,max-tokens-per-step = 16384。
- 对于 APEX-Agents,我们评估了公开 480 项任务中的 452 项,与 Artificial Analysis 的做法一致(排除了 Investment Banking Worlds 244 和 246,这两项存在外部运行时依赖)。
4. 编程任务
- Terminal-Bench 2.0 分数使用默认智能体框架(Terminus-2)和提供的 JSON parser 获得,运行在 preserve thinking 模式。
- 对于 SWE-Bench 系列评估(包括 Verified、Multilingual 和 Pro),我们使用基于 SWE-agent 改编的内部评估框架。该框架包含最小工具集——bash 工具(bash tool)、createfile 工具(createfile tool)、insert 工具(insert tool)、view 工具(view tool)、strreplace 工具(strreplace tool)和 submit 工具(submit tool)。
- 所有编程任务的报告分数均为 10 次独立运行的平均值。
5. 视觉基准测试
- Max-tokens = 98,304,三次运行取平均(avg@3)。
- 使用 Python 工具的设置中,max-tokens-per-step = 65,536,max-steps = 50,用于多步推理。
- MMMU-Pro 遵循官方协议,保留输入顺序并在输入前插入图像。
术语表
| 原文 | 中文 |
|---|---|
| adaptive coordinator | 自适应协调器 |
| Agent Swarms | 智能体集群 |
| Claw Bench | Claw 基准测试 |
| Claw Groups | Claw Groups(保留原文,产品特性名称) |
| Compositional intelligence | 组合式智能 |
| context management | 上下文管理 |
| context window | 上下文窗口 |
| deliverables | 交付物 |
| dogfooding | 亲身使用(内部试用自家产品) |
| exchange-core | exchange-core(保留原文,开源项目名称) |
| flame graph | 火焰图 |
| Hero section | Hero 区域 |
| Long-Horizon Coding | 长程编码 |
| preserve thinking mode | preserve thinking 模式(保留原文,Terminus-2 框架功能模式名称) |
| Proactive Agents | 主动式智能体 |
| skill profiles | 技能画像 |
| Skill(feature) | 技能 |
| Sub-agent | 子智能体 |
| system prompts | 系统提示词 |
| thinking mode | 思考模式 |
| throughput | 吞吐量 |
此文章由 AI 翻译