← 返回目录页

Can Bölük · 2026-02-12

哈希行格式革新：一天内让15个LLM编码能力倍增

摘要

本文作者通过对比三种代码编辑格式（Patch、Replace、Hashline），证明了优化AI编程工具的编辑接口比更换模型本身更有效。Hashline通过为每行代码添加内容哈希标签，使模型能精确引用目标位置而无需复制完整内容。在16个模型的测试中，Hashline在14个模型上超越Patch格式，平均节省20-30% tokens，其中Grok Code Fast 1的提升最为惊人，从6.7%跃升至68.3%。作者批评了 Anthropic、Google 等厂商禁止第三方工具架的做法，认为这阻碍了行业创新。

内容框架与概述

文章采用问题-分析-解决方案的结构。开篇直指当前AI编程领域的误区：过度关注模型排名而忽视工具架（harness）这一关键瓶颈。作者指出，工具架是用户第一印象、输入token来源和所有代码变更的接口，是实践中最常见的失败点。

接着，文章系统分析了三种主流编辑格式的优劣势：Patch（diff格式）依赖模型生成规范diff，但多数模型训练时未接触此类格式导致失败率极高；Replace（字符串替换）要求模型完美复述原文，空白字符差错即导致失败；而Hashline通过给每行添加哈希标签，让模型只需引用标签即可定位编辑目标。

基准测试使用React代码库的180个机械修复任务，16个模型各执行3轮。结果Hashline在多数模型上显著优于传统方案，弱模型提升尤为明显，证明了编辑格式的重要性远超模型选择。

核心概念及解读

Harness（工具架）：AI编程工具的底层框架，负责处理模型输入输出、管理工具调用和代码变更，是连接模型与代码库的关键基础设施。

Hashline格式：为每行代码添加2-3字符内容哈希标签的编辑格式，让模型通过标签引用目标行，无需复制原文，大幅降低编辑失败率。

Patch格式：基于diff的代码编辑方式，要求模型生成符合规范的差异标记，但对未针对性训练的模型极不友好，失败率普遍超过40%。

Edit Format Benchmark：评估不同代码编辑格式有效性的标准化测试，通过测量修复代码库中预设bug的成功率来判断工具架设计优劣。

工具架盲区：指开发者普遍忽视工具架优化对AI编程能力的巨大影响，错误地将编辑失败归咎于模型理解能力不足。

原文信息

字段	内容
原文	I Improved 15 LLMs at Coding in One Afternoon. Only the Harness Changed.
作者	Can Bölük
发表日期	2026-02-12

此摘要卡片由 AI 自动生成

OpenAI发布GPT-5.3-Codex-Spark：首款实时编程AI模型

OpenAI · 2026-02-12

朝鲜选定金主爱为接班人

Jake Kwon · 2026-02-12