狠人揭秘ClaudeCode、Cursor、OpenAI智能体工程技术:模型几乎无关紧要,而是构建正确的工程环境!Harness就是一切!
编辑:玉澄
2026年开年以来,Harness工程一词热度渐高,OpenAI在2月发布的一篇详细的内部实验报告标题中使用了此词,ThoughtWorks 首席科学家 Martin Fowler 在 X 上也表示 Harness工程是AI赋能软件开发的关键部分。
- OpenAI文章链接:https://openai.com/index/harness-engineering/
近日,一位资深全栈工程师在X上发布了一篇名为《Harness 就是一切:Cursor、Claude Code 和 Perplexity 到底构建了什么》的文章。他将Harness之于Agent,类比于应用商店和开发工具之于移动端、搜索引擎和浏览器之于互联网,认为是目前应用AI领域最核心的工程问题。
有人在文章下方评论:”这是AI领域的下一个千亿级的机会,大多数人会错失,它就是Harness工程。”
无独有偶,在3月18号,MiniMax发布自家第一个模型深度参与迭代自己的M2.7模型时,着重强调了M2.7能够自主构建Agent Harness,完成高度复杂的生产力任务。
AI用得不好,是因为环境没构建对
你之所以觉得 AI 用得不对,并不是因为还没找到正确的模型。你用错 AI 的原因是,你没有构建正确的环境。
这就是为什么有些团队仅凭三名工程师就能交付数百万行代码,而其他团队甚至连让智能体流水线完成一次连贯的重构都困难重重。
这种差距不在于 GPT-5 与 Claude Opus 的区别,也不在于温度设置或最大 Token 数。甚至不在于提示词,尽管每个人都为了提示词争论不休,浪费了数月的人生。
真正的区别在于 Harness。
模型几乎无关紧要,Harness 就是一切
Harness 不是系统提示词,不是 API 调用的包装器。它不是评测框架、提示词模板,也不是带记忆的聊天机器人。
Harness 是语言模型运行的完整设计环境,包括:
- 它可以调用的工具
- 它接收信息的格式
- 它历史记录的压缩与管理方式
- 在错误级联前拦截错误的护栏
- 允许它将工作移交给”未来的自己”而又不丢失连贯性的脚手架
当你审视 Anthropic 为使 Claude Code 真正落地而构建的内容、OpenAI 如何通过 Codex 交付数百万行零人工编写的代码,以及普林斯顿 NLP 小组在里程碑式的 SWE-agent 论文中发表的关于”智能体-计算机接口(ACI)”的研究时,你会发现所有严肃对待这一领域的团队都在呈现同一种模式。
没人讨论的问题:为什么原始能力是不够的
2024 年中期,AI 基准测试中发生了一件奇怪的事。研究人员发现,同一个前沿模型在相同的编码任务上,由于任务呈现方式和可用工具的不同,会产生截然不同的结果。模型没变,底层的智能没变,改变的是接口。
这并不令人惊讶。几十年来我们都知道,合适的工具能让工程师的生产力产生质的飞跃。一个拥有现代 IDE、调试器、版本控制和 CI/CD 流水线的软件开发人员,其效率比仅在原始终端使用文本编辑器的同一人高出几个数量级。IDE 并没有让开发人员变聪明,它只是减少了摩擦、在正确时刻呈现信息、及早发现错误并组织工作单元。
语言模型也是如此。 它们并不是基于无限内部知识库工作的通用推理者。它们是运作在上下文窗口中的精密模式匹配引擎。它们在特定时刻所知道的一切,都取决于窗口中的内容;它们产出的一切,都受限于这些上下文的结构。输入格式不是装饰,它是智能体的认知架构。接口不是便利层;对于语言模型智能体来说,接口即思想。
SWE-agent 论文与 ACI 的诞生
这是普林斯顿 NLP 小组 2024 年发表的 SWE-agent 论文的核心主张。该论文引入了智能体-计算机接口(Agent-Computer Interface, ACI)的概念,并证明了精心设计的 ACI 与标准 Linux Shell 相比,能让同一模型在基准测试中的性能产生 64% 的相对提升。
相同的模型,相同的任务,相同的计算预算,变量只有接口。
64% 不是边际收益,而是工具”能用”与”不能用”的区别。而这完全源于环境设计,而非底层模型的改进。
智能体-计算机接口(ACI)究竟是什么
ACI 被定义为位于语言模型智能体与计算机环境之间的抽象层。将其类比于人机交互(HCI)是刻意为之的。
正如 HCI 研究如何设计符合人类认知架构的接口一样,ACI 研究则探讨如何设计符合语言模型(LM)认知架构的接口。
人类的认知架构涉及视觉模式识别、空间记忆、屏幕上的并行注意,以及略读和选择性关注的能力。
LM 的认知架构则根本不同:序列化的 Token 处理、对上下文顺序和格式的敏感性、有限的工作记忆,以及倾向于锚定在提示词中最显著信息的倾向。
设计一个好的 ACI 意味着理解这些约束并围绕它们进行构建,而不是与其对抗。
用于编码任务的 SWE-agent ACI 四组件
1. 搜索与导航
搜索组件用专门构建的工具(find_file、search_file、search_dir)取代了标准的 grep 和 find 命令。关键区别在于输出管理:结果被限制在 50 条以内。如果查询超过该限制,工具会返回一条消息,解释结果过多并提示智能体细化搜索。
其之所以重要,是因为智能体和处于认知负荷下的人类一样,当感到不确定时,往往会不断重复正在做的事情。当人类迷失在庞大的代码库中时,他们会搜索得越来越宽泛,产生越来越多的噪音。
受限搜索工具通过创造一个”强制函数”中断了这种模式:你不能通过模糊不清来推进工作,你必须变得精确。
2. 文件查看器
文件查看器是论文中关于认知架构的洞察变得最具体的地方。研究人员测试了多种查看器配置,发现一次显示 100 行是一个”恰到好处(Goldilocks)”的数字。
- 显示行数更少(30行)会导致智能体丢失周围代码的上下文并产生编辑错误
- 显示更多行(或全量文件)则会导致智能体迷失所在位置并遗漏重要细节
查看器是有状态的。它在交互过程中保持在文件中的位置。关键在于,它在每个可见行前都添加了明确的行号。
当智能体需要发布针对第 47 到 52 行的编辑命令时,它需要能够直接从视图中读取这些数字,而不是去数行数或进行算术运算。从智能体的工作记忆中移除这项认知任务,为实际的后续问题解决腾出了空间。
3. 带有 Lint 检查的文件编辑器
文件编辑器的关键创新是带有护栏的即时反馈。
edit 命令接受起始行、结束行和替换文本作为单一操作。每次编辑后,工具会自动对修改后的文件运行 Linter(静态代码检查)并报告结果。如果编辑引入了语法错误,编辑会在应用前被拒绝,智能体将收到一条清晰的错误消息,同时显示原始代码和失败的编辑内容。
核心结论
模型几乎无关紧要,Harness 就是一切。
这是关于该理念如何成为 2025 和 2026 年应用 AI 工程定义类洞察的详细技术分解。无论你是在构建编码智能体、研究智能体还是长期运行的自主软件工程师,正确构建 Harness 已成为行业内最有价值的工程技能。