狠人揭秘ClaudeCode、Cursor、OpenAI智能体工程技术：模型几乎无关紧要，而是构建正确的工程环境！Harness就是一切！

编辑：玉澄

2026年开年以来，Harness工程一词热度渐高，OpenAI在2月发布的一篇详细的内部实验报告标题中使用了此词，ThoughtWorks 首席科学家 Martin Fowler 在 X 上也表示 Harness工程是AI赋能软件开发的关键部分。

OpenAI文章链接：https://openai.com/index/harness-engineering/

近日，一位资深全栈工程师在X上发布了一篇名为《Harness 就是一切：Cursor、Claude Code 和 Perplexity 到底构建了什么》的文章。他将Harness之于Agent，类比于应用商店和开发工具之于移动端、搜索引擎和浏览器之于互联网，认为是目前应用AI领域最核心的工程问题。

有人在文章下方评论：”这是AI领域的下一个千亿级的机会，大多数人会错失，它就是Harness工程。”

无独有偶，在3月18号，MiniMax发布自家第一个模型深度参与迭代自己的M2.7模型时，着重强调了M2.7能够自主构建Agent Harness，完成高度复杂的生产力任务。

AI用得不好，是因为环境没构建对

你之所以觉得 AI 用得不对，并不是因为还没找到正确的模型。你用错 AI 的原因是，你没有构建正确的环境。

这就是为什么有些团队仅凭三名工程师就能交付数百万行代码，而其他团队甚至连让智能体流水线完成一次连贯的重构都困难重重。

这种差距不在于 GPT-5 与 Claude Opus 的区别，也不在于温度设置或最大 Token 数。甚至不在于提示词，尽管每个人都为了提示词争论不休，浪费了数月的人生。

真正的区别在于 Harness。

模型几乎无关紧要，Harness 就是一切

Harness 不是系统提示词，不是 API 调用的包装器。它不是评测框架、提示词模板，也不是带记忆的聊天机器人。

Harness 是语言模型运行的完整设计环境，包括：

它可以调用的工具
它接收信息的格式
它历史记录的压缩与管理方式
在错误级联前拦截错误的护栏
允许它将工作移交给”未来的自己”而又不丢失连贯性的脚手架

当你审视 Anthropic 为使 Claude Code 真正落地而构建的内容、OpenAI 如何通过 Codex 交付数百万行零人工编写的代码，以及普林斯顿 NLP 小组在里程碑式的 SWE-agent 论文中发表的关于”智能体-计算机接口（ACI）”的研究时，你会发现所有严肃对待这一领域的团队都在呈现同一种模式。

没人讨论的问题：为什么原始能力是不够的

2024 年中期，AI 基准测试中发生了一件奇怪的事。研究人员发现，同一个前沿模型在相同的编码任务上，由于任务呈现方式和可用工具的不同，会产生截然不同的结果。模型没变，底层的智能没变，改变的是接口。

这并不令人惊讶。几十年来我们都知道，合适的工具能让工程师的生产力产生质的飞跃。一个拥有现代 IDE、调试器、版本控制和 CI/CD 流水线的软件开发人员，其效率比仅在原始终端使用文本编辑器的同一人高出几个数量级。IDE 并没有让开发人员变聪明，它只是减少了摩擦、在正确时刻呈现信息、及早发现错误并组织工作单元。

语言模型也是如此。 它们并不是基于无限内部知识库工作的通用推理者。它们是运作在上下文窗口中的精密模式匹配引擎。它们在特定时刻所知道的一切，都取决于窗口中的内容；它们产出的一切，都受限于这些上下文的结构。输入格式不是装饰，它是智能体的认知架构。接口不是便利层；对于语言模型智能体来说，接口即思想。

SWE-agent 论文与 ACI 的诞生

这是普林斯顿 NLP 小组 2024 年发表的 SWE-agent 论文的核心主张。该论文引入了智能体-计算机接口（Agent-Computer Interface, ACI）的概念，并证明了精心设计的 ACI 与标准 Linux Shell 相比，能让同一模型在基准测试中的性能产生 64% 的相对提升。

相同的模型，相同的任务，相同的计算预算，变量只有接口。

64% 不是边际收益，而是工具”能用”与”不能用”的区别。而这完全源于环境设计，而非底层模型的改进。

智能体-计算机接口（ACI）究竟是什么

ACI 被定义为位于语言模型智能体与计算机环境之间的抽象层。将其类比于人机交互（HCI）是刻意为之的。

正如 HCI 研究如何设计符合人类认知架构的接口一样，ACI 研究则探讨如何设计符合语言模型（LM）认知架构的接口。

人类的认知架构涉及视觉模式识别、空间记忆、屏幕上的并行注意，以及略读和选择性关注的能力。

LM 的认知架构则根本不同：序列化的 Token 处理、对上下文顺序和格式的敏感性、有限的工作记忆，以及倾向于锚定在提示词中最显著信息的倾向。

设计一个好的 ACI 意味着理解这些约束并围绕它们进行构建，而不是与其对抗。

用于编码任务的 SWE-agent ACI 四组件

1. 搜索与导航

搜索组件用专门构建的工具（find_file、search_file、search_dir）取代了标准的 grep 和 find 命令。关键区别在于输出管理：结果被限制在 50 条以内。如果查询超过该限制，工具会返回一条消息，解释结果过多并提示智能体细化搜索。

其之所以重要，是因为智能体和处于认知负荷下的人类一样，当感到不确定时，往往会不断重复正在做的事情。当人类迷失在庞大的代码库中时，他们会搜索得越来越宽泛，产生越来越多的噪音。

受限搜索工具通过创造一个”强制函数”中断了这种模式：你不能通过模糊不清来推进工作，你必须变得精确。

2. 文件查看器

文件查看器是论文中关于认知架构的洞察变得最具体的地方。研究人员测试了多种查看器配置，发现一次显示 100 行是一个”恰到好处（Goldilocks）”的数字。

显示行数更少（30行）会导致智能体丢失周围代码的上下文并产生编辑错误
显示更多行（或全量文件）则会导致智能体迷失所在位置并遗漏重要细节

查看器是有状态的。它在交互过程中保持在文件中的位置。关键在于，它在每个可见行前都添加了明确的行号。

当智能体需要发布针对第 47 到 52 行的编辑命令时，它需要能够直接从视图中读取这些数字，而不是去数行数或进行算术运算。从智能体的工作记忆中移除这项认知任务，为实际的后续问题解决腾出了空间。

3. 带有 Lint 检查的文件编辑器

文件编辑器的关键创新是带有护栏的即时反馈。

edit 命令接受起始行、结束行和替换文本作为单一操作。每次编辑后，工具会自动对修改后的文件运行 Linter（静态代码检查）并报告结果。如果编辑引入了语法错误，编辑会在应用前被拒绝，智能体将收到一条清晰的错误消息，同时显示原始代码和失败的编辑内容。

核心结论

模型几乎无关紧要，Harness 就是一切。

这是关于该理念如何成为 2025 和 2026 年应用 AI 工程定义类洞察的详细技术分解。无论你是在构建编码智能体、研究智能体还是长期运行的自主软件工程师，正确构建 Harness 已成为行业内最有价值的工程技能。