来源:https://www.bestblogs.dev/article/83fa2a78
整理时间:2026-04-12
标签:#AI工具链 #HarnessEngineering #ContextEngineering #PromptEngineering #Agent工作流 #Mac效率 #知识管理 #Kaggle
| 工具 | 性质 | 主要能力 |
|---|---|---|
| Raycast | 闭源免费 | 应用快捷键启动、剪贴板历史 |
| AeroSpace | 开源 | 窗口自动分屏、工作区管理、应用自动归位 |
| Ghostty | 开源 | 命令行客户端,多位 AI 大咖推荐 |
| Yazi | 开源 | TUI 三栏文件浏览器、文件/图片预览 |
| lazygit | 开源 | 命令行 Git 操作 |
| btop | 开源 | CPU/内存/磁盘/网络/进程实时监控 |
| fzf | 开源 | 历史命令搜索、文件搜索、目录搜索 |
| tmux | 开源 | 远程终端复用、会话持久化、断线恢复 |
| Claude Code | 闭源付费 | AI 编码、Hooks 自动化、Skills 技能库 |
| Cockpit | 自研 | 跨机器 Agent 状态仪表盘 |
作者自己开发的跨机器任务状态仪表盘:
可能同时有 4 个 Agent 任务分别在:
- Windows 远程机器
- Linux 远程机器
- 本地
- 虚拟机
Cockpit 目的:
├─ 即时关注各 Agent 状态
├─ 防止 Agent 因"等待审核"、"异常报错"长时间闲置
└─ 多机器并行管理
痛点:目前偶现不稳定,尚未良好支持 Claude Code 以外的 Agent 工具。
Prompt Engineering(提示词工程)
↓
Context Engineering(上下文工程)
↓
Spec-driven Development(契约驱动开发)
↓
Harness Engineering(缰绳工程)
核心问题:怎么写好指令(few shot、思维链等)
局限:单轮对话场景有效,但面对长时运行、多工具调用的复杂任务,一个静态 prompt hold 不住动态膨胀的信息。
Shopify CEO Tobi Lütke 的帖子让它出圈,Anthropic 也专门发文阐述。
核心思想:”Agent 每次推理时,整个信息环境长什么样”
| 上下文组件 | 说明 |
|---|---|
| 系统指令 | Agent 的行为约束 |
| 工具定义 | 可用的工具列表 |
| 外部数据 | RAG 知识库等 |
| 对话历史 | 上下文窗口内的历史 |
| Memory | Agent 的记忆机制 |
核心矛盾:上下文窗口是有限的
- 塞太多 → Agent “迷路”(lost in the middle)
- 塞太少 → 缺乏关键信息
核心思路:
别急着让 Agent 写代码
↓
先写一份 spec(需求契约)
↓
定义:要什么、不要什么、约束、验收标准
↓
Agent 基于 spec 实现
GitHub Spec Kit:https://github.com/github/spec-kit
价值:看似变慢,实际大幅减少返工
OpenAI 3 个工程师、5 个月、完全零手写代码,构建百万行代码产品。
核心比喻:
Agent 是马,Harness 是缰绳。马本身快速有力,但没有缰绳就只会横冲直撞。
落地四层面:
| 层级 | 说明 | 实践 |
|---|---|---|
| 约束层 | 机械化规则代替口头约定 | 自定义 linter + 结构化测试 |
| 文档层 | AGENTS.md 当目录而非百科全书 | 精简到 ~100 行,作为索引指向 docs/ |
| 反馈层 | “犯错→修复→沉淀”飞轮 | 每次失败转化为基础设施改进 |
| 清理层 | 自动化对抗熵增 | 后台 Agent 定期扫描偏差、自动提交清理 PR |
核心原则:如果一条架构规则值得写进文档,那就值得用 linter 来强制执行。
| 痛点 | 说明 |
|---|---|
| 信息爆炸 | 技术迭代快到无法跟踪 |
| 良莠不齐 | 各种分享质量参差,难辨真伪 |
| 试错成本高 | 验证一个”最佳实践”需要投入大量时间 |
本质:过往每个领域主要是从业者在建设,但 AI 时代是所有使用 AI 的人类一起迭代,无分领域。
信息源(HN/HF/GitHub/Reddit/36Kr/量子位等)
↓
Agent 每日自动采集
↓
评分筛选(跨源共振+3分、突破+2分,≥4分入选)
↓
去重(seen.json)
↓
知识沉淀 → 反哺 Agent 自身技能库
↓
实际工作时调用的 Agent = 武装了最新方案的 Agent
| Skill | 层级 | 功能 |
|---|---|---|
| ai-news | 采集层 | 每日 AI 新闻聚合筛选,11+ 并行源 |
| podcast-batch | 采集层 | 批量转录+分析近期播客 |
| web-collect | 采集层 | 从指定网页/站点采集整理 |
| research | 采集层 | 深度调研指定主题,多源+交叉验证 |
| ai整理 | 整理层 | 知识归档、转换、发布 |
让 LLM 自己开发 iOS 快捷指令,实现各种自动化任务。
虽然仍不稳定,但有 AI 小伙伴可以持续维护。
遇到开源项目疑似问题时,让 LLM 自主完成优化流程并提出 PR。
GitHub 命令行鉴权让这成为可能。
引用 Karpathy 的”Jagged Intelligence”概念:
AI 的能力分布跟人类很不一样,最好的办法就是持续使用、慢慢建立直觉。
把 AI 当成一个无话不谈的好朋友,越了解它,协作起来就越顺畅。
写这篇文章本身就是最”不 AI Native”的事情,因为这些内容完全可以让 AI 来整理。
| 资源 | 地址 |
|---|---|
| 原文 | https://www.bestblogs.dev/article/83fa2a78 |
| Anthropic Context Engineering | https://www.anthropic.com/engineering/effective-context-engineering-for-ai-agents |
| GitHub Spec Kit | https://github.com/github/spec-kit |
| OpenAI Harness Engineering | https://openai.com/zh-Hans-CN/index/harness-engineering/ |
这篇文章是”AI 时代知识工作者进化指南”——从工具链搭建、Agent 工作流设计到 Harness Engineering,最终目标是让 Agent 替你学习、替你干活,而你只需要做决策和验收。
本文由 AI 辅助整理,供技术学习参考。