微软开源 Fara-7B：7B 小模型也能”操作电脑”，Agent 进入可本地化时代

如果说过去的大模型更像”会聊天的助手”，那 2025 年之后更明显的趋势是：让模型真的能做事——打开网页、点击按钮、填写表单、搜索信息、完成一串多步骤任务。

微软最近开源的 Fara-7B，就是一类很典型的”Computer Use Agent（电脑操作代理）”模型：它不只生成文字，而是看屏幕截图+ 输出可执行动作（点击坐标、键盘输入、滚动、访问 URL 等），直接把任务推到”可落地执行”的层面。

1. Fara-7B 到底是什么？

一句话讲清：7B 参数的多模态解码器模型，输入是「用户目标 + 屏幕截图 + 历史步骤」，输出是「推理（thinking）+ 工具调用（tool call）」来执行下一步动作。它强调”电脑使用”：搜索、填表、比价、订票、找工作/房源等典型 web 任务。

开源权重（MIT License），并提供 Hugging Face 官方模型卡
这意味着：它不是”插件式的 Chatbot”，而是更接近”可控的自动化执行器”

2. 它为什么值得关注：关键不在 7B，而在”数据与形态”

很多人第一反应是：7B 能有多强？但 Fara-7B 的核心亮点，其实是两件事：

A. 训练数据的生成方式：FaraGen 合成轨迹系统

微软提出了 FaraGen：自动提出真实任务、让多代理尝试多种解法、再用验证器筛出”成功轨迹”，形成高质量的电脑操作数据。论文里提到，这类”验证过的轨迹”成本大约 $X，可以规模化生产。

B. 交互形态：只用截图、像人一样”看屏幕”

Fara-7B 不依赖 accessibility tree 或额外结构化网页信息，而是完全基于屏幕可见内容来决策；动作以坐标点击/键盘输入等方式落地。

这会带来一个很现实的好处：更通用、更贴近真实电脑环境（也更适合做本地化）。

3. 性能与基准

在 GitHub 项目页，微软给出了 WebVoyager、Online-Mind2Web、DeepShop 以及自家新基准 WebTailBench 的对比结果，Fara-7B 在多个任务上对同尺寸模型有优势，并且在部分场景能逼近更大系统。

同时他们强调：WebTailBench 覆盖了更多现实任务类型（例如订餐/订票、跨站比价、找工作/房源等），用于补足旧基准的缺口。

4. 安全与可控：Critical Points 设计

“能操作电脑”的模型，风险和纯聊天完全不是一个量级：点错按钮、提交表单、误发邮件，都可能造成现实后果。

微软在官方博客里重点提了 Critical Points（关键点暂停）：当任务进入需要用户授权/涉及个人数据/不可逆交易的环节，模型应当停止并请求用户确认，同时动作可审计、可回放，建议在沙盒环境使用。

这点对”想把 agent 放进真实工作流”的人来说非常关键：不是越自动越好，而是越可控越好。

5. 怎么上手：本地运行与部署方向

如果你只是想快速试试，可以从 Hugging Face 的模型卡和微软的 GitHub 仓库开始（都有使用说明与入口）。

另外，微软也发布了 ONNX 优化版本，目标是用 ONNX Runtime 在 NPU 上加速（更偏”端侧/低功耗”方向）。

建议的试用姿势：

先用”截图 → 预测动作”的最小闭环验证可用性
再接 Playwright / 自动化框架做可控执行
最后再考虑接入真实业务（务必加关键点确认与日志）

6. 对开发者意味着什么：三个可落地的机会点

把 RPA 升级成”自然语言驱动的 RPA”
以前是”写脚本点哪里”，现在是”说一句话，模型规划并执行”
内容/运营的半自动流水线
抓取 → 总结 → 生成排版 → 打开后台 → 填写发布（关键点由人确认）
端侧私有化 Agent
7B + ONNX/NPU 的方向，意味着一些任务可以在本地跑，数据不出设备（至少从架构上更容易做到）

附录：Fara-7B 本地运行硬件需求分析

7B 模型的基本硬件要求

量化等级	显存需求	推荐显卡
FP16 (全精度)	~14GB	RTX 4080+ / A5000+
INT8 (8位量化)	~7GB	RTX 3060 12GB / RTX 4070
INT4 (4位量化)	~3.5GB	RTX 3060 8GB / GTX 1660 Super

纯 CPU 推理

7B 模型使用 CPU 推理（INT4）理论上可以在 16GB RAM 的电脑上运行
但速度非常慢，每秒可能只有 0.5-2 个 token
实际体验：处理一张截图可能需要几十秒到几分钟

Intel 计算棒 (Neural Compute Stick 2)

结论：不太适合用于 Fara-7B 提速

原因：
1. 算力有限：NCS2 只有 4 TOPS 算力，而 RTX 3060 有 ~13 TOPS
2. 内存带宽瓶颈：计算棒通过 USB 传输数据，带宽受限
3. 软件生态：Fara-7B 主要使用 ONNX Runtime，Intel NPU 加速需要专门的 OpenVINO 优化
4. 延迟问题：每次推理需要数据传输，反而增加延迟