微软开源 Fara-7B:7B 小模型也能"操作电脑",Agent 进入可本地化时代

微软开源 Fara-7B:7B 小模型也能”操作电脑”,Agent 进入可本地化时代

如果说过去的大模型更像”会聊天的助手”,那 2025 年之后更明显的趋势是:让模型真的能做事——打开网页、点击按钮、填写表单、搜索信息、完成一串多步骤任务。

微软最近开源的 Fara-7B,就是一类很典型的”Computer Use Agent(电脑操作代理)”模型:它不只生成文字,而是看屏幕截图+ 输出可执行动作(点击坐标、键盘输入、滚动、访问 URL 等),直接把任务推到”可落地执行”的层面。

1. Fara-7B 到底是什么?

一句话讲清:7B 参数的多模态解码器模型,输入是「用户目标 + 屏幕截图 + 历史步骤」,输出是「推理(thinking)+ 工具调用(tool call)」来执行下一步动作。它强调”电脑使用”:搜索、填表、比价、订票、找工作/房源等典型 web 任务。

  • 开源权重(MIT License),并提供 Hugging Face 官方模型卡
  • 这意味着:它不是”插件式的 Chatbot”,而是更接近”可控的自动化执行器”

2. 它为什么值得关注:关键不在 7B,而在”数据与形态”

很多人第一反应是:7B 能有多强?但 Fara-7B 的核心亮点,其实是两件事:

A. 训练数据的生成方式:FaraGen 合成轨迹系统

微软提出了 FaraGen:自动提出真实任务、让多代理尝试多种解法、再用验证器筛出”成功轨迹”,形成高质量的电脑操作数据。论文里提到,这类”验证过的轨迹”成本大约 $X,可以规模化生产。

B. 交互形态:只用截图、像人一样”看屏幕”

Fara-7B 不依赖 accessibility tree 或额外结构化网页信息,而是完全基于屏幕可见内容来决策;动作以坐标点击/键盘输入等方式落地。

这会带来一个很现实的好处:更通用、更贴近真实电脑环境(也更适合做本地化)

3. 性能与基准

在 GitHub 项目页,微软给出了 WebVoyager、Online-Mind2Web、DeepShop 以及自家新基准 WebTailBench 的对比结果,Fara-7B 在多个任务上对同尺寸模型有优势,并且在部分场景能逼近更大系统。

同时他们强调:WebTailBench 覆盖了更多现实任务类型(例如订餐/订票、跨站比价、找工作/房源等),用于补足旧基准的缺口。

4. 安全与可控:Critical Points 设计

“能操作电脑”的模型,风险和纯聊天完全不是一个量级:点错按钮、提交表单、误发邮件,都可能造成现实后果。

微软在官方博客里重点提了 Critical Points(关键点暂停):当任务进入需要用户授权/涉及个人数据/不可逆交易的环节,模型应当停止并请求用户确认,同时动作可审计、可回放,建议在沙盒环境使用。

这点对”想把 agent 放进真实工作流”的人来说非常关键:不是越自动越好,而是越可控越好

5. 怎么上手:本地运行与部署方向

如果你只是想快速试试,可以从 Hugging Face 的模型卡和微软的 GitHub 仓库开始(都有使用说明与入口)。

另外,微软也发布了 ONNX 优化版本,目标是用 ONNX Runtime 在 NPU 上加速(更偏”端侧/低功耗”方向)。

建议的试用姿势:

  1. 先用”截图 → 预测动作”的最小闭环验证可用性
  2. 再接 Playwright / 自动化框架做可控执行
  3. 最后再考虑接入真实业务(务必加关键点确认与日志)

6. 对开发者意味着什么:三个可落地的机会点

  1. 把 RPA 升级成”自然语言驱动的 RPA”
  2. 以前是”写脚本点哪里”,现在是”说一句话,模型规划并执行”

  3. 内容/运营的半自动流水线

  4. 抓取 → 总结 → 生成排版 → 打开后台 → 填写发布(关键点由人确认)

  5. 端侧私有化 Agent

  6. 7B + ONNX/NPU 的方向,意味着一些任务可以在本地跑,数据不出设备(至少从架构上更容易做到)

附录:Fara-7B 本地运行硬件需求分析

7B 模型的基本硬件要求

量化等级 显存需求 推荐显卡
FP16 (全精度) ~14GB RTX 4080+ / A5000+
INT8 (8位量化) ~7GB RTX 3060 12GB / RTX 4070
INT4 (4位量化) ~3.5GB RTX 3060 8GB / GTX 1660 Super

纯 CPU 推理

  • 7B 模型使用 CPU 推理(INT4)理论上可以在 16GB RAM 的电脑上运行
  • 但速度非常慢,每秒可能只有 0.5-2 个 token
  • 实际体验:处理一张截图可能需要几十秒到几分钟

Intel 计算棒 (Neural Compute Stick 2)

结论:不太适合用于 Fara-7B 提速

原因:
1. 算力有限:NCS2 只有 4 TOPS 算力,而 RTX 3060 有 ~13 TOPS
2. 内存带宽瓶颈:计算棒通过 USB 传输数据,带宽受限
3. 软件生态:Fara-7B 主要使用 ONNX Runtime,Intel NPU 加速需要专门的 OpenVINO 优化
4. 延迟问题:每次推理需要数据传输,反而增加延迟

推荐的本地运行方案

  1. 量化模型 + 中端游戏显卡(性价比最高)
  2. INT4 量化 + RTX 3060 12GB = ~20-30 tok/s,基本可用

  3. Mac 用户

  4. Apple Silicon (M1 Pro/M2/M3) 统一内存架构,32GB 内存可流畅运行 INT4 版本

  5. 纯 CPU 方案

  6. 仅适合尝鲜或调试,不推荐日常使用

参考链接
- GitHub: https://github.com/microsoft/fara-7b
- HuggingFace: https://huggingface.co/microsoft/Fara-7B