Handy 是由 cjpais 开发的一款免费、开源、可扩展的离线语音转文字应用。
核心理念:”Handy isn’t trying to be the best speech-to-text app — it’s trying to be the most forkable one.”
当前版本:v0.8.1(最新发布于 2026 年 2 月)
| 模式 | 说明 |
|---|---|
| 快捷键模式 | 按下可配置的键盘快捷键开始/停止录音 |
| Push-to-Talk | 按住说话,松开停止 |
| 持续监听模式 | 持续监听麦克风,自动检测语音段落 |
| 层级 | 技术选型 |
|---|---|
| 语言 | Rust |
| 语音识别 | whisper.cpp / whisper-rs |
| 推理引擎 | ONNX Runtime (ort) |
| 前端 | 待确认(可能是 Tauri 或原生) |
根据项目 CONTRIBUTING.md 的描述:
“The goal is to create both a useful tool and a foundation for others to build upon — a well-patterned, simple codebase that serves the community.”
设计目标:
1. 可 Fork 性:代码结构清晰,模块化设计,方便二次开发
2. 简单性:保持代码库简洁易懂
3. 实用性:不仅仅是一个示例,而是一个真正可用的工具
whisper-rs 库提供了良好的 Rust bindings如果灵听想在 Rust/桌面端集成 Whisper,这是很好的参考
交互模式的多样性
可作为灵听交互模式设计的参考
离线优先的设计理念
| Handy | 灵听 |
|---|---|
| 通用语音识别 | 医疗/血透领域术语优化 |
| Whisper 模型 | SenseVoice + 多个云端引擎 |
| 桌面端为主 | 跨平台(桌面+移动) |
| 无声纹验证 | 声纹绑定(”只听我说”) |
Handy 是一个定位独特的开源项目——它不追求”最强大”,而是追求”最容易被 Fork 和定制”。这使得它成为想要二次开发语音识别应用的开发者的良好起点。
对灵听的意义:
- 如果未来灵听需要优化本地 Whisper 集成,Handy 是很好的参考
- 其模块化设计理念值得借鉴
- 三种录音模式的切换逻辑可作为交互设计的参考
来源:GitHub cjpais/Handy 官方仓库及 Release 说明