主流 ASR 方案深度调研报告
2026-03-06
2026年03月
Moonshine-vs-FunASR深度调研报告.md
主流 ASR 方案深度调研报告
调研日期: 2026-03-06
更新: 补充中文 ASR 方案对比
一、项目概述
Moonshine
| 属性 |
值 |
| GitHub |
moonshine-ai/moonshine |
| Stars |
7,084 |
| 语言 |
C (核心) + Python |
| 定位 |
专为实时语音流设计的 ASR 引擎 |
| 许可证 |
English: MIT, 其他语言: Moonshine Community License (非商业) |
FunASR (阿里)
| 属性 |
值 |
| GitHub |
modelscope/funasr |
| Stars |
15,080 |
| 语言 |
Python |
| 定位 |
端到端语音识别工具包,支持 SOTA 预训练模型 |
| 许可证 |
Apache 2.0 |
二、模型对比
Moonshine 模型家族
| 语言 |
架构 |
参数 |
WER/CER |
| English |
Tiny |
26M |
12.66% |
| English |
Tiny Streaming |
34M |
12.00% |
| English |
Base |
58M |
10.07% |
| English |
Small Streaming |
123M |
7.84% |
| English |
Medium Streaming |
245M |
6.65% |
| Arabic |
Base |
58M |
5.63% |
| Japanese |
Base |
58M |
13.62% |
| Korean |
Tiny |
26M |
6.46% |
| Mandarin |
Base |
58M |
25.76% |
| Spanish |
Base |
58M |
4.33% |
| Ukrainian |
Base |
58M |
14.55% |
| Vietnamese |
Base |
58M |
8.82% |
FunASR 模型 (阿里)
主流模型 Paraformer-large:
- 参数: ~220M (非官方)
- 支持离线/在线语音识别
- 支持 VAD、Punctuation、LM 等
- 有 Paraformer-multi (多语言) 版本
三、ONNX 支持
Moonshine ✅ 原生支持
This library uses the Onnx model format, converted to the memory-mappable OnnxRuntime (.ort) flatbuffer encoding.
- ✅ 使用 OnnxRuntime 作为推理引擎
- ✅ 模型以 ONNX 格式 (
.ort) 发布
- ✅ 支持 8-bit 量化
- ✅ 提供预编译的 ONNX Runtime 二进制文件
FunASR ✅ 支持
# 安装 ONNX runtime
pip3 install -U funasr-onnx
from runtime.python.onnxruntime.funasr_onnx.paraformer_bin import Paraformer
- 支持 ONNX 导出
- 有专门的
funasr-onnx 包
四、Flutter 支持
Moonshine ❌ 无官方支持
README 中未提及 Flutter。
但架构分析:
- 核心是 C++ 库
- 已支持: Python, Swift, Java, C++, iOS, Android
- 理论上可通过 ffi / platform_channels 调用 C++ 核心
FunASR ❌ 无官方支持
- 主要面向服务端
- 有 Android/iOS runtime (Java/Swift)
- 无 Flutter SDK
五、延迟性能对比 (关键)
Moonshine 官方基准测试
| Model |
参数 |
MacBook Pro |
Linux x86 |
R. Pi 5 |
| Moonshine Medium Streaming |
245M |
107ms |
269ms |
802ms |
| Whisper Large v3 |
1.5B |
11,286ms |
16,919ms |
N/A |
| Moonshine Small Streaming |
123M |
73ms |
165ms |
527ms |
| Whisper Small |
244M |
1,940ms |
3,425ms |
10,397ms |
| Moonshine Tiny Streaming |
34M |
34ms |
69ms |
237ms |
| Whisper Tiny |
39M |
277ms |
1,141ms |
5,863ms |
结论: Moonshine 比同等规模 Whisper 快 5-20 倍
FunASR
- 主要面向服务器端优化
- 移动端/嵌入式性能数据未公开
- Paraformer-large 需要较大计算资源
六、实时流式处理
Moonshine ✅ 专为流式设计
- ✅ Flexible input windows: 支持任意长度音频输入
- ✅ Caching for streaming: 增量音频处理,缓存编码状态
- ✅ 流式模型: Tiny/Base/Small/Medium Streaming 版本
- ✅ 实时返回转录结果(边说边转)
FunASR
- ✅ 支持流式识别 (Streaming)
- ✅ 离线识别更成熟
- 流式延迟不如 Moonshine 优化
七、多平台支持
| 平台 |
Moonshine |
FunASR |
| Python |
✅ |
✅ |
| iOS |
✅ |
✅ (Swift) |
| Android |
✅ |
✅ (Java) |
| macOS |
✅ |
❌ |
| Linux |
✅ |
✅ |
| Windows |
✅ |
✅ |
| Raspberry Pi |
✅ |
❌ |
| Web |
❌ |
❌ |
| Flutter |
❌ (需 FFI) |
❌ (需 FFI) |
八、中文 ASR 方案对比 (补充)
⚠️ 重要发现: Moonshine 的中文支持较弱 (Mandarin Base 模型 CER 25.76%),如主要面向中文用户,推荐国产方案。
方案总览
| 方案 |
Stars |
特点 |
中文支持 |
模型大小 |
ONNX |
| SenseVoice |
7,647 |
阿里FunAudio家族,多任务(ASR+LID+情感) |
✅ 最强 (普通话+粤语) |
~70M (Small) |
✅ |
| FunASR (Paraformer) |
15,080 |
阿里SOTA,生态最全 |
✅ 强 |
~220M |
✅ |
| FireRedASR |
~1,788 |
工业级中文ASR |
✅ 专注中文 |
不详 |
✅ |
| Moonshine |
7,084 |
实时流式,低延迟 |
⚠️ 25.76% CER |
26-245M |
✅ |
SenseVoice (阿里 FunAudio) ⭐推荐
10秒音频处理: 70ms (比 Whisper 快 15 倍)
支持语言: 50+,中文(普通话+粤语)、英文、日语、韩语
额外能力: 语音情感识别(EER)、音频事件检测(AED)
中文评价: "In terms of Chinese and Cantonese recognition, SenseVoice-Small has advantages"
模型: SenseVoice-Small (~70M), SenseVoice-Large
许可证: 阿里开源,可商用
优势: 生态最全 (VAD、标点、LM、说话人分离)
模型: Paraformer-large (离线), Paraformer-online (流式)
中文: 成熟稳定,医疗领域有大量应用
FireRedASR
定位: 工业级中文 ASR
特点: 开源版对标商业级中文识别
中文: 专注普通话
中文方案对比总结
| 需求 |
推荐 |
| 中文语音输入 |
✅ SenseVoice 或 FunASR |
| 实时性 (边说边转) |
SenseVoice (70ms 低延迟) |
| 医疗领域微调 |
FunASR (生态完善) |
| 低资源设备 |
SenseVoice Small (70M) |
九、对”灵听”项目的适用性分析
需求场景
| 需求 |
Moonshine |
FunASR |
| 离线运行 |
✅ |
✅ |
| 低延迟实时转写 |
✅✅ 优势明显 |
✅ |
| 模型小(嵌入式) |
✅ 26M-245M |
❌ 较大 |
| ONNX 支持 |
✅ 原生 |
✅ |
| 移动端 (iOS/Android) |
✅ |
✅ |
| Flutter 集成 |
需 FFI |
需 FFI |
| 中文支持 |
Base 模型 |
✅ 更成熟 |
| 医疗领域微调 |
社区方案 |
可微调 |
十、总结建议
推荐 Moonshine 的场景
- ✅ 实时语音交互(边说边转)
- ✅ 低延迟要求(<200ms)
- ✅ 边缘设备部署(树莓派、移动端)
- ✅ 资源受限环境
- ✅ 需要比 Whisper 更好的性能
推荐 FunASR 的场景
- ✅ 离线大文件转写
- ✅ 服务器端部署
- ✅ 中文语音识别(Paraformer 中文更强)
- ✅ 需要完整 ASR 生态(VAD、标点、LM)
针对”灵听”项目
| 维度 |
推荐 |
| 实时性要求高 |
Moonshine |
| 中文识别准确率 |
FunASR (Paraformer) |
| Flutter 集成 |
两者都需要 FFI 封装 |
| 未来考虑微调 |
两者都支持 |
十一、参考资料
- Moonshine: https://github.com/moonshine-ai/moonshine
- FunASR: https://github.com/modelscope/funasr
- SenseVoice: https://github.com/FunAudioLLM/SenseVoice
- FireRedASR: https://github.com/luoxing/FireRedASR
- Moonshine Paper: https://arxiv.org/abs/2602.12241
- HuggingFace OpenASR Leaderboard: https://huggingface.co/spaces/hf-audio/open_asr_leaderboard
整理日期: 2026-03-06