主流 ASR 方案深度调研报告

主流 ASR 方案深度调研报告

调研日期: 2026-03-06
更新: 补充中文 ASR 方案对比


一、项目概述

Moonshine

属性
GitHub moonshine-ai/moonshine
Stars 7,084
语言 C (核心) + Python
定位 专为实时语音流设计的 ASR 引擎
许可证 English: MIT, 其他语言: Moonshine Community License (非商业)

FunASR (阿里)

属性
GitHub modelscope/funasr
Stars 15,080
语言 Python
定位 端到端语音识别工具包,支持 SOTA 预训练模型
许可证 Apache 2.0

二、模型对比

Moonshine 模型家族

语言 架构 参数 WER/CER
English Tiny 26M 12.66%
English Tiny Streaming 34M 12.00%
English Base 58M 10.07%
English Small Streaming 123M 7.84%
English Medium Streaming 245M 6.65%
Arabic Base 58M 5.63%
Japanese Base 58M 13.62%
Korean Tiny 26M 6.46%
Mandarin Base 58M 25.76%
Spanish Base 58M 4.33%
Ukrainian Base 58M 14.55%
Vietnamese Base 58M 8.82%

FunASR 模型 (阿里)

主流模型 Paraformer-large
- 参数: ~220M (非官方)
- 支持离线/在线语音识别
- 支持 VAD、Punctuation、LM 等
- 有 Paraformer-multi (多语言) 版本


三、ONNX 支持

Moonshine ✅ 原生支持

This library uses the Onnx model format, converted to the memory-mappable OnnxRuntime (.ort) flatbuffer encoding.
  • ✅ 使用 OnnxRuntime 作为推理引擎
  • ✅ 模型以 ONNX 格式 (.ort) 发布
  • ✅ 支持 8-bit 量化
  • ✅ 提供预编译的 ONNX Runtime 二进制文件

FunASR ✅ 支持

# 安装 ONNX  runtime
pip3 install -U funasr-onnx

from runtime.python.onnxruntime.funasr_onnx.paraformer_bin import Paraformer
  • 支持 ONNX 导出
  • 有专门的 funasr-onnx

四、Flutter 支持

Moonshine ❌ 无官方支持

README 中未提及 Flutter。

但架构分析:
- 核心是 C++
- 已支持: Python, Swift, Java, C++, iOS, Android
- 理论上可通过 ffi / platform_channels 调用 C++ 核心

FunASR ❌ 无官方支持

  • 主要面向服务端
  • 有 Android/iOS runtime (Java/Swift)
  • 无 Flutter SDK

五、延迟性能对比 (关键)

Moonshine 官方基准测试

Model 参数 MacBook Pro Linux x86 R. Pi 5
Moonshine Medium Streaming 245M 107ms 269ms 802ms
Whisper Large v3 1.5B 11,286ms 16,919ms N/A
Moonshine Small Streaming 123M 73ms 165ms 527ms
Whisper Small 244M 1,940ms 3,425ms 10,397ms
Moonshine Tiny Streaming 34M 34ms 69ms 237ms
Whisper Tiny 39M 277ms 1,141ms 5,863ms

结论: Moonshine 比同等规模 Whisper 快 5-20 倍

FunASR

  • 主要面向服务器端优化
  • 移动端/嵌入式性能数据未公开
  • Paraformer-large 需要较大计算资源

六、实时流式处理

Moonshine ✅ 专为流式设计

  • Flexible input windows: 支持任意长度音频输入
  • Caching for streaming: 增量音频处理,缓存编码状态
  • ✅ 流式模型: Tiny/Base/Small/Medium Streaming 版本
  • ✅ 实时返回转录结果(边说边转)

FunASR

  • ✅ 支持流式识别 (Streaming)
  • ✅ 离线识别更成熟
  • 流式延迟不如 Moonshine 优化

七、多平台支持

平台 Moonshine FunASR
Python
iOS ✅ (Swift)
Android ✅ (Java)
macOS
Linux
Windows
Raspberry Pi
Web
Flutter ❌ (需 FFI) ❌ (需 FFI)

八、中文 ASR 方案对比 (补充)

⚠️ 重要发现: Moonshine 的中文支持较弱 (Mandarin Base 模型 CER 25.76%),如主要面向中文用户,推荐国产方案。

方案总览

方案 Stars 特点 中文支持 模型大小 ONNX
SenseVoice 7,647 阿里FunAudio家族,多任务(ASR+LID+情感) 最强 (普通话+粤语) ~70M (Small)
FunASR (Paraformer) 15,080 阿里SOTA,生态最全 ✅ 强 ~220M
FireRedASR ~1,788 工业级中文ASR ✅ 专注中文 不详
Moonshine 7,084 实时流式,低延迟 ⚠️ 25.76% CER 26-245M

SenseVoice (阿里 FunAudio) ⭐推荐

10秒音频处理: 70ms (比 Whisper 快 15 倍)
支持语言: 50+,中文(普通话+粤语)、英文、日语、韩语
额外能力: 语音情感识别(EER)、音频事件检测(AED)
中文评价: "In terms of Chinese and Cantonese recognition, SenseVoice-Small has advantages"
模型: SenseVoice-Small (~70M), SenseVoice-Large
许可证: 阿里开源,可商用

FunASR / Paraformer (阿里)

优势: 生态最全 (VAD、标点、LM、说话人分离)
模型: Paraformer-large (离线), Paraformer-online (流式)
中文: 成熟稳定,医疗领域有大量应用

FireRedASR

定位: 工业级中文 ASR
特点: 开源版对标商业级中文识别
中文: 专注普通话

中文方案对比总结

需求 推荐
中文语音输入 SenseVoiceFunASR
实时性 (边说边转) SenseVoice (70ms 低延迟)
医疗领域微调 FunASR (生态完善)
低资源设备 SenseVoice Small (70M)

九、对”灵听”项目的适用性分析

需求场景

需求 Moonshine FunASR
离线运行
低延迟实时转写 ✅✅ 优势明显
模型小(嵌入式) ✅ 26M-245M ❌ 较大
ONNX 支持 ✅ 原生
移动端 (iOS/Android)
Flutter 集成 需 FFI 需 FFI
中文支持 Base 模型 ✅ 更成熟
医疗领域微调 社区方案 可微调

十、总结建议

推荐 Moonshine 的场景

  1. 实时语音交互(边说边转)
  2. 低延迟要求(<200ms)
  3. 边缘设备部署(树莓派、移动端)
  4. 资源受限环境
  5. ✅ 需要比 Whisper 更好的性能

推荐 FunASR 的场景

  1. 离线大文件转写
  2. 服务器端部署
  3. 中文语音识别(Paraformer 中文更强)
  4. 需要完整 ASR 生态(VAD、标点、LM)

针对”灵听”项目

维度 推荐
实时性要求高 Moonshine
中文识别准确率 FunASR (Paraformer)
Flutter 集成 两者都需要 FFI 封装
未来考虑微调 两者都支持

十一、参考资料

  • Moonshine: https://github.com/moonshine-ai/moonshine
  • FunASR: https://github.com/modelscope/funasr
  • SenseVoice: https://github.com/FunAudioLLM/SenseVoice
  • FireRedASR: https://github.com/luoxing/FireRedASR
  • Moonshine Paper: https://arxiv.org/abs/2602.12241
  • HuggingFace OpenASR Leaderboard: https://huggingface.co/spaces/hf-audio/open_asr_leaderboard

整理日期: 2026-03-06