透析管理系统语音输入辅助应用技术方案

透析管理系统语音输入辅助应用技术方案

整理时间: 2026-02-16 08:38
来源: 群聊消息
整理人: AI助手

摘要

本文介绍了一套针对医疗透析管理系统的语音输入辅助应用技术方案。核心目标是将医生的非结构化口述自动转化为结构化的表单数据,实现“说话即填表”。方案推荐采用 Tauri + Rust 轻量级框架,结合 Faster-Whisper 语音识别和 DeepSeek LLM 进行语义提取,在不改动现有 BS 系统源码的前提下实现自动填表。


一、产品定位与核心价值

1.1 从“录音机”到“智能助手”

不同于传统的语音输入法,应该构建一个感知中间件应用(Middleware Application)

传统语音输入 智能语音助手
说一句话 → 变成一段文字 说一句话 → 自动拆分填入多个表单字段
需要手动复制粘贴 全自动填入对应位置
破坏医生操作流 不改变原有操作习惯

1.2 核心功能设计

  1. 全局悬浮触发:通过全局快捷键或鼠标侧键唤起录音
  2. 结构化映射:医生口述“今天透析流量200,血压120/80”,系统自动拆解为:
    json {"flow": 200, "bp_high": 120, "bp_low": 80}
  3. 医疗术语优化:针对透析场景配置专门医学词库,确保识别率 >95%

1.3 目标用户与场景

  • 用户: 透析室医生、护士
  • 场景: 透析治疗过程中的数据记录
  • 痛点: 透析表单字段多(内瘘、超滤量、透析液电导率、血压等),手工录入耗时

二、技术架构设计

2.1 整体架构图

┌─────────────────────────────────────────────────────────────┐
│                      医生工作站                               │
│  ┌─────────────────┐    ┌─────────────────────────────────┐ │
│  │  透析管理系统    │    │       Tauri 语音助手            │ │
│  │  (BS 浏览器)    │    │  ┌─────────┐ ┌─────────────┐   │ │
│  │                 │    │  │ 录音模块 │ │ 填表引擎    │   │ │
│  │  [输入框1]      │◄───│  └────┬────┘ └──────┬──────┘   │ │
│  │  [输入框2]      │    │       │              │          │ │
│  │  [输入框3]      │    │       ▼              ▼          │ │
│  │  ...            │    │  ┌─────────────────────────────┐│ │
│  └─────────────────┘    │  │    AI 处理层 (内网/边缘)     ││ │
│                         │  │  Faster-Whisper + DeepSeek  ││ │
│                         │  └─────────────────────────────┘│ │
│                         └─────────────────────────────────┘ │
└─────────────────────────────────────────────────────────────┘

2.2 客户端架构 (Tauri + Rust)

模块 技术选型 说明
UI 框架 Tauri 打包体积仅 3-10MB,远小于 Electron 的 100MB+
录音模块 Rust cpal 低延迟,占用资源极少
全局热键 tauri-plugin-global-shortcut 监听快捷键触发录音
键盘模拟 Enigo (Rust Lib) 模拟 Tab 键和 Ctrl+V 实现填表
系统托盘 Tauri 托盘图标 后台常驻,不干扰医生工作

2.3 后端 AI 处理层

模块 技术选型 说明
ASR 语音识别 Faster-Whisper Whisper 的 C++ 重构版本,推理速度快数倍,支持私有化部署
结构化提取 DeepSeek-V3 JSON 输出模式稳定,擅长中文医疗术语处理
部署方式 医院内网服务器 透析数据涉及患者隐私,需私有化部署

三、技术选型详解

3.1 为什么选择 Tauri 而非 Electron?

指标 Electron Tauri
打包体积 100MB+ 3-10MB
内存占用 极低
启动速度
医疗场景适用性 一般 推荐

结论: 医疗场景电脑性能一般,Tauri 的轻量化优势明显。

3.2 语音识别方案对比

方案 优点 缺点 适用场景
Whisper (OpenAI) 医疗术语理解极强 需要 GPU 算力 通用场景
科大讯飞医疗 ASR 私有化部署、专为医疗优化 商业收费 有预算的医院
Faster-Whisper 开源、推理快、可本地部署 需要一定的技术能力 推荐

3.3 LLM 结构化提取

推荐:DeepSeek-V3

  • 擅长中文处理
  • JSON Mode 输出稳定
  • 性价比高
  • 可私有化部署

Prompt 示例:

你是一个医疗数据提取助手。请从医生的口述中提取透析相关的数值指标。

透析表单字段:
- flow: 透析流量 (ml/min)
- bp_high: 收缩压 (mmHg)
- bp_low: 舒张压 (mmHg)
- uf: 超滤量 (ml)
- conductivity: 透析液电导率 (mS/cm)

医生口述:"今天透析流量200,血压120/80,超滤3000"
请输出 JSON 格式。

四、两种填表实现方案

4.1 方案 A:模拟键盘流(最通用)

原理: 客户端将 LLM 返回的 JSON 转化为 Value + Tab 按键序列。

工作流程:

1. 医生说话 → 录音
2. Faster-Whisper 转写为文字
3. DeepSeek 提取为 JSON
4. 客户端模拟按键:
   - 输入第一个值 → Tab → 输入第二个值 → Tab → ...
5. 最后回车确认

优点:

  • 通用性强,不依赖具体网页结构
  • 无需修改 BS 系统代码
  • 类似 Typeless 的交互体验

缺点:

  • 需要预先知道表单字段顺序
  • 如果表单顺序变化需要重新配置

4.2 方案 B:浏览器插件劫持(最精准)

原理: 开发极轻量的 Chrome Extension,Tauri 通过本地 WebSocket 与插件通信。

工作流程:

1. 医生说话 → 录音 → AI 处理
2. Tauri 客户端通过 WebSocket 发送结构化数据
3. Chrome Extension 接收数据
4. 插件通过 document.querySelector 定位输入框
5. 直接操作 DOM 赋值

优点:

  • 精准定位每个字段,不依赖表单顺序
  • 可处理复杂的表单结构
  • 支持动态表单

缺点:

  • 需要安装浏览器插件
  • 需要浏览器保持打开状态

4.3 方案对比与选型建议

对比项 方案 A (键盘模拟) 方案 B (浏览器插件)
侵入性
通用性
准确性
依赖 需安装插件
表单变化适应 需重新配置 自动适应

建议:

  • 如果透析管理系统允许安装浏览器插件 → 选方案 B
  • 如果只能安装独立客户端 → 选方案 A

五、透析专业术语词库

5.1 常见透析指标

术语 字段名 单位
透析流量 flow ml/min
血流量 blood_flow ml/min
超滤量 uf ml
透析液电导率 conductivity mS/cm
透析液温度 temperature
静脉压 venous_pressure mmHg
动脉压 arterial_pressure mmHg
肝素用量 heparin mg
透析时长 duration 小时
体重(透析前) weight_before kg
体重(透析后) weight_after kg

5.2 透析相关操作

术语 说明
内瘘 动静脉内瘘,透析通路
穿刺 透析时针头穿刺
封管 透析结束后封闭管路
拔针 透析结束取下针头
机器报警 透析机异常提示

5.3 优化策略

  1. 词库配置: 在 Faster-Whisper 推理时加载医学词库热词
  2. LLM Prompt: 预设透析相关 Prompt,引导模型正确提取
  3. 纠错机制: 建立常见误识别映射表(如“3000”误识别为“300”)

六、实施路径建议

6.1 分阶段开发计划

第一阶段:单点突破(文本转写)

  • 实现“说一段话,变成一段文字”
  • 填入当前的文本域(如“医生嘱托”)
  • 验证录音、识别流程通顺

第二阶段:结构化表单(重点)

  • 预设透析相关的表单模板
  • 通过 Prompt 指导 LLM 提取关键数值
  • 实现 Tab 键模拟或 DOM 操作填表

第三阶段:私有化部署

  • 部署 Faster-Whisper 到医院内网
  • 部署 DeepSeek 或其他 LLM
  • 确保数据不出院,符合隐私要求

6.2 快速验证方案

步骤 内容 预计时间
1 Tauri 环境搭建 + 录音测试 1 天
2 接入 Faster-Whisper 转写 1 天
3 接入 LLM 结构化提取 1 天
4 键盘模拟填表功能 2 天
5 医疗词库优化 2 天
总计 7 天

七、相关技术资源

7.1 开源项目

7.2 商业方案

7.3 参考案例

  • 北京协和医院:全院部署语音录入系统,识别率 95%
  • 讯飞医疗 AI 语音输入法:医学符号规整,自动纠错

八、关键问题确认

在正式开发前,需要确认以下问题:

  1. BS 系统是否可以安装浏览器插件?
  2. 是 → 建议采用方案 B(浏览器插件)
  3. 否 → 采用方案 A(键盘模拟)

  4. 是否需要私有化部署 AI 服务?

  5. 透析数据涉及患者隐私,原则上应部署在医院内网
  6. 如无内网条件,可考虑边缘部署

  7. 现有表单字段是否固定?

  8. 固定 → 方案 A 即可
  9. 经常变化 → 建议方案 B

  10. 预算与算力情况?

  11. 有 GPU → Faster-Whisper + DeepSeek
  12. 无 GPU → 讯飞医疗 ASR API

整理备注

本文档基于群聊中讨论的技术方案整理,包含了产品定位、技术架构、两种填表方案、透析专业术语词库及实施路径建议。具体技术选型需根据医院实际IT环境进行调整。