SenseVoiceSmall ONNX（非量化）

本仓库为 SenseVoiceSmall 的 非量化 ONNX 导出版本，由 ModelScope iic/SenseVoiceSmall 经 FunASR 导出（quantize=False），便于在 ONNX Runtime 或 open-flow 等管线中直接使用。

模型说明

来源：阿里巴巴达摩院 SenseVoice，Small 版本
格式：ONNX（float32），含外部权重文件 model.onnx.data
用途：语音识别（ASR）、多语种识别（中文/粤语/英/日/韩等）
输入：16 kHz 单声道音频（如 wav）
输出：转写文本

文件说明

文件	说明
`model.onnx`	ONNX 计算图
`model.onnx.data`	权重（约 893MB）
`tokens.json`	词表
`am.mvn`	特征归一化参数
`config.yaml`	模型与前端配置

使用示例

使用 open-flow（Rust 管线）

# 指定本仓库为模型目录后转写
OPEN_FLOW_MODEL=/path/to/downloaded/repo open-flow transcribe --file audio.wav --output stdout

从 Hugging Face 下载到本地后，将上述 /path/to/downloaded/repo 替换为解压目录即可。

使用 ONNX Runtime + FunASR 推理

from funasr import AutoModel
model = AutoModel(model="ruska1117/SenseVoiceSmall-onnx", device="cpu")
result = model.generate(input="audio.wav", language="auto")

仅用 ONNX Runtime 加载

需按 FunASR 的前处理（如 WavFrontend、LFR、cmvn）准备输入，再调用 ONNX 推理；一般推荐通过 FunASR 或 open-flow 使用。

许可证与致谢

原始 SenseVoice 模型版权与许可证遵循 FunAudioLLM/SenseVoice 及 ModelScope iic/SenseVoiceSmall。
本 ONNX 导出仅做格式转换，不改变模型权重；使用前请遵守原模型的使用条款与许可证。

引用

若使用 SenseVoice，请引用原项目：

@article{sensevoice,
  title={SenseVoice: Multilingual Speech Foundation Model},
  author={FunAudioLLM Team},
  year={2024}
}

Downloads last month: 9