SenseVoiceSmall ONNX（FP16）

本仓库为 SenseVoiceSmall 的 FP16 ONNX 导出版本，由 ModelScope iic/SenseVoiceSmall 经 FunASR 导出（float16），便于在 ONNX Runtime 等环境中直接使用，体积约 450MB。

模型说明

来源：阿里巴巴达摩院 SenseVoice，Small 版本
格式：ONNX（float16），含外部权重文件 model.onnx.data
用途：语音识别（ASR）、多语种识别（中文/粤语/英/日/韩等）
输入：16 kHz 单声道音频（如 wav）
输出：转写文本

文件说明

文件	说明
`model.onnx`	ONNX 计算图（FP16）
`model.onnx.data`	权重（约 468MB）
`tokens.json`	词表
`am.mvn`	特征归一化参数
`config.yaml`	模型与前端配置

使用示例

使用 FunASR 推理

from funasr import AutoModel
model = AutoModel(model="ruska1117/SenseVoiceSmall-onnx-fp16", device="cpu")
result = model.generate(input="audio.wav", language="auto")

仅用 ONNX Runtime 加载

需按 FunASR 的前处理（如 WavFrontend、LFR、cmvn）准备输入，再调用 ONNX 推理；一般推荐通过 FunASR 使用。

许可证与致谢

原始 SenseVoice 模型版权与许可证遵循 FunAudioLLM/SenseVoice 及 ModelScope iic/SenseVoiceSmall。
本 ONNX 导出仅做格式转换（FP16），不改变模型行为；使用前请遵守原模型的使用条款与许可证。

引用

若使用 SenseVoice，请引用原项目：

@article{sensevoice,
  title={SenseVoice: Multilingual Speech Foundation Model},
  author={FunAudioLLM Team},
  year={2024}
}

Downloads last month: 9