SenseVoiceSmall ONNX(非量化)
本仓库为 SenseVoiceSmall 的 非量化 ONNX 导出版本,由 ModelScope iic/SenseVoiceSmall 经 FunASR 导出(quantize=False),便于在 ONNX Runtime 或 open-flow 等管线中直接使用。
模型说明
- 来源:阿里巴巴达摩院 SenseVoice,Small 版本
- 格式:ONNX(float32),含外部权重文件
model.onnx.data - 用途:语音识别(ASR)、多语种识别(中文/粤语/英/日/韩等)
- 输入:16 kHz 单声道音频(如 wav)
- 输出:转写文本
文件说明
| 文件 | 说明 |
|---|---|
model.onnx |
ONNX 计算图 |
model.onnx.data |
权重(约 893MB) |
tokens.json |
词表 |
am.mvn |
特征归一化参数 |
config.yaml |
模型与前端配置 |
使用示例
使用 open-flow(Rust 管线)
# 指定本仓库为模型目录后转写
OPEN_FLOW_MODEL=/path/to/downloaded/repo open-flow transcribe --file audio.wav --output stdout
从 Hugging Face 下载到本地后,将上述 /path/to/downloaded/repo 替换为解压目录即可。
使用 ONNX Runtime + FunASR 推理
from funasr import AutoModel
model = AutoModel(model="ruska1117/SenseVoiceSmall-onnx", device="cpu")
result = model.generate(input="audio.wav", language="auto")
仅用 ONNX Runtime 加载
需按 FunASR 的前处理(如 WavFrontend、LFR、cmvn)准备输入,再调用 ONNX 推理;一般推荐通过 FunASR 或 open-flow 使用。
许可证与致谢
- 原始 SenseVoice 模型版权与许可证遵循 FunAudioLLM/SenseVoice 及 ModelScope iic/SenseVoiceSmall。
- 本 ONNX 导出仅做格式转换,不改变模型权重;使用前请遵守原模型的使用条款与许可证。
引用
若使用 SenseVoice,请引用原项目:
@article{sensevoice,
title={SenseVoice: Multilingual Speech Foundation Model},
author={FunAudioLLM Team},
year={2024}
}
- Downloads last month
- 6