SenseVoiceSmall ONNX(非量化)

本仓库为 SenseVoiceSmall非量化 ONNX 导出版本,由 ModelScope iic/SenseVoiceSmallFunASR 导出(quantize=False),便于在 ONNX Runtime 或 open-flow 等管线中直接使用。

模型说明

  • 来源:阿里巴巴达摩院 SenseVoice,Small 版本
  • 格式:ONNX(float32),含外部权重文件 model.onnx.data
  • 用途:语音识别(ASR)、多语种识别(中文/粤语/英/日/韩等)
  • 输入:16 kHz 单声道音频(如 wav)
  • 输出:转写文本

文件说明

文件 说明
model.onnx ONNX 计算图
model.onnx.data 权重(约 893MB)
tokens.json 词表
am.mvn 特征归一化参数
config.yaml 模型与前端配置

使用示例

使用 open-flow(Rust 管线)

# 指定本仓库为模型目录后转写
OPEN_FLOW_MODEL=/path/to/downloaded/repo open-flow transcribe --file audio.wav --output stdout

从 Hugging Face 下载到本地后,将上述 /path/to/downloaded/repo 替换为解压目录即可。

使用 ONNX Runtime + FunASR 推理

from funasr import AutoModel
model = AutoModel(model="ruska1117/SenseVoiceSmall-onnx", device="cpu")
result = model.generate(input="audio.wav", language="auto")

仅用 ONNX Runtime 加载

需按 FunASR 的前处理(如 WavFrontend、LFR、cmvn)准备输入,再调用 ONNX 推理;一般推荐通过 FunASR 或 open-flow 使用。

许可证与致谢

引用

若使用 SenseVoice,请引用原项目:

@article{sensevoice,
  title={SenseVoice: Multilingual Speech Foundation Model},
  author={FunAudioLLM Team},
  year={2024}
}
Downloads last month
6
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support