metadata
license: mit
SileroVAD
流式语音端点识别
安装依赖
sudo apt install libsndfile1
pip install -r requirements.txt
Demo
CLI
python main.py --input demo.wav --output_dir output --model silero_vad.onnx
被分段的语音后保存在output目录中
Gradio
pip install gradio
python gradio_app.py
在项目中使用
- 复制StreamVAD.py 到项目中
- from StreamVAD import StreamVAD
- 初始化
vad = StreamVAD(args.backend,
sensitivity=0.5,
silence_ms=200)
运行
for result in vad.run(audio, vad.model.sr):
if result:
print(result)
result的格式为:
{
'start_ts': 语音开始的时间
'end_ts': 语音结束的时间
'audio': 语音数据
}
时间戳的格式可通过StreamVAD.datetime_format设置
