AXERA-TECH
/

SileroVAD

Model card Files Files and versions

inoryQwQ commited on Nov 4, 2025

Commit

fc41265

·

1 Parent(s): 0caa3bc

Add gradio app

Files changed (4) hide show

README.md +12 -1
SileroOrt.py +1 -1
gradio.png +0 -0
gradio_app.py +47 -0

README.md CHANGED Viewed

@@ -8,13 +8,24 @@ license: mit
 ## Demo
 ```
 python main.py --input demo.wav --output_dir output --model silero_vad.onnx
 ```
 被分段的语音后保存在output目录中
 ## 在项目中使用
 1. 复制silero_vad.onnx SileroOrt.py StreamVAD.py 三个文件到项目中

 ## Demo
+### CLI
 ```
 python main.py --input demo.wav --output_dir output --model silero_vad.onnx
 ```
 被分段的语音后保存在output目录中
+### Gradio
+```
+pip install gradio
+python gradio_app.py
+```
+![](/gradio.png)
 ## 在项目中使用
 1. 复制silero_vad.onnx SileroOrt.py StreamVAD.py 三个文件到项目中

SileroOrt.py CHANGED Viewed

@@ -59,7 +59,7 @@ class SileroOrt:
         if x.shape[0] % num_samples:
             pad_num = num_samples - (x.shape[0] % num_samples)
-            x = np.pad(x, ((0, pad_num)), 'constant', value=0.0)
         for i in range(0, x.shape[0], num_samples):
             wavs_batch = x[i:i+num_samples]

         if x.shape[0] % num_samples:
             pad_num = num_samples - (x.shape[0] % num_samples)
+            x = np.pad(x, ((0, pad_num)), 'constant')
         for i in range(0, x.shape[0], num_samples):
             wavs_batch = x[i:i+num_samples]

gradio.png ADDED Viewed

gradio_app.py ADDED Viewed

	@@ -0,0 +1,47 @@

+import gradio as gr
+from StreamVAD import StreamVAD
+from dataclasses import dataclass, field
+vad = StreamVAD(
+    'silero_vad.onnx'
+)
+@dataclass
+class AppState:
+    history: list = field(default_factory=list)
+def process_audio(audio, chatbot, state):
+    # print(audio)
+    # audio is a tuple of (sample_rate, numpy int16 array)
+    sr, audio_data = audio
+    for result in vad.run(audio_data, sr):
+        if result:
+            state.history.append(
+                gr.ChatMessage(role='user', content=gr.Audio(
+                    label=f"{result['start_ts']} - {result['end_ts']}",
+                    value=(vad.model.sr, result['audio']),
+                    waveform_options=gr.WaveformOptions(show_recording_waveform=False),
+                    editable=False
+                    )
+                ),
+            )
+    return state.history
+with gr.Blocks() as demo:
+    state = gr.State(value=AppState())
+    with gr.Row():
+        chatbot = gr.Chatbot(type='messages')
+    with gr.Row():
+        input_audio = gr.Audio(sources=['microphone'], type='numpy', streaming=True)
+    # streaming process
+    input_audio.stream(fn=process_audio, inputs=[input_audio, chatbot, state], outputs=[chatbot])
+demo.launch(debug=True)