vad-audio-labels-experimental-test

Running

deepsync commited on Oct 9, 2024

Commit

cfc2b12

verified ·

1 Parent(s): 5456318

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -2,6 +2,8 @@ import gradio as gr
 import os
 import torchaudio
 from uuid import uuid4
 import torch
 torch.set_num_threads(1)
@@ -19,15 +21,9 @@ model, utils = torch.hub.load(repo_or_dir='snakers4/silero-vad',
 def get_labels(audio_fp, threshold, min_speech_duration_ms, min_silence_duration_ms, auto_merge, uppper_merge_threshold, max_segment_length):
-    wav, sr = torchaudio.load(audio_fp)
-    wav = torchaudio.functional.resample(wav, orig_freq=sr, new_freq=16000)
-    speech_timestamps = get_speech_timestamps(wav,
-                                            model,
-                                            sampling_rate=16000,
-                                            threshold=threshold,
-                                            min_speech_duration_ms=min_speech_duration_ms,
-                                            min_silence_duration_ms=min_silence_duration_ms,
-                                            return_seconds=True)
     labels_str = []
     labels = []
@@ -79,8 +75,8 @@ interface = gr.Interface(
         gr.Number(label="min_speech_duration_ms", value=250, info="default (250)"),
         gr.Number(label="min_silence_duration_ms", value=40, info="default (100)"),
         gr.Checkbox(label="Auto merge", value=True),
-        gr.Textbox(label="Gap max threshold value (seconds)", value=0.7),
-        gr.Number(label="Approx Max Segment Length", value=8)
     ],
     [
         gr.File(label="VAD Labels"),

 import os
 import torchaudio
 from uuid import uuid4
+from pydub.silence import detect_nonsilent
+from pydub import AudioSegment
 import torch
 torch.set_num_threads(1)
 def get_labels(audio_fp, threshold, min_speech_duration_ms, min_silence_duration_ms, auto_merge, uppper_merge_threshold, max_segment_length):
+    audio = AudioSegment.from_file(audio_fp)
+    speech_timestamps = detect_nonsilent(audio, min_silence_len=min_silence_duration_ms, silence_thresh=-40)
+    speech_timestamps = list(filter(lambda x: x[1]-x[0] > min_speech_duration_ms, speech_timestamps))
     labels_str = []
     labels = []
         gr.Number(label="min_speech_duration_ms", value=250, info="default (250)"),
         gr.Number(label="min_silence_duration_ms", value=40, info="default (100)"),
         gr.Checkbox(label="Auto merge", value=True),
+        gr.Textbox(label="Gap max threshold value (seconds)", value=0.3),
+        gr.Number(label="Approx Max Segment Length", value=5)
     ],
     [
         gr.File(label="VAD Labels"),