vad-audio-labels-experimental-test

Sleeping

deepsync commited on Jul 5, 2024

Commit

3aad5c9

verified ·

1 Parent(s): 0041d9c

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -18,7 +18,7 @@ model, utils = torch.hub.load(repo_or_dir='snakers4/silero-vad',
  collect_chunks) = utils
-def get_labels(audio_fp, threshold, min_speech_duration_ms, min_silence_duration_ms, auto_merge, uppper_merge_threshold, max_seg_length):
     wav, sr = torchaudio.load(audio_fp)
     wav = torchaudio.functional.resample(wav, orig_freq=sr, new_freq=16000)
     speech_timestamps = get_speech_timestamps(wav,
@@ -49,7 +49,7 @@ def get_labels(audio_fp, threshold, min_speech_duration_ms, min_silence_duration
     new_labels = [list(labels[0])]
     for i in range(1, len(labels)):
         if (
-            gaps[i - 1] <= threshold
             and duration(new_labels[-1]) + gaps[i - 1] + duration(labels[i])
             < max_segment_length
         ):

  collect_chunks) = utils
+def get_labels(audio_fp, threshold, min_speech_duration_ms, min_silence_duration_ms, auto_merge, uppper_merge_threshold, max_segment_length):
     wav, sr = torchaudio.load(audio_fp)
     wav = torchaudio.functional.resample(wav, orig_freq=sr, new_freq=16000)
     speech_timestamps = get_speech_timestamps(wav,
     new_labels = [list(labels[0])]
     for i in range(1, len(labels)):
         if (
+            gaps[i - 1] <= uppper_merge_threshold
             and duration(new_labels[-1]) + gaps[i - 1] + duration(labels[i])
             < max_segment_length
         ):