Spaces:

deepsync
/

vad-audio-labels-experimental

Runtime error

App Files Files Community

deepsync commited on Oct 15, 2024

Commit

537d092

verified ·

1 Parent(s): df334ad

Update app.py

Browse files

Files changed (1) hide show

app.py +26 -6

app.py CHANGED Viewed

@@ -5,8 +5,8 @@ from pydub.silence import detect_nonsilent
 from pydub import AudioSegment
-def get_labels(audio_fp, min_speech_duration_ms, min_silence_duration_ms, auto_merge, uppper_merge_threshold, max_segment_length):
-    audio = AudioSegment.from_file(audio_fp).set_channels(1)
     speech_timestamps = detect_nonsilent(audio, min_silence_len=min_silence_duration_ms, silence_thresh=-40)
     speech_timestamps = list(filter(lambda x: x[1]-x[0] > min_speech_duration_ms, speech_timestamps))
     speech_timestamps = [{"start": s[0]/1000, "end": s[1]/1000} for s in speech_timestamps]
@@ -44,6 +44,23 @@ def get_labels(audio_fp, min_speech_duration_ms, min_silence_duration_ms, auto_m
         else:
             new_labels.append(list(labels[i]))
     translate_labels = list(map(lambda x: f"{x[0]}\t{x[1]}\t{x[2]}", new_labels))
     filename_path = f"{fn}_translate_label.txt"
@@ -56,12 +73,15 @@ def get_labels(audio_fp, min_speech_duration_ms, min_silence_duration_ms, auto_m
 interface = gr.Interface(
     get_labels,
     [
-        gr.Audio(type="filepath", label="Audio file"),
-        gr.Number(label="min_speech_duration_ms", value=80, info="default (80)"),
-        gr.Number(label="min_silence_duration_ms", value=40, info="default (100)"),
         gr.Checkbox(label="Auto merge", value=True),
         gr.Textbox(label="Gap max threshold value (seconds)", value=0.350),
-        gr.Number(label="Approx Max Segment Length", value=7)
     ],
     [
         gr.File(label="VAD Labels"),

 from pydub import AudioSegment
+def get_labels(audio_fp, min_speech_duration_ms, min_silence_duration_ms, auto_merge, uppper_merge_threshold, max_segment_length, end_extension, extend_small_segments, show_duration_label):
+    audio = AudioSegment.from_file(audio_fp.name).set_channels(1)
     speech_timestamps = detect_nonsilent(audio, min_silence_len=min_silence_duration_ms, silence_thresh=-40)
     speech_timestamps = list(filter(lambda x: x[1]-x[0] > min_speech_duration_ms, speech_timestamps))
     speech_timestamps = [{"start": s[0]/1000, "end": s[1]/1000} for s in speech_timestamps]
         else:
             new_labels.append(list(labels[i]))
+    extended = [False] * (len(new_labels) - 1)
+    if extend_small_segments:
+        for i, nl in enumerate(new_labels[:-1]):
+            if nl[1] - nl[0] <= 1.02 and nl[0] + 1.02 < new_labels[i+1][0]:
+                nl[1] = nl[0] + 1.02
+                extended[i] = True
+    if end_extension:
+        for i, nl in enumerate(new_labels[:-1]):
+            if not extended[i]:
+                if nl[1] + end_extension < new_labels[i+1][0]:
+                    nl[1] = nl[1] + end_extension
+    if show_duration_label:
+        for nl in new_labels:
+            nl[2] = round(nl[1] - nl[0], 3)
     translate_labels = list(map(lambda x: f"{x[0]}\t{x[1]}\t{x[2]}", new_labels))
     filename_path = f"{fn}_translate_label.txt"
 interface = gr.Interface(
     get_labels,
     [
+        gr.File(type="filepath", label="Audio file", file_types=["audio"], file_count="single"),
+        gr.Number(label="min_speech_duration_ms", value=40, info="default (40)"),
+        gr.Number(label="min_silence_duration_ms", value=40, info="default (40)"),
         gr.Checkbox(label="Auto merge", value=True),
         gr.Textbox(label="Gap max threshold value (seconds)", value=0.350),
+        gr.Number(label="Approx Max Segment Length", value=7),
+        gr.Number(label="Extend end by (seconds)", value=0),
+        gr.Checkbox(label="Extend small segments (minimum 1.02 seconds)", value=False),
+        gr.Checkbox(label="Show only duration in labels", value=False)
     ],
     [
         gr.File(label="VAD Labels"),