Spaces:

rafibra93
/

libingo_tts

Sleeping

App Files Files Community

rafibra93 commited on Aug 16, 2025

Commit

53b5571

verified ·

1 Parent(s): 7bb1380

Update app.py

Browse files

Files changed (1) hide show

app.py +30 -9

app.py CHANGED Viewed

@@ -40,7 +40,7 @@ def tts_bark(text, preset_choice, custom_preset, seed, export_mp3, word_mode):
         history_prompt = None
         if custom_preset and custom_preset.strip():
             history_prompt = custom_preset.strip()
-        elif preset_choice and preset_choice != "v2/de_speaker_9":
             history_prompt = preset_choice
         # Reproduzierbarkeit (optional)
@@ -82,23 +82,44 @@ def tts_bark(text, preset_choice, custom_preset, seed, export_mp3, word_mode):
         out_path = wav_path
         # Bei Wortmodus: bestes Segment auto‑trimmen
         if do_trim:
             try:
                 audio = AudioSegment.from_wav(wav_path)
                 chunks = silence.split_on_silence(
                     audio,
-                    min_silence_len=150,
-                    silence_thresh=audio.dBFS - 16,
-                    keep_silence=30
                 )
                 if chunks:
-                    best = max(chunks, key=lambda c: len(c))
-                    trimmed = best.normalize(headroom=1.0)
                     trimmed_path = wav_path.replace(".wav", "_word.wav")
-                    trimmed.export(trimmed_path, format="wav")
                     out_path = trimmed_path
             except Exception as e:
-                # Trim‑Fehler ist nicht kritisch
                 print(f"[Trim] Hinweis: {e}")
         # Optional MP3 exportieren
@@ -144,7 +165,7 @@ with gr.Blocks() as demo:
     )
     text = gr.Textbox(label="Text (z. B. Igbo / Russisch / Englisch ...)", placeholder="Ndeewo! Kedu ka i mere?", lines=3)
     with gr.Row():
-        preset_choice = gr.Dropdown(COMMON_PRESETS, value="Auto (kein Preset)", label="Voice Preset (optional)")
         custom_preset = gr.Textbox(label="Eigenes Preset (optional)", placeholder="z. B. v2/en_speaker_0")
     with gr.Row():
         seed = gr.Number(value=42, precision=0, label="Seed (optional)")

         history_prompt = None
         if custom_preset and custom_preset.strip():
             history_prompt = custom_preset.strip()
+        elif preset_choice and preset_choice != "Auto (kein Preset)":
             history_prompt = preset_choice
         # Reproduzierbarkeit (optional)
         out_path = wav_path
         # Bei Wortmodus: bestes Segment auto‑trimmen
+        # Bei Wortmodus: bestes Segment auto‑trimmen (robust)
         if do_trim:
             try:
                 audio = AudioSegment.from_wav(wav_path)
+                # 1) Erst normal versuchen, etwas großzügiger
                 chunks = silence.split_on_silence(
                     audio,
+                    min_silence_len=120,                 # etwas kürzer
+                    silence_thresh=audio.dBFS - 18,      # toleranter
+                    keep_silence=20
                 )
+                best_seg = None
                 if chunks:
+                    best_seg = max(chunks, key=lambda c: len(c))
+                else:
+                    # 2) Fallback: nicht‑stille Abschnitte selbst detektieren
+                    spans = silence.detect_nonsilent(
+                        audio,
+                        min_silence_len=120,
+                        silence_thresh=audio.dBFS - 18
+                    )
+                    if spans:
+                        # längsten nicht‑stillen Abschnitt wählen
+                        start, end = max(spans, key=lambda s: s[1]-s[0])
+                        best_seg = audio[start:end]
+                if best_seg:
+                    # leichte Nachbearbeitung: normalisieren + winzige Ränder
+                    best_seg = best_seg.normalize(headroom=1.0)
                     trimmed_path = wav_path.replace(".wav", "_word.wav")
+                    best_seg.export(trimmed_path, format="wav")
                     out_path = trimmed_path
+                else:
+                    print("[Trim] Kein Segment gefunden – liefere Original-WAV zurück.")
             except Exception as e:
                 print(f"[Trim] Hinweis: {e}")
         # Optional MP3 exportieren
     )
     text = gr.Textbox(label="Text (z. B. Igbo / Russisch / Englisch ...)", placeholder="Ndeewo! Kedu ka i mere?", lines=3)
     with gr.Row():
+        preset_choice = gr.Dropdown(COMMON_PRESETS, value="v2/de_speaker_9", label="v2/de_speaker_9")
         custom_preset = gr.Textbox(label="Eigenes Preset (optional)", placeholder="z. B. v2/en_speaker_0")
     with gr.Row():
         seed = gr.Number(value=42, precision=0, label="Seed (optional)")