Chatterbox

Runtime error

App Files Files Community

peterlllmm commited on 22 days ago

Commit

7f27076

verified ·

1 Parent(s): 8196470

Update app.py

Browse files

Files changed (1) hide show

app.py +43 -10

app.py CHANGED Viewed

@@ -8,7 +8,7 @@ import io
 import os
 import soundfile as sf
 from nltk.tokenize import sent_tokenize
-from pydub import AudioSegment
 import gradio as gr
 from chatterbox.src.chatterbox.tts import ChatterboxTTS
@@ -49,10 +49,35 @@ def set_seed(seed):
 # ===============================
 # PODCAST SAFE SETTINGS
 # ===============================
-MAX_CHARS = 220                  # stable for chatterbox
-SILENCE_MS = 350                 # natural pause
-FADE_IN = 30
-FADE_OUT = 60
 # ===============================
 # MAIN TTS FUNCTION
@@ -114,11 +139,12 @@ def generate_tts(
     # Generate audio per chunk
     # --------------------------------
     final_audio = AudioSegment.empty()
-    silence = AudioSegment.silent(duration=SILENCE_MS)
     for i, chunk in enumerate(chunks):
         print(f"Generating chunk {i+1}/{len(chunks)}")
         wav = model.generate(chunk, **kwargs)
         wav_np = wav.squeeze(0).cpu().numpy()
@@ -127,9 +153,16 @@ def generate_tts(
         buffer.seek(0)
         segment = AudioSegment.from_wav(buffer)
-        segment = segment.fade_in(FADE_IN).fade_out(FADE_OUT)
-        final_audio += segment + silence
     # --------------------------------
     # Export
@@ -146,7 +179,7 @@ def generate_tts(
 # GRADIO UI
 # ===============================
 with gr.Blocks() as demo:
-    gr.Markdown("## 🎙️ Storyteller / Podcast Chatterbox TTS")
     text = gr.Textbox(
         label="Story Text",
@@ -175,4 +208,4 @@ with gr.Blocks() as demo:
         outputs=out
     )
-demo.launch(share=True)

 import os
 import soundfile as sf
 from nltk.tokenize import sent_tokenize
+from pydub import AudioSegment, silence  # Added silence module
 import gradio as gr
 from chatterbox.src.chatterbox.tts import ChatterboxTTS
 # ===============================
 # PODCAST SAFE SETTINGS
 # ===============================
+MAX_CHARS = 220
+SILENCE_MS = 250   # Reduced slightly since we are cleaning audio
+FADE_IN = 10       # Reduced fade to avoid eating words
+FADE_OUT = 10      # Reduced fade to avoid weird half-breath sounds
+# ===============================
+# HELPER: TRIM SILENCE/BREATHS
+# ===============================
+def trim_audio_segment(audio_segment, silence_thresh=-40):
+    """
+    Trims silence or quiet breath sounds from the start and end of a chunk.
+    Adjust silence_thresh (dBFS) if it cuts off actual words.
+    """
+    # Detect non-silent chunks
+    non_silent_ranges = silence.detect_nonsilent(
+        audio_segment,
+        min_silence_len=100,
+        silence_thresh=silence_thresh
+    )
+    # If audio is completely silent or empty, return empty
+    if not non_silent_ranges:
+        return AudioSegment.empty()
+    # Get start of first sound and end of last sound
+    start_trim = non_silent_ranges[0][0]
+    end_trim = non_silent_ranges[-1][1]
+    return audio_segment[start_trim:end_trim]
 # ===============================
 # MAIN TTS FUNCTION
     # Generate audio per chunk
     # --------------------------------
     final_audio = AudioSegment.empty()
+    clean_pause = AudioSegment.silent(duration=SILENCE_MS)
     for i, chunk in enumerate(chunks):
         print(f"Generating chunk {i+1}/{len(chunks)}")
+        # 1. Generate Raw Audio
         wav = model.generate(chunk, **kwargs)
         wav_np = wav.squeeze(0).cpu().numpy()
         buffer.seek(0)
         segment = AudioSegment.from_wav(buffer)
+        # 2. TRIM ARTIFACTS (The Fix)
+        # We strip the "trailing breath" or silence from the model output
+        # BEFORE we add our own clean silence.
+        segment = trim_audio_segment(segment, silence_thresh=-45)
+        # 3. Apply light fade only after trimming
+        if len(segment) > 0:
+            segment = segment.fade_in(FADE_IN).fade_out(FADE_OUT)
+            final_audio += segment + clean_pause
     # --------------------------------
     # Export
 # GRADIO UI
 # ===============================
 with gr.Blocks() as demo:
+    gr.Markdown("## 🎙️ Storyteller / Podcast Chatterbox TTS (Cleaned)")
     text = gr.Textbox(
         label="Story Text",
         outputs=out
     )
+demo.launch(share=True)