Spaces:

DroolingPanda
/

tts_gallery

Build error

Michael Hu commited on Sep 13, 2025

Commit

1561c93

1 Parent(s): a9213f0

refactor: rename generate_speech to generate_chatterbox_speech and add generation kwargs

- Rename function for clarity and consistency with Chatterbox TTS
- Add exaggeration, temperature, and cfg_weight parameters to model.generate calls
- Update all references to use the new function name

Files changed (1) hide show

app.py +12 -5

app.py CHANGED Viewed

@@ -83,7 +83,7 @@ voices_by_lang = scan_piper_voices()
 # No global piper_voice, load dynamically
-def generate_speech(text, language, audio_prompt=None):
     """
     Generate speech from text using Chatterbox multilingual TTS with optional audio prompt
@@ -102,14 +102,21 @@ def generate_speech(text, language, audio_prompt=None):
     }
     language_id = language_map.get(language, "en")
     # Generate speech using Chatterbox
     if audio_prompt and os.path.exists(audio_prompt):
         # Use audio prompt for voice cloning
-        wav = model.generate(text, language_id=language_id, audio_prompt_path=audio_prompt)
     else:
         # Generate without audio prompt (default voice)
-        wav = model.generate(text, language_id=language_id)
     # Save to a temporary file
     with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as tmp_file:
@@ -280,13 +287,13 @@ with gr.Blocks(css=custom_css, title="🎙️ TTS Model Gallery", theme=gr.theme
         ],
         inputs=[text_input, language_selection, audio_prompt],
         outputs=audio_output,
-        fn=generate_speech,
         cache_examples=False
     )
     # Connect the generate button to the function
     generate_btn.click(
-        fn=generate_speech,
         inputs=[text_input, language_selection, audio_prompt],
         outputs=audio_output
     )

 # No global piper_voice, load dynamically
+def generate_chatterbox_speech(text, language, audio_prompt=None):
     """
     Generate speech from text using Chatterbox multilingual TTS with optional audio prompt
     }
     language_id = language_map.get(language, "en")
+    # https://huggingface.co/spaces/ResembleAI/Chatterbox/blob/main/app.py#L64-L67
+    generate_kwargs = {
+        "exaggeration": 0.5,
+        "temperature": 0.8,
+        "cfg_weight": 0.3,
+    }
     # Generate speech using Chatterbox
     if audio_prompt and os.path.exists(audio_prompt):
         # Use audio prompt for voice cloning
+        wav = model.generate(text, language_id=language_id, audio_prompt_path=audio_prompt, **generate_kwargs)
     else:
         # Generate without audio prompt (default voice)
+        wav = model.generate(text, language_id=language_id, **generate_kwargs)
     # Save to a temporary file
     with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as tmp_file:
         ],
         inputs=[text_input, language_selection, audio_prompt],
         outputs=audio_output,
+        fn=generate_chatterbox_speech,
         cache_examples=False
     )
     # Connect the generate button to the function
     generate_btn.click(
+        fn=generate_chatterbox_speech,
         inputs=[text_input, language_selection, audio_prompt],
         outputs=audio_output
     )