Spaces:

chmielvu
/

Forge-TTS

Sleeping

chmielvu commited on 13 days ago

Commit

94d7fba

verified ·

1 Parent(s): fafbc88

fix: add default speaker for non-cloning synthesis

Files changed (1) hide show

app.py CHANGED Viewed

@@ -52,6 +52,7 @@ class Settings:
     # Model
     model_name: str = os.getenv("XTTS_MODEL_NAME", "tts_models/multilingual/multi-dataset/xtts_v2")
     default_language: str = os.getenv("XTTS_DEFAULT_LANGUAGE", "pl")
     # Generation params
     temperature: float = _env_float("XTTS_TEMPERATURE", 0.65)
@@ -263,21 +264,25 @@ def _synthesize(text: str, language: str, speaker_wav_bytes: Optional[bytes] = N
     with _infer_lock:
         tmp_path = None
         try:
-            speaker_wav = None
             if speaker_wav_bytes:
-                # Check speaker cache for pre-computed latents
-                # (coqui-tts handles caching internally in >=0.27, but we cache the temp file path approach)
                 with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as tmp:
                     tmp.write(speaker_wav_bytes)
                     tmp.flush()
                     tmp_path = tmp.name
-                speaker_wav = tmp_path
-            audio_np = tts.tts(
-                text=text,
-                language=language,
-                speaker_wav=speaker_wav,
-            )
         finally:
             if tmp_path:
                 try:

     # Model
     model_name: str = os.getenv("XTTS_MODEL_NAME", "tts_models/multilingual/multi-dataset/xtts_v2")
     default_language: str = os.getenv("XTTS_DEFAULT_LANGUAGE", "pl")
+    default_speaker: str = os.getenv("XTTS_DEFAULT_SPEAKER", "Claribel Dervla")  # Built-in XTTS speaker
     # Generation params
     temperature: float = _env_float("XTTS_TEMPERATURE", 0.65)
     with _infer_lock:
         tmp_path = None
         try:
             if speaker_wav_bytes:
+                # Voice cloning mode: use provided speaker WAV
                 with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as tmp:
                     tmp.write(speaker_wav_bytes)
                     tmp.flush()
                     tmp_path = tmp.name
+                audio_np = tts.tts(
+                    text=text,
+                    language=language,
+                    speaker_wav=tmp_path,
+                )
+            else:
+                # Default speaker mode: use built-in speaker
+                audio_np = tts.tts(
+                    text=text,
+                    language=language,
+                    speaker=S.default_speaker,
+                )
         finally:
             if tmp_path:
                 try: