Spaces:

baenacoco
/

talking-head-tts-test

Paused

App Files Files Community

baenacoco commited on Mar 8

Commit

781f017

verified ·

1 Parent(s): cf2df63

Upload app.py with huggingface_hub

Browse files

Files changed (1) hide show

app.py +18 -3

app.py CHANGED Viewed

@@ -39,9 +39,10 @@ os.environ["TRANSFORMERS_CACHE"] = str(HF_CACHE_DIR)
 F5_SPANISH_MODEL_ID = "jpgallegoar/F5-Spanish"
 DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
-APP_VERSION = "1.0.1"
 _f5_model = None
 def _clear_cache():
@@ -89,6 +90,18 @@ def _get_reference_audio():
     raise FileNotFoundError("No hay reference.wav. Descarga el modelo primero.")
 # ── Gradio handlers ──
 def download_model(project_name, progress=gr.Progress()):
@@ -135,6 +148,7 @@ def generate_speech(project_name, text, speed, progress=gr.Progress()):
         _load_tts()
         ref_audio = _get_reference_audio()
         output_path = str(TEMP_DIR / "tts_output.wav")
         progress(0.3, desc="Generando voz...")
@@ -142,7 +156,7 @@ def generate_speech(project_name, text, speed, progress=gr.Progress()):
         audio, sr, _spec = _f5_model.infer(
             ref_file=ref_audio,
-            ref_text="",
             gen_text=text,
             speed=speed,
         )
@@ -174,9 +188,10 @@ def generate_with_custom_ref(project_name, text, ref_audio_path, speed, progress
         progress(0.3, desc="Generando voz...")
         logger.info(f"Generating with custom ref: '{text[:80]}...'")
         audio, sr, _spec = _f5_model.infer(
             ref_file=ref_audio_path,
-            ref_text="",
             gen_text=text,
             speed=speed,
         )

 F5_SPANISH_MODEL_ID = "jpgallegoar/F5-Spanish"
 DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
+APP_VERSION = "1.1.0"
 _f5_model = None
+_ref_text_cache = {}  # {audio_path: transcribed_text}
 def _clear_cache():
     raise FileNotFoundError("No hay reference.wav. Descarga el modelo primero.")
+def _get_ref_text(audio_path):
+    """Pre-transcribe reference audio in Spanish to avoid Whisper auto-detecting wrong language."""
+    if audio_path in _ref_text_cache:
+        return _ref_text_cache[audio_path]
+    _load_tts()
+    logger.info(f"Transcribing reference audio as Spanish: {audio_path}")
+    ref_text = _f5_model.transcribe(audio_path, language="spanish")
+    logger.info(f"Reference transcription: {ref_text}")
+    _ref_text_cache[audio_path] = ref_text
+    return ref_text
 # ── Gradio handlers ──
 def download_model(project_name, progress=gr.Progress()):
         _load_tts()
         ref_audio = _get_reference_audio()
+        ref_text = _get_ref_text(ref_audio)
         output_path = str(TEMP_DIR / "tts_output.wav")
         progress(0.3, desc="Generando voz...")
         audio, sr, _spec = _f5_model.infer(
             ref_file=ref_audio,
+            ref_text=ref_text,
             gen_text=text,
             speed=speed,
         )
         progress(0.3, desc="Generando voz...")
         logger.info(f"Generating with custom ref: '{text[:80]}...'")
+        ref_text = _get_ref_text(ref_audio_path)
         audio, sr, _spec = _f5_model.infer(
             ref_file=ref_audio_path,
+            ref_text=ref_text,
             gen_text=text,
             speed=speed,
         )