Spaces:

pykara
/

py-learn-backend

Running

App Files Files Community

Oviya commited on Nov 27, 2025

Commit

66a2b6d

1 Parent(s): 69a1d5d

update tts code

Browse files

Files changed (1) hide show

pron.py +77 -23

pron.py CHANGED Viewed

@@ -16,7 +16,9 @@ from flask import Blueprint, request, jsonify, send_file, send_from_directory
 from difflib import SequenceMatcher
 from werkzeug.utils import secure_filename
 from pydub import AudioSegment
-from TTS.api import TTS
 # -------------------------------------------------------------------------
 # OPTIONAL MODULES
@@ -56,16 +58,7 @@ DEFAULT_REFERENCE = os.path.join(REF_DIR, "voice1.wav")
 pron_bp = Blueprint("pron", __name__)
-# -------------------------------------------------------------------------
-# LOAD TTS MODEL (TEACHER VOICE)
-# -------------------------------------------------------------------------
-print("Loading XTTS...")
-try:
-    tts_model = TTS(model_name="tts_models/multilingual/multi-dataset/xtts_v2", gpu=False)
-    print("XTTS loaded ✔")
-except Exception:
-    print("XTTS failed to load.")
-    tts_model = None
 # -------------------------------------------------------------------------
 # HELPERS
@@ -209,21 +202,67 @@ def strong_word_match(word, heard, teacher_ph, student_ph):
 # TTS (Teacher Voice)
 # -------------------------------------------------------------------------
 def clone_voice(text, out_path, reference=DEFAULT_REFERENCE):
-    if tts_model is None:
-        raise RuntimeError("TTS model unavailable")
-    tts_model.tts_to_file(text=text, file_path=out_path, speaker_wav=reference, language="en")
     return out_path
 def clone_voice_bytes(text, reference=DEFAULT_REFERENCE):
-    tmp = tempfile.NamedTemporaryFile(suffix=".wav", delete=False).name
-    clone_voice(text, tmp, reference)
-    with open(tmp, "rb") as f:
-        data = f.read()
-    os.remove(tmp)
     return data
 # -------------------------------------------------------------------------
 # WAVEFORM / SPECTROGRAM HELPERS
 # -------------------------------------------------------------------------
@@ -450,19 +489,34 @@ def generate_teacher_audio_stream():
             print(app_msg)
             return error_response("reference_save_failed", app_msg, 500)
-    if tts_model is None:
-        print("TTS model unavailable when trying to generate teacher audio stream.")
-        return error_response("tts_unavailable", "TTS model unavailable", 503)
     try:
         data = clone_voice_bytes(word, reference=ref_path)
         bio = io.BytesIO(data)
         bio.seek(0)
         return send_file(bio, mimetype="audio/wav", as_attachment=False)
     except Exception as exc:
         print("generate_teacher_audio_stream error:", exc)
         return error_response("tts_generation_failed", f"TTS generation failed: {exc}", 500)
 # -------------------------------------------------------------------------
 # ROUTE: PRONUNCIATION CHECK
 # -------------------------------------------------------------------------

 from difflib import SequenceMatcher
 from werkzeug.utils import secure_filename
 from pydub import AudioSegment
+from pathlib import Path
+from ragg.tts import xtts_speak_to_file
 # -------------------------------------------------------------------------
 # OPTIONAL MODULES
 pron_bp = Blueprint("pron", __name__)
 # -------------------------------------------------------------------------
 # HELPERS
 # TTS (Teacher Voice)
 # -------------------------------------------------------------------------
 def clone_voice(text, out_path, reference=DEFAULT_REFERENCE):
+    """
+    Generate teacher audio for 'text' into out_path using the shared XTTS utility.
+    If 'reference' is a file path, use it as the speaker reference.
+    Otherwise, fall back to the default reference directory.
+    """
+    ref_path = Path(str(reference))
+    if ref_path.is_file():
+        # Use the given file as the speaker reference
+        xtts_speak_to_file(
+            text=text,
+            out_file=out_path,
+            reference_files=[ref_path],
+            language="en",
+        )
+    else:
+        # Fall back: use the directory of DEFAULT_REFERENCE as reference_dir
+        xtts_speak_to_file(
+            text=text,
+            out_file=out_path,
+            reference_dir=REF_DIR,  # static/references
+            language="en",
+        )
     return out_path
 def clone_voice_bytes(text, reference=DEFAULT_REFERENCE):
+    """
+    Generate teacher audio for 'text' and return raw bytes (used by stream endpoint).
+    """
+    tmp_path = Path(tempfile.NamedTemporaryFile(suffix=".wav", delete=False).name)
+    try:
+        ref_path = Path(str(reference))
+        if ref_path.is_file():
+            xtts_speak_to_file(
+                text=text,
+                out_file=tmp_path,
+                reference_files=[ref_path],
+                language="en",
+            )
+        else:
+            xtts_speak_to_file(
+                text=text,
+                out_file=tmp_path,
+                reference_dir=REF_DIR,
+                language="en",
+            )
+        with open(tmp_path, "rb") as f:
+            data = f.read()
+    finally:
+        try:
+            tmp_path.unlink()
+        except Exception:
+            pass
     return data
 # -------------------------------------------------------------------------
 # WAVEFORM / SPECTROGRAM HELPERS
 # -------------------------------------------------------------------------
             print(app_msg)
             return error_response("reference_save_failed", app_msg, 500)
     try:
+        # this will internally call xtts_speak_to_file via clone_voice_bytes
         data = clone_voice_bytes(word, reference=ref_path)
         bio = io.BytesIO(data)
         bio.seek(0)
         return send_file(bio, mimetype="audio/wav", as_attachment=False)
+    except FileNotFoundError as e:
+        # no reference audio available
+        msg = f"Reference audio not found: {e}"
+        print("generate_teacher_audio_stream FileNotFoundError:", e)
+        return error_response("reference_not_found", msg, 500)
+    except RuntimeError as e:
+        # XTTS model problem (e.g. cannot load on Hugging Face)
+        msg = (
+            "Teacher voice model is not available on this server. "
+            "You can still practise pronunciation, but teacher audio cannot be generated."
+        )
+        print("generate_teacher_audio_stream RuntimeError (XTTS):", e)
+        # 200 so frontend can show message without treating as fatal server error
+        return structured_feedback_error("tts_unavailable", msg, status=200)
     except Exception as exc:
         print("generate_teacher_audio_stream error:", exc)
         return error_response("tts_generation_failed", f"TTS generation failed: {exc}", 500)
 # -------------------------------------------------------------------------
 # ROUTE: PRONUNCIATION CHECK
 # -------------------------------------------------------------------------