Spaces:

MaenMN
/

tts-server

Sleeping

App Files Files Community

MaenGit commited on Feb 4

Commit

ee0cc85

1 Parent(s): 8917a7a

update

Browse files

Files changed (1) hide show

server.py +36 -41

server.py CHANGED Viewed

@@ -2,15 +2,14 @@ from flask import Flask, request, send_file, jsonify, after_this_request
 from TTS.api import TTS
 import os
 import uuid
 import torch
-import soundfile as sf  # Add this import
 app = Flask(__name__)
 MODEL_MULTI = "tts_models/multilingual/multi-dataset/xtts_v2"
 tts_multi = TTS(model_name=MODEL_MULTI, gpu=False)
-# Confirmed XTTS v2 preset speakers (58 total, including yours)
 SPEAKERS = {
     "en_male": "Baldur Sanjin",
     "en_female": "Gracie Wise",
@@ -18,25 +17,9 @@ SPEAKERS = {
     "ar_female": "Claribel Dervla"
 }
 print("EN/AR Speakers:", SPEAKERS)
-# Fixed print: No citations in code
-print("Available speakers count:", len(tts_multi.speakers) if hasattr(tts_multi, 'speakers') else "N/A")
-# Cache low-level components
-gpt_cond_latent_cache = {}
-speaker_embedding_cache = {}
-def load_speaker_embedding(speaker_name):
-    """Load precomputed latents for XTTS preset speakers"""
-    if speaker_name in gpt_cond_latent_cache:
-        return gpt_cond_latent_cache[speaker_name], speaker_embedding_cache[speaker_name]
-    # Safe access: XTTS speaker_manager has .speakers dict with (gpt_cond_latent, embedding) tuples
-    speaker_data = tts_multi.synthesizer.speaker_manager.speakers[speaker_name]
-    gpt_cond_latent, speaker_embedding = speaker_data.values() if isinstance(speaker_data, dict) else speaker_data
-    gpt_cond_latent_cache[speaker_name] = gpt_cond_latent
-    speaker_embedding_cache[speaker_name] = speaker_embedding
-    return gpt_cond_latent, speaker_embedding[web:36][web:42]
 @app.route("/tts", methods=["POST"])
 def tts_api():
@@ -50,35 +33,47 @@ def tts_api():
     speaker_name = SPEAKERS.get(f"{language}_{gender}", "Baldur Sanjin")
-    # Verify speaker exists (prevents FileNotFoundError)
-    if speaker_name not in tts_multi.synthesizer.speaker_manager.speakers:
-        return jsonify({"error": f"Speaker '{speaker_name}' not available. Available: {list(tts_multi.synthesizer.speaker_manager.speakers.keys())[:5]}..."}), 400[web:42]
     out_path = f"/tmp/{uuid.uuid4()}.wav"
-    # Low-level TTS with cached latents
-    gpt_cond_latent, speaker_embedding = load_speaker_embedding(speaker_name)
-    wav = tts_multi.synthesizer.tts(
-        text=text,
-        gpt_cond_latent=gpt_cond_latent,
-        speaker_embedding=speaker_embedding,
-        language=language,
-        temperature=0.7,
-        speed=speed
-    )
-    sf.write(out_path, wav, 24000, subtype="PCM_16")
     @after_this_request
     def cleanup(response):
         try:
             os.remove(out_path)
-        except Exception as e:
-            print("Cleanup error:", e)
         return response
     return send_file(out_path, mimetype="audio/wav")
 if __name__ == "__main__":
-    app.run(host="0.0.0.0", port=7860)

 from TTS.api import TTS
 import os
 import uuid
+import soundfile as sf
 import torch
 app = Flask(__name__)
 MODEL_MULTI = "tts_models/multilingual/multi-dataset/xtts_v2"
 tts_multi = TTS(model_name=MODEL_MULTI, gpu=False)
 SPEAKERS = {
     "en_male": "Baldur Sanjin",
     "en_female": "Gracie Wise",
     "ar_female": "Claribel Dervla"
 }
 print("EN/AR Speakers:", SPEAKERS)
+# Use high-level API only - no low-level synthesizer access
+# tts.speakers lists all 58 presets
 @app.route("/tts", methods=["POST"])
 def tts_api():
     speaker_name = SPEAKERS.get(f"{language}_{gender}", "Baldur Sanjin")
     out_path = f"/tmp/{uuid.uuid4()}.wav"
+    try:
+        # High-level tts_to_file with preset speaker - XTTS handles internals safely
+        tts_multi.tts_to_file(
+            text=text,
+            speaker=speaker_name,  # Works for presets without files in recent TTS[web:26]
+            language=language,
+            file_path=out_path,
+            speed=speed,
+            split_sentences=True  # Better for speed control
+        )
+    except Exception as e:
+        # Fallback: Provide dummy WAV for cloning mode (forces preset lookup)
+        dummy_wav = "/tmp/dummy_silent.wav"
+        if not os.path.exists(dummy_wav):
+            sf.write(dummy_wav, torch.zeros(24000 * 3), 24000)  # 3s silence
+        tts_multi.tts_to_file(
+            text=text,
+            speaker_wav=dummy_wav,  # Triggers embedding computation from preset name
+            language=language,
+            file_path=out_path,
+            speed=speed
+        )
+        os.remove(dummy_wav)
     @after_this_request
     def cleanup(response):
         try:
             os.remove(out_path)
+        except:
+            pass
         return response
     return send_file(out_path, mimetype="audio/wav")
+@app.route("/speakers", methods=["GET"])  # Bonus: List speakers
+def list_speakers():
+    speakers = getattr(tts_multi, 'speakers', [])
+    return jsonify({"speakers": speakers[:20], "total": len(speakers)})
 if __name__ == "__main__":
+    app.run(host="0.0.0.0", port=7860, debug=False)