Spaces:

MaenMN
/

tts-server

Sleeping

App Files Files Community

MaenGit commited on Feb 4

Commit

6d29231

1 Parent(s): ed05d40

update

Browse files

Files changed (1) hide show

server.py +35 -13

server.py CHANGED Viewed

@@ -1,19 +1,16 @@
 from flask import Flask, request, send_file, jsonify, after_this_request
 from TTS.api import TTS
-import tempfile
 import os
 import uuid
-import soundfile as sf
 import torch
 app = Flask(__name__)
 MODEL_MULTI = "tts_models/multilingual/multi-dataset/xtts_v2"
-tts_multi = TTS(model_name=MODEL_MULTI, gpu=False)  # Set gpu=True if CUDA available
-# Print available speakers and load mapping (no manual latents needed)
-print("Available speakers:", tts_multi.speakers[:10], "...")  # XTTS has 100+ speakers [web:page:2]
 SPEAKERS = {
     "en_male": "Baldur Sanjin",
     "en_female": "Gracie Wise",
@@ -21,6 +18,22 @@ SPEAKERS = {
     "ar_female": "Claribel Dervla"
 }
 print("EN/AR Speakers:", SPEAKERS)
 @app.route("/tts", methods=["POST"])
 def tts_api():
@@ -32,21 +45,30 @@ def tts_api():
     if not text:
         return jsonify({"error": "Text is required"}), 400
-    # Pick a speaker by name (XTTS supports direct string names for presets)
     speaker_name = SPEAKERS.get(f"{language}_{gender}", "Baldur Sanjin")
     out_path = f"/tmp/{uuid.uuid4()}.wav"
-    # Use high-level TTS API - handles latents/embeddings internally
-    # speed supported via split_sentences=True + length_scale, but for simplicity use tts_to_file
-    tts_multi.tts_to_file(
         text=text,
-        speaker=speaker_name,  # Direct string works for XTTS presets [web:page:2]
         language=language,
-        file_path=out_path,
-        speed=speed  # Note: speed param may vary by TTS version; test or use post-processing
     )
     @after_this_request
     def cleanup(response):
         try:

 from flask import Flask, request, send_file, jsonify, after_this_request
 from TTS.api import TTS
 import os
 import uuid
 import torch
+import requests  # For potential voice download if needed
 app = Flask(__name__)
 MODEL_MULTI = "tts_models/multilingual/multi-dataset/xtts_v2"
+tts_multi = TTS(model_name=MODEL_MULTI, gpu=False)
+# Confirmed XTTS v2 preset speakers (no .pth files needed for basic use)
 SPEAKERS = {
     "en_male": "Baldur Sanjin",
     "en_female": "Gracie Wise",
     "ar_female": "Claribel Dervla"
 }
 print("EN/AR Speakers:", SPEAKERS)
+print("Available speakers count:", len(tts_multi.speakers) if hasattr(tts_multi, 'speakers') else "N/A")[web:20]
+# Cache low-level components for manual latents (safer than synthesizer access)
+gpt_cond_latent_cache = {}
+speaker_embedding_cache = {}
+def load_speaker_embedding(speaker_name):
+    """Load precomputed latents for XTTS preset speakers"""
+    if speaker_name in gpt_cond_latent_cache:
+        return gpt_cond_latent_cache[speaker_name], speaker_embedding_cache[speaker_name]
+    # Use TTS internals safely
+    gpt_cond_latent, speaker_embedding = tts_multi.synthesizer.speaker_manager.speakers[speaker_name].values()
+    gpt_cond_latent_cache[speaker_name] = gpt_cond_latent
+    speaker_embedding_cache[speaker_name] = speaker_embedding
+    return gpt_cond_latent, speaker_embedding[web:36]
 @app.route("/tts", methods=["POST"])
 def tts_api():
     if not text:
         return jsonify({"error": "Text is required"}), 400
     speaker_name = SPEAKERS.get(f"{language}_{gender}", "Baldur Sanjin")
+    # Verify speaker exists
+    if speaker_name not in tts_multi.synthesizer.speaker_manager.speakers:
+        return jsonify({"error": f"Speaker '{speaker_name}' not available"}), 400
     out_path = f"/tmp/{uuid.uuid4()}.wav"
+    # Low-level TTS with cached latents (bypasses voice file lookup for presets)
+    gpt_cond_latent, speaker_embedding = load_speaker_embedding(speaker_name)
+    wav = tts_multi.synthesizer.tts(
         text=text,
+        gpt_cond_latent=gpt_cond_latent,
+        speaker_embedding=speaker_embedding,
         language=language,
+        temperature=0.7,
+        speed=speed  # XTTS supports speed via length_scale internally
     )
+    # Save WAV (sample rate 24kHz for XTTS)
+    import soundfile as sf
+    sf.write(out_path, wav, 24000, subtype="PCM_16")
     @after_this_request
     def cleanup(response):
         try: