Spaces:

abd8433
/

urdu-tts-api

Sleeping

App Files Files Community

abd8433 commited on May 25

Commit

f114682

verified ·

1 Parent(s): 65c8d80

Update app.py

Browse files

Files changed (1) hide show

app.py +19 -11

app.py CHANGED Viewed

@@ -1,13 +1,17 @@
 from fastapi import FastAPI, HTTPException
 from fastapi.middleware.cors import CORSMiddleware
 from pydantic import BaseModel
-from transformers import MarianMTModel, MarianTokenizer, VitsModel, AutoTokenizer
 from parler_tts import ParlerTTSForConditionalGeneration
 import torch
 import scipy.io.wavfile
 import base64
 import io
 import logging
 logging.basicConfig(level=logging.INFO)
 logger = logging.getLogger(__name__)
@@ -23,24 +27,26 @@ app.add_middleware(
 # ─── Load Models ──────────────────────────────────────────────────────────────
-# English TTS (MMS - fast and works well)
 logger.info("Loading English TTS...")
 eng_tts = VitsModel.from_pretrained("facebook/mms-tts-eng")
 eng_tok = AutoTokenizer.from_pretrained("facebook/mms-tts-eng")
 eng_tts.eval()
-# Translation (Helsinki - much more accurate for Urdu)
-logger.info("Loading Translation model...")
 trans_model = MarianMTModel.from_pretrained("Helsinki-NLP/opus-mt-en-ur")
 trans_tok = MarianTokenizer.from_pretrained("Helsinki-NLP/opus-mt-en-ur")
 trans_model.eval()
-# Urdu TTS (Indic Parler - smoother and more natural)
 logger.info("Loading Urdu TTS...")
 urdu_tts = ParlerTTSForConditionalGeneration.from_pretrained("ai4bharat/indic-parler-tts")
 urdu_tok = AutoTokenizer.from_pretrained("ai4bharat/indic-parler-tts")
 urdu_tts.eval()
-logger.info("All models loaded ✅")
 # ─── Helpers ──────────────────────────────────────────────────────────────────
@@ -64,8 +70,8 @@ def english_to_audio_b64(text: str) -> str:
 def urdu_to_audio_b64(urdu_text: str) -> str:
-    # Description controls the voice style — smooth, clear, neutral
-    description = "A clear and natural Urdu male voice speaks in a calm, neutral tone."
     desc_inputs = urdu_tok(description, return_tensors="pt")
     text_inputs = urdu_tok(urdu_text, return_tensors="pt")
     with torch.no_grad():
@@ -83,7 +89,7 @@ def urdu_to_audio_b64(urdu_text: str) -> str:
 # ─── Request ──────────────────────────────────────────────────────────────────
 class TTSRequest(BaseModel):
-    text: str  # Always English
 # ─── Endpoints ────────────────────────────────────────────────────────────────
@@ -99,19 +105,20 @@ def health():
 @app.post("/tts/english")
 def tts_english(request: TTSRequest):
-    """English text → English speech"""
     if not request.text.strip():
         raise HTTPException(status_code=400, detail="Text cannot be empty")
     try:
         audio = english_to_audio_b64(request.text)
         return {"audio": audio, "language": "english", "text": request.text}
     except Exception as e:
         raise HTTPException(status_code=500, detail=str(e))
 @app.post("/tts/english-to-urdu")
 def tts_english_to_urdu(request: TTSRequest):
-    """English text → translate → smooth Urdu speech"""
     if not request.text.strip():
         raise HTTPException(status_code=400, detail="Text cannot be empty")
     try:
@@ -125,4 +132,5 @@ def tts_english_to_urdu(request: TTSRequest):
             "urdu_text": urdu_text,
         }
     except Exception as e:
         raise HTTPException(status_code=500, detail=str(e))

 from fastapi import FastAPI, HTTPException
 from fastapi.middleware.cors import CORSMiddleware
 from pydantic import BaseModel
+from transformers import MarianMTModel, MarianTokenizer, AutoTokenizer, VitsModel
 from parler_tts import ParlerTTSForConditionalGeneration
 import torch
 import scipy.io.wavfile
 import base64
 import io
 import logging
+import os
+from huggingface_hub import login
+login(token=os.environ.get("HF_TOKEN"))
 logging.basicConfig(level=logging.INFO)
 logger = logging.getLogger(__name__)
 # ─── Load Models ──────────────────────────────────────────────────────────────
+# English TTS — MMS (fast, no gating)
 logger.info("Loading English TTS...")
 eng_tts = VitsModel.from_pretrained("facebook/mms-tts-eng")
 eng_tok = AutoTokenizer.from_pretrained("facebook/mms-tts-eng")
 eng_tts.eval()
+logger.info("English TTS loaded ✅")
+# Translation — Helsinki (accurate, dedicated EN→UR)
+logger.info("Loading translation model...")
 trans_model = MarianMTModel.from_pretrained("Helsinki-NLP/opus-mt-en-ur")
 trans_tok = MarianTokenizer.from_pretrained("Helsinki-NLP/opus-mt-en-ur")
 trans_model.eval()
+logger.info("Translation model loaded ✅")
+# Urdu TTS — parler-tts-mini (public, smooth, natural voice)
 logger.info("Loading Urdu TTS...")
 urdu_tts = ParlerTTSForConditionalGeneration.from_pretrained("ai4bharat/indic-parler-tts")
 urdu_tok = AutoTokenizer.from_pretrained("ai4bharat/indic-parler-tts")
 urdu_tts.eval()
+logger.info("Urdu TTS loaded ✅")
 # ─── Helpers ──────────────────────────────────────────────────────────────────
 def urdu_to_audio_b64(urdu_text: str) -> str:
+    # Voice description — controls how the speech sounds
+    description = "A male speaker delivers clear, natural speech in a calm and neutral tone with no background noise."
     desc_inputs = urdu_tok(description, return_tensors="pt")
     text_inputs = urdu_tok(urdu_text, return_tensors="pt")
     with torch.no_grad():
 # ─── Request ──────────────────────────────────────────────────────────────────
 class TTSRequest(BaseModel):
+    text: str  # Always English input
 # ─── Endpoints ────────────────────────────────────────────────────────────────
 @app.post("/tts/english")
 def tts_english(request: TTSRequest):
+    """English text → speaks in English"""
     if not request.text.strip():
         raise HTTPException(status_code=400, detail="Text cannot be empty")
     try:
         audio = english_to_audio_b64(request.text)
         return {"audio": audio, "language": "english", "text": request.text}
     except Exception as e:
+        logger.error(f"English TTS error: {e}")
         raise HTTPException(status_code=500, detail=str(e))
 @app.post("/tts/english-to-urdu")
 def tts_english_to_urdu(request: TTSRequest):
+    """English text → translate to Urdu → speaks in Urdu"""
     if not request.text.strip():
         raise HTTPException(status_code=400, detail="Text cannot be empty")
     try:
             "urdu_text": urdu_text,
         }
     except Exception as e:
+        logger.error(f"English→Urdu TTS error: {e}")
         raise HTTPException(status_code=500, detail=str(e))