Chatterbox-Multilingual-TTS-API

Sleeping

App Files Files Community

rahul7star commited on Jan 11

Commit

4fadd0f

verified ·

1 Parent(s): d334bcd

Update app.py

Browse files

Files changed (1) hide show

app.py +77 -3

app.py CHANGED Viewed

@@ -21,7 +21,11 @@ torch.cuda.is_available = lambda: False
 # STANDARD IMPORTS
 # ===============================
 from fastapi import FastAPI
-from contextlib import asynccontextmanager
 from src.chatterbox.mtl_tts import ChatterboxMultilingualTTS
@@ -42,14 +46,36 @@ def get_or_load_model():
     return MODEL
 # ===============================
-# FASTAPI LIFESPAN
 # ===============================
 @asynccontextmanager
 async def lifespan(app: FastAPI):
     # Warmup on startup
     get_or_load_model()
     yield
-    # (no shutdown logic needed)
 app = FastAPI(lifespan=lifespan)
@@ -63,3 +89,51 @@ def health():
         "device": "cpu",
         "cuda_available": torch.cuda.is_available()
     }

 # STANDARD IMPORTS
 # ===============================
 from fastapi import FastAPI
+from pydantic import BaseModel
+import base64
+import numpy as np
+import io
+from scipy.io.wavfile import write as write_wav
 from src.chatterbox.mtl_tts import ChatterboxMultilingualTTS
     return MODEL
 # ===============================
+# SINGING FORMATTER
+# ===============================
+def format_for_singing(lyrics: str) -> str:
+    lines = []
+    for line in lyrics.splitlines():
+        line = line.strip()
+        if not line:
+            continue
+        # Stretch vowels lightly
+        line = (
+            line.replace("a", "aa")
+                .replace("e", "ee")
+                .replace("i", "ii")
+                .replace("o", "oo")
+                .replace("u", "uu")
+        )
+        lines.append(f"{line} ♪ ...")
+    return "\n".join(lines)
+# ===============================
+# FASTAPI APP + LIFESPAN
 # ===============================
+from contextlib import asynccontextmanager
 @asynccontextmanager
 async def lifespan(app: FastAPI):
     # Warmup on startup
     get_or_load_model()
     yield
+    # No shutdown logic needed
 app = FastAPI(lifespan=lifespan)
         "device": "cpu",
         "cuda_available": torch.cuda.is_available()
     }
+# ===============================
+# TTS INPUT SCHEMA
+# ===============================
+class TTSPayload(BaseModel):
+    text: str
+    language_id: str = "en"
+    mode: str = "Speak 🗣️"  # or "Sing 🎵"
+# ===============================
+# TTS ENDPOINT
+# ===============================
+@app.post("/tts")
+def generate_tts(payload: TTSPayload):
+    model = get_or_load_model()
+    # Determine final text
+    if payload.mode == "Sing 🎵":
+        if not payload.text.strip():
+            return {"error": "Lyrics required for Sing mode."}
+        final_text = format_for_singing(payload.text)
+    else:
+        if not payload.text.strip():
+            return {"error": "Text required for Speak mode."}
+        final_text = payload.text
+    # CPU-safe inference
+    with torch.no_grad():
+        sr, wav = model.generate(
+            final_text[:300],
+            language_id=payload.language_id,
+        )
+    # Convert numpy -> WAV bytes
+    buf = io.BytesIO()
+    write_wav(buf, sr, wav.astype(np.float32))
+    buf.seek(0)
+    audio_bytes = buf.read()
+    # Return as base64
+    return {
+        "sr": sr,
+        "audio_base64": base64.b64encode(audio_bytes).decode("utf-8")
+    }
+# ===============================
+# RUN: uvicorn app:app --host 0.0.0.0 --port 7860
+# ===============================