Spaces:

Abdalkaderdev
/

ORA

Sleeping

App Files Files Community

Abdalkaderdev commited on 8 days ago

Commit

2ce54a8

1 Parent(s): 56fcb88

Integrate Supertonic 2 for professional TTS

Browse files

Files changed (1) hide show

app/ora_server.py +57 -1

app/ora_server.py CHANGED Viewed

@@ -4,10 +4,13 @@ from peft import PeftModel
 from fastapi import FastAPI, HTTPException
 from fastapi.middleware.cors import CORSMiddleware
 from fastapi.staticfiles import StaticFiles
-from fastapi.responses import FileResponse
 from pydantic import BaseModel
 import uvicorn
 import os
 # Settings
 BASE_MODEL = "unsloth/Llama-3.2-1B-Instruct"
@@ -107,6 +110,59 @@ async def chat_endpoint(req: ChatRequest):
     return {"response": response_text}
 # Mount Static Frontend (Must be last)
 # Expects 'frontend/out' to exist (built via 'next build')
 if os.path.exists("frontend/out"):

 from fastapi import FastAPI, HTTPException
 from fastapi.middleware.cors import CORSMiddleware
 from fastapi.staticfiles import StaticFiles
+from fastapi.responses import FileResponse, Response
 from pydantic import BaseModel
 import uvicorn
 import os
+import io
+import numpy as np
+from scipy.io import wavfile
 # Settings
 BASE_MODEL = "unsloth/Llama-3.2-1B-Instruct"
     return {"response": response_text}
+# TTS endpoint using Supertonic 2
+tts_model = None
+tts_processor = None
+@app.on_event("startup")
+async def load_tts():
+    global tts_model, tts_processor
+    try:
+        print("Loading Supertonic 2 TTS...")
+        from transformers import AutoProcessor, AutoModel
+        tts_processor = AutoProcessor.from_pretrained("Supertone/supertonic-2")
+        tts_model = AutoModel.from_pretrained("Supertone/supertonic-2")
+        if device == "cuda":
+            tts_model = tts_model.to("cuda")
+        print("TTS Model loaded successfully!")
+    except Exception as e:
+        print(f"Could not load TTS model: {e}")
+        print("Voice will not be available.")
+class TTSRequest(BaseModel):
+    text: str
+@app.post("/api/tts")
+async def text_to_speech(req: TTSRequest):
+    global tts_model, tts_processor
+    if tts_model is None or tts_processor is None:
+        raise HTTPException(status_code=503, detail="TTS model not loaded")
+    try:
+        inputs = tts_processor(text=req.text, return_tensors="pt")
+        if device == "cuda":
+            inputs = {k: v.to("cuda") for k, v in inputs.items()}
+        with torch.no_grad():
+            audio = tts_model.generate(**inputs)
+        # Convert to numpy and create WAV
+        audio_np = audio.cpu().numpy().squeeze()
+        # Normalize audio
+        audio_np = np.int16(audio_np / np.max(np.abs(audio_np)) * 32767)
+        # Create WAV file in memory
+        wav_io = io.BytesIO()
+        wavfile.write(wav_io, 22050, audio_np)
+        wav_io.seek(0)
+        return Response(content=wav_io.read(), media_type="audio/wav")
+    except Exception as e:
+        raise HTTPException(status_code=500, detail=f"TTS generation failed: {str(e)}")
 # Mount Static Frontend (Must be last)
 # Expects 'frontend/out' to exist (built via 'next build')
 if os.path.exists("frontend/out"):