mg_tts_5

Running

App Files Files Community

h-rand commited on 5 days ago

Commit

2d0b034

verified ·

1 Parent(s): d85d9a7

Update app.py

Browse files

Files changed (1) hide show

app.py +22 -6

app.py CHANGED Viewed

@@ -1,4 +1,4 @@
-from fastapi import FastAPI, Response, HTTPException
 from fastapi.middleware.cors import CORSMiddleware
 from transformers import VitsModel, AutoTokenizer
 import torch
@@ -44,7 +44,13 @@ def load_model():
 load_model()
 @app.post("/tts")
-async def generate_speech(data: dict):
     # Rechargement si nécessaire (Cold start)
     if model is None:
         if not load_model():
@@ -64,14 +70,24 @@ async def generate_speech(data: dict):
         with torch.no_grad():
             output = model(**inputs).waveform
-        # 3. Conversion Audio
-        # Le modèle sort du float32 (-1.0 à 1.0)
         audio_array = output.float().numpy().squeeze()
         sample_rate = model.config.sampling_rate
         # 4. Écriture WAV en mémoire
         buffer = io.BytesIO()
-        scipy.io.wavfile.write(buffer, rate=sample_rate, data=audio_array)
         buffer.seek(0)
         return Response(content=buffer.read(), media_type="audio/wav")
@@ -82,4 +98,4 @@ async def generate_speech(data: dict):
 @app.get("/")
 def home():
     status = "Ready ✅" if model else "Error ❌"
-    return {"status": status, "lang": "mlg (Malagasy)"}

+from fastapi import FastAPI, Response, HTTPException, Request
 from fastapi.middleware.cors import CORSMiddleware
 from transformers import VitsModel, AutoTokenizer
 import torch
 load_model()
 @app.post("/tts")
+async def generate_speech(request: Request, data: dict):
+    # 🛡️ SÉCURITÉ (Décommente ces 3 lignes si tu veux bloquer les accès hors Cloudflare)
+    # client_token = request.headers.get("x-dynamic-token")
+    # if not client_token:
+    #     raise HTTPException(status_code=403, detail="Accès refusé")
     # Rechargement si nécessaire (Cold start)
     if model is None:
         if not load_model():
         with torch.no_grad():
             output = model(**inputs).waveform
+        # 3. Conversion Audio & COMPRESSION
+        # Le modèle sort du float32 (très lourd)
         audio_array = output.float().numpy().squeeze()
         sample_rate = model.config.sampling_rate
+        # --- 🚀 OPTIMISATION : Division de la taille par 2 ---
+        # Normalisation (Met la voix au volume maximum sans grésiller)
+        max_amp = np.max(np.abs(audio_array))
+        if max_amp > 0:
+            audio_array = audio_array / max_amp
+        # Conversion de Float32 (32-bits) vers Int16 (16-bits)
+        audio_int16 = (audio_array * 32767.0).astype(np.int16)
+        # -----------------------------------------------------
         # 4. Écriture WAV en mémoire
         buffer = io.BytesIO()
+        scipy.io.wavfile.write(buffer, rate=sample_rate, data=audio_int16)
         buffer.seek(0)
         return Response(content=buffer.read(), media_type="audio/wav")
 @app.get("/")
 def home():
     status = "Ready ✅" if model else "Error ❌"
+    return {"status": status, "lang": "mlg (Malagasy)", "optimized": "Int16 Compression Active"}