Spaces:

saidchrf
/

kokoro-api

Sleeping

App Files Files Community

saidchrf commited on Nov 24, 2025

Commit

b538a81

verified ·

1 Parent(s): e70a374

Update main.py

Browse files

Files changed (1) hide show

main.py +28 -28

main.py CHANGED Viewed

@@ -1,22 +1,20 @@
-from fastapi import FastAPI, HTTPException
 from fastapi.responses import StreamingResponse
 from pydantic import BaseModel
 from kokoro import KPipeline
-import soundfile as sf
 import io
 import logging
-import time
-# --- Configurer les logs ---
 logging.basicConfig(level=logging.INFO)
-logger = logging.getLogger("kokoro-stream")
 app = FastAPI()
 # Initialiser le pipeline au démarrage
-logger.info("🔍 Initialisation du pipeline Kokoro...")
 pipeline = KPipeline(lang_code='a', device='cpu')
-logger.info("✅ Pipeline Kokoro initialisé")
 class TTSRequest(BaseModel):
     text: str
@@ -25,26 +23,28 @@ class TTSRequest(BaseModel):
 @app.post("/tts/stream")
 async def stream_speech(request: TTSRequest):
-    logger.info(f"🚀 Streaming demandé pour le texte: '{request.text}'")
-    start_time = time.time()
     def generate():
-        chunk_count = 0
-        for result in pipeline(request.text, voice=request.voice, speed=request.speed):
-            chunk_count += 1
-            if hasattr(result.audio, "numpy"):
-                audio_data = result.audio.numpy()
-            else:
-                audio_data = result.audio
-            logger.info(f"✅ Chunk {chunk_count} généré, taille={len(audio_data)} samples")
-            buffer = io.BytesIO()
-            sf.write(buffer, audio_data, 24000, format='WAV')
-            buffer.seek(0)
-            yield buffer.read()
-        elapsed = time.time() - start_time
-        logger.info(f"🏁 Streaming terminé, {chunk_count} chunks envoyés en {elapsed:.2f}s")
-    return StreamingResponse(generate(), media_type="audio/wav")

+from fastapi import FastAPI
 from fastapi.responses import StreamingResponse
 from pydantic import BaseModel
 from kokoro import KPipeline
+import numpy as np
 import io
 import logging
+# --- Logging ---
 logging.basicConfig(level=logging.INFO)
+logger = logging.getLogger("tts_stream")
 app = FastAPI()
 # Initialiser le pipeline au démarrage
 pipeline = KPipeline(lang_code='a', device='cpu')
+logger.info("✅ KPipeline loaded successfully.")
 class TTSRequest(BaseModel):
     text: str
 @app.post("/tts/stream")
 async def stream_speech(request: TTSRequest):
+    logger.info(f"🚀 Streaming request received: text='{request.text[:50]}...', voice='{request.voice}', speed={request.speed}")
     def generate():
+        chunk_index = 0
+        try:
+            for result in pipeline(request.text, voice=request.voice, speed=request.speed):
+                chunk_index += 1
+                # Convertir en PCM float32
+                audio_bytes = result.audio.numpy().astype(np.float32).tobytes()
+                logger.info(f"✅ Chunk {chunk_index} ready, size={len(audio_bytes)} bytes")
+                yield audio_bytes
+            logger.info(f"🏁 Streaming finished: total chunks={chunk_index}")
+        except Exception as e:
+            logger.error(f"❌ Streaming error at chunk {chunk_index}: {e}")
+            raise
+    return StreamingResponse(
+        generate(),
+        media_type="audio/pcm",
+        headers={
+            "X-Sample-Rate": "24000",
+            "X-Channels": "1",
+            "X-Bit-Depth": "32"
+        }
+    )