Spaces:

CrazyMonkey0
/

APi_English

Sleeping

CrazyMonkey0 commited on Dec 16, 2025

Commit

245cf59

1 Parent(s): 2a3f624

feat(chat): return NLP response with in-memory TTS audio

- /chat endpoint now generates audio in-memory using TTS and returns it with the text.
- Uses multipart/form-data to send both text and audio in a single response.
- Removes disk I/O for audio, improving performance.

Files changed (1) hide show

app/routes/nlp.py +21 -8

app/routes/nlp.py CHANGED Viewed

@@ -1,8 +1,9 @@
-from fastapi import APIRouter, Request
 from pydantic import BaseModel
 from llama_cpp import Llama
 from llama_cpp.llama_chat_format import Qwen25VLChatHandler
 from .tts import save_audio
 router = APIRouter()
@@ -39,6 +40,7 @@ def load_model_nlp():
     print("[INFO] NLP model loaded.")
     return llm
 @router.post("/chat")
 async def chat(request: Request, chat_request: ChatRequest):
     """Endpoint for chat with the NLP model."""
@@ -62,10 +64,21 @@ async def chat(request: Request, chat_request: ChatRequest):
         top_k=50,
     )
-    # Extract response text
-    response_text = output['choices'][0]['message']['content'].strip()
-    #audio = save_audio(request, response_text)
-    return {
-        "response": response_text,
-        "audio": 'audio'
-    }

+from fastapi import APIRouter, Request, Response
 from pydantic import BaseModel
 from llama_cpp import Llama
 from llama_cpp.llama_chat_format import Qwen25VLChatHandler
 from .tts import save_audio
+import uuid
 router = APIRouter()
     print("[INFO] NLP model loaded.")
     return llm
 @router.post("/chat")
 async def chat(request: Request, chat_request: ChatRequest):
     """Endpoint for chat with the NLP model."""
         top_k=50,
     )
+    response_text = output["choices"][0]["message"]["content"].strip()
+    audio_bytes = save_audio(request, response_text)
+    boundary = uuid.uuid4().hex
+    body = (
+        f"--{boundary}\r\n"
+        f"Content-Disposition: form-data; name=\"text\"\r\n\r\n"
+        f"{response_text}\r\n"
+        f"--{boundary}\r\n"
+        f"Content-Disposition: form-data; name=\"audio\"; filename=\"speech.wav\"\r\n"
+        f"Content-Type: audio/wav\r\n\r\n"
+    ).encode() + audio_bytes + f"\r\n--{boundary}--\r\n".encode()
+    return Response(
+        content=body,
+        media_type=f"multipart/form-data; boundary={boundary}"
+    )