Spaces:

Madras1
/

Anima

Sleeping

App Files Files Community

Madras1 commited on Dec 25, 2025

Commit

175993c

verified ·

1 Parent(s): 899afa1

Upload 4 files

Browse files

Files changed (1) hide show

app.py +56 -8

app.py CHANGED Viewed

@@ -2,7 +2,7 @@ from fastapi import FastAPI, HTTPException
 from fastapi.middleware.cors import CORSMiddleware
 from pydantic import BaseModel
 import edge_tts
-import asyncio
 import base64
 import os
 from groq import Groq
@@ -21,25 +21,29 @@ app.add_middleware(
 # Groq client
 client = Groq(api_key=os.environ.get("GROQ_API_KEY"))
-# Voz do Edge-TTS (português brasileiro feminino)
 VOICE = "pt-BR-FranciscaNeural"
 class ChatRequest(BaseModel):
     message: str
     history: list = []
 class ChatResponse(BaseModel):
     text: str
-    audio_base64: str
 @app.get("/health")
 async def health():
-    return {"status": "ok"}
 @app.post("/chat", response_model=ChatResponse)
 async def chat(request: ChatRequest):
     try:
-        # Monta o histórico para o LLM
         messages = [
             {"role": "system", "content": "Você é Anima, uma assistente virtual amigável e prestativa. Responda de forma natural e concisa em português brasileiro."}
         ]
@@ -49,7 +53,6 @@ async def chat(request: ChatRequest):
         messages.append({"role": "user", "content": request.message})
-        # Chama o Groq
         completion = client.chat.completions.create(
             model="llama-3.1-8b-instant",
             messages=messages,
@@ -59,7 +62,7 @@ async def chat(request: ChatRequest):
         response_text = completion.choices[0].message.content
-        # Gera áudio com Edge-TTS
         communicate = edge_tts.Communicate(response_text, VOICE)
         audio_data = b""
@@ -69,11 +72,56 @@ async def chat(request: ChatRequest):
         audio_base64 = base64.b64encode(audio_data).decode("utf-8")
-        return ChatResponse(text=response_text, audio_base64=audio_base64)
     except Exception as e:
         raise HTTPException(status_code=500, detail=str(e))
 if __name__ == "__main__":
     import uvicorn
     uvicorn.run(app, host="0.0.0.0", port=7860)

 from fastapi.middleware.cors import CORSMiddleware
 from pydantic import BaseModel
 import edge_tts
+import httpx
 import base64
 import os
 from groq import Groq
 # Groq client
 client = Groq(api_key=os.environ.get("GROQ_API_KEY"))
+# Configurações
 VOICE = "pt-BR-FranciscaNeural"
+SADTALKER_API = os.environ.get("SADTALKER_API", "https://madras1-sadtalker-api.hf.space")
 class ChatRequest(BaseModel):
     message: str
     history: list = []
+    avatar_image: str = None  # Base64 da imagem do avatar
+    use_video: bool = False   # Se True, gera vídeo com SadTalker
 class ChatResponse(BaseModel):
     text: str
+    audio_base64: str = None
+    video_base64: str = None  # Novo: vídeo do SadTalker
 @app.get("/health")
 async def health():
+    return {"status": "ok", "sadtalker_api": SADTALKER_API}
 @app.post("/chat", response_model=ChatResponse)
 async def chat(request: ChatRequest):
     try:
+        # 1. Chama o LLM (Groq)
         messages = [
             {"role": "system", "content": "Você é Anima, uma assistente virtual amigável e prestativa. Responda de forma natural e concisa em português brasileiro."}
         ]
         messages.append({"role": "user", "content": request.message})
         completion = client.chat.completions.create(
             model="llama-3.1-8b-instant",
             messages=messages,
         response_text = completion.choices[0].message.content
+        # 2. Gera áudio com Edge-TTS
         communicate = edge_tts.Communicate(response_text, VOICE)
         audio_data = b""
         audio_base64 = base64.b64encode(audio_data).decode("utf-8")
+        # 3. Se pediu vídeo e tem imagem, chama SadTalker
+        video_base64 = None
+        if request.use_video and request.avatar_image:
+            try:
+                video_base64 = await generate_video(request.avatar_image, audio_base64)
+            except Exception as e:
+                print(f"SadTalker error: {e}")
+                # Continua sem vídeo se falhar
+        return ChatResponse(
+            text=response_text,
+            audio_base64=audio_base64,
+            video_base64=video_base64
+        )
     except Exception as e:
         raise HTTPException(status_code=500, detail=str(e))
+async def generate_video(image_base64: str, audio_base64: str) -> str:
+    """Chama SadTalker API para gerar vídeo"""
+    async with httpx.AsyncClient(timeout=180.0) as client:
+        # Gradio API endpoint
+        response = await client.post(
+            f"{SADTALKER_API}/api/predict",
+            json={
+                "data": [
+                    f"data:image/png;base64,{image_base64}",
+                    f"data:audio/mp3;base64,{audio_base64}"
+                ]
+            }
+        )
+        if response.status_code != 200:
+            raise Exception(f"SadTalker API error: {response.status_code}")
+        result = response.json()
+        # O resultado pode ser um path ou base64
+        video_data = result.get("data", [None])[0]
+        if video_data and video_data.startswith("data:"):
+            # É base64
+            return video_data.split(",")[1]
+        elif video_data:
+            # É um path, precisa baixar
+            video_response = await client.get(f"{SADTALKER_API}/file={video_data}")
+            return base64.b64encode(video_response.content).decode("utf-8")
+        raise Exception("No video in response")
 if __name__ == "__main__":
     import uvicorn
     uvicorn.run(app, host="0.0.0.0", port=7860)