Spaces:

Madras1
/

APIDOST

Sleeping

App Files Files Community

Madras1 commited on Dec 2, 2025

Commit

5a91f27

verified ·

1 Parent(s): b1c1e2c

Create app.py

Browse files

Files changed (1) hide show

app.py +110 -0

app.py ADDED Viewed

	@@ -0,0 +1,110 @@

+import os
+import torch
+from fastapi import FastAPI, HTTPException
+from pydantic import BaseModel
+from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer
+from threading import Thread
+import spaces
+# --- Configurações ---
+# Vamos começar com um modelo poderoso que cabe na H200 tranquilo
+MODEL_ID = "Qwen/Qwen2.5-Coder-32B-Instruct"
+# Ou se quiser algo mais leve: "meta-llama/Llama-3.1-8B-Instruct"
+app = FastAPI(title="APIDOST - Gabriel's Router")
+print(f"🔄 Carregando modelo: {MODEL_ID}...")
+tokenizer = AutoTokenizer.from_pretrained(MODEL_ID)
+model = AutoModelForCausalLM.from_pretrained(
+    MODEL_ID,
+    torch_dtype=torch.bfloat16,
+    device_map="auto"
+)
+print("✅ Modelo carregado e pronto para a guerra!")
+# --- Estruturas de Dados (Schema OpenAI-like) ---
+class Message(BaseModel):
+    role: str
+    content: str
+class ChatCompletionRequest(BaseModel):
+    model: str = "default-model"
+    messages: list[Message]
+    max_tokens: int = 1024
+    temperature: float = 0.7
+    stream: bool = False
+# --- A Mágica do ZeroGPU ---
+# O decorator @spaces.GPU garante que essa função rode na H200
+@spaces.GPU
+def generate_response(messages, max_tokens, temperature):
+    # Formata o prompt (chat template)
+    text_prompt = tokenizer.apply_chat_template(
+        messages,
+        tokenize=False,
+        add_generation_prompt=True
+    )
+    inputs = tokenizer(text_prompt, return_tensors="pt").to(model.device)
+    # Configuração de geração
+    generate_kwargs = dict(
+        inputs,
+        max_new_tokens=max_tokens,
+        temperature=temperature,
+        do_sample=True,
+        top_p=0.9,
+    )
+    # Gera a resposta
+    output = model.generate(**generate_kwargs)
+    response_text = tokenizer.decode(output[0][inputs.input_ids.shape[1]:], skip_special_tokens=True)
+    return response_text
+# --- Endpoints ---
+@app.get("/")
+def read_root():
+    return {"status": "APIDOST is online", "hardware": "Nvidia H200 (ZeroGPU)"}
+@app.post("/v1/chat/completions")
+async def chat_completions(request: ChatCompletionRequest):
+    """
+    Endpoint compatível (simplificado) com OpenAI.
+    """
+    try:
+        # Converte as mensagens do Pydantic para lista de dicts
+        msgs = [{"role": m.role, "content": m.content} for m in request.messages]
+        # Chama a GPU
+        response_content = generate_response(msgs, request.max_tokens, request.temperature)
+        # Formata a resposta estilo OpenAI
+        return {
+            "id": "chatcmpl-apidost",
+            "object": "chat.completion",
+            "created": 1234567890,
+            "model": request.model,
+            "choices": [{
+                "index": 0,
+                "message": {
+                    "role": "assistant",
+                    "content": response_content
+                },
+                "finish_reason": "stop"
+            }],
+            "usage": {
+                "prompt_tokens": 0, # Implementar contagem real se quiser
+                "completion_tokens": 0,
+                "total_tokens": 0
+            }
+        }
+    except Exception as e:
+        raise HTTPException(status_code=500, detail=str(e))
+# Para rodar localmente ou no Spaces via Docker
+if __name__ == "__main__":
+    import uvicorn
+    uvicorn.run(app, host="0.0.0.0", port=7860)