Spaces:

OpceanAI
/

Yuuki-api

Running

App Files Files Community

aguitauwu commited on 21 days ago

Commit

849ec65

0 Parent(s):

Primer commit

Browse files

Files changed (3) hide show

Dockerfile +35 -0
app.py +95 -0
requirements.txt +7 -0

Dockerfile ADDED Viewed

	@@ -0,0 +1,35 @@

+FROM python:3.10-slim
+WORKDIR /app
+# Instalar dependencias del sistema
+RUN apt-get update && apt-get install -y \
+    git \
+    curl \
+    && rm -rf /var/lib/apt/lists/*
+# Copiar e instalar dependencias Python primero (cache de Docker)
+COPY requirements.txt .
+RUN pip install --no-cache-dir -r requirements.txt
+# Copiar código
+COPY app.py .
+# Pre-descargar el modelo durante el build
+# (no en runtime, así el container arranca rápido)
+RUN python -c "\
+from transformers import AutoTokenizer, AutoModelForCausalLM; \
+print('Downloading tokenizer...'); \
+AutoTokenizer.from_pretrained('OpceanAI/Yuuki-best'); \
+print('Downloading model...'); \
+AutoModelForCausalLM.from_pretrained('OpceanAI/Yuuki-best'); \
+print('Done!')"
+EXPOSE 7860
+# Healthcheck para saber cuando el servidor está listo
+HEALTHCHECK --interval=30s --timeout=10s --start-period=60s --retries=3 \
+    CMD curl -f http://localhost:7860/health || exit 1
+CMD ["uvicorn", "app:app", "--host", "0.0.0.0", "--port", "7860"]

app.py ADDED Viewed

	@@ -0,0 +1,95 @@

+from fastapi import FastAPI, HTTPException
+from fastapi.middleware.cors import CORSMiddleware
+from pydantic import BaseModel, Field
+from transformers import AutoTokenizer, AutoModelForCausalLM
+import torch
+import time
+MODEL_ID = "OpceanAI/Yuuki-best"
+app = FastAPI(
+    title="Yuuki API",
+    description="Local inference API for Yuuki models",
+    version="1.0.0"
+)
+# CORS para que Yuuki-chat pueda llamar desde el browser
+app.add_middleware(
+    CORSMiddleware,
+    allow_origins=["*"],
+    allow_methods=["*"],
+    allow_headers=["*"],
+)
+# Cargar modelo una sola vez al arrancar
+print(f"Loading tokenizer from {MODEL_ID}...")
+tokenizer = AutoTokenizer.from_pretrained(MODEL_ID)
+print(f"Loading model from {MODEL_ID}...")
+model = AutoModelForCausalLM.from_pretrained(
+    MODEL_ID,
+    torch_dtype=torch.float32
+).to("cpu")
+model.eval()  # Modo inferencia (más rápido, menos memoria)
+print("Model ready!")
+class GenerateRequest(BaseModel):
+    prompt: str = Field(..., min_length=1, max_length=4000)
+    max_new_tokens: int = Field(default=120, ge=1, le=512)
+    temperature: float = Field(default=0.7, ge=0.1, le=2.0)
+    top_p: float = Field(default=0.95, ge=0.0, le=1.0)
+class GenerateResponse(BaseModel):
+    response: str
+    tokens_generated: int
+    time_ms: int
+@app.get("/health")
+def health():
+    return {"status": "ok", "model": MODEL_ID}
+@app.post("/generate", response_model=GenerateResponse)
+def generate(req: GenerateRequest):
+    try:
+        start = time.time()
+        inputs = tokenizer(
+            req.prompt,
+            return_tensors="pt",
+            truncation=True,
+            max_length=1024
+        )
+        input_length = inputs["input_ids"].shape[1]
+        with torch.no_grad():
+            output = model.generate(
+                **inputs,
+                max_new_tokens=req.max_new_tokens,
+                temperature=req.temperature,
+                top_p=req.top_p,
+                do_sample=True,
+                pad_token_id=tokenizer.eos_token_id,
+                repetition_penalty=1.1,
+            )
+        # Solo devolver tokens NUEVOS (no el prompt)
+        new_tokens = output[0][input_length:]
+        response_text = tokenizer.decode(new_tokens, skip_special_tokens=True)
+        elapsed_ms = int((time.time() - start) * 1000)
+        return GenerateResponse(
+            response=response_text.strip(),
+            tokens_generated=len(new_tokens),
+            time_ms=elapsed_ms
+        )
+    except Exception as e:
+        raise HTTPException(status_code=500, detail=str(e))

requirements.txt ADDED Viewed

	@@ -0,0 +1,7 @@

+fastapi==0.115.0
+uvicorn==0.30.6
+transformers==4.45.0
+torch==2.4.1
+pydantic==2.9.0
+accelerate==0.34.2