Spaces:

natalieparker
/

LumaAI-API

Sleeping

natalieparker commited on Dec 1, 2025

Commit

667a0a8

verified ·

1 Parent(s): 6a3b1d6

Create app.py

Files changed (1) hide show

app.py ADDED Viewed

+from fastapi import FastAPI
+from pydantic import BaseModel
+from transformers import AutoTokenizer, AutoModelForCausalLM
+import torch
+MODEL_NAME = "natalieparker/LumaAI-160M-v3"
+print("🔥 Loading tokenizer...")
+tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
+print("🔥 Loading model...")
+model = AutoModelForCausalLM.from_pretrained(
+    MODEL_NAME,
+    torch_dtype=torch.float16 if torch.cuda.is_available() else torch.float32,
+    low_cpu_mem_usage=True
+)
+device = "cuda" if torch.cuda.is_available() else "cpu"
+model.to(device)
+app = FastAPI()
+class GenerateRequest(BaseModel):
+    prompt: str
+    max_new_tokens: int = 150
+    temperature: float = 0.9
+    top_p: float = 0.9
+@app.post("/api/generate")
+def generate(req: GenerateRequest):
+    inputs = tokenizer(req.prompt, return_tensors="pt").to(device)
+    output = model.generate(
+        **inputs,
+        max_new_tokens=req.max_new_tokens,
+        temperature=req.temperature,
+        top_p=req.top_p,
+        do_sample=True,
+        repetition_penalty=1.05,
+    )
+    text = tokenizer.decode(output[0], skip_special_tokens=True)
+    return {"response": text}