Spaces:

thedeba
/

Friday

Sleeping

App Files Files Community

thedeba commited on Aug 22, 2025

Commit

11e76a2

verified ·

1 Parent(s): 2c19a01

Upload 3 files

Browse files

Files changed (3) hide show

Dockerfile +17 -0
app.py +75 -0
requirements.txt +6 -0

Dockerfile ADDED Viewed

	@@ -0,0 +1,17 @@

+FROM python:3.11-slim
+WORKDIR /app
+# Copy requirements and install
+COPY requirements.txt .
+RUN pip install --upgrade pip
+RUN pip install -r requirements.txt
+# Copy app
+COPY app.py .
+# Expose the port FastAPI runs on
+EXPOSE 7860
+# Start FastAPI with uvicorn
+CMD ["uvicorn", "app:app", "--host", "0.0.0.0", "--port", "7860"]

app.py ADDED Viewed

	@@ -0,0 +1,75 @@

+from fastapi import FastAPI
+from pydantic import BaseModel
+from transformers import AutoModelForCausalLM, AutoTokenizer
+import torch
+from fastapi.middleware.cors import CORSMiddleware
+from peft import PeftModel
+# -------------------------------
+# Load model & tokenizer from HF Hub
+# -------------------------------
+BASE_MODEL = "thedeba/debai-8b"
+LORA_ADAPTER = "thedeba/Friday-lora"
+tokenizer = AutoTokenizer.from_pretrained(BASE_MODEL)
+model = AutoModelForCausalLM.from_pretrained(
+    BASE_MODEL,
+    device_map="auto",
+    torch_dtype="auto",
+)
+model = PeftModel.from_pretrained(model, LORA_ADAPTER)
+model.eval()
+device = "cpu"  # Spaces free tier uses CPU; you can switch to "cuda" if GPU granted
+#model.to(device)
+# -------------------------------
+# FastAPI setup
+# -------------------------------
+app = FastAPI()
+app.add_middleware(
+    CORSMiddleware,
+    allow_origins=["*"],
+    allow_credentials=True,
+    allow_methods=["*"],
+    allow_headers=["*"],
+)
+class Query(BaseModel):
+    text: str
+@app.post("/generate")
+def generate(query: Query):
+    messages = [{"role": "user", "content": query.text}]
+    # Convert to model input using chat template
+    inputs = tokenizer.apply_chat_template(
+        messages,
+        tokenize=True,
+        add_generation_prompt=True,
+        return_tensors="pt",
+    ).to(device)
+    # Generate
+    outputs = model.generate(
+        input_ids=inputs,
+        max_new_tokens=2048,
+        use_cache=True,
+        temperature=0.5,
+        min_p=0.1,
+    )
+    # Decode & extract assistant response
+    output_string = tokenizer.batch_decode(outputs, skip_special_tokens=True)[0]
+    response = output_string.split("assistant")[-1].strip()
+    return {"response": response}
+@app.get("/")
+def root():
+    return {"debai": "API is running!"}
+if __name__ == "__main__":
+    import uvicorn
+    uvicorn.run(app, host="0.0.0.0", port=7860)

requirements.txt ADDED Viewed

	@@ -0,0 +1,6 @@

+torch>=2.1.0
+transformers>=4.34.0
+bitsandbytes
+peft
+fastapi
+uvicorn[standard]