Spaces:

Batrdj
/

Coder_Model

Sleeping

Batrdj commited on Jan 13

Commit

5a1a2fd

verified ·

1 Parent(s): fa34f68

Upload 3 files

Files changed (3) hide show

Dockerfile ADDED Viewed

+FROM python:3.10-slim
+WORKDIR /app
+RUN apt-get update && apt-get install -y \
+    git \
+    gcc \
+    g++ \
+    && rm -rf /var/lib/apt/lists/*
+COPY requirements.txt .
+RUN pip install --no-cache-dir -r requirements.txt
+COPY app.py .
+EXPOSE 7860
+CMD ["uvicorn", "app:app", "--host", "0.0.0.0", "--port", "7860"]

app.py ADDED Viewed

+from fastapi import FastAPI
+from pydantic import BaseModel
+from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig
+import torch
+app = FastAPI()
+MODEL_NAME = "Qwen/Qwen2.5-Coder-7B"
+# ---- Quantization config (CPU safe) ----
+bnb_config = BitsAndBytesConfig(
+    load_in_4bit=True,
+    bnb_4bit_compute_dtype=torch.float32,
+    bnb_4bit_use_double_quant=True,
+    bnb_4bit_quant_type="nf4"
+)
+tokenizer = AutoTokenizer.from_pretrained(
+    MODEL_NAME,
+    trust_remote_code=True
+)
+model = AutoModelForCausalLM.from_pretrained(
+    MODEL_NAME,
+    device_map="cpu",
+    quantization_config=bnb_config,
+    trust_remote_code=True
+)
+class Prompt(BaseModel):
+    message: str
+@app.post("/chat")
+def chat(prompt: Prompt):
+    inputs = tokenizer(prompt.message, return_tensors="pt")
+    outputs = model.generate(
+        **inputs,
+        max_new_tokens=200,
+        temperature=0.7,
+        do_sample=True
+    )
+    response = tokenizer.decode(outputs[0], skip_special_tokens=True)
+    return {"response": response}

requirements.txt ADDED Viewed

+fastapi
+uvicorn
+torch
+transformers
+sentencepiece
+accelerate
+bitsandbytes