Spaces:

saadkhi
/

SQL_chatbot_API

Sleeping

saadkhi commited on Jan 4

Commit

107fcf0

verified ·

1 Parent(s): 0d17181

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -5,43 +5,38 @@ from transformers import AutoTokenizer, AutoModelForCausalLM
 MODEL_ID = "saadkhi/SQL_Chat_finetuned_model"
-app = FastAPI(title="SQL Chatbot API")
-# Load model once (on startup)
 tokenizer = AutoTokenizer.from_pretrained(MODEL_ID)
 model = AutoModelForCausalLM.from_pretrained(
     MODEL_ID,
-    torch_dtype=torch.float16,
-    device_map="auto"
 )
 class QueryRequest(BaseModel):
     prompt: str
     max_new_tokens: int = 256
-class QueryResponse(BaseModel):
-    response: str
-@app.post("/generate", response_model=QueryResponse)
-def generate_answer(request: QueryRequest):
-    inputs = tokenizer(
-        request.prompt,
-        return_tensors="pt"
-    ).to(model.device)
     with torch.no_grad():
-        output_ids = model.generate(
             **inputs,
-            max_new_tokens=request.max_new_tokens,
             do_sample=True,
             temperature=0.7,
             top_p=0.9
         )
-    output_text = tokenizer.decode(
-        output_ids[0],
-        skip_special_tokens=True
-    )
-    return {"response": output_text}

 MODEL_ID = "saadkhi/SQL_Chat_finetuned_model"
+app = FastAPI()
+# ---- LOAD ONCE ONLY ----
 tokenizer = AutoTokenizer.from_pretrained(MODEL_ID)
 model = AutoModelForCausalLM.from_pretrained(
     MODEL_ID,
+    dtype=torch.float16,     # use dtype, not torch_dtype
+    device_map="auto",
+    low_cpu_mem_usage=True
 )
+model.eval()
 class QueryRequest(BaseModel):
     prompt: str
     max_new_tokens: int = 256
+@app.post("/generate")
+def generate(req: QueryRequest):
+    inputs = tokenizer(req.prompt, return_tensors="pt").to(model.device)
     with torch.no_grad():
+        outputs = model.generate(
             **inputs,
+            max_new_tokens=req.max_new_tokens,
             do_sample=True,
             temperature=0.7,
             top_p=0.9
         )
+    text = tokenizer.decode(outputs[0], skip_special_tokens=True)
+    return {"response": text}