Spaces:

saadkhi
/

SQL_chatbot_API

Sleeping

App Files Files Community

saadkhi commited on Jan 7

Commit

02976e0

verified ·

1 Parent(s): 806622f

Update app.py

Browse files

Files changed (1) hide show

app.py +52 -18

app.py CHANGED Viewed

@@ -1,53 +1,87 @@
-# app.py - ZeroGPU compatible version (NO Unsloth)
-import gradio as gr
 import torch
 from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig
 from peft import PeftModel
-from huggingface_hub import spaces   # ← important!
-# Your model paths
 BASE_MODEL = "unsloth/Phi-3-mini-4k-instruct-bnb-4bit"
-LORA_PATH = "saadkhi/SQL_Chat_finetuned_model"
-print("Loading model on CPU first... (will use GPU only during @spaces.GPU)")
-bnb_config = BitsAndBytesConfig(load_in_4bit=True)
 model = AutoModelForCausalLM.from_pretrained(
     BASE_MODEL,
     quantization_config=bnb_config,
     device_map="auto",
     trust_remote_code=True
 )
 model = PeftModel.from_pretrained(model, LORA_PATH)
 tokenizer = AutoTokenizer.from_pretrained(BASE_MODEL)
 model.eval()
-@spaces.GPU   # ← this requests GPU slice only during this function
 def generate_sql(prompt: str):
     messages = [{"role": "user", "content": prompt}]
-    inputs = tokenizer.apply_chat_template(messages, tokenize=True, add_generation_prompt=True, return_tensors="pt").to("cuda")
     with torch.inference_mode():
         outputs = model.generate(
-            inputs,
-            max_new_tokens=180,
-            temperature=0.0,
-            do_sample=False,
             use_cache=True,
             pad_token_id=tokenizer.eos_token_id,
         )
     response = tokenizer.decode(outputs[0], skip_special_tokens=True)
     if "<|assistant|>" in response:
         response = response.split("<|assistant|>", 1)[-1].strip()
-    return response.split("<|end|>")[0].strip()
 demo = gr.Interface(
     fn=generate_sql,
-    inputs=gr.Textbox(label="Your SQL question"),
-    outputs="text",
     title="SQL Chatbot (ZeroGPU)",
-    description="Free but limited daily GPU time"
 )
 if __name__ == "__main__":

+# app.py - ZeroGPU compatible version (standard transformers + @spaces.GPU)
 import torch
+import gradio as gr
+import spaces  # ← Correct import!
 from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig
 from peft import PeftModel
+# ────────────────────────────────────────────────────────────────
 BASE_MODEL = "unsloth/Phi-3-mini-4k-instruct-bnb-4bit"
+LORA_PATH  = "saadkhi/SQL_Chat_finetuned_model"
+MAX_NEW_TOKENS = 180
+TEMPERATURE    = 0.0
+DO_SAMPLE      = False
+print("Loading quantized base model (CPU first)...")
+bnb_config = BitsAndBytesConfig(
+    load_in_4bit=True,
+    bnb_4bit_quant_type="nf4",
+    bnb_4bit_compute_dtype=torch.bfloat16
+)
 model = AutoModelForCausalLM.from_pretrained(
     BASE_MODEL,
     quantization_config=bnb_config,
     device_map="auto",
     trust_remote_code=True
 )
+print("Loading LoRA...")
 model = PeftModel.from_pretrained(model, LORA_PATH)
+model = model.merge_and_unload()  # Merge for faster inference
 tokenizer = AutoTokenizer.from_pretrained(BASE_MODEL)
 model.eval()
+# ────────────────────────────────────────────────────────────────
+@spaces.GPU(duration=60)  # ← Decorator! Requests GPU slice only here (60s max recommended)
 def generate_sql(prompt: str):
     messages = [{"role": "user", "content": prompt}]
+    inputs = tokenizer.apply_chat_template(
+        messages,
+        tokenize=True,
+        add_generation_prompt=True,
+        return_tensors="pt"
+    ).to("cuda")  # ZeroGPU makes cuda available here
     with torch.inference_mode():
         outputs = model.generate(
+            input_ids=inputs,
+            max_new_tokens=MAX_NEW_TOKENS,
+            temperature=TEMPERATURE,
+            do_sample=DO_SAMPLE,
             use_cache=True,
             pad_token_id=tokenizer.eos_token_id,
         )
     response = tokenizer.decode(outputs[0], skip_special_tokens=True)
+    # Clean output
     if "<|assistant|>" in response:
         response = response.split("<|assistant|>", 1)[-1].strip()
+    response = response.split("<|end|>")[0].strip() if "<|end|>" in response else response
+    return response
+# ────────────────────────────────────────────────────────────────
 demo = gr.Interface(
     fn=generate_sql,
+    inputs=gr.Textbox(
+        label="Ask SQL question",
+        placeholder="Delete duplicate rows from users table based on email",
+        lines=3
+    ),
+    outputs=gr.Textbox(label="Generated SQL"),
     title="SQL Chatbot (ZeroGPU)",
+    description="Phi-3-mini 4bit + LoRA - Free but limited daily GPU time",
+    examples=[
+        ["Find duplicate emails in users table"],
+        ["Top 5 highest paid employees"],
+        ["Count orders per customer last month"]
+    ]
 )
 if __name__ == "__main__":