Spaces:

anabury
/

CHAT_BOX

Runtime error

App Files Files Community

anabury commited on Sep 2

Commit

2ba0f71

verified ·

1 Parent(s): 0e4c2bd

Update app.py

Browse files

Files changed (1) hide show

app.py +30 -24

app.py CHANGED Viewed

@@ -1,42 +1,48 @@
 import gradio as gr
-from transformers import AutoTokenizer, AutoConfig, PhiForCausalLM
 import torch
-model_id = "Anabury/My_Finetuned_Phi-4"
-# Load config to confirm model type
-config = AutoConfig.from_pretrained(model_id)
-# Load tokenizer
-tokenizer = AutoTokenizer.from_pretrained(model_id)
-# Use PhiForCausalLM for Phi-4 architecture
-model = PhiForCausalLM.from_pretrained(
-    model_id,
     device_map="auto",
-    torch_dtype=torch.float16,
-    trust_remote_code=True  # if needed for custom implementations
 )
-model.config.use_cache = True  # enables faster inference
-# Define the chat interface
 def chat(message, history):
-    inputs = tokenizer(message, return_tensors="pt").to(model.device)
-    outputs = model.generate(
-        **inputs,
-        max_new_tokens=200,
-        pad_token_id=tokenizer.eos_token_id
-    )
-    reply = tokenizer.decode(outputs[0], skip_special_tokens=True)
     history.append((message, reply))
     return history, history
 with gr.Blocks() as demo:
-    chatbot = gr.Chatbot()
-    msg = gr.Textbox(placeholder="Type your message here...")
     clear = gr.Button("Clear")
     msg.submit(chat, [msg, chatbot], [chatbot, chatbot])
     clear.click(lambda: [], None, chatbot, queue=False)

 import gradio as gr
 import torch
+from transformers import AutoTokenizer, AutoModelForCausalLM
+from peft import PeftModel
+BASE_MODEL = "unsloth/phi-4-unsloth-bnb-4bit"   # base that you finetuned from
+ADAPTER_ID = "Anabury/My_Finetuned_Phi-4"       # your adapter repo
+# tokenizer (either base or adapter works; use base)
+tokenizer = AutoTokenizer.from_pretrained(BASE_MODEL, trust_remote_code=True)
+# load base model (4-bit quant is fine on Spaces GPU/CPU)
+base = AutoModelForCausalLM.from_pretrained(
+    BASE_MODEL,
     device_map="auto",
+    torch_dtype=torch.float16 if torch.cuda.is_available() else torch.float32,
+    trust_remote_code=True
 )
+# attach your LoRA adapter
+model = PeftModel.from_pretrained(base, ADAPTER_ID)
+model.eval()
 def chat(message, history):
+    # build a simple prompt; adapt if you have a chat template in your repo
+    prompt = message
+    inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
+    with torch.no_grad():
+        output = model.generate(
+            **inputs,
+            max_new_tokens=256,
+            do_sample=True,
+            temperature=0.7,
+            top_p=0.9,
+            pad_token_id=tokenizer.eos_token_id
+        )
+    reply = tokenizer.decode(output[0], skip_special_tokens=True)
     history.append((message, reply))
     return history, history
 with gr.Blocks() as demo:
+    gr.Markdown("# Phi-4 Chat (LoRA)")
+    chatbot = gr.Chatbot(height=420)
+    msg = gr.Textbox(placeholder="Ask me anything…")
     clear = gr.Button("Clear")
     msg.submit(chat, [msg, chatbot], [chatbot, chatbot])
     clear.click(lambda: [], None, chatbot, queue=False)