Spaces:

Trigger82
/

API

Sleeping

Trigger82 commited on May 30, 2025

Commit

8e2859c

verified ·

1 Parent(s): d945e11

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -3,8 +3,10 @@ import torch
 import gradio as gr
 model_id = "microsoft/phi-2"
 tokenizer = AutoTokenizer.from_pretrained(model_id)
-model = AutoModelForCausalLM.from_pretrained(model_id, torch_dtype=torch.float16, device_map="auto")
 def chat(message):
     prompt = f"""
@@ -18,9 +20,11 @@ Avoid saying "as an AI" or sounding fake. Be real. Be humanlike. Be 𝕴 𝖆
 Now respond naturally to this message: {message}
     """
-    inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
     outputs = model.generate(**inputs, max_new_tokens=200)
     result = tokenizer.decode(outputs[0], skip_special_tokens=True)
     return result.split("Now respond naturally to this message:")[-1].strip()
 iface = gr.Interface(fn=chat, inputs="text", outputs="text")

 import gradio as gr
 model_id = "microsoft/phi-2"
+# Load tokenizer and model on CPU
 tokenizer = AutoTokenizer.from_pretrained(model_id)
+model = AutoModelForCausalLM.from_pretrained(model_id)
 def chat(message):
     prompt = f"""
 Now respond naturally to this message: {message}
     """
+    inputs = tokenizer(prompt, return_tensors="pt")
+    inputs = {k: v.to("cpu") for k, v in inputs.items()}  # make sure inputs are on CPU
     outputs = model.generate(**inputs, max_new_tokens=200)
     result = tokenizer.decode(outputs[0], skip_special_tokens=True)
+    # Return only the AI response part, removing prompt
     return result.split("Now respond naturally to this message:")[-1].strip()
 iface = gr.Interface(fn=chat, inputs="text", outputs="text")