Spaces:

akcoderspark
/

text-generation-llm

Sleeping

akcoderspark commited on Jan 17

Commit

89fb040

verified ·

1 Parent(s): 219db16

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -11,8 +11,8 @@ model_name = "cognitivecomputations/dolphin-2_6-phi-2"
 tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
 model = AutoModelForCausalLM.from_pretrained(
     model_name,
-    torch_dtype=torch.float16,
-    device_map="auto",
     low_cpu_mem_usage=True,
     trust_remote_code=True
 )
@@ -38,7 +38,7 @@ def generate():
         prompt = f"<|im_start|>system\n{system_msg}<|im_end|>\n<|im_start|>user\n{user_msg}<|im_end|>\n<|im_start|>assistant\n"
-        inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
         with torch.no_grad():
             outputs = model.generate(

 tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
 model = AutoModelForCausalLM.from_pretrained(
     model_name,
+    torch_dtype=torch.float32,  # ✅ Changed to float32 for CPU
+    device_map="cpu",  # ✅ Explicitly use CPU
     low_cpu_mem_usage=True,
     trust_remote_code=True
 )
         prompt = f"<|im_start|>system\n{system_msg}<|im_end|>\n<|im_start|>user\n{user_msg}<|im_end|>\n<|im_start|>assistant\n"
+        inputs = tokenizer(prompt, return_tensors="pt")
         with torch.no_grad():
             outputs = model.generate(