Spaces:

hamxaameer
/

OutfitOrbit-Chatbot-Assistant

Running

hamxaameer commited on 7 days ago

Commit

7a3d769

verified ·

1 Parent(s): 5e4b481

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -159,6 +159,7 @@ def initialize_llm():
         logger.info("   Model ready for inference")
         # Create pipeline for generation
         logger.info("   Creating text-generation pipeline...")
         llm_client = pipeline(
             "text-generation",
@@ -166,8 +167,7 @@ def initialize_llm():
             tokenizer=tokenizer,
             max_new_tokens=200,  # Reduced for faster generation
             pad_token_id=tokenizer.eos_token_id,
-            eos_token_id=tokenizer.eos_token_id,
-            device=0 if device == "cuda" else -1  # -1 for CPU
         )
         CONFIG["llm_model"] = LOCAL_PHI_MODEL

         logger.info("   Model ready for inference")
         # Create pipeline for generation
+        # CRITICAL: Do NOT specify device when using device_map="auto"
         logger.info("   Creating text-generation pipeline...")
         llm_client = pipeline(
             "text-generation",
             tokenizer=tokenizer,
             max_new_tokens=200,  # Reduced for faster generation
             pad_token_id=tokenizer.eos_token_id,
+            eos_token_id=tokenizer.eos_token_id
         )
         CONFIG["llm_model"] = LOCAL_PHI_MODEL