Spaces:

LuminLabs
/

flash

Sleeping

nova commited on Jan 17

Commit

b439d72

verified ·

1 Parent(s): a155f45

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -2,8 +2,13 @@ import gradio as gr
 import torch
 from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer
 from threading import Thread
-# Model Configuration: Qwen 2.5 1.5B (Much Smarter, still runs on Free CPU)
-MODEL_ID = "Qwen/Qwen2.5-1.5B-Instruct"
 # Check Device
 device = "cuda" if torch.cuda.is_available() else "cpu"
 print(f"🚀 Loading {MODEL_ID} on {device}...")
@@ -13,7 +18,8 @@ try:
         MODEL_ID,
         dtype=torch.float16 if device == "cuda" else torch.float32,
         device_map="auto",
-        trust_remote_code=True
     )
 except Exception as e:
     print(f"❌ Error loading model: {e}")

 import torch
 from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer
 from threading import Thread
+# Model Configuration: Qwen 2.5 0.5B (ULTRA FAST - Low RAM/CPU)
+MODEL_ID = "Qwen/Qwen2.5-0.5B-Instruct"
+# Resource Optimization (Save Cores & RAM)
+import os
+os.environ["OMP_NUM_THREADS"] = "4" # Limit threads to avoid CPU contention
+os.environ["MKL_NUM_THREADS"] = "4"
+torch.set_num_threads(4)
 # Check Device
 device = "cuda" if torch.cuda.is_available() else "cpu"
 print(f"🚀 Loading {MODEL_ID} on {device}...")
         MODEL_ID,
         dtype=torch.float16 if device == "cuda" else torch.float32,
         device_map="auto",
+        trust_remote_code=True,
+        low_cpu_mem_usage=True # Optimize RAM loading
     )
 except Exception as e:
     print(f"❌ Error loading model: {e}")