Small_llm

Running

App Files Files Community

everydaytok commited on Feb 5

Commit

3dffc7e

verified ·

1 Parent(s): 17c0138

Update app.py

Browse files

Files changed (1) hide show

app.py +48 -28

app.py CHANGED Viewed

@@ -4,41 +4,62 @@ from threading import Thread
 import torch
 import time
 import psutil
-# 1.5B is perfect for CPU stability
-model_id = "unsloth/DeepSeek-R1-Distill-Qwen-1.5B-GGUF"
-filename = "DeepSeek-R1-Distill-Qwen-1.5B-Q4_K_M.gguf"
-print("Loading stable model...")
-model = AutoModelForCausalLM.from_pretrained(
-    model_id,
-    gguf_file=filename,
-    torch_dtype=torch.float32,
-    device_map="cpu"
-)
-tokenizer = AutoTokenizer.from_pretrained(model_id)
 def get_stats():
     vm = psutil.virtual_memory()
     return f"RAM: {vm.percent}% | {vm.used / 1024**3:.1f}GB / 16GB"
 def chat(message, history):
-    # Proper DeepSeek-R1/Qwen prompt format
     prompt = f"<｜begin_of_sentence｜><｜User｜>{message}<｜Assistant｜><think>\n"
     inputs = tokenizer(prompt, return_tensors="pt").to("cpu")
-    streamer = TextIteratorStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)
-    # Generation kwargs
     generation_kwargs = dict(
         inputs,
         streamer=streamer,
         max_new_tokens=1024,
-        do_sample=False, # Keeps it fast and logical for math
         pad_token_id=tokenizer.eos_token_id
     )
-    # Start generation in a background thread
     thread = Thread(target=model.generate, kwargs=generation_kwargs)
     thread.start()
@@ -46,30 +67,29 @@ def chat(message, history):
     generated_text = ""
     token_count = 0
-    # Yield from the streamer for real-time UI updates
     for new_text in streamer:
         generated_text += new_text
         token_count += 1
         elapsed = time.time() - start_time
         tps = token_count / elapsed if elapsed > 0 else 0
-        stats = f"⏱️ {elapsed:.1f}s | ⚡ {tps:.2f} t/s | {get_stats()}"
         yield generated_text, stats
-# Custom Gradio Blocks for better UI
-with gr.Blocks(theme=gr.themes.Default()) as demo:
-    gr.Markdown("# 🚀 DeepSeek-R1 CPU Optimizer")
     with gr.Row():
         with gr.Column(scale=4):
-            chatbot = gr.Chatbot(label="Response (Thinking + JSON)")
-            msg = gr.Textbox(label="Input", placeholder="Enter your math problem...")
         with gr.Column(scale=1):
-            stats_box = gr.Markdown("### Live Stats\nWaiting...")
-            clear = gr.Button("Clear")
     def respond(message, chat_history):
-        chat_history.append((message, ""))
-        return "", chat_history
     def stream_bot(chat_history):
         user_input = chat_history[-1][0]

 import torch
 import time
 import psutil
+import os
+# CONFIGURATION
+# We load weights from the GGUF repo, but tokenizer from the ORIGINAL repo
+MODEL_ID = "unsloth/DeepSeek-R1-Distill-Qwen-1.5B-GGUF"
+GGUF_FILE = "DeepSeek-R1-Distill-Qwen-1.5B-Q4_K_M.gguf"
+TOKENIZER_ID = "deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B" # The fix is here
+# Global variables for model and tokenizer
+model = None
+tokenizer = None
+load_status = "🔄 Initializing..."
+def load_model():
+    global model, tokenizer, load_status
+    try:
+        print(f"Loading tokenizer from {TOKENIZER_ID}...")
+        tokenizer = AutoTokenizer.from_pretrained(TOKENIZER_ID)
+        print(f"Loading GGUF weights from {MODEL_ID}...")
+        model = AutoModelForCausalLM.from_pretrained(
+            MODEL_ID,
+            gguf_file=GGUF_FILE,
+            torch_dtype=torch.float32,
+            device_map="cpu"
+        )
+        load_status = "✅ Model Loaded Successfully"
+    except Exception as e:
+        load_status = f"❌ Error: {str(e)}"
+        print(load_status)
+# Start loading in the background
+load_model()
 def get_stats():
     vm = psutil.virtual_memory()
     return f"RAM: {vm.percent}% | {vm.used / 1024**3:.1f}GB / 16GB"
 def chat(message, history):
+    if model is None:
+        yield "Model is still loading or failed to load. Check status.", load_status
+        return
+    # DeepSeek-R1 Prompt Format
     prompt = f"<｜begin_of_sentence｜><｜User｜>{message}<｜Assistant｜><think>\n"
     inputs = tokenizer(prompt, return_tensors="pt").to("cpu")
+    streamer = TextIteratorStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)
     generation_kwargs = dict(
         inputs,
         streamer=streamer,
         max_new_tokens=1024,
+        do_sample=False,
         pad_token_id=tokenizer.eos_token_id
     )
     thread = Thread(target=model.generate, kwargs=generation_kwargs)
     thread.start()
     generated_text = ""
     token_count = 0
     for new_text in streamer:
         generated_text += new_text
         token_count += 1
         elapsed = time.time() - start_time
         tps = token_count / elapsed if elapsed > 0 else 0
+        stats = f"⏱️ {elapsed:.1f}s | ⚡ {tps:.2f} t/s | {get_stats()} | {load_status}"
         yield generated_text, stats
+with gr.Blocks(theme=gr.themes.Soft()) as demo:
+    gr.Markdown("# 🚀 DeepSeek-R1 CPU Dashboard (v2.0)")
     with gr.Row():
         with gr.Column(scale=4):
+            chatbot = gr.Chatbot(label="Response Console", height=500)
+            msg = gr.Textbox(label="Math/JSON Prompt", placeholder="Type here and press Enter...")
         with gr.Column(scale=1):
+            stats_box = gr.Markdown(f"### Live Metrics\n{get_stats()}\n{load_status}")
+            gr.Markdown("---")
+            gr.Markdown("**Note:** First run may take 60s to load weights into RAM.")
+            clear = gr.Button("Clear Chat")
     def respond(message, chat_history):
+        return "", chat_history + [[message, ""]]
     def stream_bot(chat_history):
         user_input = chat_history[-1][0]