Spaces:

Neon-tech
/

Test

Paused

Neon-tech commited on Apr 8

Commit

75503bc

verified ·

1 Parent(s): a8525a1

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,39 +1,33 @@
 import os
 import gradio as gr
-from llama_cpp import Llama
 import psutil
 def get_stats():
     process = psutil.Process(os.getpid())
     ram = process.memory_info().rss / 1024 ** 3
-    disk = psutil.disk_usage('/').used / 1024 ** 3
     cpu = psutil.cpu_percent(interval=1)
-    return f"RAM: {ram:.2f} GB | Disk: {disk:.2f} GB | CPU: {cpu:.1f}%"
-os.environ["HF_HOME"] = "/tmp/hf_cache"
-model = Llama.from_pretrained(
-    repo_id="unsloth/Qwen3.5-35B-A3B-GGUF",
-    filename="Qwen3.5-35B-A3B-Q3_K_M.gguf",
-    n_ctx=2048,
-    n_threads=2,
-)
 def chat(message, history):
-    messages = [{"role": "system", "content": "Reply directly without any reasoning or thinking process."}]
     for user, assistant in history:
         messages.append({"role": "user", "content": user})
         messages.append({"role": "assistant", "content": assistant})
     messages.append({"role": "user", "content": message})
-    output = ""
-    for chunk in model.create_chat_completion(
-        messages=messages,
-        max_tokens=2048,
-        stream=True
-    ):
-        delta = chunk["choices"][0]["delta"].get("content", "")
-        output += delta
-        yield output
 with gr.Blocks() as demo:
     stats = gr.Textbox(label="System Stats", value=get_stats, every=5)

 import os
 import gradio as gr
 import psutil
+from transformers import AutoModelForCausalLM, AutoTokenizer
+os.environ["HF_HOME"] = "/tmp/hf_cache"
+tokenizer = AutoTokenizer.from_pretrained("openai/gpt-oss-120b")
+model = AutoModelForCausalLM.from_pretrained("openai/gpt-oss-120b", device_map="auto", offload_folder="/tmp/offload")
 def get_stats():
     process = psutil.Process(os.getpid())
     ram = process.memory_info().rss / 1024 ** 3
+    disk_tmp = psutil.disk_usage('/tmp').used / 1024 ** 3
+    disk_app = psutil.disk_usage('/').used / 1024 ** 3
     cpu = psutil.cpu_percent(interval=1)
+    return f"RAM: {ram:.2f} GB | /tmp: {disk_tmp:.2f} GB | Disk: {disk_app:.2f} GB | CPU: {cpu:.1f}%"
 def chat(message, history):
+    messages = []
     for user, assistant in history:
         messages.append({"role": "user", "content": user})
         messages.append({"role": "assistant", "content": assistant})
     messages.append({"role": "user", "content": message})
+    text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
+    inputs = tokenizer([text], return_tensors="pt").to(model.device)
+    outputs = model.generate(**inputs, max_new_tokens=512)
+    output = tokenizer.decode(outputs[0][inputs.input_ids.shape[-1]:], skip_special_tokens=True)
+    return output
 with gr.Blocks() as demo:
     stats = gr.Textbox(label="System Stats", value=get_stats, every=5)