ai

Configuration error

App Files Files Community

OrbitMC commited on Feb 12

Commit

57b7ba8

verified ·

1 Parent(s): f71bbec

Update app.py

Browse files

Files changed (1) hide show

app.py +34 -47

app.py CHANGED Viewed

@@ -9,78 +9,65 @@ from duckduckgo_search import DDGS
 HF_TOKEN = os.getenv('HF_TOKEN')
 MODEL_ID = "google/gemma-3-270m-it"
-print("--- [1/5] Initializing ---")
-tokenizer = AutoTokenizer.from_pretrained(MODEL_ID, token=HF_TOKEN)
-print("--- [2/5] Loading Model ---")
 model = AutoModelForCausalLM.from_pretrained(
     MODEL_ID,
     device_map="cpu",
-    dtype=torch.float32,
     low_cpu_mem_usage=True,
     trust_remote_code=True,
     token=HF_TOKEN
 )
-print("--- [3/5] Model Loaded! ---")
-# Optimize for CPU
-torch.set_num_threads(2)
-def web_search(query):
     try:
         with DDGS() as ddgs:
-            results = [f"Source: {r['href']}\n{r['body']}" for r in ddgs.text(query, max_results=3)]
-            return "\n\n".join(results)
     except:
-        return "Search currently unavailable."
-def generate(message, history, search_enabled, tokens, temp):
-    # In older Gradio, history is a list of lists: [[user, bot], [user, bot]]
-    # We just need the current message and the search toggle
-    context = ""
-    if search_enabled:
-        print(f"Searching web for: {message}")
-        context = web_search(message)
-    prompt = f"System: Use context to help.\nContext: {context}\n\nUser: {message}\nAssistant:"
-    inputs = tokenizer(prompt, return_tensors="pt").to("cpu")
-    streamer = TextIteratorStreamer(tokenizer, timeout=20.0, skip_prompt=True, skip_special_tokens=True)
     gen_kwargs = dict(
-        **inputs,
-        streamer=streamer,
         max_new_tokens=int(tokens),
-        do_sample=True,
-        temperature=float(temp),
-        top_p=0.9,
     )
     thread = Thread(target=model.generate, kwargs=gen_kwargs)
     thread.start()
-    response = ""
-    for text in streamer:
-        response += text
-        yield response
-print("--- [4/5] Building Interface ---")
-# Removed 'type' argument to ensure compatibility with Gradio 4
 demo = gr.ChatInterface(
-    fn=generate,
     additional_inputs=[
-        gr.Checkbox(label="Enable Web Search", value=True),
-        gr.Slider(128, 1024, 512, step=64, label="Max New Tokens"),
-        gr.Slider(0.1, 1.2, 0.7, step=0.1, label="Temperature"),
-    ],
-    title="Gemma 3 Web Search Bot",
-    theme="soft"
 )
-print("--- [5/5] Launching! ---")
 if __name__ == "__main__":
-    # If share=True fails, OrbitMC might not allow tunnels.
-    # Try with it first, then remove if it crashes.
-    demo.launch(server_name="0.0.0.0", share=True)

 HF_TOKEN = os.getenv('HF_TOKEN')
 MODEL_ID = "google/gemma-3-270m-it"
+print("--- [1] INITIALIZING ---")
+torch.set_num_threads(1) # Keeps the CPU from redlining
+# Load Tokenizer & Model
+tokenizer = AutoTokenizer.from_pretrained(MODEL_ID, token=HF_TOKEN)
 model = AutoModelForCausalLM.from_pretrained(
     MODEL_ID,
     device_map="cpu",
+    torch_dtype=torch.bfloat16, # Saves 500MB of RAM vs float32
     low_cpu_mem_usage=True,
     trust_remote_code=True,
     token=HF_TOKEN
 )
+print("--- [2] MODEL LOADED SUCCESSFULLY ---")
+def search_the_web(query):
+    """Safe search helper."""
     try:
         with DDGS() as ddgs:
+            return "\n".join([r['body'] for r in list(ddgs.text(query, max_results=2))])
     except:
+        return ""
+def chat_function(message, history, search_on, tokens, temp):
+    """The core generation loop."""
+    context = search_the_web(message) if search_on else ""
+    full_prompt = f"Context: {context}\n\nUser: {message}\nAssistant:"
+    inputs = tokenizer(full_prompt, return_tensors="pt").to("cpu")
+    streamer = TextIteratorStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)
     gen_kwargs = dict(
+        input_ids=inputs["input_ids"],
+        streamer=streamer,
         max_new_tokens=int(tokens),
+        do_sample=True,
+        temperature=float(temp),
     )
     thread = Thread(target=model.generate, kwargs=gen_kwargs)
     thread.start()
+    output = ""
+    for new_text in streamer:
+        output += new_text
+        yield output
+# --- THE INTERFACE (SAFE VERSION) ---
+print("--- [3] BUILDING UI ---")
 demo = gr.ChatInterface(
+    fn=chat_function,
     additional_inputs=[
+        gr.Checkbox(label="Web Search", value=True),
+        gr.Slider(128, 1024, 512, label="Length"),
+        gr.Slider(0.1, 1.2, 0.7, label="Chaos Level"),
+    ]
 )
 if __name__ == "__main__":
+    print("--- [4] LAUNCHING (ON PORT 7860) ---")
+    # share=True is removed because it causes loops on OrbitMC/Restricted hosts
+    demo.launch(server_name="0.0.0.0")