Spaces:

AIencoder
/

Axon

Running

App Files Files Community

AIencoder commited on 10 days ago

Commit

46b5803

verified ·

1 Parent(s): 4667b6b

Update app.py

Browse files

Files changed (1) hide show

app.py +59 -54

app.py CHANGED Viewed

@@ -1,28 +1,22 @@
 import gradio as gr
-from huggingface_hub import hf_hub_download
-from llama_cpp import Llama
-import os
-# Download model on startup
-print("Downloading model...")
-model_path = hf_hub_download(
-    repo_id="Qwen/Qwen2.5-Coder-3B-Instruct-GGUF",
-    filename="qwen2.5-coder-3b-instruct-q4_k_m.gguf",
-    cache_dir="/home/user/.cache"
-)
-print(f"Model downloaded: {model_path}")
-# Load model
-print("Loading model...")
-llm = Llama(
-    model_path=model_path,
-    n_ctx=4096,
-    n_threads=4,
-    verbose=False
-)
-print("Model ready!")
 def chat_stream(message, history, temperature):
     messages = [{"role": "system", "content": "You are an expert coding assistant. Always use markdown code blocks."}]
     for user_msg, assistant_msg in history:
@@ -33,79 +27,90 @@ def chat_stream(message, history, temperature):
     messages.append({"role": "user", "content": message})
     try:
-        response = llm.create_chat_completion(
-            messages=messages,
-            temperature=temperature,
-            max_tokens=2048,
-            stream=True
         )
         full = ""
-        for chunk in response:
-            delta = chunk["choices"][0]["delta"]
-            if "content" in delta:
-                full += delta["content"]
-                yield full
     except Exception as e:
         yield f"Error: {e}"
 def generate_code(prompt, language):
     if not prompt.strip():
         return "Please describe what you want."
     full_prompt = f"Write {language} code for: {prompt}\n\nOutput ONLY code in a markdown block."
     try:
-        response = llm.create_chat_completion(
-            messages=[{"role": "user", "content": full_prompt}],
-            temperature=0.3,
-            max_tokens=2048
         )
-        result = response["choices"][0]["message"]["content"]
-        if "```" in result:
-            parts = result.split("```")
-            if len(parts) >= 2:
-                code = parts[1]
-                if "\n" in code:
-                    code = code.split("\n", 1)[-1]
-                return code.strip()
-        return result
     except Exception as e:
         return f"Error: {e}"
 def explain_code(code):
     if not code.strip():
         return "Paste code to explain."
     try:
-        response = llm.create_chat_completion(
-            messages=[{"role": "user", "content": f"Explain this code:\n```\n{code}\n```"}],
-            temperature=0.5,
-            max_tokens=2048
         )
-        return response["choices"][0]["message"]["content"]
     except Exception as e:
         return f"Error: {e}"
 def fix_code(code, error):
     if not code.strip():
         return "Paste code to fix."
     prompt = f"Fix this code:\n```\n{code}\n```\nError: {error or 'Not working'}"
     try:
-        response = llm.create_chat_completion(
-            messages=[{"role": "user", "content": prompt}],
-            temperature=0.3,
-            max_tokens=2048
         )
-        return response["choices"][0]["message"]["content"]
     except Exception as e:
         return f"Error: {e}"
 with gr.Blocks(title="GOD Coding Machine", theme=gr.themes.Soft(primary_hue="purple")) as demo:
-    gr.Markdown("# 🔥 GOD Coding Machine\n**Qwen2.5-Coder-3B** • Running locally • No rate limits!")
     temperature = gr.Slider(0, 1, value=0.7, step=0.1, label="Temperature")

 import gradio as gr
+import requests
+import json
+OLLAMA_URL = "http://localhost:11434"
+MODEL = "qwen2.5-coder:3b"
+def check_ollama():
+    try:
+        r = requests.get(f"{OLLAMA_URL}/api/tags", timeout=5)
+        return r.status_code == 200
+    except:
+        return False
 def chat_stream(message, history, temperature):
+    if not check_ollama():
+        yield "⏳ Ollama starting... wait 30 seconds and try again."
+        return
     messages = [{"role": "system", "content": "You are an expert coding assistant. Always use markdown code blocks."}]
     for user_msg, assistant_msg in history:
     messages.append({"role": "user", "content": message})
     try:
+        response = requests.post(
+            f"{OLLAMA_URL}/api/chat",
+            json={"model": MODEL, "messages": messages, "stream": True, "options": {"temperature": temperature}},
+            stream=True, timeout=300
         )
         full = ""
+        for line in response.iter_lines():
+            if line:
+                try:
+                    data = json.loads(line)
+                    if "message" in data:
+                        full += data["message"].get("content", "")
+                        yield full
+                except:
+                    continue
     except Exception as e:
         yield f"Error: {e}"
 def generate_code(prompt, language):
     if not prompt.strip():
         return "Please describe what you want."
+    if not check_ollama():
+        return "⏳ Ollama starting..."
     full_prompt = f"Write {language} code for: {prompt}\n\nOutput ONLY code in a markdown block."
     try:
+        r = requests.post(
+            f"{OLLAMA_URL}/api/generate",
+            json={"model": MODEL, "prompt": full_prompt, "stream": False, "options": {"temperature": 0.3}},
+            timeout=300
         )
+        if r.status_code == 200:
+            result = r.json().get("response", "")
+            if "```" in result:
+                parts = result.split("```")
+                if len(parts) >= 2:
+                    code = parts[1]
+                    if "\n" in code:
+                        code = code.split("\n", 1)[-1]
+                    return code.strip()
+            return result
+        return f"Error: {r.text}"
     except Exception as e:
         return f"Error: {e}"
 def explain_code(code):
     if not code.strip():
         return "Paste code to explain."
+    if not check_ollama():
+        return "⏳ Ollama starting..."
     try:
+        r = requests.post(
+            f"{OLLAMA_URL}/api/generate",
+            json={"model": MODEL, "prompt": f"Explain this code:\n```\n{code}\n```", "stream": False},
+            timeout=300
         )
+        return r.json().get("response", "") if r.status_code == 200 else f"Error: {r.text}"
     except Exception as e:
         return f"Error: {e}"
 def fix_code(code, error):
     if not code.strip():
         return "Paste code to fix."
+    if not check_ollama():
+        return "⏳ Ollama starting..."
     prompt = f"Fix this code:\n```\n{code}\n```\nError: {error or 'Not working'}"
     try:
+        r = requests.post(
+            f"{OLLAMA_URL}/api/generate",
+            json={"model": MODEL, "prompt": prompt, "stream": False, "options": {"temperature": 0.3}},
+            timeout=300
         )
+        return r.json().get("response", "") if r.status_code == 200 else f"Error: {r.text}"
     except Exception as e:
         return f"Error: {e}"
 with gr.Blocks(title="GOD Coding Machine", theme=gr.themes.Soft(primary_hue="purple")) as demo:
+    gr.Markdown("# 🔥 GOD Coding Machine\n**Docker Edition** • Qwen2.5-Coder running locally • No rate limits!")
     temperature = gr.Slider(0, 1, value=0.7, step=0.1, label="Temperature")