Spaces:

AIencoder
/

Axon

Running

App Files Files Community

AIencoder commited on 11 days ago

Commit

a361531

verified ·

1 Parent(s): 1ecd1cc

Update app.py

Browse files

Files changed (1) hide show

app.py +54 -59

app.py CHANGED Viewed

@@ -1,22 +1,28 @@
 import gradio as gr
-import requests
-import json
-OLLAMA_URL = "http://localhost:11434"
-MODEL = "qwen2.5-coder:3b"
-def check_ollama():
-    try:
-        r = requests.get(f"{OLLAMA_URL}/api/tags", timeout=5)
-        return r.status_code == 200
-    except:
-        return False
 def chat_stream(message, history, temperature):
-    if not check_ollama():
-        yield "⏳ Ollama starting... wait 30 seconds and try again."
-        return
     messages = [{"role": "system", "content": "You are an expert coding assistant. Always use markdown code blocks."}]
     for user_msg, assistant_msg in history:
@@ -27,90 +33,79 @@ def chat_stream(message, history, temperature):
     messages.append({"role": "user", "content": message})
     try:
-        response = requests.post(
-            f"{OLLAMA_URL}/api/chat",
-            json={"model": MODEL, "messages": messages, "stream": True, "options": {"temperature": temperature}},
-            stream=True, timeout=300
         )
         full = ""
-        for line in response.iter_lines():
-            if line:
-                try:
-                    data = json.loads(line)
-                    if "message" in data:
-                        full += data["message"].get("content", "")
-                        yield full
-                except:
-                    continue
     except Exception as e:
         yield f"Error: {e}"
 def generate_code(prompt, language):
     if not prompt.strip():
         return "Please describe what you want."
-    if not check_ollama():
-        return "⏳ Ollama starting..."
     full_prompt = f"Write {language} code for: {prompt}\n\nOutput ONLY code in a markdown block."
     try:
-        r = requests.post(
-            f"{OLLAMA_URL}/api/generate",
-            json={"model": MODEL, "prompt": full_prompt, "stream": False, "options": {"temperature": 0.3}},
-            timeout=300
         )
-        if r.status_code == 200:
-            result = r.json().get("response", "")
-            if "```" in result:
-                parts = result.split("```")
-                if len(parts) >= 2:
-                    code = parts[1]
-                    if "\n" in code:
-                        code = code.split("\n", 1)[-1]
-                    return code.strip()
-            return result
-        return f"Error: {r.text}"
     except Exception as e:
         return f"Error: {e}"
 def explain_code(code):
     if not code.strip():
         return "Paste code to explain."
-    if not check_ollama():
-        return "⏳ Ollama starting..."
     try:
-        r = requests.post(
-            f"{OLLAMA_URL}/api/generate",
-            json={"model": MODEL, "prompt": f"Explain this code:\n```\n{code}\n```", "stream": False},
-            timeout=300
         )
-        return r.json().get("response", "") if r.status_code == 200 else f"Error: {r.text}"
     except Exception as e:
         return f"Error: {e}"
 def fix_code(code, error):
     if not code.strip():
         return "Paste code to fix."
-    if not check_ollama():
-        return "⏳ Ollama starting..."
     prompt = f"Fix this code:\n```\n{code}\n```\nError: {error or 'Not working'}"
     try:
-        r = requests.post(
-            f"{OLLAMA_URL}/api/generate",
-            json={"model": MODEL, "prompt": prompt, "stream": False, "options": {"temperature": 0.3}},
-            timeout=300
         )
-        return r.json().get("response", "") if r.status_code == 200 else f"Error: {r.text}"
     except Exception as e:
         return f"Error: {e}"
 with gr.Blocks(title="GOD Coding Machine", theme=gr.themes.Soft(primary_hue="purple")) as demo:
-    gr.Markdown("# 🔥 GOD Coding Machine\n**Docker Edition** • Qwen2.5-Coder running locally • No rate limits!")
     temperature = gr.Slider(0, 1, value=0.7, step=0.1, label="Temperature")

 import gradio as gr
+from huggingface_hub import hf_hub_download
+from llama_cpp import Llama
+import os
+# Download model on startup
+print("Downloading model...")
+model_path = hf_hub_download(
+    repo_id="Qwen/Qwen2.5-Coder-3B-Instruct-GGUF",
+    filename="qwen2.5-coder-3b-instruct-q4_k_m.gguf",
+    cache_dir="/home/user/.cache"
+)
+print(f"Model downloaded: {model_path}")
+# Load model
+print("Loading model...")
+llm = Llama(
+    model_path=model_path,
+    n_ctx=4096,
+    n_threads=4,
+    verbose=False
+)
+print("Model ready!")
 def chat_stream(message, history, temperature):
     messages = [{"role": "system", "content": "You are an expert coding assistant. Always use markdown code blocks."}]
     for user_msg, assistant_msg in history:
     messages.append({"role": "user", "content": message})
     try:
+        response = llm.create_chat_completion(
+            messages=messages,
+            temperature=temperature,
+            max_tokens=2048,
+            stream=True
         )
         full = ""
+        for chunk in response:
+            delta = chunk["choices"][0]["delta"]
+            if "content" in delta:
+                full += delta["content"]
+                yield full
     except Exception as e:
         yield f"Error: {e}"
 def generate_code(prompt, language):
     if not prompt.strip():
         return "Please describe what you want."
     full_prompt = f"Write {language} code for: {prompt}\n\nOutput ONLY code in a markdown block."
     try:
+        response = llm.create_chat_completion(
+            messages=[{"role": "user", "content": full_prompt}],
+            temperature=0.3,
+            max_tokens=2048
         )
+        result = response["choices"][0]["message"]["content"]
+        if "```" in result:
+            parts = result.split("```")
+            if len(parts) >= 2:
+                code = parts[1]
+                if "\n" in code:
+                    code = code.split("\n", 1)[-1]
+                return code.strip()
+        return result
     except Exception as e:
         return f"Error: {e}"
 def explain_code(code):
     if not code.strip():
         return "Paste code to explain."
     try:
+        response = llm.create_chat_completion(
+            messages=[{"role": "user", "content": f"Explain this code:\n```\n{code}\n```"}],
+            temperature=0.5,
+            max_tokens=2048
         )
+        return response["choices"][0]["message"]["content"]
     except Exception as e:
         return f"Error: {e}"
 def fix_code(code, error):
     if not code.strip():
         return "Paste code to fix."
     prompt = f"Fix this code:\n```\n{code}\n```\nError: {error or 'Not working'}"
     try:
+        response = llm.create_chat_completion(
+            messages=[{"role": "user", "content": prompt}],
+            temperature=0.3,
+            max_tokens=2048
         )
+        return response["choices"][0]["message"]["content"]
     except Exception as e:
         return f"Error: {e}"
 with gr.Blocks(title="GOD Coding Machine", theme=gr.themes.Soft(primary_hue="purple")) as demo:
+    gr.Markdown("# 🔥 GOD Coding Machine\n**Qwen2.5-Coder-3B** • Running locally • No rate limits!")
     temperature = gr.Slider(0, 1, value=0.7, step=0.1, label="Temperature")