Spaces:

tusarway
/

codegen

Running

App Files Files Community

tusarway commited on Apr 13

Commit

91e4928

verified ·

1 Parent(s): cca38ad

up

Browse files

Files changed (1) hide show

app.py +77 -29

app.py CHANGED Viewed

@@ -12,7 +12,7 @@ Endpoints
   POST /v1/messages         → Anthropic-compatible  ← Claude Code uses this
 """
-import os, json, time, uuid, asyncio, threading
 from contextlib import asynccontextmanager
 from typing import Optional, List, Union, Any, Dict
@@ -28,48 +28,101 @@ MODEL_FILE   = os.getenv("MODEL_FILE", "gemma-4-26B-A4B-it-UD-IQ3_XXS.gguf")
 MODEL_DIR    = "/app/models"
 MODEL_PATH   = f"{MODEL_DIR}/{MODEL_FILE}"
 SPACE_URL    = os.getenv("SPACE_URL", "")
-# Context 4096 keeps KV cache ≤2 GB — safe with 11.2 GB model on 16 GB RAM
 N_CTX        = int(os.getenv("N_CTX",     "4096"))
 N_THREADS    = int(os.getenv("N_THREADS", "2"))
-# Coding-optimised defaults (OP's settings from reddit thread)
 DEFAULT_TEMP  = float(os.getenv("DEFAULT_TEMP",   "0.3"))
 DEFAULT_TOP_P = float(os.getenv("DEFAULT_TOP_P",  "0.9"))
 DEFAULT_MIN_P = float(os.getenv("DEFAULT_MIN_P",  "0.1"))
 DEFAULT_TOP_K = int(os.getenv("DEFAULT_TOP_K",    "20"))
 MODEL_ALIAS  = "gemma-4-26b"
 llm          = None
-# ── Model download + load ─────────────────────────────────────────────────────
 def download_model():
-    from huggingface_hub import hf_hub_download
     os.makedirs(MODEL_DIR, exist_ok=True)
-    if not os.path.exists(MODEL_PATH):
-        print(f"[model] Downloading {MODEL_FILE} (~11.2 GB)...")
-        hf_hub_download(
-            repo_id=MODEL_REPO,
-            filename=MODEL_FILE,
-            local_dir=MODEL_DIR,
-        )
-        print("[model] Download complete.")
 def load_model():
     global llm
     from llama_cpp import Llama
     download_model()
-    print("[model] Loading Gemma 4 26B IQ3_XXS into RAM...")
     llm = Llama(
         model_path   = MODEL_PATH,
         n_ctx        = N_CTX,
         n_threads    = N_THREADS,
         n_batch      = 512,
-        n_gpu_layers = 0,       # HF free tier is CPU-only
         verbose      = False,
-        chat_format  = None,    # auto-detect from GGUF metadata (Gemma 4 template)
     )
-    print(f"[model] Gemma 4 26B ready — ctx={N_CTX}, threads={N_THREADS}")
 # ── Self-ping ─────────────────────────────────────────────────────────────────
 async def self_ping_loop():
@@ -79,9 +132,9 @@ async def self_ping_loop():
             try:
                 async with httpx.AsyncClient(timeout=15) as c:
                     r = await c.get(f"{SPACE_URL}/health")
-                    print(f"[ping] {r.status_code}")
             except Exception as e:
-                print(f"[ping] failed: {e}")
 # ── App ───────────────────────────────────────────────────────────────────────
 @asynccontextmanager
@@ -230,7 +283,7 @@ async def anthropic_messages(req: AnthropicRequest):
         messages    = msgs,
         temperature = req.temperature,
         top_p       = req.top_p,
-        min_p       = DEFAULT_MIN_P,  # always apply min_p for coding accuracy
         top_k       = req.top_k,
         max_tokens  = req.max_tokens,
         stop        = req.stop_sequences,
@@ -312,14 +365,12 @@ footer{margin-top:2.5rem;font-size:.75rem;color:#374151;text-align:center;line-h
 <body>
 <h1>Gemma 4 26B A4B</h1>
 <p class="tagline">Coding-tuned · Anthropic &amp; OpenAI compatible · HuggingFace Spaces</p>
 <div class="badges">
   <span class="badge"><span class="dot"></span>{{ST}}</span>
   <span class="badge" style="color:#9ca3af">IQ3_XXS · 11.2 GB</span>
   <span class="badge" style="color:#9ca3af">ctx 4096 · 2 vCPU · 16 GB RAM</span>
   <span class="badge" style="color:#9ca3af">temp 0.3 · top-k 20 · min-p 0.1</span>
 </div>
 <div class="cards">
   <div class="card">
     <div class="card-title">Claude Code setup</div>
@@ -349,20 +400,18 @@ r = client.chat.completions.create(
   -d '{
     "model": "gemma-4-26b",
     "messages": [
-      {"role":"user",
-       "content":"hello"}
     ]
   }'</pre>
   </div>
 </div>
 <div class="tip">
-  <strong>First boot:</strong> The model (~11.2 GB) downloads from HuggingFace on first start — allow 5–10 min.
   <code style="background:#0d1b26;padding:1px 5px;border-radius:4px">/health</code> returns
   <code style="background:#0d1b26;padding:1px 5px;border-radius:4px">model_loaded: false</code>
-  until ready. Subsequent restarts load from disk in ~60 s. Self-pings every 25 min to prevent sleep.
 </div>
 <table class="ep-table">
   <thead><tr><th>Method</th><th>Path</th><th>Notes</th></tr></thead>
   <tbody>
@@ -372,7 +421,6 @@ r = client.chat.completions.create(
     <tr><td><span class="method post">POST</span></td><td class="path">/v1/messages</td><td class="note">Anthropic-compatible · used by Claude Code</td></tr>
   </tbody>
 </table>
 <footer>
   Gemma 4 26B A4B · unsloth UD-IQ3_XXS · llama-cpp-python + OpenBLAS<br>
   Self-pings /health every 25 min · April 2026

   POST /v1/messages         → Anthropic-compatible  ← Claude Code uses this
 """
+import os, sys, json, time, uuid, asyncio, threading, requests
 from contextlib import asynccontextmanager
 from typing import Optional, List, Union, Any, Dict
 MODEL_DIR    = "/app/models"
 MODEL_PATH   = f"{MODEL_DIR}/{MODEL_FILE}"
 SPACE_URL    = os.getenv("SPACE_URL", "")
+HF_TOKEN     = os.getenv("HF_TOKEN", "")
 N_CTX        = int(os.getenv("N_CTX",     "4096"))
 N_THREADS    = int(os.getenv("N_THREADS", "2"))
 DEFAULT_TEMP  = float(os.getenv("DEFAULT_TEMP",   "0.3"))
 DEFAULT_TOP_P = float(os.getenv("DEFAULT_TOP_P",  "0.9"))
 DEFAULT_MIN_P = float(os.getenv("DEFAULT_MIN_P",  "0.1"))
 DEFAULT_TOP_K = int(os.getenv("DEFAULT_TOP_K",    "20"))
+# Minimum expected size for a complete model file (10 GB safety margin)
+MIN_MODEL_BYTES = 10 * 1024 ** 3
 MODEL_ALIAS  = "gemma-4-26b"
 llm          = None
+# ── Model download ────────────────────────────────────────────────────────────
 def download_model():
     os.makedirs(MODEL_DIR, exist_ok=True)
+    # Check for existing complete file
+    if os.path.exists(MODEL_PATH):
+        size = os.path.getsize(MODEL_PATH)
+        if size >= MIN_MODEL_BYTES:
+            print(f"[model] Cached model found ({size / 1e9:.2f} GB) — skipping download.", flush=True)
+            return
+        print(f"[model] Incomplete file detected ({size / 1e9:.2f} GB) — re-downloading...", flush=True)
+        os.remove(MODEL_PATH)
+    url = f"https://huggingface.co/{MODEL_REPO}/resolve/main/{MODEL_FILE}"
+    headers = {"Authorization": f"Bearer {HF_TOKEN}"} if HF_TOKEN else {}
+    tmp_path = MODEL_PATH + ".tmp"
+    print(f"[model] Connecting to HuggingFace...", flush=True)
+    with requests.get(url, stream=True, headers=headers, timeout=60) as r:
+        r.raise_for_status()
+        total = int(r.headers.get("content-length", 0))
+        total_gb = total / (1024 ** 3)
+        print(f"[model] Downloading {MODEL_FILE}", flush=True)
+        print(f"[model] Total size : {total_gb:.2f} GB", flush=True)
+        print(f"[model] Destination: {MODEL_PATH}", flush=True)
+        print(f"[model] {'─' * 52}", flush=True)
+        downloaded   = 0
+        last_step    = -1       # tracks which 5%-band was last printed
+        chunk_size   = 8 * 1024 * 1024   # 8 MB chunks
+        with open(tmp_path, "wb") as f:
+            for chunk in r.iter_content(chunk_size=chunk_size):
+                if not chunk:
+                    continue
+                f.write(chunk)
+                downloaded += len(chunk)
+                if total > 0:
+                    pct  = downloaded / total * 100
+                    step = int(pct) // 5          # 0–20
+                    if step > last_step:
+                        last_step  = step
+                        filled     = step
+                        empty      = 20 - filled
+                        bar        = "█" * filled + "░" * empty
+                        gb_done    = downloaded / (1024 ** 3)
+                        speed_mb   = (downloaded / (time.monotonic() + 1e-9)) / 1e6
+                        print(
+                            f"[model] |{bar}| {pct:5.1f}%  "
+                            f"{gb_done:.2f}/{total_gb:.2f} GB",
+                            flush=True,
+                        )
+    # Atomic rename — avoids half-written files on crash/restart
+    os.rename(tmp_path, MODEL_PATH)
+    final_size = os.path.getsize(MODEL_PATH)
+    print(f"[model] {'─' * 52}", flush=True)
+    print(f"[model] Download complete! {final_size / 1e9:.2f} GB saved to {MODEL_PATH}", flush=True)
+# ── Model load ────────────────────────────────────────────────────────────────
 def load_model():
     global llm
     from llama_cpp import Llama
     download_model()
+    print(f"[model] Loading {MODEL_FILE} into RAM (ctx={N_CTX}, threads={N_THREADS})...", flush=True)
     llm = Llama(
         model_path   = MODEL_PATH,
         n_ctx        = N_CTX,
         n_threads    = N_THREADS,
         n_batch      = 512,
+        n_gpu_layers = 0,
         verbose      = False,
+        chat_format  = None,
     )
+    print(f"[model] ✓ Gemma 4 26B ready!", flush=True)
 # ── Self-ping ─────────────────────────────────────────────────────────────────
 async def self_ping_loop():
             try:
                 async with httpx.AsyncClient(timeout=15) as c:
                     r = await c.get(f"{SPACE_URL}/health")
+                    print(f"[ping] {r.status_code}", flush=True)
             except Exception as e:
+                print(f"[ping] failed: {e}", flush=True)
 # ── App ───────────────────────────────────────────────────────────────────────
 @asynccontextmanager
         messages    = msgs,
         temperature = req.temperature,
         top_p       = req.top_p,
+        min_p       = DEFAULT_MIN_P,
         top_k       = req.top_k,
         max_tokens  = req.max_tokens,
         stop        = req.stop_sequences,
 <body>
 <h1>Gemma 4 26B A4B</h1>
 <p class="tagline">Coding-tuned · Anthropic &amp; OpenAI compatible · HuggingFace Spaces</p>
 <div class="badges">
   <span class="badge"><span class="dot"></span>{{ST}}</span>
   <span class="badge" style="color:#9ca3af">IQ3_XXS · 11.2 GB</span>
   <span class="badge" style="color:#9ca3af">ctx 4096 · 2 vCPU · 16 GB RAM</span>
   <span class="badge" style="color:#9ca3af">temp 0.3 · top-k 20 · min-p 0.1</span>
 </div>
 <div class="cards">
   <div class="card">
     <div class="card-title">Claude Code setup</div>
   -d '{
     "model": "gemma-4-26b",
     "messages": [
+      {"role":"user","content":"hello"}
     ]
   }'</pre>
   </div>
 </div>
 <div class="tip">
+  <strong>First boot:</strong> The model (~11.2 GB) downloads on first start — allow 5–10 min.
+  Watch the container logs for a live progress bar.
   <code style="background:#0d1b26;padding:1px 5px;border-radius:4px">/health</code> returns
   <code style="background:#0d1b26;padding:1px 5px;border-radius:4px">model_loaded: false</code>
+  until ready. Subsequent restarts load from disk in ~60 s.
 </div>
 <table class="ep-table">
   <thead><tr><th>Method</th><th>Path</th><th>Notes</th></tr></thead>
   <tbody>
     <tr><td><span class="method post">POST</span></td><td class="path">/v1/messages</td><td class="note">Anthropic-compatible · used by Claude Code</td></tr>
   </tbody>
 </table>
 <footer>
   Gemma 4 26B A4B · unsloth UD-IQ3_XXS · llama-cpp-python + OpenBLAS<br>
   Self-pings /health every 25 min · April 2026