Spaces:

forkjoin-ai
/

the-void

Sleeping

Taylor commited on 16 days ago

Commit

0c8d249

1 Parent(s): e5e1d2b

revert: back to working PyTorch for both models

Aether inference has deeper bugs (tokenizer, weight layout, or
numerical accumulation). Debug separately in edge-workers.

Both models on PyTorch/transformers -- base vs Buleyean comparison
that was working before. Streaming results so faster one shows first.

Files changed (2) hide show

Dockerfile +1 -10
app.py +41 -122

Dockerfile CHANGED Viewed

@@ -1,21 +1,12 @@
 FROM python:3.11-slim
-# Install Node.js 20
-RUN apt-get update && apt-get install -y curl && \
-    curl -fsSL https://deb.nodesource.com/setup_20.x | bash - && \
-    apt-get install -y nodejs && \
-    rm -rf /var/lib/apt/lists/*
 WORKDIR /app
-# Python deps (CPU-only torch from pre-built wheels)
 COPY requirements.txt .
 RUN pip install --no-cache-dir --extra-index-url https://download.pytorch.org/whl/cpu -r requirements.txt
-# App files
-COPY app.py aether-server.mjs simd-kernels.wasm ./
-# Create cache dir
 RUN mkdir -p /tmp/hf_cache
 EXPOSE 7860

 FROM python:3.11-slim
 WORKDIR /app
 COPY requirements.txt .
 RUN pip install --no-cache-dir --extra-index-url https://download.pytorch.org/whl/cpu -r requirements.txt
+COPY app.py ./
 RUN mkdir -p /tmp/hf_cache
 EXPOSE 7860

app.py CHANGED Viewed

@@ -1,171 +1,89 @@
 """
 The Void -- Buleyean RL
-PyTorch vs Aether. Side by side. Let the speed speak.
 """
 import gradio as gr
 import torch
-import json
 import time
-import subprocess
-import urllib.request
 from transformers import AutoModelForCausalLM, AutoTokenizer
-# ─── Start Aether sidecar ────────────────────────────────────────────────────
-print("[Void] Starting Aether inference server...", flush=True)
-aether_proc = subprocess.Popen(
-    ["node", "aether-server.mjs"],
-    env={**__import__('os').environ, "AETHER_PORT": "7861"},
-    stdout=subprocess.PIPE,
-    stderr=subprocess.STDOUT,
-)
-# ─── Load PyTorch model ──────────────────────────────────────────────────────
-print("[Void] Loading PyTorch base model...", flush=True)
 base_tokenizer = AutoTokenizer.from_pretrained("HuggingFaceTB/SmolLM2-360M-Instruct")
 base_model = AutoModelForCausalLM.from_pretrained(
     "HuggingFaceTB/SmolLM2-360M-Instruct",
     torch_dtype=torch.float32,
     device_map="cpu",
 )
-print("[Void] PyTorch model ready.", flush=True)
-# Wait for Aether to be ready
-print("[Void] Waiting for Aether...", flush=True)
-for attempt in range(120):
-    try:
-        req = urllib.request.Request("http://127.0.0.1:7861/health")
-        resp = urllib.request.urlopen(req, timeout=2)
-        health = json.loads(resp.read())
-        if health.get("status") == "ok" and health.get("model") == "loaded":
-            print(f"[Void] Aether ready (model loaded in {health.get('loadTime')}ms)", flush=True)
-            break
-    except Exception:
-        pass
-    # Print Aether stdout lines as they come
-    import select
-    if aether_proc.stdout and select.select([aether_proc.stdout], [], [], 0)[0]:
-        line = aether_proc.stdout.readline()
-        if line:
-            print(f"  [Aether] {line.decode().strip()}", flush=True)
-    time.sleep(1)
-else:
-    print("[Void] WARNING: Aether not ready after 120s, continuing anyway", flush=True)
-def gen_pytorch(prompt):
-    """Generate with PyTorch (standard)"""
-    messages = [{"role": "user", "content": prompt}]
-    text = base_tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
-    inputs = base_tokenizer(text, return_tensors="pt")
     t0 = time.perf_counter()
     with torch.no_grad():
-        outputs = base_model.generate(
             **inputs,
-            max_new_tokens=50,
             temperature=0.7,
             top_p=0.9,
             do_sample=True,
-            pad_token_id=base_tokenizer.eos_token_id,
         )
     elapsed = time.perf_counter() - t0
     n_tokens = outputs.shape[1] - inputs["input_ids"].shape[1]
-    response = base_tokenizer.decode(outputs[0][inputs["input_ids"].shape[1]:], skip_special_tokens=True).strip()
     ms_per_tok = (elapsed * 1000 / n_tokens) if n_tokens > 0 else 0
     return response, elapsed, n_tokens, ms_per_tok
-def gen_aether(prompt):
-    """Generate with Aether (our engine)"""
-    try:
-        data = json.dumps({"prompt": prompt, "max_tokens": 50}).encode()
-        req = urllib.request.Request(
-            "http://127.0.0.1:7861/generate",
-            data=data,
-            headers={"Content-Type": "application/json"},
-        )
-        t0 = time.perf_counter()
-        resp = urllib.request.urlopen(req, timeout=300)
-        wall_time = time.perf_counter() - t0
-        result = json.loads(resp.read())
-        return (
-            result["text"],
-            result["totalTimeMs"] / 1000,
-            result["tokens"],
-            result["avgTokenMs"],
-        )
-    except urllib.error.HTTPError as e:
-        body = e.read().decode() if e.fp else str(e)
-        try:
-            detail = json.loads(body).get("error", body[:200])
-        except Exception:
-            detail = body[:200]
-        return f"[Aether error: {detail}]", 0, 0, 0
-    except Exception as e:
-        return f"[Aether error: {e}]", 0, 0, 0
 def compare(prompt):
-    """Generator: yields results as each engine finishes."""
     if not prompt or not prompt.strip():
         yield "", "", "", ""
         return
-    # Run PyTorch first, show immediately
-    base_text, base_time, base_toks, base_ms = gen_pytorch(prompt)
     base_stats = f"{base_toks} tokens in {base_time:.1f}s ({base_ms:.0f}ms/tok)"
     yield base_text, "generating...", base_stats, "running..."
-    # Then run Aether, show when done
-    aether_text, aether_time, aether_toks, aether_ms = gen_aether(prompt)
-    aether_stats = f"{aether_toks} tokens in {aether_time:.1f}s ({aether_ms:.0f}ms/tok)"
-    yield base_text, aether_text, base_stats, aether_stats
 CSS = """
-/* AeonOS Design System */
 .gradio-container { max-width: 1060px !important; margin: 0 auto !important; }
 .gradio-container, .dark { background: #09090b !important; }
-/* Hero */
 #hero { text-align: center; padding: 2rem 0 1rem; }
 #hero h1 { font-size: 2.5rem; font-weight: 300; letter-spacing: -0.02em; color: #fafafa; margin: 0; }
 #hero .subtitle { color: #71717a; font-size: 0.95rem; margin-top: 0.5rem; }
 #hero .accent { color: #3b82f6; }
-/* Cards */
 .response-card { background: #0c0c0f !important; border: 1px solid #1f1f23 !important; border-radius: 8px !important; }
 .response-card textarea { background: #0c0c0f !important; border: none !important; color: #e4e4e7 !important; font-size: 0.95rem !important; line-height: 1.6 !important; }
-/* Labels */
 .base-label { color: #71717a !important; font-size: 0.8rem !important; text-transform: uppercase !important; letter-spacing: 0.05em !important; font-weight: 500 !important; }
 .void-label { color: #3b82f6 !important; font-size: 0.8rem !important; text-transform: uppercase !important; letter-spacing: 0.05em !important; font-weight: 500 !important; }
-/* Stats */
 .stats-text { font-family: 'SF Mono', 'Fira Code', monospace !important; font-size: 0.8rem !important; color: #52525b !important; }
-.stats-text.faster { color: #22c55e !important; }
-/* Input */
 #prompt-input > label > span { display: none !important; }
 #prompt-input textarea { background: #111114 !important; border: 1px solid #1f1f23 !important; border-radius: 8px !important; color: #fafafa !important; font-size: 1rem !important; padding: 1rem !important; }
 #prompt-input textarea:focus { border-color: #3b82f6 !important; box-shadow: 0 0 0 2px rgba(59,130,246,0.1) !important; }
-/* Generate button */
 #gen-btn { background: #3b82f6 !important; border: none !important; border-radius: 8px !important; font-weight: 500 !important; font-size: 0.9rem !important; padding: 0.75rem 2rem !important; transition: all 150ms !important; }
 #gen-btn:hover { background: #2563eb !important; transform: translateY(-1px) !important; box-shadow: 0 4px 12px rgba(59,130,246,0.3) !important; }
-/* Prompt chips */
 .prompt-chip { background: #111114 !important; border: 1px solid #1f1f23 !important; border-radius: 6px !important; color: #a1a1aa !important; font-size: 0.85rem !important; transition: all 150ms !important; }
 .prompt-chip:hover { border-color: #3b82f6 !important; color: #fafafa !important; background: #18181b !important; }
-/* Footer */
 #footer { text-align: center; padding: 2rem 0; border-top: 1px solid #1f1f23; margin-top: 2rem; }
 #footer p { color: #52525b; font-size: 0.8rem; }
 #footer a { color: #3b82f6; text-decoration: none; }
-/* Hide Gradio chrome */
 footer.svelte-1ax1toq { display: none !important; }
 .built-with { display: none !important; }
 """
@@ -175,8 +93,8 @@ with gr.Blocks(css=CSS, theme=gr.themes.Base(primary_hue="blue", neutral_hue="zi
     gr.HTML("""
     <div id="hero">
         <h1>The <span class="accent">Void</span></h1>
-        <p class="subtitle">PyTorch vs Aether. Same model. Different engines. Live inference.<br/>
-        Left: standard PyTorch CPU. Right: Aether WASM-SIMD kernels. Both generate in real-time.</p>
     </div>
     """)
@@ -185,46 +103,47 @@ with gr.Blocks(css=CSS, theme=gr.themes.Base(primary_hue="blue", neutral_hue="zi
     with gr.Row(equal_height=True):
         with gr.Column():
-            gr.HTML('<p class="base-label">PyTorch (standard)</p>')
-            base_out = gr.Textbox(lines=8, show_label=False, interactive=False, elem_classes=["response-card"])
             base_stats = gr.HTML('<p class="stats-text">--</p>')
         with gr.Column(min_width=30):
             gr.HTML('<p style="color:#27272a; text-align:center; padding-top:4rem; font-size:0.75rem; letter-spacing:0.1em;">VS</p>')
         with gr.Column():
-            gr.HTML('<p class="void-label">Aether (our engine)</p>')
-            aether_out = gr.Textbox(lines=8, show_label=False, interactive=False, elem_classes=["response-card"])
-            aether_stats = gr.HTML('<p class="stats-text">--</p>')
     def run_compare(prompt_text):
-        for base_text, aether_text, b_stats, a_stats in compare(prompt_text):
             yield (
                 base_text,
-                aether_text,
                 f'<p class="stats-text">{b_stats}</p>',
                 f'<p class="stats-text">{a_stats}</p>',
             )
-    btn.click(run_compare, [prompt], [base_out, aether_out, base_stats, aether_stats])
-    prompt.submit(run_compare, [prompt], [base_out, aether_out, base_stats, aether_stats])
     gr.HTML('<p style="color:#52525b; font-size:0.8rem; margin-top:1.5rem; margin-bottom:0.5rem;">Try these:</p>')
     with gr.Row():
         for p in ["hello", "How are you feeling?", "I've been anxious lately.", "Write a haiku about failure.", "What is the meaning of life?"]:
             gr.Button(p, size="sm", elem_classes=["prompt-chip"]).click(
                 fn=lambda x=p: x, outputs=[prompt]
-            ).then(fn=run_compare, inputs=[prompt], outputs=[base_out, aether_out, base_stats, aether_stats])
     gr.HTML("""
     <div id="footer">
         <p style="color:#a1a1aa; font-size:0.85rem; margin-bottom:0.5rem;">
-            SmolLM2-360M-Instruct &middot; Buleyean RL &middot;
-            Left: PyTorch CPU &middot; Right: Aether WASM-SIMD (zero ML dependencies)
         </p>
         <p>
             <a href="https://forkracefold.com/">Whitepaper</a> &middot;
             <a href="https://github.com/forkjoin-ai/buleyean-rl">Library</a> &middot;
             <a href="https://huggingface.co/forkjoin-ai">Models</a> &middot;
-            <a href="https://huggingface.co/spaces/forkjoin-ai/glossolalia">Glossolalia</a>
         </p>
         <p style="margin-top:1rem;">500+ Lean 4 theorems &middot; Zero sorry &middot; <a href="https://forkracefold.com/">&phi;&sup2; = &phi; + 1</a></p>
     </div>

 """
 The Void -- Buleyean RL
+Base model vs Void-trained model. Live inference. Nothing hardcoded.
 """
 import gradio as gr
 import torch
 import time
 from transformers import AutoModelForCausalLM, AutoTokenizer
+print("[Void] Loading base model...", flush=True)
 base_tokenizer = AutoTokenizer.from_pretrained("HuggingFaceTB/SmolLM2-360M-Instruct")
 base_model = AutoModelForCausalLM.from_pretrained(
     "HuggingFaceTB/SmolLM2-360M-Instruct",
     torch_dtype=torch.float32,
     device_map="cpu",
 )
+print("[Void] Loading Buleyean model from GGUF...", flush=True)
+bule_model = AutoModelForCausalLM.from_pretrained(
+    "forkjoin-ai/buleyean-smollm2-360m",
+    gguf_file="buleyean-smollm2-360m-q4_k_m.gguf",
+    torch_dtype=torch.float32,
+    device_map="cpu",
+)
+bule_tokenizer = base_tokenizer
+print("[Void] Ready.", flush=True)
+def gen(prompt, model, tokenizer):
+    messages = [{"role": "user", "content": prompt}]
+    text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
+    inputs = tokenizer(text, return_tensors="pt")
     t0 = time.perf_counter()
     with torch.no_grad():
+        outputs = model.generate(
             **inputs,
+            max_new_tokens=100,
             temperature=0.7,
             top_p=0.9,
             do_sample=True,
+            pad_token_id=tokenizer.eos_token_id,
         )
     elapsed = time.perf_counter() - t0
     n_tokens = outputs.shape[1] - inputs["input_ids"].shape[1]
+    response = tokenizer.decode(outputs[0][inputs["input_ids"].shape[1]:], skip_special_tokens=True).strip()
     ms_per_tok = (elapsed * 1000 / n_tokens) if n_tokens > 0 else 0
     return response, elapsed, n_tokens, ms_per_tok
 def compare(prompt):
     if not prompt or not prompt.strip():
         yield "", "", "", ""
         return
+    base_text, base_time, base_toks, base_ms = gen(prompt, base_model, base_tokenizer)
     base_stats = f"{base_toks} tokens in {base_time:.1f}s ({base_ms:.0f}ms/tok)"
     yield base_text, "generating...", base_stats, "running..."
+    bule_text, bule_time, bule_toks, bule_ms = gen(prompt, bule_model, bule_tokenizer)
+    bule_stats = f"{bule_toks} tokens in {bule_time:.1f}s ({bule_ms:.0f}ms/tok)"
+    yield base_text, bule_text, base_stats, bule_stats
 CSS = """
 .gradio-container { max-width: 1060px !important; margin: 0 auto !important; }
 .gradio-container, .dark { background: #09090b !important; }
 #hero { text-align: center; padding: 2rem 0 1rem; }
 #hero h1 { font-size: 2.5rem; font-weight: 300; letter-spacing: -0.02em; color: #fafafa; margin: 0; }
 #hero .subtitle { color: #71717a; font-size: 0.95rem; margin-top: 0.5rem; }
 #hero .accent { color: #3b82f6; }
 .response-card { background: #0c0c0f !important; border: 1px solid #1f1f23 !important; border-radius: 8px !important; }
 .response-card textarea { background: #0c0c0f !important; border: none !important; color: #e4e4e7 !important; font-size: 0.95rem !important; line-height: 1.6 !important; }
 .base-label { color: #71717a !important; font-size: 0.8rem !important; text-transform: uppercase !important; letter-spacing: 0.05em !important; font-weight: 500 !important; }
 .void-label { color: #3b82f6 !important; font-size: 0.8rem !important; text-transform: uppercase !important; letter-spacing: 0.05em !important; font-weight: 500 !important; }
 .stats-text { font-family: 'SF Mono', 'Fira Code', monospace !important; font-size: 0.8rem !important; color: #52525b !important; }
 #prompt-input > label > span { display: none !important; }
 #prompt-input textarea { background: #111114 !important; border: 1px solid #1f1f23 !important; border-radius: 8px !important; color: #fafafa !important; font-size: 1rem !important; padding: 1rem !important; }
 #prompt-input textarea:focus { border-color: #3b82f6 !important; box-shadow: 0 0 0 2px rgba(59,130,246,0.1) !important; }
 #gen-btn { background: #3b82f6 !important; border: none !important; border-radius: 8px !important; font-weight: 500 !important; font-size: 0.9rem !important; padding: 0.75rem 2rem !important; transition: all 150ms !important; }
 #gen-btn:hover { background: #2563eb !important; transform: translateY(-1px) !important; box-shadow: 0 4px 12px rgba(59,130,246,0.3) !important; }
 .prompt-chip { background: #111114 !important; border: 1px solid #1f1f23 !important; border-radius: 6px !important; color: #a1a1aa !important; font-size: 0.85rem !important; transition: all 150ms !important; }
 .prompt-chip:hover { border-color: #3b82f6 !important; color: #fafafa !important; background: #18181b !important; }
 #footer { text-align: center; padding: 2rem 0; border-top: 1px solid #1f1f23; margin-top: 2rem; }
 #footer p { color: #52525b; font-size: 0.8rem; }
 #footer a { color: #3b82f6; text-decoration: none; }
 footer.svelte-1ax1toq { display: none !important; }
 .built-with { display: none !important; }
 """
     gr.HTML("""
     <div id="hero">
         <h1>The <span class="accent">Void</span></h1>
+        <p class="subtitle">Live inference from models trained on rejection alone. No reward model. No chosen examples.<br/>
+        Left: standard instruction-tuned. Right: trained from the Void. Both generate in real-time.</p>
     </div>
     """)
     with gr.Row(equal_height=True):
         with gr.Column():
+            gr.HTML('<p class="base-label">Base Model</p>')
+            base_out = gr.Textbox(lines=10, show_label=False, interactive=False, elem_classes=["response-card"])
             base_stats = gr.HTML('<p class="stats-text">--</p>')
         with gr.Column(min_width=30):
             gr.HTML('<p style="color:#27272a; text-align:center; padding-top:4rem; font-size:0.75rem; letter-spacing:0.1em;">VS</p>')
         with gr.Column():
+            gr.HTML('<p class="void-label">Trained from the Void</p>')
+            bule_out = gr.Textbox(lines=10, show_label=False, interactive=False, elem_classes=["response-card"])
+            bule_stats = gr.HTML('<p class="stats-text">--</p>')
     def run_compare(prompt_text):
+        for base_text, bule_text, b_stats, a_stats in compare(prompt_text):
             yield (
                 base_text,
+                bule_text,
                 f'<p class="stats-text">{b_stats}</p>',
                 f'<p class="stats-text">{a_stats}</p>',
             )
+    btn.click(run_compare, [prompt], [base_out, bule_out, base_stats, bule_stats])
+    prompt.submit(run_compare, [prompt], [base_out, bule_out, base_stats, bule_stats])
     gr.HTML('<p style="color:#52525b; font-size:0.8rem; margin-top:1.5rem; margin-bottom:0.5rem;">Try these:</p>')
     with gr.Row():
         for p in ["hello", "How are you feeling?", "I've been anxious lately.", "Write a haiku about failure.", "What is the meaning of life?"]:
             gr.Button(p, size="sm", elem_classes=["prompt-chip"]).click(
                 fn=lambda x=p: x, outputs=[prompt]
+            ).then(fn=run_compare, inputs=[prompt], outputs=[base_out, bule_out, base_stats, bule_stats])
     gr.HTML("""
     <div id="footer">
         <p style="color:#a1a1aa; font-size:0.85rem; margin-bottom:0.5rem;">
+            SmolLM2-360M-Instruct &middot; Buleyean RL &middot; Q4_K_M GGUF &middot; Live inference on CPU
         </p>
         <p>
             <a href="https://forkracefold.com/">Whitepaper</a> &middot;
             <a href="https://github.com/forkjoin-ai/buleyean-rl">Library</a> &middot;
             <a href="https://huggingface.co/forkjoin-ai">Models</a> &middot;
+            <a href="https://huggingface.co/spaces/forkjoin-ai/glossolalia">Glossolalia</a> &middot;
+            <a href="https://huggingface.co/spaces/forkjoin-ai/void-attention">Void Attention</a> &middot;
+            <a href="https://huggingface.co/spaces/forkjoin-ai/metacog">METACOG</a>
         </p>
         <p style="margin-top:1rem;">500+ Lean 4 theorems &middot; Zero sorry &middot; <a href="https://forkracefold.com/">&phi;&sup2; = &phi; + 1</a></p>
     </div>