Spaces:

forkjoin-ai
/

the-void

Sleeping

Taylor commited on 16 days ago

Commit

64ff7cb

1 Parent(s): 0c8d249

perf: run both models in parallel with ThreadPoolExecutor

Whichever finishes first shows first. No more sequential waiting.
If Buleyean is faster, it appears before the base model.

Files changed (1) hide show

app.py +37 -7

app.py CHANGED Viewed

@@ -6,6 +6,7 @@ Base model vs Void-trained model. Live inference. Nothing hardcoded.
 import gradio as gr
 import torch
 import time
 from transformers import AutoModelForCausalLM, AutoTokenizer
 print("[Void] Loading base model...", flush=True)
@@ -53,13 +54,42 @@ def compare(prompt):
         yield "", "", "", ""
         return
-    base_text, base_time, base_toks, base_ms = gen(prompt, base_model, base_tokenizer)
-    base_stats = f"{base_toks} tokens in {base_time:.1f}s ({base_ms:.0f}ms/tok)"
-    yield base_text, "generating...", base_stats, "running..."
-    bule_text, bule_time, bule_toks, bule_ms = gen(prompt, bule_model, bule_tokenizer)
-    bule_stats = f"{bule_toks} tokens in {bule_time:.1f}s ({bule_ms:.0f}ms/tok)"
-    yield base_text, bule_text, base_stats, bule_stats
 CSS = """

 import gradio as gr
 import torch
 import time
+from concurrent.futures import ThreadPoolExecutor, as_completed
 from transformers import AutoModelForCausalLM, AutoTokenizer
 print("[Void] Loading base model...", flush=True)
         yield "", "", "", ""
         return
+    # Run both in parallel -- whichever finishes first shows first
+    base_result = [None]
+    bule_result = [None]
+    def run_base():
+        base_result[0] = gen(prompt, base_model, base_tokenizer)
+    def run_bule():
+        bule_result[0] = gen(prompt, bule_model, bule_tokenizer)
+    with ThreadPoolExecutor(max_workers=2) as pool:
+        futures = {
+            pool.submit(run_base): "base",
+            pool.submit(run_bule): "bule",
+        }
+        for future in as_completed(futures):
+            name = futures[future]
+            future.result()  # raise if error
+            if name == "base" and base_result[0]:
+                text, t, toks, ms = base_result[0]
+                stats = f"{toks} tokens in {t:.1f}s ({ms:.0f}ms/tok)"
+                bule_text = bule_result[0][0] if bule_result[0] else "generating..."
+                bule_s = f"{bule_result[0][2]} tokens in {bule_result[0][1]:.1f}s ({bule_result[0][3]:.0f}ms/tok)" if bule_result[0] else "running..."
+                yield text, bule_text, stats, bule_s
+            elif name == "bule" and bule_result[0]:
+                text, t, toks, ms = bule_result[0]
+                stats = f"{toks} tokens in {t:.1f}s ({ms:.0f}ms/tok)"
+                base_text = base_result[0][0] if base_result[0] else "generating..."
+                base_s = f"{base_result[0][2]} tokens in {base_result[0][1]:.1f}s ({base_result[0][3]:.0f}ms/tok)" if base_result[0] else "running..."
+                yield base_text, text, base_s, stats
+    # Final yield with both results
+    if base_result[0] and bule_result[0]:
+        bt, b_t, b_toks, b_ms = base_result[0]
+        vt, v_t, v_toks, v_ms = bule_result[0]
+        yield bt, vt, f"{b_toks} tokens in {b_t:.1f}s ({b_ms:.0f}ms/tok)", f"{v_toks} tokens in {v_t:.1f}s ({v_ms:.0f}ms/tok)"
 CSS = """