Spaces:

forkjoin-ai
/

the-void

Sleeping

Taylor commited on 16 days ago

Commit

33ad9ed

1 Parent(s): 53ff270

fix: switch to transformers+torch(cpu) -- no C++ compilation needed

llama-cpp-python requires compiling llama.cpp from source which
times out on HF Spaces (both Docker and Gradio SDK builders).

transformers 4.46+ can load GGUF files natively. CPU-only torch
wheel is ~200MB vs 2GB+ full torch. All pre-built wheels, zero
compilation, installs in seconds.

Files changed (2) hide show

app.py +49 -18
requirements.txt +6 -2

app.py CHANGED Viewed

@@ -4,25 +4,56 @@ Live inference. Real outputs. Nothing hardcoded.
 """
 import gradio as gr
-from llama_cpp import Llama
-from huggingface_hub import hf_hub_download
 print("Loading models...", flush=True)
-bule_path = hf_hub_download(repo_id="forkjoin-ai/buleyean-smollm2-360m", filename="buleyean-smollm2-360m-q4_k_m.gguf", cache_dir="/tmp/hf_cache")
-base_path = hf_hub_download(repo_id="bartowski/SmolLM2-360M-Instruct-GGUF", filename="SmolLM2-360M-Instruct-Q4_K_M.gguf", cache_dir="/tmp/hf_cache")
-bule_llm = Llama(model_path=bule_path, n_ctx=512, n_threads=4, verbose=False)
-base_llm = Llama(model_path=base_path, n_ctx=512, n_threads=4, verbose=False)
 print("Ready.", flush=True)
-def gen(prompt, model):
-    return model(f"<|im_start|>user\n{prompt}<|im_end|>\n<|im_start|>assistant\n",
-                 max_tokens=300, temperature=0.7, top_p=0.9,
-                 stop=["<|im_end|>", "<|im_start|>"])["choices"][0]["text"].strip()
 def compare(prompt):
     if not prompt or not prompt.strip():
         return "", ""
-    return gen(prompt, base_llm), gen(prompt, bule_llm)
 CSS = """
 /* AeonOS Design System */
@@ -109,16 +140,16 @@ with gr.Blocks(css=CSS, theme=gr.themes.Base(primary_hue="blue", neutral_hue="zi
     # Footer
     gr.HTML("""
     <div id="footer">
-        <p style="color:#a1a1aa; font-size:0.85rem; margin-bottom:0.5rem;">SmolLM2-360M-Instruct &nbsp;·&nbsp; Q4_K_M GGUF &nbsp;·&nbsp; Live inference on CPU</p>
         <p>
-            <a href="https://forkracefold.com/">Whitepaper</a> &nbsp;·&nbsp;
-            <a href="https://github.com/forkjoin-ai/buleyean-rl">Library</a> &nbsp;·&nbsp;
-            <a href="https://huggingface.co/forkjoin-ai">Models</a> &nbsp;·&nbsp;
-            <a href="https://huggingface.co/spaces/forkjoin-ai/glossolalia">Glossolalia</a> &nbsp;·&nbsp;
-            <a href="https://huggingface.co/spaces/forkjoin-ai/void-attention">Void Attention</a> &nbsp;·&nbsp;
             <a href="https://huggingface.co/spaces/forkjoin-ai/metacog">METACOG</a>
         </p>
-        <p style="margin-top:1rem;">500+ Lean 4 theorems &nbsp;·&nbsp; Zero sorry &nbsp;·&nbsp; <a href="https://forkracefold.com/">φ² = φ + 1</a></p>
     </div>
     """)

 """
 import gradio as gr
+import torch
+from transformers import AutoModelForCausalLM, AutoTokenizer
 print("Loading models...", flush=True)
+# Base model -- load from safetensors (fast)
+base_tokenizer = AutoTokenizer.from_pretrained("HuggingFaceTB/SmolLM2-360M-Instruct")
+base_model = AutoModelForCausalLM.from_pretrained(
+    "HuggingFaceTB/SmolLM2-360M-Instruct",
+    torch_dtype=torch.float32,
+    device_map="cpu",
+)
+# Buleyean model -- load from GGUF via transformers
+bule_model = AutoModelForCausalLM.from_pretrained(
+    "forkjoin-ai/buleyean-smollm2-360m",
+    gguf_file="buleyean-smollm2-360m-q4_k_m.gguf",
+    torch_dtype=torch.float32,
+    device_map="cpu",
+)
+# Reuse the same tokenizer (same base architecture)
+bule_tokenizer = base_tokenizer
 print("Ready.", flush=True)
+def gen(prompt, model, tokenizer):
+    messages = [{"role": "user", "content": prompt}]
+    text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
+    inputs = tokenizer(text, return_tensors="pt")
+    with torch.no_grad():
+        outputs = model.generate(
+            **inputs,
+            max_new_tokens=300,
+            temperature=0.7,
+            top_p=0.9,
+            do_sample=True,
+            pad_token_id=tokenizer.eos_token_id,
+        )
+    response = tokenizer.decode(outputs[0][inputs["input_ids"].shape[1]:], skip_special_tokens=True)
+    return response.strip()
 def compare(prompt):
     if not prompt or not prompt.strip():
         return "", ""
+    base_out = gen(prompt, base_model, base_tokenizer)
+    bule_out = gen(prompt, bule_model, bule_tokenizer)
+    return base_out, bule_out
 CSS = """
 /* AeonOS Design System */
     # Footer
     gr.HTML("""
     <div id="footer">
+        <p style="color:#a1a1aa; font-size:0.85rem; margin-bottom:0.5rem;">SmolLM2-360M-Instruct &nbsp;&middot;&nbsp; Q4_K_M GGUF &nbsp;&middot;&nbsp; Live inference on CPU</p>
         <p>
+            <a href="https://forkracefold.com/">Whitepaper</a> &nbsp;&middot;&nbsp;
+            <a href="https://github.com/forkjoin-ai/buleyean-rl">Library</a> &nbsp;&middot;&nbsp;
+            <a href="https://huggingface.co/forkjoin-ai">Models</a> &nbsp;&middot;&nbsp;
+            <a href="https://huggingface.co/spaces/forkjoin-ai/glossolalia">Glossolalia</a> &nbsp;&middot;&nbsp;
+            <a href="https://huggingface.co/spaces/forkjoin-ai/void-attention">Void Attention</a> &nbsp;&middot;&nbsp;
             <a href="https://huggingface.co/spaces/forkjoin-ai/metacog">METACOG</a>
         </p>
+        <p style="margin-top:1rem;">500+ Lean 4 theorems &nbsp;&middot;&nbsp; Zero sorry &nbsp;&middot;&nbsp; <a href="https://forkracefold.com/">&phi;&sup2; = &phi; + 1</a></p>
     </div>
     """)

requirements.txt CHANGED Viewed

@@ -1,3 +1,7 @@
---extra-index-url https://abetlen.github.io/llama-cpp-python/whl/cpu
-llama-cpp-python>=0.3.0
 huggingface-hub>=0.26.0

+--extra-index-url https://download.pytorch.org/whl/cpu
+torch>=2.1.0
+transformers>=4.46.0
 huggingface-hub>=0.26.0
+sentencepiece>=0.2.0
+accelerate>=1.0.0
+gguf>=0.10.0