Spaces:

Vishwas1
/

single-layer-pruner

Paused

App Files Files Community

Vishwas1 commited on Mar 16

Commit

17f949e

verified ·

1 Parent(s): e4e0279

Create app.py

Browse files

Files changed (1) hide show

app.py +48 -0

app.py ADDED Viewed

	@@ -0,0 +1,48 @@

+import os
+import gradio as gr
+import torch
+from transformers import AutoModelForCausalLM, AutoTokenizer
+from huggingface_hub import HfApi
+def prune_to_single_layer_and_push(base_model_id: str, new_repo_id: str, make_private: bool):
+    hf_token = os.getenv("HF_TOKEN")
+    if not hf_token:
+        return "❌ Set HF_TOKEN secret in Space Settings first!"
+    if not base_model_id or not new_repo_id:
+        return "❌ Fill model and repo name"
+    try:
+        # Load safely on CPU (free Space friendly)
+        model = AutoModelForCausalLM.from_pretrained(
+            base_model_id,
+            torch_dtype=torch.float16 if torch.cuda.is_available() else torch.float32,
+            device_map="cpu",
+            trust_remote_code=True,
+            low_cpu_mem_usage=True
+        )
+        tokenizer = AutoTokenizer.from_pretrained(base_model_id, trust_remote_code=True)
+        # === SINGLE LAYER MAGIC ===
+        if hasattr(model, "model") and hasattr(model.model, "layers"):
+            model.model.layers = torch.nn.ModuleList([model.model.layers[-1]])  # keep LAST layer only
+            model.config.num_hidden_layers = 1
+        else:
+            return "❌ Model type not supported (needs standard .model.layers)"
+        # Push
+        model.push_to_hub(new_repo_id, private=make_private, token=hf_token, safe_serialization=True)
+        tokenizer.push_to_hub(new_repo_id, private=make_private, token=hf_token)
+        link = f"https://huggingface.co/{new_repo_id}"
+        return f"""✅ SUCCESS!
+Single-layer model is live at:
+**{link}**
+Size: ~0.3–0.8 GB → runs at 40–100+ tokens/s on any CPU!
+Load it anywhere:
+```python
+from transformers import AutoModelForCausalLM
+model = AutoModelForCausalLM.from_pretrained("{new_repo_id}")