Spaces:

Vishwas1
/

single-layer-pruner

Paused

App Files Files Community

Vishwas1 commited on Mar 16

Commit

8449b1c

verified ·

1 Parent(s): 80b56c0

Update app.py

Browse files

Files changed (1) hide show

app.py +8 -8

app.py CHANGED Viewed

@@ -14,7 +14,6 @@ def prune_to_single_layer(model_id: str):
     status_lines = []
     status_lines.append(f"Loading base model: {model_id}")
-    # Initialize as None to prevent UnboundLocalError in the finally block
     model = None
     tokenizer = None
@@ -65,8 +64,8 @@ def prune_to_single_layer(model_id: str):
                 outputs = model.generate(
                     **inputs.to(model.device),
                     max_new_tokens=40,
-                    do_sample=False, # Temperature removed to prevent conflict
-                    pad_token_id=tokenizer.eos_token_id # Prevents warnings/crashes on Llama
                 )
             text = tokenizer.decode(outputs[0], skip_special_tokens=True)
             status_lines.append("\nQuick generation test (should be at least semi-coherent):")
@@ -86,7 +85,6 @@ def prune_to_single_layer(model_id: str):
         return "\n".join(status_lines) + f"\n\n❌ Failed: {err_msg}"
     finally:
-        # Safely try to free memory even on failure
         if model is not None:
             del model
         if tokenizer is not None:
@@ -98,7 +96,8 @@ def prune_to_single_layer(model_id: str):
 # ────────────────────────────────────────────────
 CSS = """.gradio-container { max-width: 780px !important; }"""
-with gr.Blocks(title="Minimal Single-Layer Pruner", css=CSS, theme=gr.themes.Default()) as demo:
     gr.Markdown("""
     # Single-Layer Pruner (test version)
     Loads a small model → keeps **only the last layer** → shows result + quick generation test.
@@ -117,11 +116,11 @@ with gr.Blocks(title="Minimal Single-Layer Pruner", css=CSS, theme=gr.themes.Def
         value="Qwen/Qwen2.5-0.5B-Instruct"
     )
     status = gr.Textbox(
         label="Pruning log",
         lines=18,
-        interactive=False,
-        show_copy_button=True
     )
     btn = gr.Button("Prune to 1 layer → Test", variant="primary")
@@ -140,4 +139,5 @@ with gr.Blocks(title="Minimal Single-Layer Pruner", css=CSS, theme=gr.themes.Def
     """)
 if __name__ == "__main__":
-    demo.launch()

     status_lines = []
     status_lines.append(f"Loading base model: {model_id}")
     model = None
     tokenizer = None
                 outputs = model.generate(
                     **inputs.to(model.device),
                     max_new_tokens=40,
+                    do_sample=False,
+                    pad_token_id=tokenizer.eos_token_id
                 )
             text = tokenizer.decode(outputs[0], skip_special_tokens=True)
             status_lines.append("\nQuick generation test (should be at least semi-coherent):")
         return "\n".join(status_lines) + f"\n\n❌ Failed: {err_msg}"
     finally:
         if model is not None:
             del model
         if tokenizer is not None:
 # ────────────────────────────────────────────────
 CSS = """.gradio-container { max-width: 780px !important; }"""
+# FIX 1: Removed css and theme from Blocks()
+with gr.Blocks(title="Minimal Single-Layer Pruner") as demo:
     gr.Markdown("""
     # Single-Layer Pruner (test version)
     Loads a small model → keeps **only the last layer** → shows result + quick generation test.
         value="Qwen/Qwen2.5-0.5B-Instruct"
     )
+    # FIX 2: Removed show_copy_button=True
     status = gr.Textbox(
         label="Pruning log",
         lines=18,
+        interactive=False
     )
     btn = gr.Button("Prune to 1 layer → Test", variant="primary")
     """)
 if __name__ == "__main__":
+    # FIX 3: Moved css and theme into launch()
+    demo.launch(css=CSS, theme=gr.themes.Default())