Spaces:

my-ai-stack
/

stack-2-9-demo

Sleeping

App Files Files Community

walidsobhie-code commited on Apr 8

Commit

107429a

1 Parent(s): b58b524

Fix: Pin Gradio 4.12.0, simplify app, CPU mode

Browse files

Files changed (2) hide show

app.py +59 -65
requirements.txt +5 -0

app.py CHANGED Viewed

@@ -1,94 +1,88 @@
 """
 Stack 2.9 - HuggingFace Space
-Fine-tuned code assistant powered by Qwen2.5-Coder-1.5B
 """
 import gradio as gr
 from transformers import AutoModelForCausalLM, AutoTokenizer
 import torch
-# Load FINE-TUNED model
-MODEL_NAME = "Qwen/Qwen2.5-Coder-1.5B-Instruct"
-print(f"Loading {MODEL_NAME}...")
 tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME, trust_remote_code=True)
 model = AutoModelForCausalLM.from_pretrained(
     MODEL_NAME,
-    torch_dtype=torch.float16,
-    device_map="auto",
-    trust_remote_code=True
 )
-print("Fine-tuned model loaded!")
-def generate(prompt, system_prompt="You are a helpful coding assistant.", max_tokens=512, temperature=0.7):
-    """Generate response from the fine-tuned model"""
     messages = [
-        {"role": "system", "content": system_prompt},
         {"role": "user", "content": prompt}
     ]
     text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
-    inputs = tokenizer([text], return_tensors="pt").to(model.device)
-    outputs = model.generate(
-        **inputs,
-        max_new_tokens=max_tokens,
-        temperature=temperature,
-        do_sample=True,
-        pad_token_id=tokenizer.pad_token_id
-    )
     response = tokenizer.decode(outputs[0][len(inputs[0]):], skip_special_tokens=True)
     return response.strip()
-with gr.Blocks(title="Stack 2.9 - Fine-tuned Code Assistant") as demo:
-    gr.Markdown("""
-    # 💻 Stack 2.9 - Fine-tuned Code Assistant
-    **Fine-tuned on Stack Overflow data** · 1.5B parameters · Qwen2.5-Coder base
-    *This demo runs the actual fine-tuned model, not the base.*
-    """)
     with gr.Row():
-        with gr.Column(scale=1):
-            system_prompt = gr.Textbox(
-                label="System Prompt",
-                value="You are Stack 2.9, a helpful coding assistant specialized in programming.",
-                lines=3
-            )
             prompt = gr.Textbox(
-                label="Your Message",
-                placeholder="Write a Python function to calculate fibonacci numbers...",
                 lines=6
             )
             with gr.Row():
-                max_tokens = gr.Slider(32, 1024, value=512, step=32, label="Max Tokens")
-                temperature = gr.Slider(0.1, 1.5, value=0.7, step=0.1, label="Temperature")
-            submit = gr.Button("Generate 💻", variant="primary")
-        with gr.Column(scale=2):
-            output = gr.Textbox(label="Response", lines=15)
-    examples = [
-        ["Write a Python function to calculate fibonacci numbers"],
-        ["Explain what this code does: def foo(x): return x * 2"],
-        ["Debug this code: for i in range(10): print(i)"],
-        ["Write a SQL query to find duplicate emails"],
-        ["Write a function to reverse a string in Python"],
-        ["How do I handle exceptions in Python?"],
-    ]
-    gr.Examples(examples=examples, inputs=[prompt])
-    submit.click(
-        fn=generate,
-        inputs=[prompt, system_prompt, max_tokens, temperature],
-        outputs=output
-    )
-    prompt.submit(
-        fn=generate,
-        inputs=[prompt, system_prompt, max_tokens, temperature],
-        outputs=output
     )
 if __name__ == "__main__":
-    demo.launch(server_name="0.0.0.0", server_port=7860)

 """
 Stack 2.9 - HuggingFace Space
+Minimal Gradio UI for code generation
+Pinned to Gradio 4.12.0 for compatibility
 """
 import gradio as gr
 from transformers import AutoModelForCausalLM, AutoTokenizer
 import torch
+print("Loading model...")
+# Load model on CPU to fit free tier
+MODEL_NAME = "Qwen/Qwen2.5-Coder-1.5B-Instruct"
 tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME, trust_remote_code=True)
 model = AutoModelForCausalLM.from_pretrained(
     MODEL_NAME,
+    torch_dtype=torch.float32,  # CPU-friendly
+    device_map="cpu",
+    trust_remote_code=True,
+    low_cpu_mem_usage=True
 )
+print("Model loaded!")
+def generate_code(prompt, system_prompt="You are a helpful coding assistant.", max_tokens=256, temperature=0.7):
+    """Generate code from prompt"""
     messages = [
         {"role": "user", "content": prompt}
     ]
+    if system_prompt:
+        messages.insert(0, {"role": "system", "content": system_prompt})
     text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
+    inputs = tokenizer([text], return_tensors="pt")
+    with torch.no_grad():
+        outputs = model.generate(
+            **inputs,
+            max_new_tokens=max_tokens,
+            temperature=temperature,
+            do_sample=True,
+            pad_token_id=tokenizer.pad_token_id or tokenizer.eos_token_id
+        )
     response = tokenizer.decode(outputs[0][len(inputs[0]):], skip_special_tokens=True)
     return response.strip()
+# Simple UI
+with gr.Blocks(title="Stack 2.9", theme=gr.themes.Soft()) as demo:
+    gr.Markdown("# 💻 Stack 2.9 Code Assistant")
+    gr.Markdown(f"Running: `{MODEL_NAME}` · 1.5B parameters · CPU")
     with gr.Row():
+        with gr.Column():
             prompt = gr.Textbox(
+                label="Your prompt",
+                placeholder="Write a Python function to calculate fibonacci...",
                 lines=6
             )
+            system = gr.Textbox(
+                label="System prompt",
+                value="You are a helpful coding assistant.",
+                lines=2
+            )
             with gr.Row():
+                max_tokens = gr.Slider(64, 512, value=256, label="Max tokens")
+                temp = gr.Slider(0.1, 1.0, value=0.7, label="Temperature")
+            btn = gr.Button("Generate", variant="primary")
+        with gr.Column():
+            output = gr.Code(label="Generated code", language="python", lines=20)
+            clear = gr.Button("Clear")
+    gr.Examples(
+        examples=[
+            ["Write a Python function to calculate fibonacci numbers"],
+            ["Explain what this code does: def foo(x): return x * 2"],
+            ["Write a SQL query to find duplicate emails"],
+            ["How do I handle exceptions in Python?"],
+        ],
+        inputs=prompt
     )
+    btn.click(generate_code, [prompt, system, max_tokens, temp], output)
+    prompt.submit(generate_code, [prompt, system, max_tokens, temp], output)
+    clear.click(lambda: "", None, prompt)
 if __name__ == "__main__":
+    demo.queue().launch(server_name="0.0.0.0", server_port=7860)

requirements.txt ADDED Viewed

	@@ -0,0 +1,5 @@

+gradio==4.12.0
+transformers==4.40.0
+torch==2.1.2
+accelerate==0.25.0
+sentencepiece==0.2.0