Spaces:

ghananlpcommunity
/

Opani-Coder-DEMO

Running

App Files Files Community

michsethowusu commited on Oct 14, 2025

Commit

d97f5cf

verified ·

1 Parent(s): d435fb6

Upload 2 files

Browse files

Files changed (2) hide show

app.py +215 -0
requirements.txt +8 -0

app.py ADDED Viewed

	@@ -0,0 +1,215 @@

+import gradio as gr
+import torch
+from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer
+from peft import PeftModel
+from threading import Thread
+# Your model configuration
+BASE_MODEL = "unsloth/Qwen3-4B-Instruct-2507"
+LORA_MODEL = "michsethowusu/twi_code_assistant"
+print("Loading base model...")
+tokenizer = AutoTokenizer.from_pretrained(BASE_MODEL)
+base_model = AutoModelForCausalLM.from_pretrained(
+    BASE_MODEL,
+    torch_dtype=torch.float16,
+    device_map="auto",
+    low_cpu_mem_usage=True
+)
+print("Loading LoRA adapters...")
+model = PeftModel.from_pretrained(base_model, LORA_MODEL)
+model = model.merge_and_unload()  # Merge for faster inference
+print("Model ready!")
+def generate_response(message, history, temperature, top_p, top_k, max_tokens):
+    """Generate response from the model with streaming"""
+    # Build conversation history
+    messages = []
+    for user_msg, assistant_msg in history:
+        messages.append({"role": "user", "content": user_msg})
+        messages.append({"role": "assistant", "content": assistant_msg})
+    messages.append({"role": "user", "content": message})
+    # Apply chat template
+    text = tokenizer.apply_chat_template(
+        messages,
+        tokenize=False,
+        add_generation_prompt=True
+    )
+    # Tokenize
+    inputs = tokenizer(text, return_tensors="pt").to(model.device)
+    # Setup streaming
+    streamer = TextIteratorStreamer(
+        tokenizer,
+        skip_prompt=True,
+        skip_special_tokens=True
+    )
+    # Generation kwargs
+    generation_kwargs = {
+        **inputs,
+        "max_new_tokens": max_tokens,
+        "temperature": temperature,
+        "top_p": top_p,
+        "top_k": top_k,
+        "do_sample": True,
+        "streamer": streamer,
+    }
+    # Start generation in separate thread
+    thread = Thread(target=model.generate, kwargs=generation_kwargs)
+    thread.start()
+    # Stream the response
+    partial_message = ""
+    for new_text in streamer:
+        partial_message += new_text
+        yield partial_message
+    thread.join()
+# Create Gradio interface
+with gr.Blocks(theme=gr.themes.Soft()) as demo:
+    gr.Markdown(
+        """
+        # 🇬🇭 Twi Code Assistant
+        A fine-tuned Qwen3-4B model specialized for coding assistance in Twi language context.
+        Ask me anything about programming, and I'll help you out!
+        """
+    )
+    chatbot = gr.Chatbot(
+        height=500,
+        label="Chat History",
+        type="messages",
+        avatar_images=(None, "https://em-content.zobj.net/source/twitter/53/robot-face_1f916.png")
+    )
+    with gr.Row():
+        msg = gr.Textbox(
+            label="Your Message",
+            placeholder="Ask me a coding question...",
+            scale=4,
+            lines=2
+        )
+        submit = gr.Button("Send 🚀", scale=1, variant="primary")
+    with gr.Accordion("⚙️ Generation Parameters", open=False):
+        gr.Markdown("*Adjust these settings to control the response style*")
+        temperature = gr.Slider(
+            minimum=0.1,
+            maximum=2.0,
+            value=0.7,
+            step=0.1,
+            label="Temperature",
+            info="Higher = more creative, Lower = more focused"
+        )
+        top_p = gr.Slider(
+            minimum=0.1,
+            maximum=1.0,
+            value=0.8,
+            step=0.05,
+            label="Top P",
+            info="Nucleus sampling threshold"
+        )
+        top_k = gr.Slider(
+            minimum=1,
+            maximum=100,
+            value=20,
+            step=1,
+            label="Top K",
+            info="Number of top tokens to consider"
+        )
+        max_tokens = gr.Slider(
+            minimum=64,
+            maximum=2048,
+            value=512,
+            step=64,
+            label="Max Tokens",
+            info="Maximum length of response"
+        )
+    with gr.Row():
+        clear = gr.Button("🗑️ Clear Chat")
+    # Example prompts
+    gr.Examples(
+        examples=[
+            ["How do I create a Python function?"],
+            ["Explain what a for loop does"],
+            ["Write a simple calculator program"],
+            ["What's the difference between a list and a tuple?"],
+            ["Help me debug this code"],
+        ],
+        inputs=msg,
+        label="Example Questions"
+    )
+    # Event handlers
+    def user_submit(user_message, history):
+        return "", history + [[user_message, None]]
+    def bot_respond(history, temperature, top_p, top_k, max_tokens):
+        user_message = history[-1][0]
+        history_context = history[:-1]
+        history[-1][1] = ""
+        for response in generate_response(
+            user_message,
+            history_context,
+            temperature,
+            top_p,
+            top_k,
+            max_tokens
+        ):
+            history[-1][1] = response
+            yield history
+    # Connect events
+    msg.submit(
+        user_submit,
+        [msg, chatbot],
+        [msg, chatbot],
+        queue=False
+    ).then(
+        bot_respond,
+        [chatbot, temperature, top_p, top_k, max_tokens],
+        chatbot
+    )
+    submit.click(
+        user_submit,
+        [msg, chatbot],
+        [msg, chatbot],
+        queue=False
+    ).then(
+        bot_respond,
+        [chatbot, temperature, top_p, top_k, max_tokens],
+        chatbot
+    )
+    clear.click(lambda: None, None, chatbot, queue=False)
+    gr.Markdown(
+        """
+        ---
+        ### 💡 Tips for Best Results:
+        - **Factual/Technical questions**: Use temperature 0.3-0.5
+        - **Creative coding solutions**: Use temperature 0.7-1.0
+        - **Code generation**: Use temperature 0.5-0.7
+        ### 📝 About This Model
+        This is a fine-tuned Qwen3-4B model trained with Unsloth for efficient coding assistance.
+        **Model**: [michsethowusu/twi_code_assistant](https://huggingface.co/michsethowusu/twi_code_assistant)
+        """
+    )
+if __name__ == "__main__":
+    demo.queue().launch()

requirements.txt ADDED Viewed

	@@ -0,0 +1,8 @@

+transformers>=4.55.4
+torch>=2.0.0
+gradio>=4.0.0
+accelerate>=0.20.0
+peft>=0.7.0
+sentencepiece
+protobuf
+bitsandbytes