Spaces:

RohanVashisht
/

asdfasdf

Runtime error

File size: 2,039 Bytes

d04f182
b17e7db
 
 
 
 
5477154
b17e7db
 
 
 
 
 
d04f182
b17e7db
 
d04f182
b17e7db
 
 
 
 
d04f182
 
b17e7db
 
 
 
 
 
 
 
d04f182
b17e7db
 
 
 
d04f182
 
b17e7db
 
d04f182
b17e7db
 
 
d04f182
b17e7db
d04f182
b17e7db
d04f182
 
 
 
 
 
b17e7db
d04f182

import gradio as gr
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

# Load Qwen3-0.6B locally with GPU/CPU optimization
model_name = "Qwen/Qwen3-0.6B"
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.float16 if torch.cuda.is_available() else torch.float32,
    device_map="auto" if torch.cuda.is_available() else None
)
model.eval()

def respond(message, history: list[tuple[str, str]], system_message, max_tokens, temperature, top_p):
    # Build chat history
    messages = [{"role": "system", "content": system_message}]
    for user_msg, bot_msg in history:
        if user_msg:
            messages.append({"role": "user", "content": user_msg})
        if bot_msg:
            messages.append({"role": "assistant", "content": bot_msg})
    messages.append({"role": "user", "content": message})

    # Format messages into a single string for generation
    prompt = ""
    for m in messages:
        prompt += f"{m['role'].capitalize()}: {m['content']}\n"
    prompt += "Assistant:"

    # Tokenize
    input_ids = tokenizer(prompt, return_tensors="pt").input_ids.to(model.device)

    # Generate
    output_ids = model.generate(
        input_ids,
        max_new_tokens=max_tokens,
        temperature=temperature,
        top_p=top_p,
        do_sample=True
    )

    # Decode
    output_text = tokenizer.decode(output_ids[0], skip_special_tokens=True)
    response = output_text[len(prompt):].strip()

    yield response

# Gradio UI
demo = gr.ChatInterface(
    respond,
    additional_inputs=[
        gr.Textbox(value="You are a friendly Chatbot.", label="System message"),
        gr.Slider(minimum=1, maximum=2048, value=512, step=1, label="Max new tokens"),
        gr.Slider(minimum=0.1, maximum=4.0, value=0.7, step=0.1, label="Temperature"),
        gr.Slider(minimum=0.1, maximum=1.0, value=0.95, step=0.05, label="Top-p"),
    ],
)

if __name__ == "__main__":
    demo.launch()