Spaces:

Valtry
/

AI-Machine

Sleeping

App Files Files Community

Valtry commited on Apr 24

Commit

d696b9c

verified ·

1 Parent(s): 89001a4

Create app.py

Browse files

Files changed (1) hide show

app.py +87 -0

app.py ADDED Viewed

	@@ -0,0 +1,87 @@

+import gradio as gr
+import torch
+from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer
+from threading import Thread
+MODEL_ID = "microsoft/phi-3-mini-4k-instruct"
+# Load model + tokenizer
+tokenizer = AutoTokenizer.from_pretrained(MODEL_ID)
+model = AutoModelForCausalLM.from_pretrained(
+    MODEL_ID,
+    torch_dtype=torch.float32,   # safer for CPU
+    device_map="auto"
+)
+# Chat function with streaming
+def chat(message, history):
+    # Format conversation
+    messages = []
+    for user, bot in history:
+        messages.append({"role": "user", "content": user})
+        messages.append({"role": "assistant", "content": bot})
+    messages.append({"role": "user", "content": message})
+    # Apply chat template
+    prompt = tokenizer.apply_chat_template(
+        messages,
+        tokenize=False,
+        add_generation_prompt=True
+    )
+    inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
+    streamer = TextIteratorStreamer(
+        tokenizer,
+        skip_prompt=True,
+        skip_special_tokens=True
+    )
+    generation_kwargs = dict(
+        **inputs,
+        streamer=streamer,
+        max_new_tokens=150,     # keep small for speed
+        temperature=0.7,
+        do_sample=True
+    )
+    thread = Thread(target=model.generate, kwargs=generation_kwargs)
+    thread.start()
+    partial_text = ""
+    for new_token in streamer:
+        partial_text += new_token
+        yield partial_text
+# Gradio UI
+with gr.Blocks(theme=gr.themes.Soft()) as demo:
+    gr.Markdown("## ⚡ Phi-3 Mini Chatbot (Fast HF Space)")
+    chatbot = gr.Chatbot()
+    msg = gr.Textbox(placeholder="Type your message...")
+    clear = gr.Button("Clear")
+    def user_input(user_message, history):
+        return "", history + [[user_message, ""]]
+    def bot_response(history):
+        user_message = history[-1][0]
+        bot_reply = ""
+        for chunk in chat(user_message, history[:-1]):
+            bot_reply = chunk
+            history[-1][1] = bot_reply
+            yield history
+    msg.submit(user_input, [msg, chatbot], [msg, chatbot], queue=False).then(
+        bot_response, chatbot, chatbot
+    )
+    clear.click(lambda: None, None, chatbot, queue=False)
+demo.queue()
+demo.launch()