Spaces:

Ronaldodev
/

chat

Sleeping

Ronaldo Claude Sonnet 4.6 commited on Apr 18

Commit

f9b70b8

1 Parent(s): c45e8d4

Add token streaming for real-time response display

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,5 +1,6 @@
 import gradio as gr
-from transformers import AutoModelForCausalLM, AutoTokenizer
 import torch
 model_id = "LiquidAI/LFM2.5-1.2B-Instruct"
@@ -26,12 +27,22 @@ def chat(message, history):
     )
     input_ids = (encoded.input_ids if hasattr(encoded, "input_ids") else encoded).to(model.device)
-    output = model.generate(
-        input_ids, do_sample=True,
-        temperature=0.1, top_k=50,
-        repetition_penalty=1.05, max_new_tokens=512
-    )
-    return tokenizer.decode(output[0][input_ids.shape[1]:], skip_special_tokens=True)
 demo = gr.ChatInterface(
     fn=chat,

+import threading
 import gradio as gr
+from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer
 import torch
 model_id = "LiquidAI/LFM2.5-1.2B-Instruct"
     )
     input_ids = (encoded.input_ids if hasattr(encoded, "input_ids") else encoded).to(model.device)
+    streamer = TextIteratorStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)
+    thread = threading.Thread(target=model.generate, kwargs=dict(
+        input_ids=input_ids,
+        do_sample=True,
+        temperature=0.1,
+        top_k=50,
+        repetition_penalty=1.05,
+        max_new_tokens=512,
+        streamer=streamer,
+    ))
+    thread.start()
+    partial = ""
+    for token in streamer:
+        partial += token
+        yield partial
 demo = gr.ChatInterface(
     fn=chat,