Spaces:

shabul
/

feynman-explainer

Sleeping

App Files Files Community

shabul commited on Apr 24

Commit

d062dd2

verified ·

1 Parent(s): be033bd

Simplify: drop threading/streamer, use synchronous generate + torch.no_grad

Browse files

Files changed (1) hide show

app.py +14 -43

app.py CHANGED Viewed

@@ -6,8 +6,6 @@ Loads qwen2.5-3b-feynman-explainer on CPU with a CPU-safe dtype.
 Streams tokens for a responsive ChatGPT-like experience.
 """
-import threading
 try:
     import spaces  # HF Spaces ZeroGPU shim — no-op on CPU tier
 except ImportError:
@@ -15,7 +13,7 @@ except ImportError:
 import gradio as gr
 import torch
-from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer
 MODEL_ID = "shabul/qwen2.5-3b-feynman-explainer"
@@ -76,47 +74,20 @@ def respond(message: str, history: list[dict], max_new_tokens: int, temperature:
         return_tensors="pt",
     )
-    streamer = TextIteratorStreamer(
-        tokenizer, skip_prompt=True, skip_special_tokens=True, timeout=300.0
-    )
-    gen_kwargs = dict(
-        input_ids=input_ids,
-        streamer=streamer,
-        max_new_tokens=max_new_tokens,
-        temperature=temperature,
-        do_sample=temperature > 0,
-        repetition_penalty=1.1,
     )
-    gen_exception = []
-    def generate_with_catch():
-        try:
-            model.generate(**gen_kwargs)
-        except Exception as e:
-            gen_exception.append(f"{type(e).__name__}: {repr(e)}")
-            streamer.end()
-    thread = threading.Thread(target=generate_with_catch, daemon=True)
-    thread.start()
-    partial = ""
-    try:
-        for token in streamer:
-            partial += token
-            yield partial
-    except Exception:
-        pass
-    thread.join(timeout=5)
-    if gen_exception:
-        err_msg = f"⚠️ Generation error: {gen_exception[0]}"
-        print(err_msg)
-        yield (partial + "\n\n" + err_msg) if partial else err_msg
-    elif not partial:
-        yield "⚠️ No response generated. Try again."
 with gr.Blocks(

 Streams tokens for a responsive ChatGPT-like experience.
 """
 try:
     import spaces  # HF Spaces ZeroGPU shim — no-op on CPU tier
 except ImportError:
 import gradio as gr
 import torch
+from transformers import AutoModelForCausalLM, AutoTokenizer
 MODEL_ID = "shabul/qwen2.5-3b-feynman-explainer"
         return_tensors="pt",
     )
+    with torch.no_grad():
+        output_ids = model.generate(
+            input_ids,
+            max_new_tokens=max_new_tokens,
+            temperature=temperature,
+            do_sample=temperature > 0,
+            repetition_penalty=1.1,
+        )
+    response = tokenizer.decode(
+        output_ids[0][input_ids.shape[1]:],
+        skip_special_tokens=True,
     )
+    yield response
 with gr.Blocks(