Spaces:

Remostart
/

Plutus_PersonalisedTutor

Sleeping

App Files Files Community

Remostart commited on Sep 7, 2025

Commit

24082be

verified ·

1 Parent(s): 6b5e102

Update app.py

Browse files

Files changed (1) hide show

app.py +110 -80

app.py CHANGED Viewed

@@ -1,57 +1,75 @@
 import gradio as gr
 import torch
-from transformers import AutoModelForCausalLM, AutoTokenizer, TextStreamer
 import spaces
 MODEL_NAME = "ubiodee/Plutus_Tutor_new"
-# --------- Lightweight utilities ----------
 def build_prompt(personality, level, topic):
     return (
-        f"You are a Plutus AI Assistant tailored for a {personality} learner "
-        f"at {level} level, focusing on {topic}. Provide a clear, concise, "
-        f"and tailored explanation of {topic}, suitable for the specified personality and expertise level."
     )
-def _ensure_tokenizer():
-    tok = AutoTokenizer.from_pretrained(MODEL_NAME)
-    if tok.pad_token_id is None:
-        tok.pad_token = tok.eos_token
-    return tok
-# CPU fallback (slow, but prevents total failure)
-def generate_cpu(personality, level, topic, max_new_tokens=250):
-    tokenizer = _ensure_tokenizer()
-    prompt = build_prompt(personality, level, topic)
     inputs = tokenizer(prompt, return_tensors="pt")
-    # Small settings for CPU to avoid long stalls
-    with torch.inference_mode():
-        model = AutoModelForCausalLM.from_pretrained(MODEL_NAME)  # CPU load
-        model.eval()
-        outputs = model.generate(
-            **inputs,
-            max_new_tokens=min(max_new_tokens, 128),
-            temperature=0.2,
-            top_p=0.9,
-            do_sample=True,
-            eos_token_id=tokenizer.eos_token_id,
-            pad_token_id=tokenizer.pad_token_id,
-        )
-    text = tokenizer.decode(outputs[0], skip_special_tokens=True)
-    if text.startswith(prompt):
-        text = text[len(prompt):].strip()
-    return text
 @spaces.GPU
-def generate_gpu(personality, level, topic, max_new_tokens=1000):
     """
-    Runs ONLY under a granted GPU.
-    Loads the model in 4-bit to fit ZeroGPU VRAM, generates, then frees VRAM.
     """
-    tokenizer = _ensure_tokenizer()
-    prompt = build_prompt(personality, level, topic)
-    # Prefer 4-bit to minimize VRAM on ZeroGPU
     try:
         model = AutoModelForCausalLM.from_pretrained(
             MODEL_NAME,
@@ -59,33 +77,38 @@ def generate_gpu(personality, level, topic, max_new_tokens=1000):
             device_map="auto",
         )
     except Exception:
-        # If 4-bit isn’t available for this arch, fallback to fp16 on GPU
         model = AutoModelForCausalLM.from_pretrained(
             MODEL_NAME,
             torch_dtype=torch.float16,
             device_map="auto",
         )
     model.eval()
     device = next(model.parameters()).device
     inputs = tokenizer(prompt, return_tensors="pt")
     inputs = {k: v.to(device) for k, v in inputs.items()}
-    with torch.inference_mode():
-        outputs = model.generate(
-            **inputs,
-            max_new_tokens=max_new_tokens,
-            temperature=0.3,
-            top_p=0.3,
-            do_sample=True,
-            eos_token_id=tokenizer.eos_token_id,
-            pad_token_id=tokenizer.pad_token_id,
-        )
-    text = tokenizer.decode(outputs[0], skip_special_tokens=True)
-    if text.startswith(prompt):
-        text = text[len(prompt):].strip()
     # Free VRAM ASAP
     try:
@@ -95,24 +118,28 @@ def generate_gpu(personality, level, topic, max_new_tokens=1000):
     except Exception:
         pass
-    return text
-def orchestrator(personality, level, topic):
-    # Don’t run until all selections are made
     if not personality or not level or not topic:
-        return "Select your personality, expertise, and topic to get a tailored explanation."
-    # Try GPU path first; if ZeroGPU refuses/throws, fallback to CPU
     try:
-        return generate_gpu(personality, level, topic)
-    except RuntimeError as e:
-        # Typical ZeroGPU worker errors show here – fall back gracefully
-        return f"(GPU unavailable, using CPU fallback)\n\n{generate_cpu(personality, level, topic)}"
     except Exception as e:
-        # Any other unexpected issue – try CPU anyway
-        return f"(GPU error: {type(e).__name__})\n\n{generate_cpu(personality, level, topic)}"
-# --------- Gradio UI ----------
 with gr.Blocks(theme="default") as iface:
     gr.Markdown(
         "## Cardano Plutus AI Assistant\n"
@@ -126,14 +153,14 @@ with gr.Blocks(theme="default") as iface:
             label="Learning Personality",
             value=None,
             allow_custom_value=False,
-            scale=1
         )
         level = gr.Dropdown(
             choices=["Beginner", "Intermediate", "Advanced"],
             label="Expertise Level",
             value=None,
             allow_custom_value=False,
-            scale=1
         )
         topic = gr.Dropdown(
             choices=[
@@ -153,26 +180,29 @@ with gr.Blocks(theme="default") as iface:
             label="Topic",
             value=None,
             allow_custom_value=False,
-            scale=2
         )
     with gr.Row():
-        regen = gr.Button("🔁 Regenerate")
-    output = gr.Textbox(label="Model Response", lines=12, interactive=False, show_copy_button=True)
-    # Auto-generate when any dropdown changes (only once all three have values)
-    def _maybe_generate(p, l, t):
-        if p and l and t:
-            return orchestrator(p, l, t)
-        return "Select your personality, expertise, and topic to get a tailored explanation."
-    personality.change(_maybe_generate, [personality, level, topic], output, queue=True)
-    level.change(_maybe_generate, [personality, level, topic], output, queue=True)
-    topic.change(_maybe_generate, [personality, level, topic], output, queue=True)
-    regen.click(orchestrator, [personality, level, topic], output, queue=True)
-# Enable request queueing (simpler call for older Gradio)
 iface.queue()
 if __name__ == "__main__":

+import threading
 import gradio as gr
 import torch
+from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer
 import spaces
 MODEL_NAME = "ubiodee/Plutus_Tutor_new"
+# ---------------- Utilities ----------------
+_TOKENIZER = None
+def get_tokenizer():
+    global _TOKENIZER
+    if _TOKENIZER is None:
+        tok = AutoTokenizer.from_pretrained(MODEL_NAME)
+        if tok.pad_token_id is None:
+            tok.pad_token = tok.eos_token
+        _TOKENIZER = tok
+    return _TOKENIZER
 def build_prompt(personality, level, topic):
+    # Conversational, clear, and bounded length to reduce truncation
     return (
+        f"You are a friendly Plutus AI tutor for a {personality} learner at {level} level.\n"
+        f"Topic: {topic}\n\n"
+        f"Explain in a conversational tone, with simple language and concrete examples.\n"
+        f"Keep it focused and complete in about 120–180 words.\n"
+        f"End with a single-sentence takeaway starting with 'Takeaway:'.\n"
     )
+# ---------------- Streaming paths ----------------
+def from_cpu_stream(prompt, max_new_tokens=200):
+    tokenizer = get_tokenizer()
+    # Load on CPU (fallback)
+    model = AutoModelForCausalLM.from_pretrained(MODEL_NAME)
+    model.eval()
     inputs = tokenizer(prompt, return_tensors="pt")
+    streamer = TextIteratorStreamer(tokenizer, skip_special_tokens=True)
+    gen_kwargs = dict(
+        **inputs,
+        max_new_tokens=max_new_tokens,
+        temperature=0.2,
+        top_p=0.9,
+        do_sample=True,
+        eos_token_id=tokenizer.eos_token_id,
+        pad_token_id=tokenizer.pad_token_id,
+        streamer=streamer,
+    )
+    t = threading.Thread(target=model.generate, kwargs=gen_kwargs)
+    t.start()
+    buffer = ""
+    for piece in streamer:
+        buffer += piece
+        # Trim echoed prompt once
+        if buffer.startswith(prompt):
+            buffer = buffer[len(prompt):].lstrip()
+        yield buffer
 @spaces.GPU
+def _gpu_generate_stream(prompt, max_new_tokens):
     """
+    This function runs ONLY when ZeroGPU grants a GPU.
+    We create a nested generator so Gradio can stream tokens.
     """
+    tokenizer = get_tokenizer()
+    # Prefer 4-bit to reduce VRAM; if not available, fall back to fp16
     try:
         model = AutoModelForCausalLM.from_pretrained(
             MODEL_NAME,
             device_map="auto",
         )
     except Exception:
         model = AutoModelForCausalLM.from_pretrained(
             MODEL_NAME,
             torch_dtype=torch.float16,
             device_map="auto",
         )
     model.eval()
     device = next(model.parameters()).device
     inputs = tokenizer(prompt, return_tensors="pt")
     inputs = {k: v.to(device) for k, v in inputs.items()}
+    streamer = TextIteratorStreamer(tokenizer, skip_special_tokens=True)
+    gen_kwargs = dict(
+        **inputs,
+        max_new_tokens=max_new_tokens,
+        temperature=0.15,
+        top_p=0.9,
+        do_sample=True,
+        eos_token_id=tokenizer.eos_token_id,
+        pad_token_id=tokenizer.pad_token_id,
+        streamer=streamer,
+    )
+    t = threading.Thread(target=model.generate, kwargs=gen_kwargs)
+    t.start()
+    buffer = ""
+    for piece in streamer:
+        buffer += piece
+        if buffer.startswith(prompt):
+            buffer = buffer[len(prompt):].lstrip()
+        yield buffer
     # Free VRAM ASAP
     try:
     except Exception:
         pass
+def orchestrator_stream(personality, level, topic):
     if not personality or not level or not topic:
+        yield "Select your personality, expertise, and topic to get a tailored explanation."
+        return
+    prompt = build_prompt(personality, level, topic)
+    # Try GPU streaming first
     try:
+        for chunk in _gpu_generate_stream(prompt, max_new_tokens=240):
+            yield chunk
+        return
     except Exception as e:
+        # Log server-side; do NOT show to user
+        print(f"[GPU fallback] {type(e).__name__}: {e}")
+    # CPU streaming fallback
+    for chunk in from_cpu_stream(prompt, max_new_tokens=200):
+        yield chunk
+# ---------------- Gradio UI ----------------
 with gr.Blocks(theme="default") as iface:
     gr.Markdown(
         "## Cardano Plutus AI Assistant\n"
             label="Learning Personality",
             value=None,
             allow_custom_value=False,
+            scale=1,
         )
         level = gr.Dropdown(
             choices=["Beginner", "Intermediate", "Advanced"],
             label="Expertise Level",
             value=None,
             allow_custom_value=False,
+            scale=1,
         )
         topic = gr.Dropdown(
             choices=[
             label="Topic",
             value=None,
             allow_custom_value=False,
+            scale=2,
         )
     with gr.Row():
+        regen = gr.Button("🔁 Generate")
+    output = gr.Textbox(
+        label="Model Response",
+        lines=12,
+        interactive=False,
+        show_copy_button=True
+    )
+    # Auto-generate whenever any dropdown changes (after all 3 are set)
+    def _maybe_stream(p, l, t):
+        return orchestrator_stream(p, l, t)
+    personality.change(_maybe_stream, [personality, level, topic], output, queue=True)
+    level.change(_maybe_stream, [personality, level, topic], output, queue=True)
+    topic.change(_maybe_stream, [personality, level, topic], output, queue=True)
+    regen.click(_maybe_stream, [personality, level, topic], output, queue=True)
+# Enable request queueing (use simple call for wider Gradio compatibility)
 iface.queue()
 if __name__ == "__main__":