Spaces:

OpenTransformer
/

AGILLM-M2_Pro

Sleeping

App Files Files Community

OpenTransformer commited on Nov 3, 2025

Commit

622d35c

verified ·

1 Parent(s): 7cbc066

Update app.py

Browse files

Files changed (1) hide show

app.py +42 -10

app.py CHANGED Viewed

@@ -4,6 +4,7 @@
 # - Loads final.pt from repo OpenTransformer/AGILLM2-fast-training
 # - Qwen tokenizer + chat template
 # - Optional local CLI REPL when run in a terminal
 from __future__ import annotations
 import os, sys, time, math, argparse
@@ -235,6 +236,15 @@ def render_chat(messages: List[Dict[str, str]], add_generation_prompt: bool = Tr
             out.append("Assistant:")
         return "\n".join(out)
 def _apply_no_repeat_ngram(logits: torch.Tensor, ids: torch.Tensor, n: int):
     if n <= 0 or ids.size(1) < n - 1: return logits
     prefix = ids[0, -(n - 1):].tolist()
@@ -319,30 +329,49 @@ def launch_gradio(core, ar_h):
     import gradio as gr
     with gr.Blocks() as demo:
         gr.Markdown("### OpenTransformer / AGILLM2 — Chat")
         with gr.Row():
             temp = gr.Slider(0.1, 1.5, value=0.9, step=0.05, label="Temperature")
             topp = gr.Slider(0.1, 1.0, value=0.9, step=0.05, label="Top-p")
             topk = gr.Slider(0, 200, value=50, step=1, label="Top-k")
             mxnt = gr.Slider(16, 1024, value=200, step=8, label="Max new tokens")
-        chatbot = gr.Chatbot(height=520)
-        msg = gr.Textbox(placeholder="Say something useful…")
-        clear = gr.Button("Clear")
-        sys_prompt = gr.Textbox(value="You are a helpful, concise assistant.", label="System prompt")
         def _chat(history, user_msg, t, p, k, mxt, sys_p):
             messages = [{"role":"system","content":sys_p}]
             for u,a in history or []:
                 messages.append({"role":"user","content":u})
                 messages.append({"role":"assistant","content":a})
             messages.append({"role":"user","content":user_msg})
-            reply = chat_decode(core, ar_h, messages, max_new=int(mxt), T=float(t),
-                                greedy=False, top_k=int(k), top_p=float(p),
-                                use_fp8=False, fp8_fallback=True)
             history = (history or []) + [(user_msg, reply)]
-            return history, ""
-        msg.submit(_chat, [chatbot, msg, temp, topp, topk, mxnt, sys_prompt], [chatbot, msg], queue=False)
-        clear.click(lambda: None, None, chatbot, queue=False)
     demo.launch(server_name="0.0.0.0", server_port=int(os.getenv("PORT", "7860")))
@@ -363,6 +392,9 @@ def run_cli(core, ar_h):
             dt = time.time()-t0
             print(f"Bot: {reply}\n[{len(tok.encode(reply))} tok in {dt:.2f}s]")
             history.append((user, reply))
         except KeyboardInterrupt:
             print("\nbye."); break

 # - Loads final.pt from repo OpenTransformer/AGILLM2-fast-training
 # - Qwen tokenizer + chat template
 # - Optional local CLI REPL when run in a terminal
+# - Adds a "Raw transcript" tab with "User:" / "Assistant:" lines
 from __future__ import annotations
 import os, sys, time, math, argparse
             out.append("Assistant:")
         return "\n".join(out)
+def render_raw(history: List[Tuple[str, str]] | None, sys_prompt: str) -> str:
+    lines = []
+    if sys_prompt:
+        lines.append(f"System: {sys_prompt}")
+    for u, a in (history or []):
+        lines.append(f"User: {u}")
+        lines.append(f"Assistant: {a}")
+    return "\n".join(lines)
 def _apply_no_repeat_ngram(logits: torch.Tensor, ids: torch.Tensor, n: int):
     if n <= 0 or ids.size(1) < n - 1: return logits
     prefix = ids[0, -(n - 1):].tolist()
     import gradio as gr
     with gr.Blocks() as demo:
         gr.Markdown("### OpenTransformer / AGILLM2 — Chat")
         with gr.Row():
             temp = gr.Slider(0.1, 1.5, value=0.9, step=0.05, label="Temperature")
             topp = gr.Slider(0.1, 1.0, value=0.9, step=0.05, label="Top-p")
             topk = gr.Slider(0, 200, value=50, step=1, label="Top-k")
             mxnt = gr.Slider(16, 1024, value=200, step=8, label="Max new tokens")
+            sys_prompt = gr.Textbox(value="You are a helpful, concise assistant.", label="System prompt")
+        with gr.Tabs():
+            with gr.TabItem("Chat"):
+                chatbot = gr.Chatbot(height=520, label="Conversation")
+                msg = gr.Textbox(placeholder="Say something useful…", label="Message")
+                submit = gr.Button("Send", variant="primary")
+            with gr.TabItem("Raw transcript"):
+                raw = gr.Textbox(lines=24, label="Raw transcript (User:/Assistant:)", interactive=False)
+        clear = gr.Button("Clear", variant="secondary")
         def _chat(history, user_msg, t, p, k, mxt, sys_p):
+            # Build messages from history + new user message
             messages = [{"role":"system","content":sys_p}]
             for u,a in history or []:
                 messages.append({"role":"user","content":u})
                 messages.append({"role":"assistant","content":a})
             messages.append({"role":"user","content":user_msg})
+            reply = chat_decode(
+                core, ar_h, messages,
+                max_new=int(mxt), T=float(t),
+                greedy=False, top_k=int(k), top_p=float(p),
+                use_fp8=False, fp8_fallback=True
+            )
             history = (history or []) + [(user_msg, reply)]
+            transcript = render_raw(history, sys_p)
+            return history, "", transcript
+        # Wire up events: submit via button or enter
+        msg.submit(_chat, [chatbot, msg, temp, topp, topk, mxnt, sys_prompt], [chatbot, msg, raw], queue=False)
+        submit.click(_chat, [chatbot, msg, temp, topp, topk, mxnt, sys_prompt], [chatbot, msg, raw], queue=False)
+        def _clear():
+            return [], "", ""
+        clear.click(_clear, inputs=None, outputs=[chatbot, msg, raw], queue=False)
     demo.launch(server_name="0.0.0.0", server_port=int(os.getenv("PORT", "7860")))
             dt = time.time()-t0
             print(f"Bot: {reply}\n[{len(tok.encode(reply))} tok in {dt:.2f}s]")
             history.append((user, reply))
+            # Also show raw transcript line by line in CLI
+            print("\n--- RAW ---")
+            print(render_raw(history, "You are a helpful, concise assistant."))
         except KeyboardInterrupt:
             print("\nbye."); break