Spaces:

iqasimz
/

ArgumentAnalyst

Sleeping

App Files Files Community

iqasimz commited on Aug 22, 2025

Commit

efc82e9

verified ·

1 Parent(s): 51423de

Update app.py

Browse files

Files changed (1) hide show

app.py +130 -4

app.py CHANGED Viewed

@@ -1,5 +1,131 @@
-import gradio as gr, os
-def ping(x): return f"ok: {x}"
-demo = gr.Interface(ping, gr.Textbox(), gr.Textbox())
 if __name__ == "__main__":
-    demo.launch(server_name="0.0.0.0", server_port=int(os.getenv("PORT", "7860")))

+import os
+import json
+import warnings
+import torch
+import gradio as gr
+import spaces
+from transformers import AutoTokenizer, AutoModelForCausalLM
+# ---------- CONFIG ----------
+os.environ.setdefault("GRADIO_SERVER_PORT", "7860")
+MODEL_PATH = "iqasimz/g3"
+MAX_NEW_TOKENS_DEFAULT = 500
+TEMPERATURE_DEFAULT = 0.6
+TOP_P_DEFAULT = 0.95
+# ---------------------------
+warnings.filterwarnings("ignore", module="torch")
+_model_cache = {}
+def _ensure_pad_token(tokenizer):
+    if tokenizer.pad_token is None:
+        tokenizer.pad_token = tokenizer.eos_token
+    return tokenizer
+def load_model_to_cpu(model_dir: str):
+    """Load tokenizer+model once on CPU; moved to GPU per request via @spaces.GPU."""
+    if model_dir in _model_cache:
+        return _model_cache[model_dir]
+    tok = AutoTokenizer.from_pretrained(model_dir, trust_remote_code=True)
+    tok = _ensure_pad_token(tok)
+    mdl = AutoModelForCausalLM.from_pretrained(
+        model_dir,
+        trust_remote_code=True,
+        torch_dtype=torch.float16,   # model runs in fp16 when moved to GPU
+        device_map=None,             # keep on CPU for caching
+    )
+    mdl.eval()
+    _model_cache[model_dir] = (tok, mdl)
+    print(f"[cache] Loaded {model_dir} on CPU")
+    return tok, mdl
+@spaces.GPU(duration=120)
+def generate_text(input_text, max_tokens):
+    if not input_text.strip():
+        return "Please enter some text."
+    tokenizer, model = load_model_to_cpu(MODEL_PATH)
+    model = model.to("cuda")
+    # Format with Qwen3 chat template
+    messages = [{"role": "user", "content": input_text}]
+    formatted_text = tokenizer.apply_chat_template(
+        messages,
+        tokenize=False,
+        add_generation_prompt=True
+    )
+    # Tokenize
+    inputs = tokenizer(formatted_text, return_tensors="pt").to(model.device)
+    # Generate
+    with torch.inference_mode():
+        outputs = model.generate(
+            **inputs,
+            max_new_tokens=int(max_tokens),
+            temperature=TEMPERATURE_DEFAULT,
+            top_p=TOP_P_DEFAULT,
+            do_sample=True,
+            pad_token_id=tokenizer.eos_token_id,
+            eos_token_id=tokenizer.eos_token_id,
+            use_cache=True,
+        )
+    # Decode full response
+    full_response = tokenizer.decode(outputs[0], skip_special_tokens=False)
+    # Extract assistant response (handle Qwen3 format)
+    if "<｜Assistant｜>" in full_response:
+        response = full_response.split("<｜Assistant｜>")[-1]
+        response = response.split("<｜end▁of▁sentence｜>")[0].strip()
+    else:
+        # Fallback: decode only new tokens
+        new_tokens = outputs[0][inputs.input_ids.shape[-1]:]
+        response = tokenizer.decode(new_tokens, skip_special_tokens=True)
+    return response
+def launch_app():
+    with gr.Blocks(title="iqasimz/g3 - Raw Output") as demo:
+        gr.Markdown("# iqasimz/g3 Model")
+        gr.Markdown("Enter text and get raw model output")
+        with gr.Row():
+            with gr.Column():
+                input_text = gr.Textbox(
+                    label="Input Text",
+                    lines=8,
+                    placeholder="Enter your text here..."
+                )
+                max_tokens = gr.Slider(
+                    minimum=50,
+                    maximum=5000,
+                    value=MAX_NEW_TOKENS_DEFAULT,
+                    step=50,
+                    label="Max New Tokens"
+                )
+                generate_btn = gr.Button("Generate", variant="primary")
+            with gr.Column():
+                output_text = gr.Textbox(
+                    label="Model Output",
+                    lines=15,
+                    show_copy_button=True
+                )
+        generate_btn.click(
+            fn=generate_text,
+            inputs=[input_text, max_tokens],
+            outputs=output_text
+        )
+        gr.Markdown("### Model Info")
+        gr.Markdown(f"- Model: {MODEL_PATH}\n- Temperature: {TEMPERATURE_DEFAULT}\n- Top-p: {TOP_P_DEFAULT}")
+    return demo
 if __name__ == "__main__":
+    app = launch_app()
+    app.launch(share=True)