Spaces:

prithivMLmods
/

SAGE-MM-Video-Reasoning

Running on Zero

App Files Files Community

prithivMLmods commited on Dec 20, 2025

Commit

ee2dfd6

verified ·

1 Parent(s): 446e03a

update app

Browse files

Files changed (1) hide show

app.py +22 -10

app.py CHANGED Viewed

@@ -24,7 +24,7 @@ model = AutoModelForImageTextToText.from_pretrained(
 print("Model loaded successfully.")
 @spaces.GPU
-def process_video(user_text, video_path):
     if not video_path:
         return "Please upload a video."
@@ -32,7 +32,7 @@ def process_video(user_text, video_path):
     if not user_text.strip():
         user_text = "Describe this video in detail."
-    # Construct messages for Molmo
     messages = [
         {
             "role": "user",
@@ -68,7 +68,10 @@ def process_video(user_text, video_path):
     # Generate
     with torch.inference_mode():
-        generated_ids = model.generate(**inputs, max_new_tokens=1024)
     generated_tokens = generated_ids[0, inputs['input_ids'].size(1):]
     generated_text = processor.tokenizer.decode(generated_tokens, skip_special_tokens=True)
@@ -83,19 +86,32 @@ css = """
 #main-title h1 {font-size: 2.3em !important;}
 """
-with gr.Blocks() as demo:
     gr.Markdown("# **SAGE-MM-Video-Reasoning 🎥**", elem_id="main-title")
     gr.Markdown("Upload a video to get a detailed explanation or ask specific questions using [SAGE-MM-Qwen3-VL](https://huggingface.co/allenai/SAGE-MM-Qwen3-VL-4B-SFT_RL).")
     with gr.Row():
         with gr.Column():
             vid_input = gr.Video(label="Input Video", format="mp4", height=350)
             # Default prompt set here
             vid_prompt = gr.Textbox(
                 label="Prompt",
                 value="Describe this video in detail.",
                 placeholder="Type your question here..."
             )
             vid_btn = gr.Button("Analyze Video", variant="primary")
         with gr.Column():
@@ -115,13 +131,9 @@ with gr.Blocks() as demo:
     vid_btn.click(
         fn=process_video,
-        inputs=[vid_prompt, vid_input],
         outputs=[vid_text_out]
     )
 if __name__ == "__main__":
-    demo.launch(theme=gr.themes.Soft(
-            primary_hue="blue",
-            secondary_hue="indigo",
-            neutral_hue="slate",
-        ), css=css, mcp_server=True, ssr_mode=False)

 print("Model loaded successfully.")
 @spaces.GPU
+def process_video(user_text, video_path, max_new_tokens):
     if not video_path:
         return "Please upload a video."
     if not user_text.strip():
         user_text = "Describe this video in detail."
+    # Construct messages for Molmo/Qwen
     messages = [
         {
             "role": "user",
     # Generate
     with torch.inference_mode():
+        generated_ids = model.generate(
+            **inputs,
+            max_new_tokens=max_new_tokens
+        )
     generated_tokens = generated_ids[0, inputs['input_ids'].size(1):]
     generated_text = processor.tokenizer.decode(generated_tokens, skip_special_tokens=True)
 #main-title h1 {font-size: 2.3em !important;}
 """
+with gr.Blocks(theme=gr.themes.Soft(primary_hue="blue", secondary_hue="indigo", neutral_hue="slate"), css=css) as demo:
     gr.Markdown("# **SAGE-MM-Video-Reasoning 🎥**", elem_id="main-title")
     gr.Markdown("Upload a video to get a detailed explanation or ask specific questions using [SAGE-MM-Qwen3-VL](https://huggingface.co/allenai/SAGE-MM-Qwen3-VL-4B-SFT_RL).")
     with gr.Row():
         with gr.Column():
             vid_input = gr.Video(label="Input Video", format="mp4", height=350)
             # Default prompt set here
             vid_prompt = gr.Textbox(
                 label="Prompt",
                 value="Describe this video in detail.",
                 placeholder="Type your question here..."
             )
+            # Advanced Settings Accordion
+            with gr.Accordion("Advanced Settings", open=False):
+                max_tokens_slider = gr.Slider(
+                    minimum=128,
+                    maximum=4096,
+                    value=1024,
+                    step=128,
+                    label="Max New Tokens",
+                    info="Controls the length of the generated text."
+                )
             vid_btn = gr.Button("Analyze Video", variant="primary")
         with gr.Column():
     vid_btn.click(
         fn=process_video,
+        inputs=[vid_prompt, vid_input, max_tokens_slider],
         outputs=[vid_text_out]
     )
 if __name__ == "__main__":
+    demo.launch(mcp_server=True, ssr_mode=False)