allenai
/

MolmoPoint-Vid-4B

Video-Text-to-Text

Model card Files Files and versions

fix usage on README

#1

by harpreetsahota - opened Mar 25

base: refs/heads/main

←

from: refs/pr/1

Discussion Files changed

Files changed (1) hide show

README.md +24 -1

README.md CHANGED Viewed

@@ -52,6 +52,27 @@ returns a list of (timestamps, object_id, pixel_x, pixel_y) output points.
 ### Video Pointing Example:
 ```python
 video_path = "https://storage.googleapis.com/oe-training-public/demo_videos/many_penguins.mp4"
 video_messages = [
     {
@@ -73,12 +94,14 @@ inputs = processor.apply_chat_template(
     return_pointing_metadata=True
 )
 inputs = {k: v.to("cuda") for k, v in inputs.items()}
 with torch.inference_mode(), torch.autocast("cuda", dtype=torch.bfloat16):
     output = model.generate(
         **inputs,
-        logits_processor=model.build_logit_processor_from_inputs(inputs)
         max_new_tokens=200
     )

 ### Video Pointing Example:
 ```python
+from transformers import AutoProcessor, AutoModelForImageTextToText
+import torch
+import numpy as np
+checkpoint_dir = "allenai/MolmoPoint-Vid-4B"  # or path to a converted HF checkpoint
+model = AutoModelForImageTextToText.from_pretrained(
+    checkpoint_dir,
+    trust_remote_code=True,
+    dtype="auto",
+    device_map="cuda",
+)
+processor = AutoProcessor.from_pretrained(
+    checkpoint_dir,
+    trust_remote_code=True,
+    padding_side="left",
+)
 video_path = "https://storage.googleapis.com/oe-training-public/demo_videos/many_penguins.mp4"
 video_messages = [
     {
     return_pointing_metadata=True
 )
+metadata = inputs.pop("metadata")
 inputs = {k: v.to("cuda") for k, v in inputs.items()}
 with torch.inference_mode(), torch.autocast("cuda", dtype=torch.bfloat16):
     output = model.generate(
         **inputs,
+        logits_processor=model.build_logit_processor_from_inputs(inputs),
         max_new_tokens=200
     )