orrzohar
/

BLIP3o-4B

orrzohar commited on Dec 6, 2025

Commit

18bdd7b

1 Parent(s): 24580dc

Fix forward signature and video key filtering

Files changed (1) hide show

modeling_blip3o_qwen.py CHANGED Viewed

@@ -354,10 +354,6 @@ class blip3oMetaForCausalLM(ABC):
             text_embeds = text_embeds.clone()
             text_embeds[gen_mask] = latent_queries[:num_gen_tokens]
-        if labels is not None:
-            labels = labels.clone()
-            labels[image_idx] = IGNORE_INDEX
         return None, position_ids, attention_mask, past_key_values, text_embeds, labels, target_image_embeds
     def initialize_vision_tokenizer(self, model_args, tokenizer):
@@ -453,6 +449,8 @@ class blip3oQwenForCausalLM(Qwen2_5_VLForConditionalGeneration, blip3oMetaForCau
         image_grid_thw: Optional[torch.Tensor] = None,
         return_dict: Optional[bool] = None,
         cache_position: Optional[torch.LongTensor] = None
     ) -> Union[Tuple, CausalLMOutputWithPast]:
         gen_image=gen_images
@@ -805,6 +803,10 @@ class blip3oQwenForCausalLM(Qwen2_5_VLForConditionalGeneration, blip3oMetaForCau
             inputs['images'] = images
         if image_sizes is not None:
             inputs['image_sizes'] = image_sizes
         return inputs
 AutoConfig.register("blip3o_qwen", blip3oQwenConfig)

             text_embeds = text_embeds.clone()
             text_embeds[gen_mask] = latent_queries[:num_gen_tokens]
         return None, position_ids, attention_mask, past_key_values, text_embeds, labels, target_image_embeds
     def initialize_vision_tokenizer(self, model_args, tokenizer):
         image_grid_thw: Optional[torch.Tensor] = None,
         return_dict: Optional[bool] = None,
         cache_position: Optional[torch.LongTensor] = None
+    ,
+        **kwargs
     ) -> Union[Tuple, CausalLMOutputWithPast]:
         gen_image=gen_images
             inputs['images'] = images
         if image_sizes is not None:
             inputs['image_sizes'] = image_sizes
+        # Filter out video-related keys from parent Qwen class
+        for key in list(inputs.keys()):
+            if "video" in key.lower():
+                inputs.pop(key, None)
         return inputs
 AutoConfig.register("blip3o_qwen", blip3oQwenConfig)