shilinxu
/

MoonViT

shilinxu commited on Jul 24, 2025

Commit

6c73cc4

verified ·

1 Parent(s): 5cb7f5a

Update modeling_moonvit.py

Files changed (1) hide show

modeling_moonvit.py CHANGED Viewed

@@ -587,7 +587,7 @@ class MoonVitPretrainedModel(PreTrainedModel):
         self.multi_modal_projector = MultiModalProjector(config)
     def forward(
-        self, pixel_values: torch.Tensor, grid_hws: torch.Tensor
     ) -> torch.Tensor:
         """
         Args:
@@ -596,10 +596,10 @@ class MoonVitPretrainedModel(PreTrainedModel):
         Returns:
             torch.Tensor: The output tokens.
         """
-        hidden_states = self.patch_embed(pixel_values, grid_hws)
-        hidden_states = self.encoder(hidden_states, grid_hws)
         hidden_states = patch_merger(
-            hidden_states, grid_hws, merge_kernel_size=self.merge_kernel_size
         )
         hidden_states = self.multi_modal_projector(hidden_states)
         return hidden_states

         self.multi_modal_projector = MultiModalProjector(config)
     def forward(
+        self, pixel_values: torch.Tensor, image_grid_hws: torch.Tensor
     ) -> torch.Tensor:
         """
         Args:
         Returns:
             torch.Tensor: The output tokens.
         """
+        hidden_states = self.patch_embed(pixel_values, image_grid_hws)
+        hidden_states = self.encoder(hidden_states, image_grid_hws)
         hidden_states = patch_merger(
+            hidden_states, image_grid_hws, merge_kernel_size=self.merge_kernel_size
         )
         hidden_states = self.multi_modal_projector(hidden_states)
         return hidden_states