aryaaan12
/

T-REN

@@ -122,6 +122,43 @@ class TRENModel(PreTrainedModel):
         object.__setattr__(self, "_image_encoder", image_encoder)
         object.__setattr__(self, "_text_encoder", text_encoder)
     def forward(
         self,
         pixel_values: torch.Tensor,

         object.__setattr__(self, "_image_encoder", image_encoder)
         object.__setattr__(self, "_text_encoder", text_encoder)
+    def adapt_to_resolution(self, image_resolution: int) -> None:
+        """
+        Interpolate the RegionEncoder's positional embeddings to a new spatial
+        resolution. Call this after from_pretrained() when running inference at
+        a resolution different from the training resolution (512px by default).
+        Args:
+            image_resolution: Target image resolution in pixels (e.g. 384).
+        Example::
+            model = AutoModel.from_pretrained("aryaaan12/T-REN", trust_remote_code=True)
+            model.load_backbone("/path/to/dinov3/weights/")
+            model.adapt_to_resolution(384)   # eval at 384px instead of 512px
+        """
+        if image_resolution == self.config.image_resolution:
+            return
+        saved_state = self.region_encoder.state_dict()
+        device = next(self.region_encoder.parameters()).device
+        ps = self.config.patch_size
+        num_patches = (image_resolution // ps) ** 2
+        C = self.region_encoder.feature_embeddings.shape[-1]
+        self.region_encoder.feature_embeddings = torch.nn.Parameter(
+            torch.zeros(num_patches, C, device=device)
+        )
+        self.region_encoder.load_state_dict_resolution_agnostic(saved_state)
+        self.region_encoder.to(device)
+        # Reset grid so it is rebuilt at the new resolution on the next forward().
+        object.__setattr__(self, "_grid_points", None)
+        logger.info(
+            f"Adapted positional embeddings: {self.config.image_resolution}px → {image_resolution}px"
+        )
     def forward(
         self,
         pixel_values: torch.Tensor,