Upload SigLIP2 NaViT model with Google checkpoint

Files changed (3) hide show

configuration_siglip2_navit.py CHANGED Viewed

@@ -34,7 +34,6 @@ class Siglip2NaViTVisionConfig(PretrainedConfig):
         hidden_act="gelu_pytorch_tanh",
         layer_norm_eps=1e-6,
         attention_dropout=0.0,
-        out_hidden_size=896,
         spatial_merge_size=2,
         **kwargs,
     ):
@@ -49,5 +48,4 @@ class Siglip2NaViTVisionConfig(PretrainedConfig):
         self.attention_dropout = attention_dropout
         self.layer_norm_eps = layer_norm_eps
         self.hidden_act = hidden_act
-        self.out_hidden_size = out_hidden_size
         self.spatial_merge_size = spatial_merge_size

         hidden_act="gelu_pytorch_tanh",
         layer_norm_eps=1e-6,
         attention_dropout=0.0,
         spatial_merge_size=2,
         **kwargs,
     ):
         self.attention_dropout = attention_dropout
         self.layer_norm_eps = layer_norm_eps
         self.hidden_act = hidden_act
         self.spatial_merge_size = spatial_merge_size

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:be27e95b71ce82d51a8e294a628e0926cc2f625addf9fe7c9a8ec835573821ea
-size 195704976

 version https://git-lfs.github.com/spec/v1
+oid sha256:9da4424fe862f8e718637ea8605e5161b4e13ee01f4ddc1d255eebde3b2422a6
+size 194918288

modeling_siglip2_navit.py CHANGED Viewed

@@ -401,7 +401,7 @@ class Siglip2NaViTVisionMerger(nn.Module):
         )
         self.linear_fc1 = nn.Linear(self.hidden_size, self.hidden_size)
         self.act_fn = nn.GELU()
-        self.linear_fc2 = nn.Linear(self.hidden_size, config.out_hidden_size)
     def forward(self, x: torch.Tensor) -> torch.Tensor:
         x = self.norm(

         )
         self.linear_fc1 = nn.Linear(self.hidden_size, self.hidden_size)
         self.act_fn = nn.GELU()
+        self.linear_fc2 = nn.Linear(self.hidden_size, config.hidden_size)
     def forward(self, x: torch.Tensor) -> torch.Tensor:
         x = self.norm(