facebook
/

sapiens2-pointmap-5b

@@ -10,6 +10,7 @@
     "_name_or_path": "",
     "architectures": null,
     "chunk_size_feed_forward": 0,
     "conv_kernel_sizes": [
       3,
       3,
@@ -35,6 +36,7 @@
     "output_hidden_states": false,
     "problem_type": null,
     "return_dict": true,
     "scale_conv_kernel_sizes": [
       1,
       1,
@@ -50,6 +52,7 @@
       128
     ],
     "scale_final_input_size": 6144,
     "upsample_kernel_sizes": [
       3,
       3,
@@ -83,13 +86,16 @@
     "LABEL_1": 1,
     "LABEL_2": 2
   },
-  "layer_norm_eps": 1e-06,
   "layerscale_value": 1.0,
   "mlp_bias": true,
   "model_type": "sapiens2",
   "num_attention_heads": 32,
   "num_channels": 3,
   "num_hidden_layers": 56,
   "num_key_value_heads_per_layer": [
     32,
     32,
@@ -99,46 +105,46 @@
     32,
     32,
     32,
-    16,
-    16,
-    16,
-    16,
-    16,
-    16,
-    16,
-    16,
-    16,
-    16,
-    16,
-    16,
-    16,
-    16,
-    16,
-    16,
-    16,
-    16,
-    16,
-    16,
-    16,
-    16,
-    16,
-    16,
-    16,
-    16,
-    16,
-    16,
-    16,
-    16,
-    16,
-    16,
-    16,
-    16,
-    16,
-    16,
-    16,
-    16,
-    16,
-    16,
     32,
     32,
     32,
@@ -148,6 +154,7 @@
     32,
     32
   ],
   "num_register_tokens": 8,
   "out_features": [
     "stage56"
@@ -162,6 +169,7 @@
   "proj_bias": true,
   "query_bias": true,
   "reshape_hidden_states": true,
   "rope_theta": 100.0,
   "semantic_loss_ignore_index": 255,
   "stage_names": [

     "_name_or_path": "",
     "architectures": null,
     "chunk_size_feed_forward": 0,
+    "conv_kernel_size": 1,
     "conv_kernel_sizes": [
       3,
       3,
     "output_hidden_states": false,
     "problem_type": null,
     "return_dict": true,
+    "scale_conv_kernel_size": 1,
     "scale_conv_kernel_sizes": [
       1,
       1,
       128
     ],
     "scale_final_input_size": 6144,
+    "upsample_kernel_size": 4,
     "upsample_kernel_sizes": [
       3,
       3,
     "LABEL_1": 1,
     "LABEL_2": 2
   },
+  "layer_norm_eps": 1e-05,
   "layerscale_value": 1.0,
   "mlp_bias": true,
   "model_type": "sapiens2",
+  "normalize_backbone_outputs": true,
   "num_attention_heads": 32,
   "num_channels": 3,
+  "num_first_full_attention_layers": 8,
   "num_hidden_layers": 56,
+  "num_key_value_attention_heads": 8,
   "num_key_value_heads_per_layer": [
     32,
     32,
     32,
     32,
     32,
+    8,
+    8,
+    8,
+    8,
+    8,
+    8,
+    8,
+    8,
+    8,
+    8,
+    8,
+    8,
+    8,
+    8,
+    8,
+    8,
+    8,
+    8,
+    8,
+    8,
+    8,
+    8,
+    8,
+    8,
+    8,
+    8,
+    8,
+    8,
+    8,
+    8,
+    8,
+    8,
+    8,
+    8,
+    8,
+    8,
+    8,
+    8,
+    8,
+    8,
     32,
     32,
     32,
     32,
     32
   ],
+  "num_last_full_attention_layers": 8,
   "num_register_tokens": 8,
   "out_features": [
     "stage56"
   "proj_bias": true,
   "query_bias": true,
   "reshape_hidden_states": true,
+  "rms_norm_eps": 1e-06,
   "rope_theta": 100.0,
   "semantic_loss_ignore_index": 255,
   "stage_names": [