alexwaolson commited on Jan 16

Commit

16b70ae

verified ·

1 Parent(s): c860679

Upload folder using huggingface_hub

Browse files

Files changed (20) hide show

._config.json +0 -0
._configuration_spatial_embeddings.py +0 -0
._model-00001-of-00006.safetensors +3 -0
._model-00002-of-00006.safetensors +3 -0
._model-00003-of-00006.safetensors +3 -0
._model-00004-of-00006.safetensors +3 -0
._model-00005-of-00006.safetensors +3 -0
._model-00006-of-00006.safetensors +3 -0
._model.safetensors.index.json +0 -0
._modeling_spatial_embeddings.py +0 -0
config.json +18 -0
configuration_spatial_embeddings.py +31 -0
model-00001-of-00006.safetensors +3 -0
model-00002-of-00006.safetensors +3 -0
model-00003-of-00006.safetensors +3 -0
model-00004-of-00006.safetensors +3 -0
model-00005-of-00006.safetensors +3 -0
model-00006-of-00006.safetensors +3 -0
model.safetensors.index.json +705 -0
modeling_spatial_embeddings.py +188 -0

._config.json ADDED Viewed

Binary file (4.1 kB). View file

._configuration_spatial_embeddings.py ADDED Viewed

Binary file (4.1 kB). View file

._model-00001-of-00006.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5e85caf548be1ae8220b040543e9a72797a8138126df4bcf2ba9d6fc655ee337
+size 4096

._model-00002-of-00006.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5e85caf548be1ae8220b040543e9a72797a8138126df4bcf2ba9d6fc655ee337
+size 4096

._model-00003-of-00006.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5e85caf548be1ae8220b040543e9a72797a8138126df4bcf2ba9d6fc655ee337
+size 4096

._model-00004-of-00006.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5e85caf548be1ae8220b040543e9a72797a8138126df4bcf2ba9d6fc655ee337
+size 4096

._model-00005-of-00006.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5e85caf548be1ae8220b040543e9a72797a8138126df4bcf2ba9d6fc655ee337
+size 4096

._model-00006-of-00006.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5e85caf548be1ae8220b040543e9a72797a8138126df4bcf2ba9d6fc655ee337
+size 4096

._model.safetensors.index.json ADDED Viewed

Binary file (4.1 kB). View file

._modeling_spatial_embeddings.py ADDED Viewed

Binary file (4.1 kB). View file

config.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+  "activation": "gelu",
+  "architectures": [
+    "SpatialEmbeddingsModel"
+  ],
+  "backbone_model_name": "facebook/dinov3-vit7b16-pretrain-lvd1689m",
+  "dropout": 0.1,
+  "dtype": "float32",
+  "hidden_dim": 384,
+  "hidden_dim_multiplier": 1.0,
+  "input_dim": 4096,
+  "model_type": "spatial_embeddings",
+  "num_hidden_layers": 3,
+  "output_dim": 256,
+  "transformers_version": "4.57.1",
+  "use_layer_norm": false,
+  "use_residual": true
+}

configuration_spatial_embeddings.py ADDED Viewed

	@@ -0,0 +1,31 @@

+from transformers import PretrainedConfig
+class SpatialEmbeddingsConfig(PretrainedConfig):
+    model_type = "spatial_embeddings"
+    def __init__(
+        self,
+        backbone_model_name="facebook/dinov2-base",
+        input_dim=768,
+        hidden_dim=512,
+        output_dim=256,
+        dropout=0.1,
+        num_hidden_layers=1,
+        hidden_dim_multiplier=1.0,
+        activation="gelu",
+        use_residual=True,
+        use_layer_norm=True,
+        **kwargs,
+    ):
+        self.backbone_model_name = backbone_model_name
+        self.input_dim = input_dim
+        self.hidden_dim = hidden_dim
+        self.output_dim = output_dim
+        self.dropout = dropout
+        self.num_hidden_layers = num_hidden_layers
+        self.hidden_dim_multiplier = hidden_dim_multiplier
+        self.activation = activation
+        self.use_residual = use_residual
+        self.use_layer_norm = use_layer_norm
+        super().__init__(**kwargs)

model-00001-of-00006.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:746cf7ba239f0e9bc84126e6e81dc5195ae76c3ff134b2266d6350ae7e28d108
+size 4980242800

model-00002-of-00006.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fcaa9bdca5b34c561d6311b15b3cc50df39d1091038da16f04ebe5fa36daa2fc
+size 4967511336

model-00003-of-00006.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:09be15153315521ab36f77a7d24087ee8b0142100f16c0b1d60281df7fc1832f
+size 4967511704

model-00004-of-00006.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6fdad1174d4629dd7d4711dd63850a080c76d904ba5c57e3e9301262abcf5e81
+size 4967544584

model-00005-of-00006.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:08dc669b1d563b288ee088a6633d6f2644dea2c16f80de89c38e32ba28608afb
+size 4967544456

model-00006-of-00006.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c5449e172441c41dc7797c3fc17c7b213adeba6f5c824dc11485d94b56427193
+size 2025927688

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,705 @@

+{
+  "metadata": {
+    "total_parameters": 6719051392,
+    "total_size": 26876205568
+  },
+  "weight_map": {
+    "backbone.embeddings.cls_token": "model-00001-of-00006.safetensors",
+    "backbone.embeddings.mask_token": "model-00001-of-00006.safetensors",
+    "backbone.embeddings.patch_embeddings.bias": "model-00001-of-00006.safetensors",
+    "backbone.embeddings.patch_embeddings.weight": "model-00001-of-00006.safetensors",
+    "backbone.embeddings.register_tokens": "model-00001-of-00006.safetensors",
+    "backbone.layer.0.attention.k_proj.weight": "model-00001-of-00006.safetensors",
+    "backbone.layer.0.attention.o_proj.bias": "model-00001-of-00006.safetensors",
+    "backbone.layer.0.attention.o_proj.weight": "model-00001-of-00006.safetensors",
+    "backbone.layer.0.attention.q_proj.weight": "model-00001-of-00006.safetensors",
+    "backbone.layer.0.attention.v_proj.weight": "model-00001-of-00006.safetensors",
+    "backbone.layer.0.layer_scale1.lambda1": "model-00001-of-00006.safetensors",
+    "backbone.layer.0.layer_scale2.lambda1": "model-00001-of-00006.safetensors",
+    "backbone.layer.0.mlp.down_proj.bias": "model-00001-of-00006.safetensors",
+    "backbone.layer.0.mlp.down_proj.weight": "model-00001-of-00006.safetensors",
+    "backbone.layer.0.mlp.gate_proj.bias": "model-00001-of-00006.safetensors",
+    "backbone.layer.0.mlp.gate_proj.weight": "model-00001-of-00006.safetensors",
+    "backbone.layer.0.mlp.up_proj.bias": "model-00001-of-00006.safetensors",
+    "backbone.layer.0.mlp.up_proj.weight": "model-00001-of-00006.safetensors",
+    "backbone.layer.0.norm1.bias": "model-00001-of-00006.safetensors",
+    "backbone.layer.0.norm1.weight": "model-00001-of-00006.safetensors",
+    "backbone.layer.0.norm2.bias": "model-00001-of-00006.safetensors",
+    "backbone.layer.0.norm2.weight": "model-00001-of-00006.safetensors",
+    "backbone.layer.1.attention.k_proj.weight": "model-00001-of-00006.safetensors",
+    "backbone.layer.1.attention.o_proj.bias": "model-00001-of-00006.safetensors",
+    "backbone.layer.1.attention.o_proj.weight": "model-00001-of-00006.safetensors",
+    "backbone.layer.1.attention.q_proj.weight": "model-00001-of-00006.safetensors",
+    "backbone.layer.1.attention.v_proj.weight": "model-00001-of-00006.safetensors",
+    "backbone.layer.1.layer_scale1.lambda1": "model-00001-of-00006.safetensors",
+    "backbone.layer.1.layer_scale2.lambda1": "model-00001-of-00006.safetensors",
+    "backbone.layer.1.mlp.down_proj.bias": "model-00001-of-00006.safetensors",
+    "backbone.layer.1.mlp.down_proj.weight": "model-00001-of-00006.safetensors",
+    "backbone.layer.1.mlp.gate_proj.bias": "model-00001-of-00006.safetensors",
+    "backbone.layer.1.mlp.gate_proj.weight": "model-00001-of-00006.safetensors",
+    "backbone.layer.1.mlp.up_proj.bias": "model-00001-of-00006.safetensors",
+    "backbone.layer.1.mlp.up_proj.weight": "model-00001-of-00006.safetensors",
+    "backbone.layer.1.norm1.bias": "model-00001-of-00006.safetensors",
+    "backbone.layer.1.norm1.weight": "model-00001-of-00006.safetensors",
+    "backbone.layer.1.norm2.bias": "model-00001-of-00006.safetensors",
+    "backbone.layer.1.norm2.weight": "model-00001-of-00006.safetensors",
+    "backbone.layer.10.attention.k_proj.weight": "model-00002-of-00006.safetensors",
+    "backbone.layer.10.attention.o_proj.bias": "model-00002-of-00006.safetensors",
+    "backbone.layer.10.attention.o_proj.weight": "model-00002-of-00006.safetensors",
+    "backbone.layer.10.attention.q_proj.weight": "model-00002-of-00006.safetensors",
+    "backbone.layer.10.attention.v_proj.weight": "model-00002-of-00006.safetensors",
+    "backbone.layer.10.layer_scale1.lambda1": "model-00002-of-00006.safetensors",
+    "backbone.layer.10.layer_scale2.lambda1": "model-00002-of-00006.safetensors",
+    "backbone.layer.10.mlp.down_proj.bias": "model-00002-of-00006.safetensors",
+    "backbone.layer.10.mlp.down_proj.weight": "model-00002-of-00006.safetensors",
+    "backbone.layer.10.mlp.gate_proj.bias": "model-00002-of-00006.safetensors",
+    "backbone.layer.10.mlp.gate_proj.weight": "model-00002-of-00006.safetensors",
+    "backbone.layer.10.mlp.up_proj.bias": "model-00002-of-00006.safetensors",
+    "backbone.layer.10.mlp.up_proj.weight": "model-00002-of-00006.safetensors",
+    "backbone.layer.10.norm1.bias": "model-00002-of-00006.safetensors",
+    "backbone.layer.10.norm1.weight": "model-00002-of-00006.safetensors",
+    "backbone.layer.10.norm2.bias": "model-00002-of-00006.safetensors",
+    "backbone.layer.10.norm2.weight": "model-00002-of-00006.safetensors",
+    "backbone.layer.11.attention.k_proj.weight": "model-00002-of-00006.safetensors",
+    "backbone.layer.11.attention.o_proj.bias": "model-00002-of-00006.safetensors",
+    "backbone.layer.11.attention.o_proj.weight": "model-00002-of-00006.safetensors",
+    "backbone.layer.11.attention.q_proj.weight": "model-00002-of-00006.safetensors",
+    "backbone.layer.11.attention.v_proj.weight": "model-00002-of-00006.safetensors",
+    "backbone.layer.11.layer_scale1.lambda1": "model-00002-of-00006.safetensors",
+    "backbone.layer.11.layer_scale2.lambda1": "model-00002-of-00006.safetensors",
+    "backbone.layer.11.mlp.down_proj.bias": "model-00002-of-00006.safetensors",
+    "backbone.layer.11.mlp.down_proj.weight": "model-00002-of-00006.safetensors",
+    "backbone.layer.11.mlp.gate_proj.bias": "model-00002-of-00006.safetensors",
+    "backbone.layer.11.mlp.gate_proj.weight": "model-00002-of-00006.safetensors",
+    "backbone.layer.11.mlp.up_proj.bias": "model-00002-of-00006.safetensors",
+    "backbone.layer.11.mlp.up_proj.weight": "model-00002-of-00006.safetensors",
+    "backbone.layer.11.norm1.bias": "model-00002-of-00006.safetensors",
+    "backbone.layer.11.norm1.weight": "model-00002-of-00006.safetensors",
+    "backbone.layer.11.norm2.bias": "model-00002-of-00006.safetensors",
+    "backbone.layer.11.norm2.weight": "model-00002-of-00006.safetensors",
+    "backbone.layer.12.attention.k_proj.weight": "model-00002-of-00006.safetensors",
+    "backbone.layer.12.attention.o_proj.bias": "model-00002-of-00006.safetensors",
+    "backbone.layer.12.attention.o_proj.weight": "model-00002-of-00006.safetensors",
+    "backbone.layer.12.attention.q_proj.weight": "model-00002-of-00006.safetensors",
+    "backbone.layer.12.attention.v_proj.weight": "model-00002-of-00006.safetensors",
+    "backbone.layer.12.layer_scale1.lambda1": "model-00002-of-00006.safetensors",
+    "backbone.layer.12.layer_scale2.lambda1": "model-00002-of-00006.safetensors",
+    "backbone.layer.12.mlp.down_proj.bias": "model-00002-of-00006.safetensors",
+    "backbone.layer.12.mlp.down_proj.weight": "model-00002-of-00006.safetensors",
+    "backbone.layer.12.mlp.gate_proj.bias": "model-00002-of-00006.safetensors",
+    "backbone.layer.12.mlp.gate_proj.weight": "model-00002-of-00006.safetensors",
+    "backbone.layer.12.mlp.up_proj.bias": "model-00002-of-00006.safetensors",
+    "backbone.layer.12.mlp.up_proj.weight": "model-00002-of-00006.safetensors",
+    "backbone.layer.12.norm1.bias": "model-00002-of-00006.safetensors",
+    "backbone.layer.12.norm1.weight": "model-00002-of-00006.safetensors",
+    "backbone.layer.12.norm2.bias": "model-00002-of-00006.safetensors",
+    "backbone.layer.12.norm2.weight": "model-00002-of-00006.safetensors",
+    "backbone.layer.13.attention.k_proj.weight": "model-00002-of-00006.safetensors",
+    "backbone.layer.13.attention.o_proj.bias": "model-00002-of-00006.safetensors",
+    "backbone.layer.13.attention.o_proj.weight": "model-00002-of-00006.safetensors",
+    "backbone.layer.13.attention.q_proj.weight": "model-00002-of-00006.safetensors",
+    "backbone.layer.13.attention.v_proj.weight": "model-00002-of-00006.safetensors",
+    "backbone.layer.13.layer_scale1.lambda1": "model-00002-of-00006.safetensors",
+    "backbone.layer.13.layer_scale2.lambda1": "model-00002-of-00006.safetensors",
+    "backbone.layer.13.mlp.down_proj.bias": "model-00002-of-00006.safetensors",
+    "backbone.layer.13.mlp.down_proj.weight": "model-00002-of-00006.safetensors",
+    "backbone.layer.13.mlp.gate_proj.bias": "model-00002-of-00006.safetensors",
+    "backbone.layer.13.mlp.gate_proj.weight": "model-00002-of-00006.safetensors",
+    "backbone.layer.13.mlp.up_proj.bias": "model-00002-of-00006.safetensors",
+    "backbone.layer.13.mlp.up_proj.weight": "model-00002-of-00006.safetensors",
+    "backbone.layer.13.norm1.bias": "model-00002-of-00006.safetensors",
+    "backbone.layer.13.norm1.weight": "model-00002-of-00006.safetensors",
+    "backbone.layer.13.norm2.bias": "model-00002-of-00006.safetensors",
+    "backbone.layer.13.norm2.weight": "model-00002-of-00006.safetensors",
+    "backbone.layer.14.attention.k_proj.weight": "model-00002-of-00006.safetensors",
+    "backbone.layer.14.attention.o_proj.bias": "model-00002-of-00006.safetensors",
+    "backbone.layer.14.attention.o_proj.weight": "model-00002-of-00006.safetensors",
+    "backbone.layer.14.attention.q_proj.weight": "model-00002-of-00006.safetensors",
+    "backbone.layer.14.attention.v_proj.weight": "model-00002-of-00006.safetensors",
+    "backbone.layer.14.layer_scale1.lambda1": "model-00002-of-00006.safetensors",
+    "backbone.layer.14.layer_scale2.lambda1": "model-00003-of-00006.safetensors",
+    "backbone.layer.14.mlp.down_proj.bias": "model-00003-of-00006.safetensors",
+    "backbone.layer.14.mlp.down_proj.weight": "model-00003-of-00006.safetensors",
+    "backbone.layer.14.mlp.gate_proj.bias": "model-00002-of-00006.safetensors",
+    "backbone.layer.14.mlp.gate_proj.weight": "model-00002-of-00006.safetensors",
+    "backbone.layer.14.mlp.up_proj.bias": "model-00002-of-00006.safetensors",
+    "backbone.layer.14.mlp.up_proj.weight": "model-00002-of-00006.safetensors",
+    "backbone.layer.14.norm1.bias": "model-00002-of-00006.safetensors",
+    "backbone.layer.14.norm1.weight": "model-00002-of-00006.safetensors",
+    "backbone.layer.14.norm2.bias": "model-00002-of-00006.safetensors",
+    "backbone.layer.14.norm2.weight": "model-00002-of-00006.safetensors",
+    "backbone.layer.15.attention.k_proj.weight": "model-00003-of-00006.safetensors",
+    "backbone.layer.15.attention.o_proj.bias": "model-00003-of-00006.safetensors",
+    "backbone.layer.15.attention.o_proj.weight": "model-00003-of-00006.safetensors",
+    "backbone.layer.15.attention.q_proj.weight": "model-00003-of-00006.safetensors",
+    "backbone.layer.15.attention.v_proj.weight": "model-00003-of-00006.safetensors",
+    "backbone.layer.15.layer_scale1.lambda1": "model-00003-of-00006.safetensors",
+    "backbone.layer.15.layer_scale2.lambda1": "model-00003-of-00006.safetensors",
+    "backbone.layer.15.mlp.down_proj.bias": "model-00003-of-00006.safetensors",
+    "backbone.layer.15.mlp.down_proj.weight": "model-00003-of-00006.safetensors",
+    "backbone.layer.15.mlp.gate_proj.bias": "model-00003-of-00006.safetensors",
+    "backbone.layer.15.mlp.gate_proj.weight": "model-00003-of-00006.safetensors",
+    "backbone.layer.15.mlp.up_proj.bias": "model-00003-of-00006.safetensors",
+    "backbone.layer.15.mlp.up_proj.weight": "model-00003-of-00006.safetensors",
+    "backbone.layer.15.norm1.bias": "model-00003-of-00006.safetensors",
+    "backbone.layer.15.norm1.weight": "model-00003-of-00006.safetensors",
+    "backbone.layer.15.norm2.bias": "model-00003-of-00006.safetensors",
+    "backbone.layer.15.norm2.weight": "model-00003-of-00006.safetensors",
+    "backbone.layer.16.attention.k_proj.weight": "model-00003-of-00006.safetensors",
+    "backbone.layer.16.attention.o_proj.bias": "model-00003-of-00006.safetensors",
+    "backbone.layer.16.attention.o_proj.weight": "model-00003-of-00006.safetensors",
+    "backbone.layer.16.attention.q_proj.weight": "model-00003-of-00006.safetensors",
+    "backbone.layer.16.attention.v_proj.weight": "model-00003-of-00006.safetensors",
+    "backbone.layer.16.layer_scale1.lambda1": "model-00003-of-00006.safetensors",
+    "backbone.layer.16.layer_scale2.lambda1": "model-00003-of-00006.safetensors",
+    "backbone.layer.16.mlp.down_proj.bias": "model-00003-of-00006.safetensors",
+    "backbone.layer.16.mlp.down_proj.weight": "model-00003-of-00006.safetensors",
+    "backbone.layer.16.mlp.gate_proj.bias": "model-00003-of-00006.safetensors",
+    "backbone.layer.16.mlp.gate_proj.weight": "model-00003-of-00006.safetensors",
+    "backbone.layer.16.mlp.up_proj.bias": "model-00003-of-00006.safetensors",
+    "backbone.layer.16.mlp.up_proj.weight": "model-00003-of-00006.safetensors",
+    "backbone.layer.16.norm1.bias": "model-00003-of-00006.safetensors",
+    "backbone.layer.16.norm1.weight": "model-00003-of-00006.safetensors",
+    "backbone.layer.16.norm2.bias": "model-00003-of-00006.safetensors",
+    "backbone.layer.16.norm2.weight": "model-00003-of-00006.safetensors",
+    "backbone.layer.17.attention.k_proj.weight": "model-00003-of-00006.safetensors",
+    "backbone.layer.17.attention.o_proj.bias": "model-00003-of-00006.safetensors",
+    "backbone.layer.17.attention.o_proj.weight": "model-00003-of-00006.safetensors",
+    "backbone.layer.17.attention.q_proj.weight": "model-00003-of-00006.safetensors",
+    "backbone.layer.17.attention.v_proj.weight": "model-00003-of-00006.safetensors",
+    "backbone.layer.17.layer_scale1.lambda1": "model-00003-of-00006.safetensors",
+    "backbone.layer.17.layer_scale2.lambda1": "model-00003-of-00006.safetensors",
+    "backbone.layer.17.mlp.down_proj.bias": "model-00003-of-00006.safetensors",
+    "backbone.layer.17.mlp.down_proj.weight": "model-00003-of-00006.safetensors",
+    "backbone.layer.17.mlp.gate_proj.bias": "model-00003-of-00006.safetensors",
+    "backbone.layer.17.mlp.gate_proj.weight": "model-00003-of-00006.safetensors",
+    "backbone.layer.17.mlp.up_proj.bias": "model-00003-of-00006.safetensors",
+    "backbone.layer.17.mlp.up_proj.weight": "model-00003-of-00006.safetensors",
+    "backbone.layer.17.norm1.bias": "model-00003-of-00006.safetensors",
+    "backbone.layer.17.norm1.weight": "model-00003-of-00006.safetensors",
+    "backbone.layer.17.norm2.bias": "model-00003-of-00006.safetensors",
+    "backbone.layer.17.norm2.weight": "model-00003-of-00006.safetensors",
+    "backbone.layer.18.attention.k_proj.weight": "model-00003-of-00006.safetensors",
+    "backbone.layer.18.attention.o_proj.bias": "model-00003-of-00006.safetensors",
+    "backbone.layer.18.attention.o_proj.weight": "model-00003-of-00006.safetensors",
+    "backbone.layer.18.attention.q_proj.weight": "model-00003-of-00006.safetensors",
+    "backbone.layer.18.attention.v_proj.weight": "model-00003-of-00006.safetensors",
+    "backbone.layer.18.layer_scale1.lambda1": "model-00003-of-00006.safetensors",
+    "backbone.layer.18.layer_scale2.lambda1": "model-00003-of-00006.safetensors",
+    "backbone.layer.18.mlp.down_proj.bias": "model-00003-of-00006.safetensors",
+    "backbone.layer.18.mlp.down_proj.weight": "model-00003-of-00006.safetensors",
+    "backbone.layer.18.mlp.gate_proj.bias": "model-00003-of-00006.safetensors",
+    "backbone.layer.18.mlp.gate_proj.weight": "model-00003-of-00006.safetensors",
+    "backbone.layer.18.mlp.up_proj.bias": "model-00003-of-00006.safetensors",
+    "backbone.layer.18.mlp.up_proj.weight": "model-00003-of-00006.safetensors",
+    "backbone.layer.18.norm1.bias": "model-00003-of-00006.safetensors",
+    "backbone.layer.18.norm1.weight": "model-00003-of-00006.safetensors",
+    "backbone.layer.18.norm2.bias": "model-00003-of-00006.safetensors",
+    "backbone.layer.18.norm2.weight": "model-00003-of-00006.safetensors",
+    "backbone.layer.19.attention.k_proj.weight": "model-00003-of-00006.safetensors",
+    "backbone.layer.19.attention.o_proj.bias": "model-00003-of-00006.safetensors",
+    "backbone.layer.19.attention.o_proj.weight": "model-00003-of-00006.safetensors",
+    "backbone.layer.19.attention.q_proj.weight": "model-00003-of-00006.safetensors",
+    "backbone.layer.19.attention.v_proj.weight": "model-00003-of-00006.safetensors",
+    "backbone.layer.19.layer_scale1.lambda1": "model-00003-of-00006.safetensors",
+    "backbone.layer.19.layer_scale2.lambda1": "model-00003-of-00006.safetensors",
+    "backbone.layer.19.mlp.down_proj.bias": "model-00003-of-00006.safetensors",
+    "backbone.layer.19.mlp.down_proj.weight": "model-00003-of-00006.safetensors",
+    "backbone.layer.19.mlp.gate_proj.bias": "model-00003-of-00006.safetensors",
+    "backbone.layer.19.mlp.gate_proj.weight": "model-00003-of-00006.safetensors",
+    "backbone.layer.19.mlp.up_proj.bias": "model-00003-of-00006.safetensors",
+    "backbone.layer.19.mlp.up_proj.weight": "model-00003-of-00006.safetensors",
+    "backbone.layer.19.norm1.bias": "model-00003-of-00006.safetensors",
+    "backbone.layer.19.norm1.weight": "model-00003-of-00006.safetensors",
+    "backbone.layer.19.norm2.bias": "model-00003-of-00006.safetensors",
+    "backbone.layer.19.norm2.weight": "model-00003-of-00006.safetensors",
+    "backbone.layer.2.attention.k_proj.weight": "model-00001-of-00006.safetensors",
+    "backbone.layer.2.attention.o_proj.bias": "model-00001-of-00006.safetensors",
+    "backbone.layer.2.attention.o_proj.weight": "model-00001-of-00006.safetensors",
+    "backbone.layer.2.attention.q_proj.weight": "model-00001-of-00006.safetensors",
+    "backbone.layer.2.attention.v_proj.weight": "model-00001-of-00006.safetensors",
+    "backbone.layer.2.layer_scale1.lambda1": "model-00001-of-00006.safetensors",
+    "backbone.layer.2.layer_scale2.lambda1": "model-00001-of-00006.safetensors",
+    "backbone.layer.2.mlp.down_proj.bias": "model-00001-of-00006.safetensors",
+    "backbone.layer.2.mlp.down_proj.weight": "model-00001-of-00006.safetensors",
+    "backbone.layer.2.mlp.gate_proj.bias": "model-00001-of-00006.safetensors",
+    "backbone.layer.2.mlp.gate_proj.weight": "model-00001-of-00006.safetensors",
+    "backbone.layer.2.mlp.up_proj.bias": "model-00001-of-00006.safetensors",
+    "backbone.layer.2.mlp.up_proj.weight": "model-00001-of-00006.safetensors",
+    "backbone.layer.2.norm1.bias": "model-00001-of-00006.safetensors",
+    "backbone.layer.2.norm1.weight": "model-00001-of-00006.safetensors",
+    "backbone.layer.2.norm2.bias": "model-00001-of-00006.safetensors",
+    "backbone.layer.2.norm2.weight": "model-00001-of-00006.safetensors",
+    "backbone.layer.20.attention.k_proj.weight": "model-00003-of-00006.safetensors",
+    "backbone.layer.20.attention.o_proj.bias": "model-00003-of-00006.safetensors",
+    "backbone.layer.20.attention.o_proj.weight": "model-00003-of-00006.safetensors",
+    "backbone.layer.20.attention.q_proj.weight": "model-00003-of-00006.safetensors",
+    "backbone.layer.20.attention.v_proj.weight": "model-00003-of-00006.safetensors",
+    "backbone.layer.20.layer_scale1.lambda1": "model-00003-of-00006.safetensors",
+    "backbone.layer.20.layer_scale2.lambda1": "model-00003-of-00006.safetensors",
+    "backbone.layer.20.mlp.down_proj.bias": "model-00003-of-00006.safetensors",
+    "backbone.layer.20.mlp.down_proj.weight": "model-00003-of-00006.safetensors",
+    "backbone.layer.20.mlp.gate_proj.bias": "model-00003-of-00006.safetensors",
+    "backbone.layer.20.mlp.gate_proj.weight": "model-00003-of-00006.safetensors",
+    "backbone.layer.20.mlp.up_proj.bias": "model-00003-of-00006.safetensors",
+    "backbone.layer.20.mlp.up_proj.weight": "model-00003-of-00006.safetensors",
+    "backbone.layer.20.norm1.bias": "model-00003-of-00006.safetensors",
+    "backbone.layer.20.norm1.weight": "model-00003-of-00006.safetensors",
+    "backbone.layer.20.norm2.bias": "model-00003-of-00006.safetensors",
+    "backbone.layer.20.norm2.weight": "model-00003-of-00006.safetensors",
+    "backbone.layer.21.attention.k_proj.weight": "model-00003-of-00006.safetensors",
+    "backbone.layer.21.attention.o_proj.bias": "model-00003-of-00006.safetensors",
+    "backbone.layer.21.attention.o_proj.weight": "model-00003-of-00006.safetensors",
+    "backbone.layer.21.attention.q_proj.weight": "model-00003-of-00006.safetensors",
+    "backbone.layer.21.attention.v_proj.weight": "model-00003-of-00006.safetensors",
+    "backbone.layer.21.layer_scale1.lambda1": "model-00003-of-00006.safetensors",
+    "backbone.layer.21.layer_scale2.lambda1": "model-00003-of-00006.safetensors",
+    "backbone.layer.21.mlp.down_proj.bias": "model-00003-of-00006.safetensors",
+    "backbone.layer.21.mlp.down_proj.weight": "model-00003-of-00006.safetensors",
+    "backbone.layer.21.mlp.gate_proj.bias": "model-00003-of-00006.safetensors",
+    "backbone.layer.21.mlp.gate_proj.weight": "model-00003-of-00006.safetensors",
+    "backbone.layer.21.mlp.up_proj.bias": "model-00003-of-00006.safetensors",
+    "backbone.layer.21.mlp.up_proj.weight": "model-00003-of-00006.safetensors",
+    "backbone.layer.21.norm1.bias": "model-00003-of-00006.safetensors",
+    "backbone.layer.21.norm1.weight": "model-00003-of-00006.safetensors",
+    "backbone.layer.21.norm2.bias": "model-00003-of-00006.safetensors",
+    "backbone.layer.21.norm2.weight": "model-00003-of-00006.safetensors",
+    "backbone.layer.22.attention.k_proj.weight": "model-00003-of-00006.safetensors",
+    "backbone.layer.22.attention.o_proj.bias": "model-00004-of-00006.safetensors",
+    "backbone.layer.22.attention.o_proj.weight": "model-00004-of-00006.safetensors",
+    "backbone.layer.22.attention.q_proj.weight": "model-00004-of-00006.safetensors",
+    "backbone.layer.22.attention.v_proj.weight": "model-00003-of-00006.safetensors",
+    "backbone.layer.22.layer_scale1.lambda1": "model-00004-of-00006.safetensors",
+    "backbone.layer.22.layer_scale2.lambda1": "model-00004-of-00006.safetensors",
+    "backbone.layer.22.mlp.down_proj.bias": "model-00004-of-00006.safetensors",
+    "backbone.layer.22.mlp.down_proj.weight": "model-00004-of-00006.safetensors",
+    "backbone.layer.22.mlp.gate_proj.bias": "model-00004-of-00006.safetensors",
+    "backbone.layer.22.mlp.gate_proj.weight": "model-00004-of-00006.safetensors",
+    "backbone.layer.22.mlp.up_proj.bias": "model-00004-of-00006.safetensors",
+    "backbone.layer.22.mlp.up_proj.weight": "model-00004-of-00006.safetensors",
+    "backbone.layer.22.norm1.bias": "model-00003-of-00006.safetensors",
+    "backbone.layer.22.norm1.weight": "model-00003-of-00006.safetensors",
+    "backbone.layer.22.norm2.bias": "model-00004-of-00006.safetensors",
+    "backbone.layer.22.norm2.weight": "model-00004-of-00006.safetensors",
+    "backbone.layer.23.attention.k_proj.weight": "model-00004-of-00006.safetensors",
+    "backbone.layer.23.attention.o_proj.bias": "model-00004-of-00006.safetensors",
+    "backbone.layer.23.attention.o_proj.weight": "model-00004-of-00006.safetensors",
+    "backbone.layer.23.attention.q_proj.weight": "model-00004-of-00006.safetensors",
+    "backbone.layer.23.attention.v_proj.weight": "model-00004-of-00006.safetensors",
+    "backbone.layer.23.layer_scale1.lambda1": "model-00004-of-00006.safetensors",
+    "backbone.layer.23.layer_scale2.lambda1": "model-00004-of-00006.safetensors",
+    "backbone.layer.23.mlp.down_proj.bias": "model-00004-of-00006.safetensors",
+    "backbone.layer.23.mlp.down_proj.weight": "model-00004-of-00006.safetensors",
+    "backbone.layer.23.mlp.gate_proj.bias": "model-00004-of-00006.safetensors",
+    "backbone.layer.23.mlp.gate_proj.weight": "model-00004-of-00006.safetensors",
+    "backbone.layer.23.mlp.up_proj.bias": "model-00004-of-00006.safetensors",
+    "backbone.layer.23.mlp.up_proj.weight": "model-00004-of-00006.safetensors",
+    "backbone.layer.23.norm1.bias": "model-00004-of-00006.safetensors",
+    "backbone.layer.23.norm1.weight": "model-00004-of-00006.safetensors",
+    "backbone.layer.23.norm2.bias": "model-00004-of-00006.safetensors",
+    "backbone.layer.23.norm2.weight": "model-00004-of-00006.safetensors",
+    "backbone.layer.24.attention.k_proj.weight": "model-00004-of-00006.safetensors",
+    "backbone.layer.24.attention.o_proj.bias": "model-00004-of-00006.safetensors",
+    "backbone.layer.24.attention.o_proj.weight": "model-00004-of-00006.safetensors",
+    "backbone.layer.24.attention.q_proj.weight": "model-00004-of-00006.safetensors",
+    "backbone.layer.24.attention.v_proj.weight": "model-00004-of-00006.safetensors",
+    "backbone.layer.24.layer_scale1.lambda1": "model-00004-of-00006.safetensors",
+    "backbone.layer.24.layer_scale2.lambda1": "model-00004-of-00006.safetensors",
+    "backbone.layer.24.mlp.down_proj.bias": "model-00004-of-00006.safetensors",
+    "backbone.layer.24.mlp.down_proj.weight": "model-00004-of-00006.safetensors",
+    "backbone.layer.24.mlp.gate_proj.bias": "model-00004-of-00006.safetensors",
+    "backbone.layer.24.mlp.gate_proj.weight": "model-00004-of-00006.safetensors",
+    "backbone.layer.24.mlp.up_proj.bias": "model-00004-of-00006.safetensors",
+    "backbone.layer.24.mlp.up_proj.weight": "model-00004-of-00006.safetensors",
+    "backbone.layer.24.norm1.bias": "model-00004-of-00006.safetensors",
+    "backbone.layer.24.norm1.weight": "model-00004-of-00006.safetensors",
+    "backbone.layer.24.norm2.bias": "model-00004-of-00006.safetensors",
+    "backbone.layer.24.norm2.weight": "model-00004-of-00006.safetensors",
+    "backbone.layer.25.attention.k_proj.weight": "model-00004-of-00006.safetensors",
+    "backbone.layer.25.attention.o_proj.bias": "model-00004-of-00006.safetensors",
+    "backbone.layer.25.attention.o_proj.weight": "model-00004-of-00006.safetensors",
+    "backbone.layer.25.attention.q_proj.weight": "model-00004-of-00006.safetensors",
+    "backbone.layer.25.attention.v_proj.weight": "model-00004-of-00006.safetensors",
+    "backbone.layer.25.layer_scale1.lambda1": "model-00004-of-00006.safetensors",
+    "backbone.layer.25.layer_scale2.lambda1": "model-00004-of-00006.safetensors",
+    "backbone.layer.25.mlp.down_proj.bias": "model-00004-of-00006.safetensors",
+    "backbone.layer.25.mlp.down_proj.weight": "model-00004-of-00006.safetensors",
+    "backbone.layer.25.mlp.gate_proj.bias": "model-00004-of-00006.safetensors",
+    "backbone.layer.25.mlp.gate_proj.weight": "model-00004-of-00006.safetensors",
+    "backbone.layer.25.mlp.up_proj.bias": "model-00004-of-00006.safetensors",
+    "backbone.layer.25.mlp.up_proj.weight": "model-00004-of-00006.safetensors",
+    "backbone.layer.25.norm1.bias": "model-00004-of-00006.safetensors",
+    "backbone.layer.25.norm1.weight": "model-00004-of-00006.safetensors",
+    "backbone.layer.25.norm2.bias": "model-00004-of-00006.safetensors",
+    "backbone.layer.25.norm2.weight": "model-00004-of-00006.safetensors",
+    "backbone.layer.26.attention.k_proj.weight": "model-00004-of-00006.safetensors",
+    "backbone.layer.26.attention.o_proj.bias": "model-00004-of-00006.safetensors",
+    "backbone.layer.26.attention.o_proj.weight": "model-00004-of-00006.safetensors",
+    "backbone.layer.26.attention.q_proj.weight": "model-00004-of-00006.safetensors",
+    "backbone.layer.26.attention.v_proj.weight": "model-00004-of-00006.safetensors",
+    "backbone.layer.26.layer_scale1.lambda1": "model-00004-of-00006.safetensors",
+    "backbone.layer.26.layer_scale2.lambda1": "model-00004-of-00006.safetensors",
+    "backbone.layer.26.mlp.down_proj.bias": "model-00004-of-00006.safetensors",
+    "backbone.layer.26.mlp.down_proj.weight": "model-00004-of-00006.safetensors",
+    "backbone.layer.26.mlp.gate_proj.bias": "model-00004-of-00006.safetensors",
+    "backbone.layer.26.mlp.gate_proj.weight": "model-00004-of-00006.safetensors",
+    "backbone.layer.26.mlp.up_proj.bias": "model-00004-of-00006.safetensors",
+    "backbone.layer.26.mlp.up_proj.weight": "model-00004-of-00006.safetensors",
+    "backbone.layer.26.norm1.bias": "model-00004-of-00006.safetensors",
+    "backbone.layer.26.norm1.weight": "model-00004-of-00006.safetensors",
+    "backbone.layer.26.norm2.bias": "model-00004-of-00006.safetensors",
+    "backbone.layer.26.norm2.weight": "model-00004-of-00006.safetensors",
+    "backbone.layer.27.attention.k_proj.weight": "model-00004-of-00006.safetensors",
+    "backbone.layer.27.attention.o_proj.bias": "model-00004-of-00006.safetensors",
+    "backbone.layer.27.attention.o_proj.weight": "model-00004-of-00006.safetensors",
+    "backbone.layer.27.attention.q_proj.weight": "model-00004-of-00006.safetensors",
+    "backbone.layer.27.attention.v_proj.weight": "model-00004-of-00006.safetensors",
+    "backbone.layer.27.layer_scale1.lambda1": "model-00004-of-00006.safetensors",
+    "backbone.layer.27.layer_scale2.lambda1": "model-00004-of-00006.safetensors",
+    "backbone.layer.27.mlp.down_proj.bias": "model-00004-of-00006.safetensors",
+    "backbone.layer.27.mlp.down_proj.weight": "model-00004-of-00006.safetensors",
+    "backbone.layer.27.mlp.gate_proj.bias": "model-00004-of-00006.safetensors",
+    "backbone.layer.27.mlp.gate_proj.weight": "model-00004-of-00006.safetensors",
+    "backbone.layer.27.mlp.up_proj.bias": "model-00004-of-00006.safetensors",
+    "backbone.layer.27.mlp.up_proj.weight": "model-00004-of-00006.safetensors",
+    "backbone.layer.27.norm1.bias": "model-00004-of-00006.safetensors",
+    "backbone.layer.27.norm1.weight": "model-00004-of-00006.safetensors",
+    "backbone.layer.27.norm2.bias": "model-00004-of-00006.safetensors",
+    "backbone.layer.27.norm2.weight": "model-00004-of-00006.safetensors",
+    "backbone.layer.28.attention.k_proj.weight": "model-00004-of-00006.safetensors",
+    "backbone.layer.28.attention.o_proj.bias": "model-00004-of-00006.safetensors",
+    "backbone.layer.28.attention.o_proj.weight": "model-00004-of-00006.safetensors",
+    "backbone.layer.28.attention.q_proj.weight": "model-00004-of-00006.safetensors",
+    "backbone.layer.28.attention.v_proj.weight": "model-00004-of-00006.safetensors",
+    "backbone.layer.28.layer_scale1.lambda1": "model-00004-of-00006.safetensors",
+    "backbone.layer.28.layer_scale2.lambda1": "model-00004-of-00006.safetensors",
+    "backbone.layer.28.mlp.down_proj.bias": "model-00004-of-00006.safetensors",
+    "backbone.layer.28.mlp.down_proj.weight": "model-00004-of-00006.safetensors",
+    "backbone.layer.28.mlp.gate_proj.bias": "model-00004-of-00006.safetensors",
+    "backbone.layer.28.mlp.gate_proj.weight": "model-00004-of-00006.safetensors",
+    "backbone.layer.28.mlp.up_proj.bias": "model-00004-of-00006.safetensors",
+    "backbone.layer.28.mlp.up_proj.weight": "model-00004-of-00006.safetensors",
+    "backbone.layer.28.norm1.bias": "model-00004-of-00006.safetensors",
+    "backbone.layer.28.norm1.weight": "model-00004-of-00006.safetensors",
+    "backbone.layer.28.norm2.bias": "model-00004-of-00006.safetensors",
+    "backbone.layer.28.norm2.weight": "model-00004-of-00006.safetensors",
+    "backbone.layer.29.attention.k_proj.weight": "model-00004-of-00006.safetensors",
+    "backbone.layer.29.attention.o_proj.bias": "model-00004-of-00006.safetensors",
+    "backbone.layer.29.attention.o_proj.weight": "model-00004-of-00006.safetensors",
+    "backbone.layer.29.attention.q_proj.weight": "model-00004-of-00006.safetensors",
+    "backbone.layer.29.attention.v_proj.weight": "model-00004-of-00006.safetensors",
+    "backbone.layer.29.layer_scale1.lambda1": "model-00004-of-00006.safetensors",
+    "backbone.layer.29.layer_scale2.lambda1": "model-00005-of-00006.safetensors",
+    "backbone.layer.29.mlp.down_proj.bias": "model-00005-of-00006.safetensors",
+    "backbone.layer.29.mlp.down_proj.weight": "model-00005-of-00006.safetensors",
+    "backbone.layer.29.mlp.gate_proj.bias": "model-00004-of-00006.safetensors",
+    "backbone.layer.29.mlp.gate_proj.weight": "model-00004-of-00006.safetensors",
+    "backbone.layer.29.mlp.up_proj.bias": "model-00005-of-00006.safetensors",
+    "backbone.layer.29.mlp.up_proj.weight": "model-00005-of-00006.safetensors",
+    "backbone.layer.29.norm1.bias": "model-00004-of-00006.safetensors",
+    "backbone.layer.29.norm1.weight": "model-00004-of-00006.safetensors",
+    "backbone.layer.29.norm2.bias": "model-00004-of-00006.safetensors",
+    "backbone.layer.29.norm2.weight": "model-00004-of-00006.safetensors",
+    "backbone.layer.3.attention.k_proj.weight": "model-00001-of-00006.safetensors",
+    "backbone.layer.3.attention.o_proj.bias": "model-00001-of-00006.safetensors",
+    "backbone.layer.3.attention.o_proj.weight": "model-00001-of-00006.safetensors",
+    "backbone.layer.3.attention.q_proj.weight": "model-00001-of-00006.safetensors",
+    "backbone.layer.3.attention.v_proj.weight": "model-00001-of-00006.safetensors",
+    "backbone.layer.3.layer_scale1.lambda1": "model-00001-of-00006.safetensors",
+    "backbone.layer.3.layer_scale2.lambda1": "model-00001-of-00006.safetensors",
+    "backbone.layer.3.mlp.down_proj.bias": "model-00001-of-00006.safetensors",
+    "backbone.layer.3.mlp.down_proj.weight": "model-00001-of-00006.safetensors",
+    "backbone.layer.3.mlp.gate_proj.bias": "model-00001-of-00006.safetensors",
+    "backbone.layer.3.mlp.gate_proj.weight": "model-00001-of-00006.safetensors",
+    "backbone.layer.3.mlp.up_proj.bias": "model-00001-of-00006.safetensors",
+    "backbone.layer.3.mlp.up_proj.weight": "model-00001-of-00006.safetensors",
+    "backbone.layer.3.norm1.bias": "model-00001-of-00006.safetensors",
+    "backbone.layer.3.norm1.weight": "model-00001-of-00006.safetensors",
+    "backbone.layer.3.norm2.bias": "model-00001-of-00006.safetensors",
+    "backbone.layer.3.norm2.weight": "model-00001-of-00006.safetensors",
+    "backbone.layer.30.attention.k_proj.weight": "model-00005-of-00006.safetensors",
+    "backbone.layer.30.attention.o_proj.bias": "model-00005-of-00006.safetensors",
+    "backbone.layer.30.attention.o_proj.weight": "model-00005-of-00006.safetensors",
+    "backbone.layer.30.attention.q_proj.weight": "model-00005-of-00006.safetensors",
+    "backbone.layer.30.attention.v_proj.weight": "model-00005-of-00006.safetensors",
+    "backbone.layer.30.layer_scale1.lambda1": "model-00005-of-00006.safetensors",
+    "backbone.layer.30.layer_scale2.lambda1": "model-00005-of-00006.safetensors",
+    "backbone.layer.30.mlp.down_proj.bias": "model-00005-of-00006.safetensors",
+    "backbone.layer.30.mlp.down_proj.weight": "model-00005-of-00006.safetensors",
+    "backbone.layer.30.mlp.gate_proj.bias": "model-00005-of-00006.safetensors",
+    "backbone.layer.30.mlp.gate_proj.weight": "model-00005-of-00006.safetensors",
+    "backbone.layer.30.mlp.up_proj.bias": "model-00005-of-00006.safetensors",
+    "backbone.layer.30.mlp.up_proj.weight": "model-00005-of-00006.safetensors",
+    "backbone.layer.30.norm1.bias": "model-00005-of-00006.safetensors",
+    "backbone.layer.30.norm1.weight": "model-00005-of-00006.safetensors",
+    "backbone.layer.30.norm2.bias": "model-00005-of-00006.safetensors",
+    "backbone.layer.30.norm2.weight": "model-00005-of-00006.safetensors",
+    "backbone.layer.31.attention.k_proj.weight": "model-00005-of-00006.safetensors",
+    "backbone.layer.31.attention.o_proj.bias": "model-00005-of-00006.safetensors",
+    "backbone.layer.31.attention.o_proj.weight": "model-00005-of-00006.safetensors",
+    "backbone.layer.31.attention.q_proj.weight": "model-00005-of-00006.safetensors",
+    "backbone.layer.31.attention.v_proj.weight": "model-00005-of-00006.safetensors",
+    "backbone.layer.31.layer_scale1.lambda1": "model-00005-of-00006.safetensors",
+    "backbone.layer.31.layer_scale2.lambda1": "model-00005-of-00006.safetensors",
+    "backbone.layer.31.mlp.down_proj.bias": "model-00005-of-00006.safetensors",
+    "backbone.layer.31.mlp.down_proj.weight": "model-00005-of-00006.safetensors",
+    "backbone.layer.31.mlp.gate_proj.bias": "model-00005-of-00006.safetensors",
+    "backbone.layer.31.mlp.gate_proj.weight": "model-00005-of-00006.safetensors",
+    "backbone.layer.31.mlp.up_proj.bias": "model-00005-of-00006.safetensors",
+    "backbone.layer.31.mlp.up_proj.weight": "model-00005-of-00006.safetensors",
+    "backbone.layer.31.norm1.bias": "model-00005-of-00006.safetensors",
+    "backbone.layer.31.norm1.weight": "model-00005-of-00006.safetensors",
+    "backbone.layer.31.norm2.bias": "model-00005-of-00006.safetensors",
+    "backbone.layer.31.norm2.weight": "model-00005-of-00006.safetensors",
+    "backbone.layer.32.attention.k_proj.weight": "model-00005-of-00006.safetensors",
+    "backbone.layer.32.attention.o_proj.bias": "model-00005-of-00006.safetensors",
+    "backbone.layer.32.attention.o_proj.weight": "model-00005-of-00006.safetensors",
+    "backbone.layer.32.attention.q_proj.weight": "model-00005-of-00006.safetensors",
+    "backbone.layer.32.attention.v_proj.weight": "model-00005-of-00006.safetensors",
+    "backbone.layer.32.layer_scale1.lambda1": "model-00005-of-00006.safetensors",
+    "backbone.layer.32.layer_scale2.lambda1": "model-00005-of-00006.safetensors",
+    "backbone.layer.32.mlp.down_proj.bias": "model-00005-of-00006.safetensors",
+    "backbone.layer.32.mlp.down_proj.weight": "model-00005-of-00006.safetensors",
+    "backbone.layer.32.mlp.gate_proj.bias": "model-00005-of-00006.safetensors",
+    "backbone.layer.32.mlp.gate_proj.weight": "model-00005-of-00006.safetensors",
+    "backbone.layer.32.mlp.up_proj.bias": "model-00005-of-00006.safetensors",
+    "backbone.layer.32.mlp.up_proj.weight": "model-00005-of-00006.safetensors",
+    "backbone.layer.32.norm1.bias": "model-00005-of-00006.safetensors",
+    "backbone.layer.32.norm1.weight": "model-00005-of-00006.safetensors",
+    "backbone.layer.32.norm2.bias": "model-00005-of-00006.safetensors",
+    "backbone.layer.32.norm2.weight": "model-00005-of-00006.safetensors",
+    "backbone.layer.33.attention.k_proj.weight": "model-00005-of-00006.safetensors",
+    "backbone.layer.33.attention.o_proj.bias": "model-00005-of-00006.safetensors",
+    "backbone.layer.33.attention.o_proj.weight": "model-00005-of-00006.safetensors",
+    "backbone.layer.33.attention.q_proj.weight": "model-00005-of-00006.safetensors",
+    "backbone.layer.33.attention.v_proj.weight": "model-00005-of-00006.safetensors",
+    "backbone.layer.33.layer_scale1.lambda1": "model-00005-of-00006.safetensors",
+    "backbone.layer.33.layer_scale2.lambda1": "model-00005-of-00006.safetensors",
+    "backbone.layer.33.mlp.down_proj.bias": "model-00005-of-00006.safetensors",
+    "backbone.layer.33.mlp.down_proj.weight": "model-00005-of-00006.safetensors",
+    "backbone.layer.33.mlp.gate_proj.bias": "model-00005-of-00006.safetensors",
+    "backbone.layer.33.mlp.gate_proj.weight": "model-00005-of-00006.safetensors",
+    "backbone.layer.33.mlp.up_proj.bias": "model-00005-of-00006.safetensors",
+    "backbone.layer.33.mlp.up_proj.weight": "model-00005-of-00006.safetensors",
+    "backbone.layer.33.norm1.bias": "model-00005-of-00006.safetensors",
+    "backbone.layer.33.norm1.weight": "model-00005-of-00006.safetensors",
+    "backbone.layer.33.norm2.bias": "model-00005-of-00006.safetensors",
+    "backbone.layer.33.norm2.weight": "model-00005-of-00006.safetensors",
+    "backbone.layer.34.attention.k_proj.weight": "model-00005-of-00006.safetensors",
+    "backbone.layer.34.attention.o_proj.bias": "model-00005-of-00006.safetensors",
+    "backbone.layer.34.attention.o_proj.weight": "model-00005-of-00006.safetensors",
+    "backbone.layer.34.attention.q_proj.weight": "model-00005-of-00006.safetensors",
+    "backbone.layer.34.attention.v_proj.weight": "model-00005-of-00006.safetensors",
+    "backbone.layer.34.layer_scale1.lambda1": "model-00005-of-00006.safetensors",
+    "backbone.layer.34.layer_scale2.lambda1": "model-00005-of-00006.safetensors",
+    "backbone.layer.34.mlp.down_proj.bias": "model-00005-of-00006.safetensors",
+    "backbone.layer.34.mlp.down_proj.weight": "model-00005-of-00006.safetensors",
+    "backbone.layer.34.mlp.gate_proj.bias": "model-00005-of-00006.safetensors",
+    "backbone.layer.34.mlp.gate_proj.weight": "model-00005-of-00006.safetensors",
+    "backbone.layer.34.mlp.up_proj.bias": "model-00005-of-00006.safetensors",
+    "backbone.layer.34.mlp.up_proj.weight": "model-00005-of-00006.safetensors",
+    "backbone.layer.34.norm1.bias": "model-00005-of-00006.safetensors",
+    "backbone.layer.34.norm1.weight": "model-00005-of-00006.safetensors",
+    "backbone.layer.34.norm2.bias": "model-00005-of-00006.safetensors",
+    "backbone.layer.34.norm2.weight": "model-00005-of-00006.safetensors",
+    "backbone.layer.35.attention.k_proj.weight": "model-00005-of-00006.safetensors",
+    "backbone.layer.35.attention.o_proj.bias": "model-00005-of-00006.safetensors",
+    "backbone.layer.35.attention.o_proj.weight": "model-00005-of-00006.safetensors",
+    "backbone.layer.35.attention.q_proj.weight": "model-00005-of-00006.safetensors",
+    "backbone.layer.35.attention.v_proj.weight": "model-00005-of-00006.safetensors",
+    "backbone.layer.35.layer_scale1.lambda1": "model-00005-of-00006.safetensors",
+    "backbone.layer.35.layer_scale2.lambda1": "model-00005-of-00006.safetensors",
+    "backbone.layer.35.mlp.down_proj.bias": "model-00005-of-00006.safetensors",
+    "backbone.layer.35.mlp.down_proj.weight": "model-00005-of-00006.safetensors",
+    "backbone.layer.35.mlp.gate_proj.bias": "model-00005-of-00006.safetensors",
+    "backbone.layer.35.mlp.gate_proj.weight": "model-00005-of-00006.safetensors",
+    "backbone.layer.35.mlp.up_proj.bias": "model-00005-of-00006.safetensors",
+    "backbone.layer.35.mlp.up_proj.weight": "model-00005-of-00006.safetensors",
+    "backbone.layer.35.norm1.bias": "model-00005-of-00006.safetensors",
+    "backbone.layer.35.norm1.weight": "model-00005-of-00006.safetensors",
+    "backbone.layer.35.norm2.bias": "model-00005-of-00006.safetensors",
+    "backbone.layer.35.norm2.weight": "model-00005-of-00006.safetensors",
+    "backbone.layer.36.attention.k_proj.weight": "model-00005-of-00006.safetensors",
+    "backbone.layer.36.attention.o_proj.bias": "model-00005-of-00006.safetensors",
+    "backbone.layer.36.attention.o_proj.weight": "model-00005-of-00006.safetensors",
+    "backbone.layer.36.attention.q_proj.weight": "model-00005-of-00006.safetensors",
+    "backbone.layer.36.attention.v_proj.weight": "model-00005-of-00006.safetensors",
+    "backbone.layer.36.layer_scale1.lambda1": "model-00005-of-00006.safetensors",
+    "backbone.layer.36.layer_scale2.lambda1": "model-00005-of-00006.safetensors",
+    "backbone.layer.36.mlp.down_proj.bias": "model-00005-of-00006.safetensors",
+    "backbone.layer.36.mlp.down_proj.weight": "model-00005-of-00006.safetensors",
+    "backbone.layer.36.mlp.gate_proj.bias": "model-00005-of-00006.safetensors",
+    "backbone.layer.36.mlp.gate_proj.weight": "model-00005-of-00006.safetensors",
+    "backbone.layer.36.mlp.up_proj.bias": "model-00005-of-00006.safetensors",
+    "backbone.layer.36.mlp.up_proj.weight": "model-00005-of-00006.safetensors",
+    "backbone.layer.36.norm1.bias": "model-00005-of-00006.safetensors",
+    "backbone.layer.36.norm1.weight": "model-00005-of-00006.safetensors",
+    "backbone.layer.36.norm2.bias": "model-00005-of-00006.safetensors",
+    "backbone.layer.36.norm2.weight": "model-00005-of-00006.safetensors",
+    "backbone.layer.37.attention.k_proj.weight": "model-00006-of-00006.safetensors",
+    "backbone.layer.37.attention.o_proj.bias": "model-00006-of-00006.safetensors",
+    "backbone.layer.37.attention.o_proj.weight": "model-00006-of-00006.safetensors",
+    "backbone.layer.37.attention.q_proj.weight": "model-00006-of-00006.safetensors",
+    "backbone.layer.37.attention.v_proj.weight": "model-00006-of-00006.safetensors",
+    "backbone.layer.37.layer_scale1.lambda1": "model-00006-of-00006.safetensors",
+    "backbone.layer.37.layer_scale2.lambda1": "model-00006-of-00006.safetensors",
+    "backbone.layer.37.mlp.down_proj.bias": "model-00006-of-00006.safetensors",
+    "backbone.layer.37.mlp.down_proj.weight": "model-00006-of-00006.safetensors",
+    "backbone.layer.37.mlp.gate_proj.bias": "model-00006-of-00006.safetensors",
+    "backbone.layer.37.mlp.gate_proj.weight": "model-00006-of-00006.safetensors",
+    "backbone.layer.37.mlp.up_proj.bias": "model-00006-of-00006.safetensors",
+    "backbone.layer.37.mlp.up_proj.weight": "model-00006-of-00006.safetensors",
+    "backbone.layer.37.norm1.bias": "model-00005-of-00006.safetensors",
+    "backbone.layer.37.norm1.weight": "model-00005-of-00006.safetensors",
+    "backbone.layer.37.norm2.bias": "model-00006-of-00006.safetensors",
+    "backbone.layer.37.norm2.weight": "model-00006-of-00006.safetensors",
+    "backbone.layer.38.attention.k_proj.weight": "model-00006-of-00006.safetensors",
+    "backbone.layer.38.attention.o_proj.bias": "model-00006-of-00006.safetensors",
+    "backbone.layer.38.attention.o_proj.weight": "model-00006-of-00006.safetensors",
+    "backbone.layer.38.attention.q_proj.weight": "model-00006-of-00006.safetensors",
+    "backbone.layer.38.attention.v_proj.weight": "model-00006-of-00006.safetensors",
+    "backbone.layer.38.layer_scale1.lambda1": "model-00006-of-00006.safetensors",
+    "backbone.layer.38.layer_scale2.lambda1": "model-00006-of-00006.safetensors",
+    "backbone.layer.38.mlp.down_proj.bias": "model-00006-of-00006.safetensors",
+    "backbone.layer.38.mlp.down_proj.weight": "model-00006-of-00006.safetensors",
+    "backbone.layer.38.mlp.gate_proj.bias": "model-00006-of-00006.safetensors",
+    "backbone.layer.38.mlp.gate_proj.weight": "model-00006-of-00006.safetensors",
+    "backbone.layer.38.mlp.up_proj.bias": "model-00006-of-00006.safetensors",
+    "backbone.layer.38.mlp.up_proj.weight": "model-00006-of-00006.safetensors",
+    "backbone.layer.38.norm1.bias": "model-00006-of-00006.safetensors",
+    "backbone.layer.38.norm1.weight": "model-00006-of-00006.safetensors",
+    "backbone.layer.38.norm2.bias": "model-00006-of-00006.safetensors",
+    "backbone.layer.38.norm2.weight": "model-00006-of-00006.safetensors",
+    "backbone.layer.39.attention.k_proj.weight": "model-00006-of-00006.safetensors",
+    "backbone.layer.39.attention.o_proj.bias": "model-00006-of-00006.safetensors",
+    "backbone.layer.39.attention.o_proj.weight": "model-00006-of-00006.safetensors",
+    "backbone.layer.39.attention.q_proj.weight": "model-00006-of-00006.safetensors",
+    "backbone.layer.39.attention.v_proj.weight": "model-00006-of-00006.safetensors",
+    "backbone.layer.39.layer_scale1.lambda1": "model-00006-of-00006.safetensors",
+    "backbone.layer.39.layer_scale2.lambda1": "model-00006-of-00006.safetensors",
+    "backbone.layer.39.mlp.down_proj.bias": "model-00006-of-00006.safetensors",
+    "backbone.layer.39.mlp.down_proj.weight": "model-00006-of-00006.safetensors",
+    "backbone.layer.39.mlp.gate_proj.bias": "model-00006-of-00006.safetensors",
+    "backbone.layer.39.mlp.gate_proj.weight": "model-00006-of-00006.safetensors",
+    "backbone.layer.39.mlp.up_proj.bias": "model-00006-of-00006.safetensors",
+    "backbone.layer.39.mlp.up_proj.weight": "model-00006-of-00006.safetensors",
+    "backbone.layer.39.norm1.bias": "model-00006-of-00006.safetensors",
+    "backbone.layer.39.norm1.weight": "model-00006-of-00006.safetensors",
+    "backbone.layer.39.norm2.bias": "model-00006-of-00006.safetensors",
+    "backbone.layer.39.norm2.weight": "model-00006-of-00006.safetensors",
+    "backbone.layer.4.attention.k_proj.weight": "model-00001-of-00006.safetensors",
+    "backbone.layer.4.attention.o_proj.bias": "model-00001-of-00006.safetensors",
+    "backbone.layer.4.attention.o_proj.weight": "model-00001-of-00006.safetensors",
+    "backbone.layer.4.attention.q_proj.weight": "model-00001-of-00006.safetensors",
+    "backbone.layer.4.attention.v_proj.weight": "model-00001-of-00006.safetensors",
+    "backbone.layer.4.layer_scale1.lambda1": "model-00001-of-00006.safetensors",
+    "backbone.layer.4.layer_scale2.lambda1": "model-00001-of-00006.safetensors",
+    "backbone.layer.4.mlp.down_proj.bias": "model-00001-of-00006.safetensors",
+    "backbone.layer.4.mlp.down_proj.weight": "model-00001-of-00006.safetensors",
+    "backbone.layer.4.mlp.gate_proj.bias": "model-00001-of-00006.safetensors",
+    "backbone.layer.4.mlp.gate_proj.weight": "model-00001-of-00006.safetensors",
+    "backbone.layer.4.mlp.up_proj.bias": "model-00001-of-00006.safetensors",
+    "backbone.layer.4.mlp.up_proj.weight": "model-00001-of-00006.safetensors",
+    "backbone.layer.4.norm1.bias": "model-00001-of-00006.safetensors",
+    "backbone.layer.4.norm1.weight": "model-00001-of-00006.safetensors",
+    "backbone.layer.4.norm2.bias": "model-00001-of-00006.safetensors",
+    "backbone.layer.4.norm2.weight": "model-00001-of-00006.safetensors",
+    "backbone.layer.5.attention.k_proj.weight": "model-00001-of-00006.safetensors",
+    "backbone.layer.5.attention.o_proj.bias": "model-00001-of-00006.safetensors",
+    "backbone.layer.5.attention.o_proj.weight": "model-00001-of-00006.safetensors",
+    "backbone.layer.5.attention.q_proj.weight": "model-00001-of-00006.safetensors",
+    "backbone.layer.5.attention.v_proj.weight": "model-00001-of-00006.safetensors",
+    "backbone.layer.5.layer_scale1.lambda1": "model-00001-of-00006.safetensors",
+    "backbone.layer.5.layer_scale2.lambda1": "model-00001-of-00006.safetensors",
+    "backbone.layer.5.mlp.down_proj.bias": "model-00001-of-00006.safetensors",
+    "backbone.layer.5.mlp.down_proj.weight": "model-00001-of-00006.safetensors",
+    "backbone.layer.5.mlp.gate_proj.bias": "model-00001-of-00006.safetensors",
+    "backbone.layer.5.mlp.gate_proj.weight": "model-00001-of-00006.safetensors",
+    "backbone.layer.5.mlp.up_proj.bias": "model-00001-of-00006.safetensors",
+    "backbone.layer.5.mlp.up_proj.weight": "model-00001-of-00006.safetensors",
+    "backbone.layer.5.norm1.bias": "model-00001-of-00006.safetensors",
+    "backbone.layer.5.norm1.weight": "model-00001-of-00006.safetensors",
+    "backbone.layer.5.norm2.bias": "model-00001-of-00006.safetensors",
+    "backbone.layer.5.norm2.weight": "model-00001-of-00006.safetensors",
+    "backbone.layer.6.attention.k_proj.weight": "model-00001-of-00006.safetensors",
+    "backbone.layer.6.attention.o_proj.bias": "model-00001-of-00006.safetensors",
+    "backbone.layer.6.attention.o_proj.weight": "model-00001-of-00006.safetensors",
+    "backbone.layer.6.attention.q_proj.weight": "model-00001-of-00006.safetensors",
+    "backbone.layer.6.attention.v_proj.weight": "model-00001-of-00006.safetensors",
+    "backbone.layer.6.layer_scale1.lambda1": "model-00001-of-00006.safetensors",
+    "backbone.layer.6.layer_scale2.lambda1": "model-00001-of-00006.safetensors",
+    "backbone.layer.6.mlp.down_proj.bias": "model-00001-of-00006.safetensors",
+    "backbone.layer.6.mlp.down_proj.weight": "model-00001-of-00006.safetensors",
+    "backbone.layer.6.mlp.gate_proj.bias": "model-00001-of-00006.safetensors",
+    "backbone.layer.6.mlp.gate_proj.weight": "model-00001-of-00006.safetensors",
+    "backbone.layer.6.mlp.up_proj.bias": "model-00001-of-00006.safetensors",
+    "backbone.layer.6.mlp.up_proj.weight": "model-00001-of-00006.safetensors",
+    "backbone.layer.6.norm1.bias": "model-00001-of-00006.safetensors",
+    "backbone.layer.6.norm1.weight": "model-00001-of-00006.safetensors",
+    "backbone.layer.6.norm2.bias": "model-00001-of-00006.safetensors",
+    "backbone.layer.6.norm2.weight": "model-00001-of-00006.safetensors",
+    "backbone.layer.7.attention.k_proj.weight": "model-00001-of-00006.safetensors",
+    "backbone.layer.7.attention.o_proj.bias": "model-00001-of-00006.safetensors",
+    "backbone.layer.7.attention.o_proj.weight": "model-00001-of-00006.safetensors",
+    "backbone.layer.7.attention.q_proj.weight": "model-00001-of-00006.safetensors",
+    "backbone.layer.7.attention.v_proj.weight": "model-00001-of-00006.safetensors",
+    "backbone.layer.7.layer_scale1.lambda1": "model-00001-of-00006.safetensors",
+    "backbone.layer.7.layer_scale2.lambda1": "model-00002-of-00006.safetensors",
+    "backbone.layer.7.mlp.down_proj.bias": "model-00002-of-00006.safetensors",
+    "backbone.layer.7.mlp.down_proj.weight": "model-00002-of-00006.safetensors",
+    "backbone.layer.7.mlp.gate_proj.bias": "model-00002-of-00006.safetensors",
+    "backbone.layer.7.mlp.gate_proj.weight": "model-00002-of-00006.safetensors",
+    "backbone.layer.7.mlp.up_proj.bias": "model-00002-of-00006.safetensors",
+    "backbone.layer.7.mlp.up_proj.weight": "model-00002-of-00006.safetensors",
+    "backbone.layer.7.norm1.bias": "model-00001-of-00006.safetensors",
+    "backbone.layer.7.norm1.weight": "model-00001-of-00006.safetensors",
+    "backbone.layer.7.norm2.bias": "model-00001-of-00006.safetensors",
+    "backbone.layer.7.norm2.weight": "model-00001-of-00006.safetensors",
+    "backbone.layer.8.attention.k_proj.weight": "model-00002-of-00006.safetensors",
+    "backbone.layer.8.attention.o_proj.bias": "model-00002-of-00006.safetensors",
+    "backbone.layer.8.attention.o_proj.weight": "model-00002-of-00006.safetensors",
+    "backbone.layer.8.attention.q_proj.weight": "model-00002-of-00006.safetensors",
+    "backbone.layer.8.attention.v_proj.weight": "model-00002-of-00006.safetensors",
+    "backbone.layer.8.layer_scale1.lambda1": "model-00002-of-00006.safetensors",
+    "backbone.layer.8.layer_scale2.lambda1": "model-00002-of-00006.safetensors",
+    "backbone.layer.8.mlp.down_proj.bias": "model-00002-of-00006.safetensors",
+    "backbone.layer.8.mlp.down_proj.weight": "model-00002-of-00006.safetensors",
+    "backbone.layer.8.mlp.gate_proj.bias": "model-00002-of-00006.safetensors",
+    "backbone.layer.8.mlp.gate_proj.weight": "model-00002-of-00006.safetensors",
+    "backbone.layer.8.mlp.up_proj.bias": "model-00002-of-00006.safetensors",
+    "backbone.layer.8.mlp.up_proj.weight": "model-00002-of-00006.safetensors",
+    "backbone.layer.8.norm1.bias": "model-00002-of-00006.safetensors",
+    "backbone.layer.8.norm1.weight": "model-00002-of-00006.safetensors",
+    "backbone.layer.8.norm2.bias": "model-00002-of-00006.safetensors",
+    "backbone.layer.8.norm2.weight": "model-00002-of-00006.safetensors",
+    "backbone.layer.9.attention.k_proj.weight": "model-00002-of-00006.safetensors",
+    "backbone.layer.9.attention.o_proj.bias": "model-00002-of-00006.safetensors",
+    "backbone.layer.9.attention.o_proj.weight": "model-00002-of-00006.safetensors",
+    "backbone.layer.9.attention.q_proj.weight": "model-00002-of-00006.safetensors",
+    "backbone.layer.9.attention.v_proj.weight": "model-00002-of-00006.safetensors",
+    "backbone.layer.9.layer_scale1.lambda1": "model-00002-of-00006.safetensors",
+    "backbone.layer.9.layer_scale2.lambda1": "model-00002-of-00006.safetensors",
+    "backbone.layer.9.mlp.down_proj.bias": "model-00002-of-00006.safetensors",
+    "backbone.layer.9.mlp.down_proj.weight": "model-00002-of-00006.safetensors",
+    "backbone.layer.9.mlp.gate_proj.bias": "model-00002-of-00006.safetensors",
+    "backbone.layer.9.mlp.gate_proj.weight": "model-00002-of-00006.safetensors",
+    "backbone.layer.9.mlp.up_proj.bias": "model-00002-of-00006.safetensors",
+    "backbone.layer.9.mlp.up_proj.weight": "model-00002-of-00006.safetensors",
+    "backbone.layer.9.norm1.bias": "model-00002-of-00006.safetensors",
+    "backbone.layer.9.norm1.weight": "model-00002-of-00006.safetensors",
+    "backbone.layer.9.norm2.bias": "model-00002-of-00006.safetensors",
+    "backbone.layer.9.norm2.weight": "model-00002-of-00006.safetensors",
+    "backbone.norm.bias": "model-00006-of-00006.safetensors",
+    "backbone.norm.weight": "model-00006-of-00006.safetensors",
+    "projector.hidden_layers.0.bias": "model-00006-of-00006.safetensors",
+    "projector.hidden_layers.0.weight": "model-00006-of-00006.safetensors",
+    "projector.hidden_layers.1.bias": "model-00006-of-00006.safetensors",
+    "projector.hidden_layers.1.weight": "model-00006-of-00006.safetensors",
+    "projector.input_layer.bias": "model-00006-of-00006.safetensors",
+    "projector.input_layer.weight": "model-00006-of-00006.safetensors",
+    "projector.output_layer.bias": "model-00006-of-00006.safetensors",
+    "projector.output_layer.weight": "model-00006-of-00006.safetensors",
+    "projector.residual_proj.bias": "model-00006-of-00006.safetensors",
+    "projector.residual_proj.weight": "model-00006-of-00006.safetensors"
+  }
+}

modeling_spatial_embeddings.py ADDED Viewed

	@@ -0,0 +1,188 @@

+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+from transformers import PreTrainedModel, AutoModel
+from .configuration_spatial_embeddings import SpatialEmbeddingsConfig
+from typing import Optional, Tuple, Union, Literal
+class EmbeddingProjector(nn.Module):
+    """
+    Configurable MLP projection head for embedding transformation.
+    (Copied from train_specialized_embeddings/model.py for self-contained publishing)
+    """
+    def __init__(
+        self,
+        input_dim: int = 768,
+        hidden_dim: int = 512,
+        output_dim: int = 256,
+        dropout: float = 0.1,
+        num_hidden_layers: int = 1,
+        hidden_dim_multiplier: float = 1.0,
+        activation: Literal["gelu", "relu", "silu"] = "gelu",
+        use_residual: bool = True,
+        use_layer_norm: bool = True,
+    ):
+        super().__init__()
+        self.input_dim = input_dim
+        self.hidden_dim = hidden_dim
+        self.output_dim = output_dim
+        self.use_residual = use_residual
+        self.use_layer_norm = use_layer_norm
+        self.num_hidden_layers = num_hidden_layers
+        self.hidden_dim_multiplier = hidden_dim_multiplier
+        self.activation_name = activation
+        self.hidden_dims = self._compute_hidden_dims(
+            hidden_dim, num_hidden_layers, hidden_dim_multiplier
+        )
+        self.activation = self._resolve_activation(activation)
+        # First hidden block
+        self.input_layer = nn.Linear(input_dim, self.hidden_dims[0])
+        if use_layer_norm:
+            self.input_norm = nn.LayerNorm(self.hidden_dims[0])
+        self.input_dropout = nn.Dropout(dropout)
+        # Additional hidden blocks (if any)
+        self.hidden_layers = nn.ModuleList()
+        if use_layer_norm:
+            self.hidden_norms = nn.ModuleList()
+        else:
+            self.hidden_norms = None
+        self.hidden_dropouts = nn.ModuleList()
+        for idx in range(1, len(self.hidden_dims)):
+            layer = nn.Linear(self.hidden_dims[idx - 1], self.hidden_dims[idx])
+            self.hidden_layers.append(layer)
+            if use_layer_norm:
+                self.hidden_norms.append(nn.LayerNorm(self.hidden_dims[idx]))
+            self.hidden_dropouts.append(nn.Dropout(dropout))
+        # Output block
+        self.output_layer = nn.Linear(self.hidden_dims[-1], output_dim)
+        if use_layer_norm:
+            self.output_norm = nn.LayerNorm(output_dim)
+        self.output_dropout = nn.Dropout(dropout)
+        # Residual shortcut (projects input directly to output)
+        if use_residual:
+            self.residual_proj = nn.Linear(input_dim, output_dim)
+    @staticmethod
+    def _compute_hidden_dims(
+        base_hidden_dim: int, num_layers: int, multiplier: float
+    ) -> list[int]:
+        dims: list[int] = []
+        current_dim = base_hidden_dim
+        for layer_idx in range(num_layers):
+            if layer_idx == 0:
+                dims.append(base_hidden_dim)
+            else:
+                current_dim = max(16, int(round(current_dim * multiplier)))
+                dims.append(current_dim)
+        return dims
+    @staticmethod
+    def _resolve_activation(name: str) -> nn.Module:
+        if name == "gelu":
+            return nn.GELU()
+        if name == "relu":
+            return nn.ReLU()
+        if name == "silu":
+            return nn.SiLU()
+        raise ValueError(f"Unsupported activation: {name}")
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        # First hidden block
+        out = self.input_layer(x)
+        if self.use_layer_norm:
+            out = self.input_norm(out)
+        out = self.activation(out)
+        out = self.input_dropout(out)
+        # Additional hidden blocks
+        for idx, layer in enumerate(self.hidden_layers):
+            out = layer(out)
+            if self.use_layer_norm and self.hidden_norms is not None:
+                out = self.hidden_norms[idx](out)
+            out = self.activation(out)
+            out = self.hidden_dropouts[idx](out)
+        # Output block
+        out = self.output_layer(out)
+        if self.use_layer_norm:
+            out = self.output_norm(out)
+        out = self.output_dropout(out)
+        # Residual connection
+        if self.use_residual:
+            residual = self.residual_proj(x)
+            out = out + residual
+        # L2 normalization
+        out = F.normalize(out, p=2, dim=1)
+        return out
+class SpatialEmbeddingsModel(PreTrainedModel):
+    config_class = SpatialEmbeddingsConfig
+    def __init__(self, config: SpatialEmbeddingsConfig):
+        super().__init__(config)
+        self.config = config
+        # Initialize backbone
+        self.backbone = AutoModel.from_pretrained(
+            config.backbone_model_name, trust_remote_code=True
+        )
+        # Initialize projector
+        self.projector = EmbeddingProjector(
+            input_dim=config.input_dim,
+            hidden_dim=config.hidden_dim,
+            output_dim=config.output_dim,
+            dropout=config.dropout,
+            num_hidden_layers=config.num_hidden_layers,
+            hidden_dim_multiplier=config.hidden_dim_multiplier,
+            activation=config.activation,
+            use_residual=config.use_residual,
+            use_layer_norm=config.use_layer_norm,
+        )
+    def forward(
+        self,
+        pixel_values: Optional[torch.Tensor] = None,
+        return_dict: Optional[bool] = None,
+        **kwargs,
+    ) -> Union[Tuple, torch.Tensor]:
+        """
+        Args:
+            pixel_values: Tensor of shape (batch_size, channels, height, width)
+            return_dict: Whether to return a dictionary or tuple
+        Returns:
+            If return_dict is True (default for HF), returns object with 'embeddings'.
+            Otherwise returns (embeddings,).
+        """
+        # Pass through backbone
+        outputs = self.backbone(pixel_values=pixel_values, return_dict=True, **kwargs)
+        # Extract pooled output (CLS token or similar)
+        # DINOv2 outputs pooler_output in some versions, or last_hidden_state
+        if hasattr(outputs, "pooler_output") and outputs.pooler_output is not None:
+            backbone_emb = outputs.pooler_output
+        else:
+            # Fallback: Use CLS token from last hidden state
+            backbone_emb = outputs.last_hidden_state[:, 0]
+        # Project to specialized embedding
+        specialized_emb = self.projector(backbone_emb)
+        if return_dict:
+            return {"embeddings": specialized_emb, "backbone_outputs": outputs}
+        return (specialized_emb,)