Upload model

Browse files

Files changed (5) hide show

config.json +4 -7
model-00001-of-00003.safetensors +3 -0
model-00002-of-00003.safetensors +3 -0
model-00003-of-00003.safetensors +3 -0
model.safetensors.index.json +42 -0

config.json CHANGED Viewed

@@ -2,15 +2,12 @@
   "architectures": [
     "CustomModel"
   ],
-  "auto_map": {
-    "AutoConfig": "configuration.CustomConfig",
-    "AutoModelForCausalLM": "modeling.CustomModel",
-    "AutoModel": "modeling.CustomModel"
-  },
   "d_head": 128,
   "d_model": 8192,
   "n_heads": 64,
   "n_layers": 3,
   "n_vocab": 50257,
-  "model_type": "custom-mbz-test"
-}

   "architectures": [
     "CustomModel"
   ],
   "d_head": 128,
   "d_model": 8192,
+  "dtype": "float32",
+  "model_type": "custom-mbz-test",
   "n_heads": 64,
   "n_layers": 3,
   "n_vocab": 50257,
+  "transformers_version": "4.56.0"
+}

model-00001-of-00003.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:507b764f21cc315722ccfdeeacb2929690d18d81bf6a8c3f5ff05474279d9d2d
+size 4868277384

model-00002-of-00003.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b087dc7a7f118e97a7e2d69029ce6ca2af2e5c3f66887841295f6988e6007697
+size 4295198168

model-00003-of-00003.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2189cfc700dfe1aa6e616001b5cd06882c664c179328a138e487c49b8dce8cdc
+size 3794769116

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,42 @@

+{
+  "metadata": {
+    "total_parameters": 3239560273,
+    "total_size": 12958241092
+  },
+  "weight_map": {
+    "model.blocks.0.attn.Wk.weight": "model-00001-of-00003.safetensors",
+    "model.blocks.0.attn.Wo.weight": "model-00001-of-00003.safetensors",
+    "model.blocks.0.attn.Wq.weight": "model-00001-of-00003.safetensors",
+    "model.blocks.0.attn.Wv.weight": "model-00001-of-00003.safetensors",
+    "model.blocks.0.mlp.0.bias": "model-00001-of-00003.safetensors",
+    "model.blocks.0.mlp.0.weight": "model-00001-of-00003.safetensors",
+    "model.blocks.0.mlp.2.bias": "model-00001-of-00003.safetensors",
+    "model.blocks.0.mlp.2.weight": "model-00001-of-00003.safetensors",
+    "model.blocks.0.norm1.weight": "model-00001-of-00003.safetensors",
+    "model.blocks.0.norm2.weight": "model-00001-of-00003.safetensors",
+    "model.blocks.1.attn.Wk.weight": "model-00002-of-00003.safetensors",
+    "model.blocks.1.attn.Wo.weight": "model-00002-of-00003.safetensors",
+    "model.blocks.1.attn.Wq.weight": "model-00002-of-00003.safetensors",
+    "model.blocks.1.attn.Wv.weight": "model-00002-of-00003.safetensors",
+    "model.blocks.1.mlp.0.bias": "model-00002-of-00003.safetensors",
+    "model.blocks.1.mlp.0.weight": "model-00002-of-00003.safetensors",
+    "model.blocks.1.mlp.2.bias": "model-00002-of-00003.safetensors",
+    "model.blocks.1.mlp.2.weight": "model-00002-of-00003.safetensors",
+    "model.blocks.1.norm1.weight": "model-00002-of-00003.safetensors",
+    "model.blocks.1.norm2.weight": "model-00002-of-00003.safetensors",
+    "model.blocks.2.attn.Wk.weight": "model-00002-of-00003.safetensors",
+    "model.blocks.2.attn.Wo.weight": "model-00002-of-00003.safetensors",
+    "model.blocks.2.attn.Wq.weight": "model-00002-of-00003.safetensors",
+    "model.blocks.2.attn.Wv.weight": "model-00002-of-00003.safetensors",
+    "model.blocks.2.mlp.0.bias": "model-00003-of-00003.safetensors",
+    "model.blocks.2.mlp.0.weight": "model-00003-of-00003.safetensors",
+    "model.blocks.2.mlp.2.bias": "model-00003-of-00003.safetensors",
+    "model.blocks.2.mlp.2.weight": "model-00003-of-00003.safetensors",
+    "model.blocks.2.norm1.weight": "model-00003-of-00003.safetensors",
+    "model.blocks.2.norm2.weight": "model-00003-of-00003.safetensors",
+    "model.embed.weight": "model-00001-of-00003.safetensors",
+    "model.norm.weight": "model-00003-of-00003.safetensors",
+    "model.out_head.bias": "model-00003-of-00003.safetensors",
+    "model.out_head.weight": "model-00003-of-00003.safetensors"
+  }
+}