Upload folder using huggingface_hub

Browse files

Files changed (6) hide show

config.json +1 -1
model-00001-of-00004.safetensors +2 -2
model-00002-of-00004.safetensors +2 -2
model-00003-of-00004.safetensors +2 -2
model-00004-of-00004.safetensors +2 -2
model.safetensors.index.json +47 -47

config.json CHANGED Viewed

@@ -9,7 +9,7 @@
   "hidden_act": "silu",
   "hidden_size": 5120,
   "initializer_range": 0.02,
-  "intermediate_size": 7168,
   "max_position_embeddings": 131072,
   "model_type": "mistral",
   "num_attention_heads": 32,

   "hidden_act": "silu",
   "hidden_size": 5120,
   "initializer_range": 0.02,
+  "intermediate_size": 8192,
   "max_position_embeddings": 131072,
   "model_type": "mistral",
   "num_attention_heads": 32,

model-00001-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:181eb4cc2477fdae2c65f338a8ca8834ba518efb927cbd1af788493f5975955a
-size 4980973216

 version https://git-lfs.github.com/spec/v1
+oid sha256:92977a63d0de7d2e968abf3c6ed919f64328cb17a701d341e1d58100b60c1348
+size 4970465928

model-00002-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e0d497b709194f5c0180f3e90faa988d1b130b1c5d02e77190d03cff6d0dd331
-size 4991544888

 version https://git-lfs.github.com/spec/v1
+oid sha256:f58eff1a8d0c8ece6db305126f4814358ce48a46d79152afe99af362a69c56c9
+size 4991523128

model-00003-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:47fb6771de986047fb56f3e222415667b186e5f3170984f9beb93e187befccde
-size 4372873032

 version https://git-lfs.github.com/spec/v1
+oid sha256:9a066e36b27eef690dcd7ba1d7218966f292081f3fa848287f22fed4a04e5813
+size 4991523128

model-00004-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c51fcd3f6b660c26921cbcfef56951387774cd2c3313e51545df25cb09f9263a
-size 1342177408

 version https://git-lfs.github.com/spec/v1
+oid sha256:96de783d8222d1e08e1c77f627afd970f9079caa3b2fa5456c4e11ac65093eb7
+size 1992347560

model.safetensors.index.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "metadata": {
-    "total_parameters": 7843763200,
-    "total_size": 15687526400
   },
   "weight_map": {
     "lm_head.weight": "model-00004-of-00004.safetensors",
@@ -24,13 +24,13 @@
     "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
     "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
     "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.10.input_layernorm.weight": "model-00001-of-00004.safetensors",
-    "model.layers.10.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.10.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.10.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.10.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
     "model.layers.10.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.10.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
     "model.layers.10.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
     "model.layers.10.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
     "model.layers.11.input_layernorm.weight": "model-00002-of-00004.safetensors",
@@ -38,10 +38,10 @@
     "model.layers.11.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
     "model.layers.11.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
     "model.layers.11.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
-    "model.layers.11.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
     "model.layers.11.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.11.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.11.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
     "model.layers.12.input_layernorm.weight": "model-00002-of-00004.safetensors",
     "model.layers.12.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
     "model.layers.12.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
@@ -159,33 +159,33 @@
     "model.layers.23.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
     "model.layers.23.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
     "model.layers.23.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.24.input_layernorm.weight": "model-00002-of-00004.safetensors",
-    "model.layers.24.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.24.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.24.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.24.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
     "model.layers.24.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.24.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
     "model.layers.24.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
     "model.layers.24.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.25.input_layernorm.weight": "model-00002-of-00004.safetensors",
-    "model.layers.25.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.25.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.25.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.25.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
-    "model.layers.25.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.25.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.25.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.25.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
     "model.layers.26.input_layernorm.weight": "model-00003-of-00004.safetensors",
     "model.layers.26.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.26.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
     "model.layers.26.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
     "model.layers.26.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
-    "model.layers.26.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.26.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.26.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.26.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
     "model.layers.27.input_layernorm.weight": "model-00003-of-00004.safetensors",
     "model.layers.27.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
     "model.layers.27.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
@@ -294,24 +294,24 @@
     "model.layers.37.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
     "model.layers.37.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
     "model.layers.37.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.38.input_layernorm.weight": "model-00003-of-00004.safetensors",
-    "model.layers.38.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.38.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.38.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.38.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
     "model.layers.38.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.38.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
     "model.layers.38.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
     "model.layers.38.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.39.input_layernorm.weight": "model-00003-of-00004.safetensors",
-    "model.layers.39.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.39.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.39.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.39.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
-    "model.layers.39.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.39.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.39.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.39.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
     "model.layers.4.input_layernorm.weight": "model-00001-of-00004.safetensors",
     "model.layers.4.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
     "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
@@ -366,6 +366,6 @@
     "model.layers.9.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
     "model.layers.9.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
     "model.layers.9.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
-    "model.norm.weight": "model-00003-of-00004.safetensors"
   }
 }

 {
   "metadata": {
+    "total_parameters": 8472908800,
+    "total_size": 16945817600
   },
   "weight_map": {
     "lm_head.weight": "model-00004-of-00004.safetensors",
     "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
     "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
     "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
     "model.layers.10.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
     "model.layers.10.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
     "model.layers.10.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
     "model.layers.11.input_layernorm.weight": "model-00002-of-00004.safetensors",
     "model.layers.11.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
     "model.layers.11.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
     "model.layers.11.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
     "model.layers.11.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
     "model.layers.12.input_layernorm.weight": "model-00002-of-00004.safetensors",
     "model.layers.12.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
     "model.layers.12.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
     "model.layers.23.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
     "model.layers.23.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
     "model.layers.23.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
     "model.layers.24.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
     "model.layers.24.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
     "model.layers.24.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
     "model.layers.26.input_layernorm.weight": "model-00003-of-00004.safetensors",
     "model.layers.26.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
     "model.layers.26.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
     "model.layers.26.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
     "model.layers.27.input_layernorm.weight": "model-00003-of-00004.safetensors",
     "model.layers.27.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
     "model.layers.27.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
     "model.layers.37.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
     "model.layers.37.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
     "model.layers.37.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.38.input_layernorm.weight": "model-00004-of-00004.safetensors",
+    "model.layers.38.mlp.down_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.38.mlp.gate_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.38.mlp.up_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.38.post_attention_layernorm.weight": "model-00004-of-00004.safetensors",
     "model.layers.38.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.38.self_attn.o_proj.weight": "model-00004-of-00004.safetensors",
     "model.layers.38.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
     "model.layers.38.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.39.input_layernorm.weight": "model-00004-of-00004.safetensors",
+    "model.layers.39.mlp.down_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.39.mlp.gate_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.39.mlp.up_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.39.post_attention_layernorm.weight": "model-00004-of-00004.safetensors",
+    "model.layers.39.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.39.self_attn.o_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.39.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.39.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
     "model.layers.4.input_layernorm.weight": "model-00001-of-00004.safetensors",
     "model.layers.4.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
     "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
     "model.layers.9.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
     "model.layers.9.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
     "model.layers.9.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.norm.weight": "model-00004-of-00004.safetensors"
   }
 }