Upload Phi3ForCausalLM

Browse files

Files changed (4) hide show

config.json +2 -2
model-00001-of-00002.safetensors +2 -2
model-00002-of-00002.safetensors +2 -2
model.safetensors.index.json +43 -43

config.json CHANGED Viewed

@@ -8,9 +8,9 @@
   "embd_pdrop": 0.0,
   "eos_token_id": 100257,
   "hidden_act": "silu",
-  "hidden_size": 3296,
   "initializer_range": 0.02,
-  "intermediate_size": 7300,
   "max_position_embedding": 4096,
   "max_position_embeddings": 4096,
   "model_type": "phi3",

   "embd_pdrop": 0.0,
   "eos_token_id": 100257,
   "hidden_act": "silu",
+  "hidden_size": 2784,
   "initializer_range": 0.02,
+  "intermediate_size": 6700,
   "max_position_embedding": 4096,
   "max_position_embeddings": 4096,
   "model_type": "phi3",

model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7adac6e8b9bc725ca7585c3fb181a220d5b1843661071738dd0c5eea3717ce87
-size 4911184832

 version https://git-lfs.github.com/spec/v1
+oid sha256:d0cce87bb7bc2be45e0cee964e14530f9f9c3284a983b338dadc6d7deaeba1f0
+size 4968756344

model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e674064d7eab456e63f718bf22abe5dff1c8a5d211bc3cb37b380fc5309e139c
-size 3812222760

 version https://git-lfs.github.com/spec/v1
+oid sha256:780d30939b5ce6870101d2437abedfeb79e5e4289585d908a11c8db97595876d
+size 1713941080

model.safetensors.index.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "metadata": {
-    "total_size": 8723384768
   },
   "weight_map": {
     "lm_head.weight": "model-00002-of-00002.safetensors",
@@ -65,60 +65,60 @@
     "model.layers.17.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
     "model.layers.17.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
     "model.layers.17.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.18.input_layernorm.weight": "model-00002-of-00002.safetensors",
-    "model.layers.18.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.18.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.18.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
     "model.layers.18.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
     "model.layers.18.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.19.input_layernorm.weight": "model-00002-of-00002.safetensors",
-    "model.layers.19.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.19.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.19.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
-    "model.layers.19.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.19.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.2.input_layernorm.weight": "model-00001-of-00002.safetensors",
     "model.layers.2.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
     "model.layers.2.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
     "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
     "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
     "model.layers.2.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.20.input_layernorm.weight": "model-00002-of-00002.safetensors",
-    "model.layers.20.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.20.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.20.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
-    "model.layers.20.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.20.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.21.input_layernorm.weight": "model-00002-of-00002.safetensors",
-    "model.layers.21.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.21.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.21.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
-    "model.layers.21.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.21.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.22.input_layernorm.weight": "model-00002-of-00002.safetensors",
-    "model.layers.22.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.22.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.22.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
-    "model.layers.22.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.22.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.23.input_layernorm.weight": "model-00002-of-00002.safetensors",
-    "model.layers.23.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.23.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.23.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
-    "model.layers.23.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.23.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.24.input_layernorm.weight": "model-00002-of-00002.safetensors",
-    "model.layers.24.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.24.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.24.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
-    "model.layers.24.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.24.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.25.input_layernorm.weight": "model-00002-of-00002.safetensors",
     "model.layers.25.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.25.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.25.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
-    "model.layers.25.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
-    "model.layers.25.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.26.input_layernorm.weight": "model-00002-of-00002.safetensors",
     "model.layers.26.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.26.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",

 {
   "metadata": {
+    "total_size": 6682674624
   },
   "weight_map": {
     "lm_head.weight": "model-00002-of-00002.safetensors",
     "model.layers.17.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
     "model.layers.17.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
     "model.layers.17.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
     "model.layers.18.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
     "model.layers.18.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
     "model.layers.2.input_layernorm.weight": "model-00001-of-00002.safetensors",
     "model.layers.2.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
     "model.layers.2.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
     "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
     "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
     "model.layers.2.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.23.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.23.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.24.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.24.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
     "model.layers.25.input_layernorm.weight": "model-00002-of-00002.safetensors",
     "model.layers.25.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.25.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.25.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.25.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
     "model.layers.26.input_layernorm.weight": "model-00002-of-00002.safetensors",
     "model.layers.26.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.26.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",