Upload Phi3ForCausalLM

Browse files

Files changed (5) hide show

config.json +5 -5
generation_config.json +1 -1
model-00001-of-00002.safetensors +2 -2
model-00002-of-00002.safetensors +2 -2
model.safetensors.index.json +30 -30

config.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
-  "_name_or_path": "microsoft/Phi-3-mini-4k-instruct",
   "architectures": [
     "Phi3ForCausalLM"
   ],
   "attention_bias": false,
   "attention_dropout": 0.0,
   "auto_map": {
-    "AutoConfig": "microsoft/Phi-3-mini-4k-instruct--configuration_phi3.Phi3Config",
-    "AutoModelForCausalLM": "microsoft/Phi-3-mini-4k-instruct--modeling_phi3.Phi3ForCausalLM"
   },
   "bos_token_id": 1,
   "embd_pdrop": 0.0,
@@ -30,7 +30,7 @@
   "sliding_window": 2047,
   "tie_word_embeddings": false,
   "torch_dtype": "bfloat16",
-  "transformers_version": "4.42.3",
   "use_cache": true,
-  "vocab_size": 32064
 }

 {
+  "_name_or_path": "Complete-Gradual-Training/batch_1",
   "architectures": [
     "Phi3ForCausalLM"
   ],
   "attention_bias": false,
   "attention_dropout": 0.0,
   "auto_map": {
+    "AutoConfig": "configuration_phi3.Phi3Config",
+    "AutoModelForCausalLM": "modeling_phi3.Phi3ForCausalLM"
   },
   "bos_token_id": 1,
   "embd_pdrop": 0.0,
   "sliding_window": 2047,
   "tie_word_embeddings": false,
   "torch_dtype": "bfloat16",
+  "transformers_version": "4.43.0.dev0",
   "use_cache": true,
+  "vocab_size": 200000
 }

generation_config.json CHANGED Viewed

@@ -7,5 +7,5 @@
     32007
   ],
   "pad_token_id": 32000,
-  "transformers_version": "4.42.3"
 }

     32007
   ],
   "pad_token_id": 32000,
+  "transformers_version": "4.43.0.dev0"
 }

model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b7492726c01287bf6e13c3d74c65ade3d436d50da1cf5bb6925bc962419d6610
-size 4972489328

 version https://git-lfs.github.com/spec/v1
+oid sha256:3a284a02d9aa866e1a0b4617fcb36e1429fce5b1963530e57ee44d0d2e5a6c03
+size 4928384336

model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3f311787aa136e858556caa8543015161edcad85ba81b6a36072443d7fa73c87
-size 2669692552

 version https://git-lfs.github.com/spec/v1
+oid sha256:f0ae52740f49346db433aa9296bf2d0e91573bd94e75ebe63500f42a9c43bfd2
+size 4777395200

model.safetensors.index.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "metadata": {
-    "total_size": 7642159104
   },
   "weight_map": {
     "lm_head.weight": "model-00002-of-00002.safetensors",
@@ -53,47 +53,47 @@
     "model.layers.15.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
     "model.layers.15.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
     "model.layers.15.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.16.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.16.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.16.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.16.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
     "model.layers.16.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
     "model.layers.16.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.17.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.17.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.17.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.17.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.17.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.17.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.18.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.18.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.18.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.18.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.18.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.18.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.19.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.19.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.19.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.19.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.19.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.19.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
     "model.layers.2.input_layernorm.weight": "model-00001-of-00002.safetensors",
     "model.layers.2.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
     "model.layers.2.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
     "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
     "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
     "model.layers.2.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.20.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.20.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.20.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.20.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
-    "model.layers.20.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
-    "model.layers.20.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
     "model.layers.21.input_layernorm.weight": "model-00002-of-00002.safetensors",
     "model.layers.21.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.21.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.21.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
-    "model.layers.21.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
     "model.layers.21.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.22.input_layernorm.weight": "model-00002-of-00002.safetensors",
     "model.layers.22.mlp.down_proj.weight": "model-00002-of-00002.safetensors",

 {
   "metadata": {
+    "total_size": 9705756672
   },
   "weight_map": {
     "lm_head.weight": "model-00002-of-00002.safetensors",
     "model.layers.15.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
     "model.layers.15.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
     "model.layers.15.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.16.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
     "model.layers.16.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
     "model.layers.16.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.17.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.17.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.18.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.18.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.19.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.19.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.2.input_layernorm.weight": "model-00001-of-00002.safetensors",
     "model.layers.2.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
     "model.layers.2.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
     "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
     "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
     "model.layers.2.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.20.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.20.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.21.input_layernorm.weight": "model-00002-of-00002.safetensors",
     "model.layers.21.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.21.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.21.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.21.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
     "model.layers.22.input_layernorm.weight": "model-00002-of-00002.safetensors",
     "model.layers.22.mlp.down_proj.weight": "model-00002-of-00002.safetensors",