Upload folder using huggingface_hub

Browse files

Files changed (4) hide show

config.json +2 -2
model-00001-of-00002.safetensors +2 -2
model-00002-of-00002.safetensors +2 -2
model.safetensors.index.json +85 -85

config.json CHANGED Viewed

@@ -17,11 +17,11 @@
     "num_key_value_heads": 8,
     "pad_token_id": 151665,
     "quantization": {
-        "group_size": 64,
         "bits": 4
     },
     "quantization_config": {
-        "group_size": 64,
         "bits": 4
     },
     "rms_norm_eps": 1e-06,

     "num_key_value_heads": 8,
     "pad_token_id": 151665,
     "quantization": {
+        "group_size": 32,
         "bits": 4
     },
     "quantization_config": {
+        "group_size": 32,
         "bits": 4
     },
     "rms_norm_eps": 1e-06,

model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cad5f81f8ea070c325d54df78975113c0fa8be6c80dd69092cbb89be20c3fc57
-size 5353840945

 version https://git-lfs.github.com/spec/v1
+oid sha256:ed3e62338f559a062f7c75420601897743f192436c71ddab440254bed31cfaf8
+size 5343896747

model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1e95817c4056d8be7bd5a92e93cce9daa3687900feaf74a716b08c954218100b
-size 2955654333

 version https://git-lfs.github.com/spec/v1
+oid sha256:48b28da2093899c954f6efa5375c6d157d11d3502830895a86224d8836fc7a90
+size 3888673587

model.safetensors.index.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
     "metadata": {
-        "total_size": 8309352448,
         "total_parameters": 14770033664
     },
     "weight_map": {
@@ -556,17 +556,17 @@
         "model.layers.27.self_attn.v_proj.biases": "model-00001-of-00002.safetensors",
         "model.layers.27.self_attn.v_proj.scales": "model-00001-of-00002.safetensors",
         "model.layers.27.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-        "model.layers.28.input_layernorm.weight": "model-00001-of-00002.safetensors",
-        "model.layers.28.mlp.down_proj.biases": "model-00001-of-00002.safetensors",
-        "model.layers.28.mlp.down_proj.scales": "model-00001-of-00002.safetensors",
-        "model.layers.28.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
-        "model.layers.28.mlp.gate_proj.biases": "model-00001-of-00002.safetensors",
-        "model.layers.28.mlp.gate_proj.scales": "model-00001-of-00002.safetensors",
-        "model.layers.28.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
-        "model.layers.28.mlp.up_proj.biases": "model-00001-of-00002.safetensors",
-        "model.layers.28.mlp.up_proj.scales": "model-00001-of-00002.safetensors",
-        "model.layers.28.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
-        "model.layers.28.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
         "model.layers.28.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
         "model.layers.28.self_attn.k_proj.biases": "model-00001-of-00002.safetensors",
         "model.layers.28.self_attn.k_proj.scales": "model-00001-of-00002.safetensors",
@@ -582,32 +582,32 @@
         "model.layers.28.self_attn.v_proj.biases": "model-00001-of-00002.safetensors",
         "model.layers.28.self_attn.v_proj.scales": "model-00001-of-00002.safetensors",
         "model.layers.28.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-        "model.layers.29.input_layernorm.weight": "model-00001-of-00002.safetensors",
-        "model.layers.29.mlp.down_proj.biases": "model-00001-of-00002.safetensors",
-        "model.layers.29.mlp.down_proj.scales": "model-00001-of-00002.safetensors",
-        "model.layers.29.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
-        "model.layers.29.mlp.gate_proj.biases": "model-00001-of-00002.safetensors",
-        "model.layers.29.mlp.gate_proj.scales": "model-00001-of-00002.safetensors",
-        "model.layers.29.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
-        "model.layers.29.mlp.up_proj.biases": "model-00001-of-00002.safetensors",
-        "model.layers.29.mlp.up_proj.scales": "model-00001-of-00002.safetensors",
-        "model.layers.29.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
-        "model.layers.29.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
-        "model.layers.29.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-        "model.layers.29.self_attn.k_proj.biases": "model-00001-of-00002.safetensors",
-        "model.layers.29.self_attn.k_proj.scales": "model-00001-of-00002.safetensors",
-        "model.layers.29.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-        "model.layers.29.self_attn.o_proj.biases": "model-00001-of-00002.safetensors",
-        "model.layers.29.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
-        "model.layers.29.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
-        "model.layers.29.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-        "model.layers.29.self_attn.q_proj.biases": "model-00001-of-00002.safetensors",
-        "model.layers.29.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
-        "model.layers.29.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-        "model.layers.29.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-        "model.layers.29.self_attn.v_proj.biases": "model-00001-of-00002.safetensors",
-        "model.layers.29.self_attn.v_proj.scales": "model-00001-of-00002.safetensors",
-        "model.layers.29.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
         "model.layers.3.input_layernorm.weight": "model-00001-of-00002.safetensors",
         "model.layers.3.mlp.down_proj.biases": "model-00001-of-00002.safetensors",
         "model.layers.3.mlp.down_proj.scales": "model-00001-of-00002.safetensors",
@@ -634,58 +634,58 @@
         "model.layers.3.self_attn.v_proj.biases": "model-00001-of-00002.safetensors",
         "model.layers.3.self_attn.v_proj.scales": "model-00001-of-00002.safetensors",
         "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-        "model.layers.30.input_layernorm.weight": "model-00001-of-00002.safetensors",
-        "model.layers.30.mlp.down_proj.biases": "model-00001-of-00002.safetensors",
-        "model.layers.30.mlp.down_proj.scales": "model-00001-of-00002.safetensors",
-        "model.layers.30.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
-        "model.layers.30.mlp.gate_proj.biases": "model-00001-of-00002.safetensors",
-        "model.layers.30.mlp.gate_proj.scales": "model-00001-of-00002.safetensors",
-        "model.layers.30.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
-        "model.layers.30.mlp.up_proj.biases": "model-00001-of-00002.safetensors",
-        "model.layers.30.mlp.up_proj.scales": "model-00001-of-00002.safetensors",
-        "model.layers.30.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
-        "model.layers.30.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
-        "model.layers.30.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-        "model.layers.30.self_attn.k_proj.biases": "model-00001-of-00002.safetensors",
-        "model.layers.30.self_attn.k_proj.scales": "model-00001-of-00002.safetensors",
-        "model.layers.30.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-        "model.layers.30.self_attn.o_proj.biases": "model-00001-of-00002.safetensors",
-        "model.layers.30.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
-        "model.layers.30.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
-        "model.layers.30.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-        "model.layers.30.self_attn.q_proj.biases": "model-00001-of-00002.safetensors",
-        "model.layers.30.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
-        "model.layers.30.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-        "model.layers.30.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-        "model.layers.30.self_attn.v_proj.biases": "model-00001-of-00002.safetensors",
-        "model.layers.30.self_attn.v_proj.scales": "model-00001-of-00002.safetensors",
-        "model.layers.30.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
         "model.layers.31.input_layernorm.weight": "model-00002-of-00002.safetensors",
-        "model.layers.31.mlp.down_proj.biases": "model-00001-of-00002.safetensors",
-        "model.layers.31.mlp.down_proj.scales": "model-00001-of-00002.safetensors",
-        "model.layers.31.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
-        "model.layers.31.mlp.gate_proj.biases": "model-00001-of-00002.safetensors",
-        "model.layers.31.mlp.gate_proj.scales": "model-00001-of-00002.safetensors",
-        "model.layers.31.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
         "model.layers.31.mlp.up_proj.biases": "model-00002-of-00002.safetensors",
         "model.layers.31.mlp.up_proj.scales": "model-00002-of-00002.safetensors",
         "model.layers.31.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
         "model.layers.31.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
-        "model.layers.31.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
-        "model.layers.31.self_attn.k_proj.biases": "model-00001-of-00002.safetensors",
-        "model.layers.31.self_attn.k_proj.scales": "model-00001-of-00002.safetensors",
-        "model.layers.31.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-        "model.layers.31.self_attn.o_proj.biases": "model-00001-of-00002.safetensors",
-        "model.layers.31.self_attn.o_proj.scales": "model-00001-of-00002.safetensors",
-        "model.layers.31.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
-        "model.layers.31.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
-        "model.layers.31.self_attn.q_proj.biases": "model-00001-of-00002.safetensors",
-        "model.layers.31.self_attn.q_proj.scales": "model-00001-of-00002.safetensors",
-        "model.layers.31.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-        "model.layers.31.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
-        "model.layers.31.self_attn.v_proj.biases": "model-00001-of-00002.safetensors",
-        "model.layers.31.self_attn.v_proj.scales": "model-00001-of-00002.safetensors",
-        "model.layers.31.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
         "model.layers.32.input_layernorm.weight": "model-00002-of-00002.safetensors",
         "model.layers.32.mlp.down_proj.biases": "model-00002-of-00002.safetensors",
         "model.layers.32.mlp.down_proj.scales": "model-00002-of-00002.safetensors",

 {
     "metadata": {
+        "total_size": 9232427008,
         "total_parameters": 14770033664
     },
     "weight_map": {
         "model.layers.27.self_attn.v_proj.biases": "model-00001-of-00002.safetensors",
         "model.layers.27.self_attn.v_proj.scales": "model-00001-of-00002.safetensors",
         "model.layers.27.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.28.input_layernorm.weight": "model-00002-of-00002.safetensors",
+        "model.layers.28.mlp.down_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.28.mlp.down_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.28.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.28.mlp.gate_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.28.mlp.gate_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.28.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.28.mlp.up_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.28.mlp.up_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.28.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.28.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
         "model.layers.28.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
         "model.layers.28.self_attn.k_proj.biases": "model-00001-of-00002.safetensors",
         "model.layers.28.self_attn.k_proj.scales": "model-00001-of-00002.safetensors",
         "model.layers.28.self_attn.v_proj.biases": "model-00001-of-00002.safetensors",
         "model.layers.28.self_attn.v_proj.scales": "model-00001-of-00002.safetensors",
         "model.layers.28.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.29.input_layernorm.weight": "model-00002-of-00002.safetensors",
+        "model.layers.29.mlp.down_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.29.mlp.down_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.29.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.29.mlp.gate_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.29.mlp.gate_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.29.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.29.mlp.up_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.29.mlp.up_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.29.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.29.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+        "model.layers.29.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+        "model.layers.29.self_attn.k_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.29.self_attn.k_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.29.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.29.self_attn.o_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.29.self_attn.o_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.29.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.29.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+        "model.layers.29.self_attn.q_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.29.self_attn.q_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.29.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.29.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+        "model.layers.29.self_attn.v_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.29.self_attn.v_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.29.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
         "model.layers.3.input_layernorm.weight": "model-00001-of-00002.safetensors",
         "model.layers.3.mlp.down_proj.biases": "model-00001-of-00002.safetensors",
         "model.layers.3.mlp.down_proj.scales": "model-00001-of-00002.safetensors",
         "model.layers.3.self_attn.v_proj.biases": "model-00001-of-00002.safetensors",
         "model.layers.3.self_attn.v_proj.scales": "model-00001-of-00002.safetensors",
         "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+        "model.layers.30.input_layernorm.weight": "model-00002-of-00002.safetensors",
+        "model.layers.30.mlp.down_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.30.mlp.down_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.30.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.30.mlp.gate_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.30.mlp.gate_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.30.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.30.mlp.up_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.30.mlp.up_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.30.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.30.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+        "model.layers.30.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+        "model.layers.30.self_attn.k_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.30.self_attn.k_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.30.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.30.self_attn.o_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.30.self_attn.o_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.30.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.30.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+        "model.layers.30.self_attn.q_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.30.self_attn.q_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.30.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.30.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+        "model.layers.30.self_attn.v_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.30.self_attn.v_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.30.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
         "model.layers.31.input_layernorm.weight": "model-00002-of-00002.safetensors",
+        "model.layers.31.mlp.down_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.31.mlp.down_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.31.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.31.mlp.gate_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.31.mlp.gate_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.31.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
         "model.layers.31.mlp.up_proj.biases": "model-00002-of-00002.safetensors",
         "model.layers.31.mlp.up_proj.scales": "model-00002-of-00002.safetensors",
         "model.layers.31.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
         "model.layers.31.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+        "model.layers.31.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+        "model.layers.31.self_attn.k_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.31.self_attn.k_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.31.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.31.self_attn.o_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.31.self_attn.o_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.31.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.31.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+        "model.layers.31.self_attn.q_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.31.self_attn.q_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.31.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+        "model.layers.31.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+        "model.layers.31.self_attn.v_proj.biases": "model-00002-of-00002.safetensors",
+        "model.layers.31.self_attn.v_proj.scales": "model-00002-of-00002.safetensors",
+        "model.layers.31.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
         "model.layers.32.input_layernorm.weight": "model-00002-of-00002.safetensors",
         "model.layers.32.mlp.down_proj.biases": "model-00002-of-00002.safetensors",
         "model.layers.32.mlp.down_proj.scales": "model-00002-of-00002.safetensors",