Upload folder using huggingface_hub

Browse files

Files changed (10) hide show

config.json +44 -40
model-00001-of-00008.safetensors +2 -2
model-00002-of-00008.safetensors +2 -2
model-00003-of-00008.safetensors +2 -2
model-00004-of-00008.safetensors +2 -2
model-00005-of-00008.safetensors +2 -2
model-00006-of-00008.safetensors +2 -2
model-00007-of-00008.safetensors +2 -2
model-00008-of-00008.safetensors +2 -2
model.safetensors.index.json +0 -0

config.json CHANGED Viewed

@@ -88,9 +88,11 @@
           "num_bits": 8,
           "observer": null,
           "observer_kwargs": {},
           "strategy": "group",
           "symmetric": true,
-          "type": "float"
         },
         "output_activations": null,
         "targets": [
@@ -107,9 +109,11 @@
           "num_bits": 8,
           "observer": "minmax",
           "observer_kwargs": {},
           "strategy": "block",
           "symmetric": true,
-          "type": "float"
         }
       }
     },
@@ -118,120 +122,120 @@
     "ignore": [
       "model.layers.0.block_sparse_moe.router.layer",
       "model.layers.0.shared_mlp.input_linear",
-      "model.layers.0.mixer.in_proj",
       "model.layers.1.block_sparse_moe.router.layer",
       "model.layers.1.shared_mlp.input_linear",
-      "model.layers.1.mixer.in_proj",
       "model.layers.2.block_sparse_moe.router.layer",
       "model.layers.2.shared_mlp.input_linear",
-      "model.layers.2.mixer.in_proj",
       "model.layers.3.block_sparse_moe.router.layer",
       "model.layers.3.shared_mlp.input_linear",
-      "model.layers.3.mixer.in_proj",
       "model.layers.4.block_sparse_moe.router.layer",
       "model.layers.4.shared_mlp.input_linear",
-      "model.layers.4.mixer.in_proj",
       "model.layers.5.block_sparse_moe.router.layer",
       "model.layers.5.shared_mlp.input_linear",
       "model.layers.6.block_sparse_moe.router.layer",
       "model.layers.6.shared_mlp.input_linear",
-      "model.layers.6.mixer.in_proj",
       "model.layers.7.block_sparse_moe.router.layer",
       "model.layers.7.shared_mlp.input_linear",
-      "model.layers.7.mixer.in_proj",
       "model.layers.8.block_sparse_moe.router.layer",
       "model.layers.8.shared_mlp.input_linear",
-      "model.layers.8.mixer.in_proj",
       "model.layers.9.block_sparse_moe.router.layer",
       "model.layers.9.shared_mlp.input_linear",
-      "model.layers.9.mixer.in_proj",
       "model.layers.10.block_sparse_moe.router.layer",
       "model.layers.10.shared_mlp.input_linear",
-      "model.layers.10.mixer.in_proj",
       "model.layers.11.block_sparse_moe.router.layer",
       "model.layers.11.shared_mlp.input_linear",
-      "model.layers.11.mixer.in_proj",
       "model.layers.12.block_sparse_moe.router.layer",
       "model.layers.12.shared_mlp.input_linear",
-      "model.layers.12.mixer.in_proj",
       "model.layers.13.block_sparse_moe.router.layer",
       "model.layers.13.shared_mlp.input_linear",
-      "model.layers.13.mixer.in_proj",
       "model.layers.14.block_sparse_moe.router.layer",
       "model.layers.14.shared_mlp.input_linear",
-      "model.layers.14.mixer.in_proj",
       "model.layers.15.block_sparse_moe.router.layer",
       "model.layers.15.shared_mlp.input_linear",
       "model.layers.16.block_sparse_moe.router.layer",
       "model.layers.16.shared_mlp.input_linear",
-      "model.layers.16.mixer.in_proj",
       "model.layers.17.block_sparse_moe.router.layer",
       "model.layers.17.shared_mlp.input_linear",
-      "model.layers.17.mixer.in_proj",
       "model.layers.18.block_sparse_moe.router.layer",
       "model.layers.18.shared_mlp.input_linear",
-      "model.layers.18.mixer.in_proj",
       "model.layers.19.block_sparse_moe.router.layer",
       "model.layers.19.shared_mlp.input_linear",
-      "model.layers.19.mixer.in_proj",
       "model.layers.20.block_sparse_moe.router.layer",
       "model.layers.20.shared_mlp.input_linear",
-      "model.layers.20.mixer.in_proj",
       "model.layers.21.block_sparse_moe.router.layer",
       "model.layers.21.shared_mlp.input_linear",
-      "model.layers.21.mixer.in_proj",
       "model.layers.22.block_sparse_moe.router.layer",
       "model.layers.22.shared_mlp.input_linear",
-      "model.layers.22.mixer.in_proj",
       "model.layers.23.block_sparse_moe.router.layer",
       "model.layers.23.shared_mlp.input_linear",
-      "model.layers.23.mixer.in_proj",
       "model.layers.24.block_sparse_moe.router.layer",
       "model.layers.24.shared_mlp.input_linear",
-      "model.layers.24.mixer.in_proj",
       "model.layers.25.block_sparse_moe.router.layer",
       "model.layers.25.shared_mlp.input_linear",
       "model.layers.26.block_sparse_moe.router.layer",
       "model.layers.26.shared_mlp.input_linear",
-      "model.layers.26.mixer.in_proj",
       "model.layers.27.block_sparse_moe.router.layer",
       "model.layers.27.shared_mlp.input_linear",
-      "model.layers.27.mixer.in_proj",
       "model.layers.28.block_sparse_moe.router.layer",
       "model.layers.28.shared_mlp.input_linear",
-      "model.layers.28.mixer.in_proj",
       "model.layers.29.block_sparse_moe.router.layer",
       "model.layers.29.shared_mlp.input_linear",
-      "model.layers.29.mixer.in_proj",
       "model.layers.30.block_sparse_moe.router.layer",
       "model.layers.30.shared_mlp.input_linear",
-      "model.layers.30.mixer.in_proj",
       "model.layers.31.block_sparse_moe.router.layer",
       "model.layers.31.shared_mlp.input_linear",
-      "model.layers.31.mixer.in_proj",
       "model.layers.32.block_sparse_moe.router.layer",
       "model.layers.32.shared_mlp.input_linear",
-      "model.layers.32.mixer.in_proj",
       "model.layers.33.block_sparse_moe.router.layer",
       "model.layers.33.shared_mlp.input_linear",
-      "model.layers.33.mixer.in_proj",
       "model.layers.34.block_sparse_moe.router.layer",
       "model.layers.34.shared_mlp.input_linear",
-      "model.layers.34.mixer.in_proj",
       "model.layers.35.block_sparse_moe.router.layer",
       "model.layers.35.shared_mlp.input_linear",
       "model.layers.36.block_sparse_moe.router.layer",
       "model.layers.36.shared_mlp.input_linear",
-      "model.layers.36.mixer.in_proj",
       "model.layers.37.block_sparse_moe.router.layer",
       "model.layers.37.shared_mlp.input_linear",
-      "model.layers.37.mixer.in_proj",
       "model.layers.38.block_sparse_moe.router.layer",
       "model.layers.38.shared_mlp.input_linear",
-      "model.layers.38.mixer.in_proj",
       "model.layers.39.block_sparse_moe.router.layer",
       "model.layers.39.shared_mlp.input_linear",
-      "model.layers.39.mixer.in_proj",
       "lm_head"
     ],
     "kv_cache_scheme": null,
@@ -239,7 +243,7 @@
     "quantization_status": "compressed",
     "sparsity_config": {},
     "transform_config": {},
-    "version": "0.12.3.dev15+g1c72e96"
   },
   "residual_multiplier": 0.22,
   "rms_norm_eps": 1e-05,
@@ -247,7 +251,7 @@
   "rope_theta": 10000,
   "router_aux_loss_coef": 0.0,
   "shared_intermediate_size": 1536,
-  "tie_word_embeddings": false,
   "transformers_version": "4.57.1",
   "use_cache": true,
   "vocab_size": 100352

           "num_bits": 8,
           "observer": null,
           "observer_kwargs": {},
+          "scale_dtype": null,
           "strategy": "group",
           "symmetric": true,
+          "type": "float",
+          "zp_dtype": null
         },
         "output_activations": null,
         "targets": [
           "num_bits": 8,
           "observer": "minmax",
           "observer_kwargs": {},
+          "scale_dtype": null,
           "strategy": "block",
           "symmetric": true,
+          "type": "float",
+          "zp_dtype": null
         }
       }
     },
     "ignore": [
       "model.layers.0.block_sparse_moe.router.layer",
       "model.layers.0.shared_mlp.input_linear",
+      "model.layers.0.mamba.in_proj",
       "model.layers.1.block_sparse_moe.router.layer",
       "model.layers.1.shared_mlp.input_linear",
+      "model.layers.1.mamba.in_proj",
       "model.layers.2.block_sparse_moe.router.layer",
       "model.layers.2.shared_mlp.input_linear",
+      "model.layers.2.mamba.in_proj",
       "model.layers.3.block_sparse_moe.router.layer",
       "model.layers.3.shared_mlp.input_linear",
+      "model.layers.3.mamba.in_proj",
       "model.layers.4.block_sparse_moe.router.layer",
       "model.layers.4.shared_mlp.input_linear",
+      "model.layers.4.mamba.in_proj",
       "model.layers.5.block_sparse_moe.router.layer",
       "model.layers.5.shared_mlp.input_linear",
       "model.layers.6.block_sparse_moe.router.layer",
       "model.layers.6.shared_mlp.input_linear",
+      "model.layers.6.mamba.in_proj",
       "model.layers.7.block_sparse_moe.router.layer",
       "model.layers.7.shared_mlp.input_linear",
+      "model.layers.7.mamba.in_proj",
       "model.layers.8.block_sparse_moe.router.layer",
       "model.layers.8.shared_mlp.input_linear",
+      "model.layers.8.mamba.in_proj",
       "model.layers.9.block_sparse_moe.router.layer",
       "model.layers.9.shared_mlp.input_linear",
+      "model.layers.9.mamba.in_proj",
       "model.layers.10.block_sparse_moe.router.layer",
       "model.layers.10.shared_mlp.input_linear",
+      "model.layers.10.mamba.in_proj",
       "model.layers.11.block_sparse_moe.router.layer",
       "model.layers.11.shared_mlp.input_linear",
+      "model.layers.11.mamba.in_proj",
       "model.layers.12.block_sparse_moe.router.layer",
       "model.layers.12.shared_mlp.input_linear",
+      "model.layers.12.mamba.in_proj",
       "model.layers.13.block_sparse_moe.router.layer",
       "model.layers.13.shared_mlp.input_linear",
+      "model.layers.13.mamba.in_proj",
       "model.layers.14.block_sparse_moe.router.layer",
       "model.layers.14.shared_mlp.input_linear",
+      "model.layers.14.mamba.in_proj",
       "model.layers.15.block_sparse_moe.router.layer",
       "model.layers.15.shared_mlp.input_linear",
       "model.layers.16.block_sparse_moe.router.layer",
       "model.layers.16.shared_mlp.input_linear",
+      "model.layers.16.mamba.in_proj",
       "model.layers.17.block_sparse_moe.router.layer",
       "model.layers.17.shared_mlp.input_linear",
+      "model.layers.17.mamba.in_proj",
       "model.layers.18.block_sparse_moe.router.layer",
       "model.layers.18.shared_mlp.input_linear",
+      "model.layers.18.mamba.in_proj",
       "model.layers.19.block_sparse_moe.router.layer",
       "model.layers.19.shared_mlp.input_linear",
+      "model.layers.19.mamba.in_proj",
       "model.layers.20.block_sparse_moe.router.layer",
       "model.layers.20.shared_mlp.input_linear",
+      "model.layers.20.mamba.in_proj",
       "model.layers.21.block_sparse_moe.router.layer",
       "model.layers.21.shared_mlp.input_linear",
+      "model.layers.21.mamba.in_proj",
       "model.layers.22.block_sparse_moe.router.layer",
       "model.layers.22.shared_mlp.input_linear",
+      "model.layers.22.mamba.in_proj",
       "model.layers.23.block_sparse_moe.router.layer",
       "model.layers.23.shared_mlp.input_linear",
+      "model.layers.23.mamba.in_proj",
       "model.layers.24.block_sparse_moe.router.layer",
       "model.layers.24.shared_mlp.input_linear",
+      "model.layers.24.mamba.in_proj",
       "model.layers.25.block_sparse_moe.router.layer",
       "model.layers.25.shared_mlp.input_linear",
       "model.layers.26.block_sparse_moe.router.layer",
       "model.layers.26.shared_mlp.input_linear",
+      "model.layers.26.mamba.in_proj",
       "model.layers.27.block_sparse_moe.router.layer",
       "model.layers.27.shared_mlp.input_linear",
+      "model.layers.27.mamba.in_proj",
       "model.layers.28.block_sparse_moe.router.layer",
       "model.layers.28.shared_mlp.input_linear",
+      "model.layers.28.mamba.in_proj",
       "model.layers.29.block_sparse_moe.router.layer",
       "model.layers.29.shared_mlp.input_linear",
+      "model.layers.29.mamba.in_proj",
       "model.layers.30.block_sparse_moe.router.layer",
       "model.layers.30.shared_mlp.input_linear",
+      "model.layers.30.mamba.in_proj",
       "model.layers.31.block_sparse_moe.router.layer",
       "model.layers.31.shared_mlp.input_linear",
+      "model.layers.31.mamba.in_proj",
       "model.layers.32.block_sparse_moe.router.layer",
       "model.layers.32.shared_mlp.input_linear",
+      "model.layers.32.mamba.in_proj",
       "model.layers.33.block_sparse_moe.router.layer",
       "model.layers.33.shared_mlp.input_linear",
+      "model.layers.33.mamba.in_proj",
       "model.layers.34.block_sparse_moe.router.layer",
       "model.layers.34.shared_mlp.input_linear",
+      "model.layers.34.mamba.in_proj",
       "model.layers.35.block_sparse_moe.router.layer",
       "model.layers.35.shared_mlp.input_linear",
       "model.layers.36.block_sparse_moe.router.layer",
       "model.layers.36.shared_mlp.input_linear",
+      "model.layers.36.mamba.in_proj",
       "model.layers.37.block_sparse_moe.router.layer",
       "model.layers.37.shared_mlp.input_linear",
+      "model.layers.37.mamba.in_proj",
       "model.layers.38.block_sparse_moe.router.layer",
       "model.layers.38.shared_mlp.input_linear",
+      "model.layers.38.mamba.in_proj",
       "model.layers.39.block_sparse_moe.router.layer",
       "model.layers.39.shared_mlp.input_linear",
+      "model.layers.39.mamba.in_proj",
       "lm_head"
     ],
     "kv_cache_scheme": null,
     "quantization_status": "compressed",
     "sparsity_config": {},
     "transform_config": {},
+    "version": "0.12.3.dev28+g2763f81"
   },
   "residual_multiplier": 0.22,
   "rms_norm_eps": 1e-05,
   "rope_theta": 10000,
   "router_aux_loss_coef": 0.0,
   "shared_intermediate_size": 1536,
+  "tie_word_embeddings": true,
   "transformers_version": "4.57.1",
   "use_cache": true,
   "vocab_size": 100352

model-00001-of-00008.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f6079e8b47f4af64eec779eb54270564d6709fac81eb9ab6ce44f9424c8d4e57
-size 4559751176

 version https://git-lfs.github.com/spec/v1
+oid sha256:75458e16c3887a62c563c793dee5594a53853529fa58c3811be027cd414d79a2
+size 4997838432

model-00002-of-00008.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:023d69432e84fb302850992a8fce05abc4c3c7517f10088c54ffc570813cc551
-size 4600816904

 version https://git-lfs.github.com/spec/v1
+oid sha256:74db08e9e04b6f492e9d524eee5b4408f015880185e4c15fe74b1f04bed15d46
+size 4997162928

model-00003-of-00008.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:edd4d5a25cea6bb45ea9d5d3825cb95c1044dc7834488fe83dee1037449a3320
-size 4525943648

 version https://git-lfs.github.com/spec/v1
+oid sha256:c00d9caf3319d881d9b818b72302309dd903d3a7c27eba76825dc9cc29b169b8
+size 4994025096

model-00004-of-00008.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6367da9acbedcbbdf0eb47f5efbe9bb3d54aa39293fab38d06ce6134c099bac6
-size 4511676880

 version https://git-lfs.github.com/spec/v1
+oid sha256:66579e49df70283bf3c410f4ed8cee49b05e6d6cdbfea3830fccbdbc688df10a
+size 4994104968

model-00005-of-00008.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:65edbaef60d5262ffcc8558f80b802399cb2230d0b9a56396221b964736e4dc8
-size 4521081440

 version https://git-lfs.github.com/spec/v1
+oid sha256:60f126a6c9b00e193cd2fd76ba1fa8d7e20489ff681b9dc2226d4a1e06f648a6
+size 4996130720

model-00006-of-00008.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b715b3970a2f024fb2446add306bdc7184fbb0387436cca26d1cfd899a3bc662
-size 4507962856

 version https://git-lfs.github.com/spec/v1
+oid sha256:ebe97666e703d2910654e03e9ba4e66f0f833107e27e7e1a2faa180dd9bcae2b
+size 4999699800

model-00007-of-00008.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:05af2aa6e913c9a399c2f75411f11af50adb48eb92ea869b60492a7bd2fee937
-size 4581798360

 version https://git-lfs.github.com/spec/v1
+oid sha256:02a9e8e08dcc001f495d247c72bdf63042f6213455b23a35ee39496b44bf095a
+size 4997172264

model-00008-of-00008.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:81afcb5cb3ed2b78e2358b9d042be229bc3fc2b8d25c0fa548fcd7efd77047c8
-size 4624854264

 version https://git-lfs.github.com/spec/v1
+oid sha256:b19fb0b7629518a94f08d907514b753d3c2cf6b848b300e7470549f547ffefa9
+size 637290328

model.safetensors.index.json CHANGED Viewed

The diff for this file is too large to render. See raw diff