Upload folder using huggingface_hub

Browse files

Files changed (8) hide show

config.json +18 -0
merges.txt +0 -0
model-00001-of-00002.safetensors +3 -0
model-00002-of-00002.safetensors +3 -0
model.safetensors.index.json +140 -0
special_tokens_map.json +24 -0
tokenizer_config.json +22 -0
vocab.json +0 -0

config.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+  "architectures": [
+    "Gemma2Model"
+  ],
+  "dim": 4096,
+  "ffn_dim_multiplier": null,
+  "max_batch_size": 32,
+  "max_seq_len": 1024,
+  "model_type": "gemma2",
+  "multiple_of": 256,
+  "n_heads": 32,
+  "n_kv_heads": 8,
+  "n_layers": 32,
+  "norm_eps": 1e-05,
+  "torch_dtype": "float32",
+  "transformers_version": "4.42.3",
+  "vocab_size": 50257
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

model-00001-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3ed110786d0628e50b3bea55f5e86ba6914c3c3f77cd8c18e8dcaee5a76ee298
+size 4967392824

model-00002-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8786e98875fb06808e3be9ed56b2f735ea9035733ca0b9526138ba865fc4cdbe
+size 2064960496

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,140 @@

+{
+  "metadata": {
+    "total_size": 7032340480
+  },
+  "weight_map": {
+    "embeddings.weight": "model-00001-of-00002.safetensors",
+    "layers.0.wk.weight": "model-00001-of-00002.safetensors",
+    "layers.0.wo.weight": "model-00001-of-00002.safetensors",
+    "layers.0.wq.weight": "model-00001-of-00002.safetensors",
+    "layers.0.wv.weight": "model-00001-of-00002.safetensors",
+    "layers.1.wk.weight": "model-00001-of-00002.safetensors",
+    "layers.1.wo.weight": "model-00001-of-00002.safetensors",
+    "layers.1.wq.weight": "model-00001-of-00002.safetensors",
+    "layers.1.wv.weight": "model-00001-of-00002.safetensors",
+    "layers.10.wk.weight": "model-00001-of-00002.safetensors",
+    "layers.10.wo.weight": "model-00001-of-00002.safetensors",
+    "layers.10.wq.weight": "model-00001-of-00002.safetensors",
+    "layers.10.wv.weight": "model-00001-of-00002.safetensors",
+    "layers.11.wk.weight": "model-00001-of-00002.safetensors",
+    "layers.11.wo.weight": "model-00001-of-00002.safetensors",
+    "layers.11.wq.weight": "model-00001-of-00002.safetensors",
+    "layers.11.wv.weight": "model-00001-of-00002.safetensors",
+    "layers.12.wk.weight": "model-00001-of-00002.safetensors",
+    "layers.12.wo.weight": "model-00001-of-00002.safetensors",
+    "layers.12.wq.weight": "model-00001-of-00002.safetensors",
+    "layers.12.wv.weight": "model-00001-of-00002.safetensors",
+    "layers.13.wk.weight": "model-00001-of-00002.safetensors",
+    "layers.13.wo.weight": "model-00001-of-00002.safetensors",
+    "layers.13.wq.weight": "model-00001-of-00002.safetensors",
+    "layers.13.wv.weight": "model-00001-of-00002.safetensors",
+    "layers.14.wk.weight": "model-00001-of-00002.safetensors",
+    "layers.14.wo.weight": "model-00001-of-00002.safetensors",
+    "layers.14.wq.weight": "model-00001-of-00002.safetensors",
+    "layers.14.wv.weight": "model-00001-of-00002.safetensors",
+    "layers.15.wk.weight": "model-00001-of-00002.safetensors",
+    "layers.15.wo.weight": "model-00001-of-00002.safetensors",
+    "layers.15.wq.weight": "model-00001-of-00002.safetensors",
+    "layers.15.wv.weight": "model-00001-of-00002.safetensors",
+    "layers.16.wk.weight": "model-00001-of-00002.safetensors",
+    "layers.16.wo.weight": "model-00001-of-00002.safetensors",
+    "layers.16.wq.weight": "model-00001-of-00002.safetensors",
+    "layers.16.wv.weight": "model-00001-of-00002.safetensors",
+    "layers.17.wk.weight": "model-00001-of-00002.safetensors",
+    "layers.17.wo.weight": "model-00001-of-00002.safetensors",
+    "layers.17.wq.weight": "model-00001-of-00002.safetensors",
+    "layers.17.wv.weight": "model-00001-of-00002.safetensors",
+    "layers.18.wk.weight": "model-00001-of-00002.safetensors",
+    "layers.18.wo.weight": "model-00001-of-00002.safetensors",
+    "layers.18.wq.weight": "model-00001-of-00002.safetensors",
+    "layers.18.wv.weight": "model-00001-of-00002.safetensors",
+    "layers.19.wk.weight": "model-00001-of-00002.safetensors",
+    "layers.19.wo.weight": "model-00001-of-00002.safetensors",
+    "layers.19.wq.weight": "model-00001-of-00002.safetensors",
+    "layers.19.wv.weight": "model-00001-of-00002.safetensors",
+    "layers.2.wk.weight": "model-00001-of-00002.safetensors",
+    "layers.2.wo.weight": "model-00001-of-00002.safetensors",
+    "layers.2.wq.weight": "model-00001-of-00002.safetensors",
+    "layers.2.wv.weight": "model-00001-of-00002.safetensors",
+    "layers.20.wk.weight": "model-00001-of-00002.safetensors",
+    "layers.20.wo.weight": "model-00001-of-00002.safetensors",
+    "layers.20.wq.weight": "model-00001-of-00002.safetensors",
+    "layers.20.wv.weight": "model-00001-of-00002.safetensors",
+    "layers.21.wk.weight": "model-00001-of-00002.safetensors",
+    "layers.21.wo.weight": "model-00001-of-00002.safetensors",
+    "layers.21.wq.weight": "model-00001-of-00002.safetensors",
+    "layers.21.wv.weight": "model-00001-of-00002.safetensors",
+    "layers.22.wk.weight": "model-00001-of-00002.safetensors",
+    "layers.22.wo.weight": "model-00001-of-00002.safetensors",
+    "layers.22.wq.weight": "model-00001-of-00002.safetensors",
+    "layers.22.wv.weight": "model-00001-of-00002.safetensors",
+    "layers.23.wk.weight": "model-00001-of-00002.safetensors",
+    "layers.23.wo.weight": "model-00001-of-00002.safetensors",
+    "layers.23.wq.weight": "model-00001-of-00002.safetensors",
+    "layers.23.wv.weight": "model-00001-of-00002.safetensors",
+    "layers.24.wk.weight": "model-00001-of-00002.safetensors",
+    "layers.24.wo.weight": "model-00002-of-00002.safetensors",
+    "layers.24.wq.weight": "model-00001-of-00002.safetensors",
+    "layers.24.wv.weight": "model-00001-of-00002.safetensors",
+    "layers.25.wk.weight": "model-00002-of-00002.safetensors",
+    "layers.25.wo.weight": "model-00002-of-00002.safetensors",
+    "layers.25.wq.weight": "model-00002-of-00002.safetensors",
+    "layers.25.wv.weight": "model-00002-of-00002.safetensors",
+    "layers.26.wk.weight": "model-00002-of-00002.safetensors",
+    "layers.26.wo.weight": "model-00002-of-00002.safetensors",
+    "layers.26.wq.weight": "model-00002-of-00002.safetensors",
+    "layers.26.wv.weight": "model-00002-of-00002.safetensors",
+    "layers.27.wk.weight": "model-00002-of-00002.safetensors",
+    "layers.27.wo.weight": "model-00002-of-00002.safetensors",
+    "layers.27.wq.weight": "model-00002-of-00002.safetensors",
+    "layers.27.wv.weight": "model-00002-of-00002.safetensors",
+    "layers.28.wk.weight": "model-00002-of-00002.safetensors",
+    "layers.28.wo.weight": "model-00002-of-00002.safetensors",
+    "layers.28.wq.weight": "model-00002-of-00002.safetensors",
+    "layers.28.wv.weight": "model-00002-of-00002.safetensors",
+    "layers.29.wk.weight": "model-00002-of-00002.safetensors",
+    "layers.29.wo.weight": "model-00002-of-00002.safetensors",
+    "layers.29.wq.weight": "model-00002-of-00002.safetensors",
+    "layers.29.wv.weight": "model-00002-of-00002.safetensors",
+    "layers.3.wk.weight": "model-00001-of-00002.safetensors",
+    "layers.3.wo.weight": "model-00001-of-00002.safetensors",
+    "layers.3.wq.weight": "model-00001-of-00002.safetensors",
+    "layers.3.wv.weight": "model-00001-of-00002.safetensors",
+    "layers.30.wk.weight": "model-00002-of-00002.safetensors",
+    "layers.30.wo.weight": "model-00002-of-00002.safetensors",
+    "layers.30.wq.weight": "model-00002-of-00002.safetensors",
+    "layers.30.wv.weight": "model-00002-of-00002.safetensors",
+    "layers.31.wk.weight": "model-00002-of-00002.safetensors",
+    "layers.31.wo.weight": "model-00002-of-00002.safetensors",
+    "layers.31.wq.weight": "model-00002-of-00002.safetensors",
+    "layers.31.wv.weight": "model-00002-of-00002.safetensors",
+    "layers.4.wk.weight": "model-00001-of-00002.safetensors",
+    "layers.4.wo.weight": "model-00001-of-00002.safetensors",
+    "layers.4.wq.weight": "model-00001-of-00002.safetensors",
+    "layers.4.wv.weight": "model-00001-of-00002.safetensors",
+    "layers.5.wk.weight": "model-00001-of-00002.safetensors",
+    "layers.5.wo.weight": "model-00001-of-00002.safetensors",
+    "layers.5.wq.weight": "model-00001-of-00002.safetensors",
+    "layers.5.wv.weight": "model-00001-of-00002.safetensors",
+    "layers.6.wk.weight": "model-00001-of-00002.safetensors",
+    "layers.6.wo.weight": "model-00001-of-00002.safetensors",
+    "layers.6.wq.weight": "model-00001-of-00002.safetensors",
+    "layers.6.wv.weight": "model-00001-of-00002.safetensors",
+    "layers.7.wk.weight": "model-00001-of-00002.safetensors",
+    "layers.7.wo.weight": "model-00001-of-00002.safetensors",
+    "layers.7.wq.weight": "model-00001-of-00002.safetensors",
+    "layers.7.wv.weight": "model-00001-of-00002.safetensors",
+    "layers.8.wk.weight": "model-00001-of-00002.safetensors",
+    "layers.8.wo.weight": "model-00001-of-00002.safetensors",
+    "layers.8.wq.weight": "model-00001-of-00002.safetensors",
+    "layers.8.wv.weight": "model-00001-of-00002.safetensors",
+    "layers.9.wk.weight": "model-00001-of-00002.safetensors",
+    "layers.9.wo.weight": "model-00001-of-00002.safetensors",
+    "layers.9.wq.weight": "model-00001-of-00002.safetensors",
+    "layers.9.wv.weight": "model-00001-of-00002.safetensors",
+    "lm_head.weight": "model-00002-of-00002.safetensors",
+    "ln_f.bias": "model-00002-of-00002.safetensors",
+    "ln_f.weight": "model-00002-of-00002.safetensors",
+    "pos_embeddings.weight": "model-00001-of-00002.safetensors"
+  }
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<|endoftext|>",
+  "unk_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,22 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "50256": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<|endoftext|>",
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "<|endoftext|>",
+  "errors": "replace",
+  "model_max_length": 1024,
+  "pad_token": "<|endoftext|>",
+  "tokenizer_class": "GPT2Tokenizer",
+  "unk_token": "<|endoftext|>"
+}

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff