tszs commited on Mar 10

Commit

665b453

verified ·

1 Parent(s): 8e551fc

Upload folder using huggingface_hub

Browse files

Files changed (28) hide show

.gitattributes +2 -0
X16N16_projection_checkpoint/16_shot_last_16_token_prefix_proj.safetensors +3 -0
X16N16_projection_checkpoint/optimizer.pt +3 -0
X16N16_projection_checkpoint/rng_state_0.pth +3 -0
X16N16_projection_checkpoint/rng_state_1.pth +3 -0
X16N16_projection_checkpoint/rng_state_2.pth +3 -0
X16N16_projection_checkpoint/rng_state_3.pth +3 -0
X16N16_projection_checkpoint/scheduler.pt +3 -0
X16N16_projection_checkpoint/special_tokens_map.json +23 -0
X16N16_projection_checkpoint/tokenizer.json +3 -0
X16N16_projection_checkpoint/tokenizer_config.json +0 -0
X16N16_projection_checkpoint/trainer_state.json +401 -0
X16N16_projection_checkpoint/training_args.bin +3 -0
prottex_joint_embed/config.json +30 -0
prottex_joint_embed/generation_config.json +9 -0
prottex_joint_embed/model-00001-of-00009.safetensors +3 -0
prottex_joint_embed/model-00002-of-00009.safetensors +3 -0
prottex_joint_embed/model-00003-of-00009.safetensors +3 -0
prottex_joint_embed/model-00004-of-00009.safetensors +3 -0
prottex_joint_embed/model-00005-of-00009.safetensors +3 -0
prottex_joint_embed/model-00006-of-00009.safetensors +3 -0
prottex_joint_embed/model-00007-of-00009.safetensors +3 -0
prottex_joint_embed/model-00008-of-00009.safetensors +3 -0
prottex_joint_embed/model-00009-of-00009.safetensors +3 -0
prottex_joint_embed/model.safetensors.index.json +298 -0
prottex_joint_embed/special_tokens_map.json +23 -0
prottex_joint_embed/tokenizer.json +3 -0
prottex_joint_embed/tokenizer_config.json +0 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,5 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+X16N16_projection_checkpoint/tokenizer.json filter=lfs diff=lfs merge=lfs -text
+prottex_joint_embed/tokenizer.json filter=lfs diff=lfs merge=lfs -text

X16N16_projection_checkpoint/16_shot_last_16_token_prefix_proj.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3f50874a5766369e5936ee517d1cf8b293f39fa7302f346211c2b3de87ddbae3
+size 67125400

X16N16_projection_checkpoint/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e80f454ca9304d4f71eac3af85322c2972eb4c9a00ce8b63978afe24089740dd
+size 134253404

X16N16_projection_checkpoint/rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5c5e18f922d0af74d820247ae97bee506ab412554a58345ddf2558abc94ee3e3
+size 15024

X16N16_projection_checkpoint/rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2a2dcca6d9741f46592359768ea2212b9321da6408d1fd7d3a80b017bf37f434
+size 15024

X16N16_projection_checkpoint/rng_state_2.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:69420ece2c255923c5cbb3c6c9c4a6b9cb38fb57e5d3033c8b7d436a1faf6f13
+size 15024

X16N16_projection_checkpoint/rng_state_3.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:66f278b40a1e23b88a657c4e5d03afa8dbbbe14dfeb16f6b4beedaece6cdd0b9
+size 15024

X16N16_projection_checkpoint/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:39772bc879f790a25e0d105ade1b05ef60ec27d43a21929080222f58b660c42e
+size 1064

X16N16_projection_checkpoint/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,23 @@

+{
+  "bos_token": {
+    "content": "<|begin_of_text|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|eot_id|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|eot_id|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

X16N16_projection_checkpoint/tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ebf958ef006b9b69a87af54a8b5884ef80a129c35d7e893ffce9025aad1a0f1a
+size 17306081

X16N16_projection_checkpoint/tokenizer_config.json ADDED Viewed

The diff for this file is too large to render. See raw diff

X16N16_projection_checkpoint/trainer_state.json ADDED Viewed

	@@ -0,0 +1,401 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 20000,
+  "global_step": 97947,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.020419206305450906,
+      "grad_norm": 0.039410658180713654,
+      "learning_rate": 9.98991631653945e-05,
+      "loss": 0.372,
+      "step": 2000
+    },
+    {
+      "epoch": 0.04083841261090181,
+      "grad_norm": 0.005198541097342968,
+      "learning_rate": 9.959298454390976e-05,
+      "loss": 0.065,
+      "step": 4000
+    },
+    {
+      "epoch": 0.06125761891635272,
+      "grad_norm": 0.06661669164896011,
+      "learning_rate": 9.908271387313857e-05,
+      "loss": 0.0685,
+      "step": 6000
+    },
+    {
+      "epoch": 0.08167682522180363,
+      "grad_norm": 0.006491110660135746,
+      "learning_rate": 9.837045109096221e-05,
+      "loss": 0.0687,
+      "step": 8000
+    },
+    {
+      "epoch": 0.10209603152725454,
+      "grad_norm": 0.0055190944112837315,
+      "learning_rate": 9.745912740170689e-05,
+      "loss": 0.0498,
+      "step": 10000
+    },
+    {
+      "epoch": 0.12251523783270545,
+      "grad_norm": 0.04117045924067497,
+      "learning_rate": 9.635249321323802e-05,
+      "loss": 0.0432,
+      "step": 12000
+    },
+    {
+      "epoch": 0.14293444413815634,
+      "grad_norm": 0.021597355604171753,
+      "learning_rate": 9.505510270275252e-05,
+      "loss": 0.0417,
+      "step": 14000
+    },
+    {
+      "epoch": 0.16335365044360725,
+      "grad_norm": 0.003780410159379244,
+      "learning_rate": 9.357229507478593e-05,
+      "loss": 0.0422,
+      "step": 16000
+    },
+    {
+      "epoch": 0.18377285674905816,
+      "grad_norm": 0.007895337417721748,
+      "learning_rate": 9.191017258856449e-05,
+      "loss": 0.0429,
+      "step": 18000
+    },
+    {
+      "epoch": 0.20419206305450907,
+      "grad_norm": 0.004307162947952747,
+      "learning_rate": 9.007557544512666e-05,
+      "loss": 0.0413,
+      "step": 20000
+    },
+    {
+      "epoch": 0.20419206305450907,
+      "eval_loss": 0.1096305251121521,
+      "eval_runtime": 1377.9634,
+      "eval_samples_per_second": 11.857,
+      "eval_steps_per_second": 2.965,
+      "step": 20000
+    },
+    {
+      "epoch": 0.22461126935995998,
+      "grad_norm": 0.007145540788769722,
+      "learning_rate": 8.807605363756247e-05,
+      "loss": 0.0446,
+      "step": 22000
+    },
+    {
+      "epoch": 0.2450304756654109,
+      "grad_norm": 0.0012220863718539476,
+      "learning_rate": 8.591983588021628e-05,
+      "loss": 0.0403,
+      "step": 24000
+    },
+    {
+      "epoch": 0.2654496819708618,
+      "grad_norm": 0.01538262702524662,
+      "learning_rate": 8.361579574472034e-05,
+      "loss": 0.0415,
+      "step": 26000
+    },
+    {
+      "epoch": 0.2858688882763127,
+      "grad_norm": 0.001653927145525813,
+      "learning_rate": 8.117341514222026e-05,
+      "loss": 0.0417,
+      "step": 28000
+    },
+    {
+      "epoch": 0.3062880945817636,
+      "grad_norm": 0.0205825362354517,
+      "learning_rate": 7.860274530207608e-05,
+      "loss": 0.038,
+      "step": 30000
+    },
+    {
+      "epoch": 0.3267073008872145,
+      "grad_norm": 0.018282199278473854,
+      "learning_rate": 7.591436540762474e-05,
+      "loss": 0.0369,
+      "step": 32000
+    },
+    {
+      "epoch": 0.3471265071926654,
+      "grad_norm": 0.0013706751633435488,
+      "learning_rate": 7.311933905923157e-05,
+      "loss": 0.0385,
+      "step": 34000
+    },
+    {
+      "epoch": 0.3675457134981163,
+      "grad_norm": 0.022714795544743538,
+      "learning_rate": 7.02291687438007e-05,
+      "loss": 0.0388,
+      "step": 36000
+    },
+    {
+      "epoch": 0.38796491980356723,
+      "grad_norm": 0.015217154286801815,
+      "learning_rate": 6.725574849811758e-05,
+      "loss": 0.0361,
+      "step": 38000
+    },
+    {
+      "epoch": 0.40838412610901814,
+      "grad_norm": 0.008922121487557888,
+      "learning_rate": 6.421131496082997e-05,
+      "loss": 0.0354,
+      "step": 40000
+    },
+    {
+      "epoch": 0.40838412610901814,
+      "eval_loss": 0.10438187420368195,
+      "eval_runtime": 1483.2608,
+      "eval_samples_per_second": 11.016,
+      "eval_steps_per_second": 2.754,
+      "step": 40000
+    },
+    {
+      "epoch": 0.42880333241446905,
+      "grad_norm": 0.004572518169879913,
+      "learning_rate": 6.110839701450578e-05,
+      "loss": 0.0352,
+      "step": 42000
+    },
+    {
+      "epoch": 0.44922253871991996,
+      "grad_norm": 0.004590547177940607,
+      "learning_rate": 5.795976422500715e-05,
+      "loss": 0.036,
+      "step": 44000
+    },
+    {
+      "epoch": 0.46964174502537087,
+      "grad_norm": 0.002056117169559002,
+      "learning_rate": 5.477837429037078e-05,
+      "loss": 0.0372,
+      "step": 46000
+    },
+    {
+      "epoch": 0.4900609513308218,
+      "grad_norm": 0.002131904009729624,
+      "learning_rate": 5.1577319715460226e-05,
+      "loss": 0.035,
+      "step": 48000
+    },
+    {
+      "epoch": 0.5104801576362726,
+      "grad_norm": 0.011025852523744106,
+      "learning_rate": 4.836977393184203e-05,
+      "loss": 0.0355,
+      "step": 50000
+    },
+    {
+      "epoch": 0.5308993639417235,
+      "grad_norm": 0.00647546723484993,
+      "learning_rate": 4.516893708462101e-05,
+      "loss": 0.0354,
+      "step": 52000
+    },
+    {
+      "epoch": 0.5513185702471745,
+      "grad_norm": 0.007355783600360155,
+      "learning_rate": 4.198798170934003e-05,
+      "loss": 0.0355,
+      "step": 54000
+    },
+    {
+      "epoch": 0.5717377765526254,
+      "grad_norm": 0.020101584494113922,
+      "learning_rate": 3.883999852250261e-05,
+      "loss": 0.037,
+      "step": 56000
+    },
+    {
+      "epoch": 0.5921569828580763,
+      "grad_norm": 0.00778984697535634,
+      "learning_rate": 3.57379425488089e-05,
+      "loss": 0.036,
+      "step": 58000
+    },
+    {
+      "epoch": 0.6125761891635272,
+      "grad_norm": 0.007056688889861107,
+      "learning_rate": 3.269457980680965e-05,
+      "loss": 0.035,
+      "step": 60000
+    },
+    {
+      "epoch": 0.6125761891635272,
+      "eval_loss": 0.10535352677106857,
+      "eval_runtime": 1556.8983,
+      "eval_samples_per_second": 10.495,
+      "eval_steps_per_second": 2.624,
+      "step": 60000
+    },
+    {
+      "epoch": 0.6329953954689781,
+      "grad_norm": 0.008058023639023304,
+      "learning_rate": 2.972243477238484e-05,
+      "loss": 0.0343,
+      "step": 62000
+    },
+    {
+      "epoch": 0.653414601774429,
+      "grad_norm": 0.012894408777356148,
+      "learning_rate": 2.6833738836252916e-05,
+      "loss": 0.0356,
+      "step": 64000
+    },
+    {
+      "epoch": 0.6738338080798799,
+      "grad_norm": 0.016047609969973564,
+      "learning_rate": 2.404037996762552e-05,
+      "loss": 0.0341,
+      "step": 66000
+    },
+    {
+      "epoch": 0.6942530143853308,
+      "grad_norm": 0.01276053674519062,
+      "learning_rate": 2.1353853791158717e-05,
+      "loss": 0.0338,
+      "step": 68000
+    },
+    {
+      "epoch": 0.7146722206907817,
+      "grad_norm": 0.005056174471974373,
+      "learning_rate": 1.8785216278535968e-05,
+      "loss": 0.0341,
+      "step": 70000
+    },
+    {
+      "epoch": 0.7350914269962326,
+      "grad_norm": 0.0010588251752778888,
+      "learning_rate": 1.6345038249373175e-05,
+      "loss": 0.0353,
+      "step": 72000
+    },
+    {
+      "epoch": 0.7555106333016836,
+      "grad_norm": 0.002015323843806982,
+      "learning_rate": 1.4043361868689698e-05,
+      "loss": 0.0365,
+      "step": 74000
+    },
+    {
+      "epoch": 0.7759298396071345,
+      "grad_norm": 0.007054855115711689,
+      "learning_rate": 1.1889659319973779e-05,
+      "loss": 0.0348,
+      "step": 76000
+    },
+    {
+      "epoch": 0.7963490459125854,
+      "grad_norm": 0.012270783074200153,
+      "learning_rate": 9.892793823916058e-06,
+      "loss": 0.0373,
+      "step": 78000
+    },
+    {
+      "epoch": 0.8167682522180363,
+      "grad_norm": 0.0010521231452003121,
+      "learning_rate": 8.06098316323296e-06,
+      "loss": 0.0372,
+      "step": 80000
+    },
+    {
+      "epoch": 0.8167682522180363,
+      "eval_loss": 0.10380256921052933,
+      "eval_runtime": 1404.8485,
+      "eval_samples_per_second": 11.63,
+      "eval_steps_per_second": 2.908,
+      "step": 80000
+    },
+    {
+      "epoch": 0.8371874585234872,
+      "grad_norm": 0.002963329665362835,
+      "learning_rate": 6.401765863687359e-06,
+      "loss": 0.0404,
+      "step": 82000
+    },
+    {
+      "epoch": 0.8576066648289381,
+      "grad_norm": 0.004744437523186207,
+      "learning_rate": 4.921970170483503e-06,
+      "loss": 0.0452,
+      "step": 84000
+    },
+    {
+      "epoch": 0.878025871134389,
+      "grad_norm": 0.005239036865532398,
+      "learning_rate": 3.627685947708592e-06,
+      "loss": 0.0439,
+      "step": 86000
+    },
+    {
+      "epoch": 0.8984450774398399,
+      "grad_norm": 0.016509557142853737,
+      "learning_rate": 2.524239616464641e-06,
+      "loss": 0.0448,
+      "step": 88000
+    },
+    {
+      "epoch": 0.9188642837452908,
+      "grad_norm": 0.010666937567293644,
+      "learning_rate": 1.616172234828528e-06,
+      "loss": 0.0443,
+      "step": 90000
+    },
+    {
+      "epoch": 0.9392834900507417,
+      "grad_norm": 0.004125706851482391,
+      "learning_rate": 9.072208098489964e-07,
+      "loss": 0.0423,
+      "step": 92000
+    },
+    {
+      "epoch": 0.9597026963561927,
+      "grad_norm": 0.012792402878403664,
+      "learning_rate": 4.003029184877771e-07,
+      "loss": 0.044,
+      "step": 94000
+    },
+    {
+      "epoch": 0.9801219026616436,
+      "grad_norm": 0.05335747450590134,
+      "learning_rate": 9.750470079509799e-08,
+      "loss": 0.0413,
+      "step": 96000
+    }
+  ],
+  "logging_steps": 2000,
+  "max_steps": 97947,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 20000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.3798973062911099e+19,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}

X16N16_projection_checkpoint/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:99a85c41e6b1b0eceff022f74aaae5ebc2e75722ac53d3e87da771b14d829f41
+size 5496

prottex_joint_embed/config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "_name_or_path": "/data/wp/2024_35wp/workspace/250423/protex_model",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 128000,
+  "eos_token_id": 128001,
+  "head_dim": 128,
+  "hidden_act": "silu",
+  "hidden_size": 4096,
+  "initializer_range": 0.02,
+  "intermediate_size": 14336,
+  "max_position_embeddings": 8192,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 32,
+  "num_key_value_heads": 8,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 500000.0,
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.46.1",
+  "use_cache": true,
+  "vocab_size": 128832
+}

prottex_joint_embed/generation_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "bos_token_id": 128000,
+  "do_sample": true,
+  "eos_token_id": 128001,
+  "max_length": 4096,
+  "temperature": 0.6,
+  "top_p": 0.9,
+  "transformers_version": "4.46.1"
+}

prottex_joint_embed/model-00001-of-00009.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:faa99e4e54ab77cc049245373a8e7d6fb065bab1d95e781998712ac31ee3c5ac
+size 1978173968

prottex_joint_embed/model-00002-of-00009.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0731aff544100377b071ffefe3082b7768f629824698893428e31ac8905419c9
+size 1895895336

prottex_joint_embed/model-00003-of-00009.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2cccb4f2a4fa986f835e6139336a627aab526173ae75dcf55db113697591b752
+size 1979798040

prottex_joint_embed/model-00004-of-00009.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3abf4fc17bef2265f5aac7a3cf1f11baa32856af3bcd64e8cb4c2cf28c20a15e
+size 1946227368

prottex_joint_embed/model-00005-of-00009.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8f9e8fe0e2abe66d48bac202ba59980656e8bfad86e0b95741abd6aeb6468310
+size 1979798064

prottex_joint_embed/model-00006-of-00009.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cc23e996fcbd57090ad6afb1b5753599051ab1253761a8e36c87c0680cb9d485
+size 1946227368

prottex_joint_embed/model-00007-of-00009.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:761269f4c026a4c820d810be4c8b28837adeecbe0e7408cbb4a413633f0aed26
+size 1979798064

prottex_joint_embed/model-00008-of-00009.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1d3bd0594c9780b90672dc1eaccfc6d5cc326dc3b10436f3b1f2a41483a330a6
+size 1308683424

prottex_joint_embed/model-00009-of-00009.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:03389ef91f7bcb2b6bb70ce0ebe655d4bd50261535191d7cac4c59ddac6ff134
+size 1055391872

prottex_joint_embed/model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,298 @@

+{
+  "metadata": {
+    "total_size": 16069959680
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00009-of-00009.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00009.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00009.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00009.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00009.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00009.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00009.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00009.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00009.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00009.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00009.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00009.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00009.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00009.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00009.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00009.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00009.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00009.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00009.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00009.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00003-of-00009.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00003-of-00009.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00003-of-00009.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00003-of-00009.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00003-of-00009.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00003-of-00009.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00003-of-00009.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00003-of-00009.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00003-of-00009.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00004-of-00009.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00004-of-00009.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00004-of-00009.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00004-of-00009.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00004-of-00009.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00004-of-00009.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00004-of-00009.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00004-of-00009.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00004-of-00009.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00004-of-00009.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00004-of-00009.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00004-of-00009.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00004-of-00009.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00004-of-00009.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00004-of-00009.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00004-of-00009.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00004-of-00009.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00004-of-00009.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00004-of-00009.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00004-of-00009.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00004-of-00009.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00004-of-00009.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00004-of-00009.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00004-of-00009.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00004-of-00009.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00004-of-00009.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00004-of-00009.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00004-of-00009.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00004-of-00009.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00004-of-00009.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00004-of-00009.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00004-of-00009.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00004-of-00009.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00004-of-00009.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00004-of-00009.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00004-of-00009.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00005-of-00009.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00005-of-00009.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00004-of-00009.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00005-of-00009.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00005-of-00009.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00004-of-00009.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00004-of-00009.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00004-of-00009.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00004-of-00009.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00005-of-00009.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00005-of-00009.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00005-of-00009.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00005-of-00009.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00005-of-00009.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00005-of-00009.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00005-of-00009.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00005-of-00009.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00005-of-00009.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00005-of-00009.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00005-of-00009.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00005-of-00009.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00005-of-00009.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00005-of-00009.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00005-of-00009.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00005-of-00009.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00005-of-00009.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00005-of-00009.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00005-of-00009.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00005-of-00009.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00005-of-00009.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00005-of-00009.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00005-of-00009.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00005-of-00009.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00005-of-00009.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00005-of-00009.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00005-of-00009.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00005-of-00009.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00005-of-00009.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00005-of-00009.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00005-of-00009.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00005-of-00009.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00005-of-00009.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00005-of-00009.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00005-of-00009.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00005-of-00009.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00002-of-00009.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00002-of-00009.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00002-of-00009.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00002-of-00009.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00002-of-00009.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00009.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00002-of-00009.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00009.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00009.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00006-of-00009.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00006-of-00009.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00006-of-00009.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00006-of-00009.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00006-of-00009.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00006-of-00009.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00006-of-00009.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00006-of-00009.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00006-of-00009.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00006-of-00009.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00006-of-00009.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00006-of-00009.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00006-of-00009.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00006-of-00009.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00006-of-00009.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00006-of-00009.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00006-of-00009.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00006-of-00009.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00006-of-00009.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00006-of-00009.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00006-of-00009.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00006-of-00009.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00006-of-00009.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00006-of-00009.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00006-of-00009.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00006-of-00009.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00006-of-00009.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00006-of-00009.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00006-of-00009.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00006-of-00009.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00006-of-00009.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00006-of-00009.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00006-of-00009.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00006-of-00009.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00006-of-00009.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00006-of-00009.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00007-of-00009.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00007-of-00009.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00006-of-00009.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00007-of-00009.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00007-of-00009.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00006-of-00009.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00006-of-00009.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00006-of-00009.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00006-of-00009.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00007-of-00009.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00007-of-00009.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00007-of-00009.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00007-of-00009.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00007-of-00009.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00007-of-00009.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00007-of-00009.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00007-of-00009.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00007-of-00009.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00007-of-00009.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00007-of-00009.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00007-of-00009.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00007-of-00009.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00007-of-00009.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00007-of-00009.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00007-of-00009.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00007-of-00009.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00007-of-00009.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00007-of-00009.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00007-of-00009.safetensors",
+    "model.layers.27.mlp.gate_proj.weight": "model-00007-of-00009.safetensors",
+    "model.layers.27.mlp.up_proj.weight": "model-00007-of-00009.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00007-of-00009.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00007-of-00009.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00007-of-00009.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00007-of-00009.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00007-of-00009.safetensors",
+    "model.layers.28.input_layernorm.weight": "model-00007-of-00009.safetensors",
+    "model.layers.28.mlp.down_proj.weight": "model-00007-of-00009.safetensors",
+    "model.layers.28.mlp.gate_proj.weight": "model-00007-of-00009.safetensors",
+    "model.layers.28.mlp.up_proj.weight": "model-00007-of-00009.safetensors",
+    "model.layers.28.post_attention_layernorm.weight": "model-00007-of-00009.safetensors",
+    "model.layers.28.self_attn.k_proj.weight": "model-00007-of-00009.safetensors",
+    "model.layers.28.self_attn.o_proj.weight": "model-00007-of-00009.safetensors",
+    "model.layers.28.self_attn.q_proj.weight": "model-00007-of-00009.safetensors",
+    "model.layers.28.self_attn.v_proj.weight": "model-00007-of-00009.safetensors",
+    "model.layers.29.input_layernorm.weight": "model-00008-of-00009.safetensors",
+    "model.layers.29.mlp.down_proj.weight": "model-00008-of-00009.safetensors",
+    "model.layers.29.mlp.gate_proj.weight": "model-00008-of-00009.safetensors",
+    "model.layers.29.mlp.up_proj.weight": "model-00008-of-00009.safetensors",
+    "model.layers.29.post_attention_layernorm.weight": "model-00008-of-00009.safetensors",
+    "model.layers.29.self_attn.k_proj.weight": "model-00008-of-00009.safetensors",
+    "model.layers.29.self_attn.o_proj.weight": "model-00008-of-00009.safetensors",
+    "model.layers.29.self_attn.q_proj.weight": "model-00008-of-00009.safetensors",
+    "model.layers.29.self_attn.v_proj.weight": "model-00008-of-00009.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00002-of-00009.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00002-of-00009.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00002-of-00009.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00002-of-00009.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00002-of-00009.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00002-of-00009.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00002-of-00009.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00002-of-00009.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00002-of-00009.safetensors",
+    "model.layers.30.input_layernorm.weight": "model-00008-of-00009.safetensors",
+    "model.layers.30.mlp.down_proj.weight": "model-00008-of-00009.safetensors",
+    "model.layers.30.mlp.gate_proj.weight": "model-00008-of-00009.safetensors",
+    "model.layers.30.mlp.up_proj.weight": "model-00008-of-00009.safetensors",
+    "model.layers.30.post_attention_layernorm.weight": "model-00008-of-00009.safetensors",
+    "model.layers.30.self_attn.k_proj.weight": "model-00008-of-00009.safetensors",
+    "model.layers.30.self_attn.o_proj.weight": "model-00008-of-00009.safetensors",
+    "model.layers.30.self_attn.q_proj.weight": "model-00008-of-00009.safetensors",
+    "model.layers.30.self_attn.v_proj.weight": "model-00008-of-00009.safetensors",
+    "model.layers.31.input_layernorm.weight": "model-00008-of-00009.safetensors",
+    "model.layers.31.mlp.down_proj.weight": "model-00008-of-00009.safetensors",
+    "model.layers.31.mlp.gate_proj.weight": "model-00008-of-00009.safetensors",
+    "model.layers.31.mlp.up_proj.weight": "model-00008-of-00009.safetensors",
+    "model.layers.31.post_attention_layernorm.weight": "model-00008-of-00009.safetensors",
+    "model.layers.31.self_attn.k_proj.weight": "model-00008-of-00009.safetensors",
+    "model.layers.31.self_attn.o_proj.weight": "model-00008-of-00009.safetensors",
+    "model.layers.31.self_attn.q_proj.weight": "model-00008-of-00009.safetensors",
+    "model.layers.31.self_attn.v_proj.weight": "model-00008-of-00009.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00002-of-00009.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00002-of-00009.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00002-of-00009.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00002-of-00009.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00002-of-00009.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00002-of-00009.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00002-of-00009.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00002-of-00009.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00002-of-00009.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00002-of-00009.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00002-of-00009.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00002-of-00009.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00002-of-00009.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00002-of-00009.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00002-of-00009.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00002-of-00009.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00002-of-00009.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00002-of-00009.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00003-of-00009.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00003-of-00009.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00002-of-00009.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00003-of-00009.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00003-of-00009.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00002-of-00009.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00002-of-00009.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00002-of-00009.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00002-of-00009.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00003-of-00009.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00003-of-00009.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00003-of-00009.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00003-of-00009.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00003-of-00009.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00003-of-00009.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00003-of-00009.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00003-of-00009.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00003-of-00009.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00003-of-00009.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00003-of-00009.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00003-of-00009.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00003-of-00009.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00003-of-00009.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00003-of-00009.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00003-of-00009.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00003-of-00009.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00003-of-00009.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00003-of-00009.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00003-of-00009.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00003-of-00009.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00003-of-00009.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00003-of-00009.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00003-of-00009.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00003-of-00009.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00003-of-00009.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00003-of-00009.safetensors",
+    "model.norm.weight": "model-00008-of-00009.safetensors"
+  }
+}

prottex_joint_embed/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,23 @@

+{
+  "bos_token": {
+    "content": "<|begin_of_text|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|eot_id|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|eot_id|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

prottex_joint_embed/tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ebf958ef006b9b69a87af54a8b5884ef80a129c35d7e893ffce9025aad1a0f1a
+size 17306081

prottex_joint_embed/tokenizer_config.json ADDED Viewed

The diff for this file is too large to render. See raw diff