u04ob20 commited on Apr 9, 2024

Commit

82442bd

1 Parent(s): c22333b

model files

Browse files

Files changed (30) hide show

google-gemma-2b-it/checkpoint-1083/config.json → config.json +0 -0
google-gemma-2b-it/checkpoint-1083/generation_config.json → generation_config.json +0 -0
google-gemma-2b-it/checkpoint-1083/model-00001-of-00003.safetensors +0 -3
google-gemma-2b-it/checkpoint-1083/model-00002-of-00003.safetensors +0 -3
google-gemma-2b-it/checkpoint-1083/model-00003-of-00003.safetensors +0 -3
google-gemma-2b-it/checkpoint-1083/optimizer.pt +0 -3
google-gemma-2b-it/checkpoint-1083/rng_state.pth +0 -3
google-gemma-2b-it/checkpoint-1083/scheduler.pt +0 -3
google-gemma-2b-it/checkpoint-1083/trainer_state.json +0 -306
google-gemma-2b-it/checkpoint-114/config.json +0 -29
google-gemma-2b-it/checkpoint-114/generation_config.json +0 -7
google-gemma-2b-it/checkpoint-114/model-00001-of-00003.safetensors +0 -3
google-gemma-2b-it/checkpoint-114/model-00002-of-00003.safetensors +0 -3
google-gemma-2b-it/checkpoint-114/model-00003-of-00003.safetensors +0 -3
google-gemma-2b-it/checkpoint-114/model.safetensors.index.json +0 -171
google-gemma-2b-it/checkpoint-114/optimizer.pt +0 -3
google-gemma-2b-it/checkpoint-114/rng_state.pth +0 -3
google-gemma-2b-it/checkpoint-114/scheduler.pt +0 -3
google-gemma-2b-it/checkpoint-114/trainer_state.json +0 -51
google-gemma-2b-it/checkpoint-114/training_args.bin +0 -3
google-gemma-2b-it/config.json +0 -29
google-gemma-2b-it/generation_config.json +0 -7
google-gemma-2b-it/model.safetensors.index.json +0 -171
google-gemma-2b-it/training_args.bin +0 -3
google-gemma-2b-it/model-00001-of-00003.safetensors → model-00001-of-00003.safetensors +0 -0
google-gemma-2b-it/model-00002-of-00003.safetensors → model-00002-of-00003.safetensors +0 -0
google-gemma-2b-it/model-00003-of-00003.safetensors → model-00003-of-00003.safetensors +0 -0
google-gemma-2b-it/checkpoint-1083/model.safetensors.index.json → model.safetensors.index.json +0 -0
google-gemma-2b-it/trainer_state.json → trainer_state.json +0 -0
google-gemma-2b-it/checkpoint-1083/training_args.bin → training_args.bin +0 -0

google-gemma-2b-it/checkpoint-1083/config.json → config.json RENAMED Viewed

File without changes

google-gemma-2b-it/checkpoint-1083/generation_config.json → generation_config.json RENAMED Viewed

File without changes

google-gemma-2b-it/checkpoint-1083/model-00001-of-00003.safetensors DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:e928c3436befbeb60f11abfa38cc7c4e06dff86be0b2b5cd8c2be6d616b9f266
-size 4911635192

google-gemma-2b-it/checkpoint-1083/model-00002-of-00003.safetensors DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:87261d1c9af2516c48938cf057abcffe74222d9bc7e28a9fdeb08167ecf87b52
-size 4978830584

google-gemma-2b-it/checkpoint-1083/model-00003-of-00003.safetensors DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:2fd4d7255f50cb5ce7c863a0a0de43f2400af9ffdddad415971338951baf25e0
-size 134242760

google-gemma-2b-it/checkpoint-1083/optimizer.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:8cfd8a6ff376aa33aee510e36ac3845da45d2f0382fe419028c8338af5b667b3
-size 20049522477

google-gemma-2b-it/checkpoint-1083/rng_state.pth DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:4a2d2d1561481739972beb9da4cda24cd79618e56b2904d90829eda87023314e
-size 14575

google-gemma-2b-it/checkpoint-1083/scheduler.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:14b00f4b4419499040f80c52731f61cf1e3cb06f8174abd72edb3fd6e413cc68
-size 627

google-gemma-2b-it/checkpoint-1083/trainer_state.json DELETED Viewed

@@ -1,306 +0,0 @@
-{
-  "best_metric": 2.030155658721924,
-  "best_model_checkpoint": "/uoa/scratch/users/u04ob20/attrib/data/models/google-gemma-2b-it/checkpoint-114",
-  "epoch": 9.584070796460177,
-  "eval_steps": 57,
-  "global_step": 1083,
-  "is_hyper_param_search": false,
-  "is_local_process_zero": true,
-  "is_world_process_zero": true,
-  "log_history": [
-    {
-      "epoch": 0.5,
-      "grad_norm": 17.672748565673828,
-      "learning_rate": 4.747787610619469e-05,
-      "loss": 2.9683,
-      "step": 57
-    },
-    {
-      "epoch": 0.5,
-      "eval_loss": 2.1323869228363037,
-      "eval_runtime": 14.1951,
-      "eval_samples_per_second": 15.639,
-      "eval_steps_per_second": 0.986,
-      "step": 57
-    },
-    {
-      "epoch": 1.01,
-      "grad_norm": 10.006913185119629,
-      "learning_rate": 4.495575221238939e-05,
-      "loss": 1.9812,
-      "step": 114
-    },
-    {
-      "epoch": 1.01,
-      "eval_loss": 2.030155658721924,
-      "eval_runtime": 14.0967,
-      "eval_samples_per_second": 15.748,
-      "eval_steps_per_second": 0.993,
-      "step": 114
-    },
-    {
-      "epoch": 1.51,
-      "grad_norm": 7.1079607009887695,
-      "learning_rate": 4.243362831858407e-05,
-      "loss": 1.6206,
-      "step": 171
-    },
-    {
-      "epoch": 1.51,
-      "eval_loss": 2.0554354190826416,
-      "eval_runtime": 14.0805,
-      "eval_samples_per_second": 15.766,
-      "eval_steps_per_second": 0.994,
-      "step": 171
-    },
-    {
-      "epoch": 2.02,
-      "grad_norm": 8.306120872497559,
-      "learning_rate": 3.991150442477876e-05,
-      "loss": 1.6558,
-      "step": 228
-    },
-    {
-      "epoch": 2.02,
-      "eval_loss": 2.124750852584839,
-      "eval_runtime": 14.181,
-      "eval_samples_per_second": 15.655,
-      "eval_steps_per_second": 0.987,
-      "step": 228
-    },
-    {
-      "epoch": 2.52,
-      "grad_norm": 5.911388874053955,
-      "learning_rate": 3.7389380530973455e-05,
-      "loss": 1.0749,
-      "step": 285
-    },
-    {
-      "epoch": 2.52,
-      "eval_loss": 2.2880985736846924,
-      "eval_runtime": 14.046,
-      "eval_samples_per_second": 15.805,
-      "eval_steps_per_second": 0.997,
-      "step": 285
-    },
-    {
-      "epoch": 3.03,
-      "grad_norm": 5.9703569412231445,
-      "learning_rate": 3.4867256637168145e-05,
-      "loss": 1.1099,
-      "step": 342
-    },
-    {
-      "epoch": 3.03,
-      "eval_loss": 2.6607654094696045,
-      "eval_runtime": 14.1568,
-      "eval_samples_per_second": 15.681,
-      "eval_steps_per_second": 0.989,
-      "step": 342
-    },
-    {
-      "epoch": 3.53,
-      "grad_norm": 7.199086666107178,
-      "learning_rate": 3.2345132743362834e-05,
-      "loss": 0.5349,
-      "step": 399
-    },
-    {
-      "epoch": 3.53,
-      "eval_loss": 2.9111106395721436,
-      "eval_runtime": 14.1631,
-      "eval_samples_per_second": 15.675,
-      "eval_steps_per_second": 0.988,
-      "step": 399
-    },
-    {
-      "epoch": 4.04,
-      "grad_norm": 3.1459338665008545,
-      "learning_rate": 2.982300884955752e-05,
-      "loss": 0.5432,
-      "step": 456
-    },
-    {
-      "epoch": 4.04,
-      "eval_loss": 3.114436149597168,
-      "eval_runtime": 14.1302,
-      "eval_samples_per_second": 15.711,
-      "eval_steps_per_second": 0.991,
-      "step": 456
-    },
-    {
-      "epoch": 4.54,
-      "grad_norm": 3.5249204635620117,
-      "learning_rate": 2.7300884955752216e-05,
-      "loss": 0.2523,
-      "step": 513
-    },
-    {
-      "epoch": 4.54,
-      "eval_loss": 3.34505033493042,
-      "eval_runtime": 14.1883,
-      "eval_samples_per_second": 15.647,
-      "eval_steps_per_second": 0.987,
-      "step": 513
-    },
-    {
-      "epoch": 5.04,
-      "grad_norm": 3.153855085372925,
-      "learning_rate": 2.4778761061946905e-05,
-      "loss": 0.2561,
-      "step": 570
-    },
-    {
-      "epoch": 5.04,
-      "eval_loss": 3.5140204429626465,
-      "eval_runtime": 14.128,
-      "eval_samples_per_second": 15.714,
-      "eval_steps_per_second": 0.991,
-      "step": 570
-    },
-    {
-      "epoch": 5.55,
-      "grad_norm": 3.072230339050293,
-      "learning_rate": 2.2256637168141594e-05,
-      "loss": 0.1508,
-      "step": 627
-    },
-    {
-      "epoch": 5.55,
-      "eval_loss": 3.5723717212677,
-      "eval_runtime": 14.0396,
-      "eval_samples_per_second": 15.812,
-      "eval_steps_per_second": 0.997,
-      "step": 627
-    },
-    {
-      "epoch": 6.05,
-      "grad_norm": 1.96257746219635,
-      "learning_rate": 1.9734513274336283e-05,
-      "loss": 0.1365,
-      "step": 684
-    },
-    {
-      "epoch": 6.05,
-      "eval_loss": 3.7443270683288574,
-      "eval_runtime": 14.1133,
-      "eval_samples_per_second": 15.73,
-      "eval_steps_per_second": 0.992,
-      "step": 684
-    },
-    {
-      "epoch": 6.56,
-      "grad_norm": 2.537320375442505,
-      "learning_rate": 1.7212389380530976e-05,
-      "loss": 0.0878,
-      "step": 741
-    },
-    {
-      "epoch": 6.56,
-      "eval_loss": 3.926490545272827,
-      "eval_runtime": 14.1716,
-      "eval_samples_per_second": 15.665,
-      "eval_steps_per_second": 0.988,
-      "step": 741
-    },
-    {
-      "epoch": 7.06,
-      "grad_norm": 1.6090797185897827,
-      "learning_rate": 1.4690265486725665e-05,
-      "loss": 0.0841,
-      "step": 798
-    },
-    {
-      "epoch": 7.06,
-      "eval_loss": 3.97700572013855,
-      "eval_runtime": 14.1937,
-      "eval_samples_per_second": 15.641,
-      "eval_steps_per_second": 0.986,
-      "step": 798
-    },
-    {
-      "epoch": 7.57,
-      "grad_norm": 1.7380380630493164,
-      "learning_rate": 1.2168141592920354e-05,
-      "loss": 0.0587,
-      "step": 855
-    },
-    {
-      "epoch": 7.57,
-      "eval_loss": 4.071342468261719,
-      "eval_runtime": 14.1098,
-      "eval_samples_per_second": 15.734,
-      "eval_steps_per_second": 0.992,
-      "step": 855
-    },
-    {
-      "epoch": 8.07,
-      "grad_norm": 0.9195989370346069,
-      "learning_rate": 9.646017699115045e-06,
-      "loss": 0.0539,
-      "step": 912
-    },
-    {
-      "epoch": 8.07,
-      "eval_loss": 4.22251558303833,
-      "eval_runtime": 14.0932,
-      "eval_samples_per_second": 15.752,
-      "eval_steps_per_second": 0.993,
-      "step": 912
-    },
-    {
-      "epoch": 8.58,
-      "grad_norm": 1.6740847826004028,
-      "learning_rate": 7.123893805309735e-06,
-      "loss": 0.0404,
-      "step": 969
-    },
-    {
-      "epoch": 8.58,
-      "eval_loss": 4.388303279876709,
-      "eval_runtime": 14.0715,
-      "eval_samples_per_second": 15.777,
-      "eval_steps_per_second": 0.995,
-      "step": 969
-    },
-    {
-      "epoch": 9.08,
-      "grad_norm": 0.768718421459198,
-      "learning_rate": 4.601769911504425e-06,
-      "loss": 0.0383,
-      "step": 1026
-    },
-    {
-      "epoch": 9.08,
-      "eval_loss": 4.46160364151001,
-      "eval_runtime": 14.1199,
-      "eval_samples_per_second": 15.722,
-      "eval_steps_per_second": 0.992,
-      "step": 1026
-    },
-    {
-      "epoch": 9.58,
-      "grad_norm": 0.8811420202255249,
-      "learning_rate": 2.079646017699115e-06,
-      "loss": 0.0292,
-      "step": 1083
-    },
-    {
-      "epoch": 9.58,
-      "eval_loss": 4.561453819274902,
-      "eval_runtime": 14.1759,
-      "eval_samples_per_second": 15.66,
-      "eval_steps_per_second": 0.988,
-      "step": 1083
-    }
-  ],
-  "logging_steps": 57,
-  "max_steps": 1130,
-  "num_input_tokens_seen": 0,
-  "num_train_epochs": 10,
-  "save_steps": 57,
-  "total_flos": 2.305048903365427e+16,
-  "train_batch_size": 14,
-  "trial_name": null,
-  "trial_params": null
-}

google-gemma-2b-it/checkpoint-114/config.json DELETED Viewed

@@ -1,29 +0,0 @@
-{
-  "_name_or_path": "google/gemma-2b-it",
-  "architectures": [
-    "GemmaForCausalLM"
-  ],
-  "attention_bias": false,
-  "attention_dropout": 0.0,
-  "bos_token_id": 2,
-  "eos_token_id": 1,
-  "head_dim": 256,
-  "hidden_act": "gelu",
-  "hidden_activation": null,
-  "hidden_size": 2048,
-  "initializer_range": 0.02,
-  "intermediate_size": 16384,
-  "max_position_embeddings": 8192,
-  "model_type": "gemma",
-  "num_attention_heads": 8,
-  "num_hidden_layers": 18,
-  "num_key_value_heads": 1,
-  "pad_token_id": 0,
-  "rms_norm_eps": 1e-06,
-  "rope_scaling": null,
-  "rope_theta": 10000.0,
-  "torch_dtype": "float32",
-  "transformers_version": "4.39.2",
-  "use_cache": true,
-  "vocab_size": 256000
-}

google-gemma-2b-it/checkpoint-114/generation_config.json DELETED Viewed

@@ -1,7 +0,0 @@
-{
-  "_from_model_config": true,
-  "bos_token_id": 2,
-  "eos_token_id": 1,
-  "pad_token_id": 0,
-  "transformers_version": "4.39.2"
-}

google-gemma-2b-it/checkpoint-114/model-00001-of-00003.safetensors DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:91525f0c6a5c3e87dace4986c34f4d0e57786a9fbca7d38ac97a824a788c5a58
-size 4911635192

google-gemma-2b-it/checkpoint-114/model-00002-of-00003.safetensors DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:f5b9d643a01749d1f9729f5ae73c8596e775cc94cefde63029a9f5db7ff294ec
-size 4978830584

google-gemma-2b-it/checkpoint-114/model-00003-of-00003.safetensors DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:f6c8da4871411c8f0e88d67a68e5214333c72dc54a40eb2b06950f2c61e94446
-size 134242760

google-gemma-2b-it/checkpoint-114/model.safetensors.index.json DELETED Viewed

@@ -1,171 +0,0 @@
-{
-  "metadata": {
-    "total_size": 10024689664
-  },
-  "weight_map": {
-    "model.embed_tokens.weight": "model-00001-of-00003.safetensors",
-    "model.layers.0.input_layernorm.weight": "model-00001-of-00003.safetensors",
-    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
-    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.1.input_layernorm.weight": "model-00001-of-00003.safetensors",
-    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
-    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.10.input_layernorm.weight": "model-00002-of-00003.safetensors",
-    "model.layers.10.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.10.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.10.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.10.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
-    "model.layers.10.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.10.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.10.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.10.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.11.input_layernorm.weight": "model-00002-of-00003.safetensors",
-    "model.layers.11.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.11.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.11.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.11.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
-    "model.layers.11.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.11.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.11.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.11.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.12.input_layernorm.weight": "model-00002-of-00003.safetensors",
-    "model.layers.12.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.12.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.12.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.12.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
-    "model.layers.12.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.12.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.12.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.12.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.13.input_layernorm.weight": "model-00002-of-00003.safetensors",
-    "model.layers.13.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.13.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.13.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.13.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
-    "model.layers.13.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.13.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.13.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.13.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.14.input_layernorm.weight": "model-00002-of-00003.safetensors",
-    "model.layers.14.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.14.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.14.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.14.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
-    "model.layers.14.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.14.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.14.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.14.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.15.input_layernorm.weight": "model-00002-of-00003.safetensors",
-    "model.layers.15.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.15.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.15.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.15.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
-    "model.layers.15.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.15.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.15.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.15.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.16.input_layernorm.weight": "model-00002-of-00003.safetensors",
-    "model.layers.16.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.16.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.16.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.16.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
-    "model.layers.16.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.16.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.16.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.16.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.17.input_layernorm.weight": "model-00003-of-00003.safetensors",
-    "model.layers.17.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
-    "model.layers.17.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.17.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.17.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
-    "model.layers.17.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.17.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.17.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.17.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.2.input_layernorm.weight": "model-00001-of-00003.safetensors",
-    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
-    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.3.input_layernorm.weight": "model-00001-of-00003.safetensors",
-    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.3.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
-    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.4.input_layernorm.weight": "model-00001-of-00003.safetensors",
-    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.4.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
-    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.5.input_layernorm.weight": "model-00001-of-00003.safetensors",
-    "model.layers.5.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.5.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.5.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
-    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.6.input_layernorm.weight": "model-00002-of-00003.safetensors",
-    "model.layers.6.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.6.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.6.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.6.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
-    "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.6.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.7.input_layernorm.weight": "model-00002-of-00003.safetensors",
-    "model.layers.7.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.7.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.7.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.7.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
-    "model.layers.7.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.7.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.7.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.7.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.8.input_layernorm.weight": "model-00002-of-00003.safetensors",
-    "model.layers.8.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.8.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.8.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.8.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
-    "model.layers.8.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.8.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.8.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.8.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.9.input_layernorm.weight": "model-00002-of-00003.safetensors",
-    "model.layers.9.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.9.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.9.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.9.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
-    "model.layers.9.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.9.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.9.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.9.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
-    "model.norm.weight": "model-00003-of-00003.safetensors"
-  }
-}

google-gemma-2b-it/checkpoint-114/optimizer.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:606209d3e689dcab96c72d8e8176e13522a9606daf7d5592cd31e9ea8fc74570
-size 20049522477

google-gemma-2b-it/checkpoint-114/rng_state.pth DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:972139d83957a9cf2600cb6eeca17287d7a5377c33a53500ae7e13fe830ad36b
-size 14575

google-gemma-2b-it/checkpoint-114/scheduler.pt DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:872cb3f6d8d4af7e8967d0b2c19cdfdee44e91913a41f93f345fcf22cc6842e9
-size 627

google-gemma-2b-it/checkpoint-114/trainer_state.json DELETED Viewed

@@ -1,51 +0,0 @@
-{
-  "best_metric": 2.030155658721924,
-  "best_model_checkpoint": "/uoa/scratch/users/u04ob20/attrib/data/models/google-gemma-2b-it/checkpoint-114",
-  "epoch": 1.008849557522124,
-  "eval_steps": 57,
-  "global_step": 114,
-  "is_hyper_param_search": false,
-  "is_local_process_zero": true,
-  "is_world_process_zero": true,
-  "log_history": [
-    {
-      "epoch": 0.5,
-      "grad_norm": 17.672748565673828,
-      "learning_rate": 4.747787610619469e-05,
-      "loss": 2.9683,
-      "step": 57
-    },
-    {
-      "epoch": 0.5,
-      "eval_loss": 2.1323869228363037,
-      "eval_runtime": 14.1951,
-      "eval_samples_per_second": 15.639,
-      "eval_steps_per_second": 0.986,
-      "step": 57
-    },
-    {
-      "epoch": 1.01,
-      "grad_norm": 10.006913185119629,
-      "learning_rate": 4.495575221238939e-05,
-      "loss": 1.9812,
-      "step": 114
-    },
-    {
-      "epoch": 1.01,
-      "eval_loss": 2.030155658721924,
-      "eval_runtime": 14.0967,
-      "eval_samples_per_second": 15.748,
-      "eval_steps_per_second": 0.993,
-      "step": 114
-    }
-  ],
-  "logging_steps": 57,
-  "max_steps": 1130,
-  "num_input_tokens_seen": 0,
-  "num_train_epochs": 10,
-  "save_steps": 57,
-  "total_flos": 2426207046991872.0,
-  "train_batch_size": 14,
-  "trial_name": null,
-  "trial_params": null
-}

google-gemma-2b-it/checkpoint-114/training_args.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:d7ea7db924a891dab8a05e67c6c15139ab02e8d8e2079f27e7342cf8878db67c
-size 4475

google-gemma-2b-it/config.json DELETED Viewed

@@ -1,29 +0,0 @@
-{
-  "_name_or_path": "google/gemma-2b-it",
-  "architectures": [
-    "GemmaForCausalLM"
-  ],
-  "attention_bias": false,
-  "attention_dropout": 0.0,
-  "bos_token_id": 2,
-  "eos_token_id": 1,
-  "head_dim": 256,
-  "hidden_act": "gelu",
-  "hidden_activation": null,
-  "hidden_size": 2048,
-  "initializer_range": 0.02,
-  "intermediate_size": 16384,
-  "max_position_embeddings": 8192,
-  "model_type": "gemma",
-  "num_attention_heads": 8,
-  "num_hidden_layers": 18,
-  "num_key_value_heads": 1,
-  "pad_token_id": 0,
-  "rms_norm_eps": 1e-06,
-  "rope_scaling": null,
-  "rope_theta": 10000.0,
-  "torch_dtype": "float32",
-  "transformers_version": "4.39.2",
-  "use_cache": true,
-  "vocab_size": 256000
-}

google-gemma-2b-it/generation_config.json DELETED Viewed

@@ -1,7 +0,0 @@
-{
-  "_from_model_config": true,
-  "bos_token_id": 2,
-  "eos_token_id": 1,
-  "pad_token_id": 0,
-  "transformers_version": "4.39.2"
-}

google-gemma-2b-it/model.safetensors.index.json DELETED Viewed

@@ -1,171 +0,0 @@
-{
-  "metadata": {
-    "total_size": 10024689664
-  },
-  "weight_map": {
-    "model.embed_tokens.weight": "model-00001-of-00003.safetensors",
-    "model.layers.0.input_layernorm.weight": "model-00001-of-00003.safetensors",
-    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
-    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.1.input_layernorm.weight": "model-00001-of-00003.safetensors",
-    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
-    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.10.input_layernorm.weight": "model-00002-of-00003.safetensors",
-    "model.layers.10.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.10.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.10.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.10.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
-    "model.layers.10.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.10.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.10.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.10.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.11.input_layernorm.weight": "model-00002-of-00003.safetensors",
-    "model.layers.11.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.11.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.11.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.11.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
-    "model.layers.11.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.11.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.11.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.11.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.12.input_layernorm.weight": "model-00002-of-00003.safetensors",
-    "model.layers.12.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.12.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.12.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.12.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
-    "model.layers.12.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.12.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.12.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.12.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.13.input_layernorm.weight": "model-00002-of-00003.safetensors",
-    "model.layers.13.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.13.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.13.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.13.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
-    "model.layers.13.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.13.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.13.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.13.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.14.input_layernorm.weight": "model-00002-of-00003.safetensors",
-    "model.layers.14.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.14.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.14.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.14.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
-    "model.layers.14.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.14.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.14.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.14.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.15.input_layernorm.weight": "model-00002-of-00003.safetensors",
-    "model.layers.15.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.15.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.15.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.15.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
-    "model.layers.15.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.15.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.15.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.15.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.16.input_layernorm.weight": "model-00002-of-00003.safetensors",
-    "model.layers.16.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.16.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.16.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.16.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
-    "model.layers.16.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.16.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.16.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.16.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.17.input_layernorm.weight": "model-00003-of-00003.safetensors",
-    "model.layers.17.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
-    "model.layers.17.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.17.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.17.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
-    "model.layers.17.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.17.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.17.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.17.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.2.input_layernorm.weight": "model-00001-of-00003.safetensors",
-    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
-    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.3.input_layernorm.weight": "model-00001-of-00003.safetensors",
-    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.3.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
-    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.4.input_layernorm.weight": "model-00001-of-00003.safetensors",
-    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.4.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
-    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.5.input_layernorm.weight": "model-00001-of-00003.safetensors",
-    "model.layers.5.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.5.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.5.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
-    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.6.input_layernorm.weight": "model-00002-of-00003.safetensors",
-    "model.layers.6.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.6.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.6.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.6.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
-    "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.6.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
-    "model.layers.7.input_layernorm.weight": "model-00002-of-00003.safetensors",
-    "model.layers.7.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.7.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.7.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.7.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
-    "model.layers.7.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.7.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.7.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.7.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.8.input_layernorm.weight": "model-00002-of-00003.safetensors",
-    "model.layers.8.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.8.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.8.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.8.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
-    "model.layers.8.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.8.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.8.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.8.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.9.input_layernorm.weight": "model-00002-of-00003.safetensors",
-    "model.layers.9.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.9.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.9.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.9.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
-    "model.layers.9.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.9.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.9.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
-    "model.layers.9.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
-    "model.norm.weight": "model-00003-of-00003.safetensors"
-  }
-}

google-gemma-2b-it/training_args.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:d7ea7db924a891dab8a05e67c6c15139ab02e8d8e2079f27e7342cf8878db67c
-size 4475

google-gemma-2b-it/model-00001-of-00003.safetensors → model-00001-of-00003.safetensors RENAMED Viewed

File without changes

google-gemma-2b-it/model-00002-of-00003.safetensors → model-00002-of-00003.safetensors RENAMED Viewed

File without changes

google-gemma-2b-it/model-00003-of-00003.safetensors → model-00003-of-00003.safetensors RENAMED Viewed

File without changes

google-gemma-2b-it/checkpoint-1083/model.safetensors.index.json → model.safetensors.index.json RENAMED Viewed

File without changes

google-gemma-2b-it/trainer_state.json → trainer_state.json RENAMED Viewed

File without changes

google-gemma-2b-it/checkpoint-1083/training_args.bin → training_args.bin RENAMED Viewed

File without changes