MothMalone commited on Jun 25, 2025

Commit

5186da4

verified ·

1 Parent(s): 7d1e8a5

Upload folder using huggingface_hub

Browse files

Files changed (48) hide show

.ipynb_checkpoints/eval_metrics-checkpoint.json +6 -0
.ipynb_checkpoints/special_tokens_map-checkpoint.json +30 -0
.ipynb_checkpoints/tokenizer-checkpoint.json +0 -0
checkpoint-1000/config.json +29 -0
checkpoint-1000/generation_config.json +7 -0
checkpoint-1000/model.safetensors +3 -0
checkpoint-1000/optimizer.pt +3 -0
checkpoint-1000/rng_state.pth +3 -0
checkpoint-1000/scheduler.pt +3 -0
checkpoint-1000/special_tokens_map.json +30 -0
checkpoint-1000/tokenizer.json +0 -0
checkpoint-1000/tokenizer_config.json +51 -0
checkpoint-1000/trainer_state.json +734 -0
checkpoint-1000/training_args.bin +3 -0
checkpoint-1125/.ipynb_checkpoints/generation_config-checkpoint.json +7 -0
checkpoint-1125/.ipynb_checkpoints/tokenizer-checkpoint.json +0 -0
checkpoint-1125/.ipynb_checkpoints/trainer_state-checkpoint.json +818 -0
checkpoint-1125/config.json +29 -0
checkpoint-1125/generation_config.json +7 -0
checkpoint-1125/model.safetensors +3 -0
checkpoint-1125/optimizer.pt +3 -0
checkpoint-1125/rng_state.pth +3 -0
checkpoint-1125/scheduler.pt +3 -0
checkpoint-1125/special_tokens_map.json +30 -0
checkpoint-1125/tokenizer.json +0 -0
checkpoint-1125/tokenizer_config.json +51 -0
checkpoint-1125/trainer_state.json +818 -0
checkpoint-1125/training_args.bin +3 -0
checkpoint-500/config.json +29 -0
checkpoint-500/generation_config.json +7 -0
checkpoint-500/model.safetensors +3 -0
checkpoint-500/optimizer.pt +3 -0
checkpoint-500/rng_state.pth +3 -0
checkpoint-500/scheduler.pt +3 -0
checkpoint-500/special_tokens_map.json +30 -0
checkpoint-500/tokenizer.json +0 -0
checkpoint-500/tokenizer_config.json +51 -0
checkpoint-500/trainer_state.json +384 -0
checkpoint-500/training_args.bin +3 -0
config.json +29 -0
eval_metrics.json +6 -0
generation_config.json +7 -0
inference_results.json +43 -0
model.safetensors +3 -0
special_tokens_map.json +30 -0
tokenizer.json +0 -0
tokenizer_config.json +51 -0
training_args.bin +3 -0

.ipynb_checkpoints/eval_metrics-checkpoint.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "eval_runtime": 54.5547,
+  "eval_samples_per_second": 18.33,
+  "eval_steps_per_second": 2.291,
+  "epoch": 1.0
+}

.ipynb_checkpoints/special_tokens_map-checkpoint.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

.ipynb_checkpoints/tokenizer-checkpoint.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-1000/config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "head_dim": 64,
+  "hidden_act": "silu",
+  "hidden_size": 2048,
+  "initializer_range": 0.02,
+  "intermediate_size": 5632,
+  "max_position_embeddings": 2048,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 22,
+  "num_key_value_heads": 4,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.52.4",
+  "use_cache": true,
+  "vocab_size": 32001
+}

checkpoint-1000/generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "max_length": 2048,
+  "pad_token_id": 0,
+  "transformers_version": "4.52.4"
+}

checkpoint-1000/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0aac3c6bc9755e318bb14063db8d7b06cb54c7e242945ae7d054fc134596514a
+size 2200128056

checkpoint-1000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:377a3b222f683f34e864837094a2e92d6b98c4a4b280ffc054da9551f5d553b2
+size 2626422906

checkpoint-1000/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9d9cd6a0487226e5bd30d1846894c82af483733ab4381b75bae9c0745e05d405
+size 14244

checkpoint-1000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ca8f54a5e5f4ad44505113217beae8d0cea6c78024de1e51bb2c964c933a0e8a
+size 1064

checkpoint-1000/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-1000/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-1000/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "add_prefix_space": null,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32000": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "extra_special_tokens": {},
+  "legacy": false,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "[PAD]",
+  "padding_side": "right",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false
+}

checkpoint-1000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,734 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.8888888888888888,
+  "eval_steps": 500,
+  "global_step": 1000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.008888888888888889,
+      "grad_norm": 329728.0,
+      "learning_rate": 1.592920353982301e-06,
+      "loss": 6840.2352,
+      "step": 10
+    },
+    {
+      "epoch": 0.017777777777777778,
+      "grad_norm": 110080.0,
+      "learning_rate": 3.36283185840708e-06,
+      "loss": 6186.3184,
+      "step": 20
+    },
+    {
+      "epoch": 0.02666666666666667,
+      "grad_norm": 67584.0,
+      "learning_rate": 5.132743362831859e-06,
+      "loss": 5175.825,
+      "step": 30
+    },
+    {
+      "epoch": 0.035555555555555556,
+      "grad_norm": 28800.0,
+      "learning_rate": 6.902654867256637e-06,
+      "loss": 4705.709,
+      "step": 40
+    },
+    {
+      "epoch": 0.044444444444444446,
+      "grad_norm": 31232.0,
+      "learning_rate": 8.672566371681418e-06,
+      "loss": 4302.4035,
+      "step": 50
+    },
+    {
+      "epoch": 0.05333333333333334,
+      "grad_norm": 31232.0,
+      "learning_rate": 1.0442477876106197e-05,
+      "loss": 4149.0633,
+      "step": 60
+    },
+    {
+      "epoch": 0.06222222222222222,
+      "grad_norm": 32000.0,
+      "learning_rate": 1.2212389380530973e-05,
+      "loss": 3953.5156,
+      "step": 70
+    },
+    {
+      "epoch": 0.07111111111111111,
+      "grad_norm": 18432.0,
+      "learning_rate": 1.3982300884955752e-05,
+      "loss": 3825.391,
+      "step": 80
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 27008.0,
+      "learning_rate": 1.5752212389380532e-05,
+      "loss": 3717.7289,
+      "step": 90
+    },
+    {
+      "epoch": 0.08888888888888889,
+      "grad_norm": 33536.0,
+      "learning_rate": 1.7522123893805313e-05,
+      "loss": 3600.6922,
+      "step": 100
+    },
+    {
+      "epoch": 0.09777777777777778,
+      "grad_norm": 41984.0,
+      "learning_rate": 1.929203539823009e-05,
+      "loss": 3577.2379,
+      "step": 110
+    },
+    {
+      "epoch": 0.10666666666666667,
+      "grad_norm": 22912.0,
+      "learning_rate": 1.999826540268562e-05,
+      "loss": 3496.2227,
+      "step": 120
+    },
+    {
+      "epoch": 0.11555555555555555,
+      "grad_norm": 14848.0,
+      "learning_rate": 1.998766726491935e-05,
+      "loss": 3380.4918,
+      "step": 130
+    },
+    {
+      "epoch": 0.12444444444444444,
+      "grad_norm": 20352.0,
+      "learning_rate": 1.9967444854710313e-05,
+      "loss": 3359.9414,
+      "step": 140
+    },
+    {
+      "epoch": 0.13333333333333333,
+      "grad_norm": 33024.0,
+      "learning_rate": 1.9937617658689385e-05,
+      "loss": 3332.8012,
+      "step": 150
+    },
+    {
+      "epoch": 0.14222222222222222,
+      "grad_norm": 16640.0,
+      "learning_rate": 1.989821441880933e-05,
+      "loss": 3265.1035,
+      "step": 160
+    },
+    {
+      "epoch": 0.1511111111111111,
+      "grad_norm": 19840.0,
+      "learning_rate": 1.9849273104648592e-05,
+      "loss": 3195.4633,
+      "step": 170
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 16896.0,
+      "learning_rate": 1.979084087682323e-05,
+      "loss": 3178.0693,
+      "step": 180
+    },
+    {
+      "epoch": 0.1688888888888889,
+      "grad_norm": 16064.0,
+      "learning_rate": 1.9722974041542205e-05,
+      "loss": 3216.1639,
+      "step": 190
+    },
+    {
+      "epoch": 0.17777777777777778,
+      "grad_norm": 26112.0,
+      "learning_rate": 1.9645737996349828e-05,
+      "loss": 3163.891,
+      "step": 200
+    },
+    {
+      "epoch": 0.18666666666666668,
+      "grad_norm": 23040.0,
+      "learning_rate": 1.9559207167107684e-05,
+      "loss": 3117.5008,
+      "step": 210
+    },
+    {
+      "epoch": 0.19555555555555557,
+      "grad_norm": 17664.0,
+      "learning_rate": 1.9463464936276676e-05,
+      "loss": 3096.1451,
+      "step": 220
+    },
+    {
+      "epoch": 0.20444444444444446,
+      "grad_norm": 16256.0,
+      "learning_rate": 1.9358603562568417e-05,
+      "loss": 3047.9447,
+      "step": 230
+    },
+    {
+      "epoch": 0.21333333333333335,
+      "grad_norm": 19584.0,
+      "learning_rate": 1.924472409204326e-05,
+      "loss": 3054.9166,
+      "step": 240
+    },
+    {
+      "epoch": 0.2222222222222222,
+      "grad_norm": 18432.0,
+      "learning_rate": 1.9121936260740752e-05,
+      "loss": 3090.7711,
+      "step": 250
+    },
+    {
+      "epoch": 0.2311111111111111,
+      "grad_norm": 13056.0,
+      "learning_rate": 1.899035838893627e-05,
+      "loss": 3075.3973,
+      "step": 260
+    },
+    {
+      "epoch": 0.24,
+      "grad_norm": 15744.0,
+      "learning_rate": 1.885011726712574e-05,
+      "loss": 2975.9182,
+      "step": 270
+    },
+    {
+      "epoch": 0.24888888888888888,
+      "grad_norm": 21632.0,
+      "learning_rate": 1.870134803384834e-05,
+      "loss": 3013.1484,
+      "step": 280
+    },
+    {
+      "epoch": 0.2577777777777778,
+      "grad_norm": 13888.0,
+      "learning_rate": 1.8544194045464888e-05,
+      "loss": 3003.3625,
+      "step": 290
+    },
+    {
+      "epoch": 0.26666666666666666,
+      "grad_norm": 14592.0,
+      "learning_rate": 1.837880673801741e-05,
+      "loss": 2980.8666,
+      "step": 300
+    },
+    {
+      "epoch": 0.27555555555555555,
+      "grad_norm": 19456.0,
+      "learning_rate": 1.8205345481303e-05,
+      "loss": 2986.1092,
+      "step": 310
+    },
+    {
+      "epoch": 0.28444444444444444,
+      "grad_norm": 22528.0,
+      "learning_rate": 1.802397742530259e-05,
+      "loss": 2940.208,
+      "step": 320
+    },
+    {
+      "epoch": 0.29333333333333333,
+      "grad_norm": 13376.0,
+      "learning_rate": 1.7834877339112613e-05,
+      "loss": 3002.926,
+      "step": 330
+    },
+    {
+      "epoch": 0.3022222222222222,
+      "grad_norm": 16192.0,
+      "learning_rate": 1.763822744253477e-05,
+      "loss": 3008.3018,
+      "step": 340
+    },
+    {
+      "epoch": 0.3111111111111111,
+      "grad_norm": 19840.0,
+      "learning_rate": 1.7434217230486162e-05,
+      "loss": 2978.5563,
+      "step": 350
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 19968.0,
+      "learning_rate": 1.7223043290399065e-05,
+      "loss": 2917.9051,
+      "step": 360
+    },
+    {
+      "epoch": 0.3288888888888889,
+      "grad_norm": 11968.0,
+      "learning_rate": 1.7004909112786142e-05,
+      "loss": 2916.0309,
+      "step": 370
+    },
+    {
+      "epoch": 0.3377777777777778,
+      "grad_norm": 13504.0,
+      "learning_rate": 1.6780024895153862e-05,
+      "loss": 2964.793,
+      "step": 380
+    },
+    {
+      "epoch": 0.3466666666666667,
+      "grad_norm": 32256.0,
+      "learning_rate": 1.6548607339452853e-05,
+      "loss": 2886.1475,
+      "step": 390
+    },
+    {
+      "epoch": 0.35555555555555557,
+      "grad_norm": 11648.0,
+      "learning_rate": 1.631087944326053e-05,
+      "loss": 2871.3844,
+      "step": 400
+    },
+    {
+      "epoch": 0.36444444444444446,
+      "grad_norm": 13504.0,
+      "learning_rate": 1.606707028489714e-05,
+      "loss": 2951.7568,
+      "step": 410
+    },
+    {
+      "epoch": 0.37333333333333335,
+      "grad_norm": 9344.0,
+      "learning_rate": 1.5817414802682292e-05,
+      "loss": 2948.7459,
+      "step": 420
+    },
+    {
+      "epoch": 0.38222222222222224,
+      "grad_norm": 14336.0,
+      "learning_rate": 1.5562153568544753e-05,
+      "loss": 2925.3027,
+      "step": 430
+    },
+    {
+      "epoch": 0.39111111111111113,
+      "grad_norm": 17280.0,
+      "learning_rate": 1.5301532556203524e-05,
+      "loss": 2861.5111,
+      "step": 440
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 15808.0,
+      "learning_rate": 1.503580290414376e-05,
+      "loss": 2862.7781,
+      "step": 450
+    },
+    {
+      "epoch": 0.4088888888888889,
+      "grad_norm": 10880.0,
+      "learning_rate": 1.4765220673615774e-05,
+      "loss": 2894.2242,
+      "step": 460
+    },
+    {
+      "epoch": 0.4177777777777778,
+      "grad_norm": 20224.0,
+      "learning_rate": 1.4490046601890405e-05,
+      "loss": 2876.3199,
+      "step": 470
+    },
+    {
+      "epoch": 0.4266666666666667,
+      "grad_norm": 12928.0,
+      "learning_rate": 1.4210545851008529e-05,
+      "loss": 2894.2551,
+      "step": 480
+    },
+    {
+      "epoch": 0.43555555555555553,
+      "grad_norm": 11776.0,
+      "learning_rate": 1.3926987752266733e-05,
+      "loss": 2852.1971,
+      "step": 490
+    },
+    {
+      "epoch": 0.4444444444444444,
+      "grad_norm": 17664.0,
+      "learning_rate": 1.36396455466855e-05,
+      "loss": 2854.5852,
+      "step": 500
+    },
+    {
+      "epoch": 0.4533333333333333,
+      "grad_norm": 16768.0,
+      "learning_rate": 1.3348796121709862e-05,
+      "loss": 2917.9811,
+      "step": 510
+    },
+    {
+      "epoch": 0.4622222222222222,
+      "grad_norm": 9728.0,
+      "learning_rate": 1.3054719744396333e-05,
+      "loss": 2848.7223,
+      "step": 520
+    },
+    {
+      "epoch": 0.4711111111111111,
+      "grad_norm": 14912.0,
+      "learning_rate": 1.2757699791343188e-05,
+      "loss": 2840.7688,
+      "step": 530
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 21120.0,
+      "learning_rate": 1.2458022475624343e-05,
+      "loss": 2890.6824,
+      "step": 540
+    },
+    {
+      "epoch": 0.4888888888888889,
+      "grad_norm": 12544.0,
+      "learning_rate": 1.2155976570989949e-05,
+      "loss": 2826.4334,
+      "step": 550
+    },
+    {
+      "epoch": 0.49777777777777776,
+      "grad_norm": 18560.0,
+      "learning_rate": 1.1851853133599507e-05,
+      "loss": 2879.9736,
+      "step": 560
+    },
+    {
+      "epoch": 0.5066666666666667,
+      "grad_norm": 12288.0,
+      "learning_rate": 1.1545945221555571e-05,
+      "loss": 2821.0361,
+      "step": 570
+    },
+    {
+      "epoch": 0.5155555555555555,
+      "grad_norm": 9536.0,
+      "learning_rate": 1.12385476125084e-05,
+      "loss": 2807.2881,
+      "step": 580
+    },
+    {
+      "epoch": 0.5244444444444445,
+      "grad_norm": 10048.0,
+      "learning_rate": 1.0929956519603595e-05,
+      "loss": 2811.4141,
+      "step": 590
+    },
+    {
+      "epoch": 0.5333333333333333,
+      "grad_norm": 15296.0,
+      "learning_rate": 1.0620469306046473e-05,
+      "loss": 2790.8965,
+      "step": 600
+    },
+    {
+      "epoch": 0.5422222222222223,
+      "grad_norm": 19584.0,
+      "learning_rate": 1.0310384198558226e-05,
+      "loss": 2852.466,
+      "step": 610
+    },
+    {
+      "epoch": 0.5511111111111111,
+      "grad_norm": 8160.0,
+      "learning_rate": 1e-05,
+      "loss": 2758.1283,
+      "step": 620
+    },
+    {
+      "epoch": 0.56,
+      "grad_norm": 11008.0,
+      "learning_rate": 9.689615801441776e-06,
+      "loss": 2822.6701,
+      "step": 630
+    },
+    {
+      "epoch": 0.5688888888888889,
+      "grad_norm": 14080.0,
+      "learning_rate": 9.37953069395353e-06,
+      "loss": 2809.1648,
+      "step": 640
+    },
+    {
+      "epoch": 0.5777777777777777,
+      "grad_norm": 15104.0,
+      "learning_rate": 9.070043480396404e-06,
+      "loss": 2821.9559,
+      "step": 650
+    },
+    {
+      "epoch": 0.5866666666666667,
+      "grad_norm": 19200.0,
+      "learning_rate": 8.761452387491601e-06,
+      "loss": 2818.5842,
+      "step": 660
+    },
+    {
+      "epoch": 0.5955555555555555,
+      "grad_norm": 15808.0,
+      "learning_rate": 8.45405477844443e-06,
+      "loss": 2798.8832,
+      "step": 670
+    },
+    {
+      "epoch": 0.6044444444444445,
+      "grad_norm": 11392.0,
+      "learning_rate": 8.148146866400498e-06,
+      "loss": 2779.3459,
+      "step": 680
+    },
+    {
+      "epoch": 0.6133333333333333,
+      "grad_norm": 17792.0,
+      "learning_rate": 7.844023429010051e-06,
+      "loss": 2801.9057,
+      "step": 690
+    },
+    {
+      "epoch": 0.6222222222222222,
+      "grad_norm": 19200.0,
+      "learning_rate": 7.541977524375661e-06,
+      "loss": 2828.118,
+      "step": 700
+    },
+    {
+      "epoch": 0.6311111111111111,
+      "grad_norm": 14016.0,
+      "learning_rate": 7.242300208656814e-06,
+      "loss": 2800.459,
+      "step": 710
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 15872.0,
+      "learning_rate": 6.9452802556036705e-06,
+      "loss": 2761.099,
+      "step": 720
+    },
+    {
+      "epoch": 0.6488888888888888,
+      "grad_norm": 16512.0,
+      "learning_rate": 6.651203878290139e-06,
+      "loss": 2769.051,
+      "step": 730
+    },
+    {
+      "epoch": 0.6577777777777778,
+      "grad_norm": 11264.0,
+      "learning_rate": 6.360354453314502e-06,
+      "loss": 2813.532,
+      "step": 740
+    },
+    {
+      "epoch": 0.6666666666666666,
+      "grad_norm": 12160.0,
+      "learning_rate": 6.073012247733267e-06,
+      "loss": 2761.1883,
+      "step": 750
+    },
+    {
+      "epoch": 0.6755555555555556,
+      "grad_norm": 11840.0,
+      "learning_rate": 5.789454148991477e-06,
+      "loss": 2775.6535,
+      "step": 760
+    },
+    {
+      "epoch": 0.6844444444444444,
+      "grad_norm": 14656.0,
+      "learning_rate": 5.5099533981095945e-06,
+      "loss": 2782.9367,
+      "step": 770
+    },
+    {
+      "epoch": 0.6933333333333334,
+      "grad_norm": 14144.0,
+      "learning_rate": 5.234779326384227e-06,
+      "loss": 2781.4521,
+      "step": 780
+    },
+    {
+      "epoch": 0.7022222222222222,
+      "grad_norm": 13760.0,
+      "learning_rate": 4.964197095856237e-06,
+      "loss": 2839.6955,
+      "step": 790
+    },
+    {
+      "epoch": 0.7111111111111111,
+      "grad_norm": 17024.0,
+      "learning_rate": 4.698467443796479e-06,
+      "loss": 2808.0578,
+      "step": 800
+    },
+    {
+      "epoch": 0.72,
+      "grad_norm": 15488.0,
+      "learning_rate": 4.437846431455249e-06,
+      "loss": 2783.9123,
+      "step": 810
+    },
+    {
+      "epoch": 0.7288888888888889,
+      "grad_norm": 10560.0,
+      "learning_rate": 4.182585197317709e-06,
+      "loss": 2823.9398,
+      "step": 820
+    },
+    {
+      "epoch": 0.7377777777777778,
+      "grad_norm": 11840.0,
+      "learning_rate": 3.932929715102863e-06,
+      "loss": 2776.0838,
+      "step": 830
+    },
+    {
+      "epoch": 0.7466666666666667,
+      "grad_norm": 15424.0,
+      "learning_rate": 3.689120556739475e-06,
+      "loss": 2765.9592,
+      "step": 840
+    },
+    {
+      "epoch": 0.7555555555555555,
+      "grad_norm": 17536.0,
+      "learning_rate": 3.4513926605471504e-06,
+      "loss": 2757.6773,
+      "step": 850
+    },
+    {
+      "epoch": 0.7644444444444445,
+      "grad_norm": 10560.0,
+      "learning_rate": 3.2199751048461414e-06,
+      "loss": 2745.9385,
+      "step": 860
+    },
+    {
+      "epoch": 0.7733333333333333,
+      "grad_norm": 7392.0,
+      "learning_rate": 2.9950908872138585e-06,
+      "loss": 2768.2516,
+      "step": 870
+    },
+    {
+      "epoch": 0.7822222222222223,
+      "grad_norm": 10880.0,
+      "learning_rate": 2.776956709600941e-06,
+      "loss": 2775.5641,
+      "step": 880
+    },
+    {
+      "epoch": 0.7911111111111111,
+      "grad_norm": 9792.0,
+      "learning_rate": 2.565782769513837e-06,
+      "loss": 2746.8189,
+      "step": 890
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 13120.0,
+      "learning_rate": 2.3617725574652352e-06,
+      "loss": 2855.6207,
+      "step": 900
+    },
+    {
+      "epoch": 0.8088888888888889,
+      "grad_norm": 8640.0,
+      "learning_rate": 2.1651226608873876e-06,
+      "loss": 2792.5463,
+      "step": 910
+    },
+    {
+      "epoch": 0.8177777777777778,
+      "grad_norm": 15808.0,
+      "learning_rate": 1.9760225746974136e-06,
+      "loss": 2792.7549,
+      "step": 920
+    },
+    {
+      "epoch": 0.8266666666666667,
+      "grad_norm": 12800.0,
+      "learning_rate": 1.7946545186970022e-06,
+      "loss": 2801.327,
+      "step": 930
+    },
+    {
+      "epoch": 0.8355555555555556,
+      "grad_norm": 11520.0,
+      "learning_rate": 1.6211932619825932e-06,
+      "loss": 2731.5381,
+      "step": 940
+    },
+    {
+      "epoch": 0.8444444444444444,
+      "grad_norm": 14144.0,
+      "learning_rate": 1.4558059545351144e-06,
+      "loss": 2826.2076,
+      "step": 950
+    },
+    {
+      "epoch": 0.8533333333333334,
+      "grad_norm": 13184.0,
+      "learning_rate": 1.298651966151665e-06,
+      "loss": 2842.1312,
+      "step": 960
+    },
+    {
+      "epoch": 0.8622222222222222,
+      "grad_norm": 8256.0,
+      "learning_rate": 1.1498827328742623e-06,
+      "loss": 2740.9932,
+      "step": 970
+    },
+    {
+      "epoch": 0.8711111111111111,
+      "grad_norm": 8640.0,
+      "learning_rate": 1.009641611063732e-06,
+      "loss": 2773.5756,
+      "step": 980
+    },
+    {
+      "epoch": 0.88,
+      "grad_norm": 10688.0,
+      "learning_rate": 8.780637392592494e-07,
+      "loss": 2739.3299,
+      "step": 990
+    },
+    {
+      "epoch": 0.8888888888888888,
+      "grad_norm": 9408.0,
+      "learning_rate": 7.552759079567418e-07,
+      "loss": 2791.6674,
+      "step": 1000
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 1125,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 5.0848453361664e+16,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-1000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b8e1bafbdfd4c195674c42da05ea52538467616210e2cea66a39948e8046595b
+size 5304

checkpoint-1125/.ipynb_checkpoints/generation_config-checkpoint.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "max_length": 2048,
+  "pad_token_id": 0,
+  "transformers_version": "4.52.4"
+}

checkpoint-1125/.ipynb_checkpoints/tokenizer-checkpoint.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-1125/.ipynb_checkpoints/trainer_state-checkpoint.json ADDED Viewed

	@@ -0,0 +1,818 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 500,
+  "global_step": 1125,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.008888888888888889,
+      "grad_norm": 329728.0,
+      "learning_rate": 1.592920353982301e-06,
+      "loss": 6840.2352,
+      "step": 10
+    },
+    {
+      "epoch": 0.017777777777777778,
+      "grad_norm": 110080.0,
+      "learning_rate": 3.36283185840708e-06,
+      "loss": 6186.3184,
+      "step": 20
+    },
+    {
+      "epoch": 0.02666666666666667,
+      "grad_norm": 67584.0,
+      "learning_rate": 5.132743362831859e-06,
+      "loss": 5175.825,
+      "step": 30
+    },
+    {
+      "epoch": 0.035555555555555556,
+      "grad_norm": 28800.0,
+      "learning_rate": 6.902654867256637e-06,
+      "loss": 4705.709,
+      "step": 40
+    },
+    {
+      "epoch": 0.044444444444444446,
+      "grad_norm": 31232.0,
+      "learning_rate": 8.672566371681418e-06,
+      "loss": 4302.4035,
+      "step": 50
+    },
+    {
+      "epoch": 0.05333333333333334,
+      "grad_norm": 31232.0,
+      "learning_rate": 1.0442477876106197e-05,
+      "loss": 4149.0633,
+      "step": 60
+    },
+    {
+      "epoch": 0.06222222222222222,
+      "grad_norm": 32000.0,
+      "learning_rate": 1.2212389380530973e-05,
+      "loss": 3953.5156,
+      "step": 70
+    },
+    {
+      "epoch": 0.07111111111111111,
+      "grad_norm": 18432.0,
+      "learning_rate": 1.3982300884955752e-05,
+      "loss": 3825.391,
+      "step": 80
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 27008.0,
+      "learning_rate": 1.5752212389380532e-05,
+      "loss": 3717.7289,
+      "step": 90
+    },
+    {
+      "epoch": 0.08888888888888889,
+      "grad_norm": 33536.0,
+      "learning_rate": 1.7522123893805313e-05,
+      "loss": 3600.6922,
+      "step": 100
+    },
+    {
+      "epoch": 0.09777777777777778,
+      "grad_norm": 41984.0,
+      "learning_rate": 1.929203539823009e-05,
+      "loss": 3577.2379,
+      "step": 110
+    },
+    {
+      "epoch": 0.10666666666666667,
+      "grad_norm": 22912.0,
+      "learning_rate": 1.999826540268562e-05,
+      "loss": 3496.2227,
+      "step": 120
+    },
+    {
+      "epoch": 0.11555555555555555,
+      "grad_norm": 14848.0,
+      "learning_rate": 1.998766726491935e-05,
+      "loss": 3380.4918,
+      "step": 130
+    },
+    {
+      "epoch": 0.12444444444444444,
+      "grad_norm": 20352.0,
+      "learning_rate": 1.9967444854710313e-05,
+      "loss": 3359.9414,
+      "step": 140
+    },
+    {
+      "epoch": 0.13333333333333333,
+      "grad_norm": 33024.0,
+      "learning_rate": 1.9937617658689385e-05,
+      "loss": 3332.8012,
+      "step": 150
+    },
+    {
+      "epoch": 0.14222222222222222,
+      "grad_norm": 16640.0,
+      "learning_rate": 1.989821441880933e-05,
+      "loss": 3265.1035,
+      "step": 160
+    },
+    {
+      "epoch": 0.1511111111111111,
+      "grad_norm": 19840.0,
+      "learning_rate": 1.9849273104648592e-05,
+      "loss": 3195.4633,
+      "step": 170
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 16896.0,
+      "learning_rate": 1.979084087682323e-05,
+      "loss": 3178.0693,
+      "step": 180
+    },
+    {
+      "epoch": 0.1688888888888889,
+      "grad_norm": 16064.0,
+      "learning_rate": 1.9722974041542205e-05,
+      "loss": 3216.1639,
+      "step": 190
+    },
+    {
+      "epoch": 0.17777777777777778,
+      "grad_norm": 26112.0,
+      "learning_rate": 1.9645737996349828e-05,
+      "loss": 3163.891,
+      "step": 200
+    },
+    {
+      "epoch": 0.18666666666666668,
+      "grad_norm": 23040.0,
+      "learning_rate": 1.9559207167107684e-05,
+      "loss": 3117.5008,
+      "step": 210
+    },
+    {
+      "epoch": 0.19555555555555557,
+      "grad_norm": 17664.0,
+      "learning_rate": 1.9463464936276676e-05,
+      "loss": 3096.1451,
+      "step": 220
+    },
+    {
+      "epoch": 0.20444444444444446,
+      "grad_norm": 16256.0,
+      "learning_rate": 1.9358603562568417e-05,
+      "loss": 3047.9447,
+      "step": 230
+    },
+    {
+      "epoch": 0.21333333333333335,
+      "grad_norm": 19584.0,
+      "learning_rate": 1.924472409204326e-05,
+      "loss": 3054.9166,
+      "step": 240
+    },
+    {
+      "epoch": 0.2222222222222222,
+      "grad_norm": 18432.0,
+      "learning_rate": 1.9121936260740752e-05,
+      "loss": 3090.7711,
+      "step": 250
+    },
+    {
+      "epoch": 0.2311111111111111,
+      "grad_norm": 13056.0,
+      "learning_rate": 1.899035838893627e-05,
+      "loss": 3075.3973,
+      "step": 260
+    },
+    {
+      "epoch": 0.24,
+      "grad_norm": 15744.0,
+      "learning_rate": 1.885011726712574e-05,
+      "loss": 2975.9182,
+      "step": 270
+    },
+    {
+      "epoch": 0.24888888888888888,
+      "grad_norm": 21632.0,
+      "learning_rate": 1.870134803384834e-05,
+      "loss": 3013.1484,
+      "step": 280
+    },
+    {
+      "epoch": 0.2577777777777778,
+      "grad_norm": 13888.0,
+      "learning_rate": 1.8544194045464888e-05,
+      "loss": 3003.3625,
+      "step": 290
+    },
+    {
+      "epoch": 0.26666666666666666,
+      "grad_norm": 14592.0,
+      "learning_rate": 1.837880673801741e-05,
+      "loss": 2980.8666,
+      "step": 300
+    },
+    {
+      "epoch": 0.27555555555555555,
+      "grad_norm": 19456.0,
+      "learning_rate": 1.8205345481303e-05,
+      "loss": 2986.1092,
+      "step": 310
+    },
+    {
+      "epoch": 0.28444444444444444,
+      "grad_norm": 22528.0,
+      "learning_rate": 1.802397742530259e-05,
+      "loss": 2940.208,
+      "step": 320
+    },
+    {
+      "epoch": 0.29333333333333333,
+      "grad_norm": 13376.0,
+      "learning_rate": 1.7834877339112613e-05,
+      "loss": 3002.926,
+      "step": 330
+    },
+    {
+      "epoch": 0.3022222222222222,
+      "grad_norm": 16192.0,
+      "learning_rate": 1.763822744253477e-05,
+      "loss": 3008.3018,
+      "step": 340
+    },
+    {
+      "epoch": 0.3111111111111111,
+      "grad_norm": 19840.0,
+      "learning_rate": 1.7434217230486162e-05,
+      "loss": 2978.5563,
+      "step": 350
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 19968.0,
+      "learning_rate": 1.7223043290399065e-05,
+      "loss": 2917.9051,
+      "step": 360
+    },
+    {
+      "epoch": 0.3288888888888889,
+      "grad_norm": 11968.0,
+      "learning_rate": 1.7004909112786142e-05,
+      "loss": 2916.0309,
+      "step": 370
+    },
+    {
+      "epoch": 0.3377777777777778,
+      "grad_norm": 13504.0,
+      "learning_rate": 1.6780024895153862e-05,
+      "loss": 2964.793,
+      "step": 380
+    },
+    {
+      "epoch": 0.3466666666666667,
+      "grad_norm": 32256.0,
+      "learning_rate": 1.6548607339452853e-05,
+      "loss": 2886.1475,
+      "step": 390
+    },
+    {
+      "epoch": 0.35555555555555557,
+      "grad_norm": 11648.0,
+      "learning_rate": 1.631087944326053e-05,
+      "loss": 2871.3844,
+      "step": 400
+    },
+    {
+      "epoch": 0.36444444444444446,
+      "grad_norm": 13504.0,
+      "learning_rate": 1.606707028489714e-05,
+      "loss": 2951.7568,
+      "step": 410
+    },
+    {
+      "epoch": 0.37333333333333335,
+      "grad_norm": 9344.0,
+      "learning_rate": 1.5817414802682292e-05,
+      "loss": 2948.7459,
+      "step": 420
+    },
+    {
+      "epoch": 0.38222222222222224,
+      "grad_norm": 14336.0,
+      "learning_rate": 1.5562153568544753e-05,
+      "loss": 2925.3027,
+      "step": 430
+    },
+    {
+      "epoch": 0.39111111111111113,
+      "grad_norm": 17280.0,
+      "learning_rate": 1.5301532556203524e-05,
+      "loss": 2861.5111,
+      "step": 440
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 15808.0,
+      "learning_rate": 1.503580290414376e-05,
+      "loss": 2862.7781,
+      "step": 450
+    },
+    {
+      "epoch": 0.4088888888888889,
+      "grad_norm": 10880.0,
+      "learning_rate": 1.4765220673615774e-05,
+      "loss": 2894.2242,
+      "step": 460
+    },
+    {
+      "epoch": 0.4177777777777778,
+      "grad_norm": 20224.0,
+      "learning_rate": 1.4490046601890405e-05,
+      "loss": 2876.3199,
+      "step": 470
+    },
+    {
+      "epoch": 0.4266666666666667,
+      "grad_norm": 12928.0,
+      "learning_rate": 1.4210545851008529e-05,
+      "loss": 2894.2551,
+      "step": 480
+    },
+    {
+      "epoch": 0.43555555555555553,
+      "grad_norm": 11776.0,
+      "learning_rate": 1.3926987752266733e-05,
+      "loss": 2852.1971,
+      "step": 490
+    },
+    {
+      "epoch": 0.4444444444444444,
+      "grad_norm": 17664.0,
+      "learning_rate": 1.36396455466855e-05,
+      "loss": 2854.5852,
+      "step": 500
+    },
+    {
+      "epoch": 0.4533333333333333,
+      "grad_norm": 16768.0,
+      "learning_rate": 1.3348796121709862e-05,
+      "loss": 2917.9811,
+      "step": 510
+    },
+    {
+      "epoch": 0.4622222222222222,
+      "grad_norm": 9728.0,
+      "learning_rate": 1.3054719744396333e-05,
+      "loss": 2848.7223,
+      "step": 520
+    },
+    {
+      "epoch": 0.4711111111111111,
+      "grad_norm": 14912.0,
+      "learning_rate": 1.2757699791343188e-05,
+      "loss": 2840.7688,
+      "step": 530
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 21120.0,
+      "learning_rate": 1.2458022475624343e-05,
+      "loss": 2890.6824,
+      "step": 540
+    },
+    {
+      "epoch": 0.4888888888888889,
+      "grad_norm": 12544.0,
+      "learning_rate": 1.2155976570989949e-05,
+      "loss": 2826.4334,
+      "step": 550
+    },
+    {
+      "epoch": 0.49777777777777776,
+      "grad_norm": 18560.0,
+      "learning_rate": 1.1851853133599507e-05,
+      "loss": 2879.9736,
+      "step": 560
+    },
+    {
+      "epoch": 0.5066666666666667,
+      "grad_norm": 12288.0,
+      "learning_rate": 1.1545945221555571e-05,
+      "loss": 2821.0361,
+      "step": 570
+    },
+    {
+      "epoch": 0.5155555555555555,
+      "grad_norm": 9536.0,
+      "learning_rate": 1.12385476125084e-05,
+      "loss": 2807.2881,
+      "step": 580
+    },
+    {
+      "epoch": 0.5244444444444445,
+      "grad_norm": 10048.0,
+      "learning_rate": 1.0929956519603595e-05,
+      "loss": 2811.4141,
+      "step": 590
+    },
+    {
+      "epoch": 0.5333333333333333,
+      "grad_norm": 15296.0,
+      "learning_rate": 1.0620469306046473e-05,
+      "loss": 2790.8965,
+      "step": 600
+    },
+    {
+      "epoch": 0.5422222222222223,
+      "grad_norm": 19584.0,
+      "learning_rate": 1.0310384198558226e-05,
+      "loss": 2852.466,
+      "step": 610
+    },
+    {
+      "epoch": 0.5511111111111111,
+      "grad_norm": 8160.0,
+      "learning_rate": 1e-05,
+      "loss": 2758.1283,
+      "step": 620
+    },
+    {
+      "epoch": 0.56,
+      "grad_norm": 11008.0,
+      "learning_rate": 9.689615801441776e-06,
+      "loss": 2822.6701,
+      "step": 630
+    },
+    {
+      "epoch": 0.5688888888888889,
+      "grad_norm": 14080.0,
+      "learning_rate": 9.37953069395353e-06,
+      "loss": 2809.1648,
+      "step": 640
+    },
+    {
+      "epoch": 0.5777777777777777,
+      "grad_norm": 15104.0,
+      "learning_rate": 9.070043480396404e-06,
+      "loss": 2821.9559,
+      "step": 650
+    },
+    {
+      "epoch": 0.5866666666666667,
+      "grad_norm": 19200.0,
+      "learning_rate": 8.761452387491601e-06,
+      "loss": 2818.5842,
+      "step": 660
+    },
+    {
+      "epoch": 0.5955555555555555,
+      "grad_norm": 15808.0,
+      "learning_rate": 8.45405477844443e-06,
+      "loss": 2798.8832,
+      "step": 670
+    },
+    {
+      "epoch": 0.6044444444444445,
+      "grad_norm": 11392.0,
+      "learning_rate": 8.148146866400498e-06,
+      "loss": 2779.3459,
+      "step": 680
+    },
+    {
+      "epoch": 0.6133333333333333,
+      "grad_norm": 17792.0,
+      "learning_rate": 7.844023429010051e-06,
+      "loss": 2801.9057,
+      "step": 690
+    },
+    {
+      "epoch": 0.6222222222222222,
+      "grad_norm": 19200.0,
+      "learning_rate": 7.541977524375661e-06,
+      "loss": 2828.118,
+      "step": 700
+    },
+    {
+      "epoch": 0.6311111111111111,
+      "grad_norm": 14016.0,
+      "learning_rate": 7.242300208656814e-06,
+      "loss": 2800.459,
+      "step": 710
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 15872.0,
+      "learning_rate": 6.9452802556036705e-06,
+      "loss": 2761.099,
+      "step": 720
+    },
+    {
+      "epoch": 0.6488888888888888,
+      "grad_norm": 16512.0,
+      "learning_rate": 6.651203878290139e-06,
+      "loss": 2769.051,
+      "step": 730
+    },
+    {
+      "epoch": 0.6577777777777778,
+      "grad_norm": 11264.0,
+      "learning_rate": 6.360354453314502e-06,
+      "loss": 2813.532,
+      "step": 740
+    },
+    {
+      "epoch": 0.6666666666666666,
+      "grad_norm": 12160.0,
+      "learning_rate": 6.073012247733267e-06,
+      "loss": 2761.1883,
+      "step": 750
+    },
+    {
+      "epoch": 0.6755555555555556,
+      "grad_norm": 11840.0,
+      "learning_rate": 5.789454148991477e-06,
+      "loss": 2775.6535,
+      "step": 760
+    },
+    {
+      "epoch": 0.6844444444444444,
+      "grad_norm": 14656.0,
+      "learning_rate": 5.5099533981095945e-06,
+      "loss": 2782.9367,
+      "step": 770
+    },
+    {
+      "epoch": 0.6933333333333334,
+      "grad_norm": 14144.0,
+      "learning_rate": 5.234779326384227e-06,
+      "loss": 2781.4521,
+      "step": 780
+    },
+    {
+      "epoch": 0.7022222222222222,
+      "grad_norm": 13760.0,
+      "learning_rate": 4.964197095856237e-06,
+      "loss": 2839.6955,
+      "step": 790
+    },
+    {
+      "epoch": 0.7111111111111111,
+      "grad_norm": 17024.0,
+      "learning_rate": 4.698467443796479e-06,
+      "loss": 2808.0578,
+      "step": 800
+    },
+    {
+      "epoch": 0.72,
+      "grad_norm": 15488.0,
+      "learning_rate": 4.437846431455249e-06,
+      "loss": 2783.9123,
+      "step": 810
+    },
+    {
+      "epoch": 0.7288888888888889,
+      "grad_norm": 10560.0,
+      "learning_rate": 4.182585197317709e-06,
+      "loss": 2823.9398,
+      "step": 820
+    },
+    {
+      "epoch": 0.7377777777777778,
+      "grad_norm": 11840.0,
+      "learning_rate": 3.932929715102863e-06,
+      "loss": 2776.0838,
+      "step": 830
+    },
+    {
+      "epoch": 0.7466666666666667,
+      "grad_norm": 15424.0,
+      "learning_rate": 3.689120556739475e-06,
+      "loss": 2765.9592,
+      "step": 840
+    },
+    {
+      "epoch": 0.7555555555555555,
+      "grad_norm": 17536.0,
+      "learning_rate": 3.4513926605471504e-06,
+      "loss": 2757.6773,
+      "step": 850
+    },
+    {
+      "epoch": 0.7644444444444445,
+      "grad_norm": 10560.0,
+      "learning_rate": 3.2199751048461414e-06,
+      "loss": 2745.9385,
+      "step": 860
+    },
+    {
+      "epoch": 0.7733333333333333,
+      "grad_norm": 7392.0,
+      "learning_rate": 2.9950908872138585e-06,
+      "loss": 2768.2516,
+      "step": 870
+    },
+    {
+      "epoch": 0.7822222222222223,
+      "grad_norm": 10880.0,
+      "learning_rate": 2.776956709600941e-06,
+      "loss": 2775.5641,
+      "step": 880
+    },
+    {
+      "epoch": 0.7911111111111111,
+      "grad_norm": 9792.0,
+      "learning_rate": 2.565782769513837e-06,
+      "loss": 2746.8189,
+      "step": 890
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 13120.0,
+      "learning_rate": 2.3617725574652352e-06,
+      "loss": 2855.6207,
+      "step": 900
+    },
+    {
+      "epoch": 0.8088888888888889,
+      "grad_norm": 8640.0,
+      "learning_rate": 2.1651226608873876e-06,
+      "loss": 2792.5463,
+      "step": 910
+    },
+    {
+      "epoch": 0.8177777777777778,
+      "grad_norm": 15808.0,
+      "learning_rate": 1.9760225746974136e-06,
+      "loss": 2792.7549,
+      "step": 920
+    },
+    {
+      "epoch": 0.8266666666666667,
+      "grad_norm": 12800.0,
+      "learning_rate": 1.7946545186970022e-06,
+      "loss": 2801.327,
+      "step": 930
+    },
+    {
+      "epoch": 0.8355555555555556,
+      "grad_norm": 11520.0,
+      "learning_rate": 1.6211932619825932e-06,
+      "loss": 2731.5381,
+      "step": 940
+    },
+    {
+      "epoch": 0.8444444444444444,
+      "grad_norm": 14144.0,
+      "learning_rate": 1.4558059545351144e-06,
+      "loss": 2826.2076,
+      "step": 950
+    },
+    {
+      "epoch": 0.8533333333333334,
+      "grad_norm": 13184.0,
+      "learning_rate": 1.298651966151665e-06,
+      "loss": 2842.1312,
+      "step": 960
+    },
+    {
+      "epoch": 0.8622222222222222,
+      "grad_norm": 8256.0,
+      "learning_rate": 1.1498827328742623e-06,
+      "loss": 2740.9932,
+      "step": 970
+    },
+    {
+      "epoch": 0.8711111111111111,
+      "grad_norm": 8640.0,
+      "learning_rate": 1.009641611063732e-06,
+      "loss": 2773.5756,
+      "step": 980
+    },
+    {
+      "epoch": 0.88,
+      "grad_norm": 10688.0,
+      "learning_rate": 8.780637392592494e-07,
+      "loss": 2739.3299,
+      "step": 990
+    },
+    {
+      "epoch": 0.8888888888888888,
+      "grad_norm": 9408.0,
+      "learning_rate": 7.552759079567418e-07,
+      "loss": 2791.6674,
+      "step": 1000
+    },
+    {
+      "epoch": 0.8977777777777778,
+      "grad_norm": 13376.0,
+      "learning_rate": 6.413964374315851e-07,
+      "loss": 2784.6709,
+      "step": 1010
+    },
+    {
+      "epoch": 0.9066666666666666,
+      "grad_norm": 11904.0,
+      "learning_rate": 5.365350637233236e-07,
+      "loss": 2741.3131,
+      "step": 1020
+    },
+    {
+      "epoch": 0.9155555555555556,
+      "grad_norm": 14784.0,
+      "learning_rate": 4.407928328923194e-07,
+      "loss": 2791.416,
+      "step": 1030
+    },
+    {
+      "epoch": 0.9244444444444444,
+      "grad_norm": 11072.0,
+      "learning_rate": 3.5426200365017207e-07,
+      "loss": 2769.5869,
+      "step": 1040
+    },
+    {
+      "epoch": 0.9333333333333333,
+      "grad_norm": 13120.0,
+      "learning_rate": 2.770259584577972e-07,
+      "loss": 2769.8787,
+      "step": 1050
+    },
+    {
+      "epoch": 0.9422222222222222,
+      "grad_norm": 7808.0,
+      "learning_rate": 2.091591231767709e-07,
+      "loss": 2795.082,
+      "step": 1060
+    },
+    {
+      "epoch": 0.9511111111111111,
+      "grad_norm": 8640.0,
+      "learning_rate": 1.5072689535141072e-07,
+      "loss": 2778.0055,
+      "step": 1070
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 12096.0,
+      "learning_rate": 1.0178558119067316e-07,
+      "loss": 2744.5266,
+      "step": 1080
+    },
+    {
+      "epoch": 0.9688888888888889,
+      "grad_norm": 11584.0,
+      "learning_rate": 6.238234131061616e-08,
+      "loss": 2765.4174,
+      "step": 1090
+    },
+    {
+      "epoch": 0.9777777777777777,
+      "grad_norm": 15488.0,
+      "learning_rate": 3.255514528968884e-08,
+      "loss": 2780.9643,
+      "step": 1100
+    },
+    {
+      "epoch": 0.9866666666666667,
+      "grad_norm": 9728.0,
+      "learning_rate": 1.2332735080651248e-08,
+      "loss": 2821.4281,
+      "step": 1110
+    },
+    {
+      "epoch": 0.9955555555555555,
+      "grad_norm": 25216.0,
+      "learning_rate": 1.7345973143789717e-09,
+      "loss": 2802.424,
+      "step": 1120
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 1125,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 5.7204510031872e+16,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-1125/config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "head_dim": 64,
+  "hidden_act": "silu",
+  "hidden_size": 2048,
+  "initializer_range": 0.02,
+  "intermediate_size": 5632,
+  "max_position_embeddings": 2048,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 22,
+  "num_key_value_heads": 4,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.52.4",
+  "use_cache": true,
+  "vocab_size": 32001
+}

checkpoint-1125/generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "max_length": 2048,
+  "pad_token_id": 0,
+  "transformers_version": "4.52.4"
+}

checkpoint-1125/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bab3f0cfb1cd7054a3230d497dbce246493f1b365a5e2c74a69eff3d3280204a
+size 2200128056

checkpoint-1125/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dff2f6400faed82835d899976dae38dd7650073fe3babf7a93bb08349279f764
+size 2626422906

checkpoint-1125/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9d9cd6a0487226e5bd30d1846894c82af483733ab4381b75bae9c0745e05d405
+size 14244

checkpoint-1125/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:adf13864cc86b23419d70837ee0cffc319c3afdca5e0912fb61af37d2b8f3989
+size 1064

checkpoint-1125/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-1125/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-1125/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "add_prefix_space": null,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32000": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "extra_special_tokens": {},
+  "legacy": false,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "[PAD]",
+  "padding_side": "right",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false
+}

checkpoint-1125/trainer_state.json ADDED Viewed

	@@ -0,0 +1,818 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 500,
+  "global_step": 1125,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.008888888888888889,
+      "grad_norm": 329728.0,
+      "learning_rate": 1.592920353982301e-06,
+      "loss": 6840.2352,
+      "step": 10
+    },
+    {
+      "epoch": 0.017777777777777778,
+      "grad_norm": 110080.0,
+      "learning_rate": 3.36283185840708e-06,
+      "loss": 6186.3184,
+      "step": 20
+    },
+    {
+      "epoch": 0.02666666666666667,
+      "grad_norm": 67584.0,
+      "learning_rate": 5.132743362831859e-06,
+      "loss": 5175.825,
+      "step": 30
+    },
+    {
+      "epoch": 0.035555555555555556,
+      "grad_norm": 28800.0,
+      "learning_rate": 6.902654867256637e-06,
+      "loss": 4705.709,
+      "step": 40
+    },
+    {
+      "epoch": 0.044444444444444446,
+      "grad_norm": 31232.0,
+      "learning_rate": 8.672566371681418e-06,
+      "loss": 4302.4035,
+      "step": 50
+    },
+    {
+      "epoch": 0.05333333333333334,
+      "grad_norm": 31232.0,
+      "learning_rate": 1.0442477876106197e-05,
+      "loss": 4149.0633,
+      "step": 60
+    },
+    {
+      "epoch": 0.06222222222222222,
+      "grad_norm": 32000.0,
+      "learning_rate": 1.2212389380530973e-05,
+      "loss": 3953.5156,
+      "step": 70
+    },
+    {
+      "epoch": 0.07111111111111111,
+      "grad_norm": 18432.0,
+      "learning_rate": 1.3982300884955752e-05,
+      "loss": 3825.391,
+      "step": 80
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 27008.0,
+      "learning_rate": 1.5752212389380532e-05,
+      "loss": 3717.7289,
+      "step": 90
+    },
+    {
+      "epoch": 0.08888888888888889,
+      "grad_norm": 33536.0,
+      "learning_rate": 1.7522123893805313e-05,
+      "loss": 3600.6922,
+      "step": 100
+    },
+    {
+      "epoch": 0.09777777777777778,
+      "grad_norm": 41984.0,
+      "learning_rate": 1.929203539823009e-05,
+      "loss": 3577.2379,
+      "step": 110
+    },
+    {
+      "epoch": 0.10666666666666667,
+      "grad_norm": 22912.0,
+      "learning_rate": 1.999826540268562e-05,
+      "loss": 3496.2227,
+      "step": 120
+    },
+    {
+      "epoch": 0.11555555555555555,
+      "grad_norm": 14848.0,
+      "learning_rate": 1.998766726491935e-05,
+      "loss": 3380.4918,
+      "step": 130
+    },
+    {
+      "epoch": 0.12444444444444444,
+      "grad_norm": 20352.0,
+      "learning_rate": 1.9967444854710313e-05,
+      "loss": 3359.9414,
+      "step": 140
+    },
+    {
+      "epoch": 0.13333333333333333,
+      "grad_norm": 33024.0,
+      "learning_rate": 1.9937617658689385e-05,
+      "loss": 3332.8012,
+      "step": 150
+    },
+    {
+      "epoch": 0.14222222222222222,
+      "grad_norm": 16640.0,
+      "learning_rate": 1.989821441880933e-05,
+      "loss": 3265.1035,
+      "step": 160
+    },
+    {
+      "epoch": 0.1511111111111111,
+      "grad_norm": 19840.0,
+      "learning_rate": 1.9849273104648592e-05,
+      "loss": 3195.4633,
+      "step": 170
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 16896.0,
+      "learning_rate": 1.979084087682323e-05,
+      "loss": 3178.0693,
+      "step": 180
+    },
+    {
+      "epoch": 0.1688888888888889,
+      "grad_norm": 16064.0,
+      "learning_rate": 1.9722974041542205e-05,
+      "loss": 3216.1639,
+      "step": 190
+    },
+    {
+      "epoch": 0.17777777777777778,
+      "grad_norm": 26112.0,
+      "learning_rate": 1.9645737996349828e-05,
+      "loss": 3163.891,
+      "step": 200
+    },
+    {
+      "epoch": 0.18666666666666668,
+      "grad_norm": 23040.0,
+      "learning_rate": 1.9559207167107684e-05,
+      "loss": 3117.5008,
+      "step": 210
+    },
+    {
+      "epoch": 0.19555555555555557,
+      "grad_norm": 17664.0,
+      "learning_rate": 1.9463464936276676e-05,
+      "loss": 3096.1451,
+      "step": 220
+    },
+    {
+      "epoch": 0.20444444444444446,
+      "grad_norm": 16256.0,
+      "learning_rate": 1.9358603562568417e-05,
+      "loss": 3047.9447,
+      "step": 230
+    },
+    {
+      "epoch": 0.21333333333333335,
+      "grad_norm": 19584.0,
+      "learning_rate": 1.924472409204326e-05,
+      "loss": 3054.9166,
+      "step": 240
+    },
+    {
+      "epoch": 0.2222222222222222,
+      "grad_norm": 18432.0,
+      "learning_rate": 1.9121936260740752e-05,
+      "loss": 3090.7711,
+      "step": 250
+    },
+    {
+      "epoch": 0.2311111111111111,
+      "grad_norm": 13056.0,
+      "learning_rate": 1.899035838893627e-05,
+      "loss": 3075.3973,
+      "step": 260
+    },
+    {
+      "epoch": 0.24,
+      "grad_norm": 15744.0,
+      "learning_rate": 1.885011726712574e-05,
+      "loss": 2975.9182,
+      "step": 270
+    },
+    {
+      "epoch": 0.24888888888888888,
+      "grad_norm": 21632.0,
+      "learning_rate": 1.870134803384834e-05,
+      "loss": 3013.1484,
+      "step": 280
+    },
+    {
+      "epoch": 0.2577777777777778,
+      "grad_norm": 13888.0,
+      "learning_rate": 1.8544194045464888e-05,
+      "loss": 3003.3625,
+      "step": 290
+    },
+    {
+      "epoch": 0.26666666666666666,
+      "grad_norm": 14592.0,
+      "learning_rate": 1.837880673801741e-05,
+      "loss": 2980.8666,
+      "step": 300
+    },
+    {
+      "epoch": 0.27555555555555555,
+      "grad_norm": 19456.0,
+      "learning_rate": 1.8205345481303e-05,
+      "loss": 2986.1092,
+      "step": 310
+    },
+    {
+      "epoch": 0.28444444444444444,
+      "grad_norm": 22528.0,
+      "learning_rate": 1.802397742530259e-05,
+      "loss": 2940.208,
+      "step": 320
+    },
+    {
+      "epoch": 0.29333333333333333,
+      "grad_norm": 13376.0,
+      "learning_rate": 1.7834877339112613e-05,
+      "loss": 3002.926,
+      "step": 330
+    },
+    {
+      "epoch": 0.3022222222222222,
+      "grad_norm": 16192.0,
+      "learning_rate": 1.763822744253477e-05,
+      "loss": 3008.3018,
+      "step": 340
+    },
+    {
+      "epoch": 0.3111111111111111,
+      "grad_norm": 19840.0,
+      "learning_rate": 1.7434217230486162e-05,
+      "loss": 2978.5563,
+      "step": 350
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 19968.0,
+      "learning_rate": 1.7223043290399065e-05,
+      "loss": 2917.9051,
+      "step": 360
+    },
+    {
+      "epoch": 0.3288888888888889,
+      "grad_norm": 11968.0,
+      "learning_rate": 1.7004909112786142e-05,
+      "loss": 2916.0309,
+      "step": 370
+    },
+    {
+      "epoch": 0.3377777777777778,
+      "grad_norm": 13504.0,
+      "learning_rate": 1.6780024895153862e-05,
+      "loss": 2964.793,
+      "step": 380
+    },
+    {
+      "epoch": 0.3466666666666667,
+      "grad_norm": 32256.0,
+      "learning_rate": 1.6548607339452853e-05,
+      "loss": 2886.1475,
+      "step": 390
+    },
+    {
+      "epoch": 0.35555555555555557,
+      "grad_norm": 11648.0,
+      "learning_rate": 1.631087944326053e-05,
+      "loss": 2871.3844,
+      "step": 400
+    },
+    {
+      "epoch": 0.36444444444444446,
+      "grad_norm": 13504.0,
+      "learning_rate": 1.606707028489714e-05,
+      "loss": 2951.7568,
+      "step": 410
+    },
+    {
+      "epoch": 0.37333333333333335,
+      "grad_norm": 9344.0,
+      "learning_rate": 1.5817414802682292e-05,
+      "loss": 2948.7459,
+      "step": 420
+    },
+    {
+      "epoch": 0.38222222222222224,
+      "grad_norm": 14336.0,
+      "learning_rate": 1.5562153568544753e-05,
+      "loss": 2925.3027,
+      "step": 430
+    },
+    {
+      "epoch": 0.39111111111111113,
+      "grad_norm": 17280.0,
+      "learning_rate": 1.5301532556203524e-05,
+      "loss": 2861.5111,
+      "step": 440
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 15808.0,
+      "learning_rate": 1.503580290414376e-05,
+      "loss": 2862.7781,
+      "step": 450
+    },
+    {
+      "epoch": 0.4088888888888889,
+      "grad_norm": 10880.0,
+      "learning_rate": 1.4765220673615774e-05,
+      "loss": 2894.2242,
+      "step": 460
+    },
+    {
+      "epoch": 0.4177777777777778,
+      "grad_norm": 20224.0,
+      "learning_rate": 1.4490046601890405e-05,
+      "loss": 2876.3199,
+      "step": 470
+    },
+    {
+      "epoch": 0.4266666666666667,
+      "grad_norm": 12928.0,
+      "learning_rate": 1.4210545851008529e-05,
+      "loss": 2894.2551,
+      "step": 480
+    },
+    {
+      "epoch": 0.43555555555555553,
+      "grad_norm": 11776.0,
+      "learning_rate": 1.3926987752266733e-05,
+      "loss": 2852.1971,
+      "step": 490
+    },
+    {
+      "epoch": 0.4444444444444444,
+      "grad_norm": 17664.0,
+      "learning_rate": 1.36396455466855e-05,
+      "loss": 2854.5852,
+      "step": 500
+    },
+    {
+      "epoch": 0.4533333333333333,
+      "grad_norm": 16768.0,
+      "learning_rate": 1.3348796121709862e-05,
+      "loss": 2917.9811,
+      "step": 510
+    },
+    {
+      "epoch": 0.4622222222222222,
+      "grad_norm": 9728.0,
+      "learning_rate": 1.3054719744396333e-05,
+      "loss": 2848.7223,
+      "step": 520
+    },
+    {
+      "epoch": 0.4711111111111111,
+      "grad_norm": 14912.0,
+      "learning_rate": 1.2757699791343188e-05,
+      "loss": 2840.7688,
+      "step": 530
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 21120.0,
+      "learning_rate": 1.2458022475624343e-05,
+      "loss": 2890.6824,
+      "step": 540
+    },
+    {
+      "epoch": 0.4888888888888889,
+      "grad_norm": 12544.0,
+      "learning_rate": 1.2155976570989949e-05,
+      "loss": 2826.4334,
+      "step": 550
+    },
+    {
+      "epoch": 0.49777777777777776,
+      "grad_norm": 18560.0,
+      "learning_rate": 1.1851853133599507e-05,
+      "loss": 2879.9736,
+      "step": 560
+    },
+    {
+      "epoch": 0.5066666666666667,
+      "grad_norm": 12288.0,
+      "learning_rate": 1.1545945221555571e-05,
+      "loss": 2821.0361,
+      "step": 570
+    },
+    {
+      "epoch": 0.5155555555555555,
+      "grad_norm": 9536.0,
+      "learning_rate": 1.12385476125084e-05,
+      "loss": 2807.2881,
+      "step": 580
+    },
+    {
+      "epoch": 0.5244444444444445,
+      "grad_norm": 10048.0,
+      "learning_rate": 1.0929956519603595e-05,
+      "loss": 2811.4141,
+      "step": 590
+    },
+    {
+      "epoch": 0.5333333333333333,
+      "grad_norm": 15296.0,
+      "learning_rate": 1.0620469306046473e-05,
+      "loss": 2790.8965,
+      "step": 600
+    },
+    {
+      "epoch": 0.5422222222222223,
+      "grad_norm": 19584.0,
+      "learning_rate": 1.0310384198558226e-05,
+      "loss": 2852.466,
+      "step": 610
+    },
+    {
+      "epoch": 0.5511111111111111,
+      "grad_norm": 8160.0,
+      "learning_rate": 1e-05,
+      "loss": 2758.1283,
+      "step": 620
+    },
+    {
+      "epoch": 0.56,
+      "grad_norm": 11008.0,
+      "learning_rate": 9.689615801441776e-06,
+      "loss": 2822.6701,
+      "step": 630
+    },
+    {
+      "epoch": 0.5688888888888889,
+      "grad_norm": 14080.0,
+      "learning_rate": 9.37953069395353e-06,
+      "loss": 2809.1648,
+      "step": 640
+    },
+    {
+      "epoch": 0.5777777777777777,
+      "grad_norm": 15104.0,
+      "learning_rate": 9.070043480396404e-06,
+      "loss": 2821.9559,
+      "step": 650
+    },
+    {
+      "epoch": 0.5866666666666667,
+      "grad_norm": 19200.0,
+      "learning_rate": 8.761452387491601e-06,
+      "loss": 2818.5842,
+      "step": 660
+    },
+    {
+      "epoch": 0.5955555555555555,
+      "grad_norm": 15808.0,
+      "learning_rate": 8.45405477844443e-06,
+      "loss": 2798.8832,
+      "step": 670
+    },
+    {
+      "epoch": 0.6044444444444445,
+      "grad_norm": 11392.0,
+      "learning_rate": 8.148146866400498e-06,
+      "loss": 2779.3459,
+      "step": 680
+    },
+    {
+      "epoch": 0.6133333333333333,
+      "grad_norm": 17792.0,
+      "learning_rate": 7.844023429010051e-06,
+      "loss": 2801.9057,
+      "step": 690
+    },
+    {
+      "epoch": 0.6222222222222222,
+      "grad_norm": 19200.0,
+      "learning_rate": 7.541977524375661e-06,
+      "loss": 2828.118,
+      "step": 700
+    },
+    {
+      "epoch": 0.6311111111111111,
+      "grad_norm": 14016.0,
+      "learning_rate": 7.242300208656814e-06,
+      "loss": 2800.459,
+      "step": 710
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 15872.0,
+      "learning_rate": 6.9452802556036705e-06,
+      "loss": 2761.099,
+      "step": 720
+    },
+    {
+      "epoch": 0.6488888888888888,
+      "grad_norm": 16512.0,
+      "learning_rate": 6.651203878290139e-06,
+      "loss": 2769.051,
+      "step": 730
+    },
+    {
+      "epoch": 0.6577777777777778,
+      "grad_norm": 11264.0,
+      "learning_rate": 6.360354453314502e-06,
+      "loss": 2813.532,
+      "step": 740
+    },
+    {
+      "epoch": 0.6666666666666666,
+      "grad_norm": 12160.0,
+      "learning_rate": 6.073012247733267e-06,
+      "loss": 2761.1883,
+      "step": 750
+    },
+    {
+      "epoch": 0.6755555555555556,
+      "grad_norm": 11840.0,
+      "learning_rate": 5.789454148991477e-06,
+      "loss": 2775.6535,
+      "step": 760
+    },
+    {
+      "epoch": 0.6844444444444444,
+      "grad_norm": 14656.0,
+      "learning_rate": 5.5099533981095945e-06,
+      "loss": 2782.9367,
+      "step": 770
+    },
+    {
+      "epoch": 0.6933333333333334,
+      "grad_norm": 14144.0,
+      "learning_rate": 5.234779326384227e-06,
+      "loss": 2781.4521,
+      "step": 780
+    },
+    {
+      "epoch": 0.7022222222222222,
+      "grad_norm": 13760.0,
+      "learning_rate": 4.964197095856237e-06,
+      "loss": 2839.6955,
+      "step": 790
+    },
+    {
+      "epoch": 0.7111111111111111,
+      "grad_norm": 17024.0,
+      "learning_rate": 4.698467443796479e-06,
+      "loss": 2808.0578,
+      "step": 800
+    },
+    {
+      "epoch": 0.72,
+      "grad_norm": 15488.0,
+      "learning_rate": 4.437846431455249e-06,
+      "loss": 2783.9123,
+      "step": 810
+    },
+    {
+      "epoch": 0.7288888888888889,
+      "grad_norm": 10560.0,
+      "learning_rate": 4.182585197317709e-06,
+      "loss": 2823.9398,
+      "step": 820
+    },
+    {
+      "epoch": 0.7377777777777778,
+      "grad_norm": 11840.0,
+      "learning_rate": 3.932929715102863e-06,
+      "loss": 2776.0838,
+      "step": 830
+    },
+    {
+      "epoch": 0.7466666666666667,
+      "grad_norm": 15424.0,
+      "learning_rate": 3.689120556739475e-06,
+      "loss": 2765.9592,
+      "step": 840
+    },
+    {
+      "epoch": 0.7555555555555555,
+      "grad_norm": 17536.0,
+      "learning_rate": 3.4513926605471504e-06,
+      "loss": 2757.6773,
+      "step": 850
+    },
+    {
+      "epoch": 0.7644444444444445,
+      "grad_norm": 10560.0,
+      "learning_rate": 3.2199751048461414e-06,
+      "loss": 2745.9385,
+      "step": 860
+    },
+    {
+      "epoch": 0.7733333333333333,
+      "grad_norm": 7392.0,
+      "learning_rate": 2.9950908872138585e-06,
+      "loss": 2768.2516,
+      "step": 870
+    },
+    {
+      "epoch": 0.7822222222222223,
+      "grad_norm": 10880.0,
+      "learning_rate": 2.776956709600941e-06,
+      "loss": 2775.5641,
+      "step": 880
+    },
+    {
+      "epoch": 0.7911111111111111,
+      "grad_norm": 9792.0,
+      "learning_rate": 2.565782769513837e-06,
+      "loss": 2746.8189,
+      "step": 890
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 13120.0,
+      "learning_rate": 2.3617725574652352e-06,
+      "loss": 2855.6207,
+      "step": 900
+    },
+    {
+      "epoch": 0.8088888888888889,
+      "grad_norm": 8640.0,
+      "learning_rate": 2.1651226608873876e-06,
+      "loss": 2792.5463,
+      "step": 910
+    },
+    {
+      "epoch": 0.8177777777777778,
+      "grad_norm": 15808.0,
+      "learning_rate": 1.9760225746974136e-06,
+      "loss": 2792.7549,
+      "step": 920
+    },
+    {
+      "epoch": 0.8266666666666667,
+      "grad_norm": 12800.0,
+      "learning_rate": 1.7946545186970022e-06,
+      "loss": 2801.327,
+      "step": 930
+    },
+    {
+      "epoch": 0.8355555555555556,
+      "grad_norm": 11520.0,
+      "learning_rate": 1.6211932619825932e-06,
+      "loss": 2731.5381,
+      "step": 940
+    },
+    {
+      "epoch": 0.8444444444444444,
+      "grad_norm": 14144.0,
+      "learning_rate": 1.4558059545351144e-06,
+      "loss": 2826.2076,
+      "step": 950
+    },
+    {
+      "epoch": 0.8533333333333334,
+      "grad_norm": 13184.0,
+      "learning_rate": 1.298651966151665e-06,
+      "loss": 2842.1312,
+      "step": 960
+    },
+    {
+      "epoch": 0.8622222222222222,
+      "grad_norm": 8256.0,
+      "learning_rate": 1.1498827328742623e-06,
+      "loss": 2740.9932,
+      "step": 970
+    },
+    {
+      "epoch": 0.8711111111111111,
+      "grad_norm": 8640.0,
+      "learning_rate": 1.009641611063732e-06,
+      "loss": 2773.5756,
+      "step": 980
+    },
+    {
+      "epoch": 0.88,
+      "grad_norm": 10688.0,
+      "learning_rate": 8.780637392592494e-07,
+      "loss": 2739.3299,
+      "step": 990
+    },
+    {
+      "epoch": 0.8888888888888888,
+      "grad_norm": 9408.0,
+      "learning_rate": 7.552759079567418e-07,
+      "loss": 2791.6674,
+      "step": 1000
+    },
+    {
+      "epoch": 0.8977777777777778,
+      "grad_norm": 13376.0,
+      "learning_rate": 6.413964374315851e-07,
+      "loss": 2784.6709,
+      "step": 1010
+    },
+    {
+      "epoch": 0.9066666666666666,
+      "grad_norm": 11904.0,
+      "learning_rate": 5.365350637233236e-07,
+      "loss": 2741.3131,
+      "step": 1020
+    },
+    {
+      "epoch": 0.9155555555555556,
+      "grad_norm": 14784.0,
+      "learning_rate": 4.407928328923194e-07,
+      "loss": 2791.416,
+      "step": 1030
+    },
+    {
+      "epoch": 0.9244444444444444,
+      "grad_norm": 11072.0,
+      "learning_rate": 3.5426200365017207e-07,
+      "loss": 2769.5869,
+      "step": 1040
+    },
+    {
+      "epoch": 0.9333333333333333,
+      "grad_norm": 13120.0,
+      "learning_rate": 2.770259584577972e-07,
+      "loss": 2769.8787,
+      "step": 1050
+    },
+    {
+      "epoch": 0.9422222222222222,
+      "grad_norm": 7808.0,
+      "learning_rate": 2.091591231767709e-07,
+      "loss": 2795.082,
+      "step": 1060
+    },
+    {
+      "epoch": 0.9511111111111111,
+      "grad_norm": 8640.0,
+      "learning_rate": 1.5072689535141072e-07,
+      "loss": 2778.0055,
+      "step": 1070
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 12096.0,
+      "learning_rate": 1.0178558119067316e-07,
+      "loss": 2744.5266,
+      "step": 1080
+    },
+    {
+      "epoch": 0.9688888888888889,
+      "grad_norm": 11584.0,
+      "learning_rate": 6.238234131061616e-08,
+      "loss": 2765.4174,
+      "step": 1090
+    },
+    {
+      "epoch": 0.9777777777777777,
+      "grad_norm": 15488.0,
+      "learning_rate": 3.255514528968884e-08,
+      "loss": 2780.9643,
+      "step": 1100
+    },
+    {
+      "epoch": 0.9866666666666667,
+      "grad_norm": 9728.0,
+      "learning_rate": 1.2332735080651248e-08,
+      "loss": 2821.4281,
+      "step": 1110
+    },
+    {
+      "epoch": 0.9955555555555555,
+      "grad_norm": 25216.0,
+      "learning_rate": 1.7345973143789717e-09,
+      "loss": 2802.424,
+      "step": 1120
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 1125,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 5.7204510031872e+16,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-1125/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b8e1bafbdfd4c195674c42da05ea52538467616210e2cea66a39948e8046595b
+size 5304

checkpoint-500/config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "head_dim": 64,
+  "hidden_act": "silu",
+  "hidden_size": 2048,
+  "initializer_range": 0.02,
+  "intermediate_size": 5632,
+  "max_position_embeddings": 2048,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 22,
+  "num_key_value_heads": 4,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.52.4",
+  "use_cache": true,
+  "vocab_size": 32001
+}

checkpoint-500/generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "max_length": 2048,
+  "pad_token_id": 0,
+  "transformers_version": "4.52.4"
+}

checkpoint-500/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a57285736d21c09bcf334478a4f097ba5e589fbb1db61c12ff966c86538f9f54
+size 2200128056

checkpoint-500/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c1a01f4c5ee80a41e6b111eba81859b076fa46b40236cad27c08f6124f6cc212
+size 2626422906

checkpoint-500/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9d9cd6a0487226e5bd30d1846894c82af483733ab4381b75bae9c0745e05d405
+size 14244

checkpoint-500/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:043c2dc0da93e29e74dac72d09bd2d2f06d105e3faf0b59aae639601ab53e400
+size 1064

checkpoint-500/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-500/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-500/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "add_prefix_space": null,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32000": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "extra_special_tokens": {},
+  "legacy": false,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "[PAD]",
+  "padding_side": "right",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false
+}

checkpoint-500/trainer_state.json ADDED Viewed

	@@ -0,0 +1,384 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.4444444444444444,
+  "eval_steps": 500,
+  "global_step": 500,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.008888888888888889,
+      "grad_norm": 329728.0,
+      "learning_rate": 1.592920353982301e-06,
+      "loss": 6840.2352,
+      "step": 10
+    },
+    {
+      "epoch": 0.017777777777777778,
+      "grad_norm": 110080.0,
+      "learning_rate": 3.36283185840708e-06,
+      "loss": 6186.3184,
+      "step": 20
+    },
+    {
+      "epoch": 0.02666666666666667,
+      "grad_norm": 67584.0,
+      "learning_rate": 5.132743362831859e-06,
+      "loss": 5175.825,
+      "step": 30
+    },
+    {
+      "epoch": 0.035555555555555556,
+      "grad_norm": 28800.0,
+      "learning_rate": 6.902654867256637e-06,
+      "loss": 4705.709,
+      "step": 40
+    },
+    {
+      "epoch": 0.044444444444444446,
+      "grad_norm": 31232.0,
+      "learning_rate": 8.672566371681418e-06,
+      "loss": 4302.4035,
+      "step": 50
+    },
+    {
+      "epoch": 0.05333333333333334,
+      "grad_norm": 31232.0,
+      "learning_rate": 1.0442477876106197e-05,
+      "loss": 4149.0633,
+      "step": 60
+    },
+    {
+      "epoch": 0.06222222222222222,
+      "grad_norm": 32000.0,
+      "learning_rate": 1.2212389380530973e-05,
+      "loss": 3953.5156,
+      "step": 70
+    },
+    {
+      "epoch": 0.07111111111111111,
+      "grad_norm": 18432.0,
+      "learning_rate": 1.3982300884955752e-05,
+      "loss": 3825.391,
+      "step": 80
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 27008.0,
+      "learning_rate": 1.5752212389380532e-05,
+      "loss": 3717.7289,
+      "step": 90
+    },
+    {
+      "epoch": 0.08888888888888889,
+      "grad_norm": 33536.0,
+      "learning_rate": 1.7522123893805313e-05,
+      "loss": 3600.6922,
+      "step": 100
+    },
+    {
+      "epoch": 0.09777777777777778,
+      "grad_norm": 41984.0,
+      "learning_rate": 1.929203539823009e-05,
+      "loss": 3577.2379,
+      "step": 110
+    },
+    {
+      "epoch": 0.10666666666666667,
+      "grad_norm": 22912.0,
+      "learning_rate": 1.999826540268562e-05,
+      "loss": 3496.2227,
+      "step": 120
+    },
+    {
+      "epoch": 0.11555555555555555,
+      "grad_norm": 14848.0,
+      "learning_rate": 1.998766726491935e-05,
+      "loss": 3380.4918,
+      "step": 130
+    },
+    {
+      "epoch": 0.12444444444444444,
+      "grad_norm": 20352.0,
+      "learning_rate": 1.9967444854710313e-05,
+      "loss": 3359.9414,
+      "step": 140
+    },
+    {
+      "epoch": 0.13333333333333333,
+      "grad_norm": 33024.0,
+      "learning_rate": 1.9937617658689385e-05,
+      "loss": 3332.8012,
+      "step": 150
+    },
+    {
+      "epoch": 0.14222222222222222,
+      "grad_norm": 16640.0,
+      "learning_rate": 1.989821441880933e-05,
+      "loss": 3265.1035,
+      "step": 160
+    },
+    {
+      "epoch": 0.1511111111111111,
+      "grad_norm": 19840.0,
+      "learning_rate": 1.9849273104648592e-05,
+      "loss": 3195.4633,
+      "step": 170
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 16896.0,
+      "learning_rate": 1.979084087682323e-05,
+      "loss": 3178.0693,
+      "step": 180
+    },
+    {
+      "epoch": 0.1688888888888889,
+      "grad_norm": 16064.0,
+      "learning_rate": 1.9722974041542205e-05,
+      "loss": 3216.1639,
+      "step": 190
+    },
+    {
+      "epoch": 0.17777777777777778,
+      "grad_norm": 26112.0,
+      "learning_rate": 1.9645737996349828e-05,
+      "loss": 3163.891,
+      "step": 200
+    },
+    {
+      "epoch": 0.18666666666666668,
+      "grad_norm": 23040.0,
+      "learning_rate": 1.9559207167107684e-05,
+      "loss": 3117.5008,
+      "step": 210
+    },
+    {
+      "epoch": 0.19555555555555557,
+      "grad_norm": 17664.0,
+      "learning_rate": 1.9463464936276676e-05,
+      "loss": 3096.1451,
+      "step": 220
+    },
+    {
+      "epoch": 0.20444444444444446,
+      "grad_norm": 16256.0,
+      "learning_rate": 1.9358603562568417e-05,
+      "loss": 3047.9447,
+      "step": 230
+    },
+    {
+      "epoch": 0.21333333333333335,
+      "grad_norm": 19584.0,
+      "learning_rate": 1.924472409204326e-05,
+      "loss": 3054.9166,
+      "step": 240
+    },
+    {
+      "epoch": 0.2222222222222222,
+      "grad_norm": 18432.0,
+      "learning_rate": 1.9121936260740752e-05,
+      "loss": 3090.7711,
+      "step": 250
+    },
+    {
+      "epoch": 0.2311111111111111,
+      "grad_norm": 13056.0,
+      "learning_rate": 1.899035838893627e-05,
+      "loss": 3075.3973,
+      "step": 260
+    },
+    {
+      "epoch": 0.24,
+      "grad_norm": 15744.0,
+      "learning_rate": 1.885011726712574e-05,
+      "loss": 2975.9182,
+      "step": 270
+    },
+    {
+      "epoch": 0.24888888888888888,
+      "grad_norm": 21632.0,
+      "learning_rate": 1.870134803384834e-05,
+      "loss": 3013.1484,
+      "step": 280
+    },
+    {
+      "epoch": 0.2577777777777778,
+      "grad_norm": 13888.0,
+      "learning_rate": 1.8544194045464888e-05,
+      "loss": 3003.3625,
+      "step": 290
+    },
+    {
+      "epoch": 0.26666666666666666,
+      "grad_norm": 14592.0,
+      "learning_rate": 1.837880673801741e-05,
+      "loss": 2980.8666,
+      "step": 300
+    },
+    {
+      "epoch": 0.27555555555555555,
+      "grad_norm": 19456.0,
+      "learning_rate": 1.8205345481303e-05,
+      "loss": 2986.1092,
+      "step": 310
+    },
+    {
+      "epoch": 0.28444444444444444,
+      "grad_norm": 22528.0,
+      "learning_rate": 1.802397742530259e-05,
+      "loss": 2940.208,
+      "step": 320
+    },
+    {
+      "epoch": 0.29333333333333333,
+      "grad_norm": 13376.0,
+      "learning_rate": 1.7834877339112613e-05,
+      "loss": 3002.926,
+      "step": 330
+    },
+    {
+      "epoch": 0.3022222222222222,
+      "grad_norm": 16192.0,
+      "learning_rate": 1.763822744253477e-05,
+      "loss": 3008.3018,
+      "step": 340
+    },
+    {
+      "epoch": 0.3111111111111111,
+      "grad_norm": 19840.0,
+      "learning_rate": 1.7434217230486162e-05,
+      "loss": 2978.5563,
+      "step": 350
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 19968.0,
+      "learning_rate": 1.7223043290399065e-05,
+      "loss": 2917.9051,
+      "step": 360
+    },
+    {
+      "epoch": 0.3288888888888889,
+      "grad_norm": 11968.0,
+      "learning_rate": 1.7004909112786142e-05,
+      "loss": 2916.0309,
+      "step": 370
+    },
+    {
+      "epoch": 0.3377777777777778,
+      "grad_norm": 13504.0,
+      "learning_rate": 1.6780024895153862e-05,
+      "loss": 2964.793,
+      "step": 380
+    },
+    {
+      "epoch": 0.3466666666666667,
+      "grad_norm": 32256.0,
+      "learning_rate": 1.6548607339452853e-05,
+      "loss": 2886.1475,
+      "step": 390
+    },
+    {
+      "epoch": 0.35555555555555557,
+      "grad_norm": 11648.0,
+      "learning_rate": 1.631087944326053e-05,
+      "loss": 2871.3844,
+      "step": 400
+    },
+    {
+      "epoch": 0.36444444444444446,
+      "grad_norm": 13504.0,
+      "learning_rate": 1.606707028489714e-05,
+      "loss": 2951.7568,
+      "step": 410
+    },
+    {
+      "epoch": 0.37333333333333335,
+      "grad_norm": 9344.0,
+      "learning_rate": 1.5817414802682292e-05,
+      "loss": 2948.7459,
+      "step": 420
+    },
+    {
+      "epoch": 0.38222222222222224,
+      "grad_norm": 14336.0,
+      "learning_rate": 1.5562153568544753e-05,
+      "loss": 2925.3027,
+      "step": 430
+    },
+    {
+      "epoch": 0.39111111111111113,
+      "grad_norm": 17280.0,
+      "learning_rate": 1.5301532556203524e-05,
+      "loss": 2861.5111,
+      "step": 440
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 15808.0,
+      "learning_rate": 1.503580290414376e-05,
+      "loss": 2862.7781,
+      "step": 450
+    },
+    {
+      "epoch": 0.4088888888888889,
+      "grad_norm": 10880.0,
+      "learning_rate": 1.4765220673615774e-05,
+      "loss": 2894.2242,
+      "step": 460
+    },
+    {
+      "epoch": 0.4177777777777778,
+      "grad_norm": 20224.0,
+      "learning_rate": 1.4490046601890405e-05,
+      "loss": 2876.3199,
+      "step": 470
+    },
+    {
+      "epoch": 0.4266666666666667,
+      "grad_norm": 12928.0,
+      "learning_rate": 1.4210545851008529e-05,
+      "loss": 2894.2551,
+      "step": 480
+    },
+    {
+      "epoch": 0.43555555555555553,
+      "grad_norm": 11776.0,
+      "learning_rate": 1.3926987752266733e-05,
+      "loss": 2852.1971,
+      "step": 490
+    },
+    {
+      "epoch": 0.4444444444444444,
+      "grad_norm": 17664.0,
+      "learning_rate": 1.36396455466855e-05,
+      "loss": 2854.5852,
+      "step": 500
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 1125,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2.5424226680832e+16,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-500/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b8e1bafbdfd4c195674c42da05ea52538467616210e2cea66a39948e8046595b
+size 5304

config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "head_dim": 64,
+  "hidden_act": "silu",
+  "hidden_size": 2048,
+  "initializer_range": 0.02,
+  "intermediate_size": 5632,
+  "max_position_embeddings": 2048,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 22,
+  "num_key_value_heads": 4,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.52.4",
+  "use_cache": true,
+  "vocab_size": 32001
+}

eval_metrics.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "eval_runtime": 54.5547,
+  "eval_samples_per_second": 18.33,
+  "eval_steps_per_second": 2.291,
+  "epoch": 1.0
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "max_length": 2048,
+  "pad_token_id": 0,
+  "transformers_version": "4.52.4"
+}

inference_results.json ADDED Viewed

	@@ -0,0 +1,43 @@

+{
+  "accuracy": 0.20670391061452514,
+  "f1_macro": 0.06851851851851852,
+  "confusion_matrix": [
+    [
+      74,
+      0,
+      0,
+      0,
+      0
+    ],
+    [
+      64,
+      0,
+      0,
+      0,
+      0
+    ],
+    [
+      66,
+      0,
+      0,
+      0,
+      0
+    ],
+    [
+      75,
+      0,
+      0,
+      0,
+      0
+    ],
+    [
+      79,
+      0,
+      0,
+      0,
+      0
+    ]
+  ],
+  "total_samples": 1000,
+  "invalid_predictions": 642
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bab3f0cfb1cd7054a3230d497dbce246493f1b365a5e2c74a69eff3d3280204a
+size 2200128056

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "add_prefix_space": null,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32000": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "extra_special_tokens": {},
+  "legacy": false,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "[PAD]",
+  "padding_side": "right",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b8e1bafbdfd4c195674c42da05ea52538467616210e2cea66a39948e8046595b
+size 5304