IParraMartin commited on Nov 2, 2025

Commit

02a32a5

verified ·

1 Parent(s): 18f5986

Upload folder using huggingface_hub

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

checkpoint-20000/config.json +32 -0
checkpoint-20000/generation_config.json +9 -0
checkpoint-20000/merges.txt +0 -0
checkpoint-20000/model.safetensors +3 -0
checkpoint-20000/optimizer.pt +3 -0
checkpoint-20000/rng_state.pth +3 -0
checkpoint-20000/scheduler.pt +3 -0
checkpoint-20000/special_tokens_map.json +6 -0
checkpoint-20000/tokenizer.json +0 -0
checkpoint-20000/tokenizer_config.json +21 -0
checkpoint-20000/trainer_state.json +1594 -0
checkpoint-20000/training_args.bin +3 -0
checkpoint-20000/vocab.json +0 -0
checkpoint-80000/config.json +32 -0
checkpoint-80000/generation_config.json +9 -0
checkpoint-80000/merges.txt +0 -0
checkpoint-80000/model.safetensors +3 -0
checkpoint-80000/optimizer.pt +3 -0
checkpoint-80000/rng_state.pth +3 -0
checkpoint-80000/scheduler.pt +3 -0
checkpoint-80000/special_tokens_map.json +6 -0
checkpoint-80000/tokenizer.json +0 -0
checkpoint-80000/tokenizer_config.json +21 -0
checkpoint-80000/trainer_state.json +0 -0
checkpoint-80000/training_args.bin +3 -0
checkpoint-80000/vocab.json +0 -0
checkpoint-85000/config.json +32 -0
checkpoint-85000/generation_config.json +9 -0
checkpoint-85000/merges.txt +0 -0
checkpoint-85000/model.safetensors +3 -0
checkpoint-85000/optimizer.pt +3 -0
checkpoint-85000/rng_state.pth +3 -0
checkpoint-85000/scheduler.pt +3 -0
checkpoint-85000/special_tokens_map.json +6 -0
checkpoint-85000/tokenizer.json +0 -0
checkpoint-85000/tokenizer_config.json +21 -0
checkpoint-85000/trainer_state.json +0 -0
checkpoint-85000/training_args.bin +3 -0
checkpoint-85000/vocab.json +0 -0
checkpoint-90000/config.json +32 -0
checkpoint-90000/generation_config.json +9 -0
checkpoint-90000/merges.txt +0 -0
checkpoint-90000/model.safetensors +3 -0
checkpoint-90000/optimizer.pt +3 -0
checkpoint-90000/rng_state.pth +3 -0
checkpoint-90000/scheduler.pt +3 -0
checkpoint-90000/special_tokens_map.json +6 -0
checkpoint-90000/tokenizer.json +0 -0
checkpoint-90000/tokenizer_config.json +21 -0
checkpoint-90000/trainer_state.json +0 -0

checkpoint-20000/config.json ADDED Viewed

	@@ -0,0 +1,32 @@

+{
+  "activation_function": "gelu_new",
+  "architectures": [
+    "GPT2LMHeadModel"
+  ],
+  "attn_pdrop": 0.1,
+  "bos_token_id": 50256,
+  "dtype": "float32",
+  "embd_pdrop": 0.1,
+  "eos_token_id": 50256,
+  "initializer_range": 0.02,
+  "layer_norm_epsilon": 1e-12,
+  "model_type": "gpt2",
+  "n_embd": 768,
+  "n_head": 12,
+  "n_inner": 3072,
+  "n_layer": 12,
+  "n_positions": 1024,
+  "pad_token_id": 50256,
+  "reorder_and_upcast_attn": false,
+  "resid_pdrop": 0.1,
+  "scale_attn_by_inverse_layer_idx": false,
+  "scale_attn_weights": true,
+  "summary_activation": null,
+  "summary_first_dropout": 0.1,
+  "summary_proj_to_labels": true,
+  "summary_type": "cls_index",
+  "summary_use_proj": true,
+  "transformers_version": "4.57.1",
+  "use_cache": false,
+  "vocab_size": 50257
+}

checkpoint-20000/generation_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 50256,
+  "eos_token_id": [
+    50256
+  ],
+  "pad_token_id": 50256,
+  "transformers_version": "4.57.1"
+}

checkpoint-20000/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-20000/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e5d895cdd801d17ee1f853033477f709c328a6f43cd0c184d690add28259e2eb
+size 497774208

checkpoint-20000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:82b212f70d9b7820eba6767f4e012abdc58e0c6a143f8eb89d541ff7eb29b54e
+size 995642298

checkpoint-20000/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:503f445c78f40dc4ad61e238e038b404e464f79991963ff3bd4b145bca7ec5a2
+size 14244

checkpoint-20000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bba2cd51d1e70cfadf2ee79c9673c9efb2d37ff854d2c5b9dd041586cfdb6711
+size 1064

checkpoint-20000/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "bos_token": "<|endoftext|>",
+  "eos_token": "<|endoftext|>",
+  "pad_token": "<|endoftext|>",
+  "unk_token": "<|endoftext|>"
+}

checkpoint-20000/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-20000/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,21 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "50256": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<|endoftext|>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|endoftext|>",
+  "extra_special_tokens": {},
+  "model_max_length": 1024,
+  "pad_token": "<|endoftext|>",
+  "tokenizer_class": "GPT2Tokenizer",
+  "unk_token": "<|endoftext|>"
+}

checkpoint-20000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1594 @@

+{
+  "best_global_step": 20000,
+  "best_metric": 3.3754522800445557,
+  "best_model_checkpoint": "models/plausigpt/checkpoint-20000",
+  "epoch": 18.86812927577259,
+  "eval_steps": 1000,
+  "global_step": 20000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.09436187780136825,
+      "grad_norm": 2.9101743698120117,
+      "learning_rate": 9.9e-07,
+      "loss": 10.3242,
+      "step": 100
+    },
+    {
+      "epoch": 0.1887237556027365,
+      "grad_norm": 2.162980556488037,
+      "learning_rate": 1.99e-06,
+      "loss": 9.296,
+      "step": 200
+    },
+    {
+      "epoch": 0.28308563340410475,
+      "grad_norm": 2.0969018936157227,
+      "learning_rate": 2.99e-06,
+      "loss": 8.7898,
+      "step": 300
+    },
+    {
+      "epoch": 0.377447511205473,
+      "grad_norm": 1.897030234336853,
+      "learning_rate": 3.99e-06,
+      "loss": 8.2757,
+      "step": 400
+    },
+    {
+      "epoch": 0.4718093890068412,
+      "grad_norm": 1.666489601135254,
+      "learning_rate": 4.9900000000000005e-06,
+      "loss": 7.8218,
+      "step": 500
+    },
+    {
+      "epoch": 0.5661712668082095,
+      "grad_norm": 1.5309317111968994,
+      "learning_rate": 5.99e-06,
+      "loss": 7.3494,
+      "step": 600
+    },
+    {
+      "epoch": 0.6605331446095777,
+      "grad_norm": 1.2604295015335083,
+      "learning_rate": 6.990000000000001e-06,
+      "loss": 6.8932,
+      "step": 700
+    },
+    {
+      "epoch": 0.754895022410946,
+      "grad_norm": 1.1508737802505493,
+      "learning_rate": 7.99e-06,
+      "loss": 6.5159,
+      "step": 800
+    },
+    {
+      "epoch": 0.8492569002123143,
+      "grad_norm": 1.1227755546569824,
+      "learning_rate": 8.99e-06,
+      "loss": 6.2373,
+      "step": 900
+    },
+    {
+      "epoch": 0.9436187780136824,
+      "grad_norm": 1.1233224868774414,
+      "learning_rate": 9.990000000000001e-06,
+      "loss": 6.053,
+      "step": 1000
+    },
+    {
+      "epoch": 0.9436187780136824,
+      "eval_loss": 5.930422782897949,
+      "eval_runtime": 89.9185,
+      "eval_samples_per_second": 167.607,
+      "eval_steps_per_second": 5.238,
+      "step": 1000
+    },
+    {
+      "epoch": 1.0377447511205473,
+      "grad_norm": 1.1704257726669312,
+      "learning_rate": 1.099e-05,
+      "loss": 5.9047,
+      "step": 1100
+    },
+    {
+      "epoch": 1.1321066289219155,
+      "grad_norm": 1.0163617134094238,
+      "learning_rate": 1.199e-05,
+      "loss": 5.7717,
+      "step": 1200
+    },
+    {
+      "epoch": 1.226468506723284,
+      "grad_norm": 0.9280975461006165,
+      "learning_rate": 1.299e-05,
+      "loss": 5.7047,
+      "step": 1300
+    },
+    {
+      "epoch": 1.320830384524652,
+      "grad_norm": 1.1254018545150757,
+      "learning_rate": 1.399e-05,
+      "loss": 5.6121,
+      "step": 1400
+    },
+    {
+      "epoch": 1.4151922623260202,
+      "grad_norm": 1.5115385055541992,
+      "learning_rate": 1.499e-05,
+      "loss": 5.5445,
+      "step": 1500
+    },
+    {
+      "epoch": 1.5095541401273884,
+      "grad_norm": 1.1451691389083862,
+      "learning_rate": 1.599e-05,
+      "loss": 5.4659,
+      "step": 1600
+    },
+    {
+      "epoch": 1.6039160179287568,
+      "grad_norm": 1.0520662069320679,
+      "learning_rate": 1.699e-05,
+      "loss": 5.4362,
+      "step": 1700
+    },
+    {
+      "epoch": 1.698277895730125,
+      "grad_norm": 1.2363018989562988,
+      "learning_rate": 1.7990000000000002e-05,
+      "loss": 5.3637,
+      "step": 1800
+    },
+    {
+      "epoch": 1.7926397735314934,
+      "grad_norm": 1.2105119228363037,
+      "learning_rate": 1.8990000000000003e-05,
+      "loss": 5.3063,
+      "step": 1900
+    },
+    {
+      "epoch": 1.8870016513328616,
+      "grad_norm": 1.5523535013198853,
+      "learning_rate": 1.999e-05,
+      "loss": 5.2543,
+      "step": 2000
+    },
+    {
+      "epoch": 1.8870016513328616,
+      "eval_loss": 5.177983283996582,
+      "eval_runtime": 89.9532,
+      "eval_samples_per_second": 167.543,
+      "eval_steps_per_second": 5.236,
+      "step": 2000
+    },
+    {
+      "epoch": 1.9813635291342298,
+      "grad_norm": 1.5004462003707886,
+      "learning_rate": 2.099e-05,
+      "loss": 5.1994,
+      "step": 2100
+    },
+    {
+      "epoch": 2.0754895022410946,
+      "grad_norm": 1.4016139507293701,
+      "learning_rate": 2.199e-05,
+      "loss": 5.1422,
+      "step": 2200
+    },
+    {
+      "epoch": 2.169851380042463,
+      "grad_norm": 1.5630654096603394,
+      "learning_rate": 2.2990000000000002e-05,
+      "loss": 5.0975,
+      "step": 2300
+    },
+    {
+      "epoch": 2.264213257843831,
+      "grad_norm": 1.373801827430725,
+      "learning_rate": 2.3990000000000002e-05,
+      "loss": 5.0522,
+      "step": 2400
+    },
+    {
+      "epoch": 2.358575135645199,
+      "grad_norm": 1.3656255006790161,
+      "learning_rate": 2.4990000000000003e-05,
+      "loss": 5.0166,
+      "step": 2500
+    },
+    {
+      "epoch": 2.452937013446568,
+      "grad_norm": 1.4151180982589722,
+      "learning_rate": 2.5990000000000004e-05,
+      "loss": 4.9653,
+      "step": 2600
+    },
+    {
+      "epoch": 2.547298891247936,
+      "grad_norm": 1.5235018730163574,
+      "learning_rate": 2.6989999999999997e-05,
+      "loss": 4.9166,
+      "step": 2700
+    },
+    {
+      "epoch": 2.641660769049304,
+      "grad_norm": 1.2987467050552368,
+      "learning_rate": 2.7989999999999998e-05,
+      "loss": 4.877,
+      "step": 2800
+    },
+    {
+      "epoch": 2.7360226468506723,
+      "grad_norm": 1.3841923475265503,
+      "learning_rate": 2.8990000000000002e-05,
+      "loss": 4.8477,
+      "step": 2900
+    },
+    {
+      "epoch": 2.8303845246520405,
+      "grad_norm": 1.5736286640167236,
+      "learning_rate": 2.9990000000000003e-05,
+      "loss": 4.7941,
+      "step": 3000
+    },
+    {
+      "epoch": 2.8303845246520405,
+      "eval_loss": 4.716542720794678,
+      "eval_runtime": 89.9497,
+      "eval_samples_per_second": 167.549,
+      "eval_steps_per_second": 5.236,
+      "step": 3000
+    },
+    {
+      "epoch": 2.9247464024534087,
+      "grad_norm": 1.404842734336853,
+      "learning_rate": 3.099e-05,
+      "loss": 4.7567,
+      "step": 3100
+    },
+    {
+      "epoch": 3.0188723755602735,
+      "grad_norm": 1.2254925966262817,
+      "learning_rate": 3.1990000000000004e-05,
+      "loss": 4.7165,
+      "step": 3200
+    },
+    {
+      "epoch": 3.1132342533616417,
+      "grad_norm": 1.2496081590652466,
+      "learning_rate": 3.299e-05,
+      "loss": 4.6894,
+      "step": 3300
+    },
+    {
+      "epoch": 3.2075961311630103,
+      "grad_norm": 1.3087129592895508,
+      "learning_rate": 3.399e-05,
+      "loss": 4.6382,
+      "step": 3400
+    },
+    {
+      "epoch": 3.3019580089643785,
+      "grad_norm": 1.2795251607894897,
+      "learning_rate": 3.499e-05,
+      "loss": 4.6091,
+      "step": 3500
+    },
+    {
+      "epoch": 3.3963198867657467,
+      "grad_norm": 1.2816106081008911,
+      "learning_rate": 3.599e-05,
+      "loss": 4.5872,
+      "step": 3600
+    },
+    {
+      "epoch": 3.490681764567115,
+      "grad_norm": 1.2217532396316528,
+      "learning_rate": 3.699e-05,
+      "loss": 4.5528,
+      "step": 3700
+    },
+    {
+      "epoch": 3.585043642368483,
+      "grad_norm": 1.2160422801971436,
+      "learning_rate": 3.799e-05,
+      "loss": 4.5129,
+      "step": 3800
+    },
+    {
+      "epoch": 3.6794055201698512,
+      "grad_norm": 1.2504174709320068,
+      "learning_rate": 3.8990000000000004e-05,
+      "loss": 4.4912,
+      "step": 3900
+    },
+    {
+      "epoch": 3.77376739797122,
+      "grad_norm": 1.3709900379180908,
+      "learning_rate": 3.999e-05,
+      "loss": 4.4662,
+      "step": 4000
+    },
+    {
+      "epoch": 3.77376739797122,
+      "eval_loss": 4.381489276885986,
+      "eval_runtime": 89.9497,
+      "eval_samples_per_second": 167.549,
+      "eval_steps_per_second": 5.236,
+      "step": 4000
+    },
+    {
+      "epoch": 3.868129275772588,
+      "grad_norm": 1.2039287090301514,
+      "learning_rate": 4.099e-05,
+      "loss": 4.4265,
+      "step": 4100
+    },
+    {
+      "epoch": 3.962491153573956,
+      "grad_norm": 1.2931344509124756,
+      "learning_rate": 4.199e-05,
+      "loss": 4.4062,
+      "step": 4200
+    },
+    {
+      "epoch": 4.056617126680821,
+      "grad_norm": 1.1824957132339478,
+      "learning_rate": 4.299e-05,
+      "loss": 4.3693,
+      "step": 4300
+    },
+    {
+      "epoch": 4.150979004482189,
+      "grad_norm": 1.1529172658920288,
+      "learning_rate": 4.3990000000000004e-05,
+      "loss": 4.3337,
+      "step": 4400
+    },
+    {
+      "epoch": 4.245340882283557,
+      "grad_norm": 1.076854944229126,
+      "learning_rate": 4.499e-05,
+      "loss": 4.3073,
+      "step": 4500
+    },
+    {
+      "epoch": 4.339702760084926,
+      "grad_norm": 1.2523971796035767,
+      "learning_rate": 4.599e-05,
+      "loss": 4.2877,
+      "step": 4600
+    },
+    {
+      "epoch": 4.434064637886294,
+      "grad_norm": 1.19026780128479,
+      "learning_rate": 4.699e-05,
+      "loss": 4.2684,
+      "step": 4700
+    },
+    {
+      "epoch": 4.528426515687662,
+      "grad_norm": 1.1093727350234985,
+      "learning_rate": 4.799e-05,
+      "loss": 4.2301,
+      "step": 4800
+    },
+    {
+      "epoch": 4.622788393489031,
+      "grad_norm": 1.170032262802124,
+      "learning_rate": 4.8990000000000004e-05,
+      "loss": 4.2172,
+      "step": 4900
+    },
+    {
+      "epoch": 4.717150271290398,
+      "grad_norm": 1.1602752208709717,
+      "learning_rate": 4.999e-05,
+      "loss": 4.1815,
+      "step": 5000
+    },
+    {
+      "epoch": 4.717150271290398,
+      "eval_loss": 4.115845203399658,
+      "eval_runtime": 89.9622,
+      "eval_samples_per_second": 167.526,
+      "eval_steps_per_second": 5.236,
+      "step": 5000
+    },
+    {
+      "epoch": 4.811512149091767,
+      "grad_norm": 1.1583232879638672,
+      "learning_rate": 5.0990000000000005e-05,
+      "loss": 4.1705,
+      "step": 5100
+    },
+    {
+      "epoch": 4.905874026893136,
+      "grad_norm": 1.1284886598587036,
+      "learning_rate": 5.199000000000001e-05,
+      "loss": 4.1492,
+      "step": 5200
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 1.2270270586013794,
+      "learning_rate": 5.2990000000000006e-05,
+      "loss": 4.1234,
+      "step": 5300
+    },
+    {
+      "epoch": 5.094361877801369,
+      "grad_norm": 1.1221809387207031,
+      "learning_rate": 5.399000000000001e-05,
+      "loss": 4.0913,
+      "step": 5400
+    },
+    {
+      "epoch": 5.188723755602736,
+      "grad_norm": 1.1447559595108032,
+      "learning_rate": 5.499000000000001e-05,
+      "loss": 4.0568,
+      "step": 5500
+    },
+    {
+      "epoch": 5.283085633404105,
+      "grad_norm": 1.109061598777771,
+      "learning_rate": 5.599e-05,
+      "loss": 4.0514,
+      "step": 5600
+    },
+    {
+      "epoch": 5.377447511205473,
+      "grad_norm": 1.2101478576660156,
+      "learning_rate": 5.699e-05,
+      "loss": 4.0345,
+      "step": 5700
+    },
+    {
+      "epoch": 5.471809389006841,
+      "grad_norm": 1.0513982772827148,
+      "learning_rate": 5.799e-05,
+      "loss": 4.0028,
+      "step": 5800
+    },
+    {
+      "epoch": 5.56617126680821,
+      "grad_norm": 1.1381795406341553,
+      "learning_rate": 5.899e-05,
+      "loss": 4.0061,
+      "step": 5900
+    },
+    {
+      "epoch": 5.660533144609578,
+      "grad_norm": 1.102358102798462,
+      "learning_rate": 5.999e-05,
+      "loss": 3.981,
+      "step": 6000
+    },
+    {
+      "epoch": 5.660533144609578,
+      "eval_loss": 3.9213197231292725,
+      "eval_runtime": 89.9286,
+      "eval_samples_per_second": 167.589,
+      "eval_steps_per_second": 5.237,
+      "step": 6000
+    },
+    {
+      "epoch": 5.754895022410946,
+      "grad_norm": 1.0048632621765137,
+      "learning_rate": 6.0990000000000004e-05,
+      "loss": 3.9619,
+      "step": 6100
+    },
+    {
+      "epoch": 5.849256900212314,
+      "grad_norm": 1.0199745893478394,
+      "learning_rate": 6.199000000000001e-05,
+      "loss": 3.96,
+      "step": 6200
+    },
+    {
+      "epoch": 5.943618778013683,
+      "grad_norm": 1.052060842514038,
+      "learning_rate": 6.299e-05,
+      "loss": 3.9441,
+      "step": 6300
+    },
+    {
+      "epoch": 6.037744751120547,
+      "grad_norm": 1.1077136993408203,
+      "learning_rate": 6.399e-05,
+      "loss": 3.9129,
+      "step": 6400
+    },
+    {
+      "epoch": 6.132106628921916,
+      "grad_norm": 0.9797239303588867,
+      "learning_rate": 6.499000000000001e-05,
+      "loss": 3.8972,
+      "step": 6500
+    },
+    {
+      "epoch": 6.2264685067232834,
+      "grad_norm": 0.9934578537940979,
+      "learning_rate": 6.599000000000001e-05,
+      "loss": 3.8777,
+      "step": 6600
+    },
+    {
+      "epoch": 6.320830384524652,
+      "grad_norm": 0.9989880323410034,
+      "learning_rate": 6.699000000000001e-05,
+      "loss": 3.859,
+      "step": 6700
+    },
+    {
+      "epoch": 6.415192262326021,
+      "grad_norm": 0.9644502997398376,
+      "learning_rate": 6.799e-05,
+      "loss": 3.8596,
+      "step": 6800
+    },
+    {
+      "epoch": 6.509554140127388,
+      "grad_norm": 1.004499912261963,
+      "learning_rate": 6.899e-05,
+      "loss": 3.8494,
+      "step": 6900
+    },
+    {
+      "epoch": 6.603916017928757,
+      "grad_norm": 0.9108039736747742,
+      "learning_rate": 6.999e-05,
+      "loss": 3.8294,
+      "step": 7000
+    },
+    {
+      "epoch": 6.603916017928757,
+      "eval_loss": 3.7933058738708496,
+      "eval_runtime": 89.9278,
+      "eval_samples_per_second": 167.59,
+      "eval_steps_per_second": 5.238,
+      "step": 7000
+    },
+    {
+      "epoch": 6.698277895730125,
+      "grad_norm": 0.9396700859069824,
+      "learning_rate": 7.099e-05,
+      "loss": 3.8365,
+      "step": 7100
+    },
+    {
+      "epoch": 6.792639773531493,
+      "grad_norm": 0.9836630821228027,
+      "learning_rate": 7.199000000000001e-05,
+      "loss": 3.8102,
+      "step": 7200
+    },
+    {
+      "epoch": 6.887001651332861,
+      "grad_norm": 0.9225268959999084,
+      "learning_rate": 7.299e-05,
+      "loss": 3.8053,
+      "step": 7300
+    },
+    {
+      "epoch": 6.98136352913423,
+      "grad_norm": 0.9103354215621948,
+      "learning_rate": 7.399e-05,
+      "loss": 3.8067,
+      "step": 7400
+    },
+    {
+      "epoch": 7.075489502241094,
+      "grad_norm": 0.9512243270874023,
+      "learning_rate": 7.499e-05,
+      "loss": 3.7489,
+      "step": 7500
+    },
+    {
+      "epoch": 7.169851380042463,
+      "grad_norm": 0.9671022295951843,
+      "learning_rate": 7.599000000000001e-05,
+      "loss": 3.7524,
+      "step": 7600
+    },
+    {
+      "epoch": 7.264213257843831,
+      "grad_norm": 0.9643733501434326,
+      "learning_rate": 7.699e-05,
+      "loss": 3.7309,
+      "step": 7700
+    },
+    {
+      "epoch": 7.358575135645199,
+      "grad_norm": 0.94767165184021,
+      "learning_rate": 7.799e-05,
+      "loss": 3.7428,
+      "step": 7800
+    },
+    {
+      "epoch": 7.452937013446568,
+      "grad_norm": 0.9278003573417664,
+      "learning_rate": 7.899000000000001e-05,
+      "loss": 3.7256,
+      "step": 7900
+    },
+    {
+      "epoch": 7.5472988912479355,
+      "grad_norm": 0.8693475127220154,
+      "learning_rate": 7.999000000000001e-05,
+      "loss": 3.7299,
+      "step": 8000
+    },
+    {
+      "epoch": 7.5472988912479355,
+      "eval_loss": 3.701340675354004,
+      "eval_runtime": 89.9644,
+      "eval_samples_per_second": 167.522,
+      "eval_steps_per_second": 5.235,
+      "step": 8000
+    },
+    {
+      "epoch": 7.641660769049304,
+      "grad_norm": 0.8692898750305176,
+      "learning_rate": 8.099e-05,
+      "loss": 3.7201,
+      "step": 8100
+    },
+    {
+      "epoch": 7.736022646850673,
+      "grad_norm": 0.86644047498703,
+      "learning_rate": 8.199e-05,
+      "loss": 3.7185,
+      "step": 8200
+    },
+    {
+      "epoch": 7.8303845246520405,
+      "grad_norm": 0.9059743285179138,
+      "learning_rate": 8.299e-05,
+      "loss": 3.712,
+      "step": 8300
+    },
+    {
+      "epoch": 7.924746402453409,
+      "grad_norm": 0.8368768692016602,
+      "learning_rate": 8.399e-05,
+      "loss": 3.7064,
+      "step": 8400
+    },
+    {
+      "epoch": 8.018872375560274,
+      "grad_norm": 0.8828296065330505,
+      "learning_rate": 8.499e-05,
+      "loss": 3.6786,
+      "step": 8500
+    },
+    {
+      "epoch": 8.113234253361641,
+      "grad_norm": 0.8559228181838989,
+      "learning_rate": 8.599000000000001e-05,
+      "loss": 3.643,
+      "step": 8600
+    },
+    {
+      "epoch": 8.20759613116301,
+      "grad_norm": 0.8702303171157837,
+      "learning_rate": 8.699e-05,
+      "loss": 3.6411,
+      "step": 8700
+    },
+    {
+      "epoch": 8.301958008964379,
+      "grad_norm": 0.8181409239768982,
+      "learning_rate": 8.799e-05,
+      "loss": 3.6498,
+      "step": 8800
+    },
+    {
+      "epoch": 8.396319886765747,
+      "grad_norm": 0.839365541934967,
+      "learning_rate": 8.899e-05,
+      "loss": 3.641,
+      "step": 8900
+    },
+    {
+      "epoch": 8.490681764567114,
+      "grad_norm": 0.8675922155380249,
+      "learning_rate": 8.999000000000001e-05,
+      "loss": 3.6283,
+      "step": 9000
+    },
+    {
+      "epoch": 8.490681764567114,
+      "eval_loss": 3.6308939456939697,
+      "eval_runtime": 89.9234,
+      "eval_samples_per_second": 167.598,
+      "eval_steps_per_second": 5.238,
+      "step": 9000
+    },
+    {
+      "epoch": 8.585043642368483,
+      "grad_norm": 0.8916610479354858,
+      "learning_rate": 9.099000000000001e-05,
+      "loss": 3.6343,
+      "step": 9100
+    },
+    {
+      "epoch": 8.679405520169851,
+      "grad_norm": 0.81273353099823,
+      "learning_rate": 9.199e-05,
+      "loss": 3.6309,
+      "step": 9200
+    },
+    {
+      "epoch": 8.77376739797122,
+      "grad_norm": 0.8205325603485107,
+      "learning_rate": 9.299e-05,
+      "loss": 3.6322,
+      "step": 9300
+    },
+    {
+      "epoch": 8.868129275772588,
+      "grad_norm": 0.8169659972190857,
+      "learning_rate": 9.399e-05,
+      "loss": 3.6216,
+      "step": 9400
+    },
+    {
+      "epoch": 8.962491153573955,
+      "grad_norm": 0.8198681473731995,
+      "learning_rate": 9.499e-05,
+      "loss": 3.6054,
+      "step": 9500
+    },
+    {
+      "epoch": 9.056617126680822,
+      "grad_norm": 0.8319467902183533,
+      "learning_rate": 9.599000000000001e-05,
+      "loss": 3.5813,
+      "step": 9600
+    },
+    {
+      "epoch": 9.150979004482188,
+      "grad_norm": 0.814388632774353,
+      "learning_rate": 9.699e-05,
+      "loss": 3.5636,
+      "step": 9700
+    },
+    {
+      "epoch": 9.245340882283557,
+      "grad_norm": 0.8515892624855042,
+      "learning_rate": 9.799e-05,
+      "loss": 3.5551,
+      "step": 9800
+    },
+    {
+      "epoch": 9.339702760084926,
+      "grad_norm": 0.8092982769012451,
+      "learning_rate": 9.899e-05,
+      "loss": 3.5585,
+      "step": 9900
+    },
+    {
+      "epoch": 9.434064637886294,
+      "grad_norm": 0.8135222792625427,
+      "learning_rate": 9.999000000000001e-05,
+      "loss": 3.5615,
+      "step": 10000
+    },
+    {
+      "epoch": 9.434064637886294,
+      "eval_loss": 3.57912540435791,
+      "eval_runtime": 89.9276,
+      "eval_samples_per_second": 167.59,
+      "eval_steps_per_second": 5.238,
+      "step": 10000
+    },
+    {
+      "epoch": 9.528426515687663,
+      "grad_norm": 0.7966075539588928,
+      "learning_rate": 9.999970144476398e-05,
+      "loss": 3.5535,
+      "step": 10100
+    },
+    {
+      "epoch": 9.62278839348903,
+      "grad_norm": 0.7658608555793762,
+      "learning_rate": 9.999879368940656e-05,
+      "loss": 3.5665,
+      "step": 10200
+    },
+    {
+      "epoch": 9.717150271290398,
+      "grad_norm": 0.7524927854537964,
+      "learning_rate": 9.999727671452668e-05,
+      "loss": 3.5502,
+      "step": 10300
+    },
+    {
+      "epoch": 9.811512149091767,
+      "grad_norm": 0.743500292301178,
+      "learning_rate": 9.999515053860821e-05,
+      "loss": 3.5497,
+      "step": 10400
+    },
+    {
+      "epoch": 9.905874026893136,
+      "grad_norm": 0.7590805292129517,
+      "learning_rate": 9.999241518755793e-05,
+      "loss": 3.5467,
+      "step": 10500
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 0.8875275254249573,
+      "learning_rate": 9.998907069470524e-05,
+      "loss": 3.545,
+      "step": 10600
+    },
+    {
+      "epoch": 10.094361877801369,
+      "grad_norm": 0.7724853157997131,
+      "learning_rate": 9.998511710080171e-05,
+      "loss": 3.4858,
+      "step": 10700
+    },
+    {
+      "epoch": 10.188723755602737,
+      "grad_norm": 0.7321507334709167,
+      "learning_rate": 9.998055445402067e-05,
+      "loss": 3.4796,
+      "step": 10800
+    },
+    {
+      "epoch": 10.283085633404104,
+      "grad_norm": 0.7564536333084106,
+      "learning_rate": 9.997538280995651e-05,
+      "loss": 3.4922,
+      "step": 10900
+    },
+    {
+      "epoch": 10.377447511205473,
+      "grad_norm": 0.7601178288459778,
+      "learning_rate": 9.996960223162406e-05,
+      "loss": 3.4881,
+      "step": 11000
+    },
+    {
+      "epoch": 10.377447511205473,
+      "eval_loss": 3.530785322189331,
+      "eval_runtime": 89.9198,
+      "eval_samples_per_second": 167.605,
+      "eval_steps_per_second": 5.238,
+      "step": 11000
+    },
+    {
+      "epoch": 10.471809389006841,
+      "grad_norm": 0.7771745324134827,
+      "learning_rate": 9.996321278945788e-05,
+      "loss": 3.4822,
+      "step": 11100
+    },
+    {
+      "epoch": 10.56617126680821,
+      "grad_norm": 0.7326973676681519,
+      "learning_rate": 9.995621456131128e-05,
+      "loss": 3.4838,
+      "step": 11200
+    },
+    {
+      "epoch": 10.660533144609577,
+      "grad_norm": 0.728434145450592,
+      "learning_rate": 9.994860763245549e-05,
+      "loss": 3.4832,
+      "step": 11300
+    },
+    {
+      "epoch": 10.754895022410945,
+      "grad_norm": 0.7702102065086365,
+      "learning_rate": 9.99403920955785e-05,
+      "loss": 3.4962,
+      "step": 11400
+    },
+    {
+      "epoch": 10.849256900212314,
+      "grad_norm": 0.718971848487854,
+      "learning_rate": 9.993156805078405e-05,
+      "loss": 3.486,
+      "step": 11500
+    },
+    {
+      "epoch": 10.943618778013683,
+      "grad_norm": 0.7548109889030457,
+      "learning_rate": 9.992213560559034e-05,
+      "loss": 3.484,
+      "step": 11600
+    },
+    {
+      "epoch": 11.037744751120547,
+      "grad_norm": 0.7601837515830994,
+      "learning_rate": 9.991209487492876e-05,
+      "loss": 3.4513,
+      "step": 11700
+    },
+    {
+      "epoch": 11.132106628921916,
+      "grad_norm": 0.7187873721122742,
+      "learning_rate": 9.990144598114242e-05,
+      "loss": 3.4157,
+      "step": 11800
+    },
+    {
+      "epoch": 11.226468506723284,
+      "grad_norm": 0.7205685377120972,
+      "learning_rate": 9.989018905398473e-05,
+      "loss": 3.4232,
+      "step": 11900
+    },
+    {
+      "epoch": 11.320830384524651,
+      "grad_norm": 0.761542558670044,
+      "learning_rate": 9.98783242306178e-05,
+      "loss": 3.4295,
+      "step": 12000
+    },
+    {
+      "epoch": 11.320830384524651,
+      "eval_loss": 3.497931957244873,
+      "eval_runtime": 89.9528,
+      "eval_samples_per_second": 167.543,
+      "eval_steps_per_second": 5.236,
+      "step": 12000
+    },
+    {
+      "epoch": 11.41519226232602,
+      "grad_norm": 0.7080798149108887,
+      "learning_rate": 9.986585165561076e-05,
+      "loss": 3.4227,
+      "step": 12100
+    },
+    {
+      "epoch": 11.509554140127388,
+      "grad_norm": 0.7278120517730713,
+      "learning_rate": 9.9852771480938e-05,
+      "loss": 3.432,
+      "step": 12200
+    },
+    {
+      "epoch": 11.603916017928757,
+      "grad_norm": 0.7304459810256958,
+      "learning_rate": 9.983908386597732e-05,
+      "loss": 3.4355,
+      "step": 12300
+    },
+    {
+      "epoch": 11.698277895730126,
+      "grad_norm": 0.7287798523902893,
+      "learning_rate": 9.9824788977508e-05,
+      "loss": 3.4281,
+      "step": 12400
+    },
+    {
+      "epoch": 11.792639773531493,
+      "grad_norm": 0.6873247027397156,
+      "learning_rate": 9.980988698970872e-05,
+      "loss": 3.4263,
+      "step": 12500
+    },
+    {
+      "epoch": 11.887001651332861,
+      "grad_norm": 0.7197590470314026,
+      "learning_rate": 9.979437808415552e-05,
+      "loss": 3.4261,
+      "step": 12600
+    },
+    {
+      "epoch": 11.98136352913423,
+      "grad_norm": 0.691047728061676,
+      "learning_rate": 9.977826244981952e-05,
+      "loss": 3.4262,
+      "step": 12700
+    },
+    {
+      "epoch": 12.075489502241094,
+      "grad_norm": 0.7147277593612671,
+      "learning_rate": 9.976154028306461e-05,
+      "loss": 3.3695,
+      "step": 12800
+    },
+    {
+      "epoch": 12.169851380042463,
+      "grad_norm": 0.7131621837615967,
+      "learning_rate": 9.974421178764515e-05,
+      "loss": 3.3619,
+      "step": 12900
+    },
+    {
+      "epoch": 12.264213257843831,
+      "grad_norm": 0.6843485832214355,
+      "learning_rate": 9.972627717470337e-05,
+      "loss": 3.3786,
+      "step": 13000
+    },
+    {
+      "epoch": 12.264213257843831,
+      "eval_loss": 3.4681344032287598,
+      "eval_runtime": 89.9337,
+      "eval_samples_per_second": 167.579,
+      "eval_steps_per_second": 5.237,
+      "step": 13000
+    },
+    {
+      "epoch": 12.3585751356452,
+      "grad_norm": 0.7265843152999878,
+      "learning_rate": 9.970773666276686e-05,
+      "loss": 3.3759,
+      "step": 13100
+    },
+    {
+      "epoch": 12.452937013446567,
+      "grad_norm": 0.7135173082351685,
+      "learning_rate": 9.968859047774595e-05,
+      "loss": 3.3757,
+      "step": 13200
+    },
+    {
+      "epoch": 12.547298891247936,
+      "grad_norm": 0.7075929045677185,
+      "learning_rate": 9.966883885293081e-05,
+      "loss": 3.3868,
+      "step": 13300
+    },
+    {
+      "epoch": 12.641660769049304,
+      "grad_norm": 0.6600580811500549,
+      "learning_rate": 9.964848202898879e-05,
+      "loss": 3.3768,
+      "step": 13400
+    },
+    {
+      "epoch": 12.736022646850673,
+      "grad_norm": 0.6909327507019043,
+      "learning_rate": 9.962752025396133e-05,
+      "loss": 3.3761,
+      "step": 13500
+    },
+    {
+      "epoch": 12.830384524652041,
+      "grad_norm": 0.7116390466690063,
+      "learning_rate": 9.96059537832611e-05,
+      "loss": 3.3696,
+      "step": 13600
+    },
+    {
+      "epoch": 12.924746402453408,
+      "grad_norm": 0.6888706088066101,
+      "learning_rate": 9.958378287966868e-05,
+      "loss": 3.3835,
+      "step": 13700
+    },
+    {
+      "epoch": 13.018872375560274,
+      "grad_norm": 0.6996840834617615,
+      "learning_rate": 9.956100781332958e-05,
+      "loss": 3.3644,
+      "step": 13800
+    },
+    {
+      "epoch": 13.113234253361641,
+      "grad_norm": 0.7074296474456787,
+      "learning_rate": 9.953762886175075e-05,
+      "loss": 3.3085,
+      "step": 13900
+    },
+    {
+      "epoch": 13.20759613116301,
+      "grad_norm": 0.7509676218032837,
+      "learning_rate": 9.951364630979738e-05,
+      "loss": 3.324,
+      "step": 14000
+    },
+    {
+      "epoch": 13.20759613116301,
+      "eval_loss": 3.446702241897583,
+      "eval_runtime": 89.9626,
+      "eval_samples_per_second": 167.525,
+      "eval_steps_per_second": 5.236,
+      "step": 14000
+    },
+    {
+      "epoch": 13.301958008964379,
+      "grad_norm": 0.6905140280723572,
+      "learning_rate": 9.948906044968926e-05,
+      "loss": 3.3204,
+      "step": 14100
+    },
+    {
+      "epoch": 13.396319886765747,
+      "grad_norm": 0.6943195462226868,
+      "learning_rate": 9.946387158099738e-05,
+      "loss": 3.3314,
+      "step": 14200
+    },
+    {
+      "epoch": 13.490681764567114,
+      "grad_norm": 0.748652994632721,
+      "learning_rate": 9.943808001064013e-05,
+      "loss": 3.3365,
+      "step": 14300
+    },
+    {
+      "epoch": 13.585043642368483,
+      "grad_norm": 0.6941584944725037,
+      "learning_rate": 9.941168605287965e-05,
+      "loss": 3.3327,
+      "step": 14400
+    },
+    {
+      "epoch": 13.679405520169851,
+      "grad_norm": 0.7011757493019104,
+      "learning_rate": 9.938469002931798e-05,
+      "loss": 3.336,
+      "step": 14500
+    },
+    {
+      "epoch": 13.77376739797122,
+      "grad_norm": 0.6881093978881836,
+      "learning_rate": 9.935709226889319e-05,
+      "loss": 3.3441,
+      "step": 14600
+    },
+    {
+      "epoch": 13.868129275772588,
+      "grad_norm": 0.6721529960632324,
+      "learning_rate": 9.932889310787522e-05,
+      "loss": 3.3355,
+      "step": 14700
+    },
+    {
+      "epoch": 13.962491153573955,
+      "grad_norm": 0.6991400718688965,
+      "learning_rate": 9.9300092889862e-05,
+      "loss": 3.332,
+      "step": 14800
+    },
+    {
+      "epoch": 14.056617126680822,
+      "grad_norm": 0.6730444431304932,
+      "learning_rate": 9.927069196577507e-05,
+      "loss": 3.2893,
+      "step": 14900
+    },
+    {
+      "epoch": 14.150979004482188,
+      "grad_norm": 0.6822571754455566,
+      "learning_rate": 9.924069069385543e-05,
+      "loss": 3.2673,
+      "step": 15000
+    },
+    {
+      "epoch": 14.150979004482188,
+      "eval_loss": 3.428182601928711,
+      "eval_runtime": 89.9364,
+      "eval_samples_per_second": 167.574,
+      "eval_steps_per_second": 5.237,
+      "step": 15000
+    },
+    {
+      "epoch": 14.245340882283557,
+      "grad_norm": 0.6944796442985535,
+      "learning_rate": 9.921008943965908e-05,
+      "loss": 3.2846,
+      "step": 15100
+    },
+    {
+      "epoch": 14.339702760084926,
+      "grad_norm": 0.6927157044410706,
+      "learning_rate": 9.917888857605268e-05,
+      "loss": 3.2856,
+      "step": 15200
+    },
+    {
+      "epoch": 14.434064637886294,
+      "grad_norm": 0.6758902072906494,
+      "learning_rate": 9.91470884832089e-05,
+      "loss": 3.2768,
+      "step": 15300
+    },
+    {
+      "epoch": 14.528426515687663,
+      "grad_norm": 0.7083920836448669,
+      "learning_rate": 9.911468954860181e-05,
+      "loss": 3.2846,
+      "step": 15400
+    },
+    {
+      "epoch": 14.62278839348903,
+      "grad_norm": 0.6658477783203125,
+      "learning_rate": 9.908169216700223e-05,
+      "loss": 3.3001,
+      "step": 15500
+    },
+    {
+      "epoch": 14.717150271290398,
+      "grad_norm": 0.6643409729003906,
+      "learning_rate": 9.904809674047284e-05,
+      "loss": 3.3046,
+      "step": 15600
+    },
+    {
+      "epoch": 14.811512149091767,
+      "grad_norm": 0.6668530106544495,
+      "learning_rate": 9.90139036783633e-05,
+      "loss": 3.3031,
+      "step": 15700
+    },
+    {
+      "epoch": 14.905874026893136,
+      "grad_norm": 0.6760970950126648,
+      "learning_rate": 9.897911339730527e-05,
+      "loss": 3.3031,
+      "step": 15800
+    },
+    {
+      "epoch": 15.0,
+      "grad_norm": 0.8160315155982971,
+      "learning_rate": 9.894372632120738e-05,
+      "loss": 3.3028,
+      "step": 15900
+    },
+    {
+      "epoch": 15.094361877801369,
+      "grad_norm": 0.6879032850265503,
+      "learning_rate": 9.890774288124996e-05,
+      "loss": 3.2276,
+      "step": 16000
+    },
+    {
+      "epoch": 15.094361877801369,
+      "eval_loss": 3.4133388996124268,
+      "eval_runtime": 89.9633,
+      "eval_samples_per_second": 167.524,
+      "eval_steps_per_second": 5.235,
+      "step": 16000
+    },
+    {
+      "epoch": 15.188723755602737,
+      "grad_norm": 0.688949704170227,
+      "learning_rate": 9.887116351587985e-05,
+      "loss": 3.2447,
+      "step": 16100
+    },
+    {
+      "epoch": 15.283085633404104,
+      "grad_norm": 0.6961474418640137,
+      "learning_rate": 9.883398867080513e-05,
+      "loss": 3.2392,
+      "step": 16200
+    },
+    {
+      "epoch": 15.377447511205473,
+      "grad_norm": 0.681828498840332,
+      "learning_rate": 9.87962187989895e-05,
+      "loss": 3.2465,
+      "step": 16300
+    },
+    {
+      "epoch": 15.471809389006841,
+      "grad_norm": 0.6817638874053955,
+      "learning_rate": 9.875785436064697e-05,
+      "loss": 3.2503,
+      "step": 16400
+    },
+    {
+      "epoch": 15.56617126680821,
+      "grad_norm": 0.6779124736785889,
+      "learning_rate": 9.871889582323609e-05,
+      "loss": 3.2555,
+      "step": 16500
+    },
+    {
+      "epoch": 15.660533144609577,
+      "grad_norm": 0.6662207841873169,
+      "learning_rate": 9.867934366145435e-05,
+      "loss": 3.263,
+      "step": 16600
+    },
+    {
+      "epoch": 15.754895022410945,
+      "grad_norm": 0.691040575504303,
+      "learning_rate": 9.863919835723236e-05,
+      "loss": 3.2616,
+      "step": 16700
+    },
+    {
+      "epoch": 15.849256900212314,
+      "grad_norm": 0.6542192101478577,
+      "learning_rate": 9.859846039972798e-05,
+      "loss": 3.2662,
+      "step": 16800
+    },
+    {
+      "epoch": 15.943618778013683,
+      "grad_norm": 0.6532755494117737,
+      "learning_rate": 9.855713028532036e-05,
+      "loss": 3.2684,
+      "step": 16900
+    },
+    {
+      "epoch": 16.03774475112055,
+      "grad_norm": 0.6761746406555176,
+      "learning_rate": 9.851520851760394e-05,
+      "loss": 3.2356,
+      "step": 17000
+    },
+    {
+      "epoch": 16.03774475112055,
+      "eval_loss": 3.402015447616577,
+      "eval_runtime": 89.929,
+      "eval_samples_per_second": 167.588,
+      "eval_steps_per_second": 5.237,
+      "step": 17000
+    },
+    {
+      "epoch": 16.132106628921914,
+      "grad_norm": 0.6820452809333801,
+      "learning_rate": 9.847269560738218e-05,
+      "loss": 3.1936,
+      "step": 17100
+    },
+    {
+      "epoch": 16.226468506723283,
+      "grad_norm": 0.6789988875389099,
+      "learning_rate": 9.842959207266149e-05,
+      "loss": 3.2047,
+      "step": 17200
+    },
+    {
+      "epoch": 16.32083038452465,
+      "grad_norm": 0.6698039174079895,
+      "learning_rate": 9.838589843864484e-05,
+      "loss": 3.2103,
+      "step": 17300
+    },
+    {
+      "epoch": 16.41519226232602,
+      "grad_norm": 0.6566837430000305,
+      "learning_rate": 9.834161523772539e-05,
+      "loss": 3.2203,
+      "step": 17400
+    },
+    {
+      "epoch": 16.50955414012739,
+      "grad_norm": 0.677543044090271,
+      "learning_rate": 9.829674300947993e-05,
+      "loss": 3.222,
+      "step": 17500
+    },
+    {
+      "epoch": 16.603916017928757,
+      "grad_norm": 0.679976761341095,
+      "learning_rate": 9.825128230066244e-05,
+      "loss": 3.2282,
+      "step": 17600
+    },
+    {
+      "epoch": 16.698277895730126,
+      "grad_norm": 0.670319676399231,
+      "learning_rate": 9.82052336651973e-05,
+      "loss": 3.2225,
+      "step": 17700
+    },
+    {
+      "epoch": 16.792639773531494,
+      "grad_norm": 0.6647588610649109,
+      "learning_rate": 9.815859766417257e-05,
+      "loss": 3.2326,
+      "step": 17800
+    },
+    {
+      "epoch": 16.887001651332863,
+      "grad_norm": 0.6643775701522827,
+      "learning_rate": 9.811137486583324e-05,
+      "loss": 3.2256,
+      "step": 17900
+    },
+    {
+      "epoch": 16.981363529134228,
+      "grad_norm": 0.6705678701400757,
+      "learning_rate": 9.806356584557419e-05,
+      "loss": 3.2403,
+      "step": 18000
+    },
+    {
+      "epoch": 16.981363529134228,
+      "eval_loss": 3.387256622314453,
+      "eval_runtime": 89.9338,
+      "eval_samples_per_second": 167.579,
+      "eval_steps_per_second": 5.237,
+      "step": 18000
+    },
+    {
+      "epoch": 17.075489502241094,
+      "grad_norm": 0.6900054216384888,
+      "learning_rate": 9.801517118593327e-05,
+      "loss": 3.1775,
+      "step": 18100
+    },
+    {
+      "epoch": 17.169851380042463,
+      "grad_norm": 0.6650823950767517,
+      "learning_rate": 9.796619147658408e-05,
+      "loss": 3.1641,
+      "step": 18200
+    },
+    {
+      "epoch": 17.26421325784383,
+      "grad_norm": 0.6726897358894348,
+      "learning_rate": 9.791662731432898e-05,
+      "loss": 3.175,
+      "step": 18300
+    },
+    {
+      "epoch": 17.3585751356452,
+      "grad_norm": 0.6691387295722961,
+      "learning_rate": 9.78664793030916e-05,
+      "loss": 3.1834,
+      "step": 18400
+    },
+    {
+      "epoch": 17.45293701344657,
+      "grad_norm": 0.6631948351860046,
+      "learning_rate": 9.781574805390967e-05,
+      "loss": 3.1814,
+      "step": 18500
+    },
+    {
+      "epoch": 17.547298891247937,
+      "grad_norm": 0.6776889562606812,
+      "learning_rate": 9.776443418492744e-05,
+      "loss": 3.1934,
+      "step": 18600
+    },
+    {
+      "epoch": 17.641660769049302,
+      "grad_norm": 0.6866058111190796,
+      "learning_rate": 9.771253832138819e-05,
+      "loss": 3.1933,
+      "step": 18700
+    },
+    {
+      "epoch": 17.73602264685067,
+      "grad_norm": 0.6719706058502197,
+      "learning_rate": 9.766006109562664e-05,
+      "loss": 3.1993,
+      "step": 18800
+    },
+    {
+      "epoch": 17.83038452465204,
+      "grad_norm": 0.6513810753822327,
+      "learning_rate": 9.760700314706125e-05,
+      "loss": 3.21,
+      "step": 18900
+    },
+    {
+      "epoch": 17.924746402453408,
+      "grad_norm": 0.6892839074134827,
+      "learning_rate": 9.755336512218638e-05,
+      "loss": 3.2045,
+      "step": 19000
+    },
+    {
+      "epoch": 17.924746402453408,
+      "eval_loss": 3.3803834915161133,
+      "eval_runtime": 89.9356,
+      "eval_samples_per_second": 167.575,
+      "eval_steps_per_second": 5.237,
+      "step": 19000
+    },
+    {
+      "epoch": 18.018872375560274,
+      "grad_norm": 0.671567440032959,
+      "learning_rate": 9.749914767456441e-05,
+      "loss": 3.1867,
+      "step": 19100
+    },
+    {
+      "epoch": 18.113234253361643,
+      "grad_norm": 0.6859995126724243,
+      "learning_rate": 9.744435146481785e-05,
+      "loss": 3.1267,
+      "step": 19200
+    },
+    {
+      "epoch": 18.20759613116301,
+      "grad_norm": 0.6942476630210876,
+      "learning_rate": 9.738897716062121e-05,
+      "loss": 3.1458,
+      "step": 19300
+    },
+    {
+      "epoch": 18.301958008964377,
+      "grad_norm": 0.6862732768058777,
+      "learning_rate": 9.733302543669291e-05,
+      "loss": 3.151,
+      "step": 19400
+    },
+    {
+      "epoch": 18.396319886765745,
+      "grad_norm": 0.6695058941841125,
+      "learning_rate": 9.727649697478708e-05,
+      "loss": 3.1599,
+      "step": 19500
+    },
+    {
+      "epoch": 18.490681764567114,
+      "grad_norm": 0.6894610524177551,
+      "learning_rate": 9.721939246368515e-05,
+      "loss": 3.1535,
+      "step": 19600
+    },
+    {
+      "epoch": 18.585043642368483,
+      "grad_norm": 0.65924471616745,
+      "learning_rate": 9.716171259918758e-05,
+      "loss": 3.1606,
+      "step": 19700
+    },
+    {
+      "epoch": 18.67940552016985,
+      "grad_norm": 0.6839491724967957,
+      "learning_rate": 9.710345808410532e-05,
+      "loss": 3.1706,
+      "step": 19800
+    },
+    {
+      "epoch": 18.77376739797122,
+      "grad_norm": 0.6813986897468567,
+      "learning_rate": 9.704462962825124e-05,
+      "loss": 3.1755,
+      "step": 19900
+    },
+    {
+      "epoch": 18.86812927577259,
+      "grad_norm": 0.677698016166687,
+      "learning_rate": 9.698522794843154e-05,
+      "loss": 3.1827,
+      "step": 20000
+    },
+    {
+      "epoch": 18.86812927577259,
+      "eval_loss": 3.3754522800445557,
+      "eval_runtime": 89.9428,
+      "eval_samples_per_second": 167.562,
+      "eval_steps_per_second": 5.237,
+      "step": 20000
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 100000,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 95,
+  "save_steps": 5000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 6.6869595537408e+17,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-20000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:957cda2979c68b0633284b2934027f8314c64d83a5adc00047c3d99cde26be4b
+size 5432

checkpoint-20000/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-80000/config.json ADDED Viewed

	@@ -0,0 +1,32 @@

+{
+  "activation_function": "gelu_new",
+  "architectures": [
+    "GPT2LMHeadModel"
+  ],
+  "attn_pdrop": 0.1,
+  "bos_token_id": 50256,
+  "dtype": "float32",
+  "embd_pdrop": 0.1,
+  "eos_token_id": 50256,
+  "initializer_range": 0.02,
+  "layer_norm_epsilon": 1e-12,
+  "model_type": "gpt2",
+  "n_embd": 768,
+  "n_head": 12,
+  "n_inner": 3072,
+  "n_layer": 12,
+  "n_positions": 1024,
+  "pad_token_id": 50256,
+  "reorder_and_upcast_attn": false,
+  "resid_pdrop": 0.1,
+  "scale_attn_by_inverse_layer_idx": false,
+  "scale_attn_weights": true,
+  "summary_activation": null,
+  "summary_first_dropout": 0.1,
+  "summary_proj_to_labels": true,
+  "summary_type": "cls_index",
+  "summary_use_proj": true,
+  "transformers_version": "4.57.1",
+  "use_cache": false,
+  "vocab_size": 50257
+}

checkpoint-80000/generation_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 50256,
+  "eos_token_id": [
+    50256
+  ],
+  "pad_token_id": 50256,
+  "transformers_version": "4.57.1"
+}

checkpoint-80000/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-80000/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f739c2e20fecc880100925cc6b2ce918af1f005622ef858ee4e45306bd2dcc86
+size 497774208

checkpoint-80000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8a398069ba74167566ee6e402d21808ef801da7c29dab9c0fd92ed174aa93a69
+size 995642298

checkpoint-80000/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:55b50e8305ac657ea79c24b79ab1e4479e249aa89323442c2b87b005533c135f
+size 14244

checkpoint-80000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:32ff1c11e4894b5e7e282f5008b74cc430c25fff808f615cdf0f627d1157b43d
+size 1064

checkpoint-80000/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "bos_token": "<|endoftext|>",
+  "eos_token": "<|endoftext|>",
+  "pad_token": "<|endoftext|>",
+  "unk_token": "<|endoftext|>"
+}

checkpoint-80000/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-80000/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,21 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "50256": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<|endoftext|>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|endoftext|>",
+  "extra_special_tokens": {},
+  "model_max_length": 1024,
+  "pad_token": "<|endoftext|>",
+  "tokenizer_class": "GPT2Tokenizer",
+  "unk_token": "<|endoftext|>"
+}

checkpoint-80000/trainer_state.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-80000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:957cda2979c68b0633284b2934027f8314c64d83a5adc00047c3d99cde26be4b
+size 5432

checkpoint-80000/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-85000/config.json ADDED Viewed

	@@ -0,0 +1,32 @@

+{
+  "activation_function": "gelu_new",
+  "architectures": [
+    "GPT2LMHeadModel"
+  ],
+  "attn_pdrop": 0.1,
+  "bos_token_id": 50256,
+  "dtype": "float32",
+  "embd_pdrop": 0.1,
+  "eos_token_id": 50256,
+  "initializer_range": 0.02,
+  "layer_norm_epsilon": 1e-12,
+  "model_type": "gpt2",
+  "n_embd": 768,
+  "n_head": 12,
+  "n_inner": 3072,
+  "n_layer": 12,
+  "n_positions": 1024,
+  "pad_token_id": 50256,
+  "reorder_and_upcast_attn": false,
+  "resid_pdrop": 0.1,
+  "scale_attn_by_inverse_layer_idx": false,
+  "scale_attn_weights": true,
+  "summary_activation": null,
+  "summary_first_dropout": 0.1,
+  "summary_proj_to_labels": true,
+  "summary_type": "cls_index",
+  "summary_use_proj": true,
+  "transformers_version": "4.57.1",
+  "use_cache": false,
+  "vocab_size": 50257
+}

checkpoint-85000/generation_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 50256,
+  "eos_token_id": [
+    50256
+  ],
+  "pad_token_id": 50256,
+  "transformers_version": "4.57.1"
+}

checkpoint-85000/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-85000/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:02869a0c70ea08672453c9b90f10fd5ada1d4dda2a8b63ffe3dc32d335d5a7b6
+size 497774208

checkpoint-85000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ee96fa7338788756ace617c632e0c64b1156ae34253da434afd9237cd29b8f9c
+size 995642298

checkpoint-85000/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:88127b5daf4718fb4a591df0ff25e4fc8035057dcbb94eb84c9d99a8b6bf684a
+size 14244

checkpoint-85000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ee02bcd5f604a40b6bfc7bdb366ad2852db969eff753f24f2a39e11d755c9c48
+size 1064

checkpoint-85000/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "bos_token": "<|endoftext|>",
+  "eos_token": "<|endoftext|>",
+  "pad_token": "<|endoftext|>",
+  "unk_token": "<|endoftext|>"
+}

checkpoint-85000/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-85000/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,21 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "50256": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<|endoftext|>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|endoftext|>",
+  "extra_special_tokens": {},
+  "model_max_length": 1024,
+  "pad_token": "<|endoftext|>",
+  "tokenizer_class": "GPT2Tokenizer",
+  "unk_token": "<|endoftext|>"
+}

checkpoint-85000/trainer_state.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-85000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:957cda2979c68b0633284b2934027f8314c64d83a5adc00047c3d99cde26be4b
+size 5432

checkpoint-85000/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-90000/config.json ADDED Viewed

	@@ -0,0 +1,32 @@

+{
+  "activation_function": "gelu_new",
+  "architectures": [
+    "GPT2LMHeadModel"
+  ],
+  "attn_pdrop": 0.1,
+  "bos_token_id": 50256,
+  "dtype": "float32",
+  "embd_pdrop": 0.1,
+  "eos_token_id": 50256,
+  "initializer_range": 0.02,
+  "layer_norm_epsilon": 1e-12,
+  "model_type": "gpt2",
+  "n_embd": 768,
+  "n_head": 12,
+  "n_inner": 3072,
+  "n_layer": 12,
+  "n_positions": 1024,
+  "pad_token_id": 50256,
+  "reorder_and_upcast_attn": false,
+  "resid_pdrop": 0.1,
+  "scale_attn_by_inverse_layer_idx": false,
+  "scale_attn_weights": true,
+  "summary_activation": null,
+  "summary_first_dropout": 0.1,
+  "summary_proj_to_labels": true,
+  "summary_type": "cls_index",
+  "summary_use_proj": true,
+  "transformers_version": "4.57.1",
+  "use_cache": false,
+  "vocab_size": 50257
+}

checkpoint-90000/generation_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 50256,
+  "eos_token_id": [
+    50256
+  ],
+  "pad_token_id": 50256,
+  "transformers_version": "4.57.1"
+}

checkpoint-90000/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-90000/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3237f4700e803890a6e9019e2e0fa8df8b709af12c64793a3adab195589f7d11
+size 497774208

checkpoint-90000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fae2142ee7a722d78f6e8ad559e9903e1e2396b2ed800d305db89edf1911d380
+size 995642298

checkpoint-90000/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3bc71c2bbc9f5ec50891e422471377fac0e60017caea1d1e31a441cd3ffed609
+size 14244

checkpoint-90000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:50300a1a7032aa664901bea90ce70e91cf6ac0ae95bab8681aa8bae002d20396
+size 1064

checkpoint-90000/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "bos_token": "<|endoftext|>",
+  "eos_token": "<|endoftext|>",
+  "pad_token": "<|endoftext|>",
+  "unk_token": "<|endoftext|>"
+}

checkpoint-90000/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-90000/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,21 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "50256": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<|endoftext|>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|endoftext|>",
+  "extra_special_tokens": {},
+  "model_max_length": 1024,
+  "pad_token": "<|endoftext|>",
+  "tokenizer_class": "GPT2Tokenizer",
+  "unk_token": "<|endoftext|>"
+}

checkpoint-90000/trainer_state.json ADDED Viewed

The diff for this file is too large to render. See raw diff