End of training

Browse files

Files changed (7) hide show

README.md +1 -1
all_results.json +13 -0
eval_results.json +8 -0
train_results.json +9 -0
trainer_state.json +2694 -0
training_eval_loss.png +0 -0
training_loss.png +0 -0

README.md CHANGED Viewed

@@ -17,7 +17,7 @@ should probably proofread and complete it, then remove this comment. -->
 # train_copa_456_1760637759
-This model is a fine-tuned version of [meta-llama/Meta-Llama-3-8B-Instruct](https://huggingface.co/meta-llama/Meta-Llama-3-8B-Instruct) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: 1.0934
 - Num Input Tokens Seen: 501440

 # train_copa_456_1760637759
+This model is a fine-tuned version of [meta-llama/Meta-Llama-3-8B-Instruct](https://huggingface.co/meta-llama/Meta-Llama-3-8B-Instruct) on the copa dataset.
 It achieves the following results on the evaluation set:
 - Loss: 1.0934
 - Num Input Tokens Seen: 501440

all_results.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+    "epoch": 20.0,
+    "eval_loss": 1.093362808227539,
+    "eval_runtime": 0.9825,
+    "eval_samples_per_second": 81.421,
+    "eval_steps_per_second": 20.355,
+    "num_input_tokens_seen": 501440,
+    "total_flos": 2.257961656516608e+16,
+    "train_loss": 0.2722132059369324,
+    "train_runtime": 168.4339,
+    "train_samples_per_second": 37.997,
+    "train_steps_per_second": 9.499
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 20.0,
+    "eval_loss": 1.093362808227539,
+    "eval_runtime": 0.9825,
+    "eval_samples_per_second": 81.421,
+    "eval_steps_per_second": 20.355,
+    "num_input_tokens_seen": 501440
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 20.0,
+    "num_input_tokens_seen": 501440,
+    "total_flos": 2.257961656516608e+16,
+    "train_loss": 0.2722132059369324,
+    "train_runtime": 168.4339,
+    "train_samples_per_second": 37.997,
+    "train_steps_per_second": 9.499
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,2694 @@

+{
+  "best_global_step": 320,
+  "best_metric": 0.23625226318836212,
+  "best_model_checkpoint": "saves_multiple/prefix-tuning/llama-3-8b-instruct/train_copa_456_1760637759/checkpoint-320",
+  "epoch": 20.0,
+  "eval_steps": 160,
+  "global_step": 1600,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0625,
+      "grad_norm": 200.03012084960938,
+      "learning_rate": 2.5000000000000004e-07,
+      "loss": 9.2806,
+      "num_input_tokens_seen": 1632,
+      "step": 5
+    },
+    {
+      "epoch": 0.125,
+      "grad_norm": 214.69956970214844,
+      "learning_rate": 5.625e-07,
+      "loss": 8.7836,
+      "num_input_tokens_seen": 3136,
+      "step": 10
+    },
+    {
+      "epoch": 0.1875,
+      "grad_norm": 193.6563720703125,
+      "learning_rate": 8.75e-07,
+      "loss": 7.8812,
+      "num_input_tokens_seen": 4736,
+      "step": 15
+    },
+    {
+      "epoch": 0.25,
+      "grad_norm": 165.62625122070312,
+      "learning_rate": 1.1875e-06,
+      "loss": 6.7373,
+      "num_input_tokens_seen": 6304,
+      "step": 20
+    },
+    {
+      "epoch": 0.3125,
+      "grad_norm": 128.19512939453125,
+      "learning_rate": 1.5e-06,
+      "loss": 5.2865,
+      "num_input_tokens_seen": 7904,
+      "step": 25
+    },
+    {
+      "epoch": 0.375,
+      "grad_norm": 103.28244018554688,
+      "learning_rate": 1.8125e-06,
+      "loss": 3.977,
+      "num_input_tokens_seen": 9472,
+      "step": 30
+    },
+    {
+      "epoch": 0.4375,
+      "grad_norm": 80.52030944824219,
+      "learning_rate": 2.125e-06,
+      "loss": 2.8338,
+      "num_input_tokens_seen": 11008,
+      "step": 35
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 58.259361267089844,
+      "learning_rate": 2.4375e-06,
+      "loss": 1.5963,
+      "num_input_tokens_seen": 12512,
+      "step": 40
+    },
+    {
+      "epoch": 0.5625,
+      "grad_norm": 41.13335418701172,
+      "learning_rate": 2.7500000000000004e-06,
+      "loss": 0.8379,
+      "num_input_tokens_seen": 14016,
+      "step": 45
+    },
+    {
+      "epoch": 0.625,
+      "grad_norm": 44.33089828491211,
+      "learning_rate": 3.0625000000000003e-06,
+      "loss": 0.4101,
+      "num_input_tokens_seen": 15584,
+      "step": 50
+    },
+    {
+      "epoch": 0.6875,
+      "grad_norm": 89.49345397949219,
+      "learning_rate": 3.3750000000000003e-06,
+      "loss": 0.3284,
+      "num_input_tokens_seen": 17152,
+      "step": 55
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 22.057518005371094,
+      "learning_rate": 3.6875000000000007e-06,
+      "loss": 0.3562,
+      "num_input_tokens_seen": 18752,
+      "step": 60
+    },
+    {
+      "epoch": 0.8125,
+      "grad_norm": 15.762816429138184,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 0.2688,
+      "num_input_tokens_seen": 20320,
+      "step": 65
+    },
+    {
+      "epoch": 0.875,
+      "grad_norm": 25.10136604309082,
+      "learning_rate": 4.312500000000001e-06,
+      "loss": 0.2826,
+      "num_input_tokens_seen": 21888,
+      "step": 70
+    },
+    {
+      "epoch": 0.9375,
+      "grad_norm": 22.71470832824707,
+      "learning_rate": 4.625000000000001e-06,
+      "loss": 0.2588,
+      "num_input_tokens_seen": 23424,
+      "step": 75
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 8.763684272766113,
+      "learning_rate": 4.937500000000001e-06,
+      "loss": 0.2796,
+      "num_input_tokens_seen": 24960,
+      "step": 80
+    },
+    {
+      "epoch": 1.0625,
+      "grad_norm": 24.20291519165039,
+      "learning_rate": 5.2500000000000006e-06,
+      "loss": 0.2615,
+      "num_input_tokens_seen": 26464,
+      "step": 85
+    },
+    {
+      "epoch": 1.125,
+      "grad_norm": 5.363375663757324,
+      "learning_rate": 5.5625000000000005e-06,
+      "loss": 0.263,
+      "num_input_tokens_seen": 28064,
+      "step": 90
+    },
+    {
+      "epoch": 1.1875,
+      "grad_norm": 34.018043518066406,
+      "learning_rate": 5.8750000000000005e-06,
+      "loss": 0.2422,
+      "num_input_tokens_seen": 29664,
+      "step": 95
+    },
+    {
+      "epoch": 1.25,
+      "grad_norm": 35.1256217956543,
+      "learning_rate": 6.1875000000000005e-06,
+      "loss": 0.2233,
+      "num_input_tokens_seen": 31264,
+      "step": 100
+    },
+    {
+      "epoch": 1.3125,
+      "grad_norm": 7.767378807067871,
+      "learning_rate": 6.5000000000000004e-06,
+      "loss": 0.2181,
+      "num_input_tokens_seen": 32864,
+      "step": 105
+    },
+    {
+      "epoch": 1.375,
+      "grad_norm": 14.077888488769531,
+      "learning_rate": 6.8125e-06,
+      "loss": 0.3463,
+      "num_input_tokens_seen": 34432,
+      "step": 110
+    },
+    {
+      "epoch": 1.4375,
+      "grad_norm": 10.013070106506348,
+      "learning_rate": 7.125e-06,
+      "loss": 0.2563,
+      "num_input_tokens_seen": 35968,
+      "step": 115
+    },
+    {
+      "epoch": 1.5,
+      "grad_norm": 7.696524143218994,
+      "learning_rate": 7.437500000000001e-06,
+      "loss": 0.2045,
+      "num_input_tokens_seen": 37536,
+      "step": 120
+    },
+    {
+      "epoch": 1.5625,
+      "grad_norm": 12.979708671569824,
+      "learning_rate": 7.75e-06,
+      "loss": 0.432,
+      "num_input_tokens_seen": 39136,
+      "step": 125
+    },
+    {
+      "epoch": 1.625,
+      "grad_norm": 19.278409957885742,
+      "learning_rate": 8.062500000000001e-06,
+      "loss": 0.2754,
+      "num_input_tokens_seen": 40736,
+      "step": 130
+    },
+    {
+      "epoch": 1.6875,
+      "grad_norm": 7.332155704498291,
+      "learning_rate": 8.375e-06,
+      "loss": 0.2547,
+      "num_input_tokens_seen": 42240,
+      "step": 135
+    },
+    {
+      "epoch": 1.75,
+      "grad_norm": 4.9524245262146,
+      "learning_rate": 8.687500000000001e-06,
+      "loss": 0.2304,
+      "num_input_tokens_seen": 43808,
+      "step": 140
+    },
+    {
+      "epoch": 1.8125,
+      "grad_norm": 7.520391941070557,
+      "learning_rate": 9e-06,
+      "loss": 0.218,
+      "num_input_tokens_seen": 45344,
+      "step": 145
+    },
+    {
+      "epoch": 1.875,
+      "grad_norm": 15.684959411621094,
+      "learning_rate": 9.312500000000001e-06,
+      "loss": 0.2485,
+      "num_input_tokens_seen": 46912,
+      "step": 150
+    },
+    {
+      "epoch": 1.9375,
+      "grad_norm": 3.4786770343780518,
+      "learning_rate": 9.625e-06,
+      "loss": 0.2414,
+      "num_input_tokens_seen": 48480,
+      "step": 155
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 2.7771852016448975,
+      "learning_rate": 9.937500000000001e-06,
+      "loss": 0.2344,
+      "num_input_tokens_seen": 50080,
+      "step": 160
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 0.23884077370166779,
+      "eval_runtime": 0.9157,
+      "eval_samples_per_second": 87.369,
+      "eval_steps_per_second": 21.842,
+      "num_input_tokens_seen": 50080,
+      "step": 160
+    },
+    {
+      "epoch": 2.0625,
+      "grad_norm": 4.3142242431640625,
+      "learning_rate": 9.999809615320857e-06,
+      "loss": 0.2257,
+      "num_input_tokens_seen": 51616,
+      "step": 165
+    },
+    {
+      "epoch": 2.125,
+      "grad_norm": 3.4161956310272217,
+      "learning_rate": 9.999036202410324e-06,
+      "loss": 0.1899,
+      "num_input_tokens_seen": 53216,
+      "step": 170
+    },
+    {
+      "epoch": 2.1875,
+      "grad_norm": 10.080194473266602,
+      "learning_rate": 9.997667954183566e-06,
+      "loss": 0.3096,
+      "num_input_tokens_seen": 54784,
+      "step": 175
+    },
+    {
+      "epoch": 2.25,
+      "grad_norm": 3.2639670372009277,
+      "learning_rate": 9.995705033448435e-06,
+      "loss": 0.2305,
+      "num_input_tokens_seen": 56384,
+      "step": 180
+    },
+    {
+      "epoch": 2.3125,
+      "grad_norm": 9.221940040588379,
+      "learning_rate": 9.993147673772869e-06,
+      "loss": 0.2628,
+      "num_input_tokens_seen": 57920,
+      "step": 185
+    },
+    {
+      "epoch": 2.375,
+      "grad_norm": 3.5883162021636963,
+      "learning_rate": 9.9899961794571e-06,
+      "loss": 0.2506,
+      "num_input_tokens_seen": 59520,
+      "step": 190
+    },
+    {
+      "epoch": 2.4375,
+      "grad_norm": 14.086549758911133,
+      "learning_rate": 9.986250925497429e-06,
+      "loss": 0.2822,
+      "num_input_tokens_seen": 61088,
+      "step": 195
+    },
+    {
+      "epoch": 2.5,
+      "grad_norm": 7.669594764709473,
+      "learning_rate": 9.981912357541628e-06,
+      "loss": 0.2747,
+      "num_input_tokens_seen": 62656,
+      "step": 200
+    },
+    {
+      "epoch": 2.5625,
+      "grad_norm": 2.2965734004974365,
+      "learning_rate": 9.976980991835896e-06,
+      "loss": 0.2442,
+      "num_input_tokens_seen": 64224,
+      "step": 205
+    },
+    {
+      "epoch": 2.625,
+      "grad_norm": 3.275341033935547,
+      "learning_rate": 9.971457415163435e-06,
+      "loss": 0.2616,
+      "num_input_tokens_seen": 65760,
+      "step": 210
+    },
+    {
+      "epoch": 2.6875,
+      "grad_norm": 2.5465989112854004,
+      "learning_rate": 9.965342284774633e-06,
+      "loss": 0.2425,
+      "num_input_tokens_seen": 67296,
+      "step": 215
+    },
+    {
+      "epoch": 2.75,
+      "grad_norm": 4.648524284362793,
+      "learning_rate": 9.958636328308852e-06,
+      "loss": 0.2764,
+      "num_input_tokens_seen": 68832,
+      "step": 220
+    },
+    {
+      "epoch": 2.8125,
+      "grad_norm": 10.161576271057129,
+      "learning_rate": 9.951340343707852e-06,
+      "loss": 0.255,
+      "num_input_tokens_seen": 70400,
+      "step": 225
+    },
+    {
+      "epoch": 2.875,
+      "grad_norm": 5.629575252532959,
+      "learning_rate": 9.943455199120836e-06,
+      "loss": 0.2356,
+      "num_input_tokens_seen": 72000,
+      "step": 230
+    },
+    {
+      "epoch": 2.9375,
+      "grad_norm": 4.087530612945557,
+      "learning_rate": 9.934981832801161e-06,
+      "loss": 0.2339,
+      "num_input_tokens_seen": 73536,
+      "step": 235
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 1.1364092826843262,
+      "learning_rate": 9.925921252994677e-06,
+      "loss": 0.232,
+      "num_input_tokens_seen": 75104,
+      "step": 240
+    },
+    {
+      "epoch": 3.0625,
+      "grad_norm": 1.9829556941986084,
+      "learning_rate": 9.916274537819774e-06,
+      "loss": 0.2282,
+      "num_input_tokens_seen": 76640,
+      "step": 245
+    },
+    {
+      "epoch": 3.125,
+      "grad_norm": 1.830893635749817,
+      "learning_rate": 9.90604283513909e-06,
+      "loss": 0.2614,
+      "num_input_tokens_seen": 78208,
+      "step": 250
+    },
+    {
+      "epoch": 3.1875,
+      "grad_norm": 2.716417074203491,
+      "learning_rate": 9.89522736242292e-06,
+      "loss": 0.2393,
+      "num_input_tokens_seen": 79808,
+      "step": 255
+    },
+    {
+      "epoch": 3.25,
+      "grad_norm": 3.134875774383545,
+      "learning_rate": 9.883829406604363e-06,
+      "loss": 0.2281,
+      "num_input_tokens_seen": 81376,
+      "step": 260
+    },
+    {
+      "epoch": 3.3125,
+      "grad_norm": 12.125977516174316,
+      "learning_rate": 9.871850323926178e-06,
+      "loss": 0.2635,
+      "num_input_tokens_seen": 82912,
+      "step": 265
+    },
+    {
+      "epoch": 3.375,
+      "grad_norm": 1.7760015726089478,
+      "learning_rate": 9.859291539779407e-06,
+      "loss": 0.2369,
+      "num_input_tokens_seen": 84512,
+      "step": 270
+    },
+    {
+      "epoch": 3.4375,
+      "grad_norm": 1.7993685007095337,
+      "learning_rate": 9.846154548533773e-06,
+      "loss": 0.2255,
+      "num_input_tokens_seen": 86112,
+      "step": 275
+    },
+    {
+      "epoch": 3.5,
+      "grad_norm": 7.983632564544678,
+      "learning_rate": 9.83244091335986e-06,
+      "loss": 0.2446,
+      "num_input_tokens_seen": 87648,
+      "step": 280
+    },
+    {
+      "epoch": 3.5625,
+      "grad_norm": 4.111968517303467,
+      "learning_rate": 9.818152266043115e-06,
+      "loss": 0.2316,
+      "num_input_tokens_seen": 89280,
+      "step": 285
+    },
+    {
+      "epoch": 3.625,
+      "grad_norm": 4.560153007507324,
+      "learning_rate": 9.803290306789676e-06,
+      "loss": 0.2343,
+      "num_input_tokens_seen": 90816,
+      "step": 290
+    },
+    {
+      "epoch": 3.6875,
+      "grad_norm": 5.503631114959717,
+      "learning_rate": 9.787856804024073e-06,
+      "loss": 0.2224,
+      "num_input_tokens_seen": 92352,
+      "step": 295
+    },
+    {
+      "epoch": 3.75,
+      "grad_norm": 5.467092514038086,
+      "learning_rate": 9.771853594178791e-06,
+      "loss": 0.2373,
+      "num_input_tokens_seen": 93888,
+      "step": 300
+    },
+    {
+      "epoch": 3.8125,
+      "grad_norm": 4.816873550415039,
+      "learning_rate": 9.755282581475769e-06,
+      "loss": 0.2378,
+      "num_input_tokens_seen": 95424,
+      "step": 305
+    },
+    {
+      "epoch": 3.875,
+      "grad_norm": 0.8352380990982056,
+      "learning_rate": 9.7381457376998e-06,
+      "loss": 0.2402,
+      "num_input_tokens_seen": 96960,
+      "step": 310
+    },
+    {
+      "epoch": 3.9375,
+      "grad_norm": 1.431336760520935,
+      "learning_rate": 9.720445101963923e-06,
+      "loss": 0.2336,
+      "num_input_tokens_seen": 98528,
+      "step": 315
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 0.8496450185775757,
+      "learning_rate": 9.702182780466775e-06,
+      "loss": 0.2424,
+      "num_input_tokens_seen": 100096,
+      "step": 320
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 0.23625226318836212,
+      "eval_runtime": 0.9166,
+      "eval_samples_per_second": 87.277,
+      "eval_steps_per_second": 21.819,
+      "num_input_tokens_seen": 100096,
+      "step": 320
+    },
+    {
+      "epoch": 4.0625,
+      "grad_norm": 0.5525237321853638,
+      "learning_rate": 9.683360946241988e-06,
+      "loss": 0.2293,
+      "num_input_tokens_seen": 101664,
+      "step": 325
+    },
+    {
+      "epoch": 4.125,
+      "grad_norm": 1.4087265729904175,
+      "learning_rate": 9.663981838899612e-06,
+      "loss": 0.2239,
+      "num_input_tokens_seen": 103232,
+      "step": 330
+    },
+    {
+      "epoch": 4.1875,
+      "grad_norm": 0.8357235193252563,
+      "learning_rate": 9.644047764359623e-06,
+      "loss": 0.2219,
+      "num_input_tokens_seen": 104864,
+      "step": 335
+    },
+    {
+      "epoch": 4.25,
+      "grad_norm": 1.3893150091171265,
+      "learning_rate": 9.623561094577541e-06,
+      "loss": 0.2178,
+      "num_input_tokens_seen": 106496,
+      "step": 340
+    },
+    {
+      "epoch": 4.3125,
+      "grad_norm": 1.327685832977295,
+      "learning_rate": 9.602524267262202e-06,
+      "loss": 0.2373,
+      "num_input_tokens_seen": 108064,
+      "step": 345
+    },
+    {
+      "epoch": 4.375,
+      "grad_norm": 2.736804723739624,
+      "learning_rate": 9.58093978558568e-06,
+      "loss": 0.245,
+      "num_input_tokens_seen": 109600,
+      "step": 350
+    },
+    {
+      "epoch": 4.4375,
+      "grad_norm": 1.7261260747909546,
+      "learning_rate": 9.558810217885444e-06,
+      "loss": 0.2297,
+      "num_input_tokens_seen": 111200,
+      "step": 355
+    },
+    {
+      "epoch": 4.5,
+      "grad_norm": 1.1373929977416992,
+      "learning_rate": 9.536138197358747e-06,
+      "loss": 0.2371,
+      "num_input_tokens_seen": 112768,
+      "step": 360
+    },
+    {
+      "epoch": 4.5625,
+      "grad_norm": 0.8946912288665771,
+      "learning_rate": 9.512926421749305e-06,
+      "loss": 0.2346,
+      "num_input_tokens_seen": 114336,
+      "step": 365
+    },
+    {
+      "epoch": 4.625,
+      "grad_norm": 2.0754528045654297,
+      "learning_rate": 9.48917765302629e-06,
+      "loss": 0.2305,
+      "num_input_tokens_seen": 115872,
+      "step": 370
+    },
+    {
+      "epoch": 4.6875,
+      "grad_norm": 0.8747203350067139,
+      "learning_rate": 9.464894717055686e-06,
+      "loss": 0.2299,
+      "num_input_tokens_seen": 117440,
+      "step": 375
+    },
+    {
+      "epoch": 4.75,
+      "grad_norm": 1.415370225906372,
+      "learning_rate": 9.440080503264038e-06,
+      "loss": 0.2204,
+      "num_input_tokens_seen": 118976,
+      "step": 380
+    },
+    {
+      "epoch": 4.8125,
+      "grad_norm": 0.9907402396202087,
+      "learning_rate": 9.414737964294636e-06,
+      "loss": 0.2366,
+      "num_input_tokens_seen": 120544,
+      "step": 385
+    },
+    {
+      "epoch": 4.875,
+      "grad_norm": 2.0482561588287354,
+      "learning_rate": 9.388870115656185e-06,
+      "loss": 0.2541,
+      "num_input_tokens_seen": 122144,
+      "step": 390
+    },
+    {
+      "epoch": 4.9375,
+      "grad_norm": 1.3031115531921387,
+      "learning_rate": 9.362480035363987e-06,
+      "loss": 0.2257,
+      "num_input_tokens_seen": 123680,
+      "step": 395
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 2.6485493183135986,
+      "learning_rate": 9.335570863573687e-06,
+      "loss": 0.235,
+      "num_input_tokens_seen": 125248,
+      "step": 400
+    },
+    {
+      "epoch": 5.0625,
+      "grad_norm": 2.2649688720703125,
+      "learning_rate": 9.30814580220763e-06,
+      "loss": 0.2452,
+      "num_input_tokens_seen": 126848,
+      "step": 405
+    },
+    {
+      "epoch": 5.125,
+      "grad_norm": 1.3141331672668457,
+      "learning_rate": 9.280208114573859e-06,
+      "loss": 0.2276,
+      "num_input_tokens_seen": 128448,
+      "step": 410
+    },
+    {
+      "epoch": 5.1875,
+      "grad_norm": 3.1463115215301514,
+      "learning_rate": 9.251761124977816e-06,
+      "loss": 0.2391,
+      "num_input_tokens_seen": 130048,
+      "step": 415
+    },
+    {
+      "epoch": 5.25,
+      "grad_norm": 1.473178744316101,
+      "learning_rate": 9.222808218326784e-06,
+      "loss": 0.2134,
+      "num_input_tokens_seen": 131616,
+      "step": 420
+    },
+    {
+      "epoch": 5.3125,
+      "grad_norm": 3.250842332839966,
+      "learning_rate": 9.193352839727122e-06,
+      "loss": 0.2114,
+      "num_input_tokens_seen": 133120,
+      "step": 425
+    },
+    {
+      "epoch": 5.375,
+      "grad_norm": 6.812272071838379,
+      "learning_rate": 9.163398494074314e-06,
+      "loss": 0.2555,
+      "num_input_tokens_seen": 134720,
+      "step": 430
+    },
+    {
+      "epoch": 5.4375,
+      "grad_norm": 5.645451068878174,
+      "learning_rate": 9.132948745635943e-06,
+      "loss": 0.2165,
+      "num_input_tokens_seen": 136288,
+      "step": 435
+    },
+    {
+      "epoch": 5.5,
+      "grad_norm": 2.791454315185547,
+      "learning_rate": 9.102007217627568e-06,
+      "loss": 0.2247,
+      "num_input_tokens_seen": 137920,
+      "step": 440
+    },
+    {
+      "epoch": 5.5625,
+      "grad_norm": 3.0683376789093018,
+      "learning_rate": 9.070577591781598e-06,
+      "loss": 0.2556,
+      "num_input_tokens_seen": 139488,
+      "step": 445
+    },
+    {
+      "epoch": 5.625,
+      "grad_norm": 1.0806782245635986,
+      "learning_rate": 9.038663607909198e-06,
+      "loss": 0.2418,
+      "num_input_tokens_seen": 141056,
+      "step": 450
+    },
+    {
+      "epoch": 5.6875,
+      "grad_norm": 3.1237070560455322,
+      "learning_rate": 9.006269063455305e-06,
+      "loss": 0.2406,
+      "num_input_tokens_seen": 142624,
+      "step": 455
+    },
+    {
+      "epoch": 5.75,
+      "grad_norm": 1.0548875331878662,
+      "learning_rate": 8.97339781304675e-06,
+      "loss": 0.2277,
+      "num_input_tokens_seen": 144128,
+      "step": 460
+    },
+    {
+      "epoch": 5.8125,
+      "grad_norm": 1.0157082080841064,
+      "learning_rate": 8.94005376803361e-06,
+      "loss": 0.2334,
+      "num_input_tokens_seen": 145696,
+      "step": 465
+    },
+    {
+      "epoch": 5.875,
+      "grad_norm": 0.5916211605072021,
+      "learning_rate": 8.906240896023794e-06,
+      "loss": 0.2352,
+      "num_input_tokens_seen": 147264,
+      "step": 470
+    },
+    {
+      "epoch": 5.9375,
+      "grad_norm": 1.234691858291626,
+      "learning_rate": 8.871963220410929e-06,
+      "loss": 0.2199,
+      "num_input_tokens_seen": 148864,
+      "step": 475
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 1.6203759908676147,
+      "learning_rate": 8.837224819895627e-06,
+      "loss": 0.226,
+      "num_input_tokens_seen": 150400,
+      "step": 480
+    },
+    {
+      "epoch": 6.0,
+      "eval_loss": 0.24168923497200012,
+      "eval_runtime": 0.9165,
+      "eval_samples_per_second": 87.29,
+      "eval_steps_per_second": 21.823,
+      "num_input_tokens_seen": 150400,
+      "step": 480
+    },
+    {
+      "epoch": 6.0625,
+      "grad_norm": 2.004993438720703,
+      "learning_rate": 8.802029828000157e-06,
+      "loss": 0.2223,
+      "num_input_tokens_seen": 152000,
+      "step": 485
+    },
+    {
+      "epoch": 6.125,
+      "grad_norm": 3.092801332473755,
+      "learning_rate": 8.766382432576589e-06,
+      "loss": 0.237,
+      "num_input_tokens_seen": 153568,
+      "step": 490
+    },
+    {
+      "epoch": 6.1875,
+      "grad_norm": 1.6768417358398438,
+      "learning_rate": 8.730286875308498e-06,
+      "loss": 0.2362,
+      "num_input_tokens_seen": 155168,
+      "step": 495
+    },
+    {
+      "epoch": 6.25,
+      "grad_norm": 2.1835248470306396,
+      "learning_rate": 8.693747451206231e-06,
+      "loss": 0.2231,
+      "num_input_tokens_seen": 156704,
+      "step": 500
+    },
+    {
+      "epoch": 6.3125,
+      "grad_norm": 2.2564566135406494,
+      "learning_rate": 8.656768508095853e-06,
+      "loss": 0.2062,
+      "num_input_tokens_seen": 158176,
+      "step": 505
+    },
+    {
+      "epoch": 6.375,
+      "grad_norm": 1.0601657629013062,
+      "learning_rate": 8.61935444610179e-06,
+      "loss": 0.2769,
+      "num_input_tokens_seen": 159776,
+      "step": 510
+    },
+    {
+      "epoch": 6.4375,
+      "grad_norm": 0.9735612869262695,
+      "learning_rate": 8.581509717123272e-06,
+      "loss": 0.2179,
+      "num_input_tokens_seen": 161280,
+      "step": 515
+    },
+    {
+      "epoch": 6.5,
+      "grad_norm": 1.7658456563949585,
+      "learning_rate": 8.543238824304585e-06,
+      "loss": 0.2378,
+      "num_input_tokens_seen": 162880,
+      "step": 520
+    },
+    {
+      "epoch": 6.5625,
+      "grad_norm": 0.9902642369270325,
+      "learning_rate": 8.504546321499255e-06,
+      "loss": 0.2241,
+      "num_input_tokens_seen": 164448,
+      "step": 525
+    },
+    {
+      "epoch": 6.625,
+      "grad_norm": 2.589862585067749,
+      "learning_rate": 8.465436812728181e-06,
+      "loss": 0.2337,
+      "num_input_tokens_seen": 166048,
+      "step": 530
+    },
+    {
+      "epoch": 6.6875,
+      "grad_norm": 1.0508556365966797,
+      "learning_rate": 8.425914951631796e-06,
+      "loss": 0.2182,
+      "num_input_tokens_seen": 167616,
+      "step": 535
+    },
+    {
+      "epoch": 6.75,
+      "grad_norm": 1.600427269935608,
+      "learning_rate": 8.385985440916344e-06,
+      "loss": 0.2315,
+      "num_input_tokens_seen": 169184,
+      "step": 540
+    },
+    {
+      "epoch": 6.8125,
+      "grad_norm": 3.7025911808013916,
+      "learning_rate": 8.345653031794292e-06,
+      "loss": 0.2306,
+      "num_input_tokens_seen": 170816,
+      "step": 545
+    },
+    {
+      "epoch": 6.875,
+      "grad_norm": 1.6951884031295776,
+      "learning_rate": 8.304922523418988e-06,
+      "loss": 0.2025,
+      "num_input_tokens_seen": 172416,
+      "step": 550
+    },
+    {
+      "epoch": 6.9375,
+      "grad_norm": 2.9659578800201416,
+      "learning_rate": 8.263798762313613e-06,
+      "loss": 0.211,
+      "num_input_tokens_seen": 173952,
+      "step": 555
+    },
+    {
+      "epoch": 7.0,
+      "grad_norm": 4.885127067565918,
+      "learning_rate": 8.222286641794488e-06,
+      "loss": 0.2373,
+      "num_input_tokens_seen": 175520,
+      "step": 560
+    },
+    {
+      "epoch": 7.0625,
+      "grad_norm": 12.386910438537598,
+      "learning_rate": 8.18039110138882e-06,
+      "loss": 0.2171,
+      "num_input_tokens_seen": 177120,
+      "step": 565
+    },
+    {
+      "epoch": 7.125,
+      "grad_norm": 4.289523124694824,
+      "learning_rate": 8.138117126246951e-06,
+      "loss": 0.2133,
+      "num_input_tokens_seen": 178720,
+      "step": 570
+    },
+    {
+      "epoch": 7.1875,
+      "grad_norm": 3.2546839714050293,
+      "learning_rate": 8.095469746549172e-06,
+      "loss": 0.2257,
+      "num_input_tokens_seen": 180288,
+      "step": 575
+    },
+    {
+      "epoch": 7.25,
+      "grad_norm": 3.431429862976074,
+      "learning_rate": 8.052454036907174e-06,
+      "loss": 0.1958,
+      "num_input_tokens_seen": 181888,
+      "step": 580
+    },
+    {
+      "epoch": 7.3125,
+      "grad_norm": 2.91300106048584,
+      "learning_rate": 8.009075115760243e-06,
+      "loss": 0.2011,
+      "num_input_tokens_seen": 183456,
+      "step": 585
+    },
+    {
+      "epoch": 7.375,
+      "grad_norm": 3.276212453842163,
+      "learning_rate": 7.965338144766186e-06,
+      "loss": 0.2053,
+      "num_input_tokens_seen": 185024,
+      "step": 590
+    },
+    {
+      "epoch": 7.4375,
+      "grad_norm": 7.24328088760376,
+      "learning_rate": 7.921248328187174e-06,
+      "loss": 0.2549,
+      "num_input_tokens_seen": 186592,
+      "step": 595
+    },
+    {
+      "epoch": 7.5,
+      "grad_norm": 6.893558979034424,
+      "learning_rate": 7.876810912270462e-06,
+      "loss": 0.237,
+      "num_input_tokens_seen": 188128,
+      "step": 600
+    },
+    {
+      "epoch": 7.5625,
+      "grad_norm": 5.550233364105225,
+      "learning_rate": 7.832031184624165e-06,
+      "loss": 0.2381,
+      "num_input_tokens_seen": 189664,
+      "step": 605
+    },
+    {
+      "epoch": 7.625,
+      "grad_norm": 3.1067495346069336,
+      "learning_rate": 7.786914473588057e-06,
+      "loss": 0.1874,
+      "num_input_tokens_seen": 191232,
+      "step": 610
+    },
+    {
+      "epoch": 7.6875,
+      "grad_norm": 7.392305850982666,
+      "learning_rate": 7.74146614759957e-06,
+      "loss": 0.2148,
+      "num_input_tokens_seen": 192800,
+      "step": 615
+    },
+    {
+      "epoch": 7.75,
+      "grad_norm": 6.367889404296875,
+      "learning_rate": 7.695691614555002e-06,
+      "loss": 0.1938,
+      "num_input_tokens_seen": 194368,
+      "step": 620
+    },
+    {
+      "epoch": 7.8125,
+      "grad_norm": 3.6397085189819336,
+      "learning_rate": 7.649596321166024e-06,
+      "loss": 0.2583,
+      "num_input_tokens_seen": 195936,
+      "step": 625
+    },
+    {
+      "epoch": 7.875,
+      "grad_norm": 4.538295269012451,
+      "learning_rate": 7.603185752311587e-06,
+      "loss": 0.2361,
+      "num_input_tokens_seen": 197568,
+      "step": 630
+    },
+    {
+      "epoch": 7.9375,
+      "grad_norm": 2.7171273231506348,
+      "learning_rate": 7.55646543038526e-06,
+      "loss": 0.2024,
+      "num_input_tokens_seen": 199136,
+      "step": 635
+    },
+    {
+      "epoch": 8.0,
+      "grad_norm": 3.4454898834228516,
+      "learning_rate": 7.50944091463814e-06,
+      "loss": 0.203,
+      "num_input_tokens_seen": 200704,
+      "step": 640
+    },
+    {
+      "epoch": 8.0,
+      "eval_loss": 0.2646110951900482,
+      "eval_runtime": 0.9235,
+      "eval_samples_per_second": 86.628,
+      "eval_steps_per_second": 21.657,
+      "num_input_tokens_seen": 200704,
+      "step": 640
+    },
+    {
+      "epoch": 8.0625,
+      "grad_norm": 9.628674507141113,
+      "learning_rate": 7.462117800517337e-06,
+      "loss": 0.2106,
+      "num_input_tokens_seen": 202272,
+      "step": 645
+    },
+    {
+      "epoch": 8.125,
+      "grad_norm": 4.698387622833252,
+      "learning_rate": 7.414501719000187e-06,
+      "loss": 0.1585,
+      "num_input_tokens_seen": 203872,
+      "step": 650
+    },
+    {
+      "epoch": 8.1875,
+      "grad_norm": 14.213072776794434,
+      "learning_rate": 7.3665983359242175e-06,
+      "loss": 0.1878,
+      "num_input_tokens_seen": 205408,
+      "step": 655
+    },
+    {
+      "epoch": 8.25,
+      "grad_norm": 18.2841854095459,
+      "learning_rate": 7.318413351312965e-06,
+      "loss": 0.2258,
+      "num_input_tokens_seen": 207040,
+      "step": 660
+    },
+    {
+      "epoch": 8.3125,
+      "grad_norm": 12.26921558380127,
+      "learning_rate": 7.269952498697734e-06,
+      "loss": 0.213,
+      "num_input_tokens_seen": 208608,
+      "step": 665
+    },
+    {
+      "epoch": 8.375,
+      "grad_norm": 14.23438549041748,
+      "learning_rate": 7.221221544435364e-06,
+      "loss": 0.2241,
+      "num_input_tokens_seen": 210240,
+      "step": 670
+    },
+    {
+      "epoch": 8.4375,
+      "grad_norm": 6.5942487716674805,
+      "learning_rate": 7.172226287022086e-06,
+      "loss": 0.2082,
+      "num_input_tokens_seen": 211744,
+      "step": 675
+    },
+    {
+      "epoch": 8.5,
+      "grad_norm": 6.377285957336426,
+      "learning_rate": 7.1229725564035665e-06,
+      "loss": 0.1792,
+      "num_input_tokens_seen": 213280,
+      "step": 680
+    },
+    {
+      "epoch": 8.5625,
+      "grad_norm": 5.1635966300964355,
+      "learning_rate": 7.073466213281196e-06,
+      "loss": 0.1922,
+      "num_input_tokens_seen": 214816,
+      "step": 685
+    },
+    {
+      "epoch": 8.625,
+      "grad_norm": 12.18478012084961,
+      "learning_rate": 7.023713148414728e-06,
+      "loss": 0.2235,
+      "num_input_tokens_seen": 216416,
+      "step": 690
+    },
+    {
+      "epoch": 8.6875,
+      "grad_norm": 5.056797504425049,
+      "learning_rate": 6.973719281921336e-06,
+      "loss": 0.2177,
+      "num_input_tokens_seen": 217952,
+      "step": 695
+    },
+    {
+      "epoch": 8.75,
+      "grad_norm": 6.05808162689209,
+      "learning_rate": 6.9234905625711816e-06,
+      "loss": 0.2071,
+      "num_input_tokens_seen": 219552,
+      "step": 700
+    },
+    {
+      "epoch": 8.8125,
+      "grad_norm": 4.5069499015808105,
+      "learning_rate": 6.873032967079562e-06,
+      "loss": 0.177,
+      "num_input_tokens_seen": 221120,
+      "step": 705
+    },
+    {
+      "epoch": 8.875,
+      "grad_norm": 9.237682342529297,
+      "learning_rate": 6.822352499395751e-06,
+      "loss": 0.188,
+      "num_input_tokens_seen": 222656,
+      "step": 710
+    },
+    {
+      "epoch": 8.9375,
+      "grad_norm": 9.70540714263916,
+      "learning_rate": 6.771455189988579e-06,
+      "loss": 0.1792,
+      "num_input_tokens_seen": 224160,
+      "step": 715
+    },
+    {
+      "epoch": 9.0,
+      "grad_norm": 29.520042419433594,
+      "learning_rate": 6.720347095128884e-06,
+      "loss": 0.248,
+      "num_input_tokens_seen": 225728,
+      "step": 720
+    },
+    {
+      "epoch": 9.0625,
+      "grad_norm": 6.013643741607666,
+      "learning_rate": 6.669034296168855e-06,
+      "loss": 0.1972,
+      "num_input_tokens_seen": 227296,
+      "step": 725
+    },
+    {
+      "epoch": 9.125,
+      "grad_norm": 8.753713607788086,
+      "learning_rate": 6.617522898818426e-06,
+      "loss": 0.1308,
+      "num_input_tokens_seen": 228896,
+      "step": 730
+    },
+    {
+      "epoch": 9.1875,
+      "grad_norm": 32.677330017089844,
+      "learning_rate": 6.565819032418748e-06,
+      "loss": 0.2039,
+      "num_input_tokens_seen": 230464,
+      "step": 735
+    },
+    {
+      "epoch": 9.25,
+      "grad_norm": 12.465975761413574,
+      "learning_rate": 6.513928849212874e-06,
+      "loss": 0.1759,
+      "num_input_tokens_seen": 232032,
+      "step": 740
+    },
+    {
+      "epoch": 9.3125,
+      "grad_norm": 25.805383682250977,
+      "learning_rate": 6.461858523613684e-06,
+      "loss": 0.1213,
+      "num_input_tokens_seen": 233632,
+      "step": 745
+    },
+    {
+      "epoch": 9.375,
+      "grad_norm": 10.997842788696289,
+      "learning_rate": 6.4096142514692085e-06,
+      "loss": 0.1275,
+      "num_input_tokens_seen": 235200,
+      "step": 750
+    },
+    {
+      "epoch": 9.4375,
+      "grad_norm": 16.847126007080078,
+      "learning_rate": 6.3572022493253715e-06,
+      "loss": 0.2011,
+      "num_input_tokens_seen": 236704,
+      "step": 755
+    },
+    {
+      "epoch": 9.5,
+      "grad_norm": 15.590519905090332,
+      "learning_rate": 6.304628753686295e-06,
+      "loss": 0.1765,
+      "num_input_tokens_seen": 238240,
+      "step": 760
+    },
+    {
+      "epoch": 9.5625,
+      "grad_norm": 8.250570297241211,
+      "learning_rate": 6.251900020272208e-06,
+      "loss": 0.1771,
+      "num_input_tokens_seen": 239776,
+      "step": 765
+    },
+    {
+      "epoch": 9.625,
+      "grad_norm": 11.40953254699707,
+      "learning_rate": 6.199022323275083e-06,
+      "loss": 0.1629,
+      "num_input_tokens_seen": 241280,
+      "step": 770
+    },
+    {
+      "epoch": 9.6875,
+      "grad_norm": 10.189095497131348,
+      "learning_rate": 6.146001954612072e-06,
+      "loss": 0.1316,
+      "num_input_tokens_seen": 242752,
+      "step": 775
+    },
+    {
+      "epoch": 9.75,
+      "grad_norm": 15.832845687866211,
+      "learning_rate": 6.092845223176823e-06,
+      "loss": 0.1367,
+      "num_input_tokens_seen": 244352,
+      "step": 780
+    },
+    {
+      "epoch": 9.8125,
+      "grad_norm": 14.90906810760498,
+      "learning_rate": 6.039558454088796e-06,
+      "loss": 0.1887,
+      "num_input_tokens_seen": 245984,
+      "step": 785
+    },
+    {
+      "epoch": 9.875,
+      "grad_norm": 10.249608039855957,
+      "learning_rate": 5.986147987940632e-06,
+      "loss": 0.1589,
+      "num_input_tokens_seen": 247552,
+      "step": 790
+    },
+    {
+      "epoch": 9.9375,
+      "grad_norm": 5.563095569610596,
+      "learning_rate": 5.932620180043674e-06,
+      "loss": 0.1707,
+      "num_input_tokens_seen": 249088,
+      "step": 795
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 9.259960174560547,
+      "learning_rate": 5.878981399671774e-06,
+      "loss": 0.2158,
+      "num_input_tokens_seen": 250592,
+      "step": 800
+    },
+    {
+      "epoch": 10.0,
+      "eval_loss": 0.3806591033935547,
+      "eval_runtime": 0.9182,
+      "eval_samples_per_second": 87.124,
+      "eval_steps_per_second": 21.781,
+      "num_input_tokens_seen": 250592,
+      "step": 800
+    },
+    {
+      "epoch": 10.0625,
+      "grad_norm": 10.863539695739746,
+      "learning_rate": 5.825238029303388e-06,
+      "loss": 0.0837,
+      "num_input_tokens_seen": 252256,
+      "step": 805
+    },
+    {
+      "epoch": 10.125,
+      "grad_norm": 8.517024993896484,
+      "learning_rate": 5.771396463862145e-06,
+      "loss": 0.0796,
+      "num_input_tokens_seen": 253824,
+      "step": 810
+    },
+    {
+      "epoch": 10.1875,
+      "grad_norm": 9.531097412109375,
+      "learning_rate": 5.717463109955896e-06,
+      "loss": 0.0816,
+      "num_input_tokens_seen": 255360,
+      "step": 815
+    },
+    {
+      "epoch": 10.25,
+      "grad_norm": 20.906747817993164,
+      "learning_rate": 5.6634443851144115e-06,
+      "loss": 0.0815,
+      "num_input_tokens_seen": 256960,
+      "step": 820
+    },
+    {
+      "epoch": 10.3125,
+      "grad_norm": 21.023405075073242,
+      "learning_rate": 5.609346717025738e-06,
+      "loss": 0.1234,
+      "num_input_tokens_seen": 258528,
+      "step": 825
+    },
+    {
+      "epoch": 10.375,
+      "grad_norm": 34.56439208984375,
+      "learning_rate": 5.555176542771389e-06,
+      "loss": 0.1462,
+      "num_input_tokens_seen": 260096,
+      "step": 830
+    },
+    {
+      "epoch": 10.4375,
+      "grad_norm": 16.453866958618164,
+      "learning_rate": 5.500940308060382e-06,
+      "loss": 0.1031,
+      "num_input_tokens_seen": 261632,
+      "step": 835
+    },
+    {
+      "epoch": 10.5,
+      "grad_norm": 20.025487899780273,
+      "learning_rate": 5.446644466462269e-06,
+      "loss": 0.1215,
+      "num_input_tokens_seen": 263232,
+      "step": 840
+    },
+    {
+      "epoch": 10.5625,
+      "grad_norm": 21.75179672241211,
+      "learning_rate": 5.392295478639226e-06,
+      "loss": 0.2008,
+      "num_input_tokens_seen": 264832,
+      "step": 845
+    },
+    {
+      "epoch": 10.625,
+      "grad_norm": 26.04926300048828,
+      "learning_rate": 5.337899811577297e-06,
+      "loss": 0.1439,
+      "num_input_tokens_seen": 266432,
+      "step": 850
+    },
+    {
+      "epoch": 10.6875,
+      "grad_norm": 6.14185094833374,
+      "learning_rate": 5.283463937816888e-06,
+      "loss": 0.0927,
+      "num_input_tokens_seen": 268000,
+      "step": 855
+    },
+    {
+      "epoch": 10.75,
+      "grad_norm": 7.8607635498046875,
+      "learning_rate": 5.228994334682605e-06,
+      "loss": 0.1166,
+      "num_input_tokens_seen": 269568,
+      "step": 860
+    },
+    {
+      "epoch": 10.8125,
+      "grad_norm": 14.155070304870605,
+      "learning_rate": 5.174497483512506e-06,
+      "loss": 0.1066,
+      "num_input_tokens_seen": 271104,
+      "step": 865
+    },
+    {
+      "epoch": 10.875,
+      "grad_norm": 14.761529922485352,
+      "learning_rate": 5.1199798688868955e-06,
+      "loss": 0.1839,
+      "num_input_tokens_seen": 272640,
+      "step": 870
+    },
+    {
+      "epoch": 10.9375,
+      "grad_norm": 86.08441162109375,
+      "learning_rate": 5.065447977856723e-06,
+      "loss": 0.2267,
+      "num_input_tokens_seen": 274208,
+      "step": 875
+    },
+    {
+      "epoch": 11.0,
+      "grad_norm": 6.295602798461914,
+      "learning_rate": 5.010908299171685e-06,
+      "loss": 0.195,
+      "num_input_tokens_seen": 275776,
+      "step": 880
+    },
+    {
+      "epoch": 11.0625,
+      "grad_norm": 29.30211067199707,
+      "learning_rate": 4.956367322508131e-06,
+      "loss": 0.0878,
+      "num_input_tokens_seen": 277344,
+      "step": 885
+    },
+    {
+      "epoch": 11.125,
+      "grad_norm": 36.51382827758789,
+      "learning_rate": 4.90183153769686e-06,
+      "loss": 0.097,
+      "num_input_tokens_seen": 278944,
+      "step": 890
+    },
+    {
+      "epoch": 11.1875,
+      "grad_norm": 24.661712646484375,
+      "learning_rate": 4.847307433950888e-06,
+      "loss": 0.1409,
+      "num_input_tokens_seen": 280480,
+      "step": 895
+    },
+    {
+      "epoch": 11.25,
+      "grad_norm": 15.945549011230469,
+      "learning_rate": 4.792801499093305e-06,
+      "loss": 0.0621,
+      "num_input_tokens_seen": 282048,
+      "step": 900
+    },
+    {
+      "epoch": 11.3125,
+      "grad_norm": 6.951054573059082,
+      "learning_rate": 4.738320218785281e-06,
+      "loss": 0.1243,
+      "num_input_tokens_seen": 283584,
+      "step": 905
+    },
+    {
+      "epoch": 11.375,
+      "grad_norm": 10.031401634216309,
+      "learning_rate": 4.683870075754347e-06,
+      "loss": 0.0546,
+      "num_input_tokens_seen": 285216,
+      "step": 910
+    },
+    {
+      "epoch": 11.4375,
+      "grad_norm": 10.544556617736816,
+      "learning_rate": 4.629457549023004e-06,
+      "loss": 0.0756,
+      "num_input_tokens_seen": 286784,
+      "step": 915
+    },
+    {
+      "epoch": 11.5,
+      "grad_norm": 13.169859886169434,
+      "learning_rate": 4.575089113137792e-06,
+      "loss": 0.0427,
+      "num_input_tokens_seen": 288352,
+      "step": 920
+    },
+    {
+      "epoch": 11.5625,
+      "grad_norm": 9.484841346740723,
+      "learning_rate": 4.52077123739888e-06,
+      "loss": 0.1803,
+      "num_input_tokens_seen": 289920,
+      "step": 925
+    },
+    {
+      "epoch": 11.625,
+      "grad_norm": 32.46955871582031,
+      "learning_rate": 4.466510385090287e-06,
+      "loss": 0.1306,
+      "num_input_tokens_seen": 291520,
+      "step": 930
+    },
+    {
+      "epoch": 11.6875,
+      "grad_norm": 13.81043529510498,
+      "learning_rate": 4.4123130127108125e-06,
+      "loss": 0.0687,
+      "num_input_tokens_seen": 293056,
+      "step": 935
+    },
+    {
+      "epoch": 11.75,
+      "grad_norm": 52.68048858642578,
+      "learning_rate": 4.358185569205779e-06,
+      "loss": 0.1427,
+      "num_input_tokens_seen": 294624,
+      "step": 940
+    },
+    {
+      "epoch": 11.8125,
+      "grad_norm": 14.252890586853027,
+      "learning_rate": 4.304134495199675e-06,
+      "loss": 0.052,
+      "num_input_tokens_seen": 296160,
+      "step": 945
+    },
+    {
+      "epoch": 11.875,
+      "grad_norm": 28.040077209472656,
+      "learning_rate": 4.250166222229775e-06,
+      "loss": 0.1382,
+      "num_input_tokens_seen": 297696,
+      "step": 950
+    },
+    {
+      "epoch": 11.9375,
+      "grad_norm": 10.452444076538086,
+      "learning_rate": 4.196287171980869e-06,
+      "loss": 0.0832,
+      "num_input_tokens_seen": 299296,
+      "step": 955
+    },
+    {
+      "epoch": 12.0,
+      "grad_norm": 0.764223575592041,
+      "learning_rate": 4.142503755521129e-06,
+      "loss": 0.013,
+      "num_input_tokens_seen": 300832,
+      "step": 960
+    },
+    {
+      "epoch": 12.0,
+      "eval_loss": 0.5269124507904053,
+      "eval_runtime": 0.9175,
+      "eval_samples_per_second": 87.197,
+      "eval_steps_per_second": 21.799,
+      "num_input_tokens_seen": 300832,
+      "step": 960
+    },
+    {
+      "epoch": 12.0625,
+      "grad_norm": 31.75777816772461,
+      "learning_rate": 4.088822372539263e-06,
+      "loss": 0.0538,
+      "num_input_tokens_seen": 302368,
+      "step": 965
+    },
+    {
+      "epoch": 12.125,
+      "grad_norm": 1.6154866218566895,
+      "learning_rate": 4.0352494105830155e-06,
+      "loss": 0.0165,
+      "num_input_tokens_seen": 303936,
+      "step": 970
+    },
+    {
+      "epoch": 12.1875,
+      "grad_norm": 3.850043296813965,
+      "learning_rate": 3.981791244299113e-06,
+      "loss": 0.0048,
+      "num_input_tokens_seen": 305536,
+      "step": 975
+    },
+    {
+      "epoch": 12.25,
+      "grad_norm": 48.39171600341797,
+      "learning_rate": 3.928454234674748e-06,
+      "loss": 0.0607,
+      "num_input_tokens_seen": 307136,
+      "step": 980
+    },
+    {
+      "epoch": 12.3125,
+      "grad_norm": 2.30706787109375,
+      "learning_rate": 3.875244728280676e-06,
+      "loss": 0.0606,
+      "num_input_tokens_seen": 308672,
+      "step": 985
+    },
+    {
+      "epoch": 12.375,
+      "grad_norm": 39.70808029174805,
+      "learning_rate": 3.822169056516051e-06,
+      "loss": 0.0663,
+      "num_input_tokens_seen": 310272,
+      "step": 990
+    },
+    {
+      "epoch": 12.4375,
+      "grad_norm": 28.03505516052246,
+      "learning_rate": 3.769233534855035e-06,
+      "loss": 0.0959,
+      "num_input_tokens_seen": 311840,
+      "step": 995
+    },
+    {
+      "epoch": 12.5,
+      "grad_norm": 47.5093879699707,
+      "learning_rate": 3.7164444620953397e-06,
+      "loss": 0.0328,
+      "num_input_tokens_seen": 313376,
+      "step": 1000
+    },
+    {
+      "epoch": 12.5625,
+      "grad_norm": 73.91315460205078,
+      "learning_rate": 3.663808119608716e-06,
+      "loss": 0.1293,
+      "num_input_tokens_seen": 314976,
+      "step": 1005
+    },
+    {
+      "epoch": 12.625,
+      "grad_norm": 60.9661865234375,
+      "learning_rate": 3.6113307705935398e-06,
+      "loss": 0.1331,
+      "num_input_tokens_seen": 316608,
+      "step": 1010
+    },
+    {
+      "epoch": 12.6875,
+      "grad_norm": 34.23344421386719,
+      "learning_rate": 3.559018659329554e-06,
+      "loss": 0.0214,
+      "num_input_tokens_seen": 318176,
+      "step": 1015
+    },
+    {
+      "epoch": 12.75,
+      "grad_norm": 68.91053771972656,
+      "learning_rate": 3.5068780104348632e-06,
+      "loss": 0.2041,
+      "num_input_tokens_seen": 319744,
+      "step": 1020
+    },
+    {
+      "epoch": 12.8125,
+      "grad_norm": 12.771360397338867,
+      "learning_rate": 3.4549150281252635e-06,
+      "loss": 0.0461,
+      "num_input_tokens_seen": 321312,
+      "step": 1025
+    },
+    {
+      "epoch": 12.875,
+      "grad_norm": 11.279967308044434,
+      "learning_rate": 3.403135895476004e-06,
+      "loss": 0.0526,
+      "num_input_tokens_seen": 322816,
+      "step": 1030
+    },
+    {
+      "epoch": 12.9375,
+      "grad_norm": 36.483665466308594,
+      "learning_rate": 3.351546773686065e-06,
+      "loss": 0.0837,
+      "num_input_tokens_seen": 324352,
+      "step": 1035
+    },
+    {
+      "epoch": 13.0,
+      "grad_norm": 5.231341361999512,
+      "learning_rate": 3.3001538013450285e-06,
+      "loss": 0.0695,
+      "num_input_tokens_seen": 325888,
+      "step": 1040
+    },
+    {
+      "epoch": 13.0625,
+      "grad_norm": 0.3779163956642151,
+      "learning_rate": 3.248963093702663e-06,
+      "loss": 0.0415,
+      "num_input_tokens_seen": 327456,
+      "step": 1045
+    },
+    {
+      "epoch": 13.125,
+      "grad_norm": 2.168973207473755,
+      "learning_rate": 3.1979807419412523e-06,
+      "loss": 0.013,
+      "num_input_tokens_seen": 329056,
+      "step": 1050
+    },
+    {
+      "epoch": 13.1875,
+      "grad_norm": 9.570158958435059,
+      "learning_rate": 3.147212812450819e-06,
+      "loss": 0.0101,
+      "num_input_tokens_seen": 330624,
+      "step": 1055
+    },
+    {
+      "epoch": 13.25,
+      "grad_norm": 13.025811195373535,
+      "learning_rate": 3.0966653461072778e-06,
+      "loss": 0.005,
+      "num_input_tokens_seen": 332192,
+      "step": 1060
+    },
+    {
+      "epoch": 13.3125,
+      "grad_norm": 0.06026485562324524,
+      "learning_rate": 3.0463443575536324e-06,
+      "loss": 0.0222,
+      "num_input_tokens_seen": 333760,
+      "step": 1065
+    },
+    {
+      "epoch": 13.375,
+      "grad_norm": 2.276689052581787,
+      "learning_rate": 2.9962558344842963e-06,
+      "loss": 0.05,
+      "num_input_tokens_seen": 335328,
+      "step": 1070
+    },
+    {
+      "epoch": 13.4375,
+      "grad_norm": 0.11900363117456436,
+      "learning_rate": 2.946405736932615e-06,
+      "loss": 0.0244,
+      "num_input_tokens_seen": 336864,
+      "step": 1075
+    },
+    {
+      "epoch": 13.5,
+      "grad_norm": 2.8280792236328125,
+      "learning_rate": 2.8967999965616815e-06,
+      "loss": 0.0222,
+      "num_input_tokens_seen": 338400,
+      "step": 1080
+    },
+    {
+      "epoch": 13.5625,
+      "grad_norm": 15.377069473266602,
+      "learning_rate": 2.8474445159585235e-06,
+      "loss": 0.0272,
+      "num_input_tokens_seen": 339968,
+      "step": 1085
+    },
+    {
+      "epoch": 13.625,
+      "grad_norm": 7.599987983703613,
+      "learning_rate": 2.798345167931771e-06,
+      "loss": 0.0055,
+      "num_input_tokens_seen": 341568,
+      "step": 1090
+    },
+    {
+      "epoch": 13.6875,
+      "grad_norm": 2.0365688800811768,
+      "learning_rate": 2.7495077948128245e-06,
+      "loss": 0.0058,
+      "num_input_tokens_seen": 343168,
+      "step": 1095
+    },
+    {
+      "epoch": 13.75,
+      "grad_norm": 40.94605255126953,
+      "learning_rate": 2.700938207760701e-06,
+      "loss": 0.0186,
+      "num_input_tokens_seen": 344704,
+      "step": 1100
+    },
+    {
+      "epoch": 13.8125,
+      "grad_norm": 0.5802567601203918,
+      "learning_rate": 2.6526421860705474e-06,
+      "loss": 0.002,
+      "num_input_tokens_seen": 346272,
+      "step": 1105
+    },
+    {
+      "epoch": 13.875,
+      "grad_norm": 2.4557807445526123,
+      "learning_rate": 2.6046254764859687e-06,
+      "loss": 0.0125,
+      "num_input_tokens_seen": 347808,
+      "step": 1110
+    },
+    {
+      "epoch": 13.9375,
+      "grad_norm": 103.32002258300781,
+      "learning_rate": 2.5568937925152272e-06,
+      "loss": 0.05,
+      "num_input_tokens_seen": 349376,
+      "step": 1115
+    },
+    {
+      "epoch": 14.0,
+      "grad_norm": 0.0683021992444992,
+      "learning_rate": 2.5094528137513797e-06,
+      "loss": 0.0174,
+      "num_input_tokens_seen": 350976,
+      "step": 1120
+    },
+    {
+      "epoch": 14.0,
+      "eval_loss": 0.8447664380073547,
+      "eval_runtime": 0.9205,
+      "eval_samples_per_second": 86.907,
+      "eval_steps_per_second": 21.727,
+      "num_input_tokens_seen": 350976,
+      "step": 1120
+    },
+    {
+      "epoch": 14.0625,
+      "grad_norm": 0.2838919758796692,
+      "learning_rate": 2.462308185196481e-06,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 352512,
+      "step": 1125
+    },
+    {
+      "epoch": 14.125,
+      "grad_norm": 0.25671952962875366,
+      "learning_rate": 2.4154655165898626e-06,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 354048,
+      "step": 1130
+    },
+    {
+      "epoch": 14.1875,
+      "grad_norm": 0.08236575126647949,
+      "learning_rate": 2.3689303817406523e-06,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 355584,
+      "step": 1135
+    },
+    {
+      "epoch": 14.25,
+      "grad_norm": 0.2644610106945038,
+      "learning_rate": 2.3227083178645316e-06,
+      "loss": 0.0053,
+      "num_input_tokens_seen": 357152,
+      "step": 1140
+    },
+    {
+      "epoch": 14.3125,
+      "grad_norm": 0.06165740266442299,
+      "learning_rate": 2.2768048249248648e-06,
+      "loss": 0.0109,
+      "num_input_tokens_seen": 358752,
+      "step": 1145
+    },
+    {
+      "epoch": 14.375,
+      "grad_norm": 0.31678006052970886,
+      "learning_rate": 2.2312253649782655e-06,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 360288,
+      "step": 1150
+    },
+    {
+      "epoch": 14.4375,
+      "grad_norm": 0.9465001225471497,
+      "learning_rate": 2.185975361524657e-06,
+      "loss": 0.0722,
+      "num_input_tokens_seen": 361856,
+      "step": 1155
+    },
+    {
+      "epoch": 14.5,
+      "grad_norm": 2.73948335647583,
+      "learning_rate": 2.1410601988619394e-06,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 363392,
+      "step": 1160
+    },
+    {
+      "epoch": 14.5625,
+      "grad_norm": 0.18431881070137024,
+      "learning_rate": 2.096485221445301e-06,
+      "loss": 0.0063,
+      "num_input_tokens_seen": 364960,
+      "step": 1165
+    },
+    {
+      "epoch": 14.625,
+      "grad_norm": 6.978606700897217,
+      "learning_rate": 2.0522557332512953e-06,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 366528,
+      "step": 1170
+    },
+    {
+      "epoch": 14.6875,
+      "grad_norm": 0.9169700145721436,
+      "learning_rate": 2.008376997146705e-06,
+      "loss": 0.0268,
+      "num_input_tokens_seen": 368032,
+      "step": 1175
+    },
+    {
+      "epoch": 14.75,
+      "grad_norm": 0.3377976417541504,
+      "learning_rate": 1.9648542342623276e-06,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 369632,
+      "step": 1180
+    },
+    {
+      "epoch": 14.8125,
+      "grad_norm": 0.23450040817260742,
+      "learning_rate": 1.9216926233717087e-06,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 371232,
+      "step": 1185
+    },
+    {
+      "epoch": 14.875,
+      "grad_norm": 17.118005752563477,
+      "learning_rate": 1.8788973002749112e-06,
+      "loss": 0.0058,
+      "num_input_tokens_seen": 372800,
+      "step": 1190
+    },
+    {
+      "epoch": 14.9375,
+      "grad_norm": 23.535619735717773,
+      "learning_rate": 1.83647335718742e-06,
+      "loss": 0.008,
+      "num_input_tokens_seen": 374368,
+      "step": 1195
+    },
+    {
+      "epoch": 15.0,
+      "grad_norm": 0.2620501220226288,
+      "learning_rate": 1.7944258421342097e-06,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 376000,
+      "step": 1200
+    },
+    {
+      "epoch": 15.0625,
+      "grad_norm": 0.06305874139070511,
+      "learning_rate": 1.7527597583490825e-06,
+      "loss": 0.0076,
+      "num_input_tokens_seen": 377568,
+      "step": 1205
+    },
+    {
+      "epoch": 15.125,
+      "grad_norm": 0.17243485152721405,
+      "learning_rate": 1.7114800636793378e-06,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 379072,
+      "step": 1210
+    },
+    {
+      "epoch": 15.1875,
+      "grad_norm": 109.47997283935547,
+      "learning_rate": 1.6705916699958292e-06,
+      "loss": 0.0422,
+      "num_input_tokens_seen": 380640,
+      "step": 1215
+    },
+    {
+      "epoch": 15.25,
+      "grad_norm": 13.874452590942383,
+      "learning_rate": 1.6300994426085103e-06,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 382240,
+      "step": 1220
+    },
+    {
+      "epoch": 15.3125,
+      "grad_norm": 0.06081826239824295,
+      "learning_rate": 1.5900081996875083e-06,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 383872,
+      "step": 1225
+    },
+    {
+      "epoch": 15.375,
+      "grad_norm": 0.1609436422586441,
+      "learning_rate": 1.5503227116898017e-06,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 385472,
+      "step": 1230
+    },
+    {
+      "epoch": 15.4375,
+      "grad_norm": 4.266076564788818,
+      "learning_rate": 1.5110477007916002e-06,
+      "loss": 0.0012,
+      "num_input_tokens_seen": 387072,
+      "step": 1235
+    },
+    {
+      "epoch": 15.5,
+      "grad_norm": 0.06309761852025986,
+      "learning_rate": 1.4721878403264344e-06,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 388640,
+      "step": 1240
+    },
+    {
+      "epoch": 15.5625,
+      "grad_norm": 0.2793193459510803,
+      "learning_rate": 1.433747754229093e-06,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 390240,
+      "step": 1245
+    },
+    {
+      "epoch": 15.625,
+      "grad_norm": 0.028820207342505455,
+      "learning_rate": 1.395732016485406e-06,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 391808,
+      "step": 1250
+    },
+    {
+      "epoch": 15.6875,
+      "grad_norm": 0.11917386204004288,
+      "learning_rate": 1.3581451505879995e-06,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 393408,
+      "step": 1255
+    },
+    {
+      "epoch": 15.75,
+      "grad_norm": 0.14404775202274323,
+      "learning_rate": 1.3209916289980336e-06,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 394976,
+      "step": 1260
+    },
+    {
+      "epoch": 15.8125,
+      "grad_norm": 0.47015178203582764,
+      "learning_rate": 1.2842758726130283e-06,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 396448,
+      "step": 1265
+    },
+    {
+      "epoch": 15.875,
+      "grad_norm": 37.57123565673828,
+      "learning_rate": 1.2480022502408306e-06,
+      "loss": 0.0103,
+      "num_input_tokens_seen": 398048,
+      "step": 1270
+    },
+    {
+      "epoch": 15.9375,
+      "grad_norm": 0.09548679739236832,
+      "learning_rate": 1.2121750780797514e-06,
+      "loss": 0.0006,
+      "num_input_tokens_seen": 399648,
+      "step": 1275
+    },
+    {
+      "epoch": 16.0,
+      "grad_norm": 0.09692618250846863,
+      "learning_rate": 1.1767986192049986e-06,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 401184,
+      "step": 1280
+    },
+    {
+      "epoch": 16.0,
+      "eval_loss": 0.9965259432792664,
+      "eval_runtime": 0.9197,
+      "eval_samples_per_second": 86.981,
+      "eval_steps_per_second": 21.745,
+      "num_input_tokens_seen": 401184,
+      "step": 1280
+    },
+    {
+      "epoch": 16.0625,
+      "grad_norm": 0.06563537567853928,
+      "learning_rate": 1.1418770830614012e-06,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 402816,
+      "step": 1285
+    },
+    {
+      "epoch": 16.125,
+      "grad_norm": 25.29011344909668,
+      "learning_rate": 1.1074146249625334e-06,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 404384,
+      "step": 1290
+    },
+    {
+      "epoch": 16.1875,
+      "grad_norm": 0.15210725367069244,
+      "learning_rate": 1.0734153455962765e-06,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 405984,
+      "step": 1295
+    },
+    {
+      "epoch": 16.25,
+      "grad_norm": 1.038436770439148,
+      "learning_rate": 1.0398832905368693e-06,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 407456,
+      "step": 1300
+    },
+    {
+      "epoch": 16.3125,
+      "grad_norm": 0.04672938957810402,
+      "learning_rate": 1.006822449763537e-06,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 409056,
+      "step": 1305
+    },
+    {
+      "epoch": 16.375,
+      "grad_norm": 0.10642636567354202,
+      "learning_rate": 9.742367571857092e-07,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 410624,
+      "step": 1310
+    },
+    {
+      "epoch": 16.4375,
+      "grad_norm": 0.012557949870824814,
+      "learning_rate": 9.421300901749386e-07,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 412192,
+      "step": 1315
+    },
+    {
+      "epoch": 16.5,
+      "grad_norm": 0.02506287954747677,
+      "learning_rate": 9.105062691035233e-07,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 413728,
+      "step": 1320
+    },
+    {
+      "epoch": 16.5625,
+      "grad_norm": 0.19741126894950867,
+      "learning_rate": 8.793690568899216e-07,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 415264,
+      "step": 1325
+    },
+    {
+      "epoch": 16.625,
+      "grad_norm": 0.3180708587169647,
+      "learning_rate": 8.487221585510075e-07,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 416864,
+      "step": 1330
+    },
+    {
+      "epoch": 16.6875,
+      "grad_norm": 0.2431306093931198,
+      "learning_rate": 8.185692207612023e-07,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 418464,
+      "step": 1335
+    },
+    {
+      "epoch": 16.75,
+      "grad_norm": 0.07357773184776306,
+      "learning_rate": 7.88913831418568e-07,
+      "loss": 0.0008,
+      "num_input_tokens_seen": 420032,
+      "step": 1340
+    },
+    {
+      "epoch": 16.8125,
+      "grad_norm": 0.5140334963798523,
+      "learning_rate": 7.597595192178702e-07,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 421568,
+      "step": 1345
+    },
+    {
+      "epoch": 16.875,
+      "grad_norm": 0.10227775573730469,
+      "learning_rate": 7.311097532307121e-07,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 423136,
+      "step": 1350
+    },
+    {
+      "epoch": 16.9375,
+      "grad_norm": 0.04345543682575226,
+      "learning_rate": 7.029679424927366e-07,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 424640,
+      "step": 1355
+    },
+    {
+      "epoch": 17.0,
+      "grad_norm": 0.2489359974861145,
+      "learning_rate": 6.753374355979975e-07,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 426208,
+      "step": 1360
+    },
+    {
+      "epoch": 17.0625,
+      "grad_norm": 0.05077870190143585,
+      "learning_rate": 6.482215203005016e-07,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 427776,
+      "step": 1365
+    },
+    {
+      "epoch": 17.125,
+      "grad_norm": 0.051710885018110275,
+      "learning_rate": 6.216234231230012e-07,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 429312,
+      "step": 1370
+    },
+    {
+      "epoch": 17.1875,
+      "grad_norm": 0.08844368159770966,
+      "learning_rate": 5.955463089730723e-07,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 430880,
+      "step": 1375
+    },
+    {
+      "epoch": 17.25,
+      "grad_norm": 0.06657011061906815,
+      "learning_rate": 5.699932807665198e-07,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 432448,
+      "step": 1380
+    },
+    {
+      "epoch": 17.3125,
+      "grad_norm": 0.018467910587787628,
+      "learning_rate": 5.449673790581611e-07,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 434016,
+      "step": 1385
+    },
+    {
+      "epoch": 17.375,
+      "grad_norm": 0.0749938040971756,
+      "learning_rate": 5.204715816800343e-07,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 435520,
+      "step": 1390
+    },
+    {
+      "epoch": 17.4375,
+      "grad_norm": 0.09172087907791138,
+      "learning_rate": 4.965088033870608e-07,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 437056,
+      "step": 1395
+    },
+    {
+      "epoch": 17.5,
+      "grad_norm": 0.05389586091041565,
+      "learning_rate": 4.730818955102234e-07,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 438624,
+      "step": 1400
+    },
+    {
+      "epoch": 17.5625,
+      "grad_norm": 0.03451506793498993,
+      "learning_rate": 4.501936456172845e-07,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 440192,
+      "step": 1405
+    },
+    {
+      "epoch": 17.625,
+      "grad_norm": 0.05420379713177681,
+      "learning_rate": 4.278467771810896e-07,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 441760,
+      "step": 1410
+    },
+    {
+      "epoch": 17.6875,
+      "grad_norm": 0.013087287545204163,
+      "learning_rate": 4.0604394925550906e-07,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 443424,
+      "step": 1415
+    },
+    {
+      "epoch": 17.75,
+      "grad_norm": 0.0480063296854496,
+      "learning_rate": 3.8478775615902965e-07,
+      "loss": 0.0007,
+      "num_input_tokens_seen": 444992,
+      "step": 1420
+    },
+    {
+      "epoch": 17.8125,
+      "grad_norm": 0.038323502987623215,
+      "learning_rate": 3.6408072716606346e-07,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 446560,
+      "step": 1425
+    },
+    {
+      "epoch": 17.875,
+      "grad_norm": 0.22902554273605347,
+      "learning_rate": 3.439253262059822e-07,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 448192,
+      "step": 1430
+    },
+    {
+      "epoch": 17.9375,
+      "grad_norm": 0.026656942442059517,
+      "learning_rate": 3.24323951569942e-07,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 449792,
+      "step": 1435
+    },
+    {
+      "epoch": 18.0,
+      "grad_norm": 0.025560805574059486,
+      "learning_rate": 3.052789356255037e-07,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 451328,
+      "step": 1440
+    },
+    {
+      "epoch": 18.0,
+      "eval_loss": 1.080618143081665,
+      "eval_runtime": 0.9186,
+      "eval_samples_per_second": 87.091,
+      "eval_steps_per_second": 21.773,
+      "num_input_tokens_seen": 451328,
+      "step": 1440
+    },
+    {
+      "epoch": 18.0625,
+      "grad_norm": 0.03586863726377487,
+      "learning_rate": 2.867925445391079e-07,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 452896,
+      "step": 1445
+    },
+    {
+      "epoch": 18.125,
+      "grad_norm": 0.012726732529699802,
+      "learning_rate": 2.688669780064268e-07,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 454368,
+      "step": 1450
+    },
+    {
+      "epoch": 18.1875,
+      "grad_norm": 0.16940614581108093,
+      "learning_rate": 2.5150436899061494e-07,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 455936,
+      "step": 1455
+    },
+    {
+      "epoch": 18.25,
+      "grad_norm": 0.10751322656869888,
+      "learning_rate": 2.3470678346851517e-07,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 457536,
+      "step": 1460
+    },
+    {
+      "epoch": 18.3125,
+      "grad_norm": 0.01832233928143978,
+      "learning_rate": 2.1847622018482283e-07,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 459072,
+      "step": 1465
+    },
+    {
+      "epoch": 18.375,
+      "grad_norm": 0.1913994550704956,
+      "learning_rate": 2.028146104142581e-07,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 460640,
+      "step": 1470
+    },
+    {
+      "epoch": 18.4375,
+      "grad_norm": 0.17769768834114075,
+      "learning_rate": 1.8772381773176417e-07,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 462208,
+      "step": 1475
+    },
+    {
+      "epoch": 18.5,
+      "grad_norm": 0.1154564693570137,
+      "learning_rate": 1.7320563779075595e-07,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 463744,
+      "step": 1480
+    },
+    {
+      "epoch": 18.5625,
+      "grad_norm": 0.03802482411265373,
+      "learning_rate": 1.5926179810946185e-07,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 465344,
+      "step": 1485
+    },
+    {
+      "epoch": 18.625,
+      "grad_norm": 0.16934075951576233,
+      "learning_rate": 1.4589395786535954e-07,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 466880,
+      "step": 1490
+    },
+    {
+      "epoch": 18.6875,
+      "grad_norm": 0.045956190675497055,
+      "learning_rate": 1.331037076977576e-07,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 468448,
+      "step": 1495
+    },
+    {
+      "epoch": 18.75,
+      "grad_norm": 0.04867981746792793,
+      "learning_rate": 1.2089256951851923e-07,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 470048,
+      "step": 1500
+    },
+    {
+      "epoch": 18.8125,
+      "grad_norm": 0.04806559160351753,
+      "learning_rate": 1.0926199633097156e-07,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 471584,
+      "step": 1505
+    },
+    {
+      "epoch": 18.875,
+      "grad_norm": 0.04029763862490654,
+      "learning_rate": 9.821337205701664e-08,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 473152,
+      "step": 1510
+    },
+    {
+      "epoch": 18.9375,
+      "grad_norm": 0.07741861045360565,
+      "learning_rate": 8.77480113724516e-08,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 474720,
+      "step": 1515
+    },
+    {
+      "epoch": 19.0,
+      "grad_norm": 0.011278778314590454,
+      "learning_rate": 7.786715955054202e-08,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 476320,
+      "step": 1520
+    },
+    {
+      "epoch": 19.0625,
+      "grad_norm": 0.34853649139404297,
+      "learning_rate": 6.857199231384282e-08,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 477824,
+      "step": 1525
+    },
+    {
+      "epoch": 19.125,
+      "grad_norm": 0.017191864550113678,
+      "learning_rate": 5.986361569430166e-08,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 479360,
+      "step": 1530
+    },
+    {
+      "epoch": 19.1875,
+      "grad_norm": 0.08832144737243652,
+      "learning_rate": 5.174306590164879e-08,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 480896,
+      "step": 1535
+    },
+    {
+      "epoch": 19.25,
+      "grad_norm": 0.17200443148612976,
+      "learning_rate": 4.42113092001023e-08,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 482464,
+      "step": 1540
+    },
+    {
+      "epoch": 19.3125,
+      "grad_norm": 0.1417255848646164,
+      "learning_rate": 3.726924179339009e-08,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 484032,
+      "step": 1545
+    },
+    {
+      "epoch": 19.375,
+      "grad_norm": 0.040031641721725464,
+      "learning_rate": 3.09176897181096e-08,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 485632,
+      "step": 1550
+    },
+    {
+      "epoch": 19.4375,
+      "grad_norm": 0.024730442091822624,
+      "learning_rate": 2.515740874544148e-08,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 487232,
+      "step": 1555
+    },
+    {
+      "epoch": 19.5,
+      "grad_norm": 0.14058633148670197,
+      "learning_rate": 1.9989084291216487e-08,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 488832,
+      "step": 1560
+    },
+    {
+      "epoch": 19.5625,
+      "grad_norm": 0.15317003428936005,
+      "learning_rate": 1.541333133436018e-08,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 490400,
+      "step": 1565
+    },
+    {
+      "epoch": 19.625,
+      "grad_norm": 0.05648527294397354,
+      "learning_rate": 1.1430694343715354e-08,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 491936,
+      "step": 1570
+    },
+    {
+      "epoch": 19.6875,
+      "grad_norm": 0.10134085267782211,
+      "learning_rate": 8.041647213256066e-09,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 493504,
+      "step": 1575
+    },
+    {
+      "epoch": 19.75,
+      "grad_norm": 0.022655094042420387,
+      "learning_rate": 5.246593205699424e-09,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 495104,
+      "step": 1580
+    },
+    {
+      "epoch": 19.8125,
+      "grad_norm": 0.009513732977211475,
+      "learning_rate": 3.0458649045211897e-09,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 496672,
+      "step": 1585
+    },
+    {
+      "epoch": 19.875,
+      "grad_norm": 0.013120757415890694,
+      "learning_rate": 1.4397241743813185e-09,
+      "loss": 0.0001,
+      "num_input_tokens_seen": 498240,
+      "step": 1590
+    },
+    {
+      "epoch": 19.9375,
+      "grad_norm": 0.06909758597612381,
+      "learning_rate": 4.283621299649987e-10,
+      "loss": 0.0002,
+      "num_input_tokens_seen": 499808,
+      "step": 1595
+    },
+    {
+      "epoch": 20.0,
+      "grad_norm": 0.05095551162958145,
+      "learning_rate": 1.189911324084303e-11,
+      "loss": 0.0003,
+      "num_input_tokens_seen": 501440,
+      "step": 1600
+    },
+    {
+      "epoch": 20.0,
+      "eval_loss": 1.093362808227539,
+      "eval_runtime": 0.919,
+      "eval_samples_per_second": 87.054,
+      "eval_steps_per_second": 21.763,
+      "num_input_tokens_seen": 501440,
+      "step": 1600
+    },
+    {
+      "epoch": 20.0,
+      "num_input_tokens_seen": 501440,
+      "step": 1600,
+      "total_flos": 2.257961656516608e+16,
+      "train_loss": 0.2722132059369324,
+      "train_runtime": 168.4339,
+      "train_samples_per_second": 37.997,
+      "train_steps_per_second": 9.499
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 1600,
+  "num_input_tokens_seen": 501440,
+  "num_train_epochs": 20,
+  "save_steps": 160,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2.257961656516608e+16,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}

training_eval_loss.png ADDED Viewed

training_loss.png ADDED Viewed