End of training

Browse files

Files changed (7) hide show

README.md +2 -1
all_results.json +13 -0
eval_results.json +8 -0
train_results.json +9 -0
trainer_state.json +3104 -0
training_eval_loss.png +0 -0
training_loss.png +0 -0

README.md CHANGED Viewed

@@ -4,6 +4,7 @@ license: llama3
 base_model: meta-llama/Meta-Llama-3-8B-Instruct
 tags:
 - llama-factory
 - generated_from_trainer
 model-index:
 - name: train_copa_1756729609
@@ -15,7 +16,7 @@ should probably proofread and complete it, then remove this comment. -->
 # train_copa_1756729609
-This model is a fine-tuned version of [meta-llama/Meta-Llama-3-8B-Instruct](https://huggingface.co/meta-llama/Meta-Llama-3-8B-Instruct) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.2389
 - Num Input Tokens Seen: 273712

 base_model: meta-llama/Meta-Llama-3-8B-Instruct
 tags:
 - llama-factory
+- prefix-tuning
 - generated_from_trainer
 model-index:
 - name: train_copa_1756729609
 # train_copa_1756729609
+This model is a fine-tuned version of [meta-llama/Meta-Llama-3-8B-Instruct](https://huggingface.co/meta-llama/Meta-Llama-3-8B-Instruct) on the copa dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.2389
 - Num Input Tokens Seen: 273712

all_results.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+    "epoch": 10.0,
+    "eval_loss": 0.23892374336719513,
+    "eval_runtime": 1.2168,
+    "eval_samples_per_second": 32.872,
+    "eval_steps_per_second": 16.436,
+    "num_input_tokens_seen": 273712,
+    "total_flos": 1.2325127650934784e+16,
+    "train_loss": 0.31521187037229537,
+    "train_runtime": 206.3115,
+    "train_samples_per_second": 17.449,
+    "train_steps_per_second": 8.725
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 10.0,
+    "eval_loss": 0.23892374336719513,
+    "eval_runtime": 1.2168,
+    "eval_samples_per_second": 32.872,
+    "eval_steps_per_second": 16.436,
+    "num_input_tokens_seen": 273712
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 10.0,
+    "num_input_tokens_seen": 273712,
+    "total_flos": 1.2325127650934784e+16,
+    "train_loss": 0.31521187037229537,
+    "train_runtime": 206.3115,
+    "train_samples_per_second": 17.449,
+    "train_steps_per_second": 8.725
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,3104 @@

+{
+  "best_global_step": 900,
+  "best_metric": 0.23156842589378357,
+  "best_model_checkpoint": "saves/prefix-tuning/llama-3-8b-instruct/train_copa_1756729609/checkpoint-900",
+  "epoch": 10.0,
+  "eval_steps": 90,
+  "global_step": 1800,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.027777777777777776,
+      "grad_norm": 168.61807250976562,
+      "learning_rate": 1.1111111111111112e-06,
+      "loss": 8.7394,
+      "num_input_tokens_seen": 752,
+      "step": 5
+    },
+    {
+      "epoch": 0.05555555555555555,
+      "grad_norm": 132.49700927734375,
+      "learning_rate": 2.5e-06,
+      "loss": 7.4195,
+      "num_input_tokens_seen": 1520,
+      "step": 10
+    },
+    {
+      "epoch": 0.08333333333333333,
+      "grad_norm": 85.03077697753906,
+      "learning_rate": 3.888888888888889e-06,
+      "loss": 5.4249,
+      "num_input_tokens_seen": 2320,
+      "step": 15
+    },
+    {
+      "epoch": 0.1111111111111111,
+      "grad_norm": 65.95551300048828,
+      "learning_rate": 5.277777777777778e-06,
+      "loss": 3.7254,
+      "num_input_tokens_seen": 3072,
+      "step": 20
+    },
+    {
+      "epoch": 0.1388888888888889,
+      "grad_norm": 37.64191818237305,
+      "learning_rate": 6.666666666666667e-06,
+      "loss": 2.1759,
+      "num_input_tokens_seen": 3840,
+      "step": 25
+    },
+    {
+      "epoch": 0.16666666666666666,
+      "grad_norm": 25.54877471923828,
+      "learning_rate": 8.055555555555557e-06,
+      "loss": 1.1654,
+      "num_input_tokens_seen": 4576,
+      "step": 30
+    },
+    {
+      "epoch": 0.19444444444444445,
+      "grad_norm": 34.54571533203125,
+      "learning_rate": 9.444444444444445e-06,
+      "loss": 0.5527,
+      "num_input_tokens_seen": 5328,
+      "step": 35
+    },
+    {
+      "epoch": 0.2222222222222222,
+      "grad_norm": 32.235713958740234,
+      "learning_rate": 1.0833333333333334e-05,
+      "loss": 0.257,
+      "num_input_tokens_seen": 6112,
+      "step": 40
+    },
+    {
+      "epoch": 0.25,
+      "grad_norm": 30.081953048706055,
+      "learning_rate": 1.2222222222222222e-05,
+      "loss": 0.3216,
+      "num_input_tokens_seen": 6848,
+      "step": 45
+    },
+    {
+      "epoch": 0.2777777777777778,
+      "grad_norm": 7.411866188049316,
+      "learning_rate": 1.3611111111111111e-05,
+      "loss": 0.3313,
+      "num_input_tokens_seen": 7600,
+      "step": 50
+    },
+    {
+      "epoch": 0.3055555555555556,
+      "grad_norm": 10.84907054901123,
+      "learning_rate": 1.5e-05,
+      "loss": 0.2349,
+      "num_input_tokens_seen": 8368,
+      "step": 55
+    },
+    {
+      "epoch": 0.3333333333333333,
+      "grad_norm": 8.000849723815918,
+      "learning_rate": 1.638888888888889e-05,
+      "loss": 0.175,
+      "num_input_tokens_seen": 9152,
+      "step": 60
+    },
+    {
+      "epoch": 0.3611111111111111,
+      "grad_norm": 49.42027282714844,
+      "learning_rate": 1.777777777777778e-05,
+      "loss": 0.4744,
+      "num_input_tokens_seen": 9888,
+      "step": 65
+    },
+    {
+      "epoch": 0.3888888888888889,
+      "grad_norm": 27.227779388427734,
+      "learning_rate": 1.9166666666666667e-05,
+      "loss": 0.5353,
+      "num_input_tokens_seen": 10656,
+      "step": 70
+    },
+    {
+      "epoch": 0.4166666666666667,
+      "grad_norm": 9.889861106872559,
+      "learning_rate": 2.0555555555555555e-05,
+      "loss": 0.2667,
+      "num_input_tokens_seen": 11408,
+      "step": 75
+    },
+    {
+      "epoch": 0.4444444444444444,
+      "grad_norm": 7.6070685386657715,
+      "learning_rate": 2.1944444444444445e-05,
+      "loss": 0.2415,
+      "num_input_tokens_seen": 12144,
+      "step": 80
+    },
+    {
+      "epoch": 0.4722222222222222,
+      "grad_norm": 2.885275363922119,
+      "learning_rate": 2.3333333333333336e-05,
+      "loss": 0.229,
+      "num_input_tokens_seen": 12880,
+      "step": 85
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 4.734775066375732,
+      "learning_rate": 2.4722222222222223e-05,
+      "loss": 0.2146,
+      "num_input_tokens_seen": 13664,
+      "step": 90
+    },
+    {
+      "epoch": 0.5,
+      "eval_loss": 0.25626200437545776,
+      "eval_runtime": 0.9632,
+      "eval_samples_per_second": 41.529,
+      "eval_steps_per_second": 20.765,
+      "num_input_tokens_seen": 13664,
+      "step": 90
+    },
+    {
+      "epoch": 0.5277777777777778,
+      "grad_norm": 4.533449172973633,
+      "learning_rate": 2.6111111111111114e-05,
+      "loss": 0.2801,
+      "num_input_tokens_seen": 14464,
+      "step": 95
+    },
+    {
+      "epoch": 0.5555555555555556,
+      "grad_norm": 3.098874092102051,
+      "learning_rate": 2.7500000000000004e-05,
+      "loss": 0.2593,
+      "num_input_tokens_seen": 15216,
+      "step": 100
+    },
+    {
+      "epoch": 0.5833333333333334,
+      "grad_norm": 5.3094635009765625,
+      "learning_rate": 2.8888888888888888e-05,
+      "loss": 0.2524,
+      "num_input_tokens_seen": 15984,
+      "step": 105
+    },
+    {
+      "epoch": 0.6111111111111112,
+      "grad_norm": 13.653681755065918,
+      "learning_rate": 3.0277777777777776e-05,
+      "loss": 0.2935,
+      "num_input_tokens_seen": 16768,
+      "step": 110
+    },
+    {
+      "epoch": 0.6388888888888888,
+      "grad_norm": 92.02537536621094,
+      "learning_rate": 3.1666666666666666e-05,
+      "loss": 0.6453,
+      "num_input_tokens_seen": 17552,
+      "step": 115
+    },
+    {
+      "epoch": 0.6666666666666666,
+      "grad_norm": 10.141864776611328,
+      "learning_rate": 3.3055555555555553e-05,
+      "loss": 0.6614,
+      "num_input_tokens_seen": 18304,
+      "step": 120
+    },
+    {
+      "epoch": 0.6944444444444444,
+      "grad_norm": 2.6619768142700195,
+      "learning_rate": 3.444444444444445e-05,
+      "loss": 0.216,
+      "num_input_tokens_seen": 19072,
+      "step": 125
+    },
+    {
+      "epoch": 0.7222222222222222,
+      "grad_norm": 3.1929991245269775,
+      "learning_rate": 3.5833333333333335e-05,
+      "loss": 0.2517,
+      "num_input_tokens_seen": 19840,
+      "step": 130
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 7.605568885803223,
+      "learning_rate": 3.722222222222222e-05,
+      "loss": 0.3197,
+      "num_input_tokens_seen": 20640,
+      "step": 135
+    },
+    {
+      "epoch": 0.7777777777777778,
+      "grad_norm": 6.780970096588135,
+      "learning_rate": 3.8611111111111116e-05,
+      "loss": 0.2696,
+      "num_input_tokens_seen": 21408,
+      "step": 140
+    },
+    {
+      "epoch": 0.8055555555555556,
+      "grad_norm": 2.7340340614318848,
+      "learning_rate": 4e-05,
+      "loss": 0.3404,
+      "num_input_tokens_seen": 22128,
+      "step": 145
+    },
+    {
+      "epoch": 0.8333333333333334,
+      "grad_norm": 3.6074068546295166,
+      "learning_rate": 4.138888888888889e-05,
+      "loss": 0.2222,
+      "num_input_tokens_seen": 22880,
+      "step": 150
+    },
+    {
+      "epoch": 0.8611111111111112,
+      "grad_norm": 3.62663197517395,
+      "learning_rate": 4.277777777777778e-05,
+      "loss": 0.2368,
+      "num_input_tokens_seen": 23664,
+      "step": 155
+    },
+    {
+      "epoch": 0.8888888888888888,
+      "grad_norm": 2.2021825313568115,
+      "learning_rate": 4.4166666666666665e-05,
+      "loss": 0.3835,
+      "num_input_tokens_seen": 24432,
+      "step": 160
+    },
+    {
+      "epoch": 0.9166666666666666,
+      "grad_norm": 0.6994652152061462,
+      "learning_rate": 4.555555555555556e-05,
+      "loss": 0.2734,
+      "num_input_tokens_seen": 25184,
+      "step": 165
+    },
+    {
+      "epoch": 0.9444444444444444,
+      "grad_norm": 5.533829689025879,
+      "learning_rate": 4.6944444444444446e-05,
+      "loss": 0.2508,
+      "num_input_tokens_seen": 25920,
+      "step": 170
+    },
+    {
+      "epoch": 0.9722222222222222,
+      "grad_norm": 3.3724422454833984,
+      "learning_rate": 4.8333333333333334e-05,
+      "loss": 0.2465,
+      "num_input_tokens_seen": 26672,
+      "step": 175
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 2.420729398727417,
+      "learning_rate": 4.972222222222223e-05,
+      "loss": 0.2358,
+      "num_input_tokens_seen": 27408,
+      "step": 180
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 0.25230473279953003,
+      "eval_runtime": 0.9544,
+      "eval_samples_per_second": 41.911,
+      "eval_steps_per_second": 20.956,
+      "num_input_tokens_seen": 27408,
+      "step": 180
+    },
+    {
+      "epoch": 1.0277777777777777,
+      "grad_norm": 2.8556201457977295,
+      "learning_rate": 4.9999247861994194e-05,
+      "loss": 0.2369,
+      "num_input_tokens_seen": 28176,
+      "step": 185
+    },
+    {
+      "epoch": 1.0555555555555556,
+      "grad_norm": 0.8377213478088379,
+      "learning_rate": 4.9996192378909786e-05,
+      "loss": 0.2493,
+      "num_input_tokens_seen": 28928,
+      "step": 190
+    },
+    {
+      "epoch": 1.0833333333333333,
+      "grad_norm": 1.4044936895370483,
+      "learning_rate": 4.999078682916774e-05,
+      "loss": 0.2294,
+      "num_input_tokens_seen": 29696,
+      "step": 195
+    },
+    {
+      "epoch": 1.1111111111111112,
+      "grad_norm": 0.5861307382583618,
+      "learning_rate": 4.998303172098155e-05,
+      "loss": 0.2446,
+      "num_input_tokens_seen": 30448,
+      "step": 200
+    },
+    {
+      "epoch": 1.1388888888888888,
+      "grad_norm": 0.5146658420562744,
+      "learning_rate": 4.997292778346312e-05,
+      "loss": 0.2748,
+      "num_input_tokens_seen": 31200,
+      "step": 205
+    },
+    {
+      "epoch": 1.1666666666666667,
+      "grad_norm": 1.026163935661316,
+      "learning_rate": 4.996047596655418e-05,
+      "loss": 0.2413,
+      "num_input_tokens_seen": 31936,
+      "step": 210
+    },
+    {
+      "epoch": 1.1944444444444444,
+      "grad_norm": 0.41208159923553467,
+      "learning_rate": 4.994567744093703e-05,
+      "loss": 0.2306,
+      "num_input_tokens_seen": 32704,
+      "step": 215
+    },
+    {
+      "epoch": 1.2222222222222223,
+      "grad_norm": 0.43095776438713074,
+      "learning_rate": 4.992853359792444e-05,
+      "loss": 0.2347,
+      "num_input_tokens_seen": 33440,
+      "step": 220
+    },
+    {
+      "epoch": 1.25,
+      "grad_norm": 1.2314144372940063,
+      "learning_rate": 4.9909046049328846e-05,
+      "loss": 0.2522,
+      "num_input_tokens_seen": 34192,
+      "step": 225
+    },
+    {
+      "epoch": 1.2777777777777777,
+      "grad_norm": 0.2575221359729767,
+      "learning_rate": 4.988721662731083e-05,
+      "loss": 0.2392,
+      "num_input_tokens_seen": 34960,
+      "step": 230
+    },
+    {
+      "epoch": 1.3055555555555556,
+      "grad_norm": 0.3585219085216522,
+      "learning_rate": 4.9863047384206835e-05,
+      "loss": 0.2476,
+      "num_input_tokens_seen": 35728,
+      "step": 235
+    },
+    {
+      "epoch": 1.3333333333333333,
+      "grad_norm": 0.3876192569732666,
+      "learning_rate": 4.983654059233626e-05,
+      "loss": 0.2353,
+      "num_input_tokens_seen": 36464,
+      "step": 240
+    },
+    {
+      "epoch": 1.3611111111111112,
+      "grad_norm": 1.6104844808578491,
+      "learning_rate": 4.9807698743787744e-05,
+      "loss": 0.2421,
+      "num_input_tokens_seen": 37216,
+      "step": 245
+    },
+    {
+      "epoch": 1.3888888888888888,
+      "grad_norm": 1.2330256700515747,
+      "learning_rate": 4.9776524550184965e-05,
+      "loss": 0.2127,
+      "num_input_tokens_seen": 38000,
+      "step": 250
+    },
+    {
+      "epoch": 1.4166666666666667,
+      "grad_norm": 6.833357334136963,
+      "learning_rate": 4.974302094243164e-05,
+      "loss": 0.294,
+      "num_input_tokens_seen": 38800,
+      "step": 255
+    },
+    {
+      "epoch": 1.4444444444444444,
+      "grad_norm": 1.2060927152633667,
+      "learning_rate": 4.970719107043595e-05,
+      "loss": 0.294,
+      "num_input_tokens_seen": 39584,
+      "step": 260
+    },
+    {
+      "epoch": 1.4722222222222223,
+      "grad_norm": 0.07877841591835022,
+      "learning_rate": 4.966903830281449e-05,
+      "loss": 0.2288,
+      "num_input_tokens_seen": 40352,
+      "step": 265
+    },
+    {
+      "epoch": 1.5,
+      "grad_norm": 0.2127917855978012,
+      "learning_rate": 4.962856622657541e-05,
+      "loss": 0.2177,
+      "num_input_tokens_seen": 41120,
+      "step": 270
+    },
+    {
+      "epoch": 1.5,
+      "eval_loss": 0.24368472397327423,
+      "eval_runtime": 0.9519,
+      "eval_samples_per_second": 42.023,
+      "eval_steps_per_second": 21.012,
+      "num_input_tokens_seen": 41120,
+      "step": 270
+    },
+    {
+      "epoch": 1.5277777777777777,
+      "grad_norm": 1.4557000398635864,
+      "learning_rate": 4.9585778646781364e-05,
+      "loss": 0.1989,
+      "num_input_tokens_seen": 41856,
+      "step": 275
+    },
+    {
+      "epoch": 1.5555555555555556,
+      "grad_norm": 0.3360576033592224,
+      "learning_rate": 4.9540679586191605e-05,
+      "loss": 0.3601,
+      "num_input_tokens_seen": 42640,
+      "step": 280
+    },
+    {
+      "epoch": 1.5833333333333335,
+      "grad_norm": 0.27317261695861816,
+      "learning_rate": 4.9493273284883854e-05,
+      "loss": 0.2522,
+      "num_input_tokens_seen": 43392,
+      "step": 285
+    },
+    {
+      "epoch": 1.6111111111111112,
+      "grad_norm": 1.1440566778182983,
+      "learning_rate": 4.9443564199855666e-05,
+      "loss": 0.2265,
+      "num_input_tokens_seen": 44176,
+      "step": 290
+    },
+    {
+      "epoch": 1.6388888888888888,
+      "grad_norm": 0.67438143491745,
+      "learning_rate": 4.939155700460536e-05,
+      "loss": 0.3362,
+      "num_input_tokens_seen": 44928,
+      "step": 295
+    },
+    {
+      "epoch": 1.6666666666666665,
+      "grad_norm": 1.130430817604065,
+      "learning_rate": 4.933725658869267e-05,
+      "loss": 0.2511,
+      "num_input_tokens_seen": 45696,
+      "step": 300
+    },
+    {
+      "epoch": 1.6944444444444444,
+      "grad_norm": 0.5084167718887329,
+      "learning_rate": 4.9280668057279014e-05,
+      "loss": 0.2678,
+      "num_input_tokens_seen": 46464,
+      "step": 305
+    },
+    {
+      "epoch": 1.7222222222222223,
+      "grad_norm": 2.559248685836792,
+      "learning_rate": 4.9221796730647516e-05,
+      "loss": 0.2901,
+      "num_input_tokens_seen": 47216,
+      "step": 310
+    },
+    {
+      "epoch": 1.75,
+      "grad_norm": 0.22217871248722076,
+      "learning_rate": 4.916064814370287e-05,
+      "loss": 0.2388,
+      "num_input_tokens_seen": 47984,
+      "step": 315
+    },
+    {
+      "epoch": 1.7777777777777777,
+      "grad_norm": 0.5131900906562805,
+      "learning_rate": 4.9097228045450864e-05,
+      "loss": 0.2227,
+      "num_input_tokens_seen": 48720,
+      "step": 320
+    },
+    {
+      "epoch": 1.8055555555555556,
+      "grad_norm": 0.6178351044654846,
+      "learning_rate": 4.9031542398457974e-05,
+      "loss": 0.2635,
+      "num_input_tokens_seen": 49472,
+      "step": 325
+    },
+    {
+      "epoch": 1.8333333333333335,
+      "grad_norm": 0.03816394880414009,
+      "learning_rate": 4.896359737829071e-05,
+      "loss": 0.2325,
+      "num_input_tokens_seen": 50224,
+      "step": 330
+    },
+    {
+      "epoch": 1.8611111111111112,
+      "grad_norm": 0.4428621232509613,
+      "learning_rate": 4.889339937293508e-05,
+      "loss": 0.2295,
+      "num_input_tokens_seen": 50944,
+      "step": 335
+    },
+    {
+      "epoch": 1.8888888888888888,
+      "grad_norm": 0.08429408818483353,
+      "learning_rate": 4.8820954982195905e-05,
+      "loss": 0.2262,
+      "num_input_tokens_seen": 51696,
+      "step": 340
+    },
+    {
+      "epoch": 1.9166666666666665,
+      "grad_norm": 0.5197435021400452,
+      "learning_rate": 4.874627101707644e-05,
+      "loss": 0.2475,
+      "num_input_tokens_seen": 52480,
+      "step": 345
+    },
+    {
+      "epoch": 1.9444444444444444,
+      "grad_norm": 0.36081942915916443,
+      "learning_rate": 4.8669354499137955e-05,
+      "loss": 0.2275,
+      "num_input_tokens_seen": 53232,
+      "step": 350
+    },
+    {
+      "epoch": 1.9722222222222223,
+      "grad_norm": 0.12109114974737167,
+      "learning_rate": 4.859021265983959e-05,
+      "loss": 0.2316,
+      "num_input_tokens_seen": 54016,
+      "step": 355
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 0.43010786175727844,
+      "learning_rate": 4.850885293985853e-05,
+      "loss": 0.2349,
+      "num_input_tokens_seen": 54752,
+      "step": 360
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 0.23472540080547333,
+      "eval_runtime": 0.9549,
+      "eval_samples_per_second": 41.89,
+      "eval_steps_per_second": 20.945,
+      "num_input_tokens_seen": 54752,
+      "step": 360
+    },
+    {
+      "epoch": 2.0277777777777777,
+      "grad_norm": 0.09019718319177628,
+      "learning_rate": 4.8425282988390376e-05,
+      "loss": 0.2274,
+      "num_input_tokens_seen": 55520,
+      "step": 365
+    },
+    {
+      "epoch": 2.0555555555555554,
+      "grad_norm": 0.49500763416290283,
+      "learning_rate": 4.8339510662430046e-05,
+      "loss": 0.2281,
+      "num_input_tokens_seen": 56288,
+      "step": 370
+    },
+    {
+      "epoch": 2.0833333333333335,
+      "grad_norm": 0.21958914399147034,
+      "learning_rate": 4.825154402603308e-05,
+      "loss": 0.2279,
+      "num_input_tokens_seen": 57040,
+      "step": 375
+    },
+    {
+      "epoch": 2.111111111111111,
+      "grad_norm": 0.2740750014781952,
+      "learning_rate": 4.816139134955746e-05,
+      "loss": 0.2326,
+      "num_input_tokens_seen": 57792,
+      "step": 380
+    },
+    {
+      "epoch": 2.138888888888889,
+      "grad_norm": 0.5623989105224609,
+      "learning_rate": 4.806906110888606e-05,
+      "loss": 0.256,
+      "num_input_tokens_seen": 58576,
+      "step": 385
+    },
+    {
+      "epoch": 2.1666666666666665,
+      "grad_norm": 0.07296022027730942,
+      "learning_rate": 4.797456198462979e-05,
+      "loss": 0.2249,
+      "num_input_tokens_seen": 59344,
+      "step": 390
+    },
+    {
+      "epoch": 2.1944444444444446,
+      "grad_norm": 0.41638901829719543,
+      "learning_rate": 4.7877902861311446e-05,
+      "loss": 0.2427,
+      "num_input_tokens_seen": 60112,
+      "step": 395
+    },
+    {
+      "epoch": 2.2222222222222223,
+      "grad_norm": 0.11806429177522659,
+      "learning_rate": 4.777909282653042e-05,
+      "loss": 0.2081,
+      "num_input_tokens_seen": 60896,
+      "step": 400
+    },
+    {
+      "epoch": 2.25,
+      "grad_norm": 0.1654391586780548,
+      "learning_rate": 4.7678141170108345e-05,
+      "loss": 0.2586,
+      "num_input_tokens_seen": 61648,
+      "step": 405
+    },
+    {
+      "epoch": 2.2777777777777777,
+      "grad_norm": 0.3800329864025116,
+      "learning_rate": 4.757505738321563e-05,
+      "loss": 0.2304,
+      "num_input_tokens_seen": 62400,
+      "step": 410
+    },
+    {
+      "epoch": 2.3055555555555554,
+      "grad_norm": 0.09081239253282547,
+      "learning_rate": 4.7469851157479177e-05,
+      "loss": 0.2372,
+      "num_input_tokens_seen": 63136,
+      "step": 415
+    },
+    {
+      "epoch": 2.3333333333333335,
+      "grad_norm": 0.4133438766002655,
+      "learning_rate": 4.736253238407119e-05,
+      "loss": 0.2341,
+      "num_input_tokens_seen": 63888,
+      "step": 420
+    },
+    {
+      "epoch": 2.361111111111111,
+      "grad_norm": 0.09473595023155212,
+      "learning_rate": 4.725311115277924e-05,
+      "loss": 0.2189,
+      "num_input_tokens_seen": 64624,
+      "step": 425
+    },
+    {
+      "epoch": 2.388888888888889,
+      "grad_norm": 0.19621716439723969,
+      "learning_rate": 4.714159775105765e-05,
+      "loss": 0.2431,
+      "num_input_tokens_seen": 65376,
+      "step": 430
+    },
+    {
+      "epoch": 2.4166666666666665,
+      "grad_norm": 0.03637147694826126,
+      "learning_rate": 4.70280026630603e-05,
+      "loss": 0.2989,
+      "num_input_tokens_seen": 66112,
+      "step": 435
+    },
+    {
+      "epoch": 2.4444444444444446,
+      "grad_norm": 0.054088663309812546,
+      "learning_rate": 4.6912336568654925e-05,
+      "loss": 0.2382,
+      "num_input_tokens_seen": 66896,
+      "step": 440
+    },
+    {
+      "epoch": 2.4722222222222223,
+      "grad_norm": 0.1342701017856598,
+      "learning_rate": 4.679461034241906e-05,
+      "loss": 0.2219,
+      "num_input_tokens_seen": 67664,
+      "step": 445
+    },
+    {
+      "epoch": 2.5,
+      "grad_norm": 0.3132033050060272,
+      "learning_rate": 4.667483505261762e-05,
+      "loss": 0.2026,
+      "num_input_tokens_seen": 68432,
+      "step": 450
+    },
+    {
+      "epoch": 2.5,
+      "eval_loss": 0.24386009573936462,
+      "eval_runtime": 0.9549,
+      "eval_samples_per_second": 41.888,
+      "eval_steps_per_second": 20.944,
+      "num_input_tokens_seen": 68432,
+      "step": 450
+    },
+    {
+      "epoch": 2.5277777777777777,
+      "grad_norm": 0.12928974628448486,
+      "learning_rate": 4.655302196016228e-05,
+      "loss": 0.2422,
+      "num_input_tokens_seen": 69152,
+      "step": 455
+    },
+    {
+      "epoch": 2.5555555555555554,
+      "grad_norm": 0.13274557888507843,
+      "learning_rate": 4.642918251755281e-05,
+      "loss": 0.2645,
+      "num_input_tokens_seen": 69936,
+      "step": 460
+    },
+    {
+      "epoch": 2.5833333333333335,
+      "grad_norm": 0.3019358217716217,
+      "learning_rate": 4.6303328367800284e-05,
+      "loss": 0.2151,
+      "num_input_tokens_seen": 70704,
+      "step": 465
+    },
+    {
+      "epoch": 2.611111111111111,
+      "grad_norm": 0.3212558627128601,
+      "learning_rate": 4.6175471343332485e-05,
+      "loss": 0.22,
+      "num_input_tokens_seen": 71488,
+      "step": 470
+    },
+    {
+      "epoch": 2.638888888888889,
+      "grad_norm": 0.09539555013179779,
+      "learning_rate": 4.604562346488144e-05,
+      "loss": 0.2466,
+      "num_input_tokens_seen": 72224,
+      "step": 475
+    },
+    {
+      "epoch": 2.6666666666666665,
+      "grad_norm": 0.39348918199539185,
+      "learning_rate": 4.591379694035325e-05,
+      "loss": 0.2571,
+      "num_input_tokens_seen": 72976,
+      "step": 480
+    },
+    {
+      "epoch": 2.6944444444444446,
+      "grad_norm": 0.0670950636267662,
+      "learning_rate": 4.5780004163680365e-05,
+      "loss": 0.2415,
+      "num_input_tokens_seen": 73792,
+      "step": 485
+    },
+    {
+      "epoch": 2.7222222222222223,
+      "grad_norm": 0.08020438253879547,
+      "learning_rate": 4.5644257713656356e-05,
+      "loss": 0.2342,
+      "num_input_tokens_seen": 74560,
+      "step": 490
+    },
+    {
+      "epoch": 2.75,
+      "grad_norm": 0.4891970455646515,
+      "learning_rate": 4.550657035275323e-05,
+      "loss": 0.2381,
+      "num_input_tokens_seen": 75328,
+      "step": 495
+    },
+    {
+      "epoch": 2.7777777777777777,
+      "grad_norm": 0.3371568024158478,
+      "learning_rate": 4.536695502592162e-05,
+      "loss": 0.2511,
+      "num_input_tokens_seen": 76080,
+      "step": 500
+    },
+    {
+      "epoch": 2.8055555555555554,
+      "grad_norm": 0.0859690010547638,
+      "learning_rate": 4.522542485937369e-05,
+      "loss": 0.2262,
+      "num_input_tokens_seen": 76848,
+      "step": 505
+    },
+    {
+      "epoch": 2.8333333333333335,
+      "grad_norm": 0.06787264347076416,
+      "learning_rate": 4.5081993159349056e-05,
+      "loss": 0.2282,
+      "num_input_tokens_seen": 77616,
+      "step": 510
+    },
+    {
+      "epoch": 2.861111111111111,
+      "grad_norm": 0.07081904262304306,
+      "learning_rate": 4.493667341086379e-05,
+      "loss": 0.2145,
+      "num_input_tokens_seen": 78384,
+      "step": 515
+    },
+    {
+      "epoch": 2.888888888888889,
+      "grad_norm": 0.07731253653764725,
+      "learning_rate": 4.478947927644258e-05,
+      "loss": 0.2395,
+      "num_input_tokens_seen": 79136,
+      "step": 520
+    },
+    {
+      "epoch": 2.9166666666666665,
+      "grad_norm": 0.5134112238883972,
+      "learning_rate": 4.464042459483425e-05,
+      "loss": 0.2285,
+      "num_input_tokens_seen": 79920,
+      "step": 525
+    },
+    {
+      "epoch": 2.9444444444444446,
+      "grad_norm": 0.5709863901138306,
+      "learning_rate": 4.448952337971064e-05,
+      "loss": 0.2108,
+      "num_input_tokens_seen": 80672,
+      "step": 530
+    },
+    {
+      "epoch": 2.9722222222222223,
+      "grad_norm": 0.0770232081413269,
+      "learning_rate": 4.43367898183491e-05,
+      "loss": 0.2696,
+      "num_input_tokens_seen": 81440,
+      "step": 535
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 0.29216915369033813,
+      "learning_rate": 4.418223827029867e-05,
+      "loss": 0.2456,
+      "num_input_tokens_seen": 82176,
+      "step": 540
+    },
+    {
+      "epoch": 3.0,
+      "eval_loss": 0.23222021758556366,
+      "eval_runtime": 0.9438,
+      "eval_samples_per_second": 42.382,
+      "eval_steps_per_second": 21.191,
+      "num_input_tokens_seen": 82176,
+      "step": 540
+    },
+    {
+      "epoch": 3.0277777777777777,
+      "grad_norm": 0.24610979855060577,
+      "learning_rate": 4.402588326603002e-05,
+      "loss": 0.2362,
+      "num_input_tokens_seen": 82944,
+      "step": 545
+    },
+    {
+      "epoch": 3.0555555555555554,
+      "grad_norm": 0.04747439920902252,
+      "learning_rate": 4.386773950556931e-05,
+      "loss": 0.2492,
+      "num_input_tokens_seen": 83712,
+      "step": 550
+    },
+    {
+      "epoch": 3.0833333333333335,
+      "grad_norm": 0.07425828278064728,
+      "learning_rate": 4.3707821857116176e-05,
+      "loss": 0.228,
+      "num_input_tokens_seen": 84496,
+      "step": 555
+    },
+    {
+      "epoch": 3.111111111111111,
+      "grad_norm": 0.2971900701522827,
+      "learning_rate": 4.354614535564588e-05,
+      "loss": 0.239,
+      "num_input_tokens_seen": 85280,
+      "step": 560
+    },
+    {
+      "epoch": 3.138888888888889,
+      "grad_norm": 0.25401321053504944,
+      "learning_rate": 4.3382725201495723e-05,
+      "loss": 0.2388,
+      "num_input_tokens_seen": 86016,
+      "step": 565
+    },
+    {
+      "epoch": 3.1666666666666665,
+      "grad_norm": 0.07647871226072311,
+      "learning_rate": 4.321757675893596e-05,
+      "loss": 0.2244,
+      "num_input_tokens_seen": 86800,
+      "step": 570
+    },
+    {
+      "epoch": 3.1944444444444446,
+      "grad_norm": 0.03318305313587189,
+      "learning_rate": 4.305071555472534e-05,
+      "loss": 0.2363,
+      "num_input_tokens_seen": 87568,
+      "step": 575
+    },
+    {
+      "epoch": 3.2222222222222223,
+      "grad_norm": 0.2621249854564667,
+      "learning_rate": 4.288215727665129e-05,
+      "loss": 0.2317,
+      "num_input_tokens_seen": 88320,
+      "step": 580
+    },
+    {
+      "epoch": 3.25,
+      "grad_norm": 0.05581662431359291,
+      "learning_rate": 4.2711917772055e-05,
+      "loss": 0.2324,
+      "num_input_tokens_seen": 89072,
+      "step": 585
+    },
+    {
+      "epoch": 3.2777777777777777,
+      "grad_norm": 0.05753834545612335,
+      "learning_rate": 4.254001304634151e-05,
+      "loss": 0.215,
+      "num_input_tokens_seen": 89792,
+      "step": 590
+    },
+    {
+      "epoch": 3.3055555555555554,
+      "grad_norm": 0.24877430498600006,
+      "learning_rate": 4.2366459261474933e-05,
+      "loss": 0.2409,
+      "num_input_tokens_seen": 90576,
+      "step": 595
+    },
+    {
+      "epoch": 3.3333333333333335,
+      "grad_norm": 0.23108619451522827,
+      "learning_rate": 4.2191272734458955e-05,
+      "loss": 0.2328,
+      "num_input_tokens_seen": 91360,
+      "step": 600
+    },
+    {
+      "epoch": 3.361111111111111,
+      "grad_norm": 0.22504474222660065,
+      "learning_rate": 4.201446993580276e-05,
+      "loss": 0.1925,
+      "num_input_tokens_seen": 92128,
+      "step": 605
+    },
+    {
+      "epoch": 3.388888888888889,
+      "grad_norm": 0.3757579028606415,
+      "learning_rate": 4.183606748797251e-05,
+      "loss": 0.2581,
+      "num_input_tokens_seen": 92912,
+      "step": 610
+    },
+    {
+      "epoch": 3.4166666666666665,
+      "grad_norm": 0.216319277882576,
+      "learning_rate": 4.1656082163828566e-05,
+      "loss": 0.224,
+      "num_input_tokens_seen": 93648,
+      "step": 615
+    },
+    {
+      "epoch": 3.4444444444444446,
+      "grad_norm": 0.07482466846704483,
+      "learning_rate": 4.147453088504854e-05,
+      "loss": 0.2514,
+      "num_input_tokens_seen": 94416,
+      "step": 620
+    },
+    {
+      "epoch": 3.4722222222222223,
+      "grad_norm": 0.29137417674064636,
+      "learning_rate": 4.129143072053638e-05,
+      "loss": 0.226,
+      "num_input_tokens_seen": 95168,
+      "step": 625
+    },
+    {
+      "epoch": 3.5,
+      "grad_norm": 0.05984042212367058,
+      "learning_rate": 4.110679888481763e-05,
+      "loss": 0.2229,
+      "num_input_tokens_seen": 95936,
+      "step": 630
+    },
+    {
+      "epoch": 3.5,
+      "eval_loss": 0.24021664261817932,
+      "eval_runtime": 0.9512,
+      "eval_samples_per_second": 42.051,
+      "eval_steps_per_second": 21.026,
+      "num_input_tokens_seen": 95936,
+      "step": 630
+    },
+    {
+      "epoch": 3.5277777777777777,
+      "grad_norm": 0.20351703464984894,
+      "learning_rate": 4.09206527364209e-05,
+      "loss": 0.2186,
+      "num_input_tokens_seen": 96688,
+      "step": 635
+    },
+    {
+      "epoch": 3.5555555555555554,
+      "grad_norm": 0.04220295324921608,
+      "learning_rate": 4.073300977624594e-05,
+      "loss": 0.2406,
+      "num_input_tokens_seen": 97456,
+      "step": 640
+    },
+    {
+      "epoch": 3.5833333333333335,
+      "grad_norm": 0.03171999379992485,
+      "learning_rate": 4.054388764591822e-05,
+      "loss": 0.2401,
+      "num_input_tokens_seen": 98208,
+      "step": 645
+    },
+    {
+      "epoch": 3.611111111111111,
+      "grad_norm": 0.26465052366256714,
+      "learning_rate": 4.035330412613035e-05,
+      "loss": 0.242,
+      "num_input_tokens_seen": 98944,
+      "step": 650
+    },
+    {
+      "epoch": 3.638888888888889,
+      "grad_norm": 0.0409928523004055,
+      "learning_rate": 4.0161277134970345e-05,
+      "loss": 0.2361,
+      "num_input_tokens_seen": 99728,
+      "step": 655
+    },
+    {
+      "epoch": 3.6666666666666665,
+      "grad_norm": 0.2606992721557617,
+      "learning_rate": 3.996782472623705e-05,
+      "loss": 0.2442,
+      "num_input_tokens_seen": 100496,
+      "step": 660
+    },
+    {
+      "epoch": 3.6944444444444446,
+      "grad_norm": 0.2870422601699829,
+      "learning_rate": 3.977296508774278e-05,
+      "loss": 0.2306,
+      "num_input_tokens_seen": 101264,
+      "step": 665
+    },
+    {
+      "epoch": 3.7222222222222223,
+      "grad_norm": 0.3136056065559387,
+      "learning_rate": 3.957671653960337e-05,
+      "loss": 0.2411,
+      "num_input_tokens_seen": 102016,
+      "step": 670
+    },
+    {
+      "epoch": 3.75,
+      "grad_norm": 0.2747895419597626,
+      "learning_rate": 3.9379097532515725e-05,
+      "loss": 0.2454,
+      "num_input_tokens_seen": 102768,
+      "step": 675
+    },
+    {
+      "epoch": 3.7777777777777777,
+      "grad_norm": 0.2185131162405014,
+      "learning_rate": 3.918012664602317e-05,
+      "loss": 0.2297,
+      "num_input_tokens_seen": 103520,
+      "step": 680
+    },
+    {
+      "epoch": 3.8055555555555554,
+      "grad_norm": 0.22053112089633942,
+      "learning_rate": 3.897982258676867e-05,
+      "loss": 0.2359,
+      "num_input_tokens_seen": 104288,
+      "step": 685
+    },
+    {
+      "epoch": 3.8333333333333335,
+      "grad_norm": 0.2411002516746521,
+      "learning_rate": 3.8778204186736076e-05,
+      "loss": 0.2408,
+      "num_input_tokens_seen": 105056,
+      "step": 690
+    },
+    {
+      "epoch": 3.861111111111111,
+      "grad_norm": 0.20493587851524353,
+      "learning_rate": 3.8575290401479586e-05,
+      "loss": 0.2279,
+      "num_input_tokens_seen": 105792,
+      "step": 695
+    },
+    {
+      "epoch": 3.888888888888889,
+      "grad_norm": 0.19334736466407776,
+      "learning_rate": 3.837110030834161e-05,
+      "loss": 0.2282,
+      "num_input_tokens_seen": 106544,
+      "step": 700
+    },
+    {
+      "epoch": 3.9166666666666665,
+      "grad_norm": 0.05298177897930145,
+      "learning_rate": 3.8165653104659185e-05,
+      "loss": 0.2322,
+      "num_input_tokens_seen": 107312,
+      "step": 705
+    },
+    {
+      "epoch": 3.9444444444444446,
+      "grad_norm": 0.054811060428619385,
+      "learning_rate": 3.79589681059591e-05,
+      "loss": 0.2198,
+      "num_input_tokens_seen": 108064,
+      "step": 710
+    },
+    {
+      "epoch": 3.9722222222222223,
+      "grad_norm": 0.05654693767428398,
+      "learning_rate": 3.775106474414188e-05,
+      "loss": 0.2491,
+      "num_input_tokens_seen": 108848,
+      "step": 715
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 0.22447863221168518,
+      "learning_rate": 3.75419625656549e-05,
+      "loss": 0.2258,
+      "num_input_tokens_seen": 109584,
+      "step": 720
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 0.23475679755210876,
+      "eval_runtime": 0.9526,
+      "eval_samples_per_second": 41.989,
+      "eval_steps_per_second": 20.994,
+      "num_input_tokens_seen": 109584,
+      "step": 720
+    },
+    {
+      "epoch": 4.027777777777778,
+      "grad_norm": 0.2231871634721756,
+      "learning_rate": 3.7331681229654635e-05,
+      "loss": 0.2315,
+      "num_input_tokens_seen": 110336,
+      "step": 725
+    },
+    {
+      "epoch": 4.055555555555555,
+      "grad_norm": 0.040281519293785095,
+      "learning_rate": 3.712024050615843e-05,
+      "loss": 0.2273,
+      "num_input_tokens_seen": 111104,
+      "step": 730
+    },
+    {
+      "epoch": 4.083333333333333,
+      "grad_norm": 0.04974454641342163,
+      "learning_rate": 3.690766027418573e-05,
+      "loss": 0.2337,
+      "num_input_tokens_seen": 111856,
+      "step": 735
+    },
+    {
+      "epoch": 4.111111111111111,
+      "grad_norm": 0.04255608841776848,
+      "learning_rate": 3.6693960519889106e-05,
+      "loss": 0.2421,
+      "num_input_tokens_seen": 112624,
+      "step": 740
+    },
+    {
+      "epoch": 4.138888888888889,
+      "grad_norm": 0.22109165787696838,
+      "learning_rate": 3.6479161334675296e-05,
+      "loss": 0.2294,
+      "num_input_tokens_seen": 113376,
+      "step": 745
+    },
+    {
+      "epoch": 4.166666666666667,
+      "grad_norm": 0.06390644609928131,
+      "learning_rate": 3.626328291331618e-05,
+      "loss": 0.2318,
+      "num_input_tokens_seen": 114096,
+      "step": 750
+    },
+    {
+      "epoch": 4.194444444444445,
+      "grad_norm": 0.03679758682847023,
+      "learning_rate": 3.60463455520502e-05,
+      "loss": 0.2405,
+      "num_input_tokens_seen": 114832,
+      "step": 755
+    },
+    {
+      "epoch": 4.222222222222222,
+      "grad_norm": 0.21589474380016327,
+      "learning_rate": 3.582836964667408e-05,
+      "loss": 0.2252,
+      "num_input_tokens_seen": 115632,
+      "step": 760
+    },
+    {
+      "epoch": 4.25,
+      "grad_norm": 0.043264247477054596,
+      "learning_rate": 3.560937569062538e-05,
+      "loss": 0.2274,
+      "num_input_tokens_seen": 116352,
+      "step": 765
+    },
+    {
+      "epoch": 4.277777777777778,
+      "grad_norm": 0.21477408707141876,
+      "learning_rate": 3.538938427305573e-05,
+      "loss": 0.2275,
+      "num_input_tokens_seen": 117152,
+      "step": 770
+    },
+    {
+      "epoch": 4.305555555555555,
+      "grad_norm": 0.22900539636611938,
+      "learning_rate": 3.516841607689501e-05,
+      "loss": 0.2315,
+      "num_input_tokens_seen": 117904,
+      "step": 775
+    },
+    {
+      "epoch": 4.333333333333333,
+      "grad_norm": 0.3228101432323456,
+      "learning_rate": 3.494649187690695e-05,
+      "loss": 0.2477,
+      "num_input_tokens_seen": 118672,
+      "step": 780
+    },
+    {
+      "epoch": 4.361111111111111,
+      "grad_norm": 0.034529492259025574,
+      "learning_rate": 3.4723632537735846e-05,
+      "loss": 0.2364,
+      "num_input_tokens_seen": 119424,
+      "step": 785
+    },
+    {
+      "epoch": 4.388888888888889,
+      "grad_norm": 0.045695990324020386,
+      "learning_rate": 3.449985901194498e-05,
+      "loss": 0.2215,
+      "num_input_tokens_seen": 120176,
+      "step": 790
+    },
+    {
+      "epoch": 4.416666666666667,
+      "grad_norm": 0.21728059649467468,
+      "learning_rate": 3.427519233804667e-05,
+      "loss": 0.2236,
+      "num_input_tokens_seen": 120960,
+      "step": 795
+    },
+    {
+      "epoch": 4.444444444444445,
+      "grad_norm": 0.21242110431194305,
+      "learning_rate": 3.404965363852437e-05,
+      "loss": 0.2236,
+      "num_input_tokens_seen": 121712,
+      "step": 800
+    },
+    {
+      "epoch": 4.472222222222222,
+      "grad_norm": 0.36089739203453064,
+      "learning_rate": 3.382326411784672e-05,
+      "loss": 0.2255,
+      "num_input_tokens_seen": 122464,
+      "step": 805
+    },
+    {
+      "epoch": 4.5,
+      "grad_norm": 0.22063614428043365,
+      "learning_rate": 3.359604506047403e-05,
+      "loss": 0.2307,
+      "num_input_tokens_seen": 123232,
+      "step": 810
+    },
+    {
+      "epoch": 4.5,
+      "eval_loss": 0.24546261131763458,
+      "eval_runtime": 0.9526,
+      "eval_samples_per_second": 41.99,
+      "eval_steps_per_second": 20.995,
+      "num_input_tokens_seen": 123232,
+      "step": 810
+    },
+    {
+      "epoch": 4.527777777777778,
+      "grad_norm": 0.076927050948143,
+      "learning_rate": 3.336801782885712e-05,
+      "loss": 0.2561,
+      "num_input_tokens_seen": 124000,
+      "step": 815
+    },
+    {
+      "epoch": 4.555555555555555,
+      "grad_norm": 0.07840017229318619,
+      "learning_rate": 3.313920386142892e-05,
+      "loss": 0.2566,
+      "num_input_tokens_seen": 124768,
+      "step": 820
+    },
+    {
+      "epoch": 4.583333333333333,
+      "grad_norm": 0.07948309183120728,
+      "learning_rate": 3.290962467058891e-05,
+      "loss": 0.2327,
+      "num_input_tokens_seen": 125520,
+      "step": 825
+    },
+    {
+      "epoch": 4.611111111111111,
+      "grad_norm": 0.1813255101442337,
+      "learning_rate": 3.267930184068057e-05,
+      "loss": 0.2206,
+      "num_input_tokens_seen": 126256,
+      "step": 830
+    },
+    {
+      "epoch": 4.638888888888889,
+      "grad_norm": 0.1919594705104828,
+      "learning_rate": 3.244825702596205e-05,
+      "loss": 0.2357,
+      "num_input_tokens_seen": 127024,
+      "step": 835
+    },
+    {
+      "epoch": 4.666666666666667,
+      "grad_norm": 0.19017483294010162,
+      "learning_rate": 3.2216511948570374e-05,
+      "loss": 0.2289,
+      "num_input_tokens_seen": 127792,
+      "step": 840
+    },
+    {
+      "epoch": 4.694444444444445,
+      "grad_norm": 0.2174302339553833,
+      "learning_rate": 3.198408839647911e-05,
+      "loss": 0.2391,
+      "num_input_tokens_seen": 128544,
+      "step": 845
+    },
+    {
+      "epoch": 4.722222222222222,
+      "grad_norm": 0.22429364919662476,
+      "learning_rate": 3.1751008221450025e-05,
+      "loss": 0.2343,
+      "num_input_tokens_seen": 129312,
+      "step": 850
+    },
+    {
+      "epoch": 4.75,
+      "grad_norm": 0.028797343373298645,
+      "learning_rate": 3.151729333697854e-05,
+      "loss": 0.2278,
+      "num_input_tokens_seen": 130112,
+      "step": 855
+    },
+    {
+      "epoch": 4.777777777777778,
+      "grad_norm": 0.04587653651833534,
+      "learning_rate": 3.1282965716233594e-05,
+      "loss": 0.2338,
+      "num_input_tokens_seen": 130864,
+      "step": 860
+    },
+    {
+      "epoch": 4.805555555555555,
+      "grad_norm": 0.21289904415607452,
+      "learning_rate": 3.104804738999169e-05,
+      "loss": 0.2258,
+      "num_input_tokens_seen": 131632,
+      "step": 865
+    },
+    {
+      "epoch": 4.833333333333333,
+      "grad_norm": 0.07054630666971207,
+      "learning_rate": 3.0812560444565745e-05,
+      "loss": 0.2376,
+      "num_input_tokens_seen": 132400,
+      "step": 870
+    },
+    {
+      "epoch": 4.861111111111111,
+      "grad_norm": 0.22012268006801605,
+      "learning_rate": 3.057652701972848e-05,
+      "loss": 0.2318,
+      "num_input_tokens_seen": 133152,
+      "step": 875
+    },
+    {
+      "epoch": 4.888888888888889,
+      "grad_norm": 0.08230184763669968,
+      "learning_rate": 3.0339969306631005e-05,
+      "loss": 0.2514,
+      "num_input_tokens_seen": 133920,
+      "step": 880
+    },
+    {
+      "epoch": 4.916666666666667,
+      "grad_norm": 0.04224921762943268,
+      "learning_rate": 3.0102909545716396e-05,
+      "loss": 0.2193,
+      "num_input_tokens_seen": 134688,
+      "step": 885
+    },
+    {
+      "epoch": 4.944444444444445,
+      "grad_norm": 0.22871285676956177,
+      "learning_rate": 2.9865370024628775e-05,
+      "loss": 0.2272,
+      "num_input_tokens_seen": 135456,
+      "step": 890
+    },
+    {
+      "epoch": 4.972222222222222,
+      "grad_norm": 0.08345656096935272,
+      "learning_rate": 2.9627373076117863e-05,
+      "loss": 0.2476,
+      "num_input_tokens_seen": 136240,
+      "step": 895
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 0.03266223520040512,
+      "learning_rate": 2.9388941075939334e-05,
+      "loss": 0.2319,
+      "num_input_tokens_seen": 137008,
+      "step": 900
+    },
+    {
+      "epoch": 5.0,
+      "eval_loss": 0.23156842589378357,
+      "eval_runtime": 0.9505,
+      "eval_samples_per_second": 42.082,
+      "eval_steps_per_second": 21.041,
+      "num_input_tokens_seen": 137008,
+      "step": 900
+    },
+    {
+      "epoch": 5.027777777777778,
+      "grad_norm": 0.1991974264383316,
+      "learning_rate": 2.9150096440751107e-05,
+      "loss": 0.2233,
+      "num_input_tokens_seen": 137776,
+      "step": 905
+    },
+    {
+      "epoch": 5.055555555555555,
+      "grad_norm": 0.19567453861236572,
+      "learning_rate": 2.8910861626005776e-05,
+      "loss": 0.2314,
+      "num_input_tokens_seen": 138496,
+      "step": 910
+    },
+    {
+      "epoch": 5.083333333333333,
+      "grad_norm": 0.20103025436401367,
+      "learning_rate": 2.8671259123839472e-05,
+      "loss": 0.2235,
+      "num_input_tokens_seen": 139280,
+      "step": 915
+    },
+    {
+      "epoch": 5.111111111111111,
+      "grad_norm": 0.21554116904735565,
+      "learning_rate": 2.843131146095719e-05,
+      "loss": 0.2359,
+      "num_input_tokens_seen": 140080,
+      "step": 920
+    },
+    {
+      "epoch": 5.138888888888889,
+      "grad_norm": 0.06537918746471405,
+      "learning_rate": 2.8191041196514873e-05,
+      "loss": 0.2401,
+      "num_input_tokens_seen": 140848,
+      "step": 925
+    },
+    {
+      "epoch": 5.166666666666667,
+      "grad_norm": 0.2276570051908493,
+      "learning_rate": 2.795047091999849e-05,
+      "loss": 0.2341,
+      "num_input_tokens_seen": 141632,
+      "step": 930
+    },
+    {
+      "epoch": 5.194444444444445,
+      "grad_norm": 0.06596892327070236,
+      "learning_rate": 2.770962324910027e-05,
+      "loss": 0.2295,
+      "num_input_tokens_seen": 142368,
+      "step": 935
+    },
+    {
+      "epoch": 5.222222222222222,
+      "grad_norm": 0.20480264723300934,
+      "learning_rate": 2.7468520827592197e-05,
+      "loss": 0.2338,
+      "num_input_tokens_seen": 143120,
+      "step": 940
+    },
+    {
+      "epoch": 5.25,
+      "grad_norm": 0.07046130299568176,
+      "learning_rate": 2.7227186323197162e-05,
+      "loss": 0.2255,
+      "num_input_tokens_seen": 143904,
+      "step": 945
+    },
+    {
+      "epoch": 5.277777777777778,
+      "grad_norm": 0.06010867655277252,
+      "learning_rate": 2.6985642425457757e-05,
+      "loss": 0.2298,
+      "num_input_tokens_seen": 144640,
+      "step": 950
+    },
+    {
+      "epoch": 5.305555555555555,
+      "grad_norm": 0.03908166661858559,
+      "learning_rate": 2.674391184360313e-05,
+      "loss": 0.2315,
+      "num_input_tokens_seen": 145376,
+      "step": 955
+    },
+    {
+      "epoch": 5.333333333333333,
+      "grad_norm": 0.1831679344177246,
+      "learning_rate": 2.650201730441392e-05,
+      "loss": 0.2237,
+      "num_input_tokens_seen": 146144,
+      "step": 960
+    },
+    {
+      "epoch": 5.361111111111111,
+      "grad_norm": 0.05457880347967148,
+      "learning_rate": 2.6259981550085504e-05,
+      "loss": 0.2343,
+      "num_input_tokens_seen": 146912,
+      "step": 965
+    },
+    {
+      "epoch": 5.388888888888889,
+      "grad_norm": 0.08011576533317566,
+      "learning_rate": 2.60178273360899e-05,
+      "loss": 0.2436,
+      "num_input_tokens_seen": 147664,
+      "step": 970
+    },
+    {
+      "epoch": 5.416666666666667,
+      "grad_norm": 0.21962383389472961,
+      "learning_rate": 2.5775577429036345e-05,
+      "loss": 0.2284,
+      "num_input_tokens_seen": 148448,
+      "step": 975
+    },
+    {
+      "epoch": 5.444444444444445,
+      "grad_norm": 0.1884421706199646,
+      "learning_rate": 2.553325460453086e-05,
+      "loss": 0.2464,
+      "num_input_tokens_seen": 149200,
+      "step": 980
+    },
+    {
+      "epoch": 5.472222222222222,
+      "grad_norm": 0.19130955636501312,
+      "learning_rate": 2.5290881645034932e-05,
+      "loss": 0.21,
+      "num_input_tokens_seen": 149936,
+      "step": 985
+    },
+    {
+      "epoch": 5.5,
+      "grad_norm": 0.19891411066055298,
+      "learning_rate": 2.504848133772358e-05,
+      "loss": 0.2225,
+      "num_input_tokens_seen": 150672,
+      "step": 990
+    },
+    {
+      "epoch": 5.5,
+      "eval_loss": 0.237586110830307,
+      "eval_runtime": 0.9476,
+      "eval_samples_per_second": 42.21,
+      "eval_steps_per_second": 21.105,
+      "num_input_tokens_seen": 150672,
+      "step": 990
+    },
+    {
+      "epoch": 5.527777777777778,
+      "grad_norm": 0.06913867592811584,
+      "learning_rate": 2.4806076472342997e-05,
+      "loss": 0.2193,
+      "num_input_tokens_seen": 151440,
+      "step": 995
+    },
+    {
+      "epoch": 5.555555555555555,
+      "grad_norm": 0.24842682480812073,
+      "learning_rate": 2.4563689839067913e-05,
+      "loss": 0.2278,
+      "num_input_tokens_seen": 152224,
+      "step": 1000
+    },
+    {
+      "epoch": 5.583333333333333,
+      "grad_norm": 0.2582543194293976,
+      "learning_rate": 2.432134422635893e-05,
+      "loss": 0.2352,
+      "num_input_tokens_seen": 152976,
+      "step": 1005
+    },
+    {
+      "epoch": 5.611111111111111,
+      "grad_norm": 0.10889379680156708,
+      "learning_rate": 2.4079062418820002e-05,
+      "loss": 0.2326,
+      "num_input_tokens_seen": 153744,
+      "step": 1010
+    },
+    {
+      "epoch": 5.638888888888889,
+      "grad_norm": 0.2577625811100006,
+      "learning_rate": 2.3836867195056335e-05,
+      "loss": 0.2318,
+      "num_input_tokens_seen": 154512,
+      "step": 1015
+    },
+    {
+      "epoch": 5.666666666666667,
+      "grad_norm": 0.07463299483060837,
+      "learning_rate": 2.3594781325532784e-05,
+      "loss": 0.2367,
+      "num_input_tokens_seen": 155280,
+      "step": 1020
+    },
+    {
+      "epoch": 5.694444444444445,
+      "grad_norm": 0.21157915890216827,
+      "learning_rate": 2.3352827570433036e-05,
+      "loss": 0.2425,
+      "num_input_tokens_seen": 156032,
+      "step": 1025
+    },
+    {
+      "epoch": 5.722222222222222,
+      "grad_norm": 0.06378881633281708,
+      "learning_rate": 2.3111028677519804e-05,
+      "loss": 0.2254,
+      "num_input_tokens_seen": 156848,
+      "step": 1030
+    },
+    {
+      "epoch": 5.75,
+      "grad_norm": 0.234948992729187,
+      "learning_rate": 2.2869407379996088e-05,
+      "loss": 0.2325,
+      "num_input_tokens_seen": 157600,
+      "step": 1035
+    },
+    {
+      "epoch": 5.777777777777778,
+      "grad_norm": 0.2314087152481079,
+      "learning_rate": 2.2627986394367938e-05,
+      "loss": 0.2271,
+      "num_input_tokens_seen": 158352,
+      "step": 1040
+    },
+    {
+      "epoch": 5.805555555555555,
+      "grad_norm": 0.052978113293647766,
+      "learning_rate": 2.238678841830867e-05,
+      "loss": 0.2416,
+      "num_input_tokens_seen": 159104,
+      "step": 1045
+    },
+    {
+      "epoch": 5.833333333333333,
+      "grad_norm": 0.22077329456806183,
+      "learning_rate": 2.2145836128524902e-05,
+      "loss": 0.2402,
+      "num_input_tokens_seen": 159856,
+      "step": 1050
+    },
+    {
+      "epoch": 5.861111111111111,
+      "grad_norm": 0.2409791350364685,
+      "learning_rate": 2.1905152178624595e-05,
+      "loss": 0.2359,
+      "num_input_tokens_seen": 160624,
+      "step": 1055
+    },
+    {
+      "epoch": 5.888888888888889,
+      "grad_norm": 0.21549732983112335,
+      "learning_rate": 2.1664759196987182e-05,
+      "loss": 0.2378,
+      "num_input_tokens_seen": 161360,
+      "step": 1060
+    },
+    {
+      "epoch": 5.916666666666667,
+      "grad_norm": 0.05724610015749931,
+      "learning_rate": 2.1424679784636144e-05,
+      "loss": 0.2323,
+      "num_input_tokens_seen": 162080,
+      "step": 1065
+    },
+    {
+      "epoch": 5.944444444444445,
+      "grad_norm": 0.23597630858421326,
+      "learning_rate": 2.118493651311413e-05,
+      "loss": 0.238,
+      "num_input_tokens_seen": 162832,
+      "step": 1070
+    },
+    {
+      "epoch": 5.972222222222222,
+      "grad_norm": 0.06391120702028275,
+      "learning_rate": 2.0945551922360818e-05,
+      "loss": 0.2338,
+      "num_input_tokens_seen": 163568,
+      "step": 1075
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 0.2186533659696579,
+      "learning_rate": 2.070654851859383e-05,
+      "loss": 0.2297,
+      "num_input_tokens_seen": 164336,
+      "step": 1080
+    },
+    {
+      "epoch": 6.0,
+      "eval_loss": 0.2332942932844162,
+      "eval_runtime": 0.9484,
+      "eval_samples_per_second": 42.174,
+      "eval_steps_per_second": 21.087,
+      "num_input_tokens_seen": 164336,
+      "step": 1080
+    },
+    {
+      "epoch": 6.027777777777778,
+      "grad_norm": 0.232297882437706,
+      "learning_rate": 2.0467948772192713e-05,
+      "loss": 0.2255,
+      "num_input_tokens_seen": 165072,
+      "step": 1085
+    },
+    {
+      "epoch": 6.055555555555555,
+      "grad_norm": 0.08840720355510712,
+      "learning_rate": 2.022977511558638e-05,
+      "loss": 0.2316,
+      "num_input_tokens_seen": 165824,
+      "step": 1090
+    },
+    {
+      "epoch": 6.083333333333333,
+      "grad_norm": 0.20973674952983856,
+      "learning_rate": 1.9992049941144066e-05,
+      "loss": 0.2283,
+      "num_input_tokens_seen": 166608,
+      "step": 1095
+    },
+    {
+      "epoch": 6.111111111111111,
+      "grad_norm": 0.2317439466714859,
+      "learning_rate": 1.9754795599070068e-05,
+      "loss": 0.2385,
+      "num_input_tokens_seen": 167360,
+      "step": 1100
+    },
+    {
+      "epoch": 6.138888888888889,
+      "grad_norm": 0.11348995566368103,
+      "learning_rate": 1.9518034395302414e-05,
+      "loss": 0.2361,
+      "num_input_tokens_seen": 168128,
+      "step": 1105
+    },
+    {
+      "epoch": 6.166666666666667,
+      "grad_norm": 0.08987825363874435,
+      "learning_rate": 1.9281788589415804e-05,
+      "loss": 0.2304,
+      "num_input_tokens_seen": 168896,
+      "step": 1110
+    },
+    {
+      "epoch": 6.194444444444445,
+      "grad_norm": 0.07911615073680878,
+      "learning_rate": 1.9046080392528735e-05,
+      "loss": 0.2316,
+      "num_input_tokens_seen": 169648,
+      "step": 1115
+    },
+    {
+      "epoch": 6.222222222222222,
+      "grad_norm": 0.22927211225032806,
+      "learning_rate": 1.8810931965215356e-05,
+      "loss": 0.2237,
+      "num_input_tokens_seen": 170416,
+      "step": 1120
+    },
+    {
+      "epoch": 6.25,
+      "grad_norm": 0.21459771692752838,
+      "learning_rate": 1.857636541542195e-05,
+      "loss": 0.2381,
+      "num_input_tokens_seen": 171184,
+      "step": 1125
+    },
+    {
+      "epoch": 6.277777777777778,
+      "grad_norm": 0.058158304542303085,
+      "learning_rate": 1.8342402796388445e-05,
+      "loss": 0.2279,
+      "num_input_tokens_seen": 171984,
+      "step": 1130
+    },
+    {
+      "epoch": 6.305555555555555,
+      "grad_norm": 0.23271408677101135,
+      "learning_rate": 1.8109066104575023e-05,
+      "loss": 0.2197,
+      "num_input_tokens_seen": 172768,
+      "step": 1135
+    },
+    {
+      "epoch": 6.333333333333333,
+      "grad_norm": 0.21824391186237335,
+      "learning_rate": 1.7876377277594053e-05,
+      "loss": 0.2378,
+      "num_input_tokens_seen": 173520,
+      "step": 1140
+    },
+    {
+      "epoch": 6.361111111111111,
+      "grad_norm": 0.07108858227729797,
+      "learning_rate": 1.764435819214762e-05,
+      "loss": 0.2275,
+      "num_input_tokens_seen": 174304,
+      "step": 1145
+    },
+    {
+      "epoch": 6.388888888888889,
+      "grad_norm": 0.23589767515659332,
+      "learning_rate": 1.7413030661970742e-05,
+      "loss": 0.2423,
+      "num_input_tokens_seen": 175040,
+      "step": 1150
+    },
+    {
+      "epoch": 6.416666666666667,
+      "grad_norm": 0.0482897125184536,
+      "learning_rate": 1.7182416435780454e-05,
+      "loss": 0.2275,
+      "num_input_tokens_seen": 175776,
+      "step": 1155
+    },
+    {
+      "epoch": 6.444444444444445,
+      "grad_norm": 0.23272016644477844,
+      "learning_rate": 1.695253719523115e-05,
+      "loss": 0.2242,
+      "num_input_tokens_seen": 176512,
+      "step": 1160
+    },
+    {
+      "epoch": 6.472222222222222,
+      "grad_norm": 0.3105214536190033,
+      "learning_rate": 1.672341455287605e-05,
+      "loss": 0.2388,
+      "num_input_tokens_seen": 177280,
+      "step": 1165
+    },
+    {
+      "epoch": 6.5,
+      "grad_norm": 0.12723425030708313,
+      "learning_rate": 1.649507005013532e-05,
+      "loss": 0.2299,
+      "num_input_tokens_seen": 178032,
+      "step": 1170
+    },
+    {
+      "epoch": 6.5,
+      "eval_loss": 0.23246487975120544,
+      "eval_runtime": 0.9489,
+      "eval_samples_per_second": 42.153,
+      "eval_steps_per_second": 21.077,
+      "num_input_tokens_seen": 178032,
+      "step": 1170
+    },
+    {
+      "epoch": 6.527777777777778,
+      "grad_norm": 0.09564945846796036,
+      "learning_rate": 1.6267525155270773e-05,
+      "loss": 0.2214,
+      "num_input_tokens_seen": 178784,
+      "step": 1175
+    },
+    {
+      "epoch": 6.555555555555555,
+      "grad_norm": 0.11035729199647903,
+      "learning_rate": 1.6040801261367493e-05,
+      "loss": 0.2287,
+      "num_input_tokens_seen": 179568,
+      "step": 1180
+    },
+    {
+      "epoch": 6.583333333333333,
+      "grad_norm": 0.25808319449424744,
+      "learning_rate": 1.5814919684322545e-05,
+      "loss": 0.2405,
+      "num_input_tokens_seen": 180336,
+      "step": 1185
+    },
+    {
+      "epoch": 6.611111111111111,
+      "grad_norm": 0.25535932183265686,
+      "learning_rate": 1.5589901660840896e-05,
+      "loss": 0.2293,
+      "num_input_tokens_seen": 181056,
+      "step": 1190
+    },
+    {
+      "epoch": 6.638888888888889,
+      "grad_norm": 0.16150866448879242,
+      "learning_rate": 1.5365768346438797e-05,
+      "loss": 0.2238,
+      "num_input_tokens_seen": 181840,
+      "step": 1195
+    },
+    {
+      "epoch": 6.666666666666667,
+      "grad_norm": 0.17870575189590454,
+      "learning_rate": 1.5142540813454836e-05,
+      "loss": 0.2256,
+      "num_input_tokens_seen": 182592,
+      "step": 1200
+    },
+    {
+      "epoch": 6.694444444444445,
+      "grad_norm": 0.2882107198238373,
+      "learning_rate": 1.4920240049068748e-05,
+      "loss": 0.2518,
+      "num_input_tokens_seen": 183344,
+      "step": 1205
+    },
+    {
+      "epoch": 6.722222222222222,
+      "grad_norm": 0.27778080105781555,
+      "learning_rate": 1.4698886953328292e-05,
+      "loss": 0.2219,
+      "num_input_tokens_seen": 184112,
+      "step": 1210
+    },
+    {
+      "epoch": 6.75,
+      "grad_norm": 0.08149195462465286,
+      "learning_rate": 1.4478502337184274e-05,
+      "loss": 0.23,
+      "num_input_tokens_seen": 184864,
+      "step": 1215
+    },
+    {
+      "epoch": 6.777777777777778,
+      "grad_norm": 0.25812920928001404,
+      "learning_rate": 1.4259106920533955e-05,
+      "loss": 0.2432,
+      "num_input_tokens_seen": 185632,
+      "step": 1220
+    },
+    {
+      "epoch": 6.805555555555555,
+      "grad_norm": 0.22769707441329956,
+      "learning_rate": 1.4040721330273062e-05,
+      "loss": 0.2304,
+      "num_input_tokens_seen": 186368,
+      "step": 1225
+    },
+    {
+      "epoch": 6.833333333333333,
+      "grad_norm": 0.31527698040008545,
+      "learning_rate": 1.3823366098356487e-05,
+      "loss": 0.2318,
+      "num_input_tokens_seen": 187120,
+      "step": 1230
+    },
+    {
+      "epoch": 6.861111111111111,
+      "grad_norm": 0.21568460762500763,
+      "learning_rate": 1.3607061659867892e-05,
+      "loss": 0.238,
+      "num_input_tokens_seen": 187888,
+      "step": 1235
+    },
+    {
+      "epoch": 6.888888888888889,
+      "grad_norm": 0.2870389223098755,
+      "learning_rate": 1.3391828351098578e-05,
+      "loss": 0.2317,
+      "num_input_tokens_seen": 188672,
+      "step": 1240
+    },
+    {
+      "epoch": 6.916666666666667,
+      "grad_norm": 0.24439193308353424,
+      "learning_rate": 1.3177686407635417e-05,
+      "loss": 0.2238,
+      "num_input_tokens_seen": 189424,
+      "step": 1245
+    },
+    {
+      "epoch": 6.944444444444445,
+      "grad_norm": 0.13815510272979736,
+      "learning_rate": 1.29646559624584e-05,
+      "loss": 0.224,
+      "num_input_tokens_seen": 190176,
+      "step": 1250
+    },
+    {
+      "epoch": 6.972222222222222,
+      "grad_norm": 0.2015056610107422,
+      "learning_rate": 1.2752757044047827e-05,
+      "loss": 0.2277,
+      "num_input_tokens_seen": 190928,
+      "step": 1255
+    },
+    {
+      "epoch": 7.0,
+      "grad_norm": 0.18999844789505005,
+      "learning_rate": 1.2542009574501246e-05,
+      "loss": 0.2122,
+      "num_input_tokens_seen": 191712,
+      "step": 1260
+    },
+    {
+      "epoch": 7.0,
+      "eval_loss": 0.23317117989063263,
+      "eval_runtime": 0.9416,
+      "eval_samples_per_second": 42.479,
+      "eval_steps_per_second": 21.239,
+      "num_input_tokens_seen": 191712,
+      "step": 1260
+    },
+    {
+      "epoch": 7.027777777777778,
+      "grad_norm": 0.30648672580718994,
+      "learning_rate": 1.2332433367660442e-05,
+      "loss": 0.2311,
+      "num_input_tokens_seen": 192480,
+      "step": 1265
+    },
+    {
+      "epoch": 7.055555555555555,
+      "grad_norm": 0.28681498765945435,
+      "learning_rate": 1.2124048127248644e-05,
+      "loss": 0.2233,
+      "num_input_tokens_seen": 193248,
+      "step": 1270
+    },
+    {
+      "epoch": 7.083333333333333,
+      "grad_norm": 0.18757835030555725,
+      "learning_rate": 1.1916873445017982e-05,
+      "loss": 0.228,
+      "num_input_tokens_seen": 194000,
+      "step": 1275
+    },
+    {
+      "epoch": 7.111111111111111,
+      "grad_norm": 0.16164229810237885,
+      "learning_rate": 1.1710928798907556e-05,
+      "loss": 0.2322,
+      "num_input_tokens_seen": 194752,
+      "step": 1280
+    },
+    {
+      "epoch": 7.138888888888889,
+      "grad_norm": 0.3201320469379425,
+      "learning_rate": 1.1506233551212186e-05,
+      "loss": 0.2488,
+      "num_input_tokens_seen": 195504,
+      "step": 1285
+    },
+    {
+      "epoch": 7.166666666666667,
+      "grad_norm": 0.2557276785373688,
+      "learning_rate": 1.1302806946762004e-05,
+      "loss": 0.2513,
+      "num_input_tokens_seen": 196224,
+      "step": 1290
+    },
+    {
+      "epoch": 7.194444444444445,
+      "grad_norm": 0.12132105976343155,
+      "learning_rate": 1.1100668111113166e-05,
+      "loss": 0.2143,
+      "num_input_tokens_seen": 196976,
+      "step": 1295
+    },
+    {
+      "epoch": 7.222222222222222,
+      "grad_norm": 0.35682788491249084,
+      "learning_rate": 1.0899836048749645e-05,
+      "loss": 0.2304,
+      "num_input_tokens_seen": 197776,
+      "step": 1300
+    },
+    {
+      "epoch": 7.25,
+      "grad_norm": 0.6387184858322144,
+      "learning_rate": 1.0700329641296541e-05,
+      "loss": 0.2479,
+      "num_input_tokens_seen": 198512,
+      "step": 1305
+    },
+    {
+      "epoch": 7.277777777777778,
+      "grad_norm": 0.34563976526260376,
+      "learning_rate": 1.0502167645744895e-05,
+      "loss": 0.2447,
+      "num_input_tokens_seen": 199280,
+      "step": 1310
+    },
+    {
+      "epoch": 7.305555555555555,
+      "grad_norm": 0.15360817313194275,
+      "learning_rate": 1.0305368692688174e-05,
+      "loss": 0.2298,
+      "num_input_tokens_seen": 200032,
+      "step": 1315
+    },
+    {
+      "epoch": 7.333333333333333,
+      "grad_norm": 0.35244590044021606,
+      "learning_rate": 1.01099512845707e-05,
+      "loss": 0.2318,
+      "num_input_tokens_seen": 200768,
+      "step": 1320
+    },
+    {
+      "epoch": 7.361111111111111,
+      "grad_norm": 0.10761336982250214,
+      "learning_rate": 9.91593379394811e-06,
+      "loss": 0.2318,
+      "num_input_tokens_seen": 201552,
+      "step": 1325
+    },
+    {
+      "epoch": 7.388888888888889,
+      "grad_norm": 0.12830455601215363,
+      "learning_rate": 9.723334461760006e-06,
+      "loss": 0.2298,
+      "num_input_tokens_seen": 202320,
+      "step": 1330
+    },
+    {
+      "epoch": 7.416666666666667,
+      "grad_norm": 0.26239320635795593,
+      "learning_rate": 9.532171395615036e-06,
+      "loss": 0.2276,
+      "num_input_tokens_seen": 203088,
+      "step": 1335
+    },
+    {
+      "epoch": 7.444444444444445,
+      "grad_norm": 0.2967880368232727,
+      "learning_rate": 9.342462568088416e-06,
+      "loss": 0.2335,
+      "num_input_tokens_seen": 203824,
+      "step": 1340
+    },
+    {
+      "epoch": 7.472222222222222,
+      "grad_norm": 0.28046914935112,
+      "learning_rate": 9.154225815032242e-06,
+      "loss": 0.2282,
+      "num_input_tokens_seen": 204576,
+      "step": 1345
+    },
+    {
+      "epoch": 7.5,
+      "grad_norm": 0.3063311278820038,
+      "learning_rate": 8.967478833898612e-06,
+      "loss": 0.2274,
+      "num_input_tokens_seen": 205312,
+      "step": 1350
+    },
+    {
+      "epoch": 7.5,
+      "eval_loss": 0.2340662032365799,
+      "eval_runtime": 0.9488,
+      "eval_samples_per_second": 42.157,
+      "eval_steps_per_second": 21.078,
+      "num_input_tokens_seen": 205312,
+      "step": 1350
+    },
+    {
+      "epoch": 7.527777777777778,
+      "grad_norm": 0.15810765326023102,
+      "learning_rate": 8.78223918207575e-06,
+      "loss": 0.2278,
+      "num_input_tokens_seen": 206080,
+      "step": 1355
+    },
+    {
+      "epoch": 7.555555555555555,
+      "grad_norm": 0.19136829674243927,
+      "learning_rate": 8.598524275237322e-06,
+      "loss": 0.2257,
+      "num_input_tokens_seen": 206848,
+      "step": 1360
+    },
+    {
+      "epoch": 7.583333333333333,
+      "grad_norm": 0.32974568009376526,
+      "learning_rate": 8.41635138570507e-06,
+      "loss": 0.2215,
+      "num_input_tokens_seen": 207616,
+      "step": 1365
+    },
+    {
+      "epoch": 7.611111111111111,
+      "grad_norm": 0.15361334383487701,
+      "learning_rate": 8.235737640824908e-06,
+      "loss": 0.2318,
+      "num_input_tokens_seen": 208352,
+      "step": 1370
+    },
+    {
+      "epoch": 7.638888888888889,
+      "grad_norm": 0.1010158509016037,
+      "learning_rate": 8.056700021356694e-06,
+      "loss": 0.2318,
+      "num_input_tokens_seen": 209104,
+      "step": 1375
+    },
+    {
+      "epoch": 7.666666666666667,
+      "grad_norm": 0.13236771523952484,
+      "learning_rate": 7.879255359877705e-06,
+      "loss": 0.2214,
+      "num_input_tokens_seen": 209824,
+      "step": 1380
+    },
+    {
+      "epoch": 7.694444444444445,
+      "grad_norm": 0.27826857566833496,
+      "learning_rate": 7.703420339200101e-06,
+      "loss": 0.2277,
+      "num_input_tokens_seen": 210576,
+      "step": 1385
+    },
+    {
+      "epoch": 7.722222222222222,
+      "grad_norm": 0.11552697420120239,
+      "learning_rate": 7.529211490802498e-06,
+      "loss": 0.2321,
+      "num_input_tokens_seen": 211376,
+      "step": 1390
+    },
+    {
+      "epoch": 7.75,
+      "grad_norm": 0.26024869084358215,
+      "learning_rate": 7.3566451932756744e-06,
+      "loss": 0.2219,
+      "num_input_tokens_seen": 212128,
+      "step": 1395
+    },
+    {
+      "epoch": 7.777777777777778,
+      "grad_norm": 0.46777015924453735,
+      "learning_rate": 7.185737670782727e-06,
+      "loss": 0.2341,
+      "num_input_tokens_seen": 212928,
+      "step": 1400
+    },
+    {
+      "epoch": 7.805555555555555,
+      "grad_norm": 0.4171617031097412,
+      "learning_rate": 7.016504991533726e-06,
+      "loss": 0.2281,
+      "num_input_tokens_seen": 213696,
+      "step": 1405
+    },
+    {
+      "epoch": 7.833333333333333,
+      "grad_norm": 0.26392862200737,
+      "learning_rate": 6.848963066275027e-06,
+      "loss": 0.2235,
+      "num_input_tokens_seen": 214464,
+      "step": 1410
+    },
+    {
+      "epoch": 7.861111111111111,
+      "grad_norm": 0.38417884707450867,
+      "learning_rate": 6.683127646793411e-06,
+      "loss": 0.2256,
+      "num_input_tokens_seen": 215248,
+      "step": 1415
+    },
+    {
+      "epoch": 7.888888888888889,
+      "grad_norm": 0.3204626441001892,
+      "learning_rate": 6.519014324435102e-06,
+      "loss": 0.23,
+      "num_input_tokens_seen": 216016,
+      "step": 1420
+    },
+    {
+      "epoch": 7.916666666666667,
+      "grad_norm": 0.5906103849411011,
+      "learning_rate": 6.356638528639955e-06,
+      "loss": 0.2161,
+      "num_input_tokens_seen": 216784,
+      "step": 1425
+    },
+    {
+      "epoch": 7.944444444444445,
+      "grad_norm": 0.5075457692146301,
+      "learning_rate": 6.196015525490825e-06,
+      "loss": 0.2378,
+      "num_input_tokens_seen": 217552,
+      "step": 1430
+    },
+    {
+      "epoch": 7.972222222222222,
+      "grad_norm": 0.391796350479126,
+      "learning_rate": 6.037160416278278e-06,
+      "loss": 0.2106,
+      "num_input_tokens_seen": 218320,
+      "step": 1435
+    },
+    {
+      "epoch": 8.0,
+      "grad_norm": 0.30044350028038025,
+      "learning_rate": 5.880088136080814e-06,
+      "loss": 0.2397,
+      "num_input_tokens_seen": 219072,
+      "step": 1440
+    },
+    {
+      "epoch": 8.0,
+      "eval_loss": 0.23981384932994843,
+      "eval_runtime": 0.9347,
+      "eval_samples_per_second": 42.793,
+      "eval_steps_per_second": 21.396,
+      "num_input_tokens_seen": 219072,
+      "step": 1440
+    },
+    {
+      "epoch": 8.027777777777779,
+      "grad_norm": 0.27506348490715027,
+      "learning_rate": 5.724813452360736e-06,
+      "loss": 0.2387,
+      "num_input_tokens_seen": 219824,
+      "step": 1445
+    },
+    {
+      "epoch": 8.055555555555555,
+      "grad_norm": 0.24548961222171783,
+      "learning_rate": 5.571350963575728e-06,
+      "loss": 0.225,
+      "num_input_tokens_seen": 220608,
+      "step": 1450
+    },
+    {
+      "epoch": 8.083333333333334,
+      "grad_norm": 0.3901921808719635,
+      "learning_rate": 5.4197150978063965e-06,
+      "loss": 0.2226,
+      "num_input_tokens_seen": 221344,
+      "step": 1455
+    },
+    {
+      "epoch": 8.11111111111111,
+      "grad_norm": 0.29666590690612793,
+      "learning_rate": 5.269920111399732e-06,
+      "loss": 0.2099,
+      "num_input_tokens_seen": 222096,
+      "step": 1460
+    },
+    {
+      "epoch": 8.13888888888889,
+      "grad_norm": 0.27102553844451904,
+      "learning_rate": 5.121980087628803e-06,
+      "loss": 0.22,
+      "num_input_tokens_seen": 222864,
+      "step": 1465
+    },
+    {
+      "epoch": 8.166666666666666,
+      "grad_norm": 0.5045028924942017,
+      "learning_rate": 4.975908935368701e-06,
+      "loss": 0.2085,
+      "num_input_tokens_seen": 223648,
+      "step": 1470
+    },
+    {
+      "epoch": 8.194444444444445,
+      "grad_norm": 0.42152079939842224,
+      "learning_rate": 4.831720387788827e-06,
+      "loss": 0.2232,
+      "num_input_tokens_seen": 224448,
+      "step": 1475
+    },
+    {
+      "epoch": 8.222222222222221,
+      "grad_norm": 0.5949079394340515,
+      "learning_rate": 4.689428001061774e-06,
+      "loss": 0.2372,
+      "num_input_tokens_seen": 225184,
+      "step": 1480
+    },
+    {
+      "epoch": 8.25,
+      "grad_norm": 0.821489691734314,
+      "learning_rate": 4.549045153088813e-06,
+      "loss": 0.2445,
+      "num_input_tokens_seen": 225936,
+      "step": 1485
+    },
+    {
+      "epoch": 8.277777777777779,
+      "grad_norm": 0.18520553410053253,
+      "learning_rate": 4.410585042242124e-06,
+      "loss": 0.2127,
+      "num_input_tokens_seen": 226672,
+      "step": 1490
+    },
+    {
+      "epoch": 8.305555555555555,
+      "grad_norm": 0.5273939371109009,
+      "learning_rate": 4.274060686123959e-06,
+      "loss": 0.2291,
+      "num_input_tokens_seen": 227424,
+      "step": 1495
+    },
+    {
+      "epoch": 8.333333333333334,
+      "grad_norm": 0.971530020236969,
+      "learning_rate": 4.1394849203427284e-06,
+      "loss": 0.2215,
+      "num_input_tokens_seen": 228208,
+      "step": 1500
+    },
+    {
+      "epoch": 8.36111111111111,
+      "grad_norm": 0.41763991117477417,
+      "learning_rate": 4.006870397306256e-06,
+      "loss": 0.2285,
+      "num_input_tokens_seen": 228992,
+      "step": 1505
+    },
+    {
+      "epoch": 8.38888888888889,
+      "grad_norm": 0.8419550657272339,
+      "learning_rate": 3.876229585032245e-06,
+      "loss": 0.2346,
+      "num_input_tokens_seen": 229744,
+      "step": 1510
+    },
+    {
+      "epoch": 8.416666666666666,
+      "grad_norm": 0.6107072830200195,
+      "learning_rate": 3.7475747659760502e-06,
+      "loss": 0.2227,
+      "num_input_tokens_seen": 230496,
+      "step": 1515
+    },
+    {
+      "epoch": 8.444444444444445,
+      "grad_norm": 0.8054441213607788,
+      "learning_rate": 3.6209180358759394e-06,
+      "loss": 0.2451,
+      "num_input_tokens_seen": 231248,
+      "step": 1520
+    },
+    {
+      "epoch": 8.472222222222221,
+      "grad_norm": 0.4645056426525116,
+      "learning_rate": 3.4962713026158694e-06,
+      "loss": 0.2349,
+      "num_input_tokens_seen": 232000,
+      "step": 1525
+    },
+    {
+      "epoch": 8.5,
+      "grad_norm": 0.3298775851726532,
+      "learning_rate": 3.373646285105958e-06,
+      "loss": 0.2326,
+      "num_input_tokens_seen": 232768,
+      "step": 1530
+    },
+    {
+      "epoch": 8.5,
+      "eval_loss": 0.23918041586875916,
+      "eval_runtime": 0.973,
+      "eval_samples_per_second": 41.108,
+      "eval_steps_per_second": 20.554,
+      "num_input_tokens_seen": 232768,
+      "step": 1530
+    },
+    {
+      "epoch": 8.527777777777779,
+      "grad_norm": 0.7153943777084351,
+      "learning_rate": 3.2530545121807145e-06,
+      "loss": 0.2182,
+      "num_input_tokens_seen": 233568,
+      "step": 1535
+    },
+    {
+      "epoch": 8.555555555555555,
+      "grad_norm": 0.5523039102554321,
+      "learning_rate": 3.1345073215151066e-06,
+      "loss": 0.2303,
+      "num_input_tokens_seen": 234320,
+      "step": 1540
+    },
+    {
+      "epoch": 8.583333333333334,
+      "grad_norm": 1.0936306715011597,
+      "learning_rate": 3.0180158585586397e-06,
+      "loss": 0.2351,
+      "num_input_tokens_seen": 235040,
+      "step": 1545
+    },
+    {
+      "epoch": 8.61111111111111,
+      "grad_norm": 0.7819131016731262,
+      "learning_rate": 2.9035910754875136e-06,
+      "loss": 0.2208,
+      "num_input_tokens_seen": 235824,
+      "step": 1550
+    },
+    {
+      "epoch": 8.63888888888889,
+      "grad_norm": 0.2775709927082062,
+      "learning_rate": 2.7912437301749026e-06,
+      "loss": 0.2515,
+      "num_input_tokens_seen": 236592,
+      "step": 1555
+    },
+    {
+      "epoch": 8.666666666666666,
+      "grad_norm": 0.5354907512664795,
+      "learning_rate": 2.6809843851795357e-06,
+      "loss": 0.2304,
+      "num_input_tokens_seen": 237344,
+      "step": 1560
+    },
+    {
+      "epoch": 8.694444444444445,
+      "grad_norm": 0.23683322966098785,
+      "learning_rate": 2.57282340675267e-06,
+      "loss": 0.2283,
+      "num_input_tokens_seen": 238080,
+      "step": 1565
+    },
+    {
+      "epoch": 8.722222222222221,
+      "grad_norm": 0.3635963797569275,
+      "learning_rate": 2.4667709638634434e-06,
+      "loss": 0.218,
+      "num_input_tokens_seen": 238816,
+      "step": 1570
+    },
+    {
+      "epoch": 8.75,
+      "grad_norm": 0.34972408413887024,
+      "learning_rate": 2.3628370272428564e-06,
+      "loss": 0.2227,
+      "num_input_tokens_seen": 239568,
+      "step": 1575
+    },
+    {
+      "epoch": 8.777777777777779,
+      "grad_norm": 0.44704702496528625,
+      "learning_rate": 2.2610313684463177e-06,
+      "loss": 0.2221,
+      "num_input_tokens_seen": 240352,
+      "step": 1580
+    },
+    {
+      "epoch": 8.805555555555555,
+      "grad_norm": 0.6542179584503174,
+      "learning_rate": 2.1613635589349756e-06,
+      "loss": 0.2258,
+      "num_input_tokens_seen": 241120,
+      "step": 1585
+    },
+    {
+      "epoch": 8.833333333333334,
+      "grad_norm": 0.5455138683319092,
+      "learning_rate": 2.063842969175847e-06,
+      "loss": 0.2072,
+      "num_input_tokens_seen": 241856,
+      "step": 1590
+    },
+    {
+      "epoch": 8.86111111111111,
+      "grad_norm": 0.5569766163825989,
+      "learning_rate": 1.968478767760812e-06,
+      "loss": 0.227,
+      "num_input_tokens_seen": 242608,
+      "step": 1595
+    },
+    {
+      "epoch": 8.88888888888889,
+      "grad_norm": 0.5224148035049438,
+      "learning_rate": 1.8752799205445982e-06,
+      "loss": 0.2292,
+      "num_input_tokens_seen": 243360,
+      "step": 1600
+    },
+    {
+      "epoch": 8.916666666666666,
+      "grad_norm": 0.41836488246917725,
+      "learning_rate": 1.784255189801895e-06,
+      "loss": 0.2272,
+      "num_input_tokens_seen": 244128,
+      "step": 1605
+    },
+    {
+      "epoch": 8.944444444444445,
+      "grad_norm": 0.9957962036132812,
+      "learning_rate": 1.6954131334034922e-06,
+      "loss": 0.2165,
+      "num_input_tokens_seen": 244896,
+      "step": 1610
+    },
+    {
+      "epoch": 8.972222222222221,
+      "grad_norm": 0.3357020914554596,
+      "learning_rate": 1.6087621040117157e-06,
+      "loss": 0.2252,
+      "num_input_tokens_seen": 245664,
+      "step": 1615
+    },
+    {
+      "epoch": 9.0,
+      "grad_norm": 0.49389392137527466,
+      "learning_rate": 1.524310248295152e-06,
+      "loss": 0.2314,
+      "num_input_tokens_seen": 246416,
+      "step": 1620
+    },
+    {
+      "epoch": 9.0,
+      "eval_loss": 0.23724833130836487,
+      "eval_runtime": 0.939,
+      "eval_samples_per_second": 42.6,
+      "eval_steps_per_second": 21.3,
+      "num_input_tokens_seen": 246416,
+      "step": 1620
+    },
+    {
+      "epoch": 9.027777777777779,
+      "grad_norm": 0.48099416494369507,
+      "learning_rate": 1.4420655061626932e-06,
+      "loss": 0.224,
+      "num_input_tokens_seen": 247184,
+      "step": 1625
+    },
+    {
+      "epoch": 9.055555555555555,
+      "grad_norm": 0.41828247904777527,
+      "learning_rate": 1.362035610017079e-06,
+      "loss": 0.2113,
+      "num_input_tokens_seen": 247936,
+      "step": 1630
+    },
+    {
+      "epoch": 9.083333333333334,
+      "grad_norm": 0.8977143168449402,
+      "learning_rate": 1.2842280840278997e-06,
+      "loss": 0.2259,
+      "num_input_tokens_seen": 248688,
+      "step": 1635
+    },
+    {
+      "epoch": 9.11111111111111,
+      "grad_norm": 0.8394097685813904,
+      "learning_rate": 1.2086502434241865e-06,
+      "loss": 0.2334,
+      "num_input_tokens_seen": 249472,
+      "step": 1640
+    },
+    {
+      "epoch": 9.13888888888889,
+      "grad_norm": 0.561608612537384,
+      "learning_rate": 1.1353091938067023e-06,
+      "loss": 0.2343,
+      "num_input_tokens_seen": 250224,
+      "step": 1645
+    },
+    {
+      "epoch": 9.166666666666666,
+      "grad_norm": 0.2577042877674103,
+      "learning_rate": 1.0642118304798442e-06,
+      "loss": 0.2204,
+      "num_input_tokens_seen": 250960,
+      "step": 1650
+    },
+    {
+      "epoch": 9.194444444444445,
+      "grad_norm": 0.593360960483551,
+      "learning_rate": 9.95364837803392e-07,
+      "loss": 0.2128,
+      "num_input_tokens_seen": 251728,
+      "step": 1655
+    },
+    {
+      "epoch": 9.222222222222221,
+      "grad_norm": 0.3735087513923645,
+      "learning_rate": 9.287746885640603e-07,
+      "loss": 0.2267,
+      "num_input_tokens_seen": 252512,
+      "step": 1660
+    },
+    {
+      "epoch": 9.25,
+      "grad_norm": 0.6304435133934021,
+      "learning_rate": 8.64447643366953e-07,
+      "loss": 0.2159,
+      "num_input_tokens_seen": 253280,
+      "step": 1665
+    },
+    {
+      "epoch": 9.277777777777779,
+      "grad_norm": 0.5905485153198242,
+      "learning_rate": 8.023897500469391e-07,
+      "loss": 0.2129,
+      "num_input_tokens_seen": 254032,
+      "step": 1670
+    },
+    {
+      "epoch": 9.305555555555555,
+      "grad_norm": 0.713708758354187,
+      "learning_rate": 7.426068431000882e-07,
+      "loss": 0.1987,
+      "num_input_tokens_seen": 254800,
+      "step": 1675
+    },
+    {
+      "epoch": 9.333333333333334,
+      "grad_norm": 0.35738542675971985,
+      "learning_rate": 6.851045431350927e-07,
+      "loss": 0.2243,
+      "num_input_tokens_seen": 255584,
+      "step": 1680
+    },
+    {
+      "epoch": 9.36111111111111,
+      "grad_norm": 0.8213897347450256,
+      "learning_rate": 6.298882563448599e-07,
+      "loss": 0.2209,
+      "num_input_tokens_seen": 256368,
+      "step": 1685
+    },
+    {
+      "epoch": 9.38888888888889,
+      "grad_norm": 0.5897648930549622,
+      "learning_rate": 5.769631739982267e-07,
+      "loss": 0.2311,
+      "num_input_tokens_seen": 257104,
+      "step": 1690
+    },
+    {
+      "epoch": 9.416666666666666,
+      "grad_norm": 0.5212704539299011,
+      "learning_rate": 5.263342719518921e-07,
+      "loss": 0.2182,
+      "num_input_tokens_seen": 257856,
+      "step": 1695
+    },
+    {
+      "epoch": 9.444444444444445,
+      "grad_norm": 1.3804621696472168,
+      "learning_rate": 4.780063101826132e-07,
+      "loss": 0.2338,
+      "num_input_tokens_seen": 258608,
+      "step": 1700
+    },
+    {
+      "epoch": 9.472222222222221,
+      "grad_norm": 0.7559466361999512,
+      "learning_rate": 4.319838323396691e-07,
+      "loss": 0.2313,
+      "num_input_tokens_seen": 259344,
+      "step": 1705
+    },
+    {
+      "epoch": 9.5,
+      "grad_norm": 1.065232515335083,
+      "learning_rate": 3.88271165317694e-07,
+      "loss": 0.2125,
+      "num_input_tokens_seen": 260112,
+      "step": 1710
+    },
+    {
+      "epoch": 9.5,
+      "eval_loss": 0.23740486800670624,
+      "eval_runtime": 0.9484,
+      "eval_samples_per_second": 42.176,
+      "eval_steps_per_second": 21.088,
+      "num_input_tokens_seen": 260112,
+      "step": 1710
+    },
+    {
+      "epoch": 9.527777777777779,
+      "grad_norm": 0.548732578754425,
+      "learning_rate": 3.468724188498751e-07,
+      "loss": 0.2365,
+      "num_input_tokens_seen": 260864,
+      "step": 1715
+    },
+    {
+      "epoch": 9.555555555555555,
+      "grad_norm": 0.7818430066108704,
+      "learning_rate": 3.077914851215585e-07,
+      "loss": 0.21,
+      "num_input_tokens_seen": 261632,
+      "step": 1720
+    },
+    {
+      "epoch": 9.583333333333334,
+      "grad_norm": 0.6766040921211243,
+      "learning_rate": 2.71032038404323e-07,
+      "loss": 0.2185,
+      "num_input_tokens_seen": 262368,
+      "step": 1725
+    },
+    {
+      "epoch": 9.61111111111111,
+      "grad_norm": 1.058445930480957,
+      "learning_rate": 2.365975347105448e-07,
+      "loss": 0.2031,
+      "num_input_tokens_seen": 263136,
+      "step": 1730
+    },
+    {
+      "epoch": 9.63888888888889,
+      "grad_norm": 0.6020355820655823,
+      "learning_rate": 2.0449121146845774e-07,
+      "loss": 0.2374,
+      "num_input_tokens_seen": 263872,
+      "step": 1735
+    },
+    {
+      "epoch": 9.666666666666666,
+      "grad_norm": 0.6675497889518738,
+      "learning_rate": 1.747160872177883e-07,
+      "loss": 0.2216,
+      "num_input_tokens_seen": 264608,
+      "step": 1740
+    },
+    {
+      "epoch": 9.694444444444445,
+      "grad_norm": 0.7096846699714661,
+      "learning_rate": 1.472749613259661e-07,
+      "loss": 0.2279,
+      "num_input_tokens_seen": 265328,
+      "step": 1745
+    },
+    {
+      "epoch": 9.722222222222221,
+      "grad_norm": 0.6935564279556274,
+      "learning_rate": 1.22170413724923e-07,
+      "loss": 0.224,
+      "num_input_tokens_seen": 266112,
+      "step": 1750
+    },
+    {
+      "epoch": 9.75,
+      "grad_norm": 0.6694058775901794,
+      "learning_rate": 9.940480466855417e-08,
+      "loss": 0.2377,
+      "num_input_tokens_seen": 266864,
+      "step": 1755
+    },
+    {
+      "epoch": 9.777777777777779,
+      "grad_norm": 0.4078191816806793,
+      "learning_rate": 7.898027451078982e-08,
+      "loss": 0.2261,
+      "num_input_tokens_seen": 267600,
+      "step": 1760
+    },
+    {
+      "epoch": 9.805555555555555,
+      "grad_norm": 0.5535801649093628,
+      "learning_rate": 6.089874350439506e-08,
+      "loss": 0.2265,
+      "num_input_tokens_seen": 268384,
+      "step": 1765
+    },
+    {
+      "epoch": 9.833333333333334,
+      "grad_norm": 0.5976210236549377,
+      "learning_rate": 4.516191162040051e-08,
+      "loss": 0.2262,
+      "num_input_tokens_seen": 269168,
+      "step": 1770
+    },
+    {
+      "epoch": 9.86111111111111,
+      "grad_norm": 0.6153170466423035,
+      "learning_rate": 3.177125838830786e-08,
+      "loss": 0.2183,
+      "num_input_tokens_seen": 269904,
+      "step": 1775
+    },
+    {
+      "epoch": 9.88888888888889,
+      "grad_norm": 0.6996722221374512,
+      "learning_rate": 2.0728042756967824e-08,
+      "loss": 0.2199,
+      "num_input_tokens_seen": 270656,
+      "step": 1780
+    },
+    {
+      "epoch": 9.916666666666666,
+      "grad_norm": 1.1286702156066895,
+      "learning_rate": 1.2033302976222071e-08,
+      "loss": 0.2163,
+      "num_input_tokens_seen": 271408,
+      "step": 1785
+    },
+    {
+      "epoch": 9.944444444444445,
+      "grad_norm": 0.6332853436470032,
+      "learning_rate": 5.687856499297928e-09,
+      "loss": 0.2302,
+      "num_input_tokens_seen": 272192,
+      "step": 1790
+    },
+    {
+      "epoch": 9.972222222222221,
+      "grad_norm": 0.3865712881088257,
+      "learning_rate": 1.692299905944883e-09,
+      "loss": 0.2309,
+      "num_input_tokens_seen": 272960,
+      "step": 1795
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 0.3777412474155426,
+      "learning_rate": 4.700884634611935e-11,
+      "loss": 0.2223,
+      "num_input_tokens_seen": 273712,
+      "step": 1800
+    },
+    {
+      "epoch": 10.0,
+      "eval_loss": 0.23892374336719513,
+      "eval_runtime": 0.9383,
+      "eval_samples_per_second": 42.632,
+      "eval_steps_per_second": 21.316,
+      "num_input_tokens_seen": 273712,
+      "step": 1800
+    },
+    {
+      "epoch": 10.0,
+      "num_input_tokens_seen": 273712,
+      "step": 1800,
+      "total_flos": 1.2325127650934784e+16,
+      "train_loss": 0.31521187037229537,
+      "train_runtime": 206.3115,
+      "train_samples_per_second": 17.449,
+      "train_steps_per_second": 8.725
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 1800,
+  "num_input_tokens_seen": 273712,
+  "num_train_epochs": 10,
+  "save_steps": 90,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.2325127650934784e+16,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}

training_eval_loss.png ADDED Viewed

training_loss.png ADDED Viewed