irodkin
/

InnerLoopARMTForCausalLM_run_34

Safetensors

armt

custom_code

Model card Files Files and versions

xet

Community

irodkin commited on 15 days ago

Commit

b975d0b

verified ·

1 Parent(s): bd023c8

Training checkpoint at step 4500

Browse files

Files changed (1) hide show

trainer_state.json +1266 -186

trainer_state.json CHANGED Viewed

@@ -1,553 +1,1633 @@
 {
-  "best_global_step": 1500,
-  "best_metric": 2.725661039352417,
-  "best_model_checkpoint": "../runs/karpathy/fineweb-edu-100b-shuffle/google/gemma-3-1b-it/linear_adamw_wd1e-03_8x1024_mem32_bs64_hf_armt_dmem64/run_34/checkpoint-1500",
-  "epoch": 0.03,
   "eval_steps": 100,
-  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.0005,
-      "grad_norm": 82.5841699095815,
       "learning_rate": 4.8e-08,
-      "loss": 3.4393,
       "step": 25
     },
     {
       "epoch": 0.001,
-      "grad_norm": 72.33553691687935,
       "learning_rate": 9.8e-08,
-      "loss": 3.401,
       "step": 50
     },
     {
       "epoch": 0.0015,
-      "grad_norm": 55.00272386424627,
       "learning_rate": 1.4800000000000003e-07,
-      "loss": 3.3077,
       "step": 75
     },
     {
       "epoch": 0.002,
-      "grad_norm": 24.67154822301572,
       "learning_rate": 1.9800000000000003e-07,
-      "loss": 3.1946,
       "step": 100
     },
     {
       "epoch": 0.002,
-      "eval_loss": 3.11328125,
-      "eval_runtime": 39.4175,
-      "eval_samples_per_second": 2.638,
-      "eval_steps_per_second": 1.319,
       "step": 100
     },
     {
       "epoch": 0.0025,
-      "grad_norm": 8.681721490029314,
       "learning_rate": 2.48e-07,
-      "loss": 3.0709,
       "step": 125
     },
     {
       "epoch": 0.003,
-      "grad_norm": 7.238581078870377,
       "learning_rate": 2.9800000000000005e-07,
-      "loss": 3.0046,
       "step": 150
     },
     {
       "epoch": 0.0035,
-      "grad_norm": 5.931774986901269,
       "learning_rate": 3.48e-07,
-      "loss": 2.954,
       "step": 175
     },
     {
       "epoch": 0.004,
-      "grad_norm": 4.891205112515998,
       "learning_rate": 3.9800000000000004e-07,
-      "loss": 2.9365,
       "step": 200
     },
     {
       "epoch": 0.004,
-      "eval_loss": 2.922476053237915,
-      "eval_runtime": 39.6232,
-      "eval_samples_per_second": 2.625,
-      "eval_steps_per_second": 1.312,
       "step": 200
     },
     {
       "epoch": 0.0045,
-      "grad_norm": 4.53174674502475,
       "learning_rate": 4.4800000000000004e-07,
-      "loss": 2.9198,
       "step": 225
     },
     {
       "epoch": 0.005,
-      "grad_norm": 4.642185238219915,
       "learning_rate": 4.98e-07,
-      "loss": 2.9004,
       "step": 250
     },
     {
       "epoch": 0.0055,
-      "grad_norm": 5.838003634607987,
       "learning_rate": 5.480000000000001e-07,
-      "loss": 2.8935,
       "step": 275
     },
     {
       "epoch": 0.006,
-      "grad_norm": 4.535236579882751,
       "learning_rate": 5.98e-07,
-      "loss": 2.8857,
       "step": 300
     },
     {
       "epoch": 0.006,
-      "eval_loss": 2.874248743057251,
-      "eval_runtime": 39.4088,
-      "eval_samples_per_second": 2.639,
-      "eval_steps_per_second": 1.32,
       "step": 300
     },
     {
       "epoch": 0.0065,
-      "grad_norm": 4.767460098400186,
       "learning_rate": 6.48e-07,
-      "loss": 2.8672,
       "step": 325
     },
     {
       "epoch": 0.007,
-      "grad_norm": 6.424432953613615,
       "learning_rate": 6.98e-07,
-      "loss": 2.8663,
       "step": 350
     },
     {
       "epoch": 0.0075,
-      "grad_norm": 4.530337576253928,
       "learning_rate": 7.480000000000001e-07,
-      "loss": 2.8574,
       "step": 375
     },
     {
       "epoch": 0.008,
-      "grad_norm": 5.094043051124328,
       "learning_rate": 7.98e-07,
-      "loss": 2.8534,
       "step": 400
     },
     {
       "epoch": 0.008,
-      "eval_loss": 2.846604585647583,
-      "eval_runtime": 45.9565,
-      "eval_samples_per_second": 2.263,
-      "eval_steps_per_second": 1.132,
       "step": 400
     },
     {
       "epoch": 0.0085,
-      "grad_norm": 4.737628412447718,
       "learning_rate": 8.480000000000001e-07,
-      "loss": 2.8303,
       "step": 425
     },
     {
       "epoch": 0.009,
-      "grad_norm": 4.176119045358587,
       "learning_rate": 8.980000000000001e-07,
-      "loss": 2.8403,
       "step": 450
     },
     {
       "epoch": 0.0095,
-      "grad_norm": 4.0039940059315065,
       "learning_rate": 9.480000000000001e-07,
-      "loss": 2.8339,
       "step": 475
     },
     {
       "epoch": 0.01,
-      "grad_norm": 4.202142407976928,
       "learning_rate": 9.98e-07,
-      "loss": 2.831,
       "step": 500
     },
     {
       "epoch": 0.01,
-      "eval_loss": 2.826472282409668,
-      "eval_runtime": 45.8283,
-      "eval_samples_per_second": 2.269,
-      "eval_steps_per_second": 1.135,
       "step": 500
     },
     {
       "epoch": 0.0105,
-      "grad_norm": 4.067695724388097,
       "learning_rate": 1.0480000000000002e-06,
-      "loss": 2.8361,
       "step": 525
     },
     {
       "epoch": 0.011,
-      "grad_norm": 4.589090257665776,
       "learning_rate": 1.0980000000000001e-06,
-      "loss": 2.8258,
       "step": 550
     },
     {
       "epoch": 0.0115,
-      "grad_norm": 4.085702217820906,
       "learning_rate": 1.148e-06,
-      "loss": 2.808,
       "step": 575
     },
     {
       "epoch": 0.012,
-      "grad_norm": 4.961422622812396,
       "learning_rate": 1.1980000000000002e-06,
-      "loss": 2.8186,
       "step": 600
     },
     {
       "epoch": 0.012,
-      "eval_loss": 2.809044361114502,
-      "eval_runtime": 45.9695,
-      "eval_samples_per_second": 2.262,
-      "eval_steps_per_second": 1.131,
       "step": 600
     },
     {
       "epoch": 0.0125,
-      "grad_norm": 5.123166529014019,
       "learning_rate": 1.248e-06,
-      "loss": 2.811,
       "step": 625
     },
     {
       "epoch": 0.013,
-      "grad_norm": 3.986488261530633,
       "learning_rate": 1.2980000000000001e-06,
-      "loss": 2.8075,
       "step": 650
     },
     {
       "epoch": 0.0135,
-      "grad_norm": 4.785348989779224,
       "learning_rate": 1.348e-06,
-      "loss": 2.8003,
       "step": 675
     },
     {
       "epoch": 0.014,
-      "grad_norm": 6.71907732056903,
       "learning_rate": 1.3980000000000002e-06,
-      "loss": 2.7974,
       "step": 700
     },
     {
       "epoch": 0.014,
-      "eval_loss": 2.797025203704834,
-      "eval_runtime": 45.9216,
-      "eval_samples_per_second": 2.265,
-      "eval_steps_per_second": 1.132,
       "step": 700
     },
     {
       "epoch": 0.0145,
-      "grad_norm": 5.157726668042884,
       "learning_rate": 1.4480000000000002e-06,
-      "loss": 2.7907,
       "step": 725
     },
     {
       "epoch": 0.015,
-      "grad_norm": 4.679964588741966,
       "learning_rate": 1.498e-06,
-      "loss": 2.7794,
       "step": 750
     },
     {
       "epoch": 0.0155,
-      "grad_norm": 6.251667739120528,
       "learning_rate": 1.548e-06,
-      "loss": 2.7925,
       "step": 775
     },
     {
       "epoch": 0.016,
-      "grad_norm": 3.474471667792908,
       "learning_rate": 1.5980000000000002e-06,
-      "loss": 2.7797,
       "step": 800
     },
     {
       "epoch": 0.016,
-      "eval_loss": 2.786358118057251,
-      "eval_runtime": 45.8769,
-      "eval_samples_per_second": 2.267,
-      "eval_steps_per_second": 1.133,
       "step": 800
     },
     {
       "epoch": 0.0165,
-      "grad_norm": 3.913235352599255,
       "learning_rate": 1.6480000000000001e-06,
-      "loss": 2.7893,
       "step": 825
     },
     {
       "epoch": 0.017,
-      "grad_norm": 3.5977863132825423,
       "learning_rate": 1.6980000000000003e-06,
-      "loss": 2.7691,
       "step": 850
     },
     {
       "epoch": 0.0175,
-      "grad_norm": 3.6730462454873467,
       "learning_rate": 1.7480000000000002e-06,
-      "loss": 2.7811,
       "step": 875
     },
     {
       "epoch": 0.018,
-      "grad_norm": 4.349147110334662,
       "learning_rate": 1.798e-06,
-      "loss": 2.7748,
       "step": 900
     },
     {
       "epoch": 0.018,
-      "eval_loss": 2.775090217590332,
-      "eval_runtime": 46.3008,
-      "eval_samples_per_second": 2.246,
-      "eval_steps_per_second": 1.123,
       "step": 900
     },
     {
       "epoch": 0.0185,
-      "grad_norm": 3.480345675498338,
       "learning_rate": 1.8480000000000001e-06,
-      "loss": 2.762,
       "step": 925
     },
     {
       "epoch": 0.019,
-      "grad_norm": 3.833328576431189,
       "learning_rate": 1.898e-06,
-      "loss": 2.7757,
       "step": 950
     },
     {
       "epoch": 0.0195,
-      "grad_norm": 5.036413282568569,
       "learning_rate": 1.9480000000000002e-06,
-      "loss": 2.7786,
       "step": 975
     },
     {
       "epoch": 0.02,
-      "grad_norm": 3.127047897844809,
       "learning_rate": 1.998e-06,
-      "loss": 2.7645,
       "step": 1000
     },
     {
       "epoch": 0.02,
-      "eval_loss": 2.767127513885498,
-      "eval_runtime": 46.2475,
-      "eval_samples_per_second": 2.249,
-      "eval_steps_per_second": 1.124,
       "step": 1000
     },
     {
       "epoch": 0.0205,
-      "grad_norm": 4.140879887496416,
       "learning_rate": 2.048e-06,
-      "loss": 2.7662,
       "step": 1025
     },
     {
       "epoch": 0.021,
-      "grad_norm": 3.4541052280858118,
       "learning_rate": 2.098e-06,
-      "loss": 2.7791,
       "step": 1050
     },
     {
       "epoch": 0.0215,
-      "grad_norm": 3.5083703383302365,
       "learning_rate": 2.148e-06,
-      "loss": 2.7536,
       "step": 1075
     },
     {
       "epoch": 0.022,
-      "grad_norm": 3.461079244241643,
       "learning_rate": 2.198e-06,
-      "loss": 2.7553,
       "step": 1100
     },
     {
       "epoch": 0.022,
-      "eval_loss": 2.7578125,
-      "eval_runtime": 46.0318,
-      "eval_samples_per_second": 2.259,
-      "eval_steps_per_second": 1.13,
       "step": 1100
     },
     {
       "epoch": 0.0225,
-      "grad_norm": 4.001530983295657,
       "learning_rate": 2.2480000000000003e-06,
-      "loss": 2.7457,
       "step": 1125
     },
     {
       "epoch": 0.023,
-      "grad_norm": 3.8943030577897852,
       "learning_rate": 2.2980000000000003e-06,
-      "loss": 2.7512,
       "step": 1150
     },
     {
       "epoch": 0.0235,
-      "grad_norm": 3.552019500851815,
       "learning_rate": 2.3480000000000002e-06,
-      "loss": 2.7503,
       "step": 1175
     },
     {
       "epoch": 0.024,
-      "grad_norm": 3.591141406301505,
       "learning_rate": 2.398e-06,
-      "loss": 2.7597,
       "step": 1200
     },
     {
       "epoch": 0.024,
-      "eval_loss": 2.750450611114502,
-      "eval_runtime": 46.1485,
-      "eval_samples_per_second": 2.254,
-      "eval_steps_per_second": 1.127,
       "step": 1200
     },
     {
       "epoch": 0.0245,
-      "grad_norm": 3.4973831873828556,
       "learning_rate": 2.448e-06,
-      "loss": 2.7466,
       "step": 1225
     },
     {
       "epoch": 0.025,
-      "grad_norm": 4.1984008078108515,
       "learning_rate": 2.498e-06,
-      "loss": 2.7519,
       "step": 1250
     },
     {
       "epoch": 0.0255,
-      "grad_norm": 4.081479454612426,
       "learning_rate": 2.5480000000000004e-06,
-      "loss": 2.7439,
       "step": 1275
     },
     {
       "epoch": 0.026,
-      "grad_norm": 3.9049654172962645,
       "learning_rate": 2.598e-06,
-      "loss": 2.7343,
       "step": 1300
     },
     {
       "epoch": 0.026,
-      "eval_loss": 2.740234375,
-      "eval_runtime": 46.5866,
-      "eval_samples_per_second": 2.232,
-      "eval_steps_per_second": 1.116,
       "step": 1300
     },
     {
       "epoch": 0.0265,
-      "grad_norm": 3.4381975298718377,
       "learning_rate": 2.648e-06,
-      "loss": 2.7559,
       "step": 1325
     },
     {
       "epoch": 0.027,
-      "grad_norm": 5.94066510561298,
       "learning_rate": 2.6980000000000003e-06,
-      "loss": 2.7445,
       "step": 1350
     },
     {
       "epoch": 0.0275,
-      "grad_norm": 4.0184303787905815,
       "learning_rate": 2.748e-06,
-      "loss": 2.7335,
       "step": 1375
     },
     {
       "epoch": 0.028,
-      "grad_norm": 4.557792596110642,
       "learning_rate": 2.798e-06,
-      "loss": 2.7302,
       "step": 1400
     },
     {
       "epoch": 0.028,
-      "eval_loss": 2.732872486114502,
-      "eval_runtime": 46.2434,
-      "eval_samples_per_second": 2.249,
-      "eval_steps_per_second": 1.124,
       "step": 1400
     },
     {
       "epoch": 0.0285,
-      "grad_norm": 3.6573921602611583,
       "learning_rate": 2.848e-06,
-      "loss": 2.7279,
       "step": 1425
     },
     {
       "epoch": 0.029,
-      "grad_norm": 4.85188341778116,
       "learning_rate": 2.8980000000000005e-06,
-      "loss": 2.726,
       "step": 1450
     },
     {
       "epoch": 0.0295,
-      "grad_norm": 6.36916983874441,
       "learning_rate": 2.9480000000000004e-06,
-      "loss": 2.7122,
       "step": 1475
     },
     {
       "epoch": 0.03,
-      "grad_norm": 4.96577286763615,
       "learning_rate": 2.9980000000000003e-06,
-      "loss": 2.7339,
       "step": 1500
     },
     {
       "epoch": 0.03,
-      "eval_loss": 2.725661039352417,
-      "eval_runtime": 45.3832,
-      "eval_samples_per_second": 2.292,
-      "eval_steps_per_second": 1.146,
       "step": 1500
     }
   ],
   "logging_steps": 25,
@@ -567,7 +1647,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.3663288633311887e+18,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 4500,
+  "best_metric": 2.620342493057251,
+  "best_model_checkpoint": "../runs/karpathy/fineweb-edu-100b-shuffle/google/gemma-3-1b-it/linear_adamw_wd1e-03_8x1024_mem32_bs64_hf_armt_dmem64/run_34/checkpoint-4500",
+  "epoch": 0.09,
   "eval_steps": 100,
+  "global_step": 4500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.0005,
+      "grad_norm": 96.04050869121504,
       "learning_rate": 4.8e-08,
+      "loss": 3.4391,
       "step": 25
     },
     {
       "epoch": 0.001,
+      "grad_norm": 78.95958818615539,
       "learning_rate": 9.8e-08,
+      "loss": 3.397,
       "step": 50
     },
     {
       "epoch": 0.0015,
+      "grad_norm": 61.45018428703237,
       "learning_rate": 1.4800000000000003e-07,
+      "loss": 3.297,
       "step": 75
     },
     {
       "epoch": 0.002,
+      "grad_norm": 22.353651858428393,
       "learning_rate": 1.9800000000000003e-07,
+      "loss": 3.1733,
       "step": 100
     },
     {
       "epoch": 0.002,
+      "eval_loss": 3.09375,
+      "eval_runtime": 42.6579,
+      "eval_samples_per_second": 2.438,
+      "eval_steps_per_second": 1.219,
       "step": 100
     },
     {
       "epoch": 0.0025,
+      "grad_norm": 9.835689068347888,
       "learning_rate": 2.48e-07,
+      "loss": 3.0557,
       "step": 125
     },
     {
       "epoch": 0.003,
+      "grad_norm": 8.293191220823632,
       "learning_rate": 2.9800000000000005e-07,
+      "loss": 2.9954,
       "step": 150
     },
     {
       "epoch": 0.0035,
+      "grad_norm": 6.660135091710579,
       "learning_rate": 3.48e-07,
+      "loss": 2.9504,
       "step": 175
     },
     {
       "epoch": 0.004,
+      "grad_norm": 13.605532098937575,
       "learning_rate": 3.9800000000000004e-07,
+      "loss": 2.9363,
       "step": 200
     },
     {
       "epoch": 0.004,
+      "eval_loss": 2.924128532409668,
+      "eval_runtime": 42.5415,
+      "eval_samples_per_second": 2.445,
+      "eval_steps_per_second": 1.222,
       "step": 200
     },
     {
       "epoch": 0.0045,
+      "grad_norm": 7.7985826788732435,
       "learning_rate": 4.4800000000000004e-07,
+      "loss": 2.9223,
       "step": 225
     },
     {
       "epoch": 0.005,
+      "grad_norm": 7.257382344220691,
       "learning_rate": 4.98e-07,
+      "loss": 2.9043,
       "step": 250
     },
     {
       "epoch": 0.0055,
+      "grad_norm": 9.049674458422025,
       "learning_rate": 5.480000000000001e-07,
+      "loss": 2.8984,
       "step": 275
     },
     {
       "epoch": 0.006,
+      "grad_norm": 5.766079229639856,
       "learning_rate": 5.98e-07,
+      "loss": 2.8898,
       "step": 300
     },
     {
       "epoch": 0.006,
+      "eval_loss": 2.877253532409668,
+      "eval_runtime": 42.642,
+      "eval_samples_per_second": 2.439,
+      "eval_steps_per_second": 1.219,
       "step": 300
     },
     {
       "epoch": 0.0065,
+      "grad_norm": 5.448754520618337,
       "learning_rate": 6.48e-07,
+      "loss": 2.871,
       "step": 325
     },
     {
       "epoch": 0.007,
+      "grad_norm": 6.866471472157179,
       "learning_rate": 6.98e-07,
+      "loss": 2.8693,
       "step": 350
     },
     {
       "epoch": 0.0075,
+      "grad_norm": 6.115788528016365,
       "learning_rate": 7.480000000000001e-07,
+      "loss": 2.8601,
       "step": 375
     },
     {
       "epoch": 0.008,
+      "grad_norm": 5.871468919197367,
       "learning_rate": 7.98e-07,
+      "loss": 2.8555,
       "step": 400
     },
     {
       "epoch": 0.008,
+      "eval_loss": 2.848106861114502,
+      "eval_runtime": 42.3632,
+      "eval_samples_per_second": 2.455,
+      "eval_steps_per_second": 1.227,
       "step": 400
     },
     {
       "epoch": 0.0085,
+      "grad_norm": 6.050804087803095,
       "learning_rate": 8.480000000000001e-07,
+      "loss": 2.832,
       "step": 425
     },
     {
       "epoch": 0.009,
+      "grad_norm": 4.634127162302958,
       "learning_rate": 8.980000000000001e-07,
+      "loss": 2.8418,
       "step": 450
     },
     {
       "epoch": 0.0095,
+      "grad_norm": 5.700549652048682,
       "learning_rate": 9.480000000000001e-07,
+      "loss": 2.8351,
       "step": 475
     },
     {
       "epoch": 0.01,
+      "grad_norm": 5.462019159507559,
       "learning_rate": 9.98e-07,
+      "loss": 2.8319,
       "step": 500
     },
     {
       "epoch": 0.01,
+      "eval_loss": 2.828125,
+      "eval_runtime": 42.4078,
+      "eval_samples_per_second": 2.452,
+      "eval_steps_per_second": 1.226,
       "step": 500
     },
     {
       "epoch": 0.0105,
+      "grad_norm": 5.100237356575638,
       "learning_rate": 1.0480000000000002e-06,
+      "loss": 2.8368,
       "step": 525
     },
     {
       "epoch": 0.011,
+      "grad_norm": 5.8591675831655134,
       "learning_rate": 1.0980000000000001e-06,
+      "loss": 2.8262,
       "step": 550
     },
     {
       "epoch": 0.0115,
+      "grad_norm": 4.582188259829454,
       "learning_rate": 1.148e-06,
+      "loss": 2.8083,
       "step": 575
     },
     {
       "epoch": 0.012,
+      "grad_norm": 4.853482247652135,
       "learning_rate": 1.1980000000000002e-06,
+      "loss": 2.8187,
       "step": 600
     },
     {
       "epoch": 0.012,
+      "eval_loss": 2.810246467590332,
+      "eval_runtime": 42.429,
+      "eval_samples_per_second": 2.451,
+      "eval_steps_per_second": 1.226,
       "step": 600
     },
     {
       "epoch": 0.0125,
+      "grad_norm": 4.813324366644894,
       "learning_rate": 1.248e-06,
+      "loss": 2.8109,
       "step": 625
     },
     {
       "epoch": 0.013,
+      "grad_norm": 4.680021008982155,
       "learning_rate": 1.2980000000000001e-06,
+      "loss": 2.8071,
       "step": 650
     },
     {
       "epoch": 0.0135,
+      "grad_norm": 4.232572917961915,
       "learning_rate": 1.348e-06,
+      "loss": 2.7996,
       "step": 675
     },
     {
       "epoch": 0.014,
+      "grad_norm": 4.140300235345937,
       "learning_rate": 1.3980000000000002e-06,
+      "loss": 2.7965,
       "step": 700
     },
     {
       "epoch": 0.014,
+      "eval_loss": 2.795973539352417,
+      "eval_runtime": 42.2781,
+      "eval_samples_per_second": 2.46,
+      "eval_steps_per_second": 1.23,
       "step": 700
     },
     {
       "epoch": 0.0145,
+      "grad_norm": 4.066322921244863,
       "learning_rate": 1.4480000000000002e-06,
+      "loss": 2.7892,
       "step": 725
     },
     {
       "epoch": 0.015,
+      "grad_norm": 4.790524346969656,
       "learning_rate": 1.498e-06,
+      "loss": 2.7776,
       "step": 750
     },
     {
       "epoch": 0.0155,
+      "grad_norm": 4.814208015592297,
       "learning_rate": 1.548e-06,
+      "loss": 2.7904,
       "step": 775
     },
     {
       "epoch": 0.016,
+      "grad_norm": 3.495397019361677,
       "learning_rate": 1.5980000000000002e-06,
+      "loss": 2.7771,
       "step": 800
     },
     {
       "epoch": 0.016,
+      "eval_loss": 2.783353328704834,
+      "eval_runtime": 45.2475,
+      "eval_samples_per_second": 2.298,
+      "eval_steps_per_second": 1.149,
       "step": 800
     },
     {
       "epoch": 0.0165,
+      "grad_norm": 4.509827964168959,
       "learning_rate": 1.6480000000000001e-06,
+      "loss": 2.7864,
       "step": 825
     },
     {
       "epoch": 0.017,
+      "grad_norm": 3.396755590212729,
       "learning_rate": 1.6980000000000003e-06,
+      "loss": 2.7665,
       "step": 850
     },
     {
       "epoch": 0.0175,
+      "grad_norm": 3.6908600934389364,
       "learning_rate": 1.7480000000000002e-06,
+      "loss": 2.7784,
       "step": 875
     },
     {
       "epoch": 0.018,
+      "grad_norm": 4.517092572588064,
       "learning_rate": 1.798e-06,
+      "loss": 2.7718,
       "step": 900
     },
     {
       "epoch": 0.018,
+      "eval_loss": 2.772385835647583,
+      "eval_runtime": 42.1503,
+      "eval_samples_per_second": 2.467,
+      "eval_steps_per_second": 1.234,
       "step": 900
     },
     {
       "epoch": 0.0185,
+      "grad_norm": 4.1527970820269635,
       "learning_rate": 1.8480000000000001e-06,
+      "loss": 2.7592,
       "step": 925
     },
     {
       "epoch": 0.019,
+      "grad_norm": 4.093946260210414,
       "learning_rate": 1.898e-06,
+      "loss": 2.7728,
       "step": 950
     },
     {
       "epoch": 0.0195,
+      "grad_norm": 3.794409923219389,
       "learning_rate": 1.9480000000000002e-06,
+      "loss": 2.7757,
       "step": 975
     },
     {
       "epoch": 0.02,
+      "grad_norm": 3.128018180220031,
       "learning_rate": 1.998e-06,
+      "loss": 2.7614,
       "step": 1000
     },
     {
       "epoch": 0.02,
+      "eval_loss": 2.764573335647583,
+      "eval_runtime": 42.2226,
+      "eval_samples_per_second": 2.463,
+      "eval_steps_per_second": 1.232,
       "step": 1000
     },
     {
       "epoch": 0.0205,
+      "grad_norm": 3.8078874128993667,
       "learning_rate": 2.048e-06,
+      "loss": 2.7629,
       "step": 1025
     },
     {
       "epoch": 0.021,
+      "grad_norm": 3.50724949935112,
       "learning_rate": 2.098e-06,
+      "loss": 2.776,
       "step": 1050
     },
     {
       "epoch": 0.0215,
+      "grad_norm": 3.600343997799952,
       "learning_rate": 2.148e-06,
+      "loss": 2.7503,
       "step": 1075
     },
     {
       "epoch": 0.022,
+      "grad_norm": 3.4227590286591667,
       "learning_rate": 2.198e-06,
+      "loss": 2.7522,
       "step": 1100
     },
     {
       "epoch": 0.022,
+      "eval_loss": 2.754957914352417,
+      "eval_runtime": 42.1456,
+      "eval_samples_per_second": 2.468,
+      "eval_steps_per_second": 1.234,
       "step": 1100
     },
     {
       "epoch": 0.0225,
+      "grad_norm": 3.6214573340756178,
       "learning_rate": 2.2480000000000003e-06,
+      "loss": 2.7423,
       "step": 1125
     },
     {
       "epoch": 0.023,
+      "grad_norm": 4.963456774283441,
       "learning_rate": 2.2980000000000003e-06,
+      "loss": 2.7473,
       "step": 1150
     },
     {
       "epoch": 0.0235,
+      "grad_norm": 4.417511515875024,
       "learning_rate": 2.3480000000000002e-06,
+      "loss": 2.7458,
       "step": 1175
     },
     {
       "epoch": 0.024,
+      "grad_norm": 3.4640266757488054,
       "learning_rate": 2.398e-06,
+      "loss": 2.755,
       "step": 1200
     },
     {
       "epoch": 0.024,
+      "eval_loss": 2.744741678237915,
+      "eval_runtime": 42.2958,
+      "eval_samples_per_second": 2.459,
+      "eval_steps_per_second": 1.229,
       "step": 1200
     },
     {
       "epoch": 0.0245,
+      "grad_norm": 3.8906187945336637,
       "learning_rate": 2.448e-06,
+      "loss": 2.7413,
       "step": 1225
     },
     {
       "epoch": 0.025,
+      "grad_norm": 4.103531427287993,
       "learning_rate": 2.498e-06,
+      "loss": 2.7464,
       "step": 1250
     },
     {
       "epoch": 0.0255,
+      "grad_norm": 3.7381187683762565,
       "learning_rate": 2.5480000000000004e-06,
+      "loss": 2.7383,
       "step": 1275
     },
     {
       "epoch": 0.026,
+      "grad_norm": 4.019695597142381,
       "learning_rate": 2.598e-06,
+      "loss": 2.7286,
       "step": 1300
     },
     {
       "epoch": 0.026,
+      "eval_loss": 2.735727071762085,
+      "eval_runtime": 42.1778,
+      "eval_samples_per_second": 2.466,
+      "eval_steps_per_second": 1.233,
       "step": 1300
     },
     {
       "epoch": 0.0265,
+      "grad_norm": 3.761754015207239,
       "learning_rate": 2.648e-06,
+      "loss": 2.7508,
       "step": 1325
     },
     {
       "epoch": 0.027,
+      "grad_norm": 3.5172792845513023,
       "learning_rate": 2.6980000000000003e-06,
+      "loss": 2.7396,
       "step": 1350
     },
     {
       "epoch": 0.0275,
+      "grad_norm": 3.6926838130981556,
       "learning_rate": 2.748e-06,
+      "loss": 2.7286,
       "step": 1375
     },
     {
       "epoch": 0.028,
+      "grad_norm": 3.5018547073145,
       "learning_rate": 2.798e-06,
+      "loss": 2.7247,
       "step": 1400
     },
     {
       "epoch": 0.028,
+      "eval_loss": 2.728515625,
+      "eval_runtime": 42.129,
+      "eval_samples_per_second": 2.469,
+      "eval_steps_per_second": 1.234,
       "step": 1400
     },
     {
       "epoch": 0.0285,
+      "grad_norm": 3.575054037567428,
       "learning_rate": 2.848e-06,
+      "loss": 2.7229,
       "step": 1425
     },
     {
       "epoch": 0.029,
+      "grad_norm": 4.062924067051664,
       "learning_rate": 2.8980000000000005e-06,
+      "loss": 2.7208,
       "step": 1450
     },
     {
       "epoch": 0.0295,
+      "grad_norm": 3.5741121733868573,
       "learning_rate": 2.9480000000000004e-06,
+      "loss": 2.7071,
       "step": 1475
     },
     {
       "epoch": 0.03,
+      "grad_norm": 3.9813713940318864,
       "learning_rate": 2.9980000000000003e-06,
+      "loss": 2.729,
       "step": 1500
     },
     {
       "epoch": 0.03,
+      "eval_loss": 2.721153736114502,
+      "eval_runtime": 42.058,
+      "eval_samples_per_second": 2.473,
+      "eval_steps_per_second": 1.236,
       "step": 1500
+    },
+    {
+      "epoch": 0.0305,
+      "grad_norm": 4.465898046671721,
+      "learning_rate": 3.0480000000000003e-06,
+      "loss": 2.7239,
+      "step": 1525
+    },
+    {
+      "epoch": 0.031,
+      "grad_norm": 4.083780430751083,
+      "learning_rate": 3.0980000000000007e-06,
+      "loss": 2.7177,
+      "step": 1550
+    },
+    {
+      "epoch": 0.0315,
+      "grad_norm": 3.259296223054617,
+      "learning_rate": 3.1480000000000006e-06,
+      "loss": 2.7149,
+      "step": 1575
+    },
+    {
+      "epoch": 0.032,
+      "grad_norm": 4.118900376683919,
+      "learning_rate": 3.198e-06,
+      "loss": 2.7157,
+      "step": 1600
+    },
+    {
+      "epoch": 0.032,
+      "eval_loss": 2.714693546295166,
+      "eval_runtime": 42.155,
+      "eval_samples_per_second": 2.467,
+      "eval_steps_per_second": 1.234,
+      "step": 1600
+    },
+    {
+      "epoch": 0.0325,
+      "grad_norm": 3.7685203077928335,
+      "learning_rate": 3.248e-06,
+      "loss": 2.7185,
+      "step": 1625
+    },
+    {
+      "epoch": 0.033,
+      "grad_norm": 3.786239665874637,
+      "learning_rate": 3.298e-06,
+      "loss": 2.694,
+      "step": 1650
+    },
+    {
+      "epoch": 0.0335,
+      "grad_norm": 4.0202339796786095,
+      "learning_rate": 3.348e-06,
+      "loss": 2.7076,
+      "step": 1675
+    },
+    {
+      "epoch": 0.034,
+      "grad_norm": 3.220912468646897,
+      "learning_rate": 3.3980000000000003e-06,
+      "loss": 2.7086,
+      "step": 1700
+    },
+    {
+      "epoch": 0.034,
+      "eval_loss": 2.708683967590332,
+      "eval_runtime": 42.1812,
+      "eval_samples_per_second": 2.466,
+      "eval_steps_per_second": 1.233,
+      "step": 1700
+    },
+    {
+      "epoch": 0.0345,
+      "grad_norm": 3.4236457763643964,
+      "learning_rate": 3.4480000000000003e-06,
+      "loss": 2.7107,
+      "step": 1725
+    },
+    {
+      "epoch": 0.035,
+      "grad_norm": 3.428424878937346,
+      "learning_rate": 3.4980000000000002e-06,
+      "loss": 2.7033,
+      "step": 1750
+    },
+    {
+      "epoch": 0.0355,
+      "grad_norm": 3.7064590041354597,
+      "learning_rate": 3.548e-06,
+      "loss": 2.7135,
+      "step": 1775
+    },
+    {
+      "epoch": 0.036,
+      "grad_norm": 2.6935868617559127,
+      "learning_rate": 3.5980000000000005e-06,
+      "loss": 2.6977,
+      "step": 1800
+    },
+    {
+      "epoch": 0.036,
+      "eval_loss": 2.702373743057251,
+      "eval_runtime": 42.099,
+      "eval_samples_per_second": 2.47,
+      "eval_steps_per_second": 1.235,
+      "step": 1800
+    },
+    {
+      "epoch": 0.0365,
+      "grad_norm": 3.1724624305272577,
+      "learning_rate": 3.6480000000000005e-06,
+      "loss": 2.6941,
+      "step": 1825
+    },
+    {
+      "epoch": 0.037,
+      "grad_norm": 3.3947291376692967,
+      "learning_rate": 3.6980000000000004e-06,
+      "loss": 2.705,
+      "step": 1850
+    },
+    {
+      "epoch": 0.0375,
+      "grad_norm": 3.2739522130247454,
+      "learning_rate": 3.7480000000000004e-06,
+      "loss": 2.6971,
+      "step": 1875
+    },
+    {
+      "epoch": 0.038,
+      "grad_norm": 2.886346941239111,
+      "learning_rate": 3.7980000000000007e-06,
+      "loss": 2.6878,
+      "step": 1900
+    },
+    {
+      "epoch": 0.038,
+      "eval_loss": 2.698768138885498,
+      "eval_runtime": 42.2524,
+      "eval_samples_per_second": 2.461,
+      "eval_steps_per_second": 1.231,
+      "step": 1900
+    },
+    {
+      "epoch": 0.0385,
+      "grad_norm": 2.961130539695273,
+      "learning_rate": 3.848e-06,
+      "loss": 2.6936,
+      "step": 1925
+    },
+    {
+      "epoch": 0.039,
+      "grad_norm": 3.2300245788196884,
+      "learning_rate": 3.898e-06,
+      "loss": 2.6989,
+      "step": 1950
+    },
+    {
+      "epoch": 0.0395,
+      "grad_norm": 3.2952386418656823,
+      "learning_rate": 3.948e-06,
+      "loss": 2.6937,
+      "step": 1975
+    },
+    {
+      "epoch": 0.04,
+      "grad_norm": 2.556435159379079,
+      "learning_rate": 3.9980000000000005e-06,
+      "loss": 2.6991,
+      "step": 2000
+    },
+    {
+      "epoch": 0.04,
+      "eval_loss": 2.693058967590332,
+      "eval_runtime": 42.2004,
+      "eval_samples_per_second": 2.464,
+      "eval_steps_per_second": 1.232,
+      "step": 2000
+    },
+    {
+      "epoch": 0.0405,
+      "grad_norm": 2.975198340671437,
+      "learning_rate": 4.048e-06,
+      "loss": 2.6896,
+      "step": 2025
+    },
+    {
+      "epoch": 0.041,
+      "grad_norm": 2.366572300776235,
+      "learning_rate": 4.098e-06,
+      "loss": 2.6903,
+      "step": 2050
+    },
+    {
+      "epoch": 0.0415,
+      "grad_norm": 2.650575110326075,
+      "learning_rate": 4.148000000000001e-06,
+      "loss": 2.6974,
+      "step": 2075
+    },
+    {
+      "epoch": 0.042,
+      "grad_norm": 2.844363978567716,
+      "learning_rate": 4.198e-06,
+      "loss": 2.6833,
+      "step": 2100
+    },
+    {
+      "epoch": 0.042,
+      "eval_loss": 2.687650203704834,
+      "eval_runtime": 42.1236,
+      "eval_samples_per_second": 2.469,
+      "eval_steps_per_second": 1.234,
+      "step": 2100
+    },
+    {
+      "epoch": 0.0425,
+      "grad_norm": 2.5043519810203425,
+      "learning_rate": 4.248000000000001e-06,
+      "loss": 2.6848,
+      "step": 2125
+    },
+    {
+      "epoch": 0.043,
+      "grad_norm": 2.442865859341675,
+      "learning_rate": 4.298e-06,
+      "loss": 2.6834,
+      "step": 2150
+    },
+    {
+      "epoch": 0.0435,
+      "grad_norm": 2.396444505850839,
+      "learning_rate": 4.3480000000000006e-06,
+      "loss": 2.6842,
+      "step": 2175
+    },
+    {
+      "epoch": 0.044,
+      "grad_norm": 2.467830621762353,
+      "learning_rate": 4.398000000000001e-06,
+      "loss": 2.6849,
+      "step": 2200
+    },
+    {
+      "epoch": 0.044,
+      "eval_loss": 2.684495210647583,
+      "eval_runtime": 42.337,
+      "eval_samples_per_second": 2.456,
+      "eval_steps_per_second": 1.228,
+      "step": 2200
+    },
+    {
+      "epoch": 0.0445,
+      "grad_norm": 2.331183246577976,
+      "learning_rate": 4.4480000000000004e-06,
+      "loss": 2.6933,
+      "step": 2225
+    },
+    {
+      "epoch": 0.045,
+      "grad_norm": 2.7108879126095995,
+      "learning_rate": 4.498e-06,
+      "loss": 2.6756,
+      "step": 2250
+    },
+    {
+      "epoch": 0.0455,
+      "grad_norm": 2.297487473050839,
+      "learning_rate": 4.548e-06,
+      "loss": 2.6773,
+      "step": 2275
+    },
+    {
+      "epoch": 0.046,
+      "grad_norm": 2.260013609826266,
+      "learning_rate": 4.598e-06,
+      "loss": 2.6869,
+      "step": 2300
+    },
+    {
+      "epoch": 0.046,
+      "eval_loss": 2.680889368057251,
+      "eval_runtime": 42.2308,
+      "eval_samples_per_second": 2.463,
+      "eval_steps_per_second": 1.231,
+      "step": 2300
+    },
+    {
+      "epoch": 0.0465,
+      "grad_norm": 2.1362621908829964,
+      "learning_rate": 4.648e-06,
+      "loss": 2.674,
+      "step": 2325
+    },
+    {
+      "epoch": 0.047,
+      "grad_norm": 2.530250306266186,
+      "learning_rate": 4.698000000000001e-06,
+      "loss": 2.6682,
+      "step": 2350
+    },
+    {
+      "epoch": 0.0475,
+      "grad_norm": 2.284376818082532,
+      "learning_rate": 4.748e-06,
+      "loss": 2.6741,
+      "step": 2375
+    },
+    {
+      "epoch": 0.048,
+      "grad_norm": 2.9431781004579403,
+      "learning_rate": 4.7980000000000005e-06,
+      "loss": 2.6793,
+      "step": 2400
+    },
+    {
+      "epoch": 0.048,
+      "eval_loss": 2.676382303237915,
+      "eval_runtime": 42.1755,
+      "eval_samples_per_second": 2.466,
+      "eval_steps_per_second": 1.233,
+      "step": 2400
+    },
+    {
+      "epoch": 0.0485,
+      "grad_norm": 2.2501714313646,
+      "learning_rate": 4.848000000000001e-06,
+      "loss": 2.6836,
+      "step": 2425
+    },
+    {
+      "epoch": 0.049,
+      "grad_norm": 2.520507270374293,
+      "learning_rate": 4.898e-06,
+      "loss": 2.6793,
+      "step": 2450
+    },
+    {
+      "epoch": 0.0495,
+      "grad_norm": 2.3001609851463156,
+      "learning_rate": 4.948000000000001e-06,
+      "loss": 2.6825,
+      "step": 2475
+    },
+    {
+      "epoch": 0.05,
+      "grad_norm": 2.0060268631347973,
+      "learning_rate": 4.998e-06,
+      "loss": 2.6736,
+      "step": 2500
+    },
+    {
+      "epoch": 0.05,
+      "eval_loss": 2.671875,
+      "eval_runtime": 42.1697,
+      "eval_samples_per_second": 2.466,
+      "eval_steps_per_second": 1.233,
+      "step": 2500
+    },
+    {
+      "epoch": 0.0505,
+      "grad_norm": 2.1769919372211564,
+      "learning_rate": 5.048000000000001e-06,
+      "loss": 2.6741,
+      "step": 2525
+    },
+    {
+      "epoch": 0.051,
+      "grad_norm": 2.1133782069189366,
+      "learning_rate": 5.098000000000001e-06,
+      "loss": 2.67,
+      "step": 2550
+    },
+    {
+      "epoch": 0.0515,
+      "grad_norm": 2.242586565950932,
+      "learning_rate": 5.1480000000000005e-06,
+      "loss": 2.6835,
+      "step": 2575
+    },
+    {
+      "epoch": 0.052,
+      "grad_norm": 2.4130154185332615,
+      "learning_rate": 5.198000000000001e-06,
+      "loss": 2.6752,
+      "step": 2600
+    },
+    {
+      "epoch": 0.052,
+      "eval_loss": 2.669621467590332,
+      "eval_runtime": 42.1123,
+      "eval_samples_per_second": 2.47,
+      "eval_steps_per_second": 1.235,
+      "step": 2600
+    },
+    {
+      "epoch": 0.0525,
+      "grad_norm": 2.243339931731786,
+      "learning_rate": 5.248000000000001e-06,
+      "loss": 2.6631,
+      "step": 2625
+    },
+    {
+      "epoch": 0.053,
+      "grad_norm": 2.1652170787894964,
+      "learning_rate": 5.298000000000001e-06,
+      "loss": 2.6653,
+      "step": 2650
+    },
+    {
+      "epoch": 0.0535,
+      "grad_norm": 2.3514042691010077,
+      "learning_rate": 5.348000000000001e-06,
+      "loss": 2.6704,
+      "step": 2675
+    },
+    {
+      "epoch": 0.054,
+      "grad_norm": 2.0555358311645104,
+      "learning_rate": 5.398e-06,
+      "loss": 2.6744,
+      "step": 2700
+    },
+    {
+      "epoch": 0.054,
+      "eval_loss": 2.668419361114502,
+      "eval_runtime": 42.1636,
+      "eval_samples_per_second": 2.467,
+      "eval_steps_per_second": 1.233,
+      "step": 2700
+    },
+    {
+      "epoch": 0.0545,
+      "grad_norm": 2.504233096197935,
+      "learning_rate": 5.448e-06,
+      "loss": 2.6686,
+      "step": 2725
+    },
+    {
+      "epoch": 0.055,
+      "grad_norm": 2.1966446495255014,
+      "learning_rate": 5.498e-06,
+      "loss": 2.6575,
+      "step": 2750
+    },
+    {
+      "epoch": 0.0555,
+      "grad_norm": 3.4129666421130738,
+      "learning_rate": 5.548e-06,
+      "loss": 2.6624,
+      "step": 2775
+    },
+    {
+      "epoch": 0.056,
+      "grad_norm": 2.5402178685422028,
+      "learning_rate": 5.5980000000000004e-06,
+      "loss": 2.6615,
+      "step": 2800
+    },
+    {
+      "epoch": 0.056,
+      "eval_loss": 2.666015625,
+      "eval_runtime": 42.1094,
+      "eval_samples_per_second": 2.47,
+      "eval_steps_per_second": 1.235,
+      "step": 2800
+    },
+    {
+      "epoch": 0.0565,
+      "grad_norm": 2.5169534616209215,
+      "learning_rate": 5.648e-06,
+      "loss": 2.6745,
+      "step": 2825
+    },
+    {
+      "epoch": 0.057,
+      "grad_norm": 2.4269096679582347,
+      "learning_rate": 5.698e-06,
+      "loss": 2.658,
+      "step": 2850
+    },
+    {
+      "epoch": 0.0575,
+      "grad_norm": 2.2819396814928763,
+      "learning_rate": 5.748e-06,
+      "loss": 2.6694,
+      "step": 2875
+    },
+    {
+      "epoch": 0.058,
+      "grad_norm": 3.0448163445232512,
+      "learning_rate": 5.798e-06,
+      "loss": 2.6587,
+      "step": 2900
+    },
+    {
+      "epoch": 0.058,
+      "eval_loss": 2.662710428237915,
+      "eval_runtime": 42.173,
+      "eval_samples_per_second": 2.466,
+      "eval_steps_per_second": 1.233,
+      "step": 2900
+    },
+    {
+      "epoch": 0.0585,
+      "grad_norm": 3.2390472506289343,
+      "learning_rate": 5.848000000000001e-06,
+      "loss": 2.661,
+      "step": 2925
+    },
+    {
+      "epoch": 0.059,
+      "grad_norm": 2.5836929915418194,
+      "learning_rate": 5.898e-06,
+      "loss": 2.6514,
+      "step": 2950
+    },
+    {
+      "epoch": 0.0595,
+      "grad_norm": 2.5766876152500227,
+      "learning_rate": 5.9480000000000005e-06,
+      "loss": 2.6673,
+      "step": 2975
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 2.507842811667469,
+      "learning_rate": 5.998000000000001e-06,
+      "loss": 2.6658,
+      "step": 3000
+    },
+    {
+      "epoch": 0.06,
+      "eval_loss": 2.659705638885498,
+      "eval_runtime": 42.0906,
+      "eval_samples_per_second": 2.471,
+      "eval_steps_per_second": 1.235,
+      "step": 3000
+    },
+    {
+      "epoch": 0.0605,
+      "grad_norm": 2.291724100817165,
+      "learning_rate": 6.048e-06,
+      "loss": 2.6588,
+      "step": 3025
+    },
+    {
+      "epoch": 0.061,
+      "grad_norm": 2.356775687250912,
+      "learning_rate": 6.098000000000001e-06,
+      "loss": 2.6519,
+      "step": 3050
+    },
+    {
+      "epoch": 0.0615,
+      "grad_norm": 3.6009374683805553,
+      "learning_rate": 6.148e-06,
+      "loss": 2.6581,
+      "step": 3075
+    },
+    {
+      "epoch": 0.062,
+      "grad_norm": 3.2760170273305724,
+      "learning_rate": 6.198000000000001e-06,
+      "loss": 2.6588,
+      "step": 3100
+    },
+    {
+      "epoch": 0.062,
+      "eval_loss": 2.656700611114502,
+      "eval_runtime": 42.0325,
+      "eval_samples_per_second": 2.474,
+      "eval_steps_per_second": 1.237,
+      "step": 3100
+    },
+    {
+      "epoch": 0.0625,
+      "grad_norm": 2.5849236998041825,
+      "learning_rate": 6.248000000000001e-06,
+      "loss": 2.6548,
+      "step": 3125
+    },
+    {
+      "epoch": 0.063,
+      "grad_norm": 2.3095505880624474,
+      "learning_rate": 6.2980000000000005e-06,
+      "loss": 2.6511,
+      "step": 3150
+    },
+    {
+      "epoch": 0.0635,
+      "grad_norm": 2.5258255422234996,
+      "learning_rate": 6.348000000000001e-06,
+      "loss": 2.6589,
+      "step": 3175
+    },
+    {
+      "epoch": 0.064,
+      "grad_norm": 2.3520030773681335,
+      "learning_rate": 6.398000000000001e-06,
+      "loss": 2.6462,
+      "step": 3200
+    },
+    {
+      "epoch": 0.064,
+      "eval_loss": 2.652644157409668,
+      "eval_runtime": 42.2271,
+      "eval_samples_per_second": 2.463,
+      "eval_steps_per_second": 1.231,
+      "step": 3200
+    },
+    {
+      "epoch": 0.0645,
+      "grad_norm": 2.457532178302885,
+      "learning_rate": 6.448000000000001e-06,
+      "loss": 2.6495,
+      "step": 3225
+    },
+    {
+      "epoch": 0.065,
+      "grad_norm": 2.3328730844475833,
+      "learning_rate": 6.498000000000001e-06,
+      "loss": 2.6384,
+      "step": 3250
+    },
+    {
+      "epoch": 0.0655,
+      "grad_norm": 2.382459769400574,
+      "learning_rate": 6.548000000000001e-06,
+      "loss": 2.652,
+      "step": 3275
+    },
+    {
+      "epoch": 0.066,
+      "grad_norm": 2.4287460984943707,
+      "learning_rate": 6.598000000000001e-06,
+      "loss": 2.655,
+      "step": 3300
+    },
+    {
+      "epoch": 0.066,
+      "eval_loss": 2.650841236114502,
+      "eval_runtime": 42.1822,
+      "eval_samples_per_second": 2.465,
+      "eval_steps_per_second": 1.233,
+      "step": 3300
+    },
+    {
+      "epoch": 0.0665,
+      "grad_norm": 3.0374923212376963,
+      "learning_rate": 6.648e-06,
+      "loss": 2.6623,
+      "step": 3325
+    },
+    {
+      "epoch": 0.067,
+      "grad_norm": 2.3072135476674127,
+      "learning_rate": 6.698e-06,
+      "loss": 2.6484,
+      "step": 3350
+    },
+    {
+      "epoch": 0.0675,
+      "grad_norm": 2.3676328206176778,
+      "learning_rate": 6.7480000000000004e-06,
+      "loss": 2.6569,
+      "step": 3375
+    },
+    {
+      "epoch": 0.068,
+      "grad_norm": 2.313390296186245,
+      "learning_rate": 6.798e-06,
+      "loss": 2.6393,
+      "step": 3400
+    },
+    {
+      "epoch": 0.068,
+      "eval_loss": 2.648888111114502,
+      "eval_runtime": 44.6877,
+      "eval_samples_per_second": 2.327,
+      "eval_steps_per_second": 1.164,
+      "step": 3400
+    },
+    {
+      "epoch": 0.0685,
+      "grad_norm": 2.9181668179248033,
+      "learning_rate": 6.848e-06,
+      "loss": 2.6521,
+      "step": 3425
+    },
+    {
+      "epoch": 0.069,
+      "grad_norm": 2.1972242976901457,
+      "learning_rate": 6.898e-06,
+      "loss": 2.6605,
+      "step": 3450
+    },
+    {
+      "epoch": 0.0695,
+      "grad_norm": 2.514104559780915,
+      "learning_rate": 6.948e-06,
+      "loss": 2.6444,
+      "step": 3475
+    },
+    {
+      "epoch": 0.07,
+      "grad_norm": 2.463879404265904,
+      "learning_rate": 6.998000000000001e-06,
+      "loss": 2.6586,
+      "step": 3500
+    },
+    {
+      "epoch": 0.07,
+      "eval_loss": 2.644831657409668,
+      "eval_runtime": 45.1164,
+      "eval_samples_per_second": 2.305,
+      "eval_steps_per_second": 1.153,
+      "step": 3500
+    },
+    {
+      "epoch": 0.0705,
+      "grad_norm": 2.4337078135824126,
+      "learning_rate": 7.048e-06,
+      "loss": 2.6463,
+      "step": 3525
+    },
+    {
+      "epoch": 0.071,
+      "grad_norm": 2.2908199130690257,
+      "learning_rate": 7.0980000000000005e-06,
+      "loss": 2.655,
+      "step": 3550
+    },
+    {
+      "epoch": 0.0715,
+      "grad_norm": 2.4093156448180713,
+      "learning_rate": 7.148000000000001e-06,
+      "loss": 2.6479,
+      "step": 3575
+    },
+    {
+      "epoch": 0.072,
+      "grad_norm": 2.3128290328516172,
+      "learning_rate": 7.198e-06,
+      "loss": 2.6342,
+      "step": 3600
+    },
+    {
+      "epoch": 0.072,
+      "eval_loss": 2.643179178237915,
+      "eval_runtime": 43.1012,
+      "eval_samples_per_second": 2.413,
+      "eval_steps_per_second": 1.206,
+      "step": 3600
+    },
+    {
+      "epoch": 0.0725,
+      "grad_norm": 2.7714344541916165,
+      "learning_rate": 7.248000000000001e-06,
+      "loss": 2.6337,
+      "step": 3625
+    },
+    {
+      "epoch": 0.073,
+      "grad_norm": 2.8399095157670486,
+      "learning_rate": 7.298e-06,
+      "loss": 2.6413,
+      "step": 3650
+    },
+    {
+      "epoch": 0.0735,
+      "grad_norm": 2.6867409675260747,
+      "learning_rate": 7.348000000000001e-06,
+      "loss": 2.6314,
+      "step": 3675
+    },
+    {
+      "epoch": 0.074,
+      "grad_norm": 2.853697365081861,
+      "learning_rate": 7.398000000000001e-06,
+      "loss": 2.6372,
+      "step": 3700
+    },
+    {
+      "epoch": 0.074,
+      "eval_loss": 2.639573335647583,
+      "eval_runtime": 45.0291,
+      "eval_samples_per_second": 2.31,
+      "eval_steps_per_second": 1.155,
+      "step": 3700
+    },
+    {
+      "epoch": 0.0745,
+      "grad_norm": 1.998706410316405,
+      "learning_rate": 7.4480000000000005e-06,
+      "loss": 2.637,
+      "step": 3725
+    },
+    {
+      "epoch": 0.075,
+      "grad_norm": 2.3172883792227417,
+      "learning_rate": 7.498000000000001e-06,
+      "loss": 2.6386,
+      "step": 3750
+    },
+    {
+      "epoch": 0.0755,
+      "grad_norm": 2.2578618031758793,
+      "learning_rate": 7.548000000000001e-06,
+      "loss": 2.637,
+      "step": 3775
+    },
+    {
+      "epoch": 0.076,
+      "grad_norm": 2.022866842989095,
+      "learning_rate": 7.598000000000001e-06,
+      "loss": 2.6303,
+      "step": 3800
+    },
+    {
+      "epoch": 0.076,
+      "eval_loss": 2.63671875,
+      "eval_runtime": 45.1006,
+      "eval_samples_per_second": 2.306,
+      "eval_steps_per_second": 1.153,
+      "step": 3800
+    },
+    {
+      "epoch": 0.0765,
+      "grad_norm": 2.6019929572001987,
+      "learning_rate": 7.648e-06,
+      "loss": 2.6359,
+      "step": 3825
+    },
+    {
+      "epoch": 0.077,
+      "grad_norm": 2.1777094054397343,
+      "learning_rate": 7.698000000000002e-06,
+      "loss": 2.6397,
+      "step": 3850
+    },
+    {
+      "epoch": 0.0775,
+      "grad_norm": 2.0323537115489474,
+      "learning_rate": 7.748000000000001e-06,
+      "loss": 2.6321,
+      "step": 3875
+    },
+    {
+      "epoch": 0.078,
+      "grad_norm": 2.1502944909614037,
+      "learning_rate": 7.798e-06,
+      "loss": 2.6373,
+      "step": 3900
+    },
+    {
+      "epoch": 0.078,
+      "eval_loss": 2.634765625,
+      "eval_runtime": 44.8775,
+      "eval_samples_per_second": 2.317,
+      "eval_steps_per_second": 1.159,
+      "step": 3900
+    },
+    {
+      "epoch": 0.0785,
+      "grad_norm": 2.2895713962575748,
+      "learning_rate": 7.848000000000002e-06,
+      "loss": 2.6325,
+      "step": 3925
+    },
+    {
+      "epoch": 0.079,
+      "grad_norm": 2.473180320397106,
+      "learning_rate": 7.898e-06,
+      "loss": 2.6306,
+      "step": 3950
+    },
+    {
+      "epoch": 0.0795,
+      "grad_norm": 2.5774486324856865,
+      "learning_rate": 7.948e-06,
+      "loss": 2.6345,
+      "step": 3975
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 2.282553852536701,
+      "learning_rate": 7.998e-06,
+      "loss": 2.641,
+      "step": 4000
+    },
+    {
+      "epoch": 0.08,
+      "eval_loss": 2.630859375,
+      "eval_runtime": 44.8187,
+      "eval_samples_per_second": 2.32,
+      "eval_steps_per_second": 1.16,
+      "step": 4000
+    },
+    {
+      "epoch": 0.0805,
+      "grad_norm": 2.500864236641362,
+      "learning_rate": 8.048e-06,
+      "loss": 2.6309,
+      "step": 4025
+    },
+    {
+      "epoch": 0.081,
+      "grad_norm": 2.5639376009370674,
+      "learning_rate": 8.098000000000001e-06,
+      "loss": 2.6211,
+      "step": 4050
+    },
+    {
+      "epoch": 0.0815,
+      "grad_norm": 3.0035728334967926,
+      "learning_rate": 8.148e-06,
+      "loss": 2.6317,
+      "step": 4075
+    },
+    {
+      "epoch": 0.082,
+      "grad_norm": 2.804391077504498,
+      "learning_rate": 8.198e-06,
+      "loss": 2.6273,
+      "step": 4100
+    },
+    {
+      "epoch": 0.082,
+      "eval_loss": 2.627704381942749,
+      "eval_runtime": 45.0778,
+      "eval_samples_per_second": 2.307,
+      "eval_steps_per_second": 1.154,
+      "step": 4100
+    },
+    {
+      "epoch": 0.0825,
+      "grad_norm": 2.8025033751566975,
+      "learning_rate": 8.248e-06,
+      "loss": 2.6224,
+      "step": 4125
+    },
+    {
+      "epoch": 0.083,
+      "grad_norm": 4.307364832973918,
+      "learning_rate": 8.298000000000001e-06,
+      "loss": 2.6217,
+      "step": 4150
+    },
+    {
+      "epoch": 0.0835,
+      "grad_norm": 2.510945545421516,
+      "learning_rate": 8.348e-06,
+      "loss": 2.6158,
+      "step": 4175
+    },
+    {
+      "epoch": 0.084,
+      "grad_norm": 2.874475964746802,
+      "learning_rate": 8.398e-06,
+      "loss": 2.6284,
+      "step": 4200
+    },
+    {
+      "epoch": 0.084,
+      "eval_loss": 2.626352071762085,
+      "eval_runtime": 44.9685,
+      "eval_samples_per_second": 2.313,
+      "eval_steps_per_second": 1.156,
+      "step": 4200
+    },
+    {
+      "epoch": 0.0845,
+      "grad_norm": 2.687782456648974,
+      "learning_rate": 8.448000000000001e-06,
+      "loss": 2.613,
+      "step": 4225
+    },
+    {
+      "epoch": 0.085,
+      "grad_norm": 2.290237147776631,
+      "learning_rate": 8.498e-06,
+      "loss": 2.6295,
+      "step": 4250
+    },
+    {
+      "epoch": 0.0855,
+      "grad_norm": 2.5217231224578196,
+      "learning_rate": 8.548e-06,
+      "loss": 2.6194,
+      "step": 4275
+    },
+    {
+      "epoch": 0.086,
+      "grad_norm": 2.478088396853028,
+      "learning_rate": 8.598000000000001e-06,
+      "loss": 2.6269,
+      "step": 4300
+    },
+    {
+      "epoch": 0.086,
+      "eval_loss": 2.624098539352417,
+      "eval_runtime": 45.0092,
+      "eval_samples_per_second": 2.311,
+      "eval_steps_per_second": 1.155,
+      "step": 4300
+    },
+    {
+      "epoch": 0.0865,
+      "grad_norm": 3.160637138604565,
+      "learning_rate": 8.648000000000001e-06,
+      "loss": 2.6179,
+      "step": 4325
+    },
+    {
+      "epoch": 0.087,
+      "grad_norm": 3.2730443987396787,
+      "learning_rate": 8.698e-06,
+      "loss": 2.6128,
+      "step": 4350
+    },
+    {
+      "epoch": 0.0875,
+      "grad_norm": 2.1924980955006257,
+      "learning_rate": 8.748000000000002e-06,
+      "loss": 2.6237,
+      "step": 4375
+    },
+    {
+      "epoch": 0.088,
+      "grad_norm": 2.2909495673616735,
+      "learning_rate": 8.798000000000001e-06,
+      "loss": 2.6183,
+      "step": 4400
+    },
+    {
+      "epoch": 0.088,
+      "eval_loss": 2.622445821762085,
+      "eval_runtime": 44.9844,
+      "eval_samples_per_second": 2.312,
+      "eval_steps_per_second": 1.156,
+      "step": 4400
+    },
+    {
+      "epoch": 0.0885,
+      "grad_norm": 2.3275380340868543,
+      "learning_rate": 8.848e-06,
+      "loss": 2.6198,
+      "step": 4425
+    },
+    {
+      "epoch": 0.089,
+      "grad_norm": 2.5451157769858135,
+      "learning_rate": 8.898000000000002e-06,
+      "loss": 2.6122,
+      "step": 4450
+    },
+    {
+      "epoch": 0.0895,
+      "grad_norm": 2.626975380348867,
+      "learning_rate": 8.948000000000001e-06,
+      "loss": 2.6053,
+      "step": 4475
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 3.163525010125433,
+      "learning_rate": 8.998000000000001e-06,
+      "loss": 2.616,
+      "step": 4500
+    },
+    {
+      "epoch": 0.09,
+      "eval_loss": 2.620342493057251,
+      "eval_runtime": 45.1428,
+      "eval_samples_per_second": 2.304,
+      "eval_steps_per_second": 1.152,
+      "step": 4500
     }
   ],
   "logging_steps": 25,
       "attributes": {}
     }
   },
+  "total_flos": 1.0098986967950688e+19,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null