irodkin
/

InnerLoopARMTForCausalLM_run_34

Safetensors

armt

custom_code

Model card Files Files and versions

xet

Community

irodkin commited on 15 days ago

Commit

39fc809

verified ·

1 Parent(s): cfe29a2

Training checkpoint at step 3500

Browse files

Files changed (1) hide show

trainer_state.json +1146 -66

trainer_state.json CHANGED Viewed

@@ -1,193 +1,1273 @@
 {
-  "best_global_step": 500,
-  "best_metric": 2.826472282409668,
-  "best_model_checkpoint": "../runs/karpathy/fineweb-edu-100b-shuffle/google/gemma-3-1b-it/linear_adamw_wd1e-03_8x1024_mem32_bs64_hf_armt_dmem64/run_34/checkpoint-500",
-  "epoch": 0.01,
   "eval_steps": 100,
-  "global_step": 500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.0005,
-      "grad_norm": 82.5841699095815,
       "learning_rate": 4.8e-08,
-      "loss": 3.4393,
       "step": 25
     },
     {
       "epoch": 0.001,
-      "grad_norm": 72.33553691687935,
       "learning_rate": 9.8e-08,
-      "loss": 3.401,
       "step": 50
     },
     {
       "epoch": 0.0015,
-      "grad_norm": 55.00272386424627,
       "learning_rate": 1.4800000000000003e-07,
-      "loss": 3.3077,
       "step": 75
     },
     {
       "epoch": 0.002,
-      "grad_norm": 24.67154822301572,
       "learning_rate": 1.9800000000000003e-07,
-      "loss": 3.1946,
       "step": 100
     },
     {
       "epoch": 0.002,
-      "eval_loss": 3.11328125,
-      "eval_runtime": 39.4175,
-      "eval_samples_per_second": 2.638,
-      "eval_steps_per_second": 1.319,
       "step": 100
     },
     {
       "epoch": 0.0025,
-      "grad_norm": 8.681721490029314,
       "learning_rate": 2.48e-07,
-      "loss": 3.0709,
       "step": 125
     },
     {
       "epoch": 0.003,
-      "grad_norm": 7.238581078870377,
       "learning_rate": 2.9800000000000005e-07,
-      "loss": 3.0046,
       "step": 150
     },
     {
       "epoch": 0.0035,
-      "grad_norm": 5.931774986901269,
       "learning_rate": 3.48e-07,
-      "loss": 2.954,
       "step": 175
     },
     {
       "epoch": 0.004,
-      "grad_norm": 4.891205112515998,
       "learning_rate": 3.9800000000000004e-07,
-      "loss": 2.9365,
       "step": 200
     },
     {
       "epoch": 0.004,
-      "eval_loss": 2.922476053237915,
-      "eval_runtime": 39.6232,
-      "eval_samples_per_second": 2.625,
-      "eval_steps_per_second": 1.312,
       "step": 200
     },
     {
       "epoch": 0.0045,
-      "grad_norm": 4.53174674502475,
       "learning_rate": 4.4800000000000004e-07,
-      "loss": 2.9198,
       "step": 225
     },
     {
       "epoch": 0.005,
-      "grad_norm": 4.642185238219915,
       "learning_rate": 4.98e-07,
-      "loss": 2.9004,
       "step": 250
     },
     {
       "epoch": 0.0055,
-      "grad_norm": 5.838003634607987,
       "learning_rate": 5.480000000000001e-07,
-      "loss": 2.8935,
       "step": 275
     },
     {
       "epoch": 0.006,
-      "grad_norm": 4.535236579882751,
       "learning_rate": 5.98e-07,
-      "loss": 2.8857,
       "step": 300
     },
     {
       "epoch": 0.006,
-      "eval_loss": 2.874248743057251,
-      "eval_runtime": 39.4088,
-      "eval_samples_per_second": 2.639,
-      "eval_steps_per_second": 1.32,
       "step": 300
     },
     {
       "epoch": 0.0065,
-      "grad_norm": 4.767460098400186,
       "learning_rate": 6.48e-07,
-      "loss": 2.8672,
       "step": 325
     },
     {
       "epoch": 0.007,
-      "grad_norm": 6.424432953613615,
       "learning_rate": 6.98e-07,
-      "loss": 2.8663,
       "step": 350
     },
     {
       "epoch": 0.0075,
-      "grad_norm": 4.530337576253928,
       "learning_rate": 7.480000000000001e-07,
-      "loss": 2.8574,
       "step": 375
     },
     {
       "epoch": 0.008,
-      "grad_norm": 5.094043051124328,
       "learning_rate": 7.98e-07,
-      "loss": 2.8534,
       "step": 400
     },
     {
       "epoch": 0.008,
-      "eval_loss": 2.846604585647583,
-      "eval_runtime": 45.9565,
-      "eval_samples_per_second": 2.263,
-      "eval_steps_per_second": 1.132,
       "step": 400
     },
     {
       "epoch": 0.0085,
-      "grad_norm": 4.737628412447718,
       "learning_rate": 8.480000000000001e-07,
-      "loss": 2.8303,
       "step": 425
     },
     {
       "epoch": 0.009,
-      "grad_norm": 4.176119045358587,
       "learning_rate": 8.980000000000001e-07,
-      "loss": 2.8403,
       "step": 450
     },
     {
       "epoch": 0.0095,
-      "grad_norm": 4.0039940059315065,
       "learning_rate": 9.480000000000001e-07,
-      "loss": 2.8339,
       "step": 475
     },
     {
       "epoch": 0.01,
-      "grad_norm": 4.202142407976928,
       "learning_rate": 9.98e-07,
-      "loss": 2.831,
       "step": 500
     },
     {
       "epoch": 0.01,
-      "eval_loss": 2.826472282409668,
-      "eval_runtime": 45.8283,
-      "eval_samples_per_second": 2.269,
-      "eval_steps_per_second": 1.135,
       "step": 500
     }
   ],
   "logging_steps": 25,
@@ -207,7 +1287,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.1221094951246889e+18,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 3500,
+  "best_metric": 2.644831657409668,
+  "best_model_checkpoint": "../runs/karpathy/fineweb-edu-100b-shuffle/google/gemma-3-1b-it/linear_adamw_wd1e-03_8x1024_mem32_bs64_hf_armt_dmem64/run_34/checkpoint-3500",
+  "epoch": 0.07,
   "eval_steps": 100,
+  "global_step": 3500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.0005,
+      "grad_norm": 96.04050869121504,
       "learning_rate": 4.8e-08,
+      "loss": 3.4391,
       "step": 25
     },
     {
       "epoch": 0.001,
+      "grad_norm": 78.95958818615539,
       "learning_rate": 9.8e-08,
+      "loss": 3.397,
       "step": 50
     },
     {
       "epoch": 0.0015,
+      "grad_norm": 61.45018428703237,
       "learning_rate": 1.4800000000000003e-07,
+      "loss": 3.297,
       "step": 75
     },
     {
       "epoch": 0.002,
+      "grad_norm": 22.353651858428393,
       "learning_rate": 1.9800000000000003e-07,
+      "loss": 3.1733,
       "step": 100
     },
     {
       "epoch": 0.002,
+      "eval_loss": 3.09375,
+      "eval_runtime": 42.6579,
+      "eval_samples_per_second": 2.438,
+      "eval_steps_per_second": 1.219,
       "step": 100
     },
     {
       "epoch": 0.0025,
+      "grad_norm": 9.835689068347888,
       "learning_rate": 2.48e-07,
+      "loss": 3.0557,
       "step": 125
     },
     {
       "epoch": 0.003,
+      "grad_norm": 8.293191220823632,
       "learning_rate": 2.9800000000000005e-07,
+      "loss": 2.9954,
       "step": 150
     },
     {
       "epoch": 0.0035,
+      "grad_norm": 6.660135091710579,
       "learning_rate": 3.48e-07,
+      "loss": 2.9504,
       "step": 175
     },
     {
       "epoch": 0.004,
+      "grad_norm": 13.605532098937575,
       "learning_rate": 3.9800000000000004e-07,
+      "loss": 2.9363,
       "step": 200
     },
     {
       "epoch": 0.004,
+      "eval_loss": 2.924128532409668,
+      "eval_runtime": 42.5415,
+      "eval_samples_per_second": 2.445,
+      "eval_steps_per_second": 1.222,
       "step": 200
     },
     {
       "epoch": 0.0045,
+      "grad_norm": 7.7985826788732435,
       "learning_rate": 4.4800000000000004e-07,
+      "loss": 2.9223,
       "step": 225
     },
     {
       "epoch": 0.005,
+      "grad_norm": 7.257382344220691,
       "learning_rate": 4.98e-07,
+      "loss": 2.9043,
       "step": 250
     },
     {
       "epoch": 0.0055,
+      "grad_norm": 9.049674458422025,
       "learning_rate": 5.480000000000001e-07,
+      "loss": 2.8984,
       "step": 275
     },
     {
       "epoch": 0.006,
+      "grad_norm": 5.766079229639856,
       "learning_rate": 5.98e-07,
+      "loss": 2.8898,
       "step": 300
     },
     {
       "epoch": 0.006,
+      "eval_loss": 2.877253532409668,
+      "eval_runtime": 42.642,
+      "eval_samples_per_second": 2.439,
+      "eval_steps_per_second": 1.219,
       "step": 300
     },
     {
       "epoch": 0.0065,
+      "grad_norm": 5.448754520618337,
       "learning_rate": 6.48e-07,
+      "loss": 2.871,
       "step": 325
     },
     {
       "epoch": 0.007,
+      "grad_norm": 6.866471472157179,
       "learning_rate": 6.98e-07,
+      "loss": 2.8693,
       "step": 350
     },
     {
       "epoch": 0.0075,
+      "grad_norm": 6.115788528016365,
       "learning_rate": 7.480000000000001e-07,
+      "loss": 2.8601,
       "step": 375
     },
     {
       "epoch": 0.008,
+      "grad_norm": 5.871468919197367,
       "learning_rate": 7.98e-07,
+      "loss": 2.8555,
       "step": 400
     },
     {
       "epoch": 0.008,
+      "eval_loss": 2.848106861114502,
+      "eval_runtime": 42.3632,
+      "eval_samples_per_second": 2.455,
+      "eval_steps_per_second": 1.227,
       "step": 400
     },
     {
       "epoch": 0.0085,
+      "grad_norm": 6.050804087803095,
       "learning_rate": 8.480000000000001e-07,
+      "loss": 2.832,
       "step": 425
     },
     {
       "epoch": 0.009,
+      "grad_norm": 4.634127162302958,
       "learning_rate": 8.980000000000001e-07,
+      "loss": 2.8418,
       "step": 450
     },
     {
       "epoch": 0.0095,
+      "grad_norm": 5.700549652048682,
       "learning_rate": 9.480000000000001e-07,
+      "loss": 2.8351,
       "step": 475
     },
     {
       "epoch": 0.01,
+      "grad_norm": 5.462019159507559,
       "learning_rate": 9.98e-07,
+      "loss": 2.8319,
       "step": 500
     },
     {
       "epoch": 0.01,
+      "eval_loss": 2.828125,
+      "eval_runtime": 42.4078,
+      "eval_samples_per_second": 2.452,
+      "eval_steps_per_second": 1.226,
       "step": 500
+    },
+    {
+      "epoch": 0.0105,
+      "grad_norm": 5.100237356575638,
+      "learning_rate": 1.0480000000000002e-06,
+      "loss": 2.8368,
+      "step": 525
+    },
+    {
+      "epoch": 0.011,
+      "grad_norm": 5.8591675831655134,
+      "learning_rate": 1.0980000000000001e-06,
+      "loss": 2.8262,
+      "step": 550
+    },
+    {
+      "epoch": 0.0115,
+      "grad_norm": 4.582188259829454,
+      "learning_rate": 1.148e-06,
+      "loss": 2.8083,
+      "step": 575
+    },
+    {
+      "epoch": 0.012,
+      "grad_norm": 4.853482247652135,
+      "learning_rate": 1.1980000000000002e-06,
+      "loss": 2.8187,
+      "step": 600
+    },
+    {
+      "epoch": 0.012,
+      "eval_loss": 2.810246467590332,
+      "eval_runtime": 42.429,
+      "eval_samples_per_second": 2.451,
+      "eval_steps_per_second": 1.226,
+      "step": 600
+    },
+    {
+      "epoch": 0.0125,
+      "grad_norm": 4.813324366644894,
+      "learning_rate": 1.248e-06,
+      "loss": 2.8109,
+      "step": 625
+    },
+    {
+      "epoch": 0.013,
+      "grad_norm": 4.680021008982155,
+      "learning_rate": 1.2980000000000001e-06,
+      "loss": 2.8071,
+      "step": 650
+    },
+    {
+      "epoch": 0.0135,
+      "grad_norm": 4.232572917961915,
+      "learning_rate": 1.348e-06,
+      "loss": 2.7996,
+      "step": 675
+    },
+    {
+      "epoch": 0.014,
+      "grad_norm": 4.140300235345937,
+      "learning_rate": 1.3980000000000002e-06,
+      "loss": 2.7965,
+      "step": 700
+    },
+    {
+      "epoch": 0.014,
+      "eval_loss": 2.795973539352417,
+      "eval_runtime": 42.2781,
+      "eval_samples_per_second": 2.46,
+      "eval_steps_per_second": 1.23,
+      "step": 700
+    },
+    {
+      "epoch": 0.0145,
+      "grad_norm": 4.066322921244863,
+      "learning_rate": 1.4480000000000002e-06,
+      "loss": 2.7892,
+      "step": 725
+    },
+    {
+      "epoch": 0.015,
+      "grad_norm": 4.790524346969656,
+      "learning_rate": 1.498e-06,
+      "loss": 2.7776,
+      "step": 750
+    },
+    {
+      "epoch": 0.0155,
+      "grad_norm": 4.814208015592297,
+      "learning_rate": 1.548e-06,
+      "loss": 2.7904,
+      "step": 775
+    },
+    {
+      "epoch": 0.016,
+      "grad_norm": 3.495397019361677,
+      "learning_rate": 1.5980000000000002e-06,
+      "loss": 2.7771,
+      "step": 800
+    },
+    {
+      "epoch": 0.016,
+      "eval_loss": 2.783353328704834,
+      "eval_runtime": 45.2475,
+      "eval_samples_per_second": 2.298,
+      "eval_steps_per_second": 1.149,
+      "step": 800
+    },
+    {
+      "epoch": 0.0165,
+      "grad_norm": 4.509827964168959,
+      "learning_rate": 1.6480000000000001e-06,
+      "loss": 2.7864,
+      "step": 825
+    },
+    {
+      "epoch": 0.017,
+      "grad_norm": 3.396755590212729,
+      "learning_rate": 1.6980000000000003e-06,
+      "loss": 2.7665,
+      "step": 850
+    },
+    {
+      "epoch": 0.0175,
+      "grad_norm": 3.6908600934389364,
+      "learning_rate": 1.7480000000000002e-06,
+      "loss": 2.7784,
+      "step": 875
+    },
+    {
+      "epoch": 0.018,
+      "grad_norm": 4.517092572588064,
+      "learning_rate": 1.798e-06,
+      "loss": 2.7718,
+      "step": 900
+    },
+    {
+      "epoch": 0.018,
+      "eval_loss": 2.772385835647583,
+      "eval_runtime": 42.1503,
+      "eval_samples_per_second": 2.467,
+      "eval_steps_per_second": 1.234,
+      "step": 900
+    },
+    {
+      "epoch": 0.0185,
+      "grad_norm": 4.1527970820269635,
+      "learning_rate": 1.8480000000000001e-06,
+      "loss": 2.7592,
+      "step": 925
+    },
+    {
+      "epoch": 0.019,
+      "grad_norm": 4.093946260210414,
+      "learning_rate": 1.898e-06,
+      "loss": 2.7728,
+      "step": 950
+    },
+    {
+      "epoch": 0.0195,
+      "grad_norm": 3.794409923219389,
+      "learning_rate": 1.9480000000000002e-06,
+      "loss": 2.7757,
+      "step": 975
+    },
+    {
+      "epoch": 0.02,
+      "grad_norm": 3.128018180220031,
+      "learning_rate": 1.998e-06,
+      "loss": 2.7614,
+      "step": 1000
+    },
+    {
+      "epoch": 0.02,
+      "eval_loss": 2.764573335647583,
+      "eval_runtime": 42.2226,
+      "eval_samples_per_second": 2.463,
+      "eval_steps_per_second": 1.232,
+      "step": 1000
+    },
+    {
+      "epoch": 0.0205,
+      "grad_norm": 3.8078874128993667,
+      "learning_rate": 2.048e-06,
+      "loss": 2.7629,
+      "step": 1025
+    },
+    {
+      "epoch": 0.021,
+      "grad_norm": 3.50724949935112,
+      "learning_rate": 2.098e-06,
+      "loss": 2.776,
+      "step": 1050
+    },
+    {
+      "epoch": 0.0215,
+      "grad_norm": 3.600343997799952,
+      "learning_rate": 2.148e-06,
+      "loss": 2.7503,
+      "step": 1075
+    },
+    {
+      "epoch": 0.022,
+      "grad_norm": 3.4227590286591667,
+      "learning_rate": 2.198e-06,
+      "loss": 2.7522,
+      "step": 1100
+    },
+    {
+      "epoch": 0.022,
+      "eval_loss": 2.754957914352417,
+      "eval_runtime": 42.1456,
+      "eval_samples_per_second": 2.468,
+      "eval_steps_per_second": 1.234,
+      "step": 1100
+    },
+    {
+      "epoch": 0.0225,
+      "grad_norm": 3.6214573340756178,
+      "learning_rate": 2.2480000000000003e-06,
+      "loss": 2.7423,
+      "step": 1125
+    },
+    {
+      "epoch": 0.023,
+      "grad_norm": 4.963456774283441,
+      "learning_rate": 2.2980000000000003e-06,
+      "loss": 2.7473,
+      "step": 1150
+    },
+    {
+      "epoch": 0.0235,
+      "grad_norm": 4.417511515875024,
+      "learning_rate": 2.3480000000000002e-06,
+      "loss": 2.7458,
+      "step": 1175
+    },
+    {
+      "epoch": 0.024,
+      "grad_norm": 3.4640266757488054,
+      "learning_rate": 2.398e-06,
+      "loss": 2.755,
+      "step": 1200
+    },
+    {
+      "epoch": 0.024,
+      "eval_loss": 2.744741678237915,
+      "eval_runtime": 42.2958,
+      "eval_samples_per_second": 2.459,
+      "eval_steps_per_second": 1.229,
+      "step": 1200
+    },
+    {
+      "epoch": 0.0245,
+      "grad_norm": 3.8906187945336637,
+      "learning_rate": 2.448e-06,
+      "loss": 2.7413,
+      "step": 1225
+    },
+    {
+      "epoch": 0.025,
+      "grad_norm": 4.103531427287993,
+      "learning_rate": 2.498e-06,
+      "loss": 2.7464,
+      "step": 1250
+    },
+    {
+      "epoch": 0.0255,
+      "grad_norm": 3.7381187683762565,
+      "learning_rate": 2.5480000000000004e-06,
+      "loss": 2.7383,
+      "step": 1275
+    },
+    {
+      "epoch": 0.026,
+      "grad_norm": 4.019695597142381,
+      "learning_rate": 2.598e-06,
+      "loss": 2.7286,
+      "step": 1300
+    },
+    {
+      "epoch": 0.026,
+      "eval_loss": 2.735727071762085,
+      "eval_runtime": 42.1778,
+      "eval_samples_per_second": 2.466,
+      "eval_steps_per_second": 1.233,
+      "step": 1300
+    },
+    {
+      "epoch": 0.0265,
+      "grad_norm": 3.761754015207239,
+      "learning_rate": 2.648e-06,
+      "loss": 2.7508,
+      "step": 1325
+    },
+    {
+      "epoch": 0.027,
+      "grad_norm": 3.5172792845513023,
+      "learning_rate": 2.6980000000000003e-06,
+      "loss": 2.7396,
+      "step": 1350
+    },
+    {
+      "epoch": 0.0275,
+      "grad_norm": 3.6926838130981556,
+      "learning_rate": 2.748e-06,
+      "loss": 2.7286,
+      "step": 1375
+    },
+    {
+      "epoch": 0.028,
+      "grad_norm": 3.5018547073145,
+      "learning_rate": 2.798e-06,
+      "loss": 2.7247,
+      "step": 1400
+    },
+    {
+      "epoch": 0.028,
+      "eval_loss": 2.728515625,
+      "eval_runtime": 42.129,
+      "eval_samples_per_second": 2.469,
+      "eval_steps_per_second": 1.234,
+      "step": 1400
+    },
+    {
+      "epoch": 0.0285,
+      "grad_norm": 3.575054037567428,
+      "learning_rate": 2.848e-06,
+      "loss": 2.7229,
+      "step": 1425
+    },
+    {
+      "epoch": 0.029,
+      "grad_norm": 4.062924067051664,
+      "learning_rate": 2.8980000000000005e-06,
+      "loss": 2.7208,
+      "step": 1450
+    },
+    {
+      "epoch": 0.0295,
+      "grad_norm": 3.5741121733868573,
+      "learning_rate": 2.9480000000000004e-06,
+      "loss": 2.7071,
+      "step": 1475
+    },
+    {
+      "epoch": 0.03,
+      "grad_norm": 3.9813713940318864,
+      "learning_rate": 2.9980000000000003e-06,
+      "loss": 2.729,
+      "step": 1500
+    },
+    {
+      "epoch": 0.03,
+      "eval_loss": 2.721153736114502,
+      "eval_runtime": 42.058,
+      "eval_samples_per_second": 2.473,
+      "eval_steps_per_second": 1.236,
+      "step": 1500
+    },
+    {
+      "epoch": 0.0305,
+      "grad_norm": 4.465898046671721,
+      "learning_rate": 3.0480000000000003e-06,
+      "loss": 2.7239,
+      "step": 1525
+    },
+    {
+      "epoch": 0.031,
+      "grad_norm": 4.083780430751083,
+      "learning_rate": 3.0980000000000007e-06,
+      "loss": 2.7177,
+      "step": 1550
+    },
+    {
+      "epoch": 0.0315,
+      "grad_norm": 3.259296223054617,
+      "learning_rate": 3.1480000000000006e-06,
+      "loss": 2.7149,
+      "step": 1575
+    },
+    {
+      "epoch": 0.032,
+      "grad_norm": 4.118900376683919,
+      "learning_rate": 3.198e-06,
+      "loss": 2.7157,
+      "step": 1600
+    },
+    {
+      "epoch": 0.032,
+      "eval_loss": 2.714693546295166,
+      "eval_runtime": 42.155,
+      "eval_samples_per_second": 2.467,
+      "eval_steps_per_second": 1.234,
+      "step": 1600
+    },
+    {
+      "epoch": 0.0325,
+      "grad_norm": 3.7685203077928335,
+      "learning_rate": 3.248e-06,
+      "loss": 2.7185,
+      "step": 1625
+    },
+    {
+      "epoch": 0.033,
+      "grad_norm": 3.786239665874637,
+      "learning_rate": 3.298e-06,
+      "loss": 2.694,
+      "step": 1650
+    },
+    {
+      "epoch": 0.0335,
+      "grad_norm": 4.0202339796786095,
+      "learning_rate": 3.348e-06,
+      "loss": 2.7076,
+      "step": 1675
+    },
+    {
+      "epoch": 0.034,
+      "grad_norm": 3.220912468646897,
+      "learning_rate": 3.3980000000000003e-06,
+      "loss": 2.7086,
+      "step": 1700
+    },
+    {
+      "epoch": 0.034,
+      "eval_loss": 2.708683967590332,
+      "eval_runtime": 42.1812,
+      "eval_samples_per_second": 2.466,
+      "eval_steps_per_second": 1.233,
+      "step": 1700
+    },
+    {
+      "epoch": 0.0345,
+      "grad_norm": 3.4236457763643964,
+      "learning_rate": 3.4480000000000003e-06,
+      "loss": 2.7107,
+      "step": 1725
+    },
+    {
+      "epoch": 0.035,
+      "grad_norm": 3.428424878937346,
+      "learning_rate": 3.4980000000000002e-06,
+      "loss": 2.7033,
+      "step": 1750
+    },
+    {
+      "epoch": 0.0355,
+      "grad_norm": 3.7064590041354597,
+      "learning_rate": 3.548e-06,
+      "loss": 2.7135,
+      "step": 1775
+    },
+    {
+      "epoch": 0.036,
+      "grad_norm": 2.6935868617559127,
+      "learning_rate": 3.5980000000000005e-06,
+      "loss": 2.6977,
+      "step": 1800
+    },
+    {
+      "epoch": 0.036,
+      "eval_loss": 2.702373743057251,
+      "eval_runtime": 42.099,
+      "eval_samples_per_second": 2.47,
+      "eval_steps_per_second": 1.235,
+      "step": 1800
+    },
+    {
+      "epoch": 0.0365,
+      "grad_norm": 3.1724624305272577,
+      "learning_rate": 3.6480000000000005e-06,
+      "loss": 2.6941,
+      "step": 1825
+    },
+    {
+      "epoch": 0.037,
+      "grad_norm": 3.3947291376692967,
+      "learning_rate": 3.6980000000000004e-06,
+      "loss": 2.705,
+      "step": 1850
+    },
+    {
+      "epoch": 0.0375,
+      "grad_norm": 3.2739522130247454,
+      "learning_rate": 3.7480000000000004e-06,
+      "loss": 2.6971,
+      "step": 1875
+    },
+    {
+      "epoch": 0.038,
+      "grad_norm": 2.886346941239111,
+      "learning_rate": 3.7980000000000007e-06,
+      "loss": 2.6878,
+      "step": 1900
+    },
+    {
+      "epoch": 0.038,
+      "eval_loss": 2.698768138885498,
+      "eval_runtime": 42.2524,
+      "eval_samples_per_second": 2.461,
+      "eval_steps_per_second": 1.231,
+      "step": 1900
+    },
+    {
+      "epoch": 0.0385,
+      "grad_norm": 2.961130539695273,
+      "learning_rate": 3.848e-06,
+      "loss": 2.6936,
+      "step": 1925
+    },
+    {
+      "epoch": 0.039,
+      "grad_norm": 3.2300245788196884,
+      "learning_rate": 3.898e-06,
+      "loss": 2.6989,
+      "step": 1950
+    },
+    {
+      "epoch": 0.0395,
+      "grad_norm": 3.2952386418656823,
+      "learning_rate": 3.948e-06,
+      "loss": 2.6937,
+      "step": 1975
+    },
+    {
+      "epoch": 0.04,
+      "grad_norm": 2.556435159379079,
+      "learning_rate": 3.9980000000000005e-06,
+      "loss": 2.6991,
+      "step": 2000
+    },
+    {
+      "epoch": 0.04,
+      "eval_loss": 2.693058967590332,
+      "eval_runtime": 42.2004,
+      "eval_samples_per_second": 2.464,
+      "eval_steps_per_second": 1.232,
+      "step": 2000
+    },
+    {
+      "epoch": 0.0405,
+      "grad_norm": 2.975198340671437,
+      "learning_rate": 4.048e-06,
+      "loss": 2.6896,
+      "step": 2025
+    },
+    {
+      "epoch": 0.041,
+      "grad_norm": 2.366572300776235,
+      "learning_rate": 4.098e-06,
+      "loss": 2.6903,
+      "step": 2050
+    },
+    {
+      "epoch": 0.0415,
+      "grad_norm": 2.650575110326075,
+      "learning_rate": 4.148000000000001e-06,
+      "loss": 2.6974,
+      "step": 2075
+    },
+    {
+      "epoch": 0.042,
+      "grad_norm": 2.844363978567716,
+      "learning_rate": 4.198e-06,
+      "loss": 2.6833,
+      "step": 2100
+    },
+    {
+      "epoch": 0.042,
+      "eval_loss": 2.687650203704834,
+      "eval_runtime": 42.1236,
+      "eval_samples_per_second": 2.469,
+      "eval_steps_per_second": 1.234,
+      "step": 2100
+    },
+    {
+      "epoch": 0.0425,
+      "grad_norm": 2.5043519810203425,
+      "learning_rate": 4.248000000000001e-06,
+      "loss": 2.6848,
+      "step": 2125
+    },
+    {
+      "epoch": 0.043,
+      "grad_norm": 2.442865859341675,
+      "learning_rate": 4.298e-06,
+      "loss": 2.6834,
+      "step": 2150
+    },
+    {
+      "epoch": 0.0435,
+      "grad_norm": 2.396444505850839,
+      "learning_rate": 4.3480000000000006e-06,
+      "loss": 2.6842,
+      "step": 2175
+    },
+    {
+      "epoch": 0.044,
+      "grad_norm": 2.467830621762353,
+      "learning_rate": 4.398000000000001e-06,
+      "loss": 2.6849,
+      "step": 2200
+    },
+    {
+      "epoch": 0.044,
+      "eval_loss": 2.684495210647583,
+      "eval_runtime": 42.337,
+      "eval_samples_per_second": 2.456,
+      "eval_steps_per_second": 1.228,
+      "step": 2200
+    },
+    {
+      "epoch": 0.0445,
+      "grad_norm": 2.331183246577976,
+      "learning_rate": 4.4480000000000004e-06,
+      "loss": 2.6933,
+      "step": 2225
+    },
+    {
+      "epoch": 0.045,
+      "grad_norm": 2.7108879126095995,
+      "learning_rate": 4.498e-06,
+      "loss": 2.6756,
+      "step": 2250
+    },
+    {
+      "epoch": 0.0455,
+      "grad_norm": 2.297487473050839,
+      "learning_rate": 4.548e-06,
+      "loss": 2.6773,
+      "step": 2275
+    },
+    {
+      "epoch": 0.046,
+      "grad_norm": 2.260013609826266,
+      "learning_rate": 4.598e-06,
+      "loss": 2.6869,
+      "step": 2300
+    },
+    {
+      "epoch": 0.046,
+      "eval_loss": 2.680889368057251,
+      "eval_runtime": 42.2308,
+      "eval_samples_per_second": 2.463,
+      "eval_steps_per_second": 1.231,
+      "step": 2300
+    },
+    {
+      "epoch": 0.0465,
+      "grad_norm": 2.1362621908829964,
+      "learning_rate": 4.648e-06,
+      "loss": 2.674,
+      "step": 2325
+    },
+    {
+      "epoch": 0.047,
+      "grad_norm": 2.530250306266186,
+      "learning_rate": 4.698000000000001e-06,
+      "loss": 2.6682,
+      "step": 2350
+    },
+    {
+      "epoch": 0.0475,
+      "grad_norm": 2.284376818082532,
+      "learning_rate": 4.748e-06,
+      "loss": 2.6741,
+      "step": 2375
+    },
+    {
+      "epoch": 0.048,
+      "grad_norm": 2.9431781004579403,
+      "learning_rate": 4.7980000000000005e-06,
+      "loss": 2.6793,
+      "step": 2400
+    },
+    {
+      "epoch": 0.048,
+      "eval_loss": 2.676382303237915,
+      "eval_runtime": 42.1755,
+      "eval_samples_per_second": 2.466,
+      "eval_steps_per_second": 1.233,
+      "step": 2400
+    },
+    {
+      "epoch": 0.0485,
+      "grad_norm": 2.2501714313646,
+      "learning_rate": 4.848000000000001e-06,
+      "loss": 2.6836,
+      "step": 2425
+    },
+    {
+      "epoch": 0.049,
+      "grad_norm": 2.520507270374293,
+      "learning_rate": 4.898e-06,
+      "loss": 2.6793,
+      "step": 2450
+    },
+    {
+      "epoch": 0.0495,
+      "grad_norm": 2.3001609851463156,
+      "learning_rate": 4.948000000000001e-06,
+      "loss": 2.6825,
+      "step": 2475
+    },
+    {
+      "epoch": 0.05,
+      "grad_norm": 2.0060268631347973,
+      "learning_rate": 4.998e-06,
+      "loss": 2.6736,
+      "step": 2500
+    },
+    {
+      "epoch": 0.05,
+      "eval_loss": 2.671875,
+      "eval_runtime": 42.1697,
+      "eval_samples_per_second": 2.466,
+      "eval_steps_per_second": 1.233,
+      "step": 2500
+    },
+    {
+      "epoch": 0.0505,
+      "grad_norm": 2.1769919372211564,
+      "learning_rate": 5.048000000000001e-06,
+      "loss": 2.6741,
+      "step": 2525
+    },
+    {
+      "epoch": 0.051,
+      "grad_norm": 2.1133782069189366,
+      "learning_rate": 5.098000000000001e-06,
+      "loss": 2.67,
+      "step": 2550
+    },
+    {
+      "epoch": 0.0515,
+      "grad_norm": 2.242586565950932,
+      "learning_rate": 5.1480000000000005e-06,
+      "loss": 2.6835,
+      "step": 2575
+    },
+    {
+      "epoch": 0.052,
+      "grad_norm": 2.4130154185332615,
+      "learning_rate": 5.198000000000001e-06,
+      "loss": 2.6752,
+      "step": 2600
+    },
+    {
+      "epoch": 0.052,
+      "eval_loss": 2.669621467590332,
+      "eval_runtime": 42.1123,
+      "eval_samples_per_second": 2.47,
+      "eval_steps_per_second": 1.235,
+      "step": 2600
+    },
+    {
+      "epoch": 0.0525,
+      "grad_norm": 2.243339931731786,
+      "learning_rate": 5.248000000000001e-06,
+      "loss": 2.6631,
+      "step": 2625
+    },
+    {
+      "epoch": 0.053,
+      "grad_norm": 2.1652170787894964,
+      "learning_rate": 5.298000000000001e-06,
+      "loss": 2.6653,
+      "step": 2650
+    },
+    {
+      "epoch": 0.0535,
+      "grad_norm": 2.3514042691010077,
+      "learning_rate": 5.348000000000001e-06,
+      "loss": 2.6704,
+      "step": 2675
+    },
+    {
+      "epoch": 0.054,
+      "grad_norm": 2.0555358311645104,
+      "learning_rate": 5.398e-06,
+      "loss": 2.6744,
+      "step": 2700
+    },
+    {
+      "epoch": 0.054,
+      "eval_loss": 2.668419361114502,
+      "eval_runtime": 42.1636,
+      "eval_samples_per_second": 2.467,
+      "eval_steps_per_second": 1.233,
+      "step": 2700
+    },
+    {
+      "epoch": 0.0545,
+      "grad_norm": 2.504233096197935,
+      "learning_rate": 5.448e-06,
+      "loss": 2.6686,
+      "step": 2725
+    },
+    {
+      "epoch": 0.055,
+      "grad_norm": 2.1966446495255014,
+      "learning_rate": 5.498e-06,
+      "loss": 2.6575,
+      "step": 2750
+    },
+    {
+      "epoch": 0.0555,
+      "grad_norm": 3.4129666421130738,
+      "learning_rate": 5.548e-06,
+      "loss": 2.6624,
+      "step": 2775
+    },
+    {
+      "epoch": 0.056,
+      "grad_norm": 2.5402178685422028,
+      "learning_rate": 5.5980000000000004e-06,
+      "loss": 2.6615,
+      "step": 2800
+    },
+    {
+      "epoch": 0.056,
+      "eval_loss": 2.666015625,
+      "eval_runtime": 42.1094,
+      "eval_samples_per_second": 2.47,
+      "eval_steps_per_second": 1.235,
+      "step": 2800
+    },
+    {
+      "epoch": 0.0565,
+      "grad_norm": 2.5169534616209215,
+      "learning_rate": 5.648e-06,
+      "loss": 2.6745,
+      "step": 2825
+    },
+    {
+      "epoch": 0.057,
+      "grad_norm": 2.4269096679582347,
+      "learning_rate": 5.698e-06,
+      "loss": 2.658,
+      "step": 2850
+    },
+    {
+      "epoch": 0.0575,
+      "grad_norm": 2.2819396814928763,
+      "learning_rate": 5.748e-06,
+      "loss": 2.6694,
+      "step": 2875
+    },
+    {
+      "epoch": 0.058,
+      "grad_norm": 3.0448163445232512,
+      "learning_rate": 5.798e-06,
+      "loss": 2.6587,
+      "step": 2900
+    },
+    {
+      "epoch": 0.058,
+      "eval_loss": 2.662710428237915,
+      "eval_runtime": 42.173,
+      "eval_samples_per_second": 2.466,
+      "eval_steps_per_second": 1.233,
+      "step": 2900
+    },
+    {
+      "epoch": 0.0585,
+      "grad_norm": 3.2390472506289343,
+      "learning_rate": 5.848000000000001e-06,
+      "loss": 2.661,
+      "step": 2925
+    },
+    {
+      "epoch": 0.059,
+      "grad_norm": 2.5836929915418194,
+      "learning_rate": 5.898e-06,
+      "loss": 2.6514,
+      "step": 2950
+    },
+    {
+      "epoch": 0.0595,
+      "grad_norm": 2.5766876152500227,
+      "learning_rate": 5.9480000000000005e-06,
+      "loss": 2.6673,
+      "step": 2975
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 2.507842811667469,
+      "learning_rate": 5.998000000000001e-06,
+      "loss": 2.6658,
+      "step": 3000
+    },
+    {
+      "epoch": 0.06,
+      "eval_loss": 2.659705638885498,
+      "eval_runtime": 42.0906,
+      "eval_samples_per_second": 2.471,
+      "eval_steps_per_second": 1.235,
+      "step": 3000
+    },
+    {
+      "epoch": 0.0605,
+      "grad_norm": 2.291724100817165,
+      "learning_rate": 6.048e-06,
+      "loss": 2.6588,
+      "step": 3025
+    },
+    {
+      "epoch": 0.061,
+      "grad_norm": 2.356775687250912,
+      "learning_rate": 6.098000000000001e-06,
+      "loss": 2.6519,
+      "step": 3050
+    },
+    {
+      "epoch": 0.0615,
+      "grad_norm": 3.6009374683805553,
+      "learning_rate": 6.148e-06,
+      "loss": 2.6581,
+      "step": 3075
+    },
+    {
+      "epoch": 0.062,
+      "grad_norm": 3.2760170273305724,
+      "learning_rate": 6.198000000000001e-06,
+      "loss": 2.6588,
+      "step": 3100
+    },
+    {
+      "epoch": 0.062,
+      "eval_loss": 2.656700611114502,
+      "eval_runtime": 42.0325,
+      "eval_samples_per_second": 2.474,
+      "eval_steps_per_second": 1.237,
+      "step": 3100
+    },
+    {
+      "epoch": 0.0625,
+      "grad_norm": 2.5849236998041825,
+      "learning_rate": 6.248000000000001e-06,
+      "loss": 2.6548,
+      "step": 3125
+    },
+    {
+      "epoch": 0.063,
+      "grad_norm": 2.3095505880624474,
+      "learning_rate": 6.2980000000000005e-06,
+      "loss": 2.6511,
+      "step": 3150
+    },
+    {
+      "epoch": 0.0635,
+      "grad_norm": 2.5258255422234996,
+      "learning_rate": 6.348000000000001e-06,
+      "loss": 2.6589,
+      "step": 3175
+    },
+    {
+      "epoch": 0.064,
+      "grad_norm": 2.3520030773681335,
+      "learning_rate": 6.398000000000001e-06,
+      "loss": 2.6462,
+      "step": 3200
+    },
+    {
+      "epoch": 0.064,
+      "eval_loss": 2.652644157409668,
+      "eval_runtime": 42.2271,
+      "eval_samples_per_second": 2.463,
+      "eval_steps_per_second": 1.231,
+      "step": 3200
+    },
+    {
+      "epoch": 0.0645,
+      "grad_norm": 2.457532178302885,
+      "learning_rate": 6.448000000000001e-06,
+      "loss": 2.6495,
+      "step": 3225
+    },
+    {
+      "epoch": 0.065,
+      "grad_norm": 2.3328730844475833,
+      "learning_rate": 6.498000000000001e-06,
+      "loss": 2.6384,
+      "step": 3250
+    },
+    {
+      "epoch": 0.0655,
+      "grad_norm": 2.382459769400574,
+      "learning_rate": 6.548000000000001e-06,
+      "loss": 2.652,
+      "step": 3275
+    },
+    {
+      "epoch": 0.066,
+      "grad_norm": 2.4287460984943707,
+      "learning_rate": 6.598000000000001e-06,
+      "loss": 2.655,
+      "step": 3300
+    },
+    {
+      "epoch": 0.066,
+      "eval_loss": 2.650841236114502,
+      "eval_runtime": 42.1822,
+      "eval_samples_per_second": 2.465,
+      "eval_steps_per_second": 1.233,
+      "step": 3300
+    },
+    {
+      "epoch": 0.0665,
+      "grad_norm": 3.0374923212376963,
+      "learning_rate": 6.648e-06,
+      "loss": 2.6623,
+      "step": 3325
+    },
+    {
+      "epoch": 0.067,
+      "grad_norm": 2.3072135476674127,
+      "learning_rate": 6.698e-06,
+      "loss": 2.6484,
+      "step": 3350
+    },
+    {
+      "epoch": 0.0675,
+      "grad_norm": 2.3676328206176778,
+      "learning_rate": 6.7480000000000004e-06,
+      "loss": 2.6569,
+      "step": 3375
+    },
+    {
+      "epoch": 0.068,
+      "grad_norm": 2.313390296186245,
+      "learning_rate": 6.798e-06,
+      "loss": 2.6393,
+      "step": 3400
+    },
+    {
+      "epoch": 0.068,
+      "eval_loss": 2.648888111114502,
+      "eval_runtime": 44.6877,
+      "eval_samples_per_second": 2.327,
+      "eval_steps_per_second": 1.164,
+      "step": 3400
+    },
+    {
+      "epoch": 0.0685,
+      "grad_norm": 2.9181668179248033,
+      "learning_rate": 6.848e-06,
+      "loss": 2.6521,
+      "step": 3425
+    },
+    {
+      "epoch": 0.069,
+      "grad_norm": 2.1972242976901457,
+      "learning_rate": 6.898e-06,
+      "loss": 2.6605,
+      "step": 3450
+    },
+    {
+      "epoch": 0.0695,
+      "grad_norm": 2.514104559780915,
+      "learning_rate": 6.948e-06,
+      "loss": 2.6444,
+      "step": 3475
+    },
+    {
+      "epoch": 0.07,
+      "grad_norm": 2.463879404265904,
+      "learning_rate": 6.998000000000001e-06,
+      "loss": 2.6586,
+      "step": 3500
+    },
+    {
+      "epoch": 0.07,
+      "eval_loss": 2.644831657409668,
+      "eval_runtime": 45.1164,
+      "eval_samples_per_second": 2.305,
+      "eval_steps_per_second": 1.153,
+      "step": 3500
     }
   ],
   "logging_steps": 25,
       "attributes": {}
     }
   },
+  "total_flos": 7.854767599744188e+18,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null