irodkin
/

run_20

PyTorch

Safetensors

armt

Model card Files Files and versions

xet

Community

irodkin commited on Oct 29, 2025

Commit

66864fa

verified ·

1 Parent(s): 791081f

Training checkpoint at step 4000

Browse files

Files changed (1) hide show

trainer_state.json +1206 -126

trainer_state.json CHANGED Viewed

@@ -1,373 +1,1453 @@
 {
-  "best_global_step": 1000,
-  "best_metric": 2.4606094360351562,
-  "best_model_checkpoint": "../runs/karpathy/fineweb-edu-100b-shuffle/meta-llama/Llama-3.2-1B/linear_adamw_wd1e-03_8x1024_mem32_bs64_hf_armt_dmem64/run_20/checkpoint-1000",
-  "epoch": 0.02,
   "eval_steps": 100,
-  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.0005,
-      "grad_norm": 23.921196999824634,
       "learning_rate": 4.8e-08,
-      "loss": 3.5322,
       "step": 25
     },
     {
       "epoch": 0.001,
-      "grad_norm": 25.294482425488255,
       "learning_rate": 9.8e-08,
-      "loss": 3.447,
       "step": 50
     },
     {
       "epoch": 0.0015,
-      "grad_norm": 15.01769397770396,
       "learning_rate": 1.4800000000000003e-07,
-      "loss": 3.3089,
       "step": 75
     },
     {
       "epoch": 0.002,
-      "grad_norm": 16.008940137598024,
       "learning_rate": 1.9800000000000003e-07,
-      "loss": 3.1511,
       "step": 100
     },
     {
       "epoch": 0.002,
-      "eval_loss": 2.927788257598877,
-      "eval_runtime": 32.2151,
-      "eval_samples_per_second": 3.166,
-      "eval_steps_per_second": 1.583,
       "step": 100
     },
     {
       "epoch": 0.0025,
-      "grad_norm": 5.1785225673855315,
       "learning_rate": 2.48e-07,
-      "loss": 2.917,
       "step": 125
     },
     {
       "epoch": 0.003,
-      "grad_norm": 2.686420253223822,
       "learning_rate": 2.9800000000000005e-07,
-      "loss": 2.7866,
       "step": 150
     },
     {
       "epoch": 0.0035,
-      "grad_norm": 2.131122700028578,
       "learning_rate": 3.48e-07,
-      "loss": 2.6983,
       "step": 175
     },
     {
       "epoch": 0.004,
-      "grad_norm": 1.156232330871528,
       "learning_rate": 3.9800000000000004e-07,
-      "loss": 2.6605,
       "step": 200
     },
     {
       "epoch": 0.004,
-      "eval_loss": 2.622080087661743,
-      "eval_runtime": 32.478,
-      "eval_samples_per_second": 3.141,
-      "eval_steps_per_second": 1.57,
       "step": 200
     },
     {
       "epoch": 0.0045,
-      "grad_norm": 1.0450250892253987,
       "learning_rate": 4.4800000000000004e-07,
-      "loss": 2.622,
       "step": 225
     },
     {
       "epoch": 0.005,
-      "grad_norm": 1.282826275999948,
       "learning_rate": 4.98e-07,
-      "loss": 2.5969,
       "step": 250
     },
     {
       "epoch": 0.0055,
-      "grad_norm": 1.0689503555811006,
       "learning_rate": 5.480000000000001e-07,
-      "loss": 2.5696,
       "step": 275
     },
     {
       "epoch": 0.006,
-      "grad_norm": 1.1295113329856576,
       "learning_rate": 5.98e-07,
-      "loss": 2.5586,
       "step": 300
     },
     {
       "epoch": 0.006,
-      "eval_loss": 2.542414903640747,
-      "eval_runtime": 32.3741,
-      "eval_samples_per_second": 3.151,
-      "eval_steps_per_second": 1.575,
       "step": 300
     },
     {
       "epoch": 0.0065,
-      "grad_norm": 0.9903737262138339,
       "learning_rate": 6.48e-07,
-      "loss": 2.5411,
       "step": 325
     },
     {
       "epoch": 0.007,
-      "grad_norm": 0.8804340297720566,
       "learning_rate": 6.98e-07,
-      "loss": 2.5381,
       "step": 350
     },
     {
       "epoch": 0.0075,
-      "grad_norm": 0.9455594729886727,
       "learning_rate": 7.480000000000001e-07,
-      "loss": 2.5281,
       "step": 375
     },
     {
       "epoch": 0.008,
-      "grad_norm": 1.0362797793655913,
       "learning_rate": 7.98e-07,
-      "loss": 2.516,
       "step": 400
     },
     {
       "epoch": 0.008,
-      "eval_loss": 2.5159339904785156,
-      "eval_runtime": 32.5645,
-      "eval_samples_per_second": 3.132,
-      "eval_steps_per_second": 1.566,
       "step": 400
     },
     {
       "epoch": 0.0085,
-      "grad_norm": 0.9118188709796304,
       "learning_rate": 8.480000000000001e-07,
-      "loss": 2.5094,
       "step": 425
     },
     {
       "epoch": 0.009,
-      "grad_norm": 0.9386092151497886,
       "learning_rate": 8.980000000000001e-07,
-      "loss": 2.5168,
       "step": 450
     },
     {
       "epoch": 0.0095,
-      "grad_norm": 0.9462657509886757,
       "learning_rate": 9.480000000000001e-07,
-      "loss": 2.5026,
       "step": 475
     },
     {
       "epoch": 0.01,
-      "grad_norm": 0.9797179393690154,
       "learning_rate": 9.98e-07,
-      "loss": 2.5106,
       "step": 500
     },
     {
       "epoch": 0.01,
-      "eval_loss": 2.4997920989990234,
-      "eval_runtime": 32.6441,
-      "eval_samples_per_second": 3.125,
-      "eval_steps_per_second": 1.562,
       "step": 500
     },
     {
       "epoch": 0.0105,
-      "grad_norm": 0.8200361058649662,
       "learning_rate": 1.0480000000000002e-06,
-      "loss": 2.503,
       "step": 525
     },
     {
       "epoch": 0.011,
-      "grad_norm": 0.8833572046578635,
       "learning_rate": 1.0980000000000001e-06,
-      "loss": 2.4886,
       "step": 550
     },
     {
       "epoch": 0.0115,
-      "grad_norm": 0.9703276038236935,
       "learning_rate": 1.148e-06,
-      "loss": 2.4868,
       "step": 575
     },
     {
       "epoch": 0.012,
-      "grad_norm": 1.3485829978019601,
       "learning_rate": 1.1980000000000002e-06,
-      "loss": 2.4876,
       "step": 600
     },
     {
       "epoch": 0.012,
-      "eval_loss": 2.486616849899292,
-      "eval_runtime": 32.7645,
-      "eval_samples_per_second": 3.113,
-      "eval_steps_per_second": 1.557,
       "step": 600
     },
     {
       "epoch": 0.0125,
-      "grad_norm": 0.9960360682218028,
       "learning_rate": 1.248e-06,
-      "loss": 2.4846,
       "step": 625
     },
     {
       "epoch": 0.013,
-      "grad_norm": 1.2959733905656832,
       "learning_rate": 1.2980000000000001e-06,
-      "loss": 2.4746,
       "step": 650
     },
     {
       "epoch": 0.0135,
-      "grad_norm": 1.395691356694074,
       "learning_rate": 1.348e-06,
-      "loss": 2.4774,
       "step": 675
     },
     {
       "epoch": 0.014,
-      "grad_norm": 1.1519407894265516,
       "learning_rate": 1.3980000000000002e-06,
-      "loss": 2.47,
       "step": 700
     },
     {
       "epoch": 0.014,
-      "eval_loss": 2.4779043197631836,
-      "eval_runtime": 32.5852,
-      "eval_samples_per_second": 3.13,
-      "eval_steps_per_second": 1.565,
       "step": 700
     },
     {
       "epoch": 0.0145,
-      "grad_norm": 1.3066599625373616,
       "learning_rate": 1.4480000000000002e-06,
-      "loss": 2.4635,
       "step": 725
     },
     {
       "epoch": 0.015,
-      "grad_norm": 0.9202041250565723,
       "learning_rate": 1.498e-06,
-      "loss": 2.4738,
       "step": 750
     },
     {
       "epoch": 0.0155,
-      "grad_norm": 1.271428818834587,
       "learning_rate": 1.548e-06,
-      "loss": 2.4587,
       "step": 775
     },
     {
       "epoch": 0.016,
-      "grad_norm": 1.124713525693466,
       "learning_rate": 1.5980000000000002e-06,
-      "loss": 2.4683,
       "step": 800
     },
     {
       "epoch": 0.016,
-      "eval_loss": 2.4715065956115723,
-      "eval_runtime": 32.6647,
-      "eval_samples_per_second": 3.123,
-      "eval_steps_per_second": 1.561,
       "step": 800
     },
     {
       "epoch": 0.0165,
-      "grad_norm": 1.3342531101252784,
       "learning_rate": 1.6480000000000001e-06,
-      "loss": 2.4536,
       "step": 825
     },
     {
       "epoch": 0.017,
-      "grad_norm": 1.3387154694191934,
       "learning_rate": 1.6980000000000003e-06,
-      "loss": 2.4652,
       "step": 850
     },
     {
       "epoch": 0.0175,
-      "grad_norm": 1.0351828691489098,
       "learning_rate": 1.7480000000000002e-06,
-      "loss": 2.4607,
       "step": 875
     },
     {
       "epoch": 0.018,
-      "grad_norm": 0.9834835131770852,
       "learning_rate": 1.798e-06,
-      "loss": 2.4433,
       "step": 900
     },
     {
       "epoch": 0.018,
-      "eval_loss": 2.4658470153808594,
-      "eval_runtime": 32.359,
-      "eval_samples_per_second": 3.152,
-      "eval_steps_per_second": 1.576,
       "step": 900
     },
     {
       "epoch": 0.0185,
-      "grad_norm": 1.0228623820072862,
       "learning_rate": 1.8480000000000001e-06,
-      "loss": 2.4615,
       "step": 925
     },
     {
       "epoch": 0.019,
-      "grad_norm": 1.3007839596114972,
       "learning_rate": 1.898e-06,
-      "loss": 2.4651,
       "step": 950
     },
     {
       "epoch": 0.0195,
-      "grad_norm": 1.0925217245981393,
       "learning_rate": 1.9480000000000002e-06,
-      "loss": 2.4581,
       "step": 975
     },
     {
       "epoch": 0.02,
-      "grad_norm": 1.0790549218851497,
       "learning_rate": 1.998e-06,
-      "loss": 2.4509,
       "step": 1000
     },
     {
       "epoch": 0.02,
-      "eval_loss": 2.4606094360351562,
-      "eval_runtime": 32.4413,
-      "eval_samples_per_second": 3.144,
-      "eval_steps_per_second": 1.572,
       "step": 1000
     }
   ],
   "logging_steps": 25,
@@ -387,7 +1467,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.183202298327204e+18,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 4000,
+  "best_metric": 2.4323527812957764,
+  "best_model_checkpoint": "../runs/karpathy/fineweb-edu-100b-shuffle/meta-llama/Llama-3.2-1B/linear_adamw_wd1e-03_8x1024_mem32_bs64_hf_armt_dmem64/run_20/checkpoint-4000",
+  "epoch": 0.08,
   "eval_steps": 100,
+  "global_step": 4000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.0005,
+      "grad_norm": 39.75564521032967,
       "learning_rate": 4.8e-08,
+      "loss": 3.6517,
       "step": 25
     },
     {
       "epoch": 0.001,
+      "grad_norm": 28.937531835097435,
       "learning_rate": 9.8e-08,
+      "loss": 3.5931,
       "step": 50
     },
     {
       "epoch": 0.0015,
+      "grad_norm": 21.922720332659644,
       "learning_rate": 1.4800000000000003e-07,
+      "loss": 3.3397,
       "step": 75
     },
     {
       "epoch": 0.002,
+      "grad_norm": 8.739610199908325,
       "learning_rate": 1.9800000000000003e-07,
+      "loss": 3.1289,
       "step": 100
     },
     {
       "epoch": 0.002,
+      "eval_loss": 2.9243295192718506,
+      "eval_runtime": 264.3302,
+      "eval_samples_per_second": 3.11,
+      "eval_steps_per_second": 1.555,
       "step": 100
     },
     {
       "epoch": 0.0025,
+      "grad_norm": 4.433912600039677,
       "learning_rate": 2.48e-07,
+      "loss": 2.8957,
       "step": 125
     },
     {
       "epoch": 0.003,
+      "grad_norm": 3.2874790066620303,
       "learning_rate": 2.9800000000000005e-07,
+      "loss": 2.763,
       "step": 150
     },
     {
       "epoch": 0.0035,
+      "grad_norm": 1.5203472215469231,
       "learning_rate": 3.48e-07,
+      "loss": 2.676,
       "step": 175
     },
     {
       "epoch": 0.004,
+      "grad_norm": 1.1945541683905954,
       "learning_rate": 3.9800000000000004e-07,
+      "loss": 2.635,
       "step": 200
     },
     {
       "epoch": 0.004,
+      "eval_loss": 2.6094932556152344,
+      "eval_runtime": 265.7702,
+      "eval_samples_per_second": 3.093,
+      "eval_steps_per_second": 1.546,
       "step": 200
     },
     {
       "epoch": 0.0045,
+      "grad_norm": 1.0852713304633745,
       "learning_rate": 4.4800000000000004e-07,
+      "loss": 2.6016,
       "step": 225
     },
     {
       "epoch": 0.005,
+      "grad_norm": 1.0733940346699529,
       "learning_rate": 4.98e-07,
+      "loss": 2.5797,
       "step": 250
     },
     {
       "epoch": 0.0055,
+      "grad_norm": 0.9273949035031271,
       "learning_rate": 5.480000000000001e-07,
+      "loss": 2.5607,
       "step": 275
     },
     {
       "epoch": 0.006,
+      "grad_norm": 0.9289300678591714,
       "learning_rate": 5.98e-07,
+      "loss": 2.552,
       "step": 300
     },
     {
       "epoch": 0.006,
+      "eval_loss": 2.541522264480591,
+      "eval_runtime": 266.7478,
+      "eval_samples_per_second": 3.082,
+      "eval_steps_per_second": 1.541,
       "step": 300
     },
     {
       "epoch": 0.0065,
+      "grad_norm": 1.1328584507449984,
       "learning_rate": 6.48e-07,
+      "loss": 2.5402,
       "step": 325
     },
     {
       "epoch": 0.007,
+      "grad_norm": 0.8593307029257858,
       "learning_rate": 6.98e-07,
+      "loss": 2.5286,
       "step": 350
     },
     {
       "epoch": 0.0075,
+      "grad_norm": 0.895615604067586,
       "learning_rate": 7.480000000000001e-07,
+      "loss": 2.5311,
       "step": 375
     },
     {
       "epoch": 0.008,
+      "grad_norm": 0.912306580242149,
       "learning_rate": 7.98e-07,
+      "loss": 2.5037,
       "step": 400
     },
     {
       "epoch": 0.008,
+      "eval_loss": 2.514389991760254,
+      "eval_runtime": 266.4899,
+      "eval_samples_per_second": 3.085,
+      "eval_steps_per_second": 1.542,
       "step": 400
     },
     {
       "epoch": 0.0085,
+      "grad_norm": 1.1866535514670034,
       "learning_rate": 8.480000000000001e-07,
+      "loss": 2.5011,
       "step": 425
     },
     {
       "epoch": 0.009,
+      "grad_norm": 1.211342504193914,
       "learning_rate": 8.980000000000001e-07,
+      "loss": 2.503,
       "step": 450
     },
     {
       "epoch": 0.0095,
+      "grad_norm": 1.113763817383069,
       "learning_rate": 9.480000000000001e-07,
+      "loss": 2.4999,
       "step": 475
     },
     {
       "epoch": 0.01,
+      "grad_norm": 1.2585585589647226,
       "learning_rate": 9.98e-07,
+      "loss": 2.4872,
       "step": 500
     },
     {
       "epoch": 0.01,
+      "eval_loss": 2.497868061065674,
+      "eval_runtime": 265.7962,
+      "eval_samples_per_second": 3.093,
+      "eval_steps_per_second": 1.546,
       "step": 500
     },
     {
       "epoch": 0.0105,
+      "grad_norm": 1.2585825718084245,
       "learning_rate": 1.0480000000000002e-06,
+      "loss": 2.4852,
       "step": 525
     },
     {
       "epoch": 0.011,
+      "grad_norm": 1.4101257437846046,
       "learning_rate": 1.0980000000000001e-06,
+      "loss": 2.4892,
       "step": 550
     },
     {
       "epoch": 0.0115,
+      "grad_norm": 1.1975234150707363,
       "learning_rate": 1.148e-06,
+      "loss": 2.4861,
       "step": 575
     },
     {
       "epoch": 0.012,
+      "grad_norm": 1.3662769225582332,
       "learning_rate": 1.1980000000000002e-06,
+      "loss": 2.4882,
       "step": 600
     },
     {
       "epoch": 0.012,
+      "eval_loss": 2.4879231452941895,
+      "eval_runtime": 267.0005,
+      "eval_samples_per_second": 3.079,
+      "eval_steps_per_second": 1.539,
       "step": 600
     },
     {
       "epoch": 0.0125,
+      "grad_norm": 1.3086724275194024,
       "learning_rate": 1.248e-06,
+      "loss": 2.4745,
       "step": 625
     },
     {
       "epoch": 0.013,
+      "grad_norm": 1.317023206802888,
       "learning_rate": 1.2980000000000001e-06,
+      "loss": 2.4727,
       "step": 650
     },
     {
       "epoch": 0.0135,
+      "grad_norm": 1.5284967544483212,
       "learning_rate": 1.348e-06,
+      "loss": 2.469,
       "step": 675
     },
     {
       "epoch": 0.014,
+      "grad_norm": 1.1047595217316941,
       "learning_rate": 1.3980000000000002e-06,
+      "loss": 2.4695,
       "step": 700
     },
     {
       "epoch": 0.014,
+      "eval_loss": 2.480103015899658,
+      "eval_runtime": 263.5022,
+      "eval_samples_per_second": 3.12,
+      "eval_steps_per_second": 1.56,
       "step": 700
     },
     {
       "epoch": 0.0145,
+      "grad_norm": 1.2077328209863791,
       "learning_rate": 1.4480000000000002e-06,
+      "loss": 2.4654,
       "step": 725
     },
     {
       "epoch": 0.015,
+      "grad_norm": 1.209220841771836,
       "learning_rate": 1.498e-06,
+      "loss": 2.4663,
       "step": 750
     },
     {
       "epoch": 0.0155,
+      "grad_norm": 1.3063169829879686,
       "learning_rate": 1.548e-06,
+      "loss": 2.4704,
       "step": 775
     },
     {
       "epoch": 0.016,
+      "grad_norm": 1.3180183352683195,
       "learning_rate": 1.5980000000000002e-06,
+      "loss": 2.4583,
       "step": 800
     },
     {
       "epoch": 0.016,
+      "eval_loss": 2.473590850830078,
+      "eval_runtime": 305.9875,
+      "eval_samples_per_second": 2.686,
+      "eval_steps_per_second": 1.343,
       "step": 800
     },
     {
       "epoch": 0.0165,
+      "grad_norm": 1.1674852380778837,
       "learning_rate": 1.6480000000000001e-06,
+      "loss": 2.467,
       "step": 825
     },
     {
       "epoch": 0.017,
+      "grad_norm": 1.2497656349941002,
       "learning_rate": 1.6980000000000003e-06,
+      "loss": 2.4612,
       "step": 850
     },
     {
       "epoch": 0.0175,
+      "grad_norm": 1.3358614980967494,
       "learning_rate": 1.7480000000000002e-06,
+      "loss": 2.4636,
       "step": 875
     },
     {
       "epoch": 0.018,
+      "grad_norm": 1.252489857653356,
       "learning_rate": 1.798e-06,
+      "loss": 2.454,
       "step": 900
     },
     {
       "epoch": 0.018,
+      "eval_loss": 2.4681763648986816,
+      "eval_runtime": 264.702,
+      "eval_samples_per_second": 3.105,
+      "eval_steps_per_second": 1.553,
       "step": 900
     },
     {
       "epoch": 0.0185,
+      "grad_norm": 1.2815437998994337,
       "learning_rate": 1.8480000000000001e-06,
+      "loss": 2.4571,
       "step": 925
     },
     {
       "epoch": 0.019,
+      "grad_norm": 1.0902475329451575,
       "learning_rate": 1.898e-06,
+      "loss": 2.451,
       "step": 950
     },
     {
       "epoch": 0.0195,
+      "grad_norm": 1.1502696024965324,
       "learning_rate": 1.9480000000000002e-06,
+      "loss": 2.4527,
       "step": 975
     },
     {
       "epoch": 0.02,
+      "grad_norm": 1.2336661855806117,
       "learning_rate": 1.998e-06,
+      "loss": 2.4496,
       "step": 1000
     },
     {
       "epoch": 0.02,
+      "eval_loss": 2.463880777359009,
+      "eval_runtime": 275.7426,
+      "eval_samples_per_second": 2.981,
+      "eval_steps_per_second": 1.491,
       "step": 1000
+    },
+    {
+      "epoch": 0.0205,
+      "grad_norm": 1.2680742209094296,
+      "learning_rate": 2.048e-06,
+      "loss": 2.4494,
+      "step": 1025
+    },
+    {
+      "epoch": 0.021,
+      "grad_norm": 1.0341778808278126,
+      "learning_rate": 2.098e-06,
+      "loss": 2.4467,
+      "step": 1050
+    },
+    {
+      "epoch": 0.0215,
+      "grad_norm": 0.9860490736001175,
+      "learning_rate": 2.148e-06,
+      "loss": 2.4473,
+      "step": 1075
+    },
+    {
+      "epoch": 0.022,
+      "grad_norm": 0.9419267295275278,
+      "learning_rate": 2.198e-06,
+      "loss": 2.443,
+      "step": 1100
+    },
+    {
+      "epoch": 0.022,
+      "eval_loss": 2.4598941802978516,
+      "eval_runtime": 265.0502,
+      "eval_samples_per_second": 3.101,
+      "eval_steps_per_second": 1.551,
+      "step": 1100
+    },
+    {
+      "epoch": 0.0225,
+      "grad_norm": 1.3280720471027394,
+      "learning_rate": 2.2480000000000003e-06,
+      "loss": 2.4515,
+      "step": 1125
+    },
+    {
+      "epoch": 0.023,
+      "grad_norm": 1.053570785582915,
+      "learning_rate": 2.2980000000000003e-06,
+      "loss": 2.4396,
+      "step": 1150
+    },
+    {
+      "epoch": 0.0235,
+      "grad_norm": 0.9108119839585552,
+      "learning_rate": 2.3480000000000002e-06,
+      "loss": 2.4442,
+      "step": 1175
+    },
+    {
+      "epoch": 0.024,
+      "grad_norm": 1.0062346367900277,
+      "learning_rate": 2.398e-06,
+      "loss": 2.4443,
+      "step": 1200
+    },
+    {
+      "epoch": 0.024,
+      "eval_loss": 2.456455945968628,
+      "eval_runtime": 264.5888,
+      "eval_samples_per_second": 3.107,
+      "eval_steps_per_second": 1.553,
+      "step": 1200
+    },
+    {
+      "epoch": 0.0245,
+      "grad_norm": 1.0264127705426926,
+      "learning_rate": 2.448e-06,
+      "loss": 2.4351,
+      "step": 1225
+    },
+    {
+      "epoch": 0.025,
+      "grad_norm": 0.8015249588347212,
+      "learning_rate": 2.498e-06,
+      "loss": 2.4406,
+      "step": 1250
+    },
+    {
+      "epoch": 0.0255,
+      "grad_norm": 1.1105649485540114,
+      "learning_rate": 2.5480000000000004e-06,
+      "loss": 2.4377,
+      "step": 1275
+    },
+    {
+      "epoch": 0.026,
+      "grad_norm": 0.9701758426012801,
+      "learning_rate": 2.598e-06,
+      "loss": 2.4341,
+      "step": 1300
+    },
+    {
+      "epoch": 0.026,
+      "eval_loss": 2.453026056289673,
+      "eval_runtime": 264.7653,
+      "eval_samples_per_second": 3.105,
+      "eval_steps_per_second": 1.552,
+      "step": 1300
+    },
+    {
+      "epoch": 0.0265,
+      "grad_norm": 0.9587254891845429,
+      "learning_rate": 2.648e-06,
+      "loss": 2.4303,
+      "step": 1325
+    },
+    {
+      "epoch": 0.027,
+      "grad_norm": 0.8135883960763247,
+      "learning_rate": 2.6980000000000003e-06,
+      "loss": 2.4363,
+      "step": 1350
+    },
+    {
+      "epoch": 0.0275,
+      "grad_norm": 0.9192860127847176,
+      "learning_rate": 2.748e-06,
+      "loss": 2.4257,
+      "step": 1375
+    },
+    {
+      "epoch": 0.028,
+      "grad_norm": 0.947465928893444,
+      "learning_rate": 2.798e-06,
+      "loss": 2.4353,
+      "step": 1400
+    },
+    {
+      "epoch": 0.028,
+      "eval_loss": 2.450345993041992,
+      "eval_runtime": 265.6266,
+      "eval_samples_per_second": 3.095,
+      "eval_steps_per_second": 1.547,
+      "step": 1400
+    },
+    {
+      "epoch": 0.0285,
+      "grad_norm": 0.9270137901066681,
+      "learning_rate": 2.848e-06,
+      "loss": 2.4347,
+      "step": 1425
+    },
+    {
+      "epoch": 0.029,
+      "grad_norm": 0.8839980710491563,
+      "learning_rate": 2.8980000000000005e-06,
+      "loss": 2.4213,
+      "step": 1450
+    },
+    {
+      "epoch": 0.0295,
+      "grad_norm": 0.913196005454606,
+      "learning_rate": 2.9480000000000004e-06,
+      "loss": 2.4232,
+      "step": 1475
+    },
+    {
+      "epoch": 0.03,
+      "grad_norm": 0.8139623858623861,
+      "learning_rate": 2.9980000000000003e-06,
+      "loss": 2.4254,
+      "step": 1500
+    },
+    {
+      "epoch": 0.03,
+      "eval_loss": 2.447662830352783,
+      "eval_runtime": 263.4353,
+      "eval_samples_per_second": 3.12,
+      "eval_steps_per_second": 1.56,
+      "step": 1500
+    },
+    {
+      "epoch": 0.0305,
+      "grad_norm": 0.8422198221554755,
+      "learning_rate": 3.0480000000000003e-06,
+      "loss": 2.4196,
+      "step": 1525
+    },
+    {
+      "epoch": 0.031,
+      "grad_norm": 0.8542957579365906,
+      "learning_rate": 3.0980000000000007e-06,
+      "loss": 2.4294,
+      "step": 1550
+    },
+    {
+      "epoch": 0.0315,
+      "grad_norm": 1.149263137594797,
+      "learning_rate": 3.1480000000000006e-06,
+      "loss": 2.4265,
+      "step": 1575
+    },
+    {
+      "epoch": 0.032,
+      "grad_norm": 0.811470126240392,
+      "learning_rate": 3.198e-06,
+      "loss": 2.4105,
+      "step": 1600
+    },
+    {
+      "epoch": 0.032,
+      "eval_loss": 2.4456679821014404,
+      "eval_runtime": 264.056,
+      "eval_samples_per_second": 3.113,
+      "eval_steps_per_second": 1.556,
+      "step": 1600
+    },
+    {
+      "epoch": 0.0325,
+      "grad_norm": 2.3928975221881434,
+      "learning_rate": 3.248e-06,
+      "loss": 2.4208,
+      "step": 1625
+    },
+    {
+      "epoch": 0.033,
+      "grad_norm": 0.8031315125360012,
+      "learning_rate": 3.298e-06,
+      "loss": 2.4224,
+      "step": 1650
+    },
+    {
+      "epoch": 0.0335,
+      "grad_norm": 0.835567276692195,
+      "learning_rate": 3.348e-06,
+      "loss": 2.4188,
+      "step": 1675
+    },
+    {
+      "epoch": 0.034,
+      "grad_norm": 0.8894325175719718,
+      "learning_rate": 3.3980000000000003e-06,
+      "loss": 2.4206,
+      "step": 1700
+    },
+    {
+      "epoch": 0.034,
+      "eval_loss": 2.4437851905822754,
+      "eval_runtime": 264.6455,
+      "eval_samples_per_second": 3.106,
+      "eval_steps_per_second": 1.553,
+      "step": 1700
+    },
+    {
+      "epoch": 0.0345,
+      "grad_norm": 0.802724390649243,
+      "learning_rate": 3.4480000000000003e-06,
+      "loss": 2.4241,
+      "step": 1725
+    },
+    {
+      "epoch": 0.035,
+      "grad_norm": 0.8206312612014312,
+      "learning_rate": 3.4980000000000002e-06,
+      "loss": 2.4157,
+      "step": 1750
+    },
+    {
+      "epoch": 0.0355,
+      "grad_norm": 0.8653789917535344,
+      "learning_rate": 3.548e-06,
+      "loss": 2.412,
+      "step": 1775
+    },
+    {
+      "epoch": 0.036,
+      "grad_norm": 0.7816319078215015,
+      "learning_rate": 3.5980000000000005e-06,
+      "loss": 2.4179,
+      "step": 1800
+    },
+    {
+      "epoch": 0.036,
+      "eval_loss": 2.4423036575317383,
+      "eval_runtime": 264.5578,
+      "eval_samples_per_second": 3.107,
+      "eval_steps_per_second": 1.554,
+      "step": 1800
+    },
+    {
+      "epoch": 0.0365,
+      "grad_norm": 0.707594544466941,
+      "learning_rate": 3.6480000000000005e-06,
+      "loss": 2.416,
+      "step": 1825
+    },
+    {
+      "epoch": 0.037,
+      "grad_norm": 0.7481066913011816,
+      "learning_rate": 3.6980000000000004e-06,
+      "loss": 2.4242,
+      "step": 1850
+    },
+    {
+      "epoch": 0.0375,
+      "grad_norm": 0.7612014979445353,
+      "learning_rate": 3.7480000000000004e-06,
+      "loss": 2.4173,
+      "step": 1875
+    },
+    {
+      "epoch": 0.038,
+      "grad_norm": 0.772750918048857,
+      "learning_rate": 3.7980000000000007e-06,
+      "loss": 2.4134,
+      "step": 1900
+    },
+    {
+      "epoch": 0.038,
+      "eval_loss": 2.440969228744507,
+      "eval_runtime": 274.3624,
+      "eval_samples_per_second": 2.996,
+      "eval_steps_per_second": 1.498,
+      "step": 1900
+    },
+    {
+      "epoch": 0.0385,
+      "grad_norm": 0.7927966042188935,
+      "learning_rate": 3.848e-06,
+      "loss": 2.4131,
+      "step": 1925
+    },
+    {
+      "epoch": 0.039,
+      "grad_norm": 0.7664274167276341,
+      "learning_rate": 3.898e-06,
+      "loss": 2.4133,
+      "step": 1950
+    },
+    {
+      "epoch": 0.0395,
+      "grad_norm": 0.7038638213491795,
+      "learning_rate": 3.948e-06,
+      "loss": 2.4135,
+      "step": 1975
+    },
+    {
+      "epoch": 0.04,
+      "grad_norm": 0.7231696877425319,
+      "learning_rate": 3.9980000000000005e-06,
+      "loss": 2.4169,
+      "step": 2000
+    },
+    {
+      "epoch": 0.04,
+      "eval_loss": 2.439641237258911,
+      "eval_runtime": 282.4449,
+      "eval_samples_per_second": 2.91,
+      "eval_steps_per_second": 1.455,
+      "step": 2000
+    },
+    {
+      "epoch": 0.0405,
+      "grad_norm": 0.7184393791203537,
+      "learning_rate": 4.048e-06,
+      "loss": 2.4071,
+      "step": 2025
+    },
+    {
+      "epoch": 0.041,
+      "grad_norm": 0.7366813467336683,
+      "learning_rate": 4.098e-06,
+      "loss": 2.4113,
+      "step": 2050
+    },
+    {
+      "epoch": 0.0415,
+      "grad_norm": 0.7081408763220511,
+      "learning_rate": 4.148000000000001e-06,
+      "loss": 2.4168,
+      "step": 2075
+    },
+    {
+      "epoch": 0.042,
+      "grad_norm": 0.6912835983850483,
+      "learning_rate": 4.198e-06,
+      "loss": 2.4105,
+      "step": 2100
+    },
+    {
+      "epoch": 0.042,
+      "eval_loss": 2.438904047012329,
+      "eval_runtime": 277.7481,
+      "eval_samples_per_second": 2.96,
+      "eval_steps_per_second": 1.48,
+      "step": 2100
+    },
+    {
+      "epoch": 0.0425,
+      "grad_norm": 0.7745538733736145,
+      "learning_rate": 4.248000000000001e-06,
+      "loss": 2.4131,
+      "step": 2125
+    },
+    {
+      "epoch": 0.043,
+      "grad_norm": 0.6897576190091962,
+      "learning_rate": 4.298e-06,
+      "loss": 2.4084,
+      "step": 2150
+    },
+    {
+      "epoch": 0.0435,
+      "grad_norm": 0.7020994032566351,
+      "learning_rate": 4.3480000000000006e-06,
+      "loss": 2.4125,
+      "step": 2175
+    },
+    {
+      "epoch": 0.044,
+      "grad_norm": 0.6668651869738377,
+      "learning_rate": 4.398000000000001e-06,
+      "loss": 2.4034,
+      "step": 2200
+    },
+    {
+      "epoch": 0.044,
+      "eval_loss": 2.4380908012390137,
+      "eval_runtime": 268.2252,
+      "eval_samples_per_second": 3.065,
+      "eval_steps_per_second": 1.532,
+      "step": 2200
+    },
+    {
+      "epoch": 0.0445,
+      "grad_norm": 0.6547759047620061,
+      "learning_rate": 4.4480000000000004e-06,
+      "loss": 2.4099,
+      "step": 2225
+    },
+    {
+      "epoch": 0.045,
+      "grad_norm": 0.6865815945777785,
+      "learning_rate": 4.498e-06,
+      "loss": 2.412,
+      "step": 2250
+    },
+    {
+      "epoch": 0.0455,
+      "grad_norm": 0.6878267781655092,
+      "learning_rate": 4.548e-06,
+      "loss": 2.4137,
+      "step": 2275
+    },
+    {
+      "epoch": 0.046,
+      "grad_norm": 0.8314813616644483,
+      "learning_rate": 4.598e-06,
+      "loss": 2.4097,
+      "step": 2300
+    },
+    {
+      "epoch": 0.046,
+      "eval_loss": 2.4374496936798096,
+      "eval_runtime": 263.1701,
+      "eval_samples_per_second": 3.123,
+      "eval_steps_per_second": 1.562,
+      "step": 2300
+    },
+    {
+      "epoch": 0.0465,
+      "grad_norm": 0.6723966792931375,
+      "learning_rate": 4.648e-06,
+      "loss": 2.4051,
+      "step": 2325
+    },
+    {
+      "epoch": 0.047,
+      "grad_norm": 0.7003756914046538,
+      "learning_rate": 4.698000000000001e-06,
+      "loss": 2.4032,
+      "step": 2350
+    },
+    {
+      "epoch": 0.0475,
+      "grad_norm": 0.6747085415631567,
+      "learning_rate": 4.748e-06,
+      "loss": 2.4096,
+      "step": 2375
+    },
+    {
+      "epoch": 0.048,
+      "grad_norm": 0.6571218540079207,
+      "learning_rate": 4.7980000000000005e-06,
+      "loss": 2.4165,
+      "step": 2400
+    },
+    {
+      "epoch": 0.048,
+      "eval_loss": 2.4365923404693604,
+      "eval_runtime": 264.2268,
+      "eval_samples_per_second": 3.111,
+      "eval_steps_per_second": 1.555,
+      "step": 2400
+    },
+    {
+      "epoch": 0.0485,
+      "grad_norm": 0.7464314980483315,
+      "learning_rate": 4.848000000000001e-06,
+      "loss": 2.4098,
+      "step": 2425
+    },
+    {
+      "epoch": 0.049,
+      "grad_norm": 0.6267266619200393,
+      "learning_rate": 4.898e-06,
+      "loss": 2.4019,
+      "step": 2450
+    },
+    {
+      "epoch": 0.0495,
+      "grad_norm": 0.6650772680412506,
+      "learning_rate": 4.948000000000001e-06,
+      "loss": 2.405,
+      "step": 2475
+    },
+    {
+      "epoch": 0.05,
+      "grad_norm": 0.7197173899674899,
+      "learning_rate": 4.998e-06,
+      "loss": 2.4095,
+      "step": 2500
+    },
+    {
+      "epoch": 0.05,
+      "eval_loss": 2.4358348846435547,
+      "eval_runtime": 266.7682,
+      "eval_samples_per_second": 3.081,
+      "eval_steps_per_second": 1.541,
+      "step": 2500
+    },
+    {
+      "epoch": 0.0505,
+      "grad_norm": 0.6249572472256157,
+      "learning_rate": 5.048000000000001e-06,
+      "loss": 2.4058,
+      "step": 2525
+    },
+    {
+      "epoch": 0.051,
+      "grad_norm": 0.7429228032719255,
+      "learning_rate": 5.098000000000001e-06,
+      "loss": 2.4084,
+      "step": 2550
+    },
+    {
+      "epoch": 0.0515,
+      "grad_norm": 0.6320325962693778,
+      "learning_rate": 5.1480000000000005e-06,
+      "loss": 2.4015,
+      "step": 2575
+    },
+    {
+      "epoch": 0.052,
+      "grad_norm": 0.672581755106835,
+      "learning_rate": 5.198000000000001e-06,
+      "loss": 2.4051,
+      "step": 2600
+    },
+    {
+      "epoch": 0.052,
+      "eval_loss": 2.4351842403411865,
+      "eval_runtime": 264.9149,
+      "eval_samples_per_second": 3.103,
+      "eval_steps_per_second": 1.551,
+      "step": 2600
+    },
+    {
+      "epoch": 0.0525,
+      "grad_norm": 0.7086480776921088,
+      "learning_rate": 5.248000000000001e-06,
+      "loss": 2.3988,
+      "step": 2625
+    },
+    {
+      "epoch": 0.053,
+      "grad_norm": 0.6774201154936552,
+      "learning_rate": 5.298000000000001e-06,
+      "loss": 2.394,
+      "step": 2650
+    },
+    {
+      "epoch": 0.0535,
+      "grad_norm": 0.6661104910300973,
+      "learning_rate": 5.348000000000001e-06,
+      "loss": 2.4034,
+      "step": 2675
+    },
+    {
+      "epoch": 0.054,
+      "grad_norm": 0.6224421593448741,
+      "learning_rate": 5.398e-06,
+      "loss": 2.3939,
+      "step": 2700
+    },
+    {
+      "epoch": 0.054,
+      "eval_loss": 2.434826374053955,
+      "eval_runtime": 264.1641,
+      "eval_samples_per_second": 3.112,
+      "eval_steps_per_second": 1.556,
+      "step": 2700
+    },
+    {
+      "epoch": 0.0545,
+      "grad_norm": 0.6944661408419767,
+      "learning_rate": 5.448e-06,
+      "loss": 2.4064,
+      "step": 2725
+    },
+    {
+      "epoch": 0.055,
+      "grad_norm": 0.6597297955298902,
+      "learning_rate": 5.498e-06,
+      "loss": 2.4051,
+      "step": 2750
+    },
+    {
+      "epoch": 0.0555,
+      "grad_norm": 0.6526109506522182,
+      "learning_rate": 5.548e-06,
+      "loss": 2.4124,
+      "step": 2775
+    },
+    {
+      "epoch": 0.056,
+      "grad_norm": 0.6528041780055424,
+      "learning_rate": 5.5980000000000004e-06,
+      "loss": 2.3979,
+      "step": 2800
+    },
+    {
+      "epoch": 0.056,
+      "eval_loss": 2.4344167709350586,
+      "eval_runtime": 264.2924,
+      "eval_samples_per_second": 3.11,
+      "eval_steps_per_second": 1.555,
+      "step": 2800
+    },
+    {
+      "epoch": 0.0565,
+      "grad_norm": 0.7067565611523313,
+      "learning_rate": 5.648e-06,
+      "loss": 2.398,
+      "step": 2825
+    },
+    {
+      "epoch": 0.057,
+      "grad_norm": 0.6416666495903947,
+      "learning_rate": 5.698e-06,
+      "loss": 2.3991,
+      "step": 2850
+    },
+    {
+      "epoch": 0.0575,
+      "grad_norm": 0.6605105424774851,
+      "learning_rate": 5.748e-06,
+      "loss": 2.3962,
+      "step": 2875
+    },
+    {
+      "epoch": 0.058,
+      "grad_norm": 0.6308761264530915,
+      "learning_rate": 5.798e-06,
+      "loss": 2.4058,
+      "step": 2900
+    },
+    {
+      "epoch": 0.058,
+      "eval_loss": 2.434436082839966,
+      "eval_runtime": 265.0112,
+      "eval_samples_per_second": 3.102,
+      "eval_steps_per_second": 1.551,
+      "step": 2900
+    },
+    {
+      "epoch": 0.0585,
+      "grad_norm": 0.6363649329289001,
+      "learning_rate": 5.848000000000001e-06,
+      "loss": 2.3943,
+      "step": 2925
+    },
+    {
+      "epoch": 0.059,
+      "grad_norm": 0.6147983139117156,
+      "learning_rate": 5.898e-06,
+      "loss": 2.3982,
+      "step": 2950
+    },
+    {
+      "epoch": 0.0595,
+      "grad_norm": 0.611354772141602,
+      "learning_rate": 5.9480000000000005e-06,
+      "loss": 2.3921,
+      "step": 2975
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 0.6269054680170398,
+      "learning_rate": 5.998000000000001e-06,
+      "loss": 2.392,
+      "step": 3000
+    },
+    {
+      "epoch": 0.06,
+      "eval_loss": 2.433990955352783,
+      "eval_runtime": 264.2169,
+      "eval_samples_per_second": 3.111,
+      "eval_steps_per_second": 1.556,
+      "step": 3000
+    },
+    {
+      "epoch": 0.0605,
+      "grad_norm": 0.6248207448228328,
+      "learning_rate": 6.048e-06,
+      "loss": 2.3858,
+      "step": 3025
+    },
+    {
+      "epoch": 0.061,
+      "grad_norm": 0.6275258656299642,
+      "learning_rate": 6.098000000000001e-06,
+      "loss": 2.4015,
+      "step": 3050
+    },
+    {
+      "epoch": 0.0615,
+      "grad_norm": 1.0457401571274152,
+      "learning_rate": 6.148e-06,
+      "loss": 2.3909,
+      "step": 3075
+    },
+    {
+      "epoch": 0.062,
+      "grad_norm": 0.6551230863319748,
+      "learning_rate": 6.198000000000001e-06,
+      "loss": 2.3983,
+      "step": 3100
+    },
+    {
+      "epoch": 0.062,
+      "eval_loss": 2.433279275894165,
+      "eval_runtime": 264.1521,
+      "eval_samples_per_second": 3.112,
+      "eval_steps_per_second": 1.556,
+      "step": 3100
+    },
+    {
+      "epoch": 0.0625,
+      "grad_norm": 0.6306746226297937,
+      "learning_rate": 6.248000000000001e-06,
+      "loss": 2.397,
+      "step": 3125
+    },
+    {
+      "epoch": 0.063,
+      "grad_norm": 0.6299802316587856,
+      "learning_rate": 6.2980000000000005e-06,
+      "loss": 2.4018,
+      "step": 3150
+    },
+    {
+      "epoch": 0.0635,
+      "grad_norm": 0.6265424590222634,
+      "learning_rate": 6.348000000000001e-06,
+      "loss": 2.4065,
+      "step": 3175
+    },
+    {
+      "epoch": 0.064,
+      "grad_norm": 0.6717273211615455,
+      "learning_rate": 6.398000000000001e-06,
+      "loss": 2.3906,
+      "step": 3200
+    },
+    {
+      "epoch": 0.064,
+      "eval_loss": 2.4333276748657227,
+      "eval_runtime": 263.9592,
+      "eval_samples_per_second": 3.114,
+      "eval_steps_per_second": 1.557,
+      "step": 3200
+    },
+    {
+      "epoch": 0.0645,
+      "grad_norm": 0.6159924635031793,
+      "learning_rate": 6.448000000000001e-06,
+      "loss": 2.3947,
+      "step": 3225
+    },
+    {
+      "epoch": 0.065,
+      "grad_norm": 0.6124462043712093,
+      "learning_rate": 6.498000000000001e-06,
+      "loss": 2.3963,
+      "step": 3250
+    },
+    {
+      "epoch": 0.0655,
+      "grad_norm": 0.6144378183602921,
+      "learning_rate": 6.548000000000001e-06,
+      "loss": 2.402,
+      "step": 3275
+    },
+    {
+      "epoch": 0.066,
+      "grad_norm": 0.6295732934678283,
+      "learning_rate": 6.598000000000001e-06,
+      "loss": 2.3877,
+      "step": 3300
+    },
+    {
+      "epoch": 0.066,
+      "eval_loss": 2.4331116676330566,
+      "eval_runtime": 263.4524,
+      "eval_samples_per_second": 3.12,
+      "eval_steps_per_second": 1.56,
+      "step": 3300
+    },
+    {
+      "epoch": 0.0665,
+      "grad_norm": 0.5938287129149346,
+      "learning_rate": 6.648e-06,
+      "loss": 2.389,
+      "step": 3325
+    },
+    {
+      "epoch": 0.067,
+      "grad_norm": 0.6194783667871923,
+      "learning_rate": 6.698e-06,
+      "loss": 2.39,
+      "step": 3350
+    },
+    {
+      "epoch": 0.0675,
+      "grad_norm": 0.60927231594853,
+      "learning_rate": 6.7480000000000004e-06,
+      "loss": 2.3968,
+      "step": 3375
+    },
+    {
+      "epoch": 0.068,
+      "grad_norm": 0.6386175333576501,
+      "learning_rate": 6.798e-06,
+      "loss": 2.3861,
+      "step": 3400
+    },
+    {
+      "epoch": 0.068,
+      "eval_loss": 2.4328911304473877,
+      "eval_runtime": 264.2923,
+      "eval_samples_per_second": 3.11,
+      "eval_steps_per_second": 1.555,
+      "step": 3400
+    },
+    {
+      "epoch": 0.0685,
+      "grad_norm": 0.6092295027577579,
+      "learning_rate": 6.848e-06,
+      "loss": 2.3827,
+      "step": 3425
+    },
+    {
+      "epoch": 0.069,
+      "grad_norm": 0.5914846449422462,
+      "learning_rate": 6.898e-06,
+      "loss": 2.3894,
+      "step": 3450
+    },
+    {
+      "epoch": 0.0695,
+      "grad_norm": 0.5927461214526666,
+      "learning_rate": 6.948e-06,
+      "loss": 2.3858,
+      "step": 3475
+    },
+    {
+      "epoch": 0.07,
+      "grad_norm": 0.5992194088197265,
+      "learning_rate": 6.998000000000001e-06,
+      "loss": 2.3941,
+      "step": 3500
+    },
+    {
+      "epoch": 0.07,
+      "eval_loss": 2.432774543762207,
+      "eval_runtime": 263.8546,
+      "eval_samples_per_second": 3.115,
+      "eval_steps_per_second": 1.558,
+      "step": 3500
+    },
+    {
+      "epoch": 0.0705,
+      "grad_norm": 0.6119297158568089,
+      "learning_rate": 7.048e-06,
+      "loss": 2.3897,
+      "step": 3525
+    },
+    {
+      "epoch": 0.071,
+      "grad_norm": 0.6040666217758901,
+      "learning_rate": 7.0980000000000005e-06,
+      "loss": 2.3966,
+      "step": 3550
+    },
+    {
+      "epoch": 0.0715,
+      "grad_norm": 0.6142925813030266,
+      "learning_rate": 7.148000000000001e-06,
+      "loss": 2.3953,
+      "step": 3575
+    },
+    {
+      "epoch": 0.072,
+      "grad_norm": 0.5857079248330344,
+      "learning_rate": 7.198e-06,
+      "loss": 2.3854,
+      "step": 3600
+    },
+    {
+      "epoch": 0.072,
+      "eval_loss": 2.432868719100952,
+      "eval_runtime": 264.1849,
+      "eval_samples_per_second": 3.111,
+      "eval_steps_per_second": 1.556,
+      "step": 3600
+    },
+    {
+      "epoch": 0.0725,
+      "grad_norm": 0.6075613052530382,
+      "learning_rate": 7.248000000000001e-06,
+      "loss": 2.3798,
+      "step": 3625
+    },
+    {
+      "epoch": 0.073,
+      "grad_norm": 0.6146043204282547,
+      "learning_rate": 7.298e-06,
+      "loss": 2.3894,
+      "step": 3650
+    },
+    {
+      "epoch": 0.0735,
+      "grad_norm": 0.613284002341936,
+      "learning_rate": 7.348000000000001e-06,
+      "loss": 2.3897,
+      "step": 3675
+    },
+    {
+      "epoch": 0.074,
+      "grad_norm": 0.6694404263159593,
+      "learning_rate": 7.398000000000001e-06,
+      "loss": 2.3925,
+      "step": 3700
+    },
+    {
+      "epoch": 0.074,
+      "eval_loss": 2.4324021339416504,
+      "eval_runtime": 263.3107,
+      "eval_samples_per_second": 3.122,
+      "eval_steps_per_second": 1.561,
+      "step": 3700
+    },
+    {
+      "epoch": 0.0745,
+      "grad_norm": 0.5756401973694445,
+      "learning_rate": 7.4480000000000005e-06,
+      "loss": 2.3894,
+      "step": 3725
+    },
+    {
+      "epoch": 0.075,
+      "grad_norm": 0.5945783703417461,
+      "learning_rate": 7.498000000000001e-06,
+      "loss": 2.3928,
+      "step": 3750
+    },
+    {
+      "epoch": 0.0755,
+      "grad_norm": 0.5935750222986942,
+      "learning_rate": 7.548000000000001e-06,
+      "loss": 2.3774,
+      "step": 3775
+    },
+    {
+      "epoch": 0.076,
+      "grad_norm": 0.5938734543073783,
+      "learning_rate": 7.598000000000001e-06,
+      "loss": 2.3776,
+      "step": 3800
+    },
+    {
+      "epoch": 0.076,
+      "eval_loss": 2.432751178741455,
+      "eval_runtime": 263.8929,
+      "eval_samples_per_second": 3.115,
+      "eval_steps_per_second": 1.557,
+      "step": 3800
+    },
+    {
+      "epoch": 0.0765,
+      "grad_norm": 0.595820899700728,
+      "learning_rate": 7.648e-06,
+      "loss": 2.3804,
+      "step": 3825
+    },
+    {
+      "epoch": 0.077,
+      "grad_norm": 0.6079304106413467,
+      "learning_rate": 7.698000000000002e-06,
+      "loss": 2.3917,
+      "step": 3850
+    },
+    {
+      "epoch": 0.0775,
+      "grad_norm": 0.6083448146618482,
+      "learning_rate": 7.748000000000001e-06,
+      "loss": 2.3842,
+      "step": 3875
+    },
+    {
+      "epoch": 0.078,
+      "grad_norm": 0.6128893415605828,
+      "learning_rate": 7.798e-06,
+      "loss": 2.3806,
+      "step": 3900
+    },
+    {
+      "epoch": 0.078,
+      "eval_loss": 2.4325239658355713,
+      "eval_runtime": 263.6693,
+      "eval_samples_per_second": 3.118,
+      "eval_steps_per_second": 1.559,
+      "step": 3900
+    },
+    {
+      "epoch": 0.0785,
+      "grad_norm": 0.6079041195191952,
+      "learning_rate": 7.848000000000002e-06,
+      "loss": 2.3801,
+      "step": 3925
+    },
+    {
+      "epoch": 0.079,
+      "grad_norm": 0.6075689821557235,
+      "learning_rate": 7.898e-06,
+      "loss": 2.3797,
+      "step": 3950
+    },
+    {
+      "epoch": 0.0795,
+      "grad_norm": 0.5882326737716994,
+      "learning_rate": 7.948e-06,
+      "loss": 2.3905,
+      "step": 3975
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 0.5828476462223788,
+      "learning_rate": 7.998e-06,
+      "loss": 2.3806,
+      "step": 4000
+    },
+    {
+      "epoch": 0.08,
+      "eval_loss": 2.4323527812957764,
+      "eval_runtime": 263.9786,
+      "eval_samples_per_second": 3.114,
+      "eval_steps_per_second": 1.557,
+      "step": 4000
     }
   ],
   "logging_steps": 25,
       "attributes": {}
     }
   },
+  "total_flos": 1.2732809193308815e+19,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null