diff --git "a/trainer_state.json" "b/trainer_state.json"
new file mode 100644--- /dev/null
+++ "b/trainer_state.json"
@@ -0,0 +1,12034 @@
+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.07998080460689434,
+  "eval_steps": 500,
+  "global_step": 1000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 7.998080460689434e-05,
+      "grad_norm": 1.038775086402893,
+      "learning_rate": 0.0,
+      "loss": 1.6057,
+      "memory/device_reserved (GiB)": 69.76,
+      "memory/max_active (GiB)": 65.79,
+      "memory/max_allocated (GiB)": 65.79,
+      "step": 1,
+      "tokens_per_second_per_gpu": 1277.91,
+      "total_tokens": 25611
+    },
+    {
+      "epoch": 0.00015996160921378868,
+      "grad_norm": 1.098587155342102,
+      "learning_rate": 2.0000000000000002e-07,
+      "loss": 1.6297,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 2,
+      "tokens_per_second_per_gpu": 16977.66,
+      "total_tokens": 50942
+    },
+    {
+      "epoch": 0.00023994241382068303,
+      "grad_norm": 0.975591242313385,
+      "learning_rate": 4.0000000000000003e-07,
+      "loss": 1.5663,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 3,
+      "tokens_per_second_per_gpu": 17162.2,
+      "total_tokens": 76956
+    },
+    {
+      "epoch": 0.00031992321842757736,
+      "grad_norm": 1.0335264205932617,
+      "learning_rate": 6.000000000000001e-07,
+      "loss": 1.5648,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 4,
+      "tokens_per_second_per_gpu": 17404.84,
+      "total_tokens": 102664
+    },
+    {
+      "epoch": 0.0003999040230344717,
+      "grad_norm": 1.0145632028579712,
+      "learning_rate": 8.000000000000001e-07,
+      "loss": 1.5456,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 5,
+      "tokens_per_second_per_gpu": 16790.34,
+      "total_tokens": 128081
+    },
+    {
+      "epoch": 0.00047988482764136606,
+      "grad_norm": 1.065081000328064,
+      "learning_rate": 1.0000000000000002e-06,
+      "loss": 1.6122,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 6,
+      "tokens_per_second_per_gpu": 16943.09,
+      "total_tokens": 153326
+    },
+    {
+      "epoch": 0.0005598656322482605,
+      "grad_norm": 1.0195869207382202,
+      "learning_rate": 1.2000000000000002e-06,
+      "loss": 1.5448,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 7,
+      "tokens_per_second_per_gpu": 16990.25,
+      "total_tokens": 179126
+    },
+    {
+      "epoch": 0.0006398464368551547,
+      "grad_norm": 1.109100580215454,
+      "learning_rate": 1.4000000000000001e-06,
+      "loss": 1.5649,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 8,
+      "tokens_per_second_per_gpu": 16858.03,
+      "total_tokens": 204206
+    },
+    {
+      "epoch": 0.0007198272414620491,
+      "grad_norm": 1.0833709239959717,
+      "learning_rate": 1.6000000000000001e-06,
+      "loss": 1.6006,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 9,
+      "tokens_per_second_per_gpu": 16988.61,
+      "total_tokens": 229672
+    },
+    {
+      "epoch": 0.0007998080460689434,
+      "grad_norm": 1.0193920135498047,
+      "learning_rate": 1.8000000000000001e-06,
+      "loss": 1.6112,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 10,
+      "tokens_per_second_per_gpu": 16988.44,
+      "total_tokens": 255388
+    },
+    {
+      "epoch": 0.0008797888506758378,
+      "grad_norm": 0.9576646685600281,
+      "learning_rate": 2.0000000000000003e-06,
+      "loss": 1.5652,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 11,
+      "tokens_per_second_per_gpu": 17429.3,
+      "total_tokens": 281853
+    },
+    {
+      "epoch": 0.0009597696552827321,
+      "grad_norm": 1.0531549453735352,
+      "learning_rate": 2.2e-06,
+      "loss": 1.561,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 12,
+      "tokens_per_second_per_gpu": 17523.77,
+      "total_tokens": 307711
+    },
+    {
+      "epoch": 0.0010397504598896265,
+      "grad_norm": 0.9403714537620544,
+      "learning_rate": 2.4000000000000003e-06,
+      "loss": 1.4986,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 13,
+      "tokens_per_second_per_gpu": 17242.09,
+      "total_tokens": 333825
+    },
+    {
+      "epoch": 0.001119731264496521,
+      "grad_norm": 1.0354647636413574,
+      "learning_rate": 2.6e-06,
+      "loss": 1.503,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 14,
+      "tokens_per_second_per_gpu": 17361.34,
+      "total_tokens": 359895
+    },
+    {
+      "epoch": 0.0011997120691034152,
+      "grad_norm": 1.0876542329788208,
+      "learning_rate": 2.8000000000000003e-06,
+      "loss": 1.5442,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 15,
+      "tokens_per_second_per_gpu": 16605.41,
+      "total_tokens": 384593
+    },
+    {
+      "epoch": 0.0012796928737103094,
+      "grad_norm": 1.1391915082931519,
+      "learning_rate": 3e-06,
+      "loss": 1.5995,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 16,
+      "tokens_per_second_per_gpu": 16636.62,
+      "total_tokens": 409373
+    },
+    {
+      "epoch": 0.0013596736783172039,
+      "grad_norm": 0.9413732290267944,
+      "learning_rate": 3.2000000000000003e-06,
+      "loss": 1.5109,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 17,
+      "tokens_per_second_per_gpu": 17460.95,
+      "total_tokens": 435918
+    },
+    {
+      "epoch": 0.0014396544829240981,
+      "grad_norm": 1.0454152822494507,
+      "learning_rate": 3.4000000000000005e-06,
+      "loss": 1.5649,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 18,
+      "tokens_per_second_per_gpu": 16992.1,
+      "total_tokens": 461473
+    },
+    {
+      "epoch": 0.0015196352875309926,
+      "grad_norm": 1.039425253868103,
+      "learning_rate": 3.6000000000000003e-06,
+      "loss": 1.5598,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 19,
+      "tokens_per_second_per_gpu": 17610.58,
+      "total_tokens": 487930
+    },
+    {
+      "epoch": 0.0015996160921378868,
+      "grad_norm": 1.0049670934677124,
+      "learning_rate": 3.8000000000000005e-06,
+      "loss": 1.5424,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 20,
+      "tokens_per_second_per_gpu": 17135.21,
+      "total_tokens": 513747
+    },
+    {
+      "epoch": 0.0016795968967447813,
+      "grad_norm": 1.077114462852478,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 1.5031,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 21,
+      "tokens_per_second_per_gpu": 16893.74,
+      "total_tokens": 538891
+    },
+    {
+      "epoch": 0.0017595777013516755,
+      "grad_norm": 1.0136423110961914,
+      "learning_rate": 4.2000000000000004e-06,
+      "loss": 1.5642,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 22,
+      "tokens_per_second_per_gpu": 17259.47,
+      "total_tokens": 565110
+    },
+    {
+      "epoch": 0.00183955850595857,
+      "grad_norm": 1.0550577640533447,
+      "learning_rate": 4.4e-06,
+      "loss": 1.5313,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 23,
+      "tokens_per_second_per_gpu": 16961.68,
+      "total_tokens": 590711
+    },
+    {
+      "epoch": 0.0019195393105654642,
+      "grad_norm": 1.0451573133468628,
+      "learning_rate": 4.600000000000001e-06,
+      "loss": 1.543,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 24,
+      "tokens_per_second_per_gpu": 16893.58,
+      "total_tokens": 616331
+    },
+    {
+      "epoch": 0.0019995201151723585,
+      "grad_norm": 1.1151784658432007,
+      "learning_rate": 4.800000000000001e-06,
+      "loss": 1.5585,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 25,
+      "tokens_per_second_per_gpu": 16911.88,
+      "total_tokens": 641401
+    },
+    {
+      "epoch": 0.002079500919779253,
+      "grad_norm": 1.0715839862823486,
+      "learning_rate": 5e-06,
+      "loss": 1.5898,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 26,
+      "tokens_per_second_per_gpu": 16957.69,
+      "total_tokens": 667117
+    },
+    {
+      "epoch": 0.0021594817243861474,
+      "grad_norm": 1.049048900604248,
+      "learning_rate": 5.2e-06,
+      "loss": 1.5229,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 27,
+      "tokens_per_second_per_gpu": 17196.54,
+      "total_tokens": 693040
+    },
+    {
+      "epoch": 0.002239462528993042,
+      "grad_norm": 1.128364086151123,
+      "learning_rate": 5.400000000000001e-06,
+      "loss": 1.5577,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 28,
+      "tokens_per_second_per_gpu": 16501.39,
+      "total_tokens": 717589
+    },
+    {
+      "epoch": 0.002319443333599936,
+      "grad_norm": 1.0650986433029175,
+      "learning_rate": 5.600000000000001e-06,
+      "loss": 1.5394,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 29,
+      "tokens_per_second_per_gpu": 16990.67,
+      "total_tokens": 743423
+    },
+    {
+      "epoch": 0.0023994241382068304,
+      "grad_norm": 1.0103224515914917,
+      "learning_rate": 5.8e-06,
+      "loss": 1.4581,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 30,
+      "tokens_per_second_per_gpu": 17264.37,
+      "total_tokens": 769708
+    },
+    {
+      "epoch": 0.002479404942813725,
+      "grad_norm": 1.074812650680542,
+      "learning_rate": 6e-06,
+      "loss": 1.5418,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 31,
+      "tokens_per_second_per_gpu": 16900.72,
+      "total_tokens": 794946
+    },
+    {
+      "epoch": 0.002559385747420619,
+      "grad_norm": 1.1037012338638306,
+      "learning_rate": 6.200000000000001e-06,
+      "loss": 1.554,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 32,
+      "tokens_per_second_per_gpu": 17437.47,
+      "total_tokens": 821006
+    },
+    {
+      "epoch": 0.0026393665520275133,
+      "grad_norm": 1.056754469871521,
+      "learning_rate": 6.4000000000000006e-06,
+      "loss": 1.5,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 33,
+      "tokens_per_second_per_gpu": 16929.32,
+      "total_tokens": 846649
+    },
+    {
+      "epoch": 0.0027193473566344078,
+      "grad_norm": 0.9937567710876465,
+      "learning_rate": 6.600000000000001e-06,
+      "loss": 1.5208,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 34,
+      "tokens_per_second_per_gpu": 17016.45,
+      "total_tokens": 872946
+    },
+    {
+      "epoch": 0.0027993281612413022,
+      "grad_norm": 0.997081458568573,
+      "learning_rate": 6.800000000000001e-06,
+      "loss": 1.4191,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 35,
+      "tokens_per_second_per_gpu": 17202.72,
+      "total_tokens": 899114
+    },
+    {
+      "epoch": 0.0028793089658481963,
+      "grad_norm": 1.0784165859222412,
+      "learning_rate": 7e-06,
+      "loss": 1.4787,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 36,
+      "tokens_per_second_per_gpu": 17030.42,
+      "total_tokens": 924446
+    },
+    {
+      "epoch": 0.0029592897704550907,
+      "grad_norm": 1.1074408292770386,
+      "learning_rate": 7.2000000000000005e-06,
+      "loss": 1.5245,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 37,
+      "tokens_per_second_per_gpu": 17583.74,
+      "total_tokens": 950398
+    },
+    {
+      "epoch": 0.003039270575061985,
+      "grad_norm": 1.0375193357467651,
+      "learning_rate": 7.4e-06,
+      "loss": 1.4235,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 38,
+      "tokens_per_second_per_gpu": 16790.68,
+      "total_tokens": 975601
+    },
+    {
+      "epoch": 0.0031192513796688796,
+      "grad_norm": 1.0000883340835571,
+      "learning_rate": 7.600000000000001e-06,
+      "loss": 1.4206,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 39,
+      "tokens_per_second_per_gpu": 16934.89,
+      "total_tokens": 1000972
+    },
+    {
+      "epoch": 0.0031992321842757737,
+      "grad_norm": 1.0457230806350708,
+      "learning_rate": 7.800000000000002e-06,
+      "loss": 1.4411,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 40,
+      "tokens_per_second_per_gpu": 14105.13,
+      "total_tokens": 1026771
+    },
+    {
+      "epoch": 0.003279212988882668,
+      "grad_norm": 0.9556184411048889,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 1.4376,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 41,
+      "tokens_per_second_per_gpu": 17975.2,
+      "total_tokens": 1053835
+    },
+    {
+      "epoch": 0.0033591937934895626,
+      "grad_norm": 1.1289631128311157,
+      "learning_rate": 8.2e-06,
+      "loss": 1.4106,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 42,
+      "tokens_per_second_per_gpu": 16485.8,
+      "total_tokens": 1077561
+    },
+    {
+      "epoch": 0.003439174598096457,
+      "grad_norm": 0.9723970293998718,
+      "learning_rate": 8.400000000000001e-06,
+      "loss": 1.4078,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 43,
+      "tokens_per_second_per_gpu": 16537.68,
+      "total_tokens": 1102268
+    },
+    {
+      "epoch": 0.003519155402703351,
+      "grad_norm": 1.06087327003479,
+      "learning_rate": 8.6e-06,
+      "loss": 1.4605,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 44,
+      "tokens_per_second_per_gpu": 16487.1,
+      "total_tokens": 1126547
+    },
+    {
+      "epoch": 0.0035991362073102455,
+      "grad_norm": 0.8268716931343079,
+      "learning_rate": 8.8e-06,
+      "loss": 1.3048,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 45,
+      "tokens_per_second_per_gpu": 17013.09,
+      "total_tokens": 1152320
+    },
+    {
+      "epoch": 0.00367911701191714,
+      "grad_norm": 0.923682451248169,
+      "learning_rate": 9e-06,
+      "loss": 1.3843,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 46,
+      "tokens_per_second_per_gpu": 16652.7,
+      "total_tokens": 1177368
+    },
+    {
+      "epoch": 0.003759097816524034,
+      "grad_norm": 0.8878368139266968,
+      "learning_rate": 9.200000000000002e-06,
+      "loss": 1.3663,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 47,
+      "tokens_per_second_per_gpu": 16533.02,
+      "total_tokens": 1202165
+    },
+    {
+      "epoch": 0.0038390786211309285,
+      "grad_norm": 0.9188768267631531,
+      "learning_rate": 9.4e-06,
+      "loss": 1.4352,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 48,
+      "tokens_per_second_per_gpu": 17016.3,
+      "total_tokens": 1226827
+    },
+    {
+      "epoch": 0.0039190594257378225,
+      "grad_norm": 0.8016843795776367,
+      "learning_rate": 9.600000000000001e-06,
+      "loss": 1.3324,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 49,
+      "tokens_per_second_per_gpu": 17175.21,
+      "total_tokens": 1252015
+    },
+    {
+      "epoch": 0.003999040230344717,
+      "grad_norm": 0.8222874999046326,
+      "learning_rate": 9.800000000000001e-06,
+      "loss": 1.3224,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 50,
+      "tokens_per_second_per_gpu": 16548.61,
+      "total_tokens": 1276515
+    },
+    {
+      "epoch": 0.004079021034951611,
+      "grad_norm": 0.6688214540481567,
+      "learning_rate": 1e-05,
+      "loss": 1.2844,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 51,
+      "tokens_per_second_per_gpu": 17318.33,
+      "total_tokens": 1302842
+    },
+    {
+      "epoch": 0.004159001839558506,
+      "grad_norm": 0.6350716352462769,
+      "learning_rate": 1.02e-05,
+      "loss": 1.2481,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 52,
+      "tokens_per_second_per_gpu": 17270.15,
+      "total_tokens": 1329409
+    },
+    {
+      "epoch": 0.0042389826441654,
+      "grad_norm": 0.7399108409881592,
+      "learning_rate": 1.04e-05,
+      "loss": 1.3018,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 53,
+      "tokens_per_second_per_gpu": 16473.95,
+      "total_tokens": 1353912
+    },
+    {
+      "epoch": 0.004318963448772295,
+      "grad_norm": 0.6630793809890747,
+      "learning_rate": 1.0600000000000002e-05,
+      "loss": 1.1977,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 54,
+      "tokens_per_second_per_gpu": 16858.54,
+      "total_tokens": 1379028
+    },
+    {
+      "epoch": 0.004398944253379189,
+      "grad_norm": 0.58243727684021,
+      "learning_rate": 1.0800000000000002e-05,
+      "loss": 1.3015,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 55,
+      "tokens_per_second_per_gpu": 17335.57,
+      "total_tokens": 1405227
+    },
+    {
+      "epoch": 0.004478925057986084,
+      "grad_norm": 0.5659134984016418,
+      "learning_rate": 1.1000000000000001e-05,
+      "loss": 1.2674,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 56,
+      "tokens_per_second_per_gpu": 17241.25,
+      "total_tokens": 1430933
+    },
+    {
+      "epoch": 0.004558905862592977,
+      "grad_norm": 0.5408620238304138,
+      "learning_rate": 1.1200000000000001e-05,
+      "loss": 1.2374,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 57,
+      "tokens_per_second_per_gpu": 17259.68,
+      "total_tokens": 1456689
+    },
+    {
+      "epoch": 0.004638886667199872,
+      "grad_norm": 0.49004459381103516,
+      "learning_rate": 1.14e-05,
+      "loss": 1.25,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 58,
+      "tokens_per_second_per_gpu": 16924.62,
+      "total_tokens": 1482624
+    },
+    {
+      "epoch": 0.004718867471806766,
+      "grad_norm": 0.5233814716339111,
+      "learning_rate": 1.16e-05,
+      "loss": 1.1618,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 59,
+      "tokens_per_second_per_gpu": 16820.35,
+      "total_tokens": 1507637
+    },
+    {
+      "epoch": 0.004798848276413661,
+      "grad_norm": 0.4358421266078949,
+      "learning_rate": 1.18e-05,
+      "loss": 1.2003,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 60,
+      "tokens_per_second_per_gpu": 17670.45,
+      "total_tokens": 1534597
+    },
+    {
+      "epoch": 0.004878829081020555,
+      "grad_norm": 0.44443076848983765,
+      "learning_rate": 1.2e-05,
+      "loss": 1.2287,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 61,
+      "tokens_per_second_per_gpu": 16846.22,
+      "total_tokens": 1559749
+    },
+    {
+      "epoch": 0.00495880988562745,
+      "grad_norm": 0.39861562848091125,
+      "learning_rate": 1.22e-05,
+      "loss": 1.1572,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 62,
+      "tokens_per_second_per_gpu": 17121.54,
+      "total_tokens": 1585882
+    },
+    {
+      "epoch": 0.005038790690234344,
+      "grad_norm": 0.4339846968650818,
+      "learning_rate": 1.2400000000000002e-05,
+      "loss": 1.2128,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 63,
+      "tokens_per_second_per_gpu": 16583.88,
+      "total_tokens": 1610180
+    },
+    {
+      "epoch": 0.005118771494841238,
+      "grad_norm": 0.35104724764823914,
+      "learning_rate": 1.2600000000000001e-05,
+      "loss": 1.0974,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 64,
+      "tokens_per_second_per_gpu": 17028.21,
+      "total_tokens": 1636105
+    },
+    {
+      "epoch": 0.005198752299448132,
+      "grad_norm": 0.3317544162273407,
+      "learning_rate": 1.2800000000000001e-05,
+      "loss": 1.1286,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 65,
+      "tokens_per_second_per_gpu": 17131.02,
+      "total_tokens": 1661802
+    },
+    {
+      "epoch": 0.005278733104055027,
+      "grad_norm": 0.32120752334594727,
+      "learning_rate": 1.3000000000000001e-05,
+      "loss": 1.1658,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 66,
+      "tokens_per_second_per_gpu": 17810.85,
+      "total_tokens": 1688553
+    },
+    {
+      "epoch": 0.005358713908661921,
+      "grad_norm": 0.30699560046195984,
+      "learning_rate": 1.3200000000000002e-05,
+      "loss": 1.1215,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 67,
+      "tokens_per_second_per_gpu": 17086.6,
+      "total_tokens": 1714293
+    },
+    {
+      "epoch": 0.0054386947132688155,
+      "grad_norm": 0.31427061557769775,
+      "learning_rate": 1.3400000000000002e-05,
+      "loss": 1.2197,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 68,
+      "tokens_per_second_per_gpu": 17286.05,
+      "total_tokens": 1740245
+    },
+    {
+      "epoch": 0.00551867551787571,
+      "grad_norm": 0.3120593726634979,
+      "learning_rate": 1.3600000000000002e-05,
+      "loss": 1.1437,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 69,
+      "tokens_per_second_per_gpu": 16364.4,
+      "total_tokens": 1764643
+    },
+    {
+      "epoch": 0.0055986563224826045,
+      "grad_norm": 0.27037009596824646,
+      "learning_rate": 1.38e-05,
+      "loss": 1.1268,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 70,
+      "tokens_per_second_per_gpu": 16857.39,
+      "total_tokens": 1790305
+    },
+    {
+      "epoch": 0.005678637127089499,
+      "grad_norm": 0.30426427721977234,
+      "learning_rate": 1.4e-05,
+      "loss": 1.1735,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 71,
+      "tokens_per_second_per_gpu": 16563.03,
+      "total_tokens": 1814880
+    },
+    {
+      "epoch": 0.0057586179316963925,
+      "grad_norm": 0.2649443745613098,
+      "learning_rate": 1.4200000000000001e-05,
+      "loss": 1.1177,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 72,
+      "tokens_per_second_per_gpu": 17367.91,
+      "total_tokens": 1840810
+    },
+    {
+      "epoch": 0.005838598736303287,
+      "grad_norm": 0.253825843334198,
+      "learning_rate": 1.4400000000000001e-05,
+      "loss": 1.144,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 73,
+      "tokens_per_second_per_gpu": 16918.97,
+      "total_tokens": 1866252
+    },
+    {
+      "epoch": 0.005918579540910181,
+      "grad_norm": 0.2598889172077179,
+      "learning_rate": 1.46e-05,
+      "loss": 1.1142,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 74,
+      "tokens_per_second_per_gpu": 17104.53,
+      "total_tokens": 1892027
+    },
+    {
+      "epoch": 0.005998560345517076,
+      "grad_norm": 0.2475835680961609,
+      "learning_rate": 1.48e-05,
+      "loss": 1.0584,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 75,
+      "tokens_per_second_per_gpu": 16580.5,
+      "total_tokens": 1916988
+    },
+    {
+      "epoch": 0.00607854115012397,
+      "grad_norm": 0.25065016746520996,
+      "learning_rate": 1.5000000000000002e-05,
+      "loss": 1.1627,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 76,
+      "tokens_per_second_per_gpu": 17326.24,
+      "total_tokens": 1943188
+    },
+    {
+      "epoch": 0.006158521954730865,
+      "grad_norm": 0.23243308067321777,
+      "learning_rate": 1.5200000000000002e-05,
+      "loss": 1.1042,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 77,
+      "tokens_per_second_per_gpu": 17705.83,
+      "total_tokens": 1970033
+    },
+    {
+      "epoch": 0.006238502759337759,
+      "grad_norm": 0.22412195801734924,
+      "learning_rate": 1.54e-05,
+      "loss": 1.1211,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 78,
+      "tokens_per_second_per_gpu": 17159.33,
+      "total_tokens": 1996140
+    },
+    {
+      "epoch": 0.006318483563944653,
+      "grad_norm": 0.23629942536354065,
+      "learning_rate": 1.5600000000000003e-05,
+      "loss": 1.1115,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 79,
+      "tokens_per_second_per_gpu": 17352.1,
+      "total_tokens": 2022475
+    },
+    {
+      "epoch": 0.006398464368551547,
+      "grad_norm": 0.24803169071674347,
+      "learning_rate": 1.58e-05,
+      "loss": 1.0912,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 80,
+      "tokens_per_second_per_gpu": 17005.04,
+      "total_tokens": 2048082
+    },
+    {
+      "epoch": 0.006478445173158442,
+      "grad_norm": 0.24923603236675262,
+      "learning_rate": 1.6000000000000003e-05,
+      "loss": 1.1203,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 81,
+      "tokens_per_second_per_gpu": 17025.63,
+      "total_tokens": 2073687
+    },
+    {
+      "epoch": 0.006558425977765336,
+      "grad_norm": 0.22304023802280426,
+      "learning_rate": 1.62e-05,
+      "loss": 1.083,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 82,
+      "tokens_per_second_per_gpu": 17159.24,
+      "total_tokens": 2098948
+    },
+    {
+      "epoch": 0.006638406782372231,
+      "grad_norm": 0.21665704250335693,
+      "learning_rate": 1.64e-05,
+      "loss": 1.091,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 83,
+      "tokens_per_second_per_gpu": 16997.08,
+      "total_tokens": 2125027
+    },
+    {
+      "epoch": 0.006718387586979125,
+      "grad_norm": 0.24451886117458344,
+      "learning_rate": 1.66e-05,
+      "loss": 1.1218,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 84,
+      "tokens_per_second_per_gpu": 17150.21,
+      "total_tokens": 2150829
+    },
+    {
+      "epoch": 0.00679836839158602,
+      "grad_norm": 0.23331356048583984,
+      "learning_rate": 1.6800000000000002e-05,
+      "loss": 1.1073,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 85,
+      "tokens_per_second_per_gpu": 16603.59,
+      "total_tokens": 2175685
+    },
+    {
+      "epoch": 0.006878349196192914,
+      "grad_norm": 0.21449171006679535,
+      "learning_rate": 1.7e-05,
+      "loss": 1.026,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 86,
+      "tokens_per_second_per_gpu": 16826.79,
+      "total_tokens": 2200963
+    },
+    {
+      "epoch": 0.006958330000799808,
+      "grad_norm": 0.22198700904846191,
+      "learning_rate": 1.72e-05,
+      "loss": 1.0516,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 87,
+      "tokens_per_second_per_gpu": 16907.11,
+      "total_tokens": 2226251
+    },
+    {
+      "epoch": 0.007038310805406702,
+      "grad_norm": 0.21258434653282166,
+      "learning_rate": 1.7400000000000003e-05,
+      "loss": 1.0373,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 88,
+      "tokens_per_second_per_gpu": 16928.44,
+      "total_tokens": 2251330
+    },
+    {
+      "epoch": 0.007118291610013597,
+      "grad_norm": 0.21518750488758087,
+      "learning_rate": 1.76e-05,
+      "loss": 1.0988,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 89,
+      "tokens_per_second_per_gpu": 16589.13,
+      "total_tokens": 2276301
+    },
+    {
+      "epoch": 0.007198272414620491,
+      "grad_norm": 0.20537728071212769,
+      "learning_rate": 1.7800000000000002e-05,
+      "loss": 1.0329,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 90,
+      "tokens_per_second_per_gpu": 17318.88,
+      "total_tokens": 2303225
+    },
+    {
+      "epoch": 0.0072782532192273855,
+      "grad_norm": 0.20714648067951202,
+      "learning_rate": 1.8e-05,
+      "loss": 1.0602,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 91,
+      "tokens_per_second_per_gpu": 16719.92,
+      "total_tokens": 2328769
+    },
+    {
+      "epoch": 0.00735823402383428,
+      "grad_norm": 0.1941813975572586,
+      "learning_rate": 1.8200000000000002e-05,
+      "loss": 0.9607,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 92,
+      "tokens_per_second_per_gpu": 17066.42,
+      "total_tokens": 2354588
+    },
+    {
+      "epoch": 0.0074382148284411745,
+      "grad_norm": 0.21113121509552002,
+      "learning_rate": 1.8400000000000003e-05,
+      "loss": 1.0515,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 93,
+      "tokens_per_second_per_gpu": 16788.91,
+      "total_tokens": 2379900
+    },
+    {
+      "epoch": 0.007518195633048068,
+      "grad_norm": 0.21530379354953766,
+      "learning_rate": 1.86e-05,
+      "loss": 1.0066,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 94,
+      "tokens_per_second_per_gpu": 17013.31,
+      "total_tokens": 2405023
+    },
+    {
+      "epoch": 0.0075981764376549625,
+      "grad_norm": 0.19766011834144592,
+      "learning_rate": 1.88e-05,
+      "loss": 1.059,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 95,
+      "tokens_per_second_per_gpu": 17033.56,
+      "total_tokens": 2430914
+    },
+    {
+      "epoch": 0.007678157242261857,
+      "grad_norm": 0.21232014894485474,
+      "learning_rate": 1.9e-05,
+      "loss": 1.0619,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 96,
+      "tokens_per_second_per_gpu": 17229.84,
+      "total_tokens": 2456462
+    },
+    {
+      "epoch": 0.007758138046868751,
+      "grad_norm": 0.20775918662548065,
+      "learning_rate": 1.9200000000000003e-05,
+      "loss": 1.0754,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 97,
+      "tokens_per_second_per_gpu": 17206.74,
+      "total_tokens": 2482593
+    },
+    {
+      "epoch": 0.007838118851475645,
+      "grad_norm": 0.19987605512142181,
+      "learning_rate": 1.94e-05,
+      "loss": 0.9953,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 98,
+      "tokens_per_second_per_gpu": 16420.21,
+      "total_tokens": 2507351
+    },
+    {
+      "epoch": 0.00791809965608254,
+      "grad_norm": 0.2022673338651657,
+      "learning_rate": 1.9600000000000002e-05,
+      "loss": 1.0519,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 99,
+      "tokens_per_second_per_gpu": 17355.34,
+      "total_tokens": 2533599
+    },
+    {
+      "epoch": 0.007998080460689434,
+      "grad_norm": 0.20371320843696594,
+      "learning_rate": 1.98e-05,
+      "loss": 1.0564,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 100,
+      "tokens_per_second_per_gpu": 16927.47,
+      "total_tokens": 2558539
+    },
+    {
+      "epoch": 0.00807806126529633,
+      "grad_norm": 0.200734481215477,
+      "learning_rate": 2e-05,
+      "loss": 0.9858,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 101,
+      "tokens_per_second_per_gpu": 16636.02,
+      "total_tokens": 2583353
+    },
+    {
+      "epoch": 0.008158042069903223,
+      "grad_norm": 0.20651081204414368,
+      "learning_rate": 1.9999939076577906e-05,
+      "loss": 1.0509,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 102,
+      "tokens_per_second_per_gpu": 16987.8,
+      "total_tokens": 2608864
+    },
+    {
+      "epoch": 0.008238022874510118,
+      "grad_norm": 0.1920926421880722,
+      "learning_rate": 1.9999756307053947e-05,
+      "loss": 0.9654,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 103,
+      "tokens_per_second_per_gpu": 16783.27,
+      "total_tokens": 2634375
+    },
+    {
+      "epoch": 0.008318003679117012,
+      "grad_norm": 0.19755157828330994,
+      "learning_rate": 1.9999451693655125e-05,
+      "loss": 0.9866,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 104,
+      "tokens_per_second_per_gpu": 17391.35,
+      "total_tokens": 2659835
+    },
+    {
+      "epoch": 0.008397984483723907,
+      "grad_norm": 0.19291236996650696,
+      "learning_rate": 1.9999025240093045e-05,
+      "loss": 1.0565,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 105,
+      "tokens_per_second_per_gpu": 17339.57,
+      "total_tokens": 2686150
+    },
+    {
+      "epoch": 0.0084779652883308,
+      "grad_norm": 0.18459810316562653,
+      "learning_rate": 1.9998476951563914e-05,
+      "loss": 0.993,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 106,
+      "tokens_per_second_per_gpu": 17021.35,
+      "total_tokens": 2711966
+    },
+    {
+      "epoch": 0.008557946092937694,
+      "grad_norm": 0.2000616043806076,
+      "learning_rate": 1.9997806834748455e-05,
+      "loss": 1.0645,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 107,
+      "tokens_per_second_per_gpu": 16954.79,
+      "total_tokens": 2738061
+    },
+    {
+      "epoch": 0.00863792689754459,
+      "grad_norm": 0.19253303110599518,
+      "learning_rate": 1.9997014897811834e-05,
+      "loss": 0.9867,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 108,
+      "tokens_per_second_per_gpu": 16678.06,
+      "total_tokens": 2763035
+    },
+    {
+      "epoch": 0.008717907702151483,
+      "grad_norm": 0.22710327804088593,
+      "learning_rate": 1.9996101150403543e-05,
+      "loss": 1.0623,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 109,
+      "tokens_per_second_per_gpu": 16594.39,
+      "total_tokens": 2788014
+    },
+    {
+      "epoch": 0.008797888506758379,
+      "grad_norm": 0.18572771549224854,
+      "learning_rate": 1.9995065603657317e-05,
+      "loss": 0.9652,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 110,
+      "tokens_per_second_per_gpu": 16515.36,
+      "total_tokens": 2812864
+    },
+    {
+      "epoch": 0.008877869311365272,
+      "grad_norm": 0.20359967648983002,
+      "learning_rate": 1.999390827019096e-05,
+      "loss": 1.0123,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 111,
+      "tokens_per_second_per_gpu": 17242.77,
+      "total_tokens": 2838892
+    },
+    {
+      "epoch": 0.008957850115972167,
+      "grad_norm": 0.19035907089710236,
+      "learning_rate": 1.999262916410621e-05,
+      "loss": 0.9459,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 112,
+      "tokens_per_second_per_gpu": 17095.24,
+      "total_tokens": 2864893
+    },
+    {
+      "epoch": 0.009037830920579061,
+      "grad_norm": 0.19774137437343597,
+      "learning_rate": 1.9991228300988586e-05,
+      "loss": 1.0056,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 113,
+      "tokens_per_second_per_gpu": 17034.09,
+      "total_tokens": 2890624
+    },
+    {
+      "epoch": 0.009117811725185955,
+      "grad_norm": 0.19346508383750916,
+      "learning_rate": 1.998970569790715e-05,
+      "loss": 0.9834,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 114,
+      "tokens_per_second_per_gpu": 17264.27,
+      "total_tokens": 2916880
+    },
+    {
+      "epoch": 0.00919779252979285,
+      "grad_norm": 0.19959688186645508,
+      "learning_rate": 1.9988061373414342e-05,
+      "loss": 1.0041,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 115,
+      "tokens_per_second_per_gpu": 16800.76,
+      "total_tokens": 2941856
+    },
+    {
+      "epoch": 0.009277773334399744,
+      "grad_norm": 0.19120177626609802,
+      "learning_rate": 1.9986295347545738e-05,
+      "loss": 0.9453,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 116,
+      "tokens_per_second_per_gpu": 17213.91,
+      "total_tokens": 2967939
+    },
+    {
+      "epoch": 0.009357754139006639,
+      "grad_norm": 0.19319495558738708,
+      "learning_rate": 1.9984407641819812e-05,
+      "loss": 1.0185,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 117,
+      "tokens_per_second_per_gpu": 17607.03,
+      "total_tokens": 2995350
+    },
+    {
+      "epoch": 0.009437734943613533,
+      "grad_norm": 0.19155430793762207,
+      "learning_rate": 1.9982398279237657e-05,
+      "loss": 1.0413,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 118,
+      "tokens_per_second_per_gpu": 17920.03,
+      "total_tokens": 3022424
+    },
+    {
+      "epoch": 0.009517715748220428,
+      "grad_norm": 0.19833408296108246,
+      "learning_rate": 1.9980267284282718e-05,
+      "loss": 1.006,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 119,
+      "tokens_per_second_per_gpu": 17428.58,
+      "total_tokens": 3048402
+    },
+    {
+      "epoch": 0.009597696552827321,
+      "grad_norm": 0.19430740177631378,
+      "learning_rate": 1.9978014682920503e-05,
+      "loss": 0.9806,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 120,
+      "tokens_per_second_per_gpu": 16750.28,
+      "total_tokens": 3073297
+    },
+    {
+      "epoch": 0.009677677357434215,
+      "grad_norm": 0.19468539953231812,
+      "learning_rate": 1.9975640502598243e-05,
+      "loss": 0.9751,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 121,
+      "tokens_per_second_per_gpu": 16610.64,
+      "total_tokens": 3098335
+    },
+    {
+      "epoch": 0.00975765816204111,
+      "grad_norm": 0.19551995396614075,
+      "learning_rate": 1.997314477224458e-05,
+      "loss": 0.9821,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 122,
+      "tokens_per_second_per_gpu": 17140.77,
+      "total_tokens": 3123841
+    },
+    {
+      "epoch": 0.009837638966648004,
+      "grad_norm": 0.19409964978694916,
+      "learning_rate": 1.9970527522269204e-05,
+      "loss": 0.9219,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 123,
+      "tokens_per_second_per_gpu": 16856.43,
+      "total_tokens": 3149208
+    },
+    {
+      "epoch": 0.0099176197712549,
+      "grad_norm": 0.19458907842636108,
+      "learning_rate": 1.9967788784562474e-05,
+      "loss": 1.0324,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 124,
+      "tokens_per_second_per_gpu": 16793.17,
+      "total_tokens": 3173736
+    },
+    {
+      "epoch": 0.009997600575861793,
+      "grad_norm": 0.19394950568675995,
+      "learning_rate": 1.9964928592495046e-05,
+      "loss": 0.9587,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 125,
+      "tokens_per_second_per_gpu": 16811.72,
+      "total_tokens": 3198890
+    },
+    {
+      "epoch": 0.010077581380468688,
+      "grad_norm": 0.1940041482448578,
+      "learning_rate": 1.9961946980917457e-05,
+      "loss": 1.0112,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 126,
+      "tokens_per_second_per_gpu": 16986.16,
+      "total_tokens": 3224595
+    },
+    {
+      "epoch": 0.010157562185075582,
+      "grad_norm": 0.1928212195634842,
+      "learning_rate": 1.9958843986159705e-05,
+      "loss": 0.9699,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 127,
+      "tokens_per_second_per_gpu": 17096.16,
+      "total_tokens": 3250659
+    },
+    {
+      "epoch": 0.010237542989682475,
+      "grad_norm": 0.19149477779865265,
+      "learning_rate": 1.99556196460308e-05,
+      "loss": 0.9941,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 128,
+      "tokens_per_second_per_gpu": 16975.27,
+      "total_tokens": 3275998
+    },
+    {
+      "epoch": 0.01031752379428937,
+      "grad_norm": 0.19466781616210938,
+      "learning_rate": 1.9952273999818312e-05,
+      "loss": 1.0126,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 129,
+      "tokens_per_second_per_gpu": 17100.87,
+      "total_tokens": 3301550
+    },
+    {
+      "epoch": 0.010397504598896264,
+      "grad_norm": 0.19384890794754028,
+      "learning_rate": 1.9948807088287884e-05,
+      "loss": 1.0062,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 130,
+      "tokens_per_second_per_gpu": 17397.69,
+      "total_tokens": 3327697
+    },
+    {
+      "epoch": 0.01047748540350316,
+      "grad_norm": 0.19235117733478546,
+      "learning_rate": 1.9945218953682736e-05,
+      "loss": 0.9573,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 131,
+      "tokens_per_second_per_gpu": 17408.0,
+      "total_tokens": 3354295
+    },
+    {
+      "epoch": 0.010557466208110053,
+      "grad_norm": 0.19668954610824585,
+      "learning_rate": 1.9941509639723155e-05,
+      "loss": 0.9378,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 132,
+      "tokens_per_second_per_gpu": 17367.53,
+      "total_tokens": 3380587
+    },
+    {
+      "epoch": 0.010637447012716949,
+      "grad_norm": 0.19954292476177216,
+      "learning_rate": 1.9937679191605964e-05,
+      "loss": 0.9432,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 133,
+      "tokens_per_second_per_gpu": 16674.36,
+      "total_tokens": 3405485
+    },
+    {
+      "epoch": 0.010717427817323842,
+      "grad_norm": 0.2069808393716812,
+      "learning_rate": 1.9933727656003964e-05,
+      "loss": 0.9526,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 134,
+      "tokens_per_second_per_gpu": 17416.45,
+      "total_tokens": 3431579
+    },
+    {
+      "epoch": 0.010797408621930737,
+      "grad_norm": 0.20890875160694122,
+      "learning_rate": 1.992965508106537e-05,
+      "loss": 0.9696,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 135,
+      "tokens_per_second_per_gpu": 17080.6,
+      "total_tokens": 3457239
+    },
+    {
+      "epoch": 0.010877389426537631,
+      "grad_norm": 0.20000465214252472,
+      "learning_rate": 1.9925461516413224e-05,
+      "loss": 0.9747,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 136,
+      "tokens_per_second_per_gpu": 16945.48,
+      "total_tokens": 3483044
+    },
+    {
+      "epoch": 0.010957370231144525,
+      "grad_norm": 0.19973015785217285,
+      "learning_rate": 1.9921147013144782e-05,
+      "loss": 0.9557,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 137,
+      "tokens_per_second_per_gpu": 17186.34,
+      "total_tokens": 3509145
+    },
+    {
+      "epoch": 0.01103735103575142,
+      "grad_norm": 0.206997811794281,
+      "learning_rate": 1.9916711623830904e-05,
+      "loss": 0.9155,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 138,
+      "tokens_per_second_per_gpu": 17008.31,
+      "total_tokens": 3534434
+    },
+    {
+      "epoch": 0.011117331840358314,
+      "grad_norm": 0.2097865790128708,
+      "learning_rate": 1.991215540251542e-05,
+      "loss": 0.9312,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 139,
+      "tokens_per_second_per_gpu": 16713.43,
+      "total_tokens": 3558430
+    },
+    {
+      "epoch": 0.011197312644965209,
+      "grad_norm": 0.19931592047214508,
+      "learning_rate": 1.9907478404714438e-05,
+      "loss": 0.9547,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 140,
+      "tokens_per_second_per_gpu": 16953.09,
+      "total_tokens": 3584023
+    },
+    {
+      "epoch": 0.011277293449572103,
+      "grad_norm": 0.2059127390384674,
+      "learning_rate": 1.9902680687415704e-05,
+      "loss": 0.9094,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 141,
+      "tokens_per_second_per_gpu": 16721.38,
+      "total_tokens": 3609030
+    },
+    {
+      "epoch": 0.011357274254178998,
+      "grad_norm": 0.20056259632110596,
+      "learning_rate": 1.989776230907789e-05,
+      "loss": 0.906,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 142,
+      "tokens_per_second_per_gpu": 16294.34,
+      "total_tokens": 3633273
+    },
+    {
+      "epoch": 0.011437255058785891,
+      "grad_norm": 0.2079566866159439,
+      "learning_rate": 1.9892723329629885e-05,
+      "loss": 0.9815,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 143,
+      "tokens_per_second_per_gpu": 17511.65,
+      "total_tokens": 3659737
+    },
+    {
+      "epoch": 0.011517235863392785,
+      "grad_norm": 0.20305806398391724,
+      "learning_rate": 1.988756381047006e-05,
+      "loss": 0.9088,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 144,
+      "tokens_per_second_per_gpu": 16641.28,
+      "total_tokens": 3684810
+    },
+    {
+      "epoch": 0.01159721666799968,
+      "grad_norm": 0.19826866686344147,
+      "learning_rate": 1.988228381446553e-05,
+      "loss": 0.9416,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 145,
+      "tokens_per_second_per_gpu": 17656.98,
+      "total_tokens": 3712176
+    },
+    {
+      "epoch": 0.011677197472606574,
+      "grad_norm": 0.21241246163845062,
+      "learning_rate": 1.9876883405951378e-05,
+      "loss": 0.9926,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 146,
+      "tokens_per_second_per_gpu": 17247.13,
+      "total_tokens": 3737518
+    },
+    {
+      "epoch": 0.01175717827721347,
+      "grad_norm": 0.21107642352581024,
+      "learning_rate": 1.987136265072988e-05,
+      "loss": 0.9405,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 147,
+      "tokens_per_second_per_gpu": 17433.04,
+      "total_tokens": 3763871
+    },
+    {
+      "epoch": 0.011837159081820363,
+      "grad_norm": 0.19587242603302002,
+      "learning_rate": 1.9865721616069695e-05,
+      "loss": 0.8517,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 148,
+      "tokens_per_second_per_gpu": 17093.93,
+      "total_tokens": 3790220
+    },
+    {
+      "epoch": 0.011917139886427258,
+      "grad_norm": 0.20216360688209534,
+      "learning_rate": 1.985996037070505e-05,
+      "loss": 0.8985,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 149,
+      "tokens_per_second_per_gpu": 17259.66,
+      "total_tokens": 3815740
+    },
+    {
+      "epoch": 0.011997120691034152,
+      "grad_norm": 0.2222292274236679,
+      "learning_rate": 1.9854078984834904e-05,
+      "loss": 0.9209,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 150,
+      "tokens_per_second_per_gpu": 17035.62,
+      "total_tokens": 3841798
+    },
+    {
+      "epoch": 0.012077101495641045,
+      "grad_norm": 0.21165066957473755,
+      "learning_rate": 1.9848077530122083e-05,
+      "loss": 0.9174,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 151,
+      "tokens_per_second_per_gpu": 16628.36,
+      "total_tokens": 3866966
+    },
+    {
+      "epoch": 0.01215708230024794,
+      "grad_norm": 0.23638273775577545,
+      "learning_rate": 1.984195607969242e-05,
+      "loss": 0.9104,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 152,
+      "tokens_per_second_per_gpu": 16175.3,
+      "total_tokens": 3891476
+    },
+    {
+      "epoch": 0.012237063104854834,
+      "grad_norm": 0.20337818562984467,
+      "learning_rate": 1.983571470813386e-05,
+      "loss": 0.9093,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 153,
+      "tokens_per_second_per_gpu": 16886.31,
+      "total_tokens": 3917465
+    },
+    {
+      "epoch": 0.01231704390946173,
+      "grad_norm": 0.2119511514902115,
+      "learning_rate": 1.9829353491495545e-05,
+      "loss": 0.8815,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 154,
+      "tokens_per_second_per_gpu": 16518.37,
+      "total_tokens": 3942537
+    },
+    {
+      "epoch": 0.012397024714068623,
+      "grad_norm": 0.205114483833313,
+      "learning_rate": 1.982287250728689e-05,
+      "loss": 0.9035,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 155,
+      "tokens_per_second_per_gpu": 16966.41,
+      "total_tokens": 3968215
+    },
+    {
+      "epoch": 0.012477005518675519,
+      "grad_norm": 0.21471446752548218,
+      "learning_rate": 1.9816271834476642e-05,
+      "loss": 0.9305,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 156,
+      "tokens_per_second_per_gpu": 16764.47,
+      "total_tokens": 3993218
+    },
+    {
+      "epoch": 0.012556986323282412,
+      "grad_norm": 0.208131805062294,
+      "learning_rate": 1.9809551553491918e-05,
+      "loss": 0.8548,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 157,
+      "tokens_per_second_per_gpu": 16967.42,
+      "total_tokens": 4018747
+    },
+    {
+      "epoch": 0.012636967127889306,
+      "grad_norm": 0.2270553857088089,
+      "learning_rate": 1.9802711746217222e-05,
+      "loss": 0.9206,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 158,
+      "tokens_per_second_per_gpu": 17194.18,
+      "total_tokens": 4044793
+    },
+    {
+      "epoch": 0.012716947932496201,
+      "grad_norm": 0.2232825756072998,
+      "learning_rate": 1.979575249599344e-05,
+      "loss": 0.9185,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 159,
+      "tokens_per_second_per_gpu": 16239.69,
+      "total_tokens": 4069372
+    },
+    {
+      "epoch": 0.012796928737103095,
+      "grad_norm": 0.22711730003356934,
+      "learning_rate": 1.9788673887616852e-05,
+      "loss": 0.8979,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 160,
+      "tokens_per_second_per_gpu": 17230.88,
+      "total_tokens": 4094803
+    },
+    {
+      "epoch": 0.01287690954170999,
+      "grad_norm": 0.23493967950344086,
+      "learning_rate": 1.9781476007338058e-05,
+      "loss": 0.9238,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 161,
+      "tokens_per_second_per_gpu": 17095.3,
+      "total_tokens": 4119931
+    },
+    {
+      "epoch": 0.012956890346316884,
+      "grad_norm": 0.24412371218204498,
+      "learning_rate": 1.9774158942860962e-05,
+      "loss": 0.8189,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 162,
+      "tokens_per_second_per_gpu": 16862.59,
+      "total_tokens": 4145075
+    },
+    {
+      "epoch": 0.013036871150923779,
+      "grad_norm": 0.228457972407341,
+      "learning_rate": 1.9766722783341682e-05,
+      "loss": 0.9137,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 163,
+      "tokens_per_second_per_gpu": 16955.72,
+      "total_tokens": 4170710
+    },
+    {
+      "epoch": 0.013116851955530672,
+      "grad_norm": 0.23934195935726166,
+      "learning_rate": 1.9759167619387474e-05,
+      "loss": 0.9302,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 164,
+      "tokens_per_second_per_gpu": 16683.88,
+      "total_tokens": 4195279
+    },
+    {
+      "epoch": 0.013196832760137568,
+      "grad_norm": 0.23014573752880096,
+      "learning_rate": 1.9751493543055634e-05,
+      "loss": 0.9042,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 165,
+      "tokens_per_second_per_gpu": 16489.02,
+      "total_tokens": 4219744
+    },
+    {
+      "epoch": 0.013276813564744461,
+      "grad_norm": 0.230689138174057,
+      "learning_rate": 1.9743700647852356e-05,
+      "loss": 0.9264,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 166,
+      "tokens_per_second_per_gpu": 17158.8,
+      "total_tokens": 4245795
+    },
+    {
+      "epoch": 0.013356794369351355,
+      "grad_norm": 0.23245392739772797,
+      "learning_rate": 1.9735789028731603e-05,
+      "loss": 0.8792,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 167,
+      "tokens_per_second_per_gpu": 16252.68,
+      "total_tokens": 4270401
+    },
+    {
+      "epoch": 0.01343677517395825,
+      "grad_norm": 0.43715667724609375,
+      "learning_rate": 1.972775878209397e-05,
+      "loss": 0.8955,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 168,
+      "tokens_per_second_per_gpu": 16531.81,
+      "total_tokens": 4295082
+    },
+    {
+      "epoch": 0.013516755978565144,
+      "grad_norm": 0.2350732386112213,
+      "learning_rate": 1.9719610005785466e-05,
+      "loss": 0.8973,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 169,
+      "tokens_per_second_per_gpu": 16782.69,
+      "total_tokens": 4319861
+    },
+    {
+      "epoch": 0.01359673678317204,
+      "grad_norm": 0.23498980700969696,
+      "learning_rate": 1.971134279909636e-05,
+      "loss": 0.949,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 170,
+      "tokens_per_second_per_gpu": 17103.87,
+      "total_tokens": 4345416
+    },
+    {
+      "epoch": 0.013676717587778933,
+      "grad_norm": 0.22032824158668518,
+      "learning_rate": 1.9702957262759964e-05,
+      "loss": 0.89,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 171,
+      "tokens_per_second_per_gpu": 16754.18,
+      "total_tokens": 4370945
+    },
+    {
+      "epoch": 0.013756698392385828,
+      "grad_norm": 0.22958935797214508,
+      "learning_rate": 1.9694453498951392e-05,
+      "loss": 0.9186,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 172,
+      "tokens_per_second_per_gpu": 17127.91,
+      "total_tokens": 4396853
+    },
+    {
+      "epoch": 0.013836679196992722,
+      "grad_norm": 0.24071195721626282,
+      "learning_rate": 1.9685831611286312e-05,
+      "loss": 0.962,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 173,
+      "tokens_per_second_per_gpu": 17406.78,
+      "total_tokens": 4422628
+    },
+    {
+      "epoch": 0.013916660001599615,
+      "grad_norm": 0.2658619284629822,
+      "learning_rate": 1.9677091704819714e-05,
+      "loss": 0.9132,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 174,
+      "tokens_per_second_per_gpu": 16846.42,
+      "total_tokens": 4448035
+    },
+    {
+      "epoch": 0.01399664080620651,
+      "grad_norm": 0.23434384167194366,
+      "learning_rate": 1.9668233886044597e-05,
+      "loss": 0.8774,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 175,
+      "tokens_per_second_per_gpu": 17076.79,
+      "total_tokens": 4473972
+    },
+    {
+      "epoch": 0.014076621610813404,
+      "grad_norm": 0.24713198840618134,
+      "learning_rate": 1.9659258262890683e-05,
+      "loss": 0.905,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 176,
+      "tokens_per_second_per_gpu": 16949.62,
+      "total_tokens": 4498614
+    },
+    {
+      "epoch": 0.0141566024154203,
+      "grad_norm": 0.2283277064561844,
+      "learning_rate": 1.9650164944723116e-05,
+      "loss": 0.8451,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 177,
+      "tokens_per_second_per_gpu": 16328.89,
+      "total_tokens": 4522729
+    },
+    {
+      "epoch": 0.014236583220027193,
+      "grad_norm": 0.23061935603618622,
+      "learning_rate": 1.96409540423411e-05,
+      "loss": 0.9068,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 178,
+      "tokens_per_second_per_gpu": 17338.63,
+      "total_tokens": 4549252
+    },
+    {
+      "epoch": 0.014316564024634089,
+      "grad_norm": 0.24155394732952118,
+      "learning_rate": 1.9631625667976584e-05,
+      "loss": 0.9077,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 179,
+      "tokens_per_second_per_gpu": 17231.25,
+      "total_tokens": 4575502
+    },
+    {
+      "epoch": 0.014396544829240982,
+      "grad_norm": 0.24086996912956238,
+      "learning_rate": 1.9622179935292855e-05,
+      "loss": 0.8863,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 180,
+      "tokens_per_second_per_gpu": 17401.86,
+      "total_tokens": 4601736
+    },
+    {
+      "epoch": 0.014476525633847876,
+      "grad_norm": 0.2347906082868576,
+      "learning_rate": 1.961261695938319e-05,
+      "loss": 0.8696,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 181,
+      "tokens_per_second_per_gpu": 17379.79,
+      "total_tokens": 4628714
+    },
+    {
+      "epoch": 0.014556506438454771,
+      "grad_norm": 0.24834582209587097,
+      "learning_rate": 1.9602936856769432e-05,
+      "loss": 0.866,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 182,
+      "tokens_per_second_per_gpu": 17082.86,
+      "total_tokens": 4654025
+    },
+    {
+      "epoch": 0.014636487243061665,
+      "grad_norm": 0.23946715891361237,
+      "learning_rate": 1.9593139745400575e-05,
+      "loss": 0.8721,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 183,
+      "tokens_per_second_per_gpu": 17164.87,
+      "total_tokens": 4679462
+    },
+    {
+      "epoch": 0.01471646804766856,
+      "grad_norm": 0.2574214041233063,
+      "learning_rate": 1.9583225744651334e-05,
+      "loss": 0.852,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 184,
+      "tokens_per_second_per_gpu": 16882.9,
+      "total_tokens": 4705235
+    },
+    {
+      "epoch": 0.014796448852275454,
+      "grad_norm": 0.2426890730857849,
+      "learning_rate": 1.9573194975320672e-05,
+      "loss": 0.8865,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 185,
+      "tokens_per_second_per_gpu": 17466.12,
+      "total_tokens": 4731568
+    },
+    {
+      "epoch": 0.014876429656882349,
+      "grad_norm": 0.24403586983680725,
+      "learning_rate": 1.9563047559630356e-05,
+      "loss": 0.8622,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 186,
+      "tokens_per_second_per_gpu": 16780.87,
+      "total_tokens": 4756596
+    },
+    {
+      "epoch": 0.014956410461489242,
+      "grad_norm": 0.24118457734584808,
+      "learning_rate": 1.9552783621223437e-05,
+      "loss": 0.8634,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 187,
+      "tokens_per_second_per_gpu": 16944.71,
+      "total_tokens": 4781534
+    },
+    {
+      "epoch": 0.015036391266096136,
+      "grad_norm": 0.23634915053844452,
+      "learning_rate": 1.954240328516277e-05,
+      "loss": 0.8703,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 188,
+      "tokens_per_second_per_gpu": 17084.81,
+      "total_tokens": 4807256
+    },
+    {
+      "epoch": 0.015116372070703031,
+      "grad_norm": 0.2323237955570221,
+      "learning_rate": 1.9531906677929472e-05,
+      "loss": 0.8458,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 189,
+      "tokens_per_second_per_gpu": 16775.18,
+      "total_tokens": 4832696
+    },
+    {
+      "epoch": 0.015196352875309925,
+      "grad_norm": 0.24547705054283142,
+      "learning_rate": 1.9521293927421388e-05,
+      "loss": 0.87,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 190,
+      "tokens_per_second_per_gpu": 17118.63,
+      "total_tokens": 4858403
+    },
+    {
+      "epoch": 0.01527633367991682,
+      "grad_norm": 0.252999484539032,
+      "learning_rate": 1.9510565162951538e-05,
+      "loss": 0.8938,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 191,
+      "tokens_per_second_per_gpu": 17209.42,
+      "total_tokens": 4884814
+    },
+    {
+      "epoch": 0.015356314484523714,
+      "grad_norm": 0.26226651668548584,
+      "learning_rate": 1.9499720515246524e-05,
+      "loss": 0.9225,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 192,
+      "tokens_per_second_per_gpu": 17211.08,
+      "total_tokens": 4910205
+    },
+    {
+      "epoch": 0.01543629528913061,
+      "grad_norm": 0.25136351585388184,
+      "learning_rate": 1.9488760116444966e-05,
+      "loss": 0.8292,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 193,
+      "tokens_per_second_per_gpu": 16452.56,
+      "total_tokens": 4934218
+    },
+    {
+      "epoch": 0.015516276093737503,
+      "grad_norm": 0.25001877546310425,
+      "learning_rate": 1.947768410009586e-05,
+      "loss": 0.8845,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 194,
+      "tokens_per_second_per_gpu": 17134.82,
+      "total_tokens": 4960601
+    },
+    {
+      "epoch": 0.015596256898344398,
+      "grad_norm": 0.24449992179870605,
+      "learning_rate": 1.9466492601156964e-05,
+      "loss": 0.8761,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 195,
+      "tokens_per_second_per_gpu": 17246.7,
+      "total_tokens": 4986559
+    },
+    {
+      "epoch": 0.01567623770295129,
+      "grad_norm": 0.24022875726222992,
+      "learning_rate": 1.945518575599317e-05,
+      "loss": 0.8345,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 196,
+      "tokens_per_second_per_gpu": 16785.14,
+      "total_tokens": 5011413
+    },
+    {
+      "epoch": 0.015756218507558185,
+      "grad_norm": 0.2391171008348465,
+      "learning_rate": 1.944376370237481e-05,
+      "loss": 0.8405,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 197,
+      "tokens_per_second_per_gpu": 17283.57,
+      "total_tokens": 5037700
+    },
+    {
+      "epoch": 0.01583619931216508,
+      "grad_norm": 0.2588050961494446,
+      "learning_rate": 1.943222657947601e-05,
+      "loss": 0.8114,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 198,
+      "tokens_per_second_per_gpu": 16778.59,
+      "total_tokens": 5062904
+    },
+    {
+      "epoch": 0.015916180116771976,
+      "grad_norm": 0.26281964778900146,
+      "learning_rate": 1.942057452787297e-05,
+      "loss": 0.8992,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 199,
+      "tokens_per_second_per_gpu": 16845.87,
+      "total_tokens": 5087758
+    },
+    {
+      "epoch": 0.015996160921378868,
+      "grad_norm": 0.2588569223880768,
+      "learning_rate": 1.9408807689542257e-05,
+      "loss": 0.7411,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 200,
+      "tokens_per_second_per_gpu": 16066.45,
+      "total_tokens": 5111019
+    },
+    {
+      "epoch": 0.016076141725985763,
+      "grad_norm": 0.2594797611236572,
+      "learning_rate": 1.9396926207859085e-05,
+      "loss": 0.8375,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 201,
+      "tokens_per_second_per_gpu": 17125.37,
+      "total_tokens": 5136688
+    },
+    {
+      "epoch": 0.01615612253059266,
+      "grad_norm": 0.2549116015434265,
+      "learning_rate": 1.938493022759556e-05,
+      "loss": 0.8919,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 202,
+      "tokens_per_second_per_gpu": 17181.47,
+      "total_tokens": 5162141
+    },
+    {
+      "epoch": 0.01623610333519955,
+      "grad_norm": 0.258368581533432,
+      "learning_rate": 1.937281989491892e-05,
+      "loss": 0.9158,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 203,
+      "tokens_per_second_per_gpu": 17312.04,
+      "total_tokens": 5188261
+    },
+    {
+      "epoch": 0.016316084139806446,
+      "grad_norm": 0.31648266315460205,
+      "learning_rate": 1.9360595357389735e-05,
+      "loss": 0.8818,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 204,
+      "tokens_per_second_per_gpu": 17703.45,
+      "total_tokens": 5214925
+    },
+    {
+      "epoch": 0.01639606494441334,
+      "grad_norm": 0.2698972523212433,
+      "learning_rate": 1.9348256763960146e-05,
+      "loss": 0.943,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 205,
+      "tokens_per_second_per_gpu": 17321.57,
+      "total_tokens": 5240212
+    },
+    {
+      "epoch": 0.016476045749020236,
+      "grad_norm": 0.2627377212047577,
+      "learning_rate": 1.9335804264972018e-05,
+      "loss": 0.8122,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 206,
+      "tokens_per_second_per_gpu": 17099.13,
+      "total_tokens": 5265405
+    },
+    {
+      "epoch": 0.016556026553627128,
+      "grad_norm": 0.2688179016113281,
+      "learning_rate": 1.9323238012155125e-05,
+      "loss": 0.8562,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 207,
+      "tokens_per_second_per_gpu": 16059.88,
+      "total_tokens": 5289288
+    },
+    {
+      "epoch": 0.016636007358234024,
+      "grad_norm": 0.2609153985977173,
+      "learning_rate": 1.9310558158625286e-05,
+      "loss": 0.8241,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 208,
+      "tokens_per_second_per_gpu": 17391.96,
+      "total_tokens": 5315382
+    },
+    {
+      "epoch": 0.01671598816284092,
+      "grad_norm": 0.26036036014556885,
+      "learning_rate": 1.9297764858882516e-05,
+      "loss": 0.8422,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 209,
+      "tokens_per_second_per_gpu": 16765.8,
+      "total_tokens": 5340531
+    },
+    {
+      "epoch": 0.016795968967447814,
+      "grad_norm": 0.25738534331321716,
+      "learning_rate": 1.9284858268809135e-05,
+      "loss": 0.8039,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 210,
+      "tokens_per_second_per_gpu": 16745.69,
+      "total_tokens": 5365785
+    },
+    {
+      "epoch": 0.016875949772054706,
+      "grad_norm": 0.2648962438106537,
+      "learning_rate": 1.9271838545667876e-05,
+      "loss": 0.8752,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 211,
+      "tokens_per_second_per_gpu": 17666.5,
+      "total_tokens": 5392095
+    },
+    {
+      "epoch": 0.0169559305766616,
+      "grad_norm": 0.2604057192802429,
+      "learning_rate": 1.925870584809995e-05,
+      "loss": 0.8895,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 212,
+      "tokens_per_second_per_gpu": 17065.99,
+      "total_tokens": 5417896
+    },
+    {
+      "epoch": 0.017035911381268497,
+      "grad_norm": 0.39727583527565,
+      "learning_rate": 1.9245460336123136e-05,
+      "loss": 0.8353,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 213,
+      "tokens_per_second_per_gpu": 17509.61,
+      "total_tokens": 5443736
+    },
+    {
+      "epoch": 0.01711589218587539,
+      "grad_norm": 0.27699121832847595,
+      "learning_rate": 1.923210217112981e-05,
+      "loss": 0.8254,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 214,
+      "tokens_per_second_per_gpu": 16573.45,
+      "total_tokens": 5468669
+    },
+    {
+      "epoch": 0.017195872990482284,
+      "grad_norm": 0.2744996249675751,
+      "learning_rate": 1.9218631515885007e-05,
+      "loss": 0.8669,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 215,
+      "tokens_per_second_per_gpu": 17213.09,
+      "total_tokens": 5493788
+    },
+    {
+      "epoch": 0.01727585379508918,
+      "grad_norm": 0.27408525347709656,
+      "learning_rate": 1.9205048534524405e-05,
+      "loss": 0.8753,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 216,
+      "tokens_per_second_per_gpu": 17308.66,
+      "total_tokens": 5520168
+    },
+    {
+      "epoch": 0.017355834599696075,
+      "grad_norm": 0.279653400182724,
+      "learning_rate": 1.9191353392552346e-05,
+      "loss": 0.8309,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 217,
+      "tokens_per_second_per_gpu": 16264.72,
+      "total_tokens": 5544200
+    },
+    {
+      "epoch": 0.017435815404302966,
+      "grad_norm": 0.2667289078235626,
+      "learning_rate": 1.9177546256839814e-05,
+      "loss": 0.8341,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 218,
+      "tokens_per_second_per_gpu": 17247.1,
+      "total_tokens": 5570605
+    },
+    {
+      "epoch": 0.017515796208909862,
+      "grad_norm": 0.2734803557395935,
+      "learning_rate": 1.9163627295622397e-05,
+      "loss": 0.8676,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 219,
+      "tokens_per_second_per_gpu": 17464.35,
+      "total_tokens": 5596671
+    },
+    {
+      "epoch": 0.017595777013516757,
+      "grad_norm": 0.2817804217338562,
+      "learning_rate": 1.914959667849825e-05,
+      "loss": 0.7697,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 220,
+      "tokens_per_second_per_gpu": 16843.97,
+      "total_tokens": 5621627
+    },
+    {
+      "epoch": 0.01767575781812365,
+      "grad_norm": 0.27030467987060547,
+      "learning_rate": 1.913545457642601e-05,
+      "loss": 0.9119,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 221,
+      "tokens_per_second_per_gpu": 17478.61,
+      "total_tokens": 5648136
+    },
+    {
+      "epoch": 0.017755738622730544,
+      "grad_norm": 0.27667850255966187,
+      "learning_rate": 1.9121201161722732e-05,
+      "loss": 0.879,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 222,
+      "tokens_per_second_per_gpu": 17271.95,
+      "total_tokens": 5674496
+    },
+    {
+      "epoch": 0.01783571942733744,
+      "grad_norm": 0.2836981415748596,
+      "learning_rate": 1.910683660806177e-05,
+      "loss": 0.8441,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 223,
+      "tokens_per_second_per_gpu": 17159.55,
+      "total_tokens": 5700058
+    },
+    {
+      "epoch": 0.017915700231944335,
+      "grad_norm": 0.2744138538837433,
+      "learning_rate": 1.9092361090470688e-05,
+      "loss": 0.847,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 224,
+      "tokens_per_second_per_gpu": 17264.31,
+      "total_tokens": 5725619
+    },
+    {
+      "epoch": 0.017995681036551227,
+      "grad_norm": 0.26166272163391113,
+      "learning_rate": 1.907777478532909e-05,
+      "loss": 0.8067,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 225,
+      "tokens_per_second_per_gpu": 17051.11,
+      "total_tokens": 5750839
+    },
+    {
+      "epoch": 0.018075661841158122,
+      "grad_norm": 0.2761372923851013,
+      "learning_rate": 1.9063077870366504e-05,
+      "loss": 0.8297,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 226,
+      "tokens_per_second_per_gpu": 16956.47,
+      "total_tokens": 5776313
+    },
+    {
+      "epoch": 0.018155642645765017,
+      "grad_norm": 0.27935782074928284,
+      "learning_rate": 1.9048270524660197e-05,
+      "loss": 0.8442,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 227,
+      "tokens_per_second_per_gpu": 16999.99,
+      "total_tokens": 5802194
+    },
+    {
+      "epoch": 0.01823562345037191,
+      "grad_norm": 0.2994026839733124,
+      "learning_rate": 1.903335292863301e-05,
+      "loss": 0.8445,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 228,
+      "tokens_per_second_per_gpu": 16475.4,
+      "total_tokens": 5826348
+    },
+    {
+      "epoch": 0.018315604254978805,
+      "grad_norm": 0.2798149883747101,
+      "learning_rate": 1.901832526405114e-05,
+      "loss": 0.8692,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 229,
+      "tokens_per_second_per_gpu": 17101.79,
+      "total_tokens": 5851978
+    },
+    {
+      "epoch": 0.0183955850595857,
+      "grad_norm": 0.2609909474849701,
+      "learning_rate": 1.9003187714021936e-05,
+      "loss": 0.7482,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 230,
+      "tokens_per_second_per_gpu": 16552.15,
+      "total_tokens": 5877167
+    },
+    {
+      "epoch": 0.018475565864192595,
+      "grad_norm": 0.29680418968200684,
+      "learning_rate": 1.8987940462991673e-05,
+      "loss": 0.861,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 231,
+      "tokens_per_second_per_gpu": 16968.37,
+      "total_tokens": 5902589
+    },
+    {
+      "epoch": 0.018555546668799487,
+      "grad_norm": 0.2876088321208954,
+      "learning_rate": 1.8972583696743284e-05,
+      "loss": 0.8511,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 232,
+      "tokens_per_second_per_gpu": 16522.68,
+      "total_tokens": 5927666
+    },
+    {
+      "epoch": 0.018635527473406382,
+      "grad_norm": 0.2777324318885803,
+      "learning_rate": 1.895711760239413e-05,
+      "loss": 0.7771,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 233,
+      "tokens_per_second_per_gpu": 16851.59,
+      "total_tokens": 5953221
+    },
+    {
+      "epoch": 0.018715508278013278,
+      "grad_norm": 0.29070353507995605,
+      "learning_rate": 1.8941542368393683e-05,
+      "loss": 0.8033,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 234,
+      "tokens_per_second_per_gpu": 16504.59,
+      "total_tokens": 5978512
+    },
+    {
+      "epoch": 0.01879548908262017,
+      "grad_norm": 0.29157114028930664,
+      "learning_rate": 1.892585818452126e-05,
+      "loss": 0.8529,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 235,
+      "tokens_per_second_per_gpu": 16711.56,
+      "total_tokens": 6003185
+    },
+    {
+      "epoch": 0.018875469887227065,
+      "grad_norm": 0.30835041403770447,
+      "learning_rate": 1.891006524188368e-05,
+      "loss": 0.8518,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 236,
+      "tokens_per_second_per_gpu": 16536.32,
+      "total_tokens": 6027878
+    },
+    {
+      "epoch": 0.01895545069183396,
+      "grad_norm": 0.2955070436000824,
+      "learning_rate": 1.889416373291298e-05,
+      "loss": 0.8672,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 237,
+      "tokens_per_second_per_gpu": 16792.68,
+      "total_tokens": 6053557
+    },
+    {
+      "epoch": 0.019035431496440856,
+      "grad_norm": 0.2786145806312561,
+      "learning_rate": 1.8878153851364013e-05,
+      "loss": 0.8302,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 238,
+      "tokens_per_second_per_gpu": 17428.54,
+      "total_tokens": 6080795
+    },
+    {
+      "epoch": 0.019115412301047748,
+      "grad_norm": 0.2858044505119324,
+      "learning_rate": 1.8862035792312148e-05,
+      "loss": 0.8413,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 239,
+      "tokens_per_second_per_gpu": 17091.79,
+      "total_tokens": 6106593
+    },
+    {
+      "epoch": 0.019195393105654643,
+      "grad_norm": 0.29661673307418823,
+      "learning_rate": 1.884580975215084e-05,
+      "loss": 0.8058,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 240,
+      "tokens_per_second_per_gpu": 16379.78,
+      "total_tokens": 6130856
+    },
+    {
+      "epoch": 0.019275373910261538,
+      "grad_norm": 0.2872996926307678,
+      "learning_rate": 1.8829475928589272e-05,
+      "loss": 0.8136,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 241,
+      "tokens_per_second_per_gpu": 16644.37,
+      "total_tokens": 6156050
+    },
+    {
+      "epoch": 0.01935535471486843,
+      "grad_norm": 0.29381078481674194,
+      "learning_rate": 1.8813034520649923e-05,
+      "loss": 0.8415,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 242,
+      "tokens_per_second_per_gpu": 16654.68,
+      "total_tokens": 6181435
+    },
+    {
+      "epoch": 0.019435335519475325,
+      "grad_norm": 0.28002533316612244,
+      "learning_rate": 1.879648572866617e-05,
+      "loss": 0.7861,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 243,
+      "tokens_per_second_per_gpu": 16498.47,
+      "total_tokens": 6206084
+    },
+    {
+      "epoch": 0.01951531632408222,
+      "grad_norm": 0.30103883147239685,
+      "learning_rate": 1.8779829754279806e-05,
+      "loss": 0.8378,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 244,
+      "tokens_per_second_per_gpu": 17231.92,
+      "total_tokens": 6232452
+    },
+    {
+      "epoch": 0.019595297128689116,
+      "grad_norm": 0.3162606358528137,
+      "learning_rate": 1.8763066800438638e-05,
+      "loss": 0.8362,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 245,
+      "tokens_per_second_per_gpu": 17419.8,
+      "total_tokens": 6258179
+    },
+    {
+      "epoch": 0.019675277933296008,
+      "grad_norm": 0.30273863673210144,
+      "learning_rate": 1.874619707139396e-05,
+      "loss": 0.8654,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 246,
+      "tokens_per_second_per_gpu": 16774.8,
+      "total_tokens": 6283069
+    },
+    {
+      "epoch": 0.019755258737902903,
+      "grad_norm": 0.2920013666152954,
+      "learning_rate": 1.8729220772698096e-05,
+      "loss": 0.799,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 247,
+      "tokens_per_second_per_gpu": 16609.12,
+      "total_tokens": 6308439
+    },
+    {
+      "epoch": 0.0198352395425098,
+      "grad_norm": 0.28597742319107056,
+      "learning_rate": 1.8712138111201898e-05,
+      "loss": 0.7502,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 248,
+      "tokens_per_second_per_gpu": 16656.5,
+      "total_tokens": 6333609
+    },
+    {
+      "epoch": 0.01991522034711669,
+      "grad_norm": 0.3035345673561096,
+      "learning_rate": 1.869494929505219e-05,
+      "loss": 0.8001,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 249,
+      "tokens_per_second_per_gpu": 16881.32,
+      "total_tokens": 6358608
+    },
+    {
+      "epoch": 0.019995201151723586,
+      "grad_norm": 0.2953839600086212,
+      "learning_rate": 1.8677654533689287e-05,
+      "loss": 0.7813,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 250,
+      "tokens_per_second_per_gpu": 16977.53,
+      "total_tokens": 6383721
+    },
+    {
+      "epoch": 0.02007518195633048,
+      "grad_norm": 0.3125785291194916,
+      "learning_rate": 1.866025403784439e-05,
+      "loss": 0.8195,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 251,
+      "tokens_per_second_per_gpu": 16863.17,
+      "total_tokens": 6408806
+    },
+    {
+      "epoch": 0.020155162760937376,
+      "grad_norm": 0.2873575985431671,
+      "learning_rate": 1.864274801953705e-05,
+      "loss": 0.8268,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 252,
+      "tokens_per_second_per_gpu": 17229.79,
+      "total_tokens": 6434899
+    },
+    {
+      "epoch": 0.020235143565544268,
+      "grad_norm": 0.29636356234550476,
+      "learning_rate": 1.8625136692072577e-05,
+      "loss": 0.8041,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 253,
+      "tokens_per_second_per_gpu": 17474.25,
+      "total_tokens": 6462145
+    },
+    {
+      "epoch": 0.020315124370151164,
+      "grad_norm": 0.29690074920654297,
+      "learning_rate": 1.860742027003944e-05,
+      "loss": 0.8282,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 254,
+      "tokens_per_second_per_gpu": 17097.68,
+      "total_tokens": 6488193
+    },
+    {
+      "epoch": 0.02039510517475806,
+      "grad_norm": 0.4087201654911041,
+      "learning_rate": 1.8589598969306646e-05,
+      "loss": 0.7644,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 255,
+      "tokens_per_second_per_gpu": 16154.98,
+      "total_tokens": 6512510
+    },
+    {
+      "epoch": 0.02047508597936495,
+      "grad_norm": 0.2895331084728241,
+      "learning_rate": 1.8571673007021124e-05,
+      "loss": 0.8014,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 256,
+      "tokens_per_second_per_gpu": 17165.77,
+      "total_tokens": 6538276
+    },
+    {
+      "epoch": 0.020555066783971846,
+      "grad_norm": 0.3026330769062042,
+      "learning_rate": 1.855364260160507e-05,
+      "loss": 0.7987,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 257,
+      "tokens_per_second_per_gpu": 16744.28,
+      "total_tokens": 6563490
+    },
+    {
+      "epoch": 0.02063504758857874,
+      "grad_norm": 0.32229679822921753,
+      "learning_rate": 1.8535507972753275e-05,
+      "loss": 0.8214,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 258,
+      "tokens_per_second_per_gpu": 17172.36,
+      "total_tokens": 6589271
+    },
+    {
+      "epoch": 0.020715028393185637,
+      "grad_norm": 0.3137056231498718,
+      "learning_rate": 1.851726934143048e-05,
+      "loss": 0.7672,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 259,
+      "tokens_per_second_per_gpu": 16452.74,
+      "total_tokens": 6613284
+    },
+    {
+      "epoch": 0.02079500919779253,
+      "grad_norm": 0.28917086124420166,
+      "learning_rate": 1.849892692986864e-05,
+      "loss": 0.7599,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 260,
+      "tokens_per_second_per_gpu": 16640.08,
+      "total_tokens": 6637930
+    },
+    {
+      "epoch": 0.020874990002399424,
+      "grad_norm": 0.2955164313316345,
+      "learning_rate": 1.848048096156426e-05,
+      "loss": 0.8276,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 261,
+      "tokens_per_second_per_gpu": 17161.26,
+      "total_tokens": 6663889
+    },
+    {
+      "epoch": 0.02095497080700632,
+      "grad_norm": 0.3261178731918335,
+      "learning_rate": 1.8461931661275642e-05,
+      "loss": 0.8166,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 262,
+      "tokens_per_second_per_gpu": 17195.28,
+      "total_tokens": 6689227
+    },
+    {
+      "epoch": 0.02103495161161321,
+      "grad_norm": 0.33998236060142517,
+      "learning_rate": 1.8443279255020153e-05,
+      "loss": 0.8438,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 263,
+      "tokens_per_second_per_gpu": 17061.4,
+      "total_tokens": 6714449
+    },
+    {
+      "epoch": 0.021114932416220106,
+      "grad_norm": 0.2960314154624939,
+      "learning_rate": 1.842452397007148e-05,
+      "loss": 0.7353,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 264,
+      "tokens_per_second_per_gpu": 16816.51,
+      "total_tokens": 6739649
+    },
+    {
+      "epoch": 0.021194913220827002,
+      "grad_norm": 0.3163682520389557,
+      "learning_rate": 1.8405666034956842e-05,
+      "loss": 0.7903,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 265,
+      "tokens_per_second_per_gpu": 16833.27,
+      "total_tokens": 6764236
+    },
+    {
+      "epoch": 0.021274894025433897,
+      "grad_norm": 0.3097144365310669,
+      "learning_rate": 1.8386705679454243e-05,
+      "loss": 0.7922,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 266,
+      "tokens_per_second_per_gpu": 17249.38,
+      "total_tokens": 6790713
+    },
+    {
+      "epoch": 0.02135487483004079,
+      "grad_norm": 0.30585765838623047,
+      "learning_rate": 1.836764313458962e-05,
+      "loss": 0.7718,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 267,
+      "tokens_per_second_per_gpu": 17056.67,
+      "total_tokens": 6816552
+    },
+    {
+      "epoch": 0.021434855634647684,
+      "grad_norm": 0.31744128465652466,
+      "learning_rate": 1.8348478632634067e-05,
+      "loss": 0.8042,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 268,
+      "tokens_per_second_per_gpu": 16660.22,
+      "total_tokens": 6842118
+    },
+    {
+      "epoch": 0.02151483643925458,
+      "grad_norm": 0.32907190918922424,
+      "learning_rate": 1.8329212407100996e-05,
+      "loss": 0.7517,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 269,
+      "tokens_per_second_per_gpu": 16136.63,
+      "total_tokens": 6865763
+    },
+    {
+      "epoch": 0.021594817243861475,
+      "grad_norm": 0.30771222710609436,
+      "learning_rate": 1.8309844692743283e-05,
+      "loss": 0.7819,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 270,
+      "tokens_per_second_per_gpu": 17209.72,
+      "total_tokens": 6891634
+    },
+    {
+      "epoch": 0.021674798048468367,
+      "grad_norm": 0.31215161085128784,
+      "learning_rate": 1.8290375725550417e-05,
+      "loss": 0.7773,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 271,
+      "tokens_per_second_per_gpu": 16681.19,
+      "total_tokens": 6917029
+    },
+    {
+      "epoch": 0.021754778853075262,
+      "grad_norm": 0.31891316175460815,
+      "learning_rate": 1.827080574274562e-05,
+      "loss": 0.8129,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 272,
+      "tokens_per_second_per_gpu": 17075.42,
+      "total_tokens": 6942625
+    },
+    {
+      "epoch": 0.021834759657682157,
+      "grad_norm": 0.33234041929244995,
+      "learning_rate": 1.8251134982782952e-05,
+      "loss": 0.8021,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 273,
+      "tokens_per_second_per_gpu": 16993.73,
+      "total_tokens": 6968068
+    },
+    {
+      "epoch": 0.02191474046228905,
+      "grad_norm": 0.3127538859844208,
+      "learning_rate": 1.8231363685344422e-05,
+      "loss": 0.8295,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 274,
+      "tokens_per_second_per_gpu": 16858.57,
+      "total_tokens": 6993212
+    },
+    {
+      "epoch": 0.021994721266895945,
+      "grad_norm": 0.3256042003631592,
+      "learning_rate": 1.821149209133704e-05,
+      "loss": 0.7551,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 275,
+      "tokens_per_second_per_gpu": 16664.19,
+      "total_tokens": 7018151
+    },
+    {
+      "epoch": 0.02207470207150284,
+      "grad_norm": 0.33830273151397705,
+      "learning_rate": 1.819152044288992e-05,
+      "loss": 0.7927,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 276,
+      "tokens_per_second_per_gpu": 16526.59,
+      "total_tokens": 7042282
+    },
+    {
+      "epoch": 0.022154682876109735,
+      "grad_norm": 0.32764095067977905,
+      "learning_rate": 1.8171448983351284e-05,
+      "loss": 0.8133,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 277,
+      "tokens_per_second_per_gpu": 16885.71,
+      "total_tokens": 7068020
+    },
+    {
+      "epoch": 0.022234663680716627,
+      "grad_norm": 0.3218875527381897,
+      "learning_rate": 1.815127795728554e-05,
+      "loss": 0.8018,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 278,
+      "tokens_per_second_per_gpu": 17189.97,
+      "total_tokens": 7093302
+    },
+    {
+      "epoch": 0.022314644485323522,
+      "grad_norm": 0.304941326379776,
+      "learning_rate": 1.8131007610470278e-05,
+      "loss": 0.7814,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 279,
+      "tokens_per_second_per_gpu": 17206.92,
+      "total_tokens": 7119187
+    },
+    {
+      "epoch": 0.022394625289930418,
+      "grad_norm": 0.340358704328537,
+      "learning_rate": 1.8110638189893267e-05,
+      "loss": 0.8054,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 280,
+      "tokens_per_second_per_gpu": 16899.54,
+      "total_tokens": 7144790
+    },
+    {
+      "epoch": 0.02247460609453731,
+      "grad_norm": 0.3224817216396332,
+      "learning_rate": 1.8090169943749477e-05,
+      "loss": 0.808,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 281,
+      "tokens_per_second_per_gpu": 16848.86,
+      "total_tokens": 7170086
+    },
+    {
+      "epoch": 0.022554586899144205,
+      "grad_norm": 0.3096613585948944,
+      "learning_rate": 1.806960312143802e-05,
+      "loss": 0.7462,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 282,
+      "tokens_per_second_per_gpu": 17102.35,
+      "total_tokens": 7196108
+    },
+    {
+      "epoch": 0.0226345677037511,
+      "grad_norm": 0.3089353144168854,
+      "learning_rate": 1.804893797355914e-05,
+      "loss": 0.7468,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 283,
+      "tokens_per_second_per_gpu": 16643.16,
+      "total_tokens": 7221381
+    },
+    {
+      "epoch": 0.022714548508357996,
+      "grad_norm": 0.3287941813468933,
+      "learning_rate": 1.8028174751911147e-05,
+      "loss": 0.7332,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 284,
+      "tokens_per_second_per_gpu": 16230.46,
+      "total_tokens": 7245664
+    },
+    {
+      "epoch": 0.022794529312964888,
+      "grad_norm": 0.33320385217666626,
+      "learning_rate": 1.8007313709487334e-05,
+      "loss": 0.769,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 285,
+      "tokens_per_second_per_gpu": 17250.49,
+      "total_tokens": 7271281
+    },
+    {
+      "epoch": 0.022874510117571783,
+      "grad_norm": 0.33193832635879517,
+      "learning_rate": 1.798635510047293e-05,
+      "loss": 0.7806,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 286,
+      "tokens_per_second_per_gpu": 17234.16,
+      "total_tokens": 7297650
+    },
+    {
+      "epoch": 0.022954490922178678,
+      "grad_norm": 0.3023802638053894,
+      "learning_rate": 1.7965299180241963e-05,
+      "loss": 0.727,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 287,
+      "tokens_per_second_per_gpu": 16947.96,
+      "total_tokens": 7323634
+    },
+    {
+      "epoch": 0.02303447172678557,
+      "grad_norm": 0.3405572772026062,
+      "learning_rate": 1.7944146205354182e-05,
+      "loss": 0.7677,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 288,
+      "tokens_per_second_per_gpu": 17075.52,
+      "total_tokens": 7348943
+    },
+    {
+      "epoch": 0.023114452531392465,
+      "grad_norm": 0.33041706681251526,
+      "learning_rate": 1.792289643355191e-05,
+      "loss": 0.771,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 289,
+      "tokens_per_second_per_gpu": 17190.81,
+      "total_tokens": 7374829
+    },
+    {
+      "epoch": 0.02319443333599936,
+      "grad_norm": 0.3304063677787781,
+      "learning_rate": 1.7901550123756906e-05,
+      "loss": 0.7701,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 290,
+      "tokens_per_second_per_gpu": 17388.73,
+      "total_tokens": 7401339
+    },
+    {
+      "epoch": 0.023274414140606256,
+      "grad_norm": 0.3571583032608032,
+      "learning_rate": 1.788010753606722e-05,
+      "loss": 0.7701,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 291,
+      "tokens_per_second_per_gpu": 16986.08,
+      "total_tokens": 7426830
+    },
+    {
+      "epoch": 0.023354394945213148,
+      "grad_norm": 0.3259941339492798,
+      "learning_rate": 1.785856893175402e-05,
+      "loss": 0.7765,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 292,
+      "tokens_per_second_per_gpu": 17349.81,
+      "total_tokens": 7452984
+    },
+    {
+      "epoch": 0.023434375749820043,
+      "grad_norm": 0.3239382803440094,
+      "learning_rate": 1.78369345732584e-05,
+      "loss": 0.7691,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 293,
+      "tokens_per_second_per_gpu": 17073.92,
+      "total_tokens": 7477969
+    },
+    {
+      "epoch": 0.02351435655442694,
+      "grad_norm": 0.3326447010040283,
+      "learning_rate": 1.781520472418819e-05,
+      "loss": 0.7332,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 294,
+      "tokens_per_second_per_gpu": 16657.1,
+      "total_tokens": 7502565
+    },
+    {
+      "epoch": 0.02359433735903383,
+      "grad_norm": 0.34120991826057434,
+      "learning_rate": 1.7793379649314743e-05,
+      "loss": 0.7993,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 295,
+      "tokens_per_second_per_gpu": 16742.23,
+      "total_tokens": 7527568
+    },
+    {
+      "epoch": 0.023674318163640726,
+      "grad_norm": 0.33794164657592773,
+      "learning_rate": 1.777145961456971e-05,
+      "loss": 0.8072,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 296,
+      "tokens_per_second_per_gpu": 17036.53,
+      "total_tokens": 7552596
+    },
+    {
+      "epoch": 0.02375429896824762,
+      "grad_norm": 0.3645365834236145,
+      "learning_rate": 1.7749444887041797e-05,
+      "loss": 0.7621,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 297,
+      "tokens_per_second_per_gpu": 16764.81,
+      "total_tokens": 7577121
+    },
+    {
+      "epoch": 0.023834279772854516,
+      "grad_norm": 0.35922765731811523,
+      "learning_rate": 1.7727335734973512e-05,
+      "loss": 0.7771,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 298,
+      "tokens_per_second_per_gpu": 17504.58,
+      "total_tokens": 7602943
+    },
+    {
+      "epoch": 0.023914260577461408,
+      "grad_norm": 0.3424239456653595,
+      "learning_rate": 1.7705132427757895e-05,
+      "loss": 0.729,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 299,
+      "tokens_per_second_per_gpu": 16983.33,
+      "total_tokens": 7627654
+    },
+    {
+      "epoch": 0.023994241382068304,
+      "grad_norm": 0.34089338779449463,
+      "learning_rate": 1.7682835235935236e-05,
+      "loss": 0.7803,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 300,
+      "tokens_per_second_per_gpu": 16880.41,
+      "total_tokens": 7653306
+    },
+    {
+      "epoch": 0.0240742221866752,
+      "grad_norm": 0.3372519016265869,
+      "learning_rate": 1.766044443118978e-05,
+      "loss": 0.7079,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 301,
+      "tokens_per_second_per_gpu": 16821.65,
+      "total_tokens": 7678769
+    },
+    {
+      "epoch": 0.02415420299128209,
+      "grad_norm": 0.33545535802841187,
+      "learning_rate": 1.7637960286346423e-05,
+      "loss": 0.7465,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 302,
+      "tokens_per_second_per_gpu": 16997.07,
+      "total_tokens": 7704035
+    },
+    {
+      "epoch": 0.024234183795888986,
+      "grad_norm": 0.35364168882369995,
+      "learning_rate": 1.761538307536737e-05,
+      "loss": 0.8609,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 303,
+      "tokens_per_second_per_gpu": 17088.38,
+      "total_tokens": 7729313
+    },
+    {
+      "epoch": 0.02431416460049588,
+      "grad_norm": 0.3543623089790344,
+      "learning_rate": 1.759271307334881e-05,
+      "loss": 0.7496,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 304,
+      "tokens_per_second_per_gpu": 16831.61,
+      "total_tokens": 7754311
+    },
+    {
+      "epoch": 0.024394145405102777,
+      "grad_norm": 0.35020682215690613,
+      "learning_rate": 1.7569950556517566e-05,
+      "loss": 0.8171,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 305,
+      "tokens_per_second_per_gpu": 17372.62,
+      "total_tokens": 7780114
+    },
+    {
+      "epoch": 0.02447412620970967,
+      "grad_norm": 0.3287740647792816,
+      "learning_rate": 1.7547095802227723e-05,
+      "loss": 0.756,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 306,
+      "tokens_per_second_per_gpu": 17061.4,
+      "total_tokens": 7806162
+    },
+    {
+      "epoch": 0.024554107014316564,
+      "grad_norm": 0.347204327583313,
+      "learning_rate": 1.7524149088957244e-05,
+      "loss": 0.7294,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 307,
+      "tokens_per_second_per_gpu": 16759.71,
+      "total_tokens": 7831007
+    },
+    {
+      "epoch": 0.02463408781892346,
+      "grad_norm": 0.36060085892677307,
+      "learning_rate": 1.7501110696304598e-05,
+      "loss": 0.7522,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 308,
+      "tokens_per_second_per_gpu": 16761.57,
+      "total_tokens": 7855632
+    },
+    {
+      "epoch": 0.02471406862353035,
+      "grad_norm": 0.3645978569984436,
+      "learning_rate": 1.747798090498532e-05,
+      "loss": 0.7788,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 309,
+      "tokens_per_second_per_gpu": 17255.8,
+      "total_tokens": 7881203
+    },
+    {
+      "epoch": 0.024794049428137246,
+      "grad_norm": 0.37542036175727844,
+      "learning_rate": 1.7454759996828622e-05,
+      "loss": 0.7185,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 310,
+      "tokens_per_second_per_gpu": 16261.57,
+      "total_tokens": 7905495
+    },
+    {
+      "epoch": 0.024874030232744142,
+      "grad_norm": 0.34638047218322754,
+      "learning_rate": 1.7431448254773943e-05,
+      "loss": 0.7835,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 311,
+      "tokens_per_second_per_gpu": 17285.95,
+      "total_tokens": 7932504
+    },
+    {
+      "epoch": 0.024954011037351037,
+      "grad_norm": 0.342735230922699,
+      "learning_rate": 1.74080459628675e-05,
+      "loss": 0.777,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 312,
+      "tokens_per_second_per_gpu": 17247.27,
+      "total_tokens": 7958943
+    },
+    {
+      "epoch": 0.02503399184195793,
+      "grad_norm": 0.3410895764827728,
+      "learning_rate": 1.7384553406258842e-05,
+      "loss": 0.7335,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 313,
+      "tokens_per_second_per_gpu": 16698.56,
+      "total_tokens": 7984134
+    },
+    {
+      "epoch": 0.025113972646564824,
+      "grad_norm": 0.3840852379798889,
+      "learning_rate": 1.7360970871197347e-05,
+      "loss": 0.7869,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 314,
+      "tokens_per_second_per_gpu": 17022.06,
+      "total_tokens": 8009259
+    },
+    {
+      "epoch": 0.02519395345117172,
+      "grad_norm": 0.36912381649017334,
+      "learning_rate": 1.7337298645028764e-05,
+      "loss": 0.7762,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 315,
+      "tokens_per_second_per_gpu": 17332.18,
+      "total_tokens": 8035054
+    },
+    {
+      "epoch": 0.02527393425577861,
+      "grad_norm": 0.3521462082862854,
+      "learning_rate": 1.7313537016191706e-05,
+      "loss": 0.8045,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 316,
+      "tokens_per_second_per_gpu": 17373.03,
+      "total_tokens": 8061906
+    },
+    {
+      "epoch": 0.025353915060385507,
+      "grad_norm": 0.33142420649528503,
+      "learning_rate": 1.7289686274214116e-05,
+      "loss": 0.7184,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 317,
+      "tokens_per_second_per_gpu": 17144.27,
+      "total_tokens": 8087938
+    },
+    {
+      "epoch": 0.025433895864992402,
+      "grad_norm": 0.3533654808998108,
+      "learning_rate": 1.7265746709709762e-05,
+      "loss": 0.7285,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 318,
+      "tokens_per_second_per_gpu": 16330.33,
+      "total_tokens": 8112163
+    },
+    {
+      "epoch": 0.025513876669599297,
+      "grad_norm": 0.37131303548812866,
+      "learning_rate": 1.7241718614374678e-05,
+      "loss": 0.7473,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 319,
+      "tokens_per_second_per_gpu": 16981.6,
+      "total_tokens": 8137330
+    },
+    {
+      "epoch": 0.02559385747420619,
+      "grad_norm": 0.3532845675945282,
+      "learning_rate": 1.7217602280983622e-05,
+      "loss": 0.7588,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 320,
+      "tokens_per_second_per_gpu": 16989.56,
+      "total_tokens": 8163328
+    },
+    {
+      "epoch": 0.025673838278813085,
+      "grad_norm": 0.3767626881599426,
+      "learning_rate": 1.7193398003386514e-05,
+      "loss": 0.7187,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 321,
+      "tokens_per_second_per_gpu": 16326.84,
+      "total_tokens": 8187352
+    },
+    {
+      "epoch": 0.02575381908341998,
+      "grad_norm": 0.35990527272224426,
+      "learning_rate": 1.716910607650483e-05,
+      "loss": 0.7561,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 322,
+      "tokens_per_second_per_gpu": 16850.09,
+      "total_tokens": 8212291
+    },
+    {
+      "epoch": 0.025833799888026872,
+      "grad_norm": 0.3629964590072632,
+      "learning_rate": 1.7144726796328034e-05,
+      "loss": 0.7782,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 323,
+      "tokens_per_second_per_gpu": 17002.36,
+      "total_tokens": 8237584
+    },
+    {
+      "epoch": 0.025913780692633767,
+      "grad_norm": 0.3404940068721771,
+      "learning_rate": 1.712026045990997e-05,
+      "loss": 0.7393,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 324,
+      "tokens_per_second_per_gpu": 17033.24,
+      "total_tokens": 8263414
+    },
+    {
+      "epoch": 0.025993761497240662,
+      "grad_norm": 0.3736456334590912,
+      "learning_rate": 1.709570736536521e-05,
+      "loss": 0.7916,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 325,
+      "tokens_per_second_per_gpu": 17195.68,
+      "total_tokens": 8289808
+    },
+    {
+      "epoch": 0.026073742301847558,
+      "grad_norm": 0.3524475693702698,
+      "learning_rate": 1.7071067811865477e-05,
+      "loss": 0.6945,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 326,
+      "tokens_per_second_per_gpu": 16341.29,
+      "total_tokens": 8314490
+    },
+    {
+      "epoch": 0.02615372310645445,
+      "grad_norm": 0.3585701286792755,
+      "learning_rate": 1.7046342099635948e-05,
+      "loss": 0.7295,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 327,
+      "tokens_per_second_per_gpu": 16935.65,
+      "total_tokens": 8339442
+    },
+    {
+      "epoch": 0.026233703911061345,
+      "grad_norm": 0.3640107810497284,
+      "learning_rate": 1.7021530529951627e-05,
+      "loss": 0.7135,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 328,
+      "tokens_per_second_per_gpu": 16629.7,
+      "total_tokens": 8364542
+    },
+    {
+      "epoch": 0.02631368471566824,
+      "grad_norm": 0.3694165050983429,
+      "learning_rate": 1.6996633405133656e-05,
+      "loss": 0.7346,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 329,
+      "tokens_per_second_per_gpu": 16903.87,
+      "total_tokens": 8389153
+    },
+    {
+      "epoch": 0.026393665520275136,
+      "grad_norm": 0.42035412788391113,
+      "learning_rate": 1.697165102854565e-05,
+      "loss": 0.7501,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 330,
+      "tokens_per_second_per_gpu": 16961.37,
+      "total_tokens": 8414362
+    },
+    {
+      "epoch": 0.026473646324882028,
+      "grad_norm": 0.36393973231315613,
+      "learning_rate": 1.6946583704589973e-05,
+      "loss": 0.7965,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 331,
+      "tokens_per_second_per_gpu": 16662.47,
+      "total_tokens": 8439456
+    },
+    {
+      "epoch": 0.026553627129488923,
+      "grad_norm": 0.36519739031791687,
+      "learning_rate": 1.692143173870407e-05,
+      "loss": 0.6917,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 332,
+      "tokens_per_second_per_gpu": 16982.28,
+      "total_tokens": 8465047
+    },
+    {
+      "epoch": 0.026633607934095818,
+      "grad_norm": 0.36028608679771423,
+      "learning_rate": 1.68961954373567e-05,
+      "loss": 0.7372,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 333,
+      "tokens_per_second_per_gpu": 17268.51,
+      "total_tokens": 8491108
+    },
+    {
+      "epoch": 0.02671358873870271,
+      "grad_norm": 0.3669857382774353,
+      "learning_rate": 1.6870875108044233e-05,
+      "loss": 0.7399,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 334,
+      "tokens_per_second_per_gpu": 17302.25,
+      "total_tokens": 8517165
+    },
+    {
+      "epoch": 0.026793569543309605,
+      "grad_norm": 0.3491288721561432,
+      "learning_rate": 1.684547105928689e-05,
+      "loss": 0.7207,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 335,
+      "tokens_per_second_per_gpu": 16568.06,
+      "total_tokens": 8541827
+    },
+    {
+      "epoch": 0.0268735503479165,
+      "grad_norm": 0.3872898817062378,
+      "learning_rate": 1.6819983600624986e-05,
+      "loss": 0.7689,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 336,
+      "tokens_per_second_per_gpu": 16928.56,
+      "total_tokens": 8566999
+    },
+    {
+      "epoch": 0.026953531152523396,
+      "grad_norm": 0.3505984842777252,
+      "learning_rate": 1.6794413042615168e-05,
+      "loss": 0.6918,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 337,
+      "tokens_per_second_per_gpu": 16909.05,
+      "total_tokens": 8591876
+    },
+    {
+      "epoch": 0.027033511957130288,
+      "grad_norm": 0.37660378217697144,
+      "learning_rate": 1.6768759696826608e-05,
+      "loss": 0.7235,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 338,
+      "tokens_per_second_per_gpu": 17084.11,
+      "total_tokens": 8617647
+    },
+    {
+      "epoch": 0.027113492761737183,
+      "grad_norm": 0.38223305344581604,
+      "learning_rate": 1.6743023875837233e-05,
+      "loss": 0.7838,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 339,
+      "tokens_per_second_per_gpu": 17355.85,
+      "total_tokens": 8643982
+    },
+    {
+      "epoch": 0.02719347356634408,
+      "grad_norm": 0.3753760755062103,
+      "learning_rate": 1.6717205893229904e-05,
+      "loss": 0.7303,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 340,
+      "tokens_per_second_per_gpu": 16722.16,
+      "total_tokens": 8669112
+    },
+    {
+      "epoch": 0.02727345437095097,
+      "grad_norm": 0.3831718862056732,
+      "learning_rate": 1.6691306063588583e-05,
+      "loss": 0.7441,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 341,
+      "tokens_per_second_per_gpu": 16783.28,
+      "total_tokens": 8694589
+    },
+    {
+      "epoch": 0.027353435175557866,
+      "grad_norm": 0.38198089599609375,
+      "learning_rate": 1.6665324702494524e-05,
+      "loss": 0.7216,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 342,
+      "tokens_per_second_per_gpu": 16233.97,
+      "total_tokens": 8719038
+    },
+    {
+      "epoch": 0.02743341598016476,
+      "grad_norm": 0.37571123242378235,
+      "learning_rate": 1.6639262126522417e-05,
+      "loss": 0.8385,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 343,
+      "tokens_per_second_per_gpu": 17524.97,
+      "total_tokens": 8745289
+    },
+    {
+      "epoch": 0.027513396784771656,
+      "grad_norm": 0.3696345388889313,
+      "learning_rate": 1.661311865323652e-05,
+      "loss": 0.7894,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 344,
+      "tokens_per_second_per_gpu": 16521.06,
+      "total_tokens": 8770700
+    },
+    {
+      "epoch": 0.027593377589378548,
+      "grad_norm": 0.3620677590370178,
+      "learning_rate": 1.6586894601186804e-05,
+      "loss": 0.7883,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 345,
+      "tokens_per_second_per_gpu": 17402.15,
+      "total_tokens": 8797084
+    },
+    {
+      "epoch": 0.027673358393985444,
+      "grad_norm": 0.372738242149353,
+      "learning_rate": 1.6560590289905074e-05,
+      "loss": 0.7291,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 346,
+      "tokens_per_second_per_gpu": 17215.48,
+      "total_tokens": 8822494
+    },
+    {
+      "epoch": 0.02775333919859234,
+      "grad_norm": 0.3729492425918579,
+      "learning_rate": 1.6534206039901057e-05,
+      "loss": 0.7847,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 347,
+      "tokens_per_second_per_gpu": 16917.18,
+      "total_tokens": 8847694
+    },
+    {
+      "epoch": 0.02783332000319923,
+      "grad_norm": 0.3795606791973114,
+      "learning_rate": 1.650774217265851e-05,
+      "loss": 0.7178,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 348,
+      "tokens_per_second_per_gpu": 16262.38,
+      "total_tokens": 8871607
+    },
+    {
+      "epoch": 0.027913300807806126,
+      "grad_norm": 0.38951990008354187,
+      "learning_rate": 1.6481199010631312e-05,
+      "loss": 0.732,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 349,
+      "tokens_per_second_per_gpu": 16713.27,
+      "total_tokens": 8896607
+    },
+    {
+      "epoch": 0.02799328161241302,
+      "grad_norm": 0.37609028816223145,
+      "learning_rate": 1.645457687723951e-05,
+      "loss": 0.7056,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 350,
+      "tokens_per_second_per_gpu": 17036.12,
+      "total_tokens": 8921918
+    },
+    {
+      "epoch": 0.028073262417019917,
+      "grad_norm": 0.354303240776062,
+      "learning_rate": 1.6427876096865394e-05,
+      "loss": 0.7704,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 351,
+      "tokens_per_second_per_gpu": 17543.34,
+      "total_tokens": 8948802
+    },
+    {
+      "epoch": 0.02815324322162681,
+      "grad_norm": 0.367156445980072,
+      "learning_rate": 1.6401096994849558e-05,
+      "loss": 0.7856,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 352,
+      "tokens_per_second_per_gpu": 17447.98,
+      "total_tokens": 8975725
+    },
+    {
+      "epoch": 0.028233224026233704,
+      "grad_norm": 0.3801327645778656,
+      "learning_rate": 1.63742398974869e-05,
+      "loss": 0.7162,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 353,
+      "tokens_per_second_per_gpu": 16838.46,
+      "total_tokens": 9000553
+    },
+    {
+      "epoch": 0.0283132048308406,
+      "grad_norm": 0.3771909773349762,
+      "learning_rate": 1.6347305132022677e-05,
+      "loss": 0.7503,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 354,
+      "tokens_per_second_per_gpu": 17019.93,
+      "total_tokens": 9026503
+    },
+    {
+      "epoch": 0.02839318563544749,
+      "grad_norm": 0.3548984229564667,
+      "learning_rate": 1.632029302664851e-05,
+      "loss": 0.7121,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 355,
+      "tokens_per_second_per_gpu": 17243.63,
+      "total_tokens": 9052692
+    },
+    {
+      "epoch": 0.028473166440054386,
+      "grad_norm": 0.38791143894195557,
+      "learning_rate": 1.6293203910498375e-05,
+      "loss": 0.7143,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 356,
+      "tokens_per_second_per_gpu": 16719.42,
+      "total_tokens": 9077149
+    },
+    {
+      "epoch": 0.028553147244661282,
+      "grad_norm": 0.37814652919769287,
+      "learning_rate": 1.6266038113644605e-05,
+      "loss": 0.7185,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 357,
+      "tokens_per_second_per_gpu": 16720.19,
+      "total_tokens": 9102344
+    },
+    {
+      "epoch": 0.028633128049268177,
+      "grad_norm": 0.39943739771842957,
+      "learning_rate": 1.6238795967093865e-05,
+      "loss": 0.7723,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 358,
+      "tokens_per_second_per_gpu": 17517.32,
+      "total_tokens": 9128929
+    },
+    {
+      "epoch": 0.02871310885387507,
+      "grad_norm": 0.3772953748703003,
+      "learning_rate": 1.6211477802783105e-05,
+      "loss": 0.728,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 359,
+      "tokens_per_second_per_gpu": 16422.02,
+      "total_tokens": 9153580
+    },
+    {
+      "epoch": 0.028793089658481964,
+      "grad_norm": 0.38691309094429016,
+      "learning_rate": 1.6184083953575543e-05,
+      "loss": 0.7345,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 360,
+      "tokens_per_second_per_gpu": 17226.57,
+      "total_tokens": 9179977
+    },
+    {
+      "epoch": 0.02887307046308886,
+      "grad_norm": 0.38146907091140747,
+      "learning_rate": 1.6156614753256583e-05,
+      "loss": 0.7257,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 361,
+      "tokens_per_second_per_gpu": 16847.61,
+      "total_tokens": 9205256
+    },
+    {
+      "epoch": 0.02895305126769575,
+      "grad_norm": 0.3648886978626251,
+      "learning_rate": 1.6129070536529767e-05,
+      "loss": 0.7108,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 362,
+      "tokens_per_second_per_gpu": 16919.86,
+      "total_tokens": 9230795
+    },
+    {
+      "epoch": 0.029033032072302647,
+      "grad_norm": 0.39110928773880005,
+      "learning_rate": 1.610145163901268e-05,
+      "loss": 0.7205,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 363,
+      "tokens_per_second_per_gpu": 16929.94,
+      "total_tokens": 9256324
+    },
+    {
+      "epoch": 0.029113012876909542,
+      "grad_norm": 0.3927913308143616,
+      "learning_rate": 1.607375839723287e-05,
+      "loss": 0.7325,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 364,
+      "tokens_per_second_per_gpu": 17259.35,
+      "total_tokens": 9282305
+    },
+    {
+      "epoch": 0.029192993681516437,
+      "grad_norm": 0.4146783947944641,
+      "learning_rate": 1.6045991148623752e-05,
+      "loss": 0.7032,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 365,
+      "tokens_per_second_per_gpu": 17299.87,
+      "total_tokens": 9307760
+    },
+    {
+      "epoch": 0.02927297448612333,
+      "grad_norm": 0.38273462653160095,
+      "learning_rate": 1.6018150231520486e-05,
+      "loss": 0.7482,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 366,
+      "tokens_per_second_per_gpu": 16898.79,
+      "total_tokens": 9333318
+    },
+    {
+      "epoch": 0.029352955290730225,
+      "grad_norm": 0.37070807814598083,
+      "learning_rate": 1.599023598515586e-05,
+      "loss": 0.7562,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 367,
+      "tokens_per_second_per_gpu": 17749.01,
+      "total_tokens": 9360564
+    },
+    {
+      "epoch": 0.02943293609533712,
+      "grad_norm": 0.3885659873485565,
+      "learning_rate": 1.5962248749656158e-05,
+      "loss": 0.7191,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 368,
+      "tokens_per_second_per_gpu": 17134.11,
+      "total_tokens": 9386204
+    },
+    {
+      "epoch": 0.029512916899944012,
+      "grad_norm": 0.40251046419143677,
+      "learning_rate": 1.5934188866037017e-05,
+      "loss": 0.7055,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 369,
+      "tokens_per_second_per_gpu": 17219.31,
+      "total_tokens": 9412581
+    },
+    {
+      "epoch": 0.029592897704550907,
+      "grad_norm": 0.40094780921936035,
+      "learning_rate": 1.5906056676199256e-05,
+      "loss": 0.6937,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 370,
+      "tokens_per_second_per_gpu": 16162.93,
+      "total_tokens": 9437163
+    },
+    {
+      "epoch": 0.029672878509157802,
+      "grad_norm": 0.41726741194725037,
+      "learning_rate": 1.5877852522924733e-05,
+      "loss": 0.7203,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 371,
+      "tokens_per_second_per_gpu": 16507.8,
+      "total_tokens": 9461430
+    },
+    {
+      "epoch": 0.029752859313764698,
+      "grad_norm": 0.4103233218193054,
+      "learning_rate": 1.584957674987216e-05,
+      "loss": 0.6705,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 372,
+      "tokens_per_second_per_gpu": 16712.62,
+      "total_tokens": 9485701
+    },
+    {
+      "epoch": 0.02983284011837159,
+      "grad_norm": 0.4164546728134155,
+      "learning_rate": 1.5821229701572897e-05,
+      "loss": 0.741,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 373,
+      "tokens_per_second_per_gpu": 16965.21,
+      "total_tokens": 9511120
+    },
+    {
+      "epoch": 0.029912820922978485,
+      "grad_norm": 0.3924483358860016,
+      "learning_rate": 1.5792811723426787e-05,
+      "loss": 0.7683,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 374,
+      "tokens_per_second_per_gpu": 17353.54,
+      "total_tokens": 9537186
+    },
+    {
+      "epoch": 0.02999280172758538,
+      "grad_norm": 0.4054587781429291,
+      "learning_rate": 1.5764323161697933e-05,
+      "loss": 0.7073,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 375,
+      "tokens_per_second_per_gpu": 17264.54,
+      "total_tokens": 9563703
+    },
+    {
+      "epoch": 0.030072782532192272,
+      "grad_norm": 0.3829587996006012,
+      "learning_rate": 1.573576436351046e-05,
+      "loss": 0.73,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 376,
+      "tokens_per_second_per_gpu": 17249.09,
+      "total_tokens": 9589768
+    },
+    {
+      "epoch": 0.030152763336799168,
+      "grad_norm": 0.4045129418373108,
+      "learning_rate": 1.570713567684432e-05,
+      "loss": 0.6873,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 377,
+      "tokens_per_second_per_gpu": 16495.57,
+      "total_tokens": 9614554
+    },
+    {
+      "epoch": 0.030232744141406063,
+      "grad_norm": 0.42311742901802063,
+      "learning_rate": 1.5678437450531014e-05,
+      "loss": 0.7036,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 378,
+      "tokens_per_second_per_gpu": 17035.79,
+      "total_tokens": 9639664
+    },
+    {
+      "epoch": 0.030312724946012958,
+      "grad_norm": 0.40890172123908997,
+      "learning_rate": 1.564967003424938e-05,
+      "loss": 0.7218,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 379,
+      "tokens_per_second_per_gpu": 16421.78,
+      "total_tokens": 9663997
+    },
+    {
+      "epoch": 0.03039270575061985,
+      "grad_norm": 0.37312084436416626,
+      "learning_rate": 1.5620833778521306e-05,
+      "loss": 0.6829,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 380,
+      "tokens_per_second_per_gpu": 17273.67,
+      "total_tokens": 9690145
+    },
+    {
+      "epoch": 0.030472686555226745,
+      "grad_norm": 0.40423229336738586,
+      "learning_rate": 1.5591929034707468e-05,
+      "loss": 0.7155,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 381,
+      "tokens_per_second_per_gpu": 17179.5,
+      "total_tokens": 9715856
+    },
+    {
+      "epoch": 0.03055266735983364,
+      "grad_norm": 0.3965972363948822,
+      "learning_rate": 1.556295615500305e-05,
+      "loss": 0.7335,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 382,
+      "tokens_per_second_per_gpu": 16914.33,
+      "total_tokens": 9740705
+    },
+    {
+      "epoch": 0.030632648164440533,
+      "grad_norm": 0.39814358949661255,
+      "learning_rate": 1.553391549243344e-05,
+      "loss": 0.6777,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 383,
+      "tokens_per_second_per_gpu": 16778.95,
+      "total_tokens": 9765413
+    },
+    {
+      "epoch": 0.030712628969047428,
+      "grad_norm": 0.41755273938179016,
+      "learning_rate": 1.5504807400849957e-05,
+      "loss": 0.7882,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 384,
+      "tokens_per_second_per_gpu": 16864.26,
+      "total_tokens": 9790820
+    },
+    {
+      "epoch": 0.030792609773654323,
+      "grad_norm": 0.4052574932575226,
+      "learning_rate": 1.5475632234925505e-05,
+      "loss": 0.7715,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 385,
+      "tokens_per_second_per_gpu": 17356.01,
+      "total_tokens": 9817140
+    },
+    {
+      "epoch": 0.03087259057826122,
+      "grad_norm": 0.3887154757976532,
+      "learning_rate": 1.5446390350150272e-05,
+      "loss": 0.6877,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 386,
+      "tokens_per_second_per_gpu": 16417.7,
+      "total_tokens": 9841945
+    },
+    {
+      "epoch": 0.03095257138286811,
+      "grad_norm": 0.39953020215034485,
+      "learning_rate": 1.54170821028274e-05,
+      "loss": 0.7477,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 387,
+      "tokens_per_second_per_gpu": 17048.84,
+      "total_tokens": 9867366
+    },
+    {
+      "epoch": 0.031032552187475006,
+      "grad_norm": 0.3856733441352844,
+      "learning_rate": 1.5387707850068633e-05,
+      "loss": 0.654,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 388,
+      "tokens_per_second_per_gpu": 16843.48,
+      "total_tokens": 9892604
+    },
+    {
+      "epoch": 0.0311125329920819,
+      "grad_norm": 0.3791309595108032,
+      "learning_rate": 1.5358267949789968e-05,
+      "loss": 0.7138,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 389,
+      "tokens_per_second_per_gpu": 17779.4,
+      "total_tokens": 9919047
+    },
+    {
+      "epoch": 0.031192513796688796,
+      "grad_norm": 0.4217212498188019,
+      "learning_rate": 1.53287627607073e-05,
+      "loss": 0.7381,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 390,
+      "tokens_per_second_per_gpu": 17139.02,
+      "total_tokens": 9944164
+    },
+    {
+      "epoch": 0.03127249460129569,
+      "grad_norm": 0.3937268853187561,
+      "learning_rate": 1.529919264233205e-05,
+      "loss": 0.6793,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 391,
+      "tokens_per_second_per_gpu": 16873.44,
+      "total_tokens": 9969559
+    },
+    {
+      "epoch": 0.03135247540590258,
+      "grad_norm": 0.39358460903167725,
+      "learning_rate": 1.5269557954966777e-05,
+      "loss": 0.7156,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 392,
+      "tokens_per_second_per_gpu": 16668.99,
+      "total_tokens": 9994082
+    },
+    {
+      "epoch": 0.031432456210509475,
+      "grad_norm": 0.41820088028907776,
+      "learning_rate": 1.5239859059700794e-05,
+      "loss": 0.7444,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 393,
+      "tokens_per_second_per_gpu": 16729.16,
+      "total_tokens": 10019253
+    },
+    {
+      "epoch": 0.03151243701511637,
+      "grad_norm": 0.40098121762275696,
+      "learning_rate": 1.5210096318405768e-05,
+      "loss": 0.7275,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 394,
+      "tokens_per_second_per_gpu": 17146.85,
+      "total_tokens": 10044970
+    },
+    {
+      "epoch": 0.031592417819723266,
+      "grad_norm": 0.3832881450653076,
+      "learning_rate": 1.5180270093731305e-05,
+      "loss": 0.7174,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 395,
+      "tokens_per_second_per_gpu": 16825.22,
+      "total_tokens": 10069975
+    },
+    {
+      "epoch": 0.03167239862433016,
+      "grad_norm": 0.5176158547401428,
+      "learning_rate": 1.5150380749100545e-05,
+      "loss": 0.7295,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 396,
+      "tokens_per_second_per_gpu": 17251.5,
+      "total_tokens": 10095923
+    },
+    {
+      "epoch": 0.03175237942893706,
+      "grad_norm": 0.3928660452365875,
+      "learning_rate": 1.5120428648705716e-05,
+      "loss": 0.6951,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 397,
+      "tokens_per_second_per_gpu": 17162.01,
+      "total_tokens": 10122361
+    },
+    {
+      "epoch": 0.03183236023354395,
+      "grad_norm": 0.3940604627132416,
+      "learning_rate": 1.5090414157503715e-05,
+      "loss": 0.7341,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 398,
+      "tokens_per_second_per_gpu": 16976.56,
+      "total_tokens": 10148210
+    },
+    {
+      "epoch": 0.03191234103815084,
+      "grad_norm": 0.4209328591823578,
+      "learning_rate": 1.5060337641211637e-05,
+      "loss": 0.7186,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 399,
+      "tokens_per_second_per_gpu": 16919.75,
+      "total_tokens": 10173572
+    },
+    {
+      "epoch": 0.031992321842757736,
+      "grad_norm": 0.40747904777526855,
+      "learning_rate": 1.5030199466302354e-05,
+      "loss": 0.7456,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 400,
+      "tokens_per_second_per_gpu": 17805.14,
+      "total_tokens": 10200493
+    },
+    {
+      "epoch": 0.03207230264736463,
+      "grad_norm": 0.46691301465034485,
+      "learning_rate": 1.5000000000000002e-05,
+      "loss": 0.726,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 401,
+      "tokens_per_second_per_gpu": 16555.25,
+      "total_tokens": 10224698
+    },
+    {
+      "epoch": 0.032152283451971526,
+      "grad_norm": 0.3882039487361908,
+      "learning_rate": 1.4969739610275556e-05,
+      "loss": 0.6911,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 402,
+      "tokens_per_second_per_gpu": 17460.29,
+      "total_tokens": 10250839
+    },
+    {
+      "epoch": 0.03223226425657842,
+      "grad_norm": 0.41841983795166016,
+      "learning_rate": 1.493941866584231e-05,
+      "loss": 0.7002,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 403,
+      "tokens_per_second_per_gpu": 17185.88,
+      "total_tokens": 10276595
+    },
+    {
+      "epoch": 0.03231224506118532,
+      "grad_norm": 0.4183862805366516,
+      "learning_rate": 1.490903753615141e-05,
+      "loss": 0.6808,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 404,
+      "tokens_per_second_per_gpu": 16490.44,
+      "total_tokens": 10301334
+    },
+    {
+      "epoch": 0.03239222586579221,
+      "grad_norm": 0.426186740398407,
+      "learning_rate": 1.4878596591387329e-05,
+      "loss": 0.7433,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 405,
+      "tokens_per_second_per_gpu": 17491.41,
+      "total_tokens": 10326588
+    },
+    {
+      "epoch": 0.0324722066703991,
+      "grad_norm": 0.4127671718597412,
+      "learning_rate": 1.4848096202463373e-05,
+      "loss": 0.6778,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 406,
+      "tokens_per_second_per_gpu": 16889.42,
+      "total_tokens": 10351330
+    },
+    {
+      "epoch": 0.032552187475005996,
+      "grad_norm": 0.3885892629623413,
+      "learning_rate": 1.4817536741017153e-05,
+      "loss": 0.6335,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 407,
+      "tokens_per_second_per_gpu": 17271.18,
+      "total_tokens": 10376865
+    },
+    {
+      "epoch": 0.03263216827961289,
+      "grad_norm": 0.4392751157283783,
+      "learning_rate": 1.478691857940607e-05,
+      "loss": 0.6889,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 408,
+      "tokens_per_second_per_gpu": 17086.59,
+      "total_tokens": 10401715
+    },
+    {
+      "epoch": 0.03271214908421979,
+      "grad_norm": 0.4046195149421692,
+      "learning_rate": 1.4756242090702756e-05,
+      "loss": 0.6995,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 409,
+      "tokens_per_second_per_gpu": 17387.64,
+      "total_tokens": 10427512
+    },
+    {
+      "epoch": 0.03279212988882668,
+      "grad_norm": 0.42296287417411804,
+      "learning_rate": 1.4725507648690542e-05,
+      "loss": 0.6922,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 410,
+      "tokens_per_second_per_gpu": 16433.12,
+      "total_tokens": 10452185
+    },
+    {
+      "epoch": 0.03287211069343358,
+      "grad_norm": 0.41615429520606995,
+      "learning_rate": 1.469471562785891e-05,
+      "loss": 0.6738,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 411,
+      "tokens_per_second_per_gpu": 17170.46,
+      "total_tokens": 10477581
+    },
+    {
+      "epoch": 0.03295209149804047,
+      "grad_norm": 0.4219436049461365,
+      "learning_rate": 1.4663866403398915e-05,
+      "loss": 0.6897,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 412,
+      "tokens_per_second_per_gpu": 16646.71,
+      "total_tokens": 10502411
+    },
+    {
+      "epoch": 0.03303207230264737,
+      "grad_norm": 0.42644554376602173,
+      "learning_rate": 1.463296035119862e-05,
+      "loss": 0.7273,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 413,
+      "tokens_per_second_per_gpu": 16944.04,
+      "total_tokens": 10527755
+    },
+    {
+      "epoch": 0.033112053107254256,
+      "grad_norm": 0.39926496148109436,
+      "learning_rate": 1.4601997847838518e-05,
+      "loss": 0.7163,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 414,
+      "tokens_per_second_per_gpu": 17372.82,
+      "total_tokens": 10554332
+    },
+    {
+      "epoch": 0.03319203391186115,
+      "grad_norm": 0.40787941217422485,
+      "learning_rate": 1.4570979270586944e-05,
+      "loss": 0.6688,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 415,
+      "tokens_per_second_per_gpu": 17193.02,
+      "total_tokens": 10580110
+    },
+    {
+      "epoch": 0.03327201471646805,
+      "grad_norm": 0.42348116636276245,
+      "learning_rate": 1.4539904997395468e-05,
+      "loss": 0.655,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 416,
+      "tokens_per_second_per_gpu": 17180.72,
+      "total_tokens": 10605425
+    },
+    {
+      "epoch": 0.03335199552107494,
+      "grad_norm": 0.44330260157585144,
+      "learning_rate": 1.4508775406894308e-05,
+      "loss": 0.7509,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 417,
+      "tokens_per_second_per_gpu": 17173.37,
+      "total_tokens": 10631736
+    },
+    {
+      "epoch": 0.03343197632568184,
+      "grad_norm": 0.44089949131011963,
+      "learning_rate": 1.4477590878387697e-05,
+      "loss": 0.7204,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 418,
+      "tokens_per_second_per_gpu": 17112.95,
+      "total_tokens": 10657439
+    },
+    {
+      "epoch": 0.03351195713028873,
+      "grad_norm": 0.45663735270500183,
+      "learning_rate": 1.4446351791849276e-05,
+      "loss": 0.7088,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 419,
+      "tokens_per_second_per_gpu": 16506.33,
+      "total_tokens": 10681868
+    },
+    {
+      "epoch": 0.03359193793489563,
+      "grad_norm": 0.422953724861145,
+      "learning_rate": 1.4415058527917454e-05,
+      "loss": 0.7334,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 420,
+      "tokens_per_second_per_gpu": 17558.74,
+      "total_tokens": 10708474
+    },
+    {
+      "epoch": 0.03367191873950252,
+      "grad_norm": 0.4254125654697418,
+      "learning_rate": 1.4383711467890776e-05,
+      "loss": 0.6822,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 421,
+      "tokens_per_second_per_gpu": 17224.81,
+      "total_tokens": 10733585
+    },
+    {
+      "epoch": 0.03375189954410941,
+      "grad_norm": 0.4303964674472809,
+      "learning_rate": 1.4352310993723277e-05,
+      "loss": 0.7347,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 422,
+      "tokens_per_second_per_gpu": 17144.03,
+      "total_tokens": 10759349
+    },
+    {
+      "epoch": 0.03383188034871631,
+      "grad_norm": 0.422776997089386,
+      "learning_rate": 1.4320857488019826e-05,
+      "loss": 0.7005,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 423,
+      "tokens_per_second_per_gpu": 16822.49,
+      "total_tokens": 10785174
+    },
+    {
+      "epoch": 0.0339118611533232,
+      "grad_norm": 0.4445240795612335,
+      "learning_rate": 1.4289351334031461e-05,
+      "loss": 0.6952,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 424,
+      "tokens_per_second_per_gpu": 17287.26,
+      "total_tokens": 10810894
+    },
+    {
+      "epoch": 0.0339918419579301,
+      "grad_norm": 0.402654767036438,
+      "learning_rate": 1.4257792915650728e-05,
+      "loss": 0.7211,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 425,
+      "tokens_per_second_per_gpu": 14675.92,
+      "total_tokens": 10836666
+    },
+    {
+      "epoch": 0.034071822762536993,
+      "grad_norm": 0.4416694939136505,
+      "learning_rate": 1.4226182617406996e-05,
+      "loss": 0.7003,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 426,
+      "tokens_per_second_per_gpu": 16632.17,
+      "total_tokens": 10861229
+    },
+    {
+      "epoch": 0.03415180356714389,
+      "grad_norm": 0.41705960035324097,
+      "learning_rate": 1.4194520824461773e-05,
+      "loss": 0.7096,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 427,
+      "tokens_per_second_per_gpu": 17211.97,
+      "total_tokens": 10887118
+    },
+    {
+      "epoch": 0.03423178437175078,
+      "grad_norm": 0.4063047170639038,
+      "learning_rate": 1.4162807922604014e-05,
+      "loss": 0.6899,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 428,
+      "tokens_per_second_per_gpu": 16943.74,
+      "total_tokens": 10912629
+    },
+    {
+      "epoch": 0.03431176517635767,
+      "grad_norm": 0.46809977293014526,
+      "learning_rate": 1.413104429824542e-05,
+      "loss": 0.7048,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 429,
+      "tokens_per_second_per_gpu": 16626.15,
+      "total_tokens": 10937453
+    },
+    {
+      "epoch": 0.03439174598096457,
+      "grad_norm": 0.4412693977355957,
+      "learning_rate": 1.4099230338415728e-05,
+      "loss": 0.6755,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 430,
+      "tokens_per_second_per_gpu": 16983.01,
+      "total_tokens": 10962482
+    },
+    {
+      "epoch": 0.03447172678557146,
+      "grad_norm": 0.43178603053092957,
+      "learning_rate": 1.4067366430758004e-05,
+      "loss": 0.6916,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 431,
+      "tokens_per_second_per_gpu": 16939.86,
+      "total_tokens": 10987805
+    },
+    {
+      "epoch": 0.03455170759017836,
+      "grad_norm": 0.443692147731781,
+      "learning_rate": 1.4035452963523903e-05,
+      "loss": 0.7305,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 432,
+      "tokens_per_second_per_gpu": 16964.69,
+      "total_tokens": 11013753
+    },
+    {
+      "epoch": 0.034631688394785254,
+      "grad_norm": 0.4076201915740967,
+      "learning_rate": 1.4003490325568953e-05,
+      "loss": 0.6864,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 433,
+      "tokens_per_second_per_gpu": 17153.51,
+      "total_tokens": 11039930
+    },
+    {
+      "epoch": 0.03471166919939215,
+      "grad_norm": 0.44919684529304504,
+      "learning_rate": 1.3971478906347806e-05,
+      "loss": 0.6828,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 434,
+      "tokens_per_second_per_gpu": 16898.36,
+      "total_tokens": 11065066
+    },
+    {
+      "epoch": 0.03479165000399904,
+      "grad_norm": 0.4365704655647278,
+      "learning_rate": 1.3939419095909513e-05,
+      "loss": 0.7284,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 435,
+      "tokens_per_second_per_gpu": 16954.82,
+      "total_tokens": 11090213
+    },
+    {
+      "epoch": 0.03487163080860593,
+      "grad_norm": 0.4258210062980652,
+      "learning_rate": 1.3907311284892737e-05,
+      "loss": 0.7079,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 436,
+      "tokens_per_second_per_gpu": 17515.26,
+      "total_tokens": 11116316
+    },
+    {
+      "epoch": 0.03495161161321283,
+      "grad_norm": 0.4155106544494629,
+      "learning_rate": 1.3875155864521031e-05,
+      "loss": 0.7349,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 437,
+      "tokens_per_second_per_gpu": 17376.63,
+      "total_tokens": 11143315
+    },
+    {
+      "epoch": 0.035031592417819724,
+      "grad_norm": 0.45664307475090027,
+      "learning_rate": 1.3842953226598036e-05,
+      "loss": 0.6599,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 438,
+      "tokens_per_second_per_gpu": 16759.03,
+      "total_tokens": 11167988
+    },
+    {
+      "epoch": 0.03511157322242662,
+      "grad_norm": 0.4296400249004364,
+      "learning_rate": 1.3810703763502744e-05,
+      "loss": 0.7074,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 439,
+      "tokens_per_second_per_gpu": 17066.98,
+      "total_tokens": 11193249
+    },
+    {
+      "epoch": 0.035191554027033514,
+      "grad_norm": 0.4324433207511902,
+      "learning_rate": 1.3778407868184674e-05,
+      "loss": 0.7137,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 440,
+      "tokens_per_second_per_gpu": 16678.98,
+      "total_tokens": 11217984
+    },
+    {
+      "epoch": 0.03527153483164041,
+      "grad_norm": 0.4287432134151459,
+      "learning_rate": 1.3746065934159123e-05,
+      "loss": 0.6642,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 441,
+      "tokens_per_second_per_gpu": 16398.96,
+      "total_tokens": 11242621
+    },
+    {
+      "epoch": 0.0353515156362473,
+      "grad_norm": 0.4307049810886383,
+      "learning_rate": 1.371367835550235e-05,
+      "loss": 0.7475,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 442,
+      "tokens_per_second_per_gpu": 17000.86,
+      "total_tokens": 11268097
+    },
+    {
+      "epoch": 0.03543149644085419,
+      "grad_norm": 0.42402443289756775,
+      "learning_rate": 1.3681245526846782e-05,
+      "loss": 0.6431,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 443,
+      "tokens_per_second_per_gpu": 17005.71,
+      "total_tokens": 11293129
+    },
+    {
+      "epoch": 0.03551147724546109,
+      "grad_norm": 0.4233229458332062,
+      "learning_rate": 1.3648767843376196e-05,
+      "loss": 0.6949,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 444,
+      "tokens_per_second_per_gpu": 17142.72,
+      "total_tokens": 11318904
+    },
+    {
+      "epoch": 0.035591458050067984,
+      "grad_norm": 0.441266268491745,
+      "learning_rate": 1.3616245700820922e-05,
+      "loss": 0.7124,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 445,
+      "tokens_per_second_per_gpu": 16907.05,
+      "total_tokens": 11344667
+    },
+    {
+      "epoch": 0.03567143885467488,
+      "grad_norm": 0.45229724049568176,
+      "learning_rate": 1.3583679495453e-05,
+      "loss": 0.6818,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 446,
+      "tokens_per_second_per_gpu": 16779.4,
+      "total_tokens": 11370012
+    },
+    {
+      "epoch": 0.035751419659281775,
+      "grad_norm": 0.4272010326385498,
+      "learning_rate": 1.3551069624081372e-05,
+      "loss": 0.6735,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 447,
+      "tokens_per_second_per_gpu": 16302.12,
+      "total_tokens": 11394710
+    },
+    {
+      "epoch": 0.03583140046388867,
+      "grad_norm": 0.4327336251735687,
+      "learning_rate": 1.3518416484047018e-05,
+      "loss": 0.6747,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 448,
+      "tokens_per_second_per_gpu": 16728.59,
+      "total_tokens": 11419699
+    },
+    {
+      "epoch": 0.03591138126849556,
+      "grad_norm": 0.4202955961227417,
+      "learning_rate": 1.3485720473218153e-05,
+      "loss": 0.6721,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 449,
+      "tokens_per_second_per_gpu": 17303.71,
+      "total_tokens": 11445057
+    },
+    {
+      "epoch": 0.035991362073102454,
+      "grad_norm": 0.4030447006225586,
+      "learning_rate": 1.3452981989985347e-05,
+      "loss": 0.6492,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 450,
+      "tokens_per_second_per_gpu": 17036.83,
+      "total_tokens": 11470311
+    },
+    {
+      "epoch": 0.03607134287770935,
+      "grad_norm": 0.4464939534664154,
+      "learning_rate": 1.342020143325669e-05,
+      "loss": 0.6813,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 451,
+      "tokens_per_second_per_gpu": 16636.45,
+      "total_tokens": 11495272
+    },
+    {
+      "epoch": 0.036151323682316244,
+      "grad_norm": 0.41173145174980164,
+      "learning_rate": 1.3387379202452917e-05,
+      "loss": 0.6944,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 452,
+      "tokens_per_second_per_gpu": 17471.58,
+      "total_tokens": 11521756
+    },
+    {
+      "epoch": 0.03623130448692314,
+      "grad_norm": 0.43435975909233093,
+      "learning_rate": 1.3354515697502552e-05,
+      "loss": 0.6224,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 453,
+      "tokens_per_second_per_gpu": 16937.9,
+      "total_tokens": 11547286
+    },
+    {
+      "epoch": 0.036311285291530035,
+      "grad_norm": 0.442965030670166,
+      "learning_rate": 1.3321611318837033e-05,
+      "loss": 0.6622,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 454,
+      "tokens_per_second_per_gpu": 16823.21,
+      "total_tokens": 11572126
+    },
+    {
+      "epoch": 0.03639126609613693,
+      "grad_norm": 0.4620346128940582,
+      "learning_rate": 1.3288666467385834e-05,
+      "loss": 0.7231,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 455,
+      "tokens_per_second_per_gpu": 17179.18,
+      "total_tokens": 11597500
+    },
+    {
+      "epoch": 0.03647124690074382,
+      "grad_norm": 0.4446198642253876,
+      "learning_rate": 1.3255681544571568e-05,
+      "loss": 0.6583,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 456,
+      "tokens_per_second_per_gpu": 16641.55,
+      "total_tokens": 11621978
+    },
+    {
+      "epoch": 0.036551227705350714,
+      "grad_norm": 0.44696947932243347,
+      "learning_rate": 1.3222656952305113e-05,
+      "loss": 0.6597,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 457,
+      "tokens_per_second_per_gpu": 17202.52,
+      "total_tokens": 11647603
+    },
+    {
+      "epoch": 0.03663120850995761,
+      "grad_norm": 0.446732759475708,
+      "learning_rate": 1.3189593092980701e-05,
+      "loss": 0.7131,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 458,
+      "tokens_per_second_per_gpu": 17469.88,
+      "total_tokens": 11673603
+    },
+    {
+      "epoch": 0.036711189314564505,
+      "grad_norm": 0.44011181592941284,
+      "learning_rate": 1.3156490369471026e-05,
+      "loss": 0.6603,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 459,
+      "tokens_per_second_per_gpu": 16763.75,
+      "total_tokens": 11698721
+    },
+    {
+      "epoch": 0.0367911701191714,
+      "grad_norm": 0.47020354866981506,
+      "learning_rate": 1.3123349185122328e-05,
+      "loss": 0.6767,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 460,
+      "tokens_per_second_per_gpu": 16818.73,
+      "total_tokens": 11723824
+    },
+    {
+      "epoch": 0.036871150923778295,
+      "grad_norm": 0.4808385670185089,
+      "learning_rate": 1.3090169943749475e-05,
+      "loss": 0.7207,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 461,
+      "tokens_per_second_per_gpu": 16326.55,
+      "total_tokens": 11747939
+    },
+    {
+      "epoch": 0.03695113172838519,
+      "grad_norm": 0.4525218904018402,
+      "learning_rate": 1.3056953049631059e-05,
+      "loss": 0.6545,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 462,
+      "tokens_per_second_per_gpu": 17413.36,
+      "total_tokens": 11774028
+    },
+    {
+      "epoch": 0.03703111253299208,
+      "grad_norm": 0.4264589250087738,
+      "learning_rate": 1.3023698907504447e-05,
+      "loss": 0.6375,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 463,
+      "tokens_per_second_per_gpu": 16640.79,
+      "total_tokens": 11798824
+    },
+    {
+      "epoch": 0.037111093337598974,
+      "grad_norm": 0.43030428886413574,
+      "learning_rate": 1.2990407922560869e-05,
+      "loss": 0.656,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 464,
+      "tokens_per_second_per_gpu": 16456.8,
+      "total_tokens": 11822904
+    },
+    {
+      "epoch": 0.03719107414220587,
+      "grad_norm": 0.43640056252479553,
+      "learning_rate": 1.2957080500440469e-05,
+      "loss": 0.6872,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 465,
+      "tokens_per_second_per_gpu": 17006.93,
+      "total_tokens": 11848488
+    },
+    {
+      "epoch": 0.037271054946812765,
+      "grad_norm": 0.44964516162872314,
+      "learning_rate": 1.2923717047227368e-05,
+      "loss": 0.6901,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 466,
+      "tokens_per_second_per_gpu": 17548.04,
+      "total_tokens": 11874583
+    },
+    {
+      "epoch": 0.03735103575141966,
+      "grad_norm": 0.4395027160644531,
+      "learning_rate": 1.2890317969444716e-05,
+      "loss": 0.6383,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 467,
+      "tokens_per_second_per_gpu": 16482.1,
+      "total_tokens": 11899197
+    },
+    {
+      "epoch": 0.037431016556026556,
+      "grad_norm": 0.42954379320144653,
+      "learning_rate": 1.2856883674049736e-05,
+      "loss": 0.6412,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 468,
+      "tokens_per_second_per_gpu": 17318.43,
+      "total_tokens": 11924491
+    },
+    {
+      "epoch": 0.03751099736063345,
+      "grad_norm": 0.4213207960128784,
+      "learning_rate": 1.2823414568428767e-05,
+      "loss": 0.6353,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 469,
+      "tokens_per_second_per_gpu": 16459.46,
+      "total_tokens": 11948982
+    },
+    {
+      "epoch": 0.03759097816524034,
+      "grad_norm": 0.43104055523872375,
+      "learning_rate": 1.2789911060392295e-05,
+      "loss": 0.7354,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 470,
+      "tokens_per_second_per_gpu": 17537.58,
+      "total_tokens": 11976515
+    },
+    {
+      "epoch": 0.037670958969847235,
+      "grad_norm": 0.4502396881580353,
+      "learning_rate": 1.2756373558169992e-05,
+      "loss": 0.675,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 471,
+      "tokens_per_second_per_gpu": 17392.8,
+      "total_tokens": 12002880
+    },
+    {
+      "epoch": 0.03775093977445413,
+      "grad_norm": 0.45354557037353516,
+      "learning_rate": 1.2722802470405744e-05,
+      "loss": 0.6707,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 472,
+      "tokens_per_second_per_gpu": 16881.98,
+      "total_tokens": 12028090
+    },
+    {
+      "epoch": 0.037830920579061025,
+      "grad_norm": 0.43540510535240173,
+      "learning_rate": 1.2689198206152657e-05,
+      "loss": 0.6882,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 473,
+      "tokens_per_second_per_gpu": 17161.61,
+      "total_tokens": 12053924
+    },
+    {
+      "epoch": 0.03791090138366792,
+      "grad_norm": 0.4614422917366028,
+      "learning_rate": 1.265556117486809e-05,
+      "loss": 0.7256,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 474,
+      "tokens_per_second_per_gpu": 17023.83,
+      "total_tokens": 12079474
+    },
+    {
+      "epoch": 0.037990882188274816,
+      "grad_norm": 0.44551095366477966,
+      "learning_rate": 1.2621891786408648e-05,
+      "loss": 0.7414,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 475,
+      "tokens_per_second_per_gpu": 17029.63,
+      "total_tokens": 12105739
+    },
+    {
+      "epoch": 0.03807086299288171,
+      "grad_norm": 0.45504751801490784,
+      "learning_rate": 1.2588190451025209e-05,
+      "loss": 0.717,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 476,
+      "tokens_per_second_per_gpu": 17089.58,
+      "total_tokens": 12131563
+    },
+    {
+      "epoch": 0.0381508437974886,
+      "grad_norm": 0.4884074628353119,
+      "learning_rate": 1.2554457579357906e-05,
+      "loss": 0.7327,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 477,
+      "tokens_per_second_per_gpu": 17239.01,
+      "total_tokens": 12156874
+    },
+    {
+      "epoch": 0.038230824602095495,
+      "grad_norm": 0.4748455882072449,
+      "learning_rate": 1.252069358243114e-05,
+      "loss": 0.6711,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 478,
+      "tokens_per_second_per_gpu": 17469.29,
+      "total_tokens": 12183330
+    },
+    {
+      "epoch": 0.03831080540670239,
+      "grad_norm": 0.4526073634624481,
+      "learning_rate": 1.2486898871648552e-05,
+      "loss": 0.6717,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 479,
+      "tokens_per_second_per_gpu": 16705.93,
+      "total_tokens": 12207907
+    },
+    {
+      "epoch": 0.038390786211309286,
+      "grad_norm": 0.4595562517642975,
+      "learning_rate": 1.2453073858788027e-05,
+      "loss": 0.6678,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 480,
+      "tokens_per_second_per_gpu": 16815.36,
+      "total_tokens": 12233006
+    },
+    {
+      "epoch": 0.03847076701591618,
+      "grad_norm": 0.4445168673992157,
+      "learning_rate": 1.2419218955996677e-05,
+      "loss": 0.6174,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 481,
+      "tokens_per_second_per_gpu": 16899.74,
+      "total_tokens": 12258436
+    },
+    {
+      "epoch": 0.038550747820523076,
+      "grad_norm": 0.4498426914215088,
+      "learning_rate": 1.238533457578581e-05,
+      "loss": 0.6202,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 482,
+      "tokens_per_second_per_gpu": 16656.0,
+      "total_tokens": 12283200
+    },
+    {
+      "epoch": 0.03863072862512997,
+      "grad_norm": 0.48890069127082825,
+      "learning_rate": 1.23514211310259e-05,
+      "loss": 0.7179,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 483,
+      "tokens_per_second_per_gpu": 17130.89,
+      "total_tokens": 12309222
+    },
+    {
+      "epoch": 0.03871070942973686,
+      "grad_norm": 0.4737612307071686,
+      "learning_rate": 1.2317479034941572e-05,
+      "loss": 0.711,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 484,
+      "tokens_per_second_per_gpu": 16815.6,
+      "total_tokens": 12334335
+    },
+    {
+      "epoch": 0.038790690234343755,
+      "grad_norm": 0.4556877315044403,
+      "learning_rate": 1.2283508701106559e-05,
+      "loss": 0.7006,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 485,
+      "tokens_per_second_per_gpu": 17323.63,
+      "total_tokens": 12360225
+    },
+    {
+      "epoch": 0.03887067103895065,
+      "grad_norm": 0.4712156057357788,
+      "learning_rate": 1.2249510543438652e-05,
+      "loss": 0.6762,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 486,
+      "tokens_per_second_per_gpu": 16818.52,
+      "total_tokens": 12385730
+    },
+    {
+      "epoch": 0.038950651843557546,
+      "grad_norm": 0.45326972007751465,
+      "learning_rate": 1.2215484976194675e-05,
+      "loss": 0.6396,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 487,
+      "tokens_per_second_per_gpu": 16917.67,
+      "total_tokens": 12410731
+    },
+    {
+      "epoch": 0.03903063264816444,
+      "grad_norm": 0.4285866916179657,
+      "learning_rate": 1.2181432413965428e-05,
+      "loss": 0.6759,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 488,
+      "tokens_per_second_per_gpu": 17554.28,
+      "total_tokens": 12437737
+    },
+    {
+      "epoch": 0.03911061345277134,
+      "grad_norm": 0.4505816400051117,
+      "learning_rate": 1.2147353271670634e-05,
+      "loss": 0.7116,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 489,
+      "tokens_per_second_per_gpu": 17837.91,
+      "total_tokens": 12465159
+    },
+    {
+      "epoch": 0.03919059425737823,
+      "grad_norm": 0.4805770814418793,
+      "learning_rate": 1.211324796455389e-05,
+      "loss": 0.6968,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 490,
+      "tokens_per_second_per_gpu": 16656.0,
+      "total_tokens": 12490064
+    },
+    {
+      "epoch": 0.03927057506198512,
+      "grad_norm": 0.45226889848709106,
+      "learning_rate": 1.2079116908177592e-05,
+      "loss": 0.6759,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 491,
+      "tokens_per_second_per_gpu": 17115.44,
+      "total_tokens": 12516094
+    },
+    {
+      "epoch": 0.039350555866592016,
+      "grad_norm": 0.4620254635810852,
+      "learning_rate": 1.2044960518417902e-05,
+      "loss": 0.7178,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 492,
+      "tokens_per_second_per_gpu": 16855.59,
+      "total_tokens": 12541699
+    },
+    {
+      "epoch": 0.03943053667119891,
+      "grad_norm": 0.44682419300079346,
+      "learning_rate": 1.2010779211459649e-05,
+      "loss": 0.6887,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 493,
+      "tokens_per_second_per_gpu": 16927.33,
+      "total_tokens": 12567064
+    },
+    {
+      "epoch": 0.039510517475805806,
+      "grad_norm": 0.4683786928653717,
+      "learning_rate": 1.1976573403791263e-05,
+      "loss": 0.658,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 494,
+      "tokens_per_second_per_gpu": 16693.06,
+      "total_tokens": 12591658
+    },
+    {
+      "epoch": 0.0395904982804127,
+      "grad_norm": 0.4709741771221161,
+      "learning_rate": 1.194234351219972e-05,
+      "loss": 0.6681,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 495,
+      "tokens_per_second_per_gpu": 16319.58,
+      "total_tokens": 12615802
+    },
+    {
+      "epoch": 0.0396704790850196,
+      "grad_norm": 0.7030223608016968,
+      "learning_rate": 1.190808995376545e-05,
+      "loss": 0.6886,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 496,
+      "tokens_per_second_per_gpu": 16896.03,
+      "total_tokens": 12640099
+    },
+    {
+      "epoch": 0.03975045988962649,
+      "grad_norm": 0.4555974304676056,
+      "learning_rate": 1.187381314585725e-05,
+      "loss": 0.6925,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 497,
+      "tokens_per_second_per_gpu": 17402.31,
+      "total_tokens": 12666288
+    },
+    {
+      "epoch": 0.03983044069423338,
+      "grad_norm": 0.4940910041332245,
+      "learning_rate": 1.1839513506127202e-05,
+      "loss": 0.681,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 498,
+      "tokens_per_second_per_gpu": 16930.11,
+      "total_tokens": 12691469
+    },
+    {
+      "epoch": 0.039910421498840276,
+      "grad_norm": 0.4535921812057495,
+      "learning_rate": 1.1805191452505602e-05,
+      "loss": 0.6589,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 499,
+      "tokens_per_second_per_gpu": 16906.81,
+      "total_tokens": 12716852
+    },
+    {
+      "epoch": 0.03999040230344717,
+      "grad_norm": 0.46495068073272705,
+      "learning_rate": 1.1770847403195836e-05,
+      "loss": 0.7064,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 500,
+      "tokens_per_second_per_gpu": 17272.14,
+      "total_tokens": 12742985
+    },
+    {
+      "epoch": 0.04007038310805407,
+      "grad_norm": 0.46297863125801086,
+      "learning_rate": 1.1736481776669307e-05,
+      "loss": 0.7218,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 501,
+      "tokens_per_second_per_gpu": 16950.12,
+      "total_tokens": 12768836
+    },
+    {
+      "epoch": 0.04015036391266096,
+      "grad_norm": 0.4618571698665619,
+      "learning_rate": 1.1702094991660326e-05,
+      "loss": 0.674,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 502,
+      "tokens_per_second_per_gpu": 16882.33,
+      "total_tokens": 12794066
+    },
+    {
+      "epoch": 0.04023034471726786,
+      "grad_norm": 0.44983258843421936,
+      "learning_rate": 1.1667687467161025e-05,
+      "loss": 0.6893,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 503,
+      "tokens_per_second_per_gpu": 17461.33,
+      "total_tokens": 12820375
+    },
+    {
+      "epoch": 0.04031032552187475,
+      "grad_norm": 0.46179690957069397,
+      "learning_rate": 1.1633259622416224e-05,
+      "loss": 0.6698,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 504,
+      "tokens_per_second_per_gpu": 16827.05,
+      "total_tokens": 12845726
+    },
+    {
+      "epoch": 0.04039030632648164,
+      "grad_norm": 0.4472286105155945,
+      "learning_rate": 1.159881187691835e-05,
+      "loss": 0.7078,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 505,
+      "tokens_per_second_per_gpu": 17124.23,
+      "total_tokens": 12872001
+    },
+    {
+      "epoch": 0.040470287131088536,
+      "grad_norm": 0.4627981185913086,
+      "learning_rate": 1.156434465040231e-05,
+      "loss": 0.6686,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 506,
+      "tokens_per_second_per_gpu": 16904.21,
+      "total_tokens": 12897321
+    },
+    {
+      "epoch": 0.04055026793569543,
+      "grad_norm": 0.44518762826919556,
+      "learning_rate": 1.1529858362840383e-05,
+      "loss": 0.6474,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 507,
+      "tokens_per_second_per_gpu": 17281.89,
+      "total_tokens": 12923660
+    },
+    {
+      "epoch": 0.04063024874030233,
+      "grad_norm": 0.4409578740596771,
+      "learning_rate": 1.1495353434437098e-05,
+      "loss": 0.6399,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 508,
+      "tokens_per_second_per_gpu": 17102.59,
+      "total_tokens": 12949277
+    },
+    {
+      "epoch": 0.04071022954490922,
+      "grad_norm": 0.44398391246795654,
+      "learning_rate": 1.1460830285624119e-05,
+      "loss": 0.6753,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 509,
+      "tokens_per_second_per_gpu": 17247.23,
+      "total_tokens": 12975352
+    },
+    {
+      "epoch": 0.04079021034951612,
+      "grad_norm": 0.4975646436214447,
+      "learning_rate": 1.1426289337055119e-05,
+      "loss": 0.6131,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 510,
+      "tokens_per_second_per_gpu": 15943.69,
+      "total_tokens": 12998651
+    },
+    {
+      "epoch": 0.04087019115412301,
+      "grad_norm": 0.48738542199134827,
+      "learning_rate": 1.1391731009600655e-05,
+      "loss": 0.6322,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 511,
+      "tokens_per_second_per_gpu": 16154.38,
+      "total_tokens": 13022893
+    },
+    {
+      "epoch": 0.0409501719587299,
+      "grad_norm": 0.4914393723011017,
+      "learning_rate": 1.1357155724343046e-05,
+      "loss": 0.6633,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 512,
+      "tokens_per_second_per_gpu": 16945.85,
+      "total_tokens": 13047605
+    },
+    {
+      "epoch": 0.0410301527633368,
+      "grad_norm": 0.45245736837387085,
+      "learning_rate": 1.1322563902571227e-05,
+      "loss": 0.6315,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 513,
+      "tokens_per_second_per_gpu": 17274.69,
+      "total_tokens": 13073795
+    },
+    {
+      "epoch": 0.04111013356794369,
+      "grad_norm": 0.4842854142189026,
+      "learning_rate": 1.128795596577563e-05,
+      "loss": 0.6499,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 514,
+      "tokens_per_second_per_gpu": 17081.96,
+      "total_tokens": 13099940
+    },
+    {
+      "epoch": 0.04119011437255059,
+      "grad_norm": 0.5243505835533142,
+      "learning_rate": 1.1253332335643043e-05,
+      "loss": 0.675,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 515,
+      "tokens_per_second_per_gpu": 16642.09,
+      "total_tokens": 13124720
+    },
+    {
+      "epoch": 0.04127009517715748,
+      "grad_norm": 0.46914488077163696,
+      "learning_rate": 1.1218693434051475e-05,
+      "loss": 0.6719,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 516,
+      "tokens_per_second_per_gpu": 16966.49,
+      "total_tokens": 13150010
+    },
+    {
+      "epoch": 0.04135007598176438,
+      "grad_norm": 0.44769319891929626,
+      "learning_rate": 1.1184039683065014e-05,
+      "loss": 0.6736,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 517,
+      "tokens_per_second_per_gpu": 17236.72,
+      "total_tokens": 13176461
+    },
+    {
+      "epoch": 0.041430056786371273,
+      "grad_norm": 0.4807461202144623,
+      "learning_rate": 1.1149371504928667e-05,
+      "loss": 0.7321,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 518,
+      "tokens_per_second_per_gpu": 16848.78,
+      "total_tokens": 13202015
+    },
+    {
+      "epoch": 0.04151003759097816,
+      "grad_norm": 0.4664666950702667,
+      "learning_rate": 1.1114689322063255e-05,
+      "loss": 0.6415,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 519,
+      "tokens_per_second_per_gpu": 17132.94,
+      "total_tokens": 13228010
+    },
+    {
+      "epoch": 0.04159001839558506,
+      "grad_norm": 0.48780035972595215,
+      "learning_rate": 1.1079993557060228e-05,
+      "loss": 0.6729,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 520,
+      "tokens_per_second_per_gpu": 16422.78,
+      "total_tokens": 13252575
+    },
+    {
+      "epoch": 0.04166999920019195,
+      "grad_norm": 0.4693656861782074,
+      "learning_rate": 1.1045284632676535e-05,
+      "loss": 0.6891,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 521,
+      "tokens_per_second_per_gpu": 17555.32,
+      "total_tokens": 13278801
+    },
+    {
+      "epoch": 0.04174998000479885,
+      "grad_norm": 0.458926796913147,
+      "learning_rate": 1.1010562971829464e-05,
+      "loss": 0.6527,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 522,
+      "tokens_per_second_per_gpu": 16075.34,
+      "total_tokens": 13302766
+    },
+    {
+      "epoch": 0.04182996080940574,
+      "grad_norm": 0.462158739566803,
+      "learning_rate": 1.0975828997591496e-05,
+      "loss": 0.6799,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 523,
+      "tokens_per_second_per_gpu": 17398.83,
+      "total_tokens": 13329089
+    },
+    {
+      "epoch": 0.04190994161401264,
+      "grad_norm": 0.4593111276626587,
+      "learning_rate": 1.0941083133185146e-05,
+      "loss": 0.7031,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 524,
+      "tokens_per_second_per_gpu": 17006.54,
+      "total_tokens": 13355144
+    },
+    {
+      "epoch": 0.041989922418619534,
+      "grad_norm": 0.46989020705223083,
+      "learning_rate": 1.0906325801977804e-05,
+      "loss": 0.7105,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 525,
+      "tokens_per_second_per_gpu": 17221.48,
+      "total_tokens": 13381015
+    },
+    {
+      "epoch": 0.04206990322322642,
+      "grad_norm": 0.46403929591178894,
+      "learning_rate": 1.0871557427476585e-05,
+      "loss": 0.6809,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 526,
+      "tokens_per_second_per_gpu": 17428.79,
+      "total_tokens": 13407634
+    },
+    {
+      "epoch": 0.04214988402783332,
+      "grad_norm": 0.44122979044914246,
+      "learning_rate": 1.083677843332316e-05,
+      "loss": 0.661,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 527,
+      "tokens_per_second_per_gpu": 17050.17,
+      "total_tokens": 13434044
+    },
+    {
+      "epoch": 0.04222986483244021,
+      "grad_norm": 0.46086767315864563,
+      "learning_rate": 1.0801989243288588e-05,
+      "loss": 0.692,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 528,
+      "tokens_per_second_per_gpu": 17260.71,
+      "total_tokens": 13460422
+    },
+    {
+      "epoch": 0.04230984563704711,
+      "grad_norm": 0.4788115918636322,
+      "learning_rate": 1.0767190281268187e-05,
+      "loss": 0.6774,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 529,
+      "tokens_per_second_per_gpu": 16919.47,
+      "total_tokens": 13485959
+    },
+    {
+      "epoch": 0.042389826441654004,
+      "grad_norm": 0.46982550621032715,
+      "learning_rate": 1.0732381971276318e-05,
+      "loss": 0.6199,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 530,
+      "tokens_per_second_per_gpu": 16852.02,
+      "total_tokens": 13510769
+    },
+    {
+      "epoch": 0.0424698072462609,
+      "grad_norm": 0.4891279339790344,
+      "learning_rate": 1.0697564737441254e-05,
+      "loss": 0.6276,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 531,
+      "tokens_per_second_per_gpu": 16554.57,
+      "total_tokens": 13535563
+    },
+    {
+      "epoch": 0.042549788050867794,
+      "grad_norm": 0.4954123795032501,
+      "learning_rate": 1.0662739004000005e-05,
+      "loss": 0.6915,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 532,
+      "tokens_per_second_per_gpu": 17455.25,
+      "total_tokens": 13561469
+    },
+    {
+      "epoch": 0.04262976885547469,
+      "grad_norm": 0.49951866269111633,
+      "learning_rate": 1.0627905195293135e-05,
+      "loss": 0.6864,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 533,
+      "tokens_per_second_per_gpu": 17206.21,
+      "total_tokens": 13587381
+    },
+    {
+      "epoch": 0.04270974966008158,
+      "grad_norm": 0.4457262456417084,
+      "learning_rate": 1.0593063735759619e-05,
+      "loss": 0.6785,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 534,
+      "tokens_per_second_per_gpu": 17794.38,
+      "total_tokens": 13614365
+    },
+    {
+      "epoch": 0.04278973046468847,
+      "grad_norm": 0.475887656211853,
+      "learning_rate": 1.055821504993164e-05,
+      "loss": 0.634,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 535,
+      "tokens_per_second_per_gpu": 16492.61,
+      "total_tokens": 13639374
+    },
+    {
+      "epoch": 0.04286971126929537,
+      "grad_norm": 0.48933205008506775,
+      "learning_rate": 1.0523359562429441e-05,
+      "loss": 0.6554,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 536,
+      "tokens_per_second_per_gpu": 17192.3,
+      "total_tokens": 13665700
+    },
+    {
+      "epoch": 0.042949692073902264,
+      "grad_norm": 0.5178970098495483,
+      "learning_rate": 1.0488497697956134e-05,
+      "loss": 0.7028,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 537,
+      "tokens_per_second_per_gpu": 16638.15,
+      "total_tokens": 13690118
+    },
+    {
+      "epoch": 0.04302967287850916,
+      "grad_norm": 0.4723743498325348,
+      "learning_rate": 1.0453629881292537e-05,
+      "loss": 0.689,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 538,
+      "tokens_per_second_per_gpu": 17283.06,
+      "total_tokens": 13716392
+    },
+    {
+      "epoch": 0.043109653683116055,
+      "grad_norm": 0.5020018219947815,
+      "learning_rate": 1.0418756537291996e-05,
+      "loss": 0.6389,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 539,
+      "tokens_per_second_per_gpu": 17027.19,
+      "total_tokens": 13741612
+    },
+    {
+      "epoch": 0.04318963448772295,
+      "grad_norm": 0.5196510553359985,
+      "learning_rate": 1.03838780908752e-05,
+      "loss": 0.6469,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 540,
+      "tokens_per_second_per_gpu": 16934.53,
+      "total_tokens": 13767073
+    },
+    {
+      "epoch": 0.04326961529232984,
+      "grad_norm": 0.4690985083580017,
+      "learning_rate": 1.0348994967025012e-05,
+      "loss": 0.6625,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 541,
+      "tokens_per_second_per_gpu": 16886.26,
+      "total_tokens": 13792114
+    },
+    {
+      "epoch": 0.043349596096936734,
+      "grad_norm": 0.5237311124801636,
+      "learning_rate": 1.0314107590781284e-05,
+      "loss": 0.6957,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 542,
+      "tokens_per_second_per_gpu": 16878.17,
+      "total_tokens": 13817155
+    },
+    {
+      "epoch": 0.04342957690154363,
+      "grad_norm": 0.47251269221305847,
+      "learning_rate": 1.0279216387235691e-05,
+      "loss": 0.6607,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 543,
+      "tokens_per_second_per_gpu": 17364.53,
+      "total_tokens": 13843641
+    },
+    {
+      "epoch": 0.043509557706150524,
+      "grad_norm": 0.49236616492271423,
+      "learning_rate": 1.0244321781526533e-05,
+      "loss": 0.6878,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 544,
+      "tokens_per_second_per_gpu": 17090.74,
+      "total_tokens": 13869705
+    },
+    {
+      "epoch": 0.04358953851075742,
+      "grad_norm": 0.4944368898868561,
+      "learning_rate": 1.0209424198833571e-05,
+      "loss": 0.6828,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 545,
+      "tokens_per_second_per_gpu": 17123.06,
+      "total_tokens": 13895270
+    },
+    {
+      "epoch": 0.043669519315364315,
+      "grad_norm": 0.4860251545906067,
+      "learning_rate": 1.0174524064372837e-05,
+      "loss": 0.6804,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 546,
+      "tokens_per_second_per_gpu": 16587.1,
+      "total_tokens": 13920244
+    },
+    {
+      "epoch": 0.04374950011997121,
+      "grad_norm": 0.48462778329849243,
+      "learning_rate": 1.0139621803391454e-05,
+      "loss": 0.6694,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 547,
+      "tokens_per_second_per_gpu": 16738.82,
+      "total_tokens": 13945409
+    },
+    {
+      "epoch": 0.0438294809245781,
+      "grad_norm": 0.4959378242492676,
+      "learning_rate": 1.010471784116246e-05,
+      "loss": 0.6386,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 548,
+      "tokens_per_second_per_gpu": 16547.11,
+      "total_tokens": 13970587
+    },
+    {
+      "epoch": 0.043909461729184994,
+      "grad_norm": 0.4693349301815033,
+      "learning_rate": 1.0069812602979617e-05,
+      "loss": 0.6432,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 549,
+      "tokens_per_second_per_gpu": 17222.81,
+      "total_tokens": 13996670
+    },
+    {
+      "epoch": 0.04398944253379189,
+      "grad_norm": 0.4579184055328369,
+      "learning_rate": 1.0034906514152239e-05,
+      "loss": 0.6737,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 550,
+      "tokens_per_second_per_gpu": 17389.32,
+      "total_tokens": 14022626
+    },
+    {
+      "epoch": 0.044069423338398785,
+      "grad_norm": 0.46185624599456787,
+      "learning_rate": 1e-05,
+      "loss": 0.7294,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 551,
+      "tokens_per_second_per_gpu": 17336.46,
+      "total_tokens": 14049035
+    },
+    {
+      "epoch": 0.04414940414300568,
+      "grad_norm": 0.4870699644088745,
+      "learning_rate": 9.965093485847766e-06,
+      "loss": 0.6866,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 552,
+      "tokens_per_second_per_gpu": 17535.72,
+      "total_tokens": 14075514
+    },
+    {
+      "epoch": 0.044229384947612575,
+      "grad_norm": 0.4829731285572052,
+      "learning_rate": 9.930187397020385e-06,
+      "loss": 0.6143,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 553,
+      "tokens_per_second_per_gpu": 16359.15,
+      "total_tokens": 14099952
+    },
+    {
+      "epoch": 0.04430936575221947,
+      "grad_norm": 0.4855392575263977,
+      "learning_rate": 9.895282158837545e-06,
+      "loss": 0.6524,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 554,
+      "tokens_per_second_per_gpu": 16914.54,
+      "total_tokens": 14125208
+    },
+    {
+      "epoch": 0.04438934655682636,
+      "grad_norm": 0.5001446604728699,
+      "learning_rate": 9.860378196608549e-06,
+      "loss": 0.6716,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 555,
+      "tokens_per_second_per_gpu": 16896.62,
+      "total_tokens": 14150850
+    },
+    {
+      "epoch": 0.044469327361433254,
+      "grad_norm": 0.45474767684936523,
+      "learning_rate": 9.825475935627165e-06,
+      "loss": 0.6442,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 556,
+      "tokens_per_second_per_gpu": 16980.77,
+      "total_tokens": 14176498
+    },
+    {
+      "epoch": 0.04454930816604015,
+      "grad_norm": 0.4773014485836029,
+      "learning_rate": 9.790575801166432e-06,
+      "loss": 0.6755,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 557,
+      "tokens_per_second_per_gpu": 16906.61,
+      "total_tokens": 14202548
+    },
+    {
+      "epoch": 0.044629288970647045,
+      "grad_norm": 0.4736998379230499,
+      "learning_rate": 9.75567821847347e-06,
+      "loss": 0.6523,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 558,
+      "tokens_per_second_per_gpu": 17269.9,
+      "total_tokens": 14228353
+    },
+    {
+      "epoch": 0.04470926977525394,
+      "grad_norm": 0.47355714440345764,
+      "learning_rate": 9.720783612764314e-06,
+      "loss": 0.5922,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 559,
+      "tokens_per_second_per_gpu": 16300.57,
+      "total_tokens": 14252682
+    },
+    {
+      "epoch": 0.044789250579860836,
+      "grad_norm": 0.47529494762420654,
+      "learning_rate": 9.685892409218718e-06,
+      "loss": 0.6587,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 560,
+      "tokens_per_second_per_gpu": 16787.12,
+      "total_tokens": 14278093
+    },
+    {
+      "epoch": 0.04486923138446773,
+      "grad_norm": 0.5045996308326721,
+      "learning_rate": 9.651005032974994e-06,
+      "loss": 0.6459,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 561,
+      "tokens_per_second_per_gpu": 16965.31,
+      "total_tokens": 14302754
+    },
+    {
+      "epoch": 0.04494921218907462,
+      "grad_norm": 0.47231438755989075,
+      "learning_rate": 9.616121909124801e-06,
+      "loss": 0.7112,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 562,
+      "tokens_per_second_per_gpu": 17578.07,
+      "total_tokens": 14329323
+    },
+    {
+      "epoch": 0.045029192993681515,
+      "grad_norm": 0.49113765358924866,
+      "learning_rate": 9.581243462708007e-06,
+      "loss": 0.6435,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 563,
+      "tokens_per_second_per_gpu": 16616.31,
+      "total_tokens": 14353713
+    },
+    {
+      "epoch": 0.04510917379828841,
+      "grad_norm": 0.44610634446144104,
+      "learning_rate": 9.546370118707463e-06,
+      "loss": 0.6374,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 564,
+      "tokens_per_second_per_gpu": 17000.59,
+      "total_tokens": 14379865
+    },
+    {
+      "epoch": 0.045189154602895305,
+      "grad_norm": 0.4994834065437317,
+      "learning_rate": 9.511502302043867e-06,
+      "loss": 0.6428,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 565,
+      "tokens_per_second_per_gpu": 16745.1,
+      "total_tokens": 14404914
+    },
+    {
+      "epoch": 0.0452691354075022,
+      "grad_norm": 0.47246044874191284,
+      "learning_rate": 9.476640437570562e-06,
+      "loss": 0.665,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 566,
+      "tokens_per_second_per_gpu": 16875.25,
+      "total_tokens": 14431100
+    },
+    {
+      "epoch": 0.045349116212109096,
+      "grad_norm": 0.5038020014762878,
+      "learning_rate": 9.441784950068362e-06,
+      "loss": 0.6742,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 567,
+      "tokens_per_second_per_gpu": 16680.55,
+      "total_tokens": 14456004
+    },
+    {
+      "epoch": 0.04542909701671599,
+      "grad_norm": 0.4679954946041107,
+      "learning_rate": 9.406936264240386e-06,
+      "loss": 0.6609,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 568,
+      "tokens_per_second_per_gpu": 17120.18,
+      "total_tokens": 14482147
+    },
+    {
+      "epoch": 0.04550907782132288,
+      "grad_norm": 0.47112342715263367,
+      "learning_rate": 9.372094804706867e-06,
+      "loss": 0.6283,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 569,
+      "tokens_per_second_per_gpu": 17221.54,
+      "total_tokens": 14507518
+    },
+    {
+      "epoch": 0.045589058625929775,
+      "grad_norm": 0.4823978543281555,
+      "learning_rate": 9.337260996000002e-06,
+      "loss": 0.6006,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 570,
+      "tokens_per_second_per_gpu": 16988.76,
+      "total_tokens": 14532760
+    },
+    {
+      "epoch": 0.04566903943053667,
+      "grad_norm": 0.5082917809486389,
+      "learning_rate": 9.302435262558748e-06,
+      "loss": 0.6403,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 571,
+      "tokens_per_second_per_gpu": 17407.94,
+      "total_tokens": 14559212
+    },
+    {
+      "epoch": 0.045749020235143566,
+      "grad_norm": 0.5025095343589783,
+      "learning_rate": 9.267618028723687e-06,
+      "loss": 0.6438,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 572,
+      "tokens_per_second_per_gpu": 17173.37,
+      "total_tokens": 14585315
+    },
+    {
+      "epoch": 0.04582900103975046,
+      "grad_norm": 0.4819313883781433,
+      "learning_rate": 9.232809718731815e-06,
+      "loss": 0.6649,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 573,
+      "tokens_per_second_per_gpu": 17488.01,
+      "total_tokens": 14611725
+    },
+    {
+      "epoch": 0.045908981844357356,
+      "grad_norm": 0.4713301360607147,
+      "learning_rate": 9.198010756711413e-06,
+      "loss": 0.6653,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 574,
+      "tokens_per_second_per_gpu": 16638.54,
+      "total_tokens": 14636622
+    },
+    {
+      "epoch": 0.04598896264896425,
+      "grad_norm": 0.4914127588272095,
+      "learning_rate": 9.163221566676847e-06,
+      "loss": 0.6229,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 575,
+      "tokens_per_second_per_gpu": 16381.64,
+      "total_tokens": 14660439
+    },
+    {
+      "epoch": 0.04606894345357114,
+      "grad_norm": 0.4962431788444519,
+      "learning_rate": 9.128442572523418e-06,
+      "loss": 0.6263,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 576,
+      "tokens_per_second_per_gpu": 16798.67,
+      "total_tokens": 14685550
+    },
+    {
+      "epoch": 0.046148924258178035,
+      "grad_norm": 0.46047908067703247,
+      "learning_rate": 9.093674198022201e-06,
+      "loss": 0.601,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 577,
+      "tokens_per_second_per_gpu": 16901.2,
+      "total_tokens": 14710705
+    },
+    {
+      "epoch": 0.04622890506278493,
+      "grad_norm": 0.4952366054058075,
+      "learning_rate": 9.058916866814857e-06,
+      "loss": 0.6774,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 578,
+      "tokens_per_second_per_gpu": 17149.77,
+      "total_tokens": 14736165
+    },
+    {
+      "epoch": 0.046308885867391826,
+      "grad_norm": 0.5213083624839783,
+      "learning_rate": 9.024171002408507e-06,
+      "loss": 0.6587,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 579,
+      "tokens_per_second_per_gpu": 16984.69,
+      "total_tokens": 14761504
+    },
+    {
+      "epoch": 0.04638886667199872,
+      "grad_norm": 0.4909270703792572,
+      "learning_rate": 8.989437028170537e-06,
+      "loss": 0.656,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 580,
+      "tokens_per_second_per_gpu": 17165.09,
+      "total_tokens": 14787035
+    },
+    {
+      "epoch": 0.04646884747660562,
+      "grad_norm": 0.4714226722717285,
+      "learning_rate": 8.954715367323468e-06,
+      "loss": 0.646,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 581,
+      "tokens_per_second_per_gpu": 17370.32,
+      "total_tokens": 14813116
+    },
+    {
+      "epoch": 0.04654882828121251,
+      "grad_norm": 0.459878534078598,
+      "learning_rate": 8.920006442939772e-06,
+      "loss": 0.6484,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 582,
+      "tokens_per_second_per_gpu": 17366.54,
+      "total_tokens": 14839467
+    },
+    {
+      "epoch": 0.0466288090858194,
+      "grad_norm": 0.4947279989719391,
+      "learning_rate": 8.885310677936746e-06,
+      "loss": 0.656,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 583,
+      "tokens_per_second_per_gpu": 17204.88,
+      "total_tokens": 14865234
+    },
+    {
+      "epoch": 0.046708789890426296,
+      "grad_norm": 0.49737077951431274,
+      "learning_rate": 8.850628495071336e-06,
+      "loss": 0.6808,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 584,
+      "tokens_per_second_per_gpu": 17365.74,
+      "total_tokens": 14891556
+    },
+    {
+      "epoch": 0.04678877069503319,
+      "grad_norm": 0.49995678663253784,
+      "learning_rate": 8.815960316934991e-06,
+      "loss": 0.6392,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 585,
+      "tokens_per_second_per_gpu": 17080.84,
+      "total_tokens": 14917230
+    },
+    {
+      "epoch": 0.046868751499640086,
+      "grad_norm": 0.5089588165283203,
+      "learning_rate": 8.781306565948528e-06,
+      "loss": 0.6864,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 586,
+      "tokens_per_second_per_gpu": 16838.83,
+      "total_tokens": 14942605
+    },
+    {
+      "epoch": 0.04694873230424698,
+      "grad_norm": 0.4909396767616272,
+      "learning_rate": 8.746667664356957e-06,
+      "loss": 0.6111,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 587,
+      "tokens_per_second_per_gpu": 17205.48,
+      "total_tokens": 14968659
+    },
+    {
+      "epoch": 0.04702871310885388,
+      "grad_norm": 0.463184118270874,
+      "learning_rate": 8.712044034224374e-06,
+      "loss": 0.595,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 588,
+      "tokens_per_second_per_gpu": 17060.7,
+      "total_tokens": 14994885
+    },
+    {
+      "epoch": 0.04710869391346077,
+      "grad_norm": 0.905055820941925,
+      "learning_rate": 8.677436097428775e-06,
+      "loss": 0.6458,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 589,
+      "tokens_per_second_per_gpu": 16621.93,
+      "total_tokens": 15019934
+    },
+    {
+      "epoch": 0.04718867471806766,
+      "grad_norm": 0.4729231894016266,
+      "learning_rate": 8.642844275656957e-06,
+      "loss": 0.6957,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 590,
+      "tokens_per_second_per_gpu": 17788.01,
+      "total_tokens": 15046933
+    },
+    {
+      "epoch": 0.047268655522674556,
+      "grad_norm": 0.5098869204521179,
+      "learning_rate": 8.60826899039935e-06,
+      "loss": 0.6265,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 591,
+      "tokens_per_second_per_gpu": 16950.24,
+      "total_tokens": 15072162
+    },
+    {
+      "epoch": 0.04734863632728145,
+      "grad_norm": 0.49714773893356323,
+      "learning_rate": 8.573710662944884e-06,
+      "loss": 0.6777,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 592,
+      "tokens_per_second_per_gpu": 16566.85,
+      "total_tokens": 15097098
+    },
+    {
+      "epoch": 0.04742861713188835,
+      "grad_norm": 0.4808761477470398,
+      "learning_rate": 8.539169714375885e-06,
+      "loss": 0.6586,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 593,
+      "tokens_per_second_per_gpu": 17276.4,
+      "total_tokens": 15123131
+    },
+    {
+      "epoch": 0.04750859793649524,
+      "grad_norm": 0.5037384033203125,
+      "learning_rate": 8.504646565562907e-06,
+      "loss": 0.6783,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 594,
+      "tokens_per_second_per_gpu": 17387.82,
+      "total_tokens": 15149443
+    },
+    {
+      "epoch": 0.04758857874110214,
+      "grad_norm": 0.49192243814468384,
+      "learning_rate": 8.47014163715962e-06,
+      "loss": 0.6142,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 595,
+      "tokens_per_second_per_gpu": 16517.04,
+      "total_tokens": 15173258
+    },
+    {
+      "epoch": 0.04766855954570903,
+      "grad_norm": 0.5216419696807861,
+      "learning_rate": 8.43565534959769e-06,
+      "loss": 0.6364,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 596,
+      "tokens_per_second_per_gpu": 16922.88,
+      "total_tokens": 15198315
+    },
+    {
+      "epoch": 0.04774854035031592,
+      "grad_norm": 0.48781725764274597,
+      "learning_rate": 8.401188123081653e-06,
+      "loss": 0.6312,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 597,
+      "tokens_per_second_per_gpu": 17166.4,
+      "total_tokens": 15224223
+    },
+    {
+      "epoch": 0.047828521154922816,
+      "grad_norm": 0.48654705286026,
+      "learning_rate": 8.366740377583781e-06,
+      "loss": 0.6459,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 598,
+      "tokens_per_second_per_gpu": 17255.25,
+      "total_tokens": 15250664
+    },
+    {
+      "epoch": 0.04790850195952971,
+      "grad_norm": 0.48847904801368713,
+      "learning_rate": 8.332312532838978e-06,
+      "loss": 0.6484,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 599,
+      "tokens_per_second_per_gpu": 17191.9,
+      "total_tokens": 15276565
+    },
+    {
+      "epoch": 0.04798848276413661,
+      "grad_norm": 0.4727404713630676,
+      "learning_rate": 8.297905008339677e-06,
+      "loss": 0.6467,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 600,
+      "tokens_per_second_per_gpu": 17521.18,
+      "total_tokens": 15302942
+    },
+    {
+      "epoch": 0.0480684635687435,
+      "grad_norm": 0.49052244424819946,
+      "learning_rate": 8.263518223330698e-06,
+      "loss": 0.6492,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 601,
+      "tokens_per_second_per_gpu": 17039.69,
+      "total_tokens": 15329013
+    },
+    {
+      "epoch": 0.0481484443733504,
+      "grad_norm": 0.4712292551994324,
+      "learning_rate": 8.22915259680417e-06,
+      "loss": 0.6232,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 602,
+      "tokens_per_second_per_gpu": 16841.81,
+      "total_tokens": 15354575
+    },
+    {
+      "epoch": 0.04822842517795729,
+      "grad_norm": 0.4877064526081085,
+      "learning_rate": 8.194808547494401e-06,
+      "loss": 0.6617,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 603,
+      "tokens_per_second_per_gpu": 17087.94,
+      "total_tokens": 15379668
+    },
+    {
+      "epoch": 0.04830840598256418,
+      "grad_norm": 0.5102121829986572,
+      "learning_rate": 8.1604864938728e-06,
+      "loss": 0.6315,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 604,
+      "tokens_per_second_per_gpu": 16581.29,
+      "total_tokens": 15404809
+    },
+    {
+      "epoch": 0.04838838678717108,
+      "grad_norm": 0.4876486361026764,
+      "learning_rate": 8.126186854142752e-06,
+      "loss": 0.5826,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 605,
+      "tokens_per_second_per_gpu": 16902.6,
+      "total_tokens": 15430201
+    },
+    {
+      "epoch": 0.04846836759177797,
+      "grad_norm": 0.510290265083313,
+      "learning_rate": 8.091910046234552e-06,
+      "loss": 0.6742,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 606,
+      "tokens_per_second_per_gpu": 17105.66,
+      "total_tokens": 15455793
+    },
+    {
+      "epoch": 0.04854834839638487,
+      "grad_norm": 0.4743480980396271,
+      "learning_rate": 8.057656487800283e-06,
+      "loss": 0.6673,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 607,
+      "tokens_per_second_per_gpu": 17214.78,
+      "total_tokens": 15482472
+    },
+    {
+      "epoch": 0.04862832920099176,
+      "grad_norm": 0.48495572805404663,
+      "learning_rate": 8.023426596208739e-06,
+      "loss": 0.6654,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 608,
+      "tokens_per_second_per_gpu": 17224.85,
+      "total_tokens": 15508453
+    },
+    {
+      "epoch": 0.04870831000559866,
+      "grad_norm": 0.48911020159721375,
+      "learning_rate": 7.989220788540356e-06,
+      "loss": 0.6215,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 609,
+      "tokens_per_second_per_gpu": 16851.65,
+      "total_tokens": 15533469
+    },
+    {
+      "epoch": 0.048788290810205553,
+      "grad_norm": 0.46720772981643677,
+      "learning_rate": 7.955039481582098e-06,
+      "loss": 0.6018,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 610,
+      "tokens_per_second_per_gpu": 16750.14,
+      "total_tokens": 15558559
+    },
+    {
+      "epoch": 0.04886827161481244,
+      "grad_norm": 0.5051571130752563,
+      "learning_rate": 7.92088309182241e-06,
+      "loss": 0.6471,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 611,
+      "tokens_per_second_per_gpu": 16870.87,
+      "total_tokens": 15583697
+    },
+    {
+      "epoch": 0.04894825241941934,
+      "grad_norm": 0.49818551540374756,
+      "learning_rate": 7.886752035446116e-06,
+      "loss": 0.663,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 612,
+      "tokens_per_second_per_gpu": 17041.92,
+      "total_tokens": 15609568
+    },
+    {
+      "epoch": 0.04902823322402623,
+      "grad_norm": 0.47889798879623413,
+      "learning_rate": 7.852646728329368e-06,
+      "loss": 0.6533,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 613,
+      "tokens_per_second_per_gpu": 17201.08,
+      "total_tokens": 15635573
+    },
+    {
+      "epoch": 0.04910821402863313,
+      "grad_norm": 0.4940686523914337,
+      "learning_rate": 7.818567586034578e-06,
+      "loss": 0.6428,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 614,
+      "tokens_per_second_per_gpu": 16846.51,
+      "total_tokens": 15660689
+    },
+    {
+      "epoch": 0.04918819483324002,
+      "grad_norm": 0.4960979223251343,
+      "learning_rate": 7.784515023805328e-06,
+      "loss": 0.6548,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 615,
+      "tokens_per_second_per_gpu": 16855.99,
+      "total_tokens": 15685730
+    },
+    {
+      "epoch": 0.04926817563784692,
+      "grad_norm": 0.5047521591186523,
+      "learning_rate": 7.750489456561351e-06,
+      "loss": 0.609,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 616,
+      "tokens_per_second_per_gpu": 16865.43,
+      "total_tokens": 15711363
+    },
+    {
+      "epoch": 0.049348156442453814,
+      "grad_norm": 0.538982629776001,
+      "learning_rate": 7.716491298893443e-06,
+      "loss": 0.6671,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 617,
+      "tokens_per_second_per_gpu": 16915.95,
+      "total_tokens": 15736639
+    },
+    {
+      "epoch": 0.0494281372470607,
+      "grad_norm": 0.5692036151885986,
+      "learning_rate": 7.68252096505843e-06,
+      "loss": 0.6733,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 618,
+      "tokens_per_second_per_gpu": 16922.84,
+      "total_tokens": 15761816
+    },
+    {
+      "epoch": 0.0495081180516676,
+      "grad_norm": 0.4885812997817993,
+      "learning_rate": 7.6485788689741e-06,
+      "loss": 0.6583,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 619,
+      "tokens_per_second_per_gpu": 17492.93,
+      "total_tokens": 15787918
+    },
+    {
+      "epoch": 0.04958809885627449,
+      "grad_norm": 0.5453019738197327,
+      "learning_rate": 7.6146654242141935e-06,
+      "loss": 0.7266,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 620,
+      "tokens_per_second_per_gpu": 16796.92,
+      "total_tokens": 15812967
+    },
+    {
+      "epoch": 0.04966807966088139,
+      "grad_norm": 0.5044118165969849,
+      "learning_rate": 7.580781044003324e-06,
+      "loss": 0.6738,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 621,
+      "tokens_per_second_per_gpu": 16983.61,
+      "total_tokens": 15838154
+    },
+    {
+      "epoch": 0.049748060465488284,
+      "grad_norm": 0.49475517868995667,
+      "learning_rate": 7.546926141211975e-06,
+      "loss": 0.6235,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 622,
+      "tokens_per_second_per_gpu": 16762.51,
+      "total_tokens": 15863293
+    },
+    {
+      "epoch": 0.04982804127009518,
+      "grad_norm": 0.5201805830001831,
+      "learning_rate": 7.513101128351454e-06,
+      "loss": 0.6033,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 623,
+      "tokens_per_second_per_gpu": 16768.92,
+      "total_tokens": 15888215
+    },
+    {
+      "epoch": 0.049908022074702074,
+      "grad_norm": 0.5115200877189636,
+      "learning_rate": 7.4793064175688635e-06,
+      "loss": 0.6793,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 624,
+      "tokens_per_second_per_gpu": 17648.67,
+      "total_tokens": 15914592
+    },
+    {
+      "epoch": 0.04998800287930896,
+      "grad_norm": 0.5228220820426941,
+      "learning_rate": 7.445542420642097e-06,
+      "loss": 0.6296,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 625,
+      "tokens_per_second_per_gpu": 16790.6,
+      "total_tokens": 15940125
+    },
+    {
+      "epoch": 0.05006798368391586,
+      "grad_norm": 0.4957731068134308,
+      "learning_rate": 7.411809548974792e-06,
+      "loss": 0.6431,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 626,
+      "tokens_per_second_per_gpu": 17142.31,
+      "total_tokens": 15965805
+    },
+    {
+      "epoch": 0.05014796448852275,
+      "grad_norm": 0.48672324419021606,
+      "learning_rate": 7.378108213591355e-06,
+      "loss": 0.6589,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 627,
+      "tokens_per_second_per_gpu": 16842.27,
+      "total_tokens": 15990871
+    },
+    {
+      "epoch": 0.05022794529312965,
+      "grad_norm": 0.5299752950668335,
+      "learning_rate": 7.344438825131912e-06,
+      "loss": 0.6362,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 628,
+      "tokens_per_second_per_gpu": 16874.41,
+      "total_tokens": 16016112
+    },
+    {
+      "epoch": 0.050307926097736544,
+      "grad_norm": 0.4939616918563843,
+      "learning_rate": 7.310801793847344e-06,
+      "loss": 0.6658,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 629,
+      "tokens_per_second_per_gpu": 17161.05,
+      "total_tokens": 16041667
+    },
+    {
+      "epoch": 0.05038790690234344,
+      "grad_norm": 0.5360363125801086,
+      "learning_rate": 7.277197529594257e-06,
+      "loss": 0.6419,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 630,
+      "tokens_per_second_per_gpu": 16983.54,
+      "total_tokens": 16066562
+    },
+    {
+      "epoch": 0.050467887706950335,
+      "grad_norm": 0.4936983287334442,
+      "learning_rate": 7.243626441830009e-06,
+      "loss": 0.6341,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 631,
+      "tokens_per_second_per_gpu": 16644.31,
+      "total_tokens": 16091903
+    },
+    {
+      "epoch": 0.05054786851155722,
+      "grad_norm": 0.5046349763870239,
+      "learning_rate": 7.210088939607709e-06,
+      "loss": 0.7089,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 632,
+      "tokens_per_second_per_gpu": 17592.12,
+      "total_tokens": 16118442
+    },
+    {
+      "epoch": 0.05062784931616412,
+      "grad_norm": 0.4913012385368347,
+      "learning_rate": 7.176585431571235e-06,
+      "loss": 0.7011,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 633,
+      "tokens_per_second_per_gpu": 17143.68,
+      "total_tokens": 16144725
+    },
+    {
+      "epoch": 0.050707830120771014,
+      "grad_norm": 0.5462119579315186,
+      "learning_rate": 7.143116325950266e-06,
+      "loss": 0.6766,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 634,
+      "tokens_per_second_per_gpu": 17247.03,
+      "total_tokens": 16170369
+    },
+    {
+      "epoch": 0.05078781092537791,
+      "grad_norm": 0.5056242346763611,
+      "learning_rate": 7.109682030555283e-06,
+      "loss": 0.6201,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 635,
+      "tokens_per_second_per_gpu": 16855.99,
+      "total_tokens": 16195646
+    },
+    {
+      "epoch": 0.050867791729984804,
+      "grad_norm": 0.47949331998825073,
+      "learning_rate": 7.076282952772634e-06,
+      "loss": 0.6441,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 636,
+      "tokens_per_second_per_gpu": 16613.54,
+      "total_tokens": 16220540
+    },
+    {
+      "epoch": 0.0509477725345917,
+      "grad_norm": 0.48914220929145813,
+      "learning_rate": 7.042919499559538e-06,
+      "loss": 0.6101,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 637,
+      "tokens_per_second_per_gpu": 16800.29,
+      "total_tokens": 16245408
+    },
+    {
+      "epoch": 0.051027753339198595,
+      "grad_norm": 0.5196214318275452,
+      "learning_rate": 7.009592077439135e-06,
+      "loss": 0.6946,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 638,
+      "tokens_per_second_per_gpu": 17131.28,
+      "total_tokens": 16271244
+    },
+    {
+      "epoch": 0.05110773414380548,
+      "grad_norm": 0.5333957076072693,
+      "learning_rate": 6.976301092495556e-06,
+      "loss": 0.6489,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 639,
+      "tokens_per_second_per_gpu": 17256.94,
+      "total_tokens": 16297194
+    },
+    {
+      "epoch": 0.05118771494841238,
+      "grad_norm": 0.4803604781627655,
+      "learning_rate": 6.943046950368944e-06,
+      "loss": 0.6063,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 640,
+      "tokens_per_second_per_gpu": 16761.74,
+      "total_tokens": 16322047
+    },
+    {
+      "epoch": 0.051267695753019274,
+      "grad_norm": 0.5199413299560547,
+      "learning_rate": 6.909830056250527e-06,
+      "loss": 0.6978,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 641,
+      "tokens_per_second_per_gpu": 16905.31,
+      "total_tokens": 16347028
+    },
+    {
+      "epoch": 0.05134767655762617,
+      "grad_norm": 0.5130301117897034,
+      "learning_rate": 6.876650814877675e-06,
+      "loss": 0.6378,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 642,
+      "tokens_per_second_per_gpu": 16899.38,
+      "total_tokens": 16372392
+    },
+    {
+      "epoch": 0.051427657362233065,
+      "grad_norm": 0.5086696743965149,
+      "learning_rate": 6.843509630528977e-06,
+      "loss": 0.6444,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 643,
+      "tokens_per_second_per_gpu": 17210.14,
+      "total_tokens": 16398587
+    },
+    {
+      "epoch": 0.05150763816683996,
+      "grad_norm": 0.4915199875831604,
+      "learning_rate": 6.8104069070193e-06,
+      "loss": 0.6514,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 644,
+      "tokens_per_second_per_gpu": 16820.48,
+      "total_tokens": 16423176
+    },
+    {
+      "epoch": 0.051587618971446855,
+      "grad_norm": 0.49876171350479126,
+      "learning_rate": 6.777343047694891e-06,
+      "loss": 0.6849,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 645,
+      "tokens_per_second_per_gpu": 17426.66,
+      "total_tokens": 16450009
+    },
+    {
+      "epoch": 0.051667599776053744,
+      "grad_norm": 0.5137947201728821,
+      "learning_rate": 6.744318455428436e-06,
+      "loss": 0.6763,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 646,
+      "tokens_per_second_per_gpu": 16806.41,
+      "total_tokens": 16475334
+    },
+    {
+      "epoch": 0.05174758058066064,
+      "grad_norm": 0.5228657126426697,
+      "learning_rate": 6.711333532614168e-06,
+      "loss": 0.6699,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 647,
+      "tokens_per_second_per_gpu": 17221.27,
+      "total_tokens": 16501203
+    },
+    {
+      "epoch": 0.051827561385267534,
+      "grad_norm": 0.5308648943901062,
+      "learning_rate": 6.67838868116297e-06,
+      "loss": 0.668,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 648,
+      "tokens_per_second_per_gpu": 17008.86,
+      "total_tokens": 16526728
+    },
+    {
+      "epoch": 0.05190754218987443,
+      "grad_norm": 0.5293684005737305,
+      "learning_rate": 6.645484302497452e-06,
+      "loss": 0.6544,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 649,
+      "tokens_per_second_per_gpu": 16986.29,
+      "total_tokens": 16551898
+    },
+    {
+      "epoch": 0.051987522994481325,
+      "grad_norm": 0.5115300416946411,
+      "learning_rate": 6.612620797547087e-06,
+      "loss": 0.6249,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 650,
+      "tokens_per_second_per_gpu": 17339.71,
+      "total_tokens": 16577920
+    },
+    {
+      "epoch": 0.05206750379908822,
+      "grad_norm": 0.5213042497634888,
+      "learning_rate": 6.579798566743314e-06,
+      "loss": 0.6496,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 651,
+      "tokens_per_second_per_gpu": 17219.75,
+      "total_tokens": 16604021
+    },
+    {
+      "epoch": 0.052147484603695116,
+      "grad_norm": 0.5389010310173035,
+      "learning_rate": 6.547018010014654e-06,
+      "loss": 0.6647,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 652,
+      "tokens_per_second_per_gpu": 17230.96,
+      "total_tokens": 16629696
+    },
+    {
+      "epoch": 0.05222746540830201,
+      "grad_norm": 0.5159024000167847,
+      "learning_rate": 6.5142795267818505e-06,
+      "loss": 0.6325,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 653,
+      "tokens_per_second_per_gpu": 17017.35,
+      "total_tokens": 16655351
+    },
+    {
+      "epoch": 0.0523074462129089,
+      "grad_norm": 0.4998682141304016,
+      "learning_rate": 6.481583515952983e-06,
+      "loss": 0.6439,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 654,
+      "tokens_per_second_per_gpu": 17015.79,
+      "total_tokens": 16680965
+    },
+    {
+      "epoch": 0.052387427017515795,
+      "grad_norm": 0.5311859250068665,
+      "learning_rate": 6.448930375918632e-06,
+      "loss": 0.6561,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 655,
+      "tokens_per_second_per_gpu": 16236.56,
+      "total_tokens": 16705336
+    },
+    {
+      "epoch": 0.05246740782212269,
+      "grad_norm": 0.5103529691696167,
+      "learning_rate": 6.4163205045469975e-06,
+      "loss": 0.6153,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 656,
+      "tokens_per_second_per_gpu": 16413.1,
+      "total_tokens": 16729896
+    },
+    {
+      "epoch": 0.052547388626729585,
+      "grad_norm": 0.5097713470458984,
+      "learning_rate": 6.383754299179079e-06,
+      "loss": 0.6412,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 657,
+      "tokens_per_second_per_gpu": 17055.16,
+      "total_tokens": 16755420
+    },
+    {
+      "epoch": 0.05262736943133648,
+      "grad_norm": 0.4635200500488281,
+      "learning_rate": 6.351232156623803e-06,
+      "loss": 0.5744,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 658,
+      "tokens_per_second_per_gpu": 17132.79,
+      "total_tokens": 16781693
+    },
+    {
+      "epoch": 0.052707350235943376,
+      "grad_norm": 0.5747168660163879,
+      "learning_rate": 6.318754473153221e-06,
+      "loss": 0.6812,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 659,
+      "tokens_per_second_per_gpu": 16736.57,
+      "total_tokens": 16806316
+    },
+    {
+      "epoch": 0.05278733104055027,
+      "grad_norm": 0.4747006595134735,
+      "learning_rate": 6.286321644497655e-06,
+      "loss": 0.6251,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 660,
+      "tokens_per_second_per_gpu": 17304.87,
+      "total_tokens": 16832772
+    },
+    {
+      "epoch": 0.05286731184515716,
+      "grad_norm": 0.5061115026473999,
+      "learning_rate": 6.25393406584088e-06,
+      "loss": 0.6581,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 661,
+      "tokens_per_second_per_gpu": 17742.51,
+      "total_tokens": 16859124
+    },
+    {
+      "epoch": 0.052947292649764055,
+      "grad_norm": 0.4995548725128174,
+      "learning_rate": 6.22159213181533e-06,
+      "loss": 0.6492,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 662,
+      "tokens_per_second_per_gpu": 16850.9,
+      "total_tokens": 16884185
+    },
+    {
+      "epoch": 0.05302727345437095,
+      "grad_norm": 0.5568655729293823,
+      "learning_rate": 6.18929623649726e-06,
+      "loss": 0.5819,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 663,
+      "tokens_per_second_per_gpu": 16745.3,
+      "total_tokens": 16909485
+    },
+    {
+      "epoch": 0.053107254258977846,
+      "grad_norm": 0.502731204032898,
+      "learning_rate": 6.157046773401964e-06,
+      "loss": 0.6288,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 664,
+      "tokens_per_second_per_gpu": 17083.54,
+      "total_tokens": 16935162
+    },
+    {
+      "epoch": 0.05318723506358474,
+      "grad_norm": 0.517120361328125,
+      "learning_rate": 6.124844135478971e-06,
+      "loss": 0.6518,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 665,
+      "tokens_per_second_per_gpu": 17008.29,
+      "total_tokens": 16960109
+    },
+    {
+      "epoch": 0.053267215868191636,
+      "grad_norm": 0.5138611793518066,
+      "learning_rate": 6.092688715107265e-06,
+      "loss": 0.643,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 666,
+      "tokens_per_second_per_gpu": 16915.46,
+      "total_tokens": 16985762
+    },
+    {
+      "epoch": 0.05334719667279853,
+      "grad_norm": 0.5278694033622742,
+      "learning_rate": 6.06058090409049e-06,
+      "loss": 0.6474,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 667,
+      "tokens_per_second_per_gpu": 17094.87,
+      "total_tokens": 17011822
+    },
+    {
+      "epoch": 0.05342717747740542,
+      "grad_norm": 0.4872185289859772,
+      "learning_rate": 6.028521093652195e-06,
+      "loss": 0.6303,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 668,
+      "tokens_per_second_per_gpu": 17232.09,
+      "total_tokens": 17038442
+    },
+    {
+      "epoch": 0.053507158282012315,
+      "grad_norm": 0.5109195113182068,
+      "learning_rate": 5.996509674431053e-06,
+      "loss": 0.6477,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 669,
+      "tokens_per_second_per_gpu": 16715.13,
+      "total_tokens": 17063529
+    },
+    {
+      "epoch": 0.05358713908661921,
+      "grad_norm": 0.5262460708618164,
+      "learning_rate": 5.9645470364761e-06,
+      "loss": 0.6393,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 670,
+      "tokens_per_second_per_gpu": 16640.95,
+      "total_tokens": 17088499
+    },
+    {
+      "epoch": 0.053667119891226106,
+      "grad_norm": 0.4987565875053406,
+      "learning_rate": 5.932633569242e-06,
+      "loss": 0.6176,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 671,
+      "tokens_per_second_per_gpu": 16846.36,
+      "total_tokens": 17113810
+    },
+    {
+      "epoch": 0.053747100695833,
+      "grad_norm": 0.5298067927360535,
+      "learning_rate": 5.900769661584273e-06,
+      "loss": 0.7042,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 672,
+      "tokens_per_second_per_gpu": 17058.35,
+      "total_tokens": 17139525
+    },
+    {
+      "epoch": 0.0538270815004399,
+      "grad_norm": 0.4801011085510254,
+      "learning_rate": 5.868955701754584e-06,
+      "loss": 0.5934,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 673,
+      "tokens_per_second_per_gpu": 16728.94,
+      "total_tokens": 17165170
+    },
+    {
+      "epoch": 0.05390706230504679,
+      "grad_norm": 0.5165581107139587,
+      "learning_rate": 5.83719207739599e-06,
+      "loss": 0.5992,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 674,
+      "tokens_per_second_per_gpu": 16374.51,
+      "total_tokens": 17189646
+    },
+    {
+      "epoch": 0.05398704310965368,
+      "grad_norm": 0.5193620920181274,
+      "learning_rate": 5.8054791755382286e-06,
+      "loss": 0.6553,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 675,
+      "tokens_per_second_per_gpu": 16535.5,
+      "total_tokens": 17214531
+    },
+    {
+      "epoch": 0.054067023914260576,
+      "grad_norm": 0.48226460814476013,
+      "learning_rate": 5.773817382593008e-06,
+      "loss": 0.6172,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 676,
+      "tokens_per_second_per_gpu": 17723.66,
+      "total_tokens": 17241548
+    },
+    {
+      "epoch": 0.05414700471886747,
+      "grad_norm": 0.5453917980194092,
+      "learning_rate": 5.742207084349274e-06,
+      "loss": 0.6006,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 677,
+      "tokens_per_second_per_gpu": 16531.5,
+      "total_tokens": 17265863
+    },
+    {
+      "epoch": 0.054226985523474366,
+      "grad_norm": 0.5053668022155762,
+      "learning_rate": 5.710648665968543e-06,
+      "loss": 0.639,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 678,
+      "tokens_per_second_per_gpu": 16542.28,
+      "total_tokens": 17290327
+    },
+    {
+      "epoch": 0.05430696632808126,
+      "grad_norm": 0.5109512209892273,
+      "learning_rate": 5.679142511980176e-06,
+      "loss": 0.6027,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 679,
+      "tokens_per_second_per_gpu": 16971.18,
+      "total_tokens": 17315480
+    },
+    {
+      "epoch": 0.05438694713268816,
+      "grad_norm": 0.5201040506362915,
+      "learning_rate": 5.647689006276727e-06,
+      "loss": 0.6206,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 680,
+      "tokens_per_second_per_gpu": 16478.13,
+      "total_tokens": 17340212
+    },
+    {
+      "epoch": 0.05446692793729505,
+      "grad_norm": 0.502582848072052,
+      "learning_rate": 5.616288532109225e-06,
+      "loss": 0.6805,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 681,
+      "tokens_per_second_per_gpu": 17185.1,
+      "total_tokens": 17366028
+    },
+    {
+      "epoch": 0.05454690874190194,
+      "grad_norm": 0.5199177861213684,
+      "learning_rate": 5.584941472082549e-06,
+      "loss": 0.6613,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 682,
+      "tokens_per_second_per_gpu": 16955.39,
+      "total_tokens": 17390977
+    },
+    {
+      "epoch": 0.054626889546508836,
+      "grad_norm": 0.5209512114524841,
+      "learning_rate": 5.553648208150728e-06,
+      "loss": 0.6395,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 683,
+      "tokens_per_second_per_gpu": 16364.97,
+      "total_tokens": 17415065
+    },
+    {
+      "epoch": 0.05470687035111573,
+      "grad_norm": 0.5158247947692871,
+      "learning_rate": 5.522409121612304e-06,
+      "loss": 0.6239,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 684,
+      "tokens_per_second_per_gpu": 17041.4,
+      "total_tokens": 17440462
+    },
+    {
+      "epoch": 0.05478685115572263,
+      "grad_norm": 0.5076451897621155,
+      "learning_rate": 5.491224593105695e-06,
+      "loss": 0.6193,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 685,
+      "tokens_per_second_per_gpu": 16489.47,
+      "total_tokens": 17465299
+    },
+    {
+      "epoch": 0.05486683196032952,
+      "grad_norm": 0.4743523895740509,
+      "learning_rate": 5.460095002604533e-06,
+      "loss": 0.6283,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 686,
+      "tokens_per_second_per_gpu": 17522.65,
+      "total_tokens": 17491830
+    },
+    {
+      "epoch": 0.05494681276493642,
+      "grad_norm": 0.5121709108352661,
+      "learning_rate": 5.429020729413062e-06,
+      "loss": 0.6348,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 687,
+      "tokens_per_second_per_gpu": 16463.08,
+      "total_tokens": 17516529
+    },
+    {
+      "epoch": 0.05502679356954331,
+      "grad_norm": 0.510275661945343,
+      "learning_rate": 5.398002152161484e-06,
+      "loss": 0.6229,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 688,
+      "tokens_per_second_per_gpu": 16654.05,
+      "total_tokens": 17541653
+    },
+    {
+      "epoch": 0.0551067743741502,
+      "grad_norm": 0.49475717544555664,
+      "learning_rate": 5.367039648801386e-06,
+      "loss": 0.6389,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 689,
+      "tokens_per_second_per_gpu": 16899.12,
+      "total_tokens": 17567106
+    },
+    {
+      "epoch": 0.055186755178757096,
+      "grad_norm": 0.5166232585906982,
+      "learning_rate": 5.336133596601089e-06,
+      "loss": 0.669,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 690,
+      "tokens_per_second_per_gpu": 17002.49,
+      "total_tokens": 17592976
+    },
+    {
+      "epoch": 0.05526673598336399,
+      "grad_norm": 0.4955079257488251,
+      "learning_rate": 5.305284372141095e-06,
+      "loss": 0.5659,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 691,
+      "tokens_per_second_per_gpu": 16119.99,
+      "total_tokens": 17616788
+    },
+    {
+      "epoch": 0.05534671678797089,
+      "grad_norm": 0.49480971693992615,
+      "learning_rate": 5.274492351309462e-06,
+      "loss": 0.6458,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 692,
+      "tokens_per_second_per_gpu": 17306.47,
+      "total_tokens": 17642818
+    },
+    {
+      "epoch": 0.05542669759257778,
+      "grad_norm": 0.5008161067962646,
+      "learning_rate": 5.243757909297247e-06,
+      "loss": 0.6161,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 693,
+      "tokens_per_second_per_gpu": 17152.18,
+      "total_tokens": 17668640
+    },
+    {
+      "epoch": 0.05550667839718468,
+      "grad_norm": 0.5221447348594666,
+      "learning_rate": 5.213081420593933e-06,
+      "loss": 0.616,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 694,
+      "tokens_per_second_per_gpu": 16822.73,
+      "total_tokens": 17693424
+    },
+    {
+      "epoch": 0.05558665920179157,
+      "grad_norm": 0.5296872854232788,
+      "learning_rate": 5.1824632589828465e-06,
+      "loss": 0.6246,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 695,
+      "tokens_per_second_per_gpu": 16770.43,
+      "total_tokens": 17718572
+    },
+    {
+      "epoch": 0.05566664000639846,
+      "grad_norm": 0.5189606547355652,
+      "learning_rate": 5.151903797536631e-06,
+      "loss": 0.6366,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 696,
+      "tokens_per_second_per_gpu": 16921.39,
+      "total_tokens": 17743965
+    },
+    {
+      "epoch": 0.05574662081100536,
+      "grad_norm": 0.5203530788421631,
+      "learning_rate": 5.121403408612672e-06,
+      "loss": 0.7065,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 697,
+      "tokens_per_second_per_gpu": 17426.51,
+      "total_tokens": 17770644
+    },
+    {
+      "epoch": 0.05582660161561225,
+      "grad_norm": 0.51515132188797,
+      "learning_rate": 5.090962463848592e-06,
+      "loss": 0.6459,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 698,
+      "tokens_per_second_per_gpu": 17112.57,
+      "total_tokens": 17796697
+    },
+    {
+      "epoch": 0.05590658242021915,
+      "grad_norm": 0.5101720094680786,
+      "learning_rate": 5.060581334157693e-06,
+      "loss": 0.6448,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 699,
+      "tokens_per_second_per_gpu": 16878.94,
+      "total_tokens": 17821904
+    },
+    {
+      "epoch": 0.05598656322482604,
+      "grad_norm": 0.5070253610610962,
+      "learning_rate": 5.030260389724447e-06,
+      "loss": 0.6271,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 700,
+      "tokens_per_second_per_gpu": 17086.03,
+      "total_tokens": 17847477
+    },
+    {
+      "epoch": 0.05606654402943294,
+      "grad_norm": 0.5088156461715698,
+      "learning_rate": 5.000000000000003e-06,
+      "loss": 0.6259,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 701,
+      "tokens_per_second_per_gpu": 17014.29,
+      "total_tokens": 17873042
+    },
+    {
+      "epoch": 0.05614652483403983,
+      "grad_norm": 0.4844730496406555,
+      "learning_rate": 4.96980053369765e-06,
+      "loss": 0.6019,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 702,
+      "tokens_per_second_per_gpu": 16950.47,
+      "total_tokens": 17898577
+    },
+    {
+      "epoch": 0.05622650563864672,
+      "grad_norm": 0.5203348994255066,
+      "learning_rate": 4.939662358788364e-06,
+      "loss": 0.6317,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 703,
+      "tokens_per_second_per_gpu": 16871.59,
+      "total_tokens": 17923826
+    },
+    {
+      "epoch": 0.05630648644325362,
+      "grad_norm": 0.5411732196807861,
+      "learning_rate": 4.909585842496287e-06,
+      "loss": 0.6407,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 704,
+      "tokens_per_second_per_gpu": 17433.86,
+      "total_tokens": 17950148
+    },
+    {
+      "epoch": 0.05638646724786051,
+      "grad_norm": 0.5115430951118469,
+      "learning_rate": 4.879571351294287e-06,
+      "loss": 0.6517,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 705,
+      "tokens_per_second_per_gpu": 17553.94,
+      "total_tokens": 17976281
+    },
+    {
+      "epoch": 0.05646644805246741,
+      "grad_norm": 0.5059305429458618,
+      "learning_rate": 4.849619250899458e-06,
+      "loss": 0.6271,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 706,
+      "tokens_per_second_per_gpu": 16888.3,
+      "total_tokens": 18001831
+    },
+    {
+      "epoch": 0.0565464288570743,
+      "grad_norm": 0.4909086525440216,
+      "learning_rate": 4.8197299062687e-06,
+      "loss": 0.656,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 707,
+      "tokens_per_second_per_gpu": 17176.8,
+      "total_tokens": 18028323
+    },
+    {
+      "epoch": 0.0566264096616812,
+      "grad_norm": 0.5115363597869873,
+      "learning_rate": 4.78990368159424e-06,
+      "loss": 0.6764,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 708,
+      "tokens_per_second_per_gpu": 17153.77,
+      "total_tokens": 18054022
+    },
+    {
+      "epoch": 0.056706390466288094,
+      "grad_norm": 0.5104652643203735,
+      "learning_rate": 4.76014094029921e-06,
+      "loss": 0.648,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 709,
+      "tokens_per_second_per_gpu": 17076.04,
+      "total_tokens": 18080235
+    },
+    {
+      "epoch": 0.05678637127089498,
+      "grad_norm": 0.5099148154258728,
+      "learning_rate": 4.7304420450332244e-06,
+      "loss": 0.6074,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 710,
+      "tokens_per_second_per_gpu": 16836.58,
+      "total_tokens": 18105272
+    },
+    {
+      "epoch": 0.05686635207550188,
+      "grad_norm": 0.5084642171859741,
+      "learning_rate": 4.700807357667953e-06,
+      "loss": 0.6519,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 711,
+      "tokens_per_second_per_gpu": 17614.67,
+      "total_tokens": 18131849
+    },
+    {
+      "epoch": 0.05694633288010877,
+      "grad_norm": 0.5015023946762085,
+      "learning_rate": 4.671237239292699e-06,
+      "loss": 0.5743,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 712,
+      "tokens_per_second_per_gpu": 16473.36,
+      "total_tokens": 18156262
+    },
+    {
+      "epoch": 0.05702631368471567,
+      "grad_norm": 0.5393797159194946,
+      "learning_rate": 4.641732050210032e-06,
+      "loss": 0.667,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 713,
+      "tokens_per_second_per_gpu": 17115.49,
+      "total_tokens": 18181782
+    },
+    {
+      "epoch": 0.057106294489322564,
+      "grad_norm": 0.5561414361000061,
+      "learning_rate": 4.612292149931369e-06,
+      "loss": 0.6896,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 714,
+      "tokens_per_second_per_gpu": 17365.17,
+      "total_tokens": 18208558
+    },
+    {
+      "epoch": 0.05718627529392946,
+      "grad_norm": 0.5471202731132507,
+      "learning_rate": 4.582917897172603e-06,
+      "loss": 0.6506,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 715,
+      "tokens_per_second_per_gpu": 17052.18,
+      "total_tokens": 18234567
+    },
+    {
+      "epoch": 0.057266256098536354,
+      "grad_norm": 0.4913035035133362,
+      "learning_rate": 4.5536096498497295e-06,
+      "loss": 0.6357,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 716,
+      "tokens_per_second_per_gpu": 17184.7,
+      "total_tokens": 18261123
+    },
+    {
+      "epoch": 0.05734623690314324,
+      "grad_norm": 0.49759647250175476,
+      "learning_rate": 4.524367765074499e-06,
+      "loss": 0.6172,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 717,
+      "tokens_per_second_per_gpu": 17501.25,
+      "total_tokens": 18287293
+    },
+    {
+      "epoch": 0.05742621770775014,
+      "grad_norm": 0.5413016080856323,
+      "learning_rate": 4.495192599150045e-06,
+      "loss": 0.6359,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 718,
+      "tokens_per_second_per_gpu": 16512.11,
+      "total_tokens": 18312199
+    },
+    {
+      "epoch": 0.05750619851235703,
+      "grad_norm": 0.5255224108695984,
+      "learning_rate": 4.46608450756656e-06,
+      "loss": 0.638,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 719,
+      "tokens_per_second_per_gpu": 17083.09,
+      "total_tokens": 18337670
+    },
+    {
+      "epoch": 0.05758617931696393,
+      "grad_norm": 0.5278708338737488,
+      "learning_rate": 4.437043844996952e-06,
+      "loss": 0.6669,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 720,
+      "tokens_per_second_per_gpu": 17489.34,
+      "total_tokens": 18364339
+    },
+    {
+      "epoch": 0.057666160121570824,
+      "grad_norm": 0.5288352370262146,
+      "learning_rate": 4.408070965292534e-06,
+      "loss": 0.6484,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 721,
+      "tokens_per_second_per_gpu": 17045.79,
+      "total_tokens": 18389586
+    },
+    {
+      "epoch": 0.05774614092617772,
+      "grad_norm": 0.4860366880893707,
+      "learning_rate": 4.379166221478697e-06,
+      "loss": 0.6261,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 722,
+      "tokens_per_second_per_gpu": 17383.61,
+      "total_tokens": 18416280
+    },
+    {
+      "epoch": 0.057826121730784615,
+      "grad_norm": 0.5295699834823608,
+      "learning_rate": 4.350329965750622e-06,
+      "loss": 0.6549,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 723,
+      "tokens_per_second_per_gpu": 16710.45,
+      "total_tokens": 18441370
+    },
+    {
+      "epoch": 0.0579061025353915,
+      "grad_norm": 0.4987591505050659,
+      "learning_rate": 4.321562549468991e-06,
+      "loss": 0.6431,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 724,
+      "tokens_per_second_per_gpu": 17326.31,
+      "total_tokens": 18468281
+    },
+    {
+      "epoch": 0.0579860833399984,
+      "grad_norm": 0.5106927752494812,
+      "learning_rate": 4.292864323155684e-06,
+      "loss": 0.6309,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 725,
+      "tokens_per_second_per_gpu": 17342.4,
+      "total_tokens": 18494509
+    },
+    {
+      "epoch": 0.058066064144605294,
+      "grad_norm": 0.4820137023925781,
+      "learning_rate": 4.264235636489542e-06,
+      "loss": 0.6057,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 726,
+      "tokens_per_second_per_gpu": 16684.63,
+      "total_tokens": 18519945
+    },
+    {
+      "epoch": 0.05814604494921219,
+      "grad_norm": 0.5269767642021179,
+      "learning_rate": 4.235676838302069e-06,
+      "loss": 0.6297,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 727,
+      "tokens_per_second_per_gpu": 17668.63,
+      "total_tokens": 18546042
+    },
+    {
+      "epoch": 0.058226025753819084,
+      "grad_norm": 0.46701568365097046,
+      "learning_rate": 4.207188276573214e-06,
+      "loss": 0.6421,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 728,
+      "tokens_per_second_per_gpu": 17517.42,
+      "total_tokens": 18572973
+    },
+    {
+      "epoch": 0.05830600655842598,
+      "grad_norm": 0.5261129140853882,
+      "learning_rate": 4.178770298427107e-06,
+      "loss": 0.659,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 729,
+      "tokens_per_second_per_gpu": 16871.14,
+      "total_tokens": 18598790
+    },
+    {
+      "epoch": 0.058385987363032875,
+      "grad_norm": 0.5487871170043945,
+      "learning_rate": 4.150423250127846e-06,
+      "loss": 0.6549,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 730,
+      "tokens_per_second_per_gpu": 16979.14,
+      "total_tokens": 18624176
+    },
+    {
+      "epoch": 0.05846596816763976,
+      "grad_norm": 0.4980189800262451,
+      "learning_rate": 4.12214747707527e-06,
+      "loss": 0.6359,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 731,
+      "tokens_per_second_per_gpu": 17217.12,
+      "total_tokens": 18649963
+    },
+    {
+      "epoch": 0.05854594897224666,
+      "grad_norm": 0.588450014591217,
+      "learning_rate": 4.093943323800746e-06,
+      "loss": 0.6685,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 732,
+      "tokens_per_second_per_gpu": 17620.46,
+      "total_tokens": 18676309
+    },
+    {
+      "epoch": 0.058625929776853554,
+      "grad_norm": 0.5422666668891907,
+      "learning_rate": 4.065811133962987e-06,
+      "loss": 0.6858,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 733,
+      "tokens_per_second_per_gpu": 17164.56,
+      "total_tokens": 18701937
+    },
+    {
+      "epoch": 0.05870591058146045,
+      "grad_norm": 0.49481356143951416,
+      "learning_rate": 4.037751250343841e-06,
+      "loss": 0.6455,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 734,
+      "tokens_per_second_per_gpu": 17268.18,
+      "total_tokens": 18728402
+    },
+    {
+      "epoch": 0.058785891386067345,
+      "grad_norm": 0.4996780753135681,
+      "learning_rate": 4.009764014844143e-06,
+      "loss": 0.6418,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 735,
+      "tokens_per_second_per_gpu": 16964.57,
+      "total_tokens": 18754341
+    },
+    {
+      "epoch": 0.05886587219067424,
+      "grad_norm": 0.5555558204650879,
+      "learning_rate": 3.981849768479516e-06,
+      "loss": 0.6603,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 736,
+      "tokens_per_second_per_gpu": 16663.17,
+      "total_tokens": 18778777
+    },
+    {
+      "epoch": 0.058945852995281135,
+      "grad_norm": 0.5153935551643372,
+      "learning_rate": 3.954008851376252e-06,
+      "loss": 0.6305,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 737,
+      "tokens_per_second_per_gpu": 16853.63,
+      "total_tokens": 18804000
+    },
+    {
+      "epoch": 0.059025833799888024,
+      "grad_norm": 0.5119479298591614,
+      "learning_rate": 3.9262416027671354e-06,
+      "loss": 0.622,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 738,
+      "tokens_per_second_per_gpu": 16758.19,
+      "total_tokens": 18829052
+    },
+    {
+      "epoch": 0.05910581460449492,
+      "grad_norm": 0.5353497862815857,
+      "learning_rate": 3.898548360987325e-06,
+      "loss": 0.6104,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 739,
+      "tokens_per_second_per_gpu": 16663.69,
+      "total_tokens": 18854098
+    },
+    {
+      "epoch": 0.059185795409101814,
+      "grad_norm": 0.5033715963363647,
+      "learning_rate": 3.8709294634702374e-06,
+      "loss": 0.6282,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 740,
+      "tokens_per_second_per_gpu": 16812.07,
+      "total_tokens": 18879460
+    },
+    {
+      "epoch": 0.05926577621370871,
+      "grad_norm": 0.5525617599487305,
+      "learning_rate": 3.8433852467434175e-06,
+      "loss": 0.6933,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 741,
+      "tokens_per_second_per_gpu": 16728.85,
+      "total_tokens": 18905035
+    },
+    {
+      "epoch": 0.059345757018315605,
+      "grad_norm": 0.5698568820953369,
+      "learning_rate": 3.81591604642446e-06,
+      "loss": 0.6629,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 742,
+      "tokens_per_second_per_gpu": 17133.82,
+      "total_tokens": 18930728
+    },
+    {
+      "epoch": 0.0594257378229225,
+      "grad_norm": 0.5329509973526001,
+      "learning_rate": 3.7885221972168974e-06,
+      "loss": 0.6,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 743,
+      "tokens_per_second_per_gpu": 16556.46,
+      "total_tokens": 18955130
+    },
+    {
+      "epoch": 0.059505718627529396,
+      "grad_norm": 0.5058096647262573,
+      "learning_rate": 3.7612040329061405e-06,
+      "loss": 0.6008,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 744,
+      "tokens_per_second_per_gpu": 17059.72,
+      "total_tokens": 18980442
+    },
+    {
+      "epoch": 0.059585699432136284,
+      "grad_norm": 0.5127116441726685,
+      "learning_rate": 3.7339618863553983e-06,
+      "loss": 0.5898,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 745,
+      "tokens_per_second_per_gpu": 16644.72,
+      "total_tokens": 19005603
+    },
+    {
+      "epoch": 0.05966568023674318,
+      "grad_norm": 0.5248084664344788,
+      "learning_rate": 3.7067960895016277e-06,
+      "loss": 0.6807,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 746,
+      "tokens_per_second_per_gpu": 17100.45,
+      "total_tokens": 19031447
+    },
+    {
+      "epoch": 0.059745661041350075,
+      "grad_norm": 0.5084623694419861,
+      "learning_rate": 3.679706973351491e-06,
+      "loss": 0.6247,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 747,
+      "tokens_per_second_per_gpu": 16938.92,
+      "total_tokens": 19057263
+    },
+    {
+      "epoch": 0.05982564184595697,
+      "grad_norm": 0.5016053915023804,
+      "learning_rate": 3.6526948679773256e-06,
+      "loss": 0.6035,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 748,
+      "tokens_per_second_per_gpu": 17456.58,
+      "total_tokens": 19082873
+    },
+    {
+      "epoch": 0.059905622650563865,
+      "grad_norm": 0.5239890813827515,
+      "learning_rate": 3.625760102513103e-06,
+      "loss": 0.6351,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 749,
+      "tokens_per_second_per_gpu": 16711.43,
+      "total_tokens": 19108031
+    },
+    {
+      "epoch": 0.05998560345517076,
+      "grad_norm": 0.5268155336380005,
+      "learning_rate": 3.598903005150444e-06,
+      "loss": 0.6499,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 750,
+      "tokens_per_second_per_gpu": 17401.95,
+      "total_tokens": 19133855
+    },
+    {
+      "epoch": 0.060065584259777656,
+      "grad_norm": 0.5115627646446228,
+      "learning_rate": 3.5721239031346067e-06,
+      "loss": 0.5869,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 751,
+      "tokens_per_second_per_gpu": 17175.88,
+      "total_tokens": 19159287
+    },
+    {
+      "epoch": 0.060145565064384544,
+      "grad_norm": 0.5156000852584839,
+      "learning_rate": 3.545423122760493e-06,
+      "loss": 0.6222,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 752,
+      "tokens_per_second_per_gpu": 16409.08,
+      "total_tokens": 19184023
+    },
+    {
+      "epoch": 0.06022554586899144,
+      "grad_norm": 0.5103474259376526,
+      "learning_rate": 3.5188009893686916e-06,
+      "loss": 0.6848,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 753,
+      "tokens_per_second_per_gpu": 17179.22,
+      "total_tokens": 19209757
+    },
+    {
+      "epoch": 0.060305526673598335,
+      "grad_norm": 0.5245898365974426,
+      "learning_rate": 3.492257827341492e-06,
+      "loss": 0.6132,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 754,
+      "tokens_per_second_per_gpu": 16744.73,
+      "total_tokens": 19235219
+    },
+    {
+      "epoch": 0.06038550747820523,
+      "grad_norm": 0.5107713937759399,
+      "learning_rate": 3.4657939600989453e-06,
+      "loss": 0.6396,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 755,
+      "tokens_per_second_per_gpu": 17234.96,
+      "total_tokens": 19261421
+    },
+    {
+      "epoch": 0.060465488282812126,
+      "grad_norm": 0.5091108679771423,
+      "learning_rate": 3.4394097100949286e-06,
+      "loss": 0.6414,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 756,
+      "tokens_per_second_per_gpu": 16886.75,
+      "total_tokens": 19287079
+    },
+    {
+      "epoch": 0.06054546908741902,
+      "grad_norm": 0.5734265446662903,
+      "learning_rate": 3.4131053988131947e-06,
+      "loss": 0.6478,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 757,
+      "tokens_per_second_per_gpu": 16271.26,
+      "total_tokens": 19311542
+    },
+    {
+      "epoch": 0.060625449892025916,
+      "grad_norm": 0.5568541884422302,
+      "learning_rate": 3.3868813467634833e-06,
+      "loss": 0.6899,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 758,
+      "tokens_per_second_per_gpu": 16956.37,
+      "total_tokens": 19336639
+    },
+    {
+      "epoch": 0.060705430696632805,
+      "grad_norm": 0.513871967792511,
+      "learning_rate": 3.360737873477584e-06,
+      "loss": 0.6322,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 759,
+      "tokens_per_second_per_gpu": 17458.5,
+      "total_tokens": 19362877
+    },
+    {
+      "epoch": 0.0607854115012397,
+      "grad_norm": 0.9253639578819275,
+      "learning_rate": 3.3346752975054763e-06,
+      "loss": 0.6365,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 760,
+      "tokens_per_second_per_gpu": 16756.47,
+      "total_tokens": 19387787
+    },
+    {
+      "epoch": 0.060865392305846595,
+      "grad_norm": 0.5255782604217529,
+      "learning_rate": 3.308693936411421e-06,
+      "loss": 0.6198,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 761,
+      "tokens_per_second_per_gpu": 16632.82,
+      "total_tokens": 19412823
+    },
+    {
+      "epoch": 0.06094537311045349,
+      "grad_norm": 0.5765253901481628,
+      "learning_rate": 3.2827941067700996e-06,
+      "loss": 0.683,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 762,
+      "tokens_per_second_per_gpu": 17055.63,
+      "total_tokens": 19438474
+    },
+    {
+      "epoch": 0.061025353915060386,
+      "grad_norm": 0.5258163809776306,
+      "learning_rate": 3.2569761241627694e-06,
+      "loss": 0.6129,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 763,
+      "tokens_per_second_per_gpu": 16890.04,
+      "total_tokens": 19463735
+    },
+    {
+      "epoch": 0.06110533471966728,
+      "grad_norm": 0.5253279209136963,
+      "learning_rate": 3.2312403031733943e-06,
+      "loss": 0.6451,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 764,
+      "tokens_per_second_per_gpu": 16498.84,
+      "total_tokens": 19488908
+    },
+    {
+      "epoch": 0.06118531552427418,
+      "grad_norm": 0.5541175603866577,
+      "learning_rate": 3.2055869573848374e-06,
+      "loss": 0.6668,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 765,
+      "tokens_per_second_per_gpu": 16835.26,
+      "total_tokens": 19514039
+    },
+    {
+      "epoch": 0.061265296328881065,
+      "grad_norm": 0.5414297580718994,
+      "learning_rate": 3.1800163993750166e-06,
+      "loss": 0.6561,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 766,
+      "tokens_per_second_per_gpu": 16740.75,
+      "total_tokens": 19539620
+    },
+    {
+      "epoch": 0.06134527713348796,
+      "grad_norm": 0.5167970657348633,
+      "learning_rate": 3.1545289407131128e-06,
+      "loss": 0.6536,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 767,
+      "tokens_per_second_per_gpu": 17410.67,
+      "total_tokens": 19565987
+    },
+    {
+      "epoch": 0.061425257938094856,
+      "grad_norm": 0.5267289280891418,
+      "learning_rate": 3.1291248919557717e-06,
+      "loss": 0.6601,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 768,
+      "tokens_per_second_per_gpu": 16764.95,
+      "total_tokens": 19591059
+    },
+    {
+      "epoch": 0.06150523874270175,
+      "grad_norm": 0.5405831336975098,
+      "learning_rate": 3.103804562643302e-06,
+      "loss": 0.6209,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 769,
+      "tokens_per_second_per_gpu": 16595.39,
+      "total_tokens": 19615537
+    },
+    {
+      "epoch": 0.061585219547308646,
+      "grad_norm": 0.5549702048301697,
+      "learning_rate": 3.0785682612959334e-06,
+      "loss": 0.7085,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 770,
+      "tokens_per_second_per_gpu": 17500.29,
+      "total_tokens": 19642176
+    },
+    {
+      "epoch": 0.06166520035191554,
+      "grad_norm": 0.526394784450531,
+      "learning_rate": 3.0534162954100264e-06,
+      "loss": 0.6627,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 771,
+      "tokens_per_second_per_gpu": 16967.6,
+      "total_tokens": 19668033
+    },
+    {
+      "epoch": 0.06174518115652244,
+      "grad_norm": 0.5020858645439148,
+      "learning_rate": 3.028348971454356e-06,
+      "loss": 0.6248,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 772,
+      "tokens_per_second_per_gpu": 16806.61,
+      "total_tokens": 19693414
+    },
+    {
+      "epoch": 0.06182516196112933,
+      "grad_norm": 0.5282226204872131,
+      "learning_rate": 3.003366594866345e-06,
+      "loss": 0.5409,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 773,
+      "tokens_per_second_per_gpu": 15666.25,
+      "total_tokens": 19716633
+    },
+    {
+      "epoch": 0.06190514276573622,
+      "grad_norm": 0.5440317988395691,
+      "learning_rate": 2.978469470048376e-06,
+      "loss": 0.6455,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 774,
+      "tokens_per_second_per_gpu": 16783.48,
+      "total_tokens": 19741484
+    },
+    {
+      "epoch": 0.061985123570343116,
+      "grad_norm": 0.5348433256149292,
+      "learning_rate": 2.953657900364053e-06,
+      "loss": 0.6522,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 775,
+      "tokens_per_second_per_gpu": 17053.01,
+      "total_tokens": 19767834
+    },
+    {
+      "epoch": 0.06206510437495001,
+      "grad_norm": 0.543786883354187,
+      "learning_rate": 2.9289321881345257e-06,
+      "loss": 0.6371,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 776,
+      "tokens_per_second_per_gpu": 16892.92,
+      "total_tokens": 19793247
+    },
+    {
+      "epoch": 0.06214508517955691,
+      "grad_norm": 0.5311694741249084,
+      "learning_rate": 2.9042926346347932e-06,
+      "loss": 0.649,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 777,
+      "tokens_per_second_per_gpu": 16817.82,
+      "total_tokens": 19818294
+    },
+    {
+      "epoch": 0.0622250659841638,
+      "grad_norm": 0.5300283432006836,
+      "learning_rate": 2.8797395400900362e-06,
+      "loss": 0.641,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 778,
+      "tokens_per_second_per_gpu": 16882.54,
+      "total_tokens": 19843333
+    },
+    {
+      "epoch": 0.0623050467887707,
+      "grad_norm": 0.5160916447639465,
+      "learning_rate": 2.855273203671969e-06,
+      "loss": 0.6468,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 779,
+      "tokens_per_second_per_gpu": 17472.3,
+      "total_tokens": 19869580
+    },
+    {
+      "epoch": 0.06238502759337759,
+      "grad_norm": 0.5387117266654968,
+      "learning_rate": 2.830893923495173e-06,
+      "loss": 0.6213,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 780,
+      "tokens_per_second_per_gpu": 17099.02,
+      "total_tokens": 19895160
+    },
+    {
+      "epoch": 0.06246500839798448,
+      "grad_norm": 0.5398359894752502,
+      "learning_rate": 2.8066019966134907e-06,
+      "loss": 0.6452,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 781,
+      "tokens_per_second_per_gpu": 17350.46,
+      "total_tokens": 19920688
+    },
+    {
+      "epoch": 0.06254498920259138,
+      "grad_norm": 0.5316033363342285,
+      "learning_rate": 2.7823977190163788e-06,
+      "loss": 0.6397,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 782,
+      "tokens_per_second_per_gpu": 16772.7,
+      "total_tokens": 19945648
+    },
+    {
+      "epoch": 0.06262497000719827,
+      "grad_norm": 0.5031722187995911,
+      "learning_rate": 2.7582813856253276e-06,
+      "loss": 0.6356,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 783,
+      "tokens_per_second_per_gpu": 17215.15,
+      "total_tokens": 19971748
+    },
+    {
+      "epoch": 0.06270495081180516,
+      "grad_norm": 0.5138970017433167,
+      "learning_rate": 2.7342532902902418e-06,
+      "loss": 0.6307,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 784,
+      "tokens_per_second_per_gpu": 17223.48,
+      "total_tokens": 19998237
+    },
+    {
+      "epoch": 0.06278493161641206,
+      "grad_norm": 0.4964427053928375,
+      "learning_rate": 2.7103137257858867e-06,
+      "loss": 0.5311,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 785,
+      "tokens_per_second_per_gpu": 16260.69,
+      "total_tokens": 20022768
+    },
+    {
+      "epoch": 0.06286491242101895,
+      "grad_norm": 0.5650128126144409,
+      "learning_rate": 2.6864629838082957e-06,
+      "loss": 0.5814,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 786,
+      "tokens_per_second_per_gpu": 16690.38,
+      "total_tokens": 20047748
+    },
+    {
+      "epoch": 0.06294489322562585,
+      "grad_norm": 0.5131796598434448,
+      "learning_rate": 2.6627013549712355e-06,
+      "loss": 0.6104,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 787,
+      "tokens_per_second_per_gpu": 16507.9,
+      "total_tokens": 20072431
+    },
+    {
+      "epoch": 0.06302487403023274,
+      "grad_norm": 0.5409046411514282,
+      "learning_rate": 2.639029128802657e-06,
+      "loss": 0.6366,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 788,
+      "tokens_per_second_per_gpu": 17400.52,
+      "total_tokens": 20098484
+    },
+    {
+      "epoch": 0.06310485483483964,
+      "grad_norm": 0.5458826422691345,
+      "learning_rate": 2.615446593741161e-06,
+      "loss": 0.6474,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 789,
+      "tokens_per_second_per_gpu": 17471.76,
+      "total_tokens": 20124504
+    },
+    {
+      "epoch": 0.06318483563944653,
+      "grad_norm": 0.5500627160072327,
+      "learning_rate": 2.5919540371325005e-06,
+      "loss": 0.6645,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 790,
+      "tokens_per_second_per_gpu": 16887.62,
+      "total_tokens": 20149719
+    },
+    {
+      "epoch": 0.06326481644405342,
+      "grad_norm": 0.7003596425056458,
+      "learning_rate": 2.5685517452260566e-06,
+      "loss": 0.6207,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 791,
+      "tokens_per_second_per_gpu": 17039.19,
+      "total_tokens": 20174892
+    },
+    {
+      "epoch": 0.06334479724866032,
+      "grad_norm": 0.5149163007736206,
+      "learning_rate": 2.5452400031713786e-06,
+      "loss": 0.5908,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 792,
+      "tokens_per_second_per_gpu": 16747.71,
+      "total_tokens": 20199527
+    },
+    {
+      "epoch": 0.06342477805326721,
+      "grad_norm": 0.5385146141052246,
+      "learning_rate": 2.522019095014683e-06,
+      "loss": 0.6026,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 793,
+      "tokens_per_second_per_gpu": 16726.82,
+      "total_tokens": 20224267
+    },
+    {
+      "epoch": 0.06350475885787411,
+      "grad_norm": 0.5230799317359924,
+      "learning_rate": 2.4988893036954045e-06,
+      "loss": 0.6515,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 794,
+      "tokens_per_second_per_gpu": 17114.37,
+      "total_tokens": 20250327
+    },
+    {
+      "epoch": 0.063584739662481,
+      "grad_norm": 0.5139489769935608,
+      "learning_rate": 2.4758509110427576e-06,
+      "loss": 0.6482,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 795,
+      "tokens_per_second_per_gpu": 16803.05,
+      "total_tokens": 20275583
+    },
+    {
+      "epoch": 0.0636647204670879,
+      "grad_norm": 0.523923933506012,
+      "learning_rate": 2.45290419777228e-06,
+      "loss": 0.6579,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 796,
+      "tokens_per_second_per_gpu": 17032.63,
+      "total_tokens": 20301068
+    },
+    {
+      "epoch": 0.06374470127169479,
+      "grad_norm": 0.7031800746917725,
+      "learning_rate": 2.4300494434824373e-06,
+      "loss": 0.6209,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 797,
+      "tokens_per_second_per_gpu": 16706.86,
+      "total_tokens": 20326831
+    },
+    {
+      "epoch": 0.06382468207630168,
+      "grad_norm": 0.5347440838813782,
+      "learning_rate": 2.407286926651192e-06,
+      "loss": 0.6361,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 798,
+      "tokens_per_second_per_gpu": 16973.33,
+      "total_tokens": 20351944
+    },
+    {
+      "epoch": 0.06390466288090858,
+      "grad_norm": 0.5046122074127197,
+      "learning_rate": 2.3846169246326345e-06,
+      "loss": 0.6284,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 799,
+      "tokens_per_second_per_gpu": 17113.48,
+      "total_tokens": 20377650
+    },
+    {
+      "epoch": 0.06398464368551547,
+      "grad_norm": 0.5298998355865479,
+      "learning_rate": 2.362039713653581e-06,
+      "loss": 0.6105,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 800,
+      "tokens_per_second_per_gpu": 16898.19,
+      "total_tokens": 20403133
+    },
+    {
+      "epoch": 0.06406462449012237,
+      "grad_norm": 0.5419802665710449,
+      "learning_rate": 2.339555568810221e-06,
+      "loss": 0.6345,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 801,
+      "tokens_per_second_per_gpu": 16951.5,
+      "total_tokens": 20428474
+    },
+    {
+      "epoch": 0.06414460529472926,
+      "grad_norm": 0.5342543125152588,
+      "learning_rate": 2.317164764064769e-06,
+      "loss": 0.6599,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 802,
+      "tokens_per_second_per_gpu": 17249.38,
+      "total_tokens": 20454441
+    },
+    {
+      "epoch": 0.06422458609933616,
+      "grad_norm": 0.5269400477409363,
+      "learning_rate": 2.2948675722421086e-06,
+      "loss": 0.5818,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 803,
+      "tokens_per_second_per_gpu": 16686.12,
+      "total_tokens": 20478852
+    },
+    {
+      "epoch": 0.06430456690394305,
+      "grad_norm": 0.5437107086181641,
+      "learning_rate": 2.27266426502649e-06,
+      "loss": 0.6462,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 804,
+      "tokens_per_second_per_gpu": 16684.85,
+      "total_tokens": 20503980
+    },
+    {
+      "epoch": 0.06438454770854994,
+      "grad_norm": 0.5457687973976135,
+      "learning_rate": 2.2505551129582047e-06,
+      "loss": 0.6608,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 805,
+      "tokens_per_second_per_gpu": 16383.96,
+      "total_tokens": 20528619
+    },
+    {
+      "epoch": 0.06446452851315684,
+      "grad_norm": 0.5263291001319885,
+      "learning_rate": 2.2285403854302912e-06,
+      "loss": 0.6213,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 806,
+      "tokens_per_second_per_gpu": 17247.48,
+      "total_tokens": 20554387
+    },
+    {
+      "epoch": 0.06454450931776373,
+      "grad_norm": 0.5361708402633667,
+      "learning_rate": 2.206620350685257e-06,
+      "loss": 0.6427,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 807,
+      "tokens_per_second_per_gpu": 17243.59,
+      "total_tokens": 20579876
+    },
+    {
+      "epoch": 0.06462449012237063,
+      "grad_norm": 0.5289268493652344,
+      "learning_rate": 2.1847952758118118e-06,
+      "loss": 0.6201,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 808,
+      "tokens_per_second_per_gpu": 16553.91,
+      "total_tokens": 20604719
+    },
+    {
+      "epoch": 0.06470447092697752,
+      "grad_norm": 0.544245183467865,
+      "learning_rate": 2.163065426741603e-06,
+      "loss": 0.6662,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 809,
+      "tokens_per_second_per_gpu": 17452.98,
+      "total_tokens": 20630589
+    },
+    {
+      "epoch": 0.06478445173158442,
+      "grad_norm": 0.5488360524177551,
+      "learning_rate": 2.1414310682459805e-06,
+      "loss": 0.6423,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 810,
+      "tokens_per_second_per_gpu": 16514.2,
+      "total_tokens": 20655490
+    },
+    {
+      "epoch": 0.06486443253619131,
+      "grad_norm": 0.5205331444740295,
+      "learning_rate": 2.119892463932781e-06,
+      "loss": 0.5988,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 811,
+      "tokens_per_second_per_gpu": 17129.86,
+      "total_tokens": 20681611
+    },
+    {
+      "epoch": 0.0649444133407982,
+      "grad_norm": 0.5465454459190369,
+      "learning_rate": 2.098449876243096e-06,
+      "loss": 0.6205,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 812,
+      "tokens_per_second_per_gpu": 14461.03,
+      "total_tokens": 20706354
+    },
+    {
+      "epoch": 0.0650243941454051,
+      "grad_norm": 0.5238451361656189,
+      "learning_rate": 2.0771035664480944e-06,
+      "loss": 0.6657,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 813,
+      "tokens_per_second_per_gpu": 17103.66,
+      "total_tokens": 20732674
+    },
+    {
+      "epoch": 0.06510437495001199,
+      "grad_norm": 0.5532448291778564,
+      "learning_rate": 2.0558537946458177e-06,
+      "loss": 0.7047,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 814,
+      "tokens_per_second_per_gpu": 17073.99,
+      "total_tokens": 20758451
+    },
+    {
+      "epoch": 0.0651843557546189,
+      "grad_norm": 0.5232256054878235,
+      "learning_rate": 2.0347008197580376e-06,
+      "loss": 0.6141,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 815,
+      "tokens_per_second_per_gpu": 17314.13,
+      "total_tokens": 20784400
+    },
+    {
+      "epoch": 0.06526433655922578,
+      "grad_norm": 0.537419855594635,
+      "learning_rate": 2.013644899527074e-06,
+      "loss": 0.6804,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 816,
+      "tokens_per_second_per_gpu": 17404.52,
+      "total_tokens": 20811146
+    },
+    {
+      "epoch": 0.06534431736383269,
+      "grad_norm": 0.5733768343925476,
+      "learning_rate": 1.9926862905126663e-06,
+      "loss": 0.6745,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 817,
+      "tokens_per_second_per_gpu": 16847.29,
+      "total_tokens": 20836415
+    },
+    {
+      "epoch": 0.06542429816843957,
+      "grad_norm": 0.5123438239097595,
+      "learning_rate": 1.9718252480888567e-06,
+      "loss": 0.6181,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 818,
+      "tokens_per_second_per_gpu": 17343.21,
+      "total_tokens": 20862400
+    },
+    {
+      "epoch": 0.06550427897304646,
+      "grad_norm": 0.5344765782356262,
+      "learning_rate": 1.95106202644086e-06,
+      "loss": 0.6232,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 819,
+      "tokens_per_second_per_gpu": 16935.96,
+      "total_tokens": 20887638
+    },
+    {
+      "epoch": 0.06558425977765336,
+      "grad_norm": 0.5133531093597412,
+      "learning_rate": 1.930396878561983e-06,
+      "loss": 0.6081,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 820,
+      "tokens_per_second_per_gpu": 17029.02,
+      "total_tokens": 20913351
+    },
+    {
+      "epoch": 0.06566424058226025,
+      "grad_norm": 0.5093186497688293,
+      "learning_rate": 1.9098300562505266e-06,
+      "loss": 0.5818,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 821,
+      "tokens_per_second_per_gpu": 17013.0,
+      "total_tokens": 20938940
+    },
+    {
+      "epoch": 0.06574422138686715,
+      "grad_norm": 0.5392187833786011,
+      "learning_rate": 1.8893618101067357e-06,
+      "loss": 0.6245,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 822,
+      "tokens_per_second_per_gpu": 17008.86,
+      "total_tokens": 20964899
+    },
+    {
+      "epoch": 0.06582420219147404,
+      "grad_norm": 0.5658339858055115,
+      "learning_rate": 1.8689923895297247e-06,
+      "loss": 0.6505,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 823,
+      "tokens_per_second_per_gpu": 16746.45,
+      "total_tokens": 20990024
+    },
+    {
+      "epoch": 0.06590418299608095,
+      "grad_norm": 0.5425558090209961,
+      "learning_rate": 1.848722042714457e-06,
+      "loss": 0.6539,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 824,
+      "tokens_per_second_per_gpu": 16762.28,
+      "total_tokens": 21015394
+    },
+    {
+      "epoch": 0.06598416380068783,
+      "grad_norm": 0.49881938099861145,
+      "learning_rate": 1.8285510166487154e-06,
+      "loss": 0.6495,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 825,
+      "tokens_per_second_per_gpu": 17344.43,
+      "total_tokens": 21041742
+    },
+    {
+      "epoch": 0.06606414460529474,
+      "grad_norm": 0.5435726642608643,
+      "learning_rate": 1.808479557110081e-06,
+      "loss": 0.6394,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 826,
+      "tokens_per_second_per_gpu": 16958.22,
+      "total_tokens": 21066554
+    },
+    {
+      "epoch": 0.06614412540990162,
+      "grad_norm": 0.5088474750518799,
+      "learning_rate": 1.7885079086629598e-06,
+      "loss": 0.6283,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 827,
+      "tokens_per_second_per_gpu": 16846.33,
+      "total_tokens": 21091431
+    },
+    {
+      "epoch": 0.06622410621450851,
+      "grad_norm": 0.5184812545776367,
+      "learning_rate": 1.7686363146555807e-06,
+      "loss": 0.6048,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 828,
+      "tokens_per_second_per_gpu": 16807.75,
+      "total_tokens": 21116183
+    },
+    {
+      "epoch": 0.06630408701911542,
+      "grad_norm": 0.5359786748886108,
+      "learning_rate": 1.7488650172170496e-06,
+      "loss": 0.6232,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 829,
+      "tokens_per_second_per_gpu": 16758.36,
+      "total_tokens": 21141076
+    },
+    {
+      "epoch": 0.0663840678237223,
+      "grad_norm": 0.5581966638565063,
+      "learning_rate": 1.7291942572543806e-06,
+      "loss": 0.6722,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 830,
+      "tokens_per_second_per_gpu": 16923.34,
+      "total_tokens": 21166455
+    },
+    {
+      "epoch": 0.0664640486283292,
+      "grad_norm": 0.5573216080665588,
+      "learning_rate": 1.709624274449584e-06,
+      "loss": 0.6268,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 831,
+      "tokens_per_second_per_gpu": 16440.4,
+      "total_tokens": 21190565
+    },
+    {
+      "epoch": 0.0665440294329361,
+      "grad_norm": 0.5541191697120667,
+      "learning_rate": 1.6901553072567189e-06,
+      "loss": 0.6127,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 832,
+      "tokens_per_second_per_gpu": 16602.29,
+      "total_tokens": 21214401
+    },
+    {
+      "epoch": 0.066624010237543,
+      "grad_norm": 0.5143559575080872,
+      "learning_rate": 1.6707875928990059e-06,
+      "loss": 0.6113,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 833,
+      "tokens_per_second_per_gpu": 16831.5,
+      "total_tokens": 21239453
+    },
+    {
+      "epoch": 0.06670399104214988,
+      "grad_norm": 0.5253430604934692,
+      "learning_rate": 1.651521367365936e-06,
+      "loss": 0.6203,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 834,
+      "tokens_per_second_per_gpu": 17026.44,
+      "total_tokens": 21265048
+    },
+    {
+      "epoch": 0.06678397184675677,
+      "grad_norm": 0.5263636708259583,
+      "learning_rate": 1.6323568654103838e-06,
+      "loss": 0.6411,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 835,
+      "tokens_per_second_per_gpu": 17001.65,
+      "total_tokens": 21290537
+    },
+    {
+      "epoch": 0.06686395265136368,
+      "grad_norm": 0.5092071890830994,
+      "learning_rate": 1.6132943205457607e-06,
+      "loss": 0.6245,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 836,
+      "tokens_per_second_per_gpu": 17222.45,
+      "total_tokens": 21316714
+    },
+    {
+      "epoch": 0.06694393345597056,
+      "grad_norm": 0.48893386125564575,
+      "learning_rate": 1.5943339650431578e-06,
+      "loss": 0.598,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 837,
+      "tokens_per_second_per_gpu": 17556.4,
+      "total_tokens": 21343578
+    },
+    {
+      "epoch": 0.06702391426057747,
+      "grad_norm": 0.5376018285751343,
+      "learning_rate": 1.5754760299285255e-06,
+      "loss": 0.6301,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 838,
+      "tokens_per_second_per_gpu": 16566.21,
+      "total_tokens": 21367631
+    },
+    {
+      "epoch": 0.06710389506518435,
+      "grad_norm": 0.5278213024139404,
+      "learning_rate": 1.5567207449798517e-06,
+      "loss": 0.613,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 839,
+      "tokens_per_second_per_gpu": 16833.56,
+      "total_tokens": 21393005
+    },
+    {
+      "epoch": 0.06718387586979126,
+      "grad_norm": 0.5237742066383362,
+      "learning_rate": 1.538068338724361e-06,
+      "loss": 0.6129,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 840,
+      "tokens_per_second_per_gpu": 16785.39,
+      "total_tokens": 21418322
+    },
+    {
+      "epoch": 0.06726385667439815,
+      "grad_norm": 0.5155054926872253,
+      "learning_rate": 1.5195190384357405e-06,
+      "loss": 0.6684,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 841,
+      "tokens_per_second_per_gpu": 16989.1,
+      "total_tokens": 21444279
+    },
+    {
+      "epoch": 0.06734383747900503,
+      "grad_norm": 0.509067714214325,
+      "learning_rate": 1.5010730701313626e-06,
+      "loss": 0.5873,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 842,
+      "tokens_per_second_per_gpu": 16848.11,
+      "total_tokens": 21469610
+    },
+    {
+      "epoch": 0.06742381828361194,
+      "grad_norm": 0.5532313585281372,
+      "learning_rate": 1.4827306585695234e-06,
+      "loss": 0.7063,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 843,
+      "tokens_per_second_per_gpu": 17019.37,
+      "total_tokens": 21495536
+    },
+    {
+      "epoch": 0.06750379908821882,
+      "grad_norm": 0.5344107747077942,
+      "learning_rate": 1.4644920272467245e-06,
+      "loss": 0.649,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 844,
+      "tokens_per_second_per_gpu": 17240.12,
+      "total_tokens": 21521566
+    },
+    {
+      "epoch": 0.06758377989282573,
+      "grad_norm": 0.5316765904426575,
+      "learning_rate": 1.446357398394934e-06,
+      "loss": 0.6567,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 845,
+      "tokens_per_second_per_gpu": 16519.7,
+      "total_tokens": 21546818
+    },
+    {
+      "epoch": 0.06766376069743262,
+      "grad_norm": 0.5471608638763428,
+      "learning_rate": 1.4283269929788779e-06,
+      "loss": 0.719,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 846,
+      "tokens_per_second_per_gpu": 17558.19,
+      "total_tokens": 21573813
+    },
+    {
+      "epoch": 0.06774374150203952,
+      "grad_norm": 0.5042493343353271,
+      "learning_rate": 1.4104010306933558e-06,
+      "loss": 0.5862,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 847,
+      "tokens_per_second_per_gpu": 16810.13,
+      "total_tokens": 21598898
+    },
+    {
+      "epoch": 0.0678237223066464,
+      "grad_norm": 0.5342798233032227,
+      "learning_rate": 1.3925797299605649e-06,
+      "loss": 0.629,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 848,
+      "tokens_per_second_per_gpu": 16624.04,
+      "total_tokens": 21624135
+    },
+    {
+      "epoch": 0.0679037031112533,
+      "grad_norm": 0.4844224750995636,
+      "learning_rate": 1.3748633079274254e-06,
+      "loss": 0.6284,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 849,
+      "tokens_per_second_per_gpu": 17643.78,
+      "total_tokens": 21651187
+    },
+    {
+      "epoch": 0.0679836839158602,
+      "grad_norm": 0.5576471090316772,
+      "learning_rate": 1.3572519804629537e-06,
+      "loss": 0.6663,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 850,
+      "tokens_per_second_per_gpu": 16739.95,
+      "total_tokens": 21676719
+    },
+    {
+      "epoch": 0.06806366472046708,
+      "grad_norm": 0.561067521572113,
+      "learning_rate": 1.339745962155613e-06,
+      "loss": 0.6616,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 851,
+      "tokens_per_second_per_gpu": 17580.06,
+      "total_tokens": 21703252
+    },
+    {
+      "epoch": 0.06814364552507399,
+      "grad_norm": 0.4975440204143524,
+      "learning_rate": 1.322345466310717e-06,
+      "loss": 0.6046,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 852,
+      "tokens_per_second_per_gpu": 17651.26,
+      "total_tokens": 21729685
+    },
+    {
+      "epoch": 0.06822362632968088,
+      "grad_norm": 0.5225350856781006,
+      "learning_rate": 1.30505070494781e-06,
+      "loss": 0.6014,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 853,
+      "tokens_per_second_per_gpu": 16744.83,
+      "total_tokens": 21754924
+    },
+    {
+      "epoch": 0.06830360713428778,
+      "grad_norm": 0.5175594687461853,
+      "learning_rate": 1.2878618887981064e-06,
+      "loss": 0.6292,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 854,
+      "tokens_per_second_per_gpu": 17130.6,
+      "total_tokens": 21780725
+    },
+    {
+      "epoch": 0.06838358793889467,
+      "grad_norm": 0.5212383270263672,
+      "learning_rate": 1.2707792273019049e-06,
+      "loss": 0.6432,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 855,
+      "tokens_per_second_per_gpu": 16877.97,
+      "total_tokens": 21806402
+    },
+    {
+      "epoch": 0.06846356874350155,
+      "grad_norm": 0.5338414907455444,
+      "learning_rate": 1.2538029286060428e-06,
+      "loss": 0.6623,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 856,
+      "tokens_per_second_per_gpu": 17129.27,
+      "total_tokens": 21832107
+    },
+    {
+      "epoch": 0.06854354954810846,
+      "grad_norm": 0.5500073432922363,
+      "learning_rate": 1.2369331995613664e-06,
+      "loss": 0.5917,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 857,
+      "tokens_per_second_per_gpu": 17256.77,
+      "total_tokens": 21857407
+    },
+    {
+      "epoch": 0.06862353035271535,
+      "grad_norm": 0.5338061451911926,
+      "learning_rate": 1.2201702457201948e-06,
+      "loss": 0.5952,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 858,
+      "tokens_per_second_per_gpu": 16673.84,
+      "total_tokens": 21882039
+    },
+    {
+      "epoch": 0.06870351115732225,
+      "grad_norm": 0.5579566955566406,
+      "learning_rate": 1.2035142713338366e-06,
+      "loss": 0.6569,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 859,
+      "tokens_per_second_per_gpu": 16671.62,
+      "total_tokens": 21907057
+    },
+    {
+      "epoch": 0.06878349196192914,
+      "grad_norm": 0.5408582091331482,
+      "learning_rate": 1.1869654793500784e-06,
+      "loss": 0.6789,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 860,
+      "tokens_per_second_per_gpu": 17620.35,
+      "total_tokens": 21933442
+    },
+    {
+      "epoch": 0.06886347276653604,
+      "grad_norm": 0.5381220579147339,
+      "learning_rate": 1.1705240714107301e-06,
+      "loss": 0.6369,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 861,
+      "tokens_per_second_per_gpu": 16727.68,
+      "total_tokens": 21958329
+    },
+    {
+      "epoch": 0.06894345357114293,
+      "grad_norm": 0.6026800274848938,
+      "learning_rate": 1.1541902478491607e-06,
+      "loss": 0.6602,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 862,
+      "tokens_per_second_per_gpu": 17363.28,
+      "total_tokens": 21984511
+    },
+    {
+      "epoch": 0.06902343437574981,
+      "grad_norm": 0.5562117099761963,
+      "learning_rate": 1.1379642076878528e-06,
+      "loss": 0.6528,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 863,
+      "tokens_per_second_per_gpu": 16971.05,
+      "total_tokens": 22009918
+    },
+    {
+      "epoch": 0.06910341518035672,
+      "grad_norm": 0.5344293713569641,
+      "learning_rate": 1.1218461486359878e-06,
+      "loss": 0.5938,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 864,
+      "tokens_per_second_per_gpu": 17145.65,
+      "total_tokens": 22035209
+    },
+    {
+      "epoch": 0.0691833959849636,
+      "grad_norm": 0.5310640931129456,
+      "learning_rate": 1.1058362670870248e-06,
+      "loss": 0.6437,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 865,
+      "tokens_per_second_per_gpu": 17253.19,
+      "total_tokens": 22060530
+    },
+    {
+      "epoch": 0.06926337678957051,
+      "grad_norm": 0.5512663125991821,
+      "learning_rate": 1.0899347581163222e-06,
+      "loss": 0.6598,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 866,
+      "tokens_per_second_per_gpu": 16895.55,
+      "total_tokens": 22085916
+    },
+    {
+      "epoch": 0.0693433575941774,
+      "grad_norm": 0.5096883773803711,
+      "learning_rate": 1.0741418154787443e-06,
+      "loss": 0.5948,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 867,
+      "tokens_per_second_per_gpu": 17271.65,
+      "total_tokens": 22111625
+    },
+    {
+      "epoch": 0.0694233383987843,
+      "grad_norm": 0.564525306224823,
+      "learning_rate": 1.058457631606319e-06,
+      "loss": 0.6606,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 868,
+      "tokens_per_second_per_gpu": 16660.76,
+      "total_tokens": 22136753
+    },
+    {
+      "epoch": 0.06950331920339119,
+      "grad_norm": 0.5231457352638245,
+      "learning_rate": 1.042882397605871e-06,
+      "loss": 0.6307,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 869,
+      "tokens_per_second_per_gpu": 17528.22,
+      "total_tokens": 22163028
+    },
+    {
+      "epoch": 0.06958330000799808,
+      "grad_norm": 0.5321533679962158,
+      "learning_rate": 1.0274163032567165e-06,
+      "loss": 0.61,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 870,
+      "tokens_per_second_per_gpu": 16565.4,
+      "total_tokens": 22187415
+    },
+    {
+      "epoch": 0.06966328081260498,
+      "grad_norm": 0.5243551135063171,
+      "learning_rate": 1.012059537008332e-06,
+      "loss": 0.6004,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 871,
+      "tokens_per_second_per_gpu": 17433.64,
+      "total_tokens": 22213442
+    },
+    {
+      "epoch": 0.06974326161721187,
+      "grad_norm": 0.5377528667449951,
+      "learning_rate": 9.968122859780648e-07,
+      "loss": 0.6148,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 872,
+      "tokens_per_second_per_gpu": 16785.52,
+      "total_tokens": 22238355
+    },
+    {
+      "epoch": 0.06982324242181877,
+      "grad_norm": 0.5466241240501404,
+      "learning_rate": 9.816747359488632e-07,
+      "loss": 0.6273,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 873,
+      "tokens_per_second_per_gpu": 16524.06,
+      "total_tokens": 22263013
+    },
+    {
+      "epoch": 0.06990322322642566,
+      "grad_norm": 0.5036591291427612,
+      "learning_rate": 9.666470713669918e-07,
+      "loss": 0.5697,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 874,
+      "tokens_per_second_per_gpu": 16487.97,
+      "total_tokens": 22287505
+    },
+    {
+      "epoch": 0.06998320403103256,
+      "grad_norm": 0.5080577731132507,
+      "learning_rate": 9.517294753398066e-07,
+      "loss": 0.629,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 875,
+      "tokens_per_second_per_gpu": 17594.93,
+      "total_tokens": 22314169
+    },
+    {
+      "epoch": 0.07006318483563945,
+      "grad_norm": 0.48881781101226807,
+      "learning_rate": 9.369221296335007e-07,
+      "loss": 0.5497,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 876,
+      "tokens_per_second_per_gpu": 16353.97,
+      "total_tokens": 22338437
+    },
+    {
+      "epoch": 0.07014316564024634,
+      "grad_norm": 0.6482576727867126,
+      "learning_rate": 9.222252146709143e-07,
+      "loss": 0.6313,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 877,
+      "tokens_per_second_per_gpu": 18105.32,
+      "total_tokens": 22365579
+    },
+    {
+      "epoch": 0.07022314644485324,
+      "grad_norm": 0.5619848966598511,
+      "learning_rate": 9.076389095293148e-07,
+      "loss": 0.6667,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 878,
+      "tokens_per_second_per_gpu": 17285.05,
+      "total_tokens": 22391841
+    },
+    {
+      "epoch": 0.07030312724946013,
+      "grad_norm": 0.5285101532936096,
+      "learning_rate": 8.931633919382299e-07,
+      "loss": 0.7238,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 879,
+      "tokens_per_second_per_gpu": 17521.55,
+      "total_tokens": 22418478
+    },
+    {
+      "epoch": 0.07038310805406703,
+      "grad_norm": 0.5396612286567688,
+      "learning_rate": 8.787988382772705e-07,
+      "loss": 0.5924,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 880,
+      "tokens_per_second_per_gpu": 16798.7,
+      "total_tokens": 22443336
+    },
+    {
+      "epoch": 0.07046308885867392,
+      "grad_norm": 0.5362244248390198,
+      "learning_rate": 8.645454235739903e-07,
+      "loss": 0.6344,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 881,
+      "tokens_per_second_per_gpu": 17292.72,
+      "total_tokens": 22469492
+    },
+    {
+      "epoch": 0.07054306966328082,
+      "grad_norm": 0.5551726222038269,
+      "learning_rate": 8.504033215017527e-07,
+      "loss": 0.6013,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 882,
+      "tokens_per_second_per_gpu": 16799.15,
+      "total_tokens": 22494816
+    },
+    {
+      "epoch": 0.07062305046788771,
+      "grad_norm": 0.5338584184646606,
+      "learning_rate": 8.363727043776037e-07,
+      "loss": 0.5833,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 883,
+      "tokens_per_second_per_gpu": 16136.84,
+      "total_tokens": 22518177
+    },
+    {
+      "epoch": 0.0707030312724946,
+      "grad_norm": 0.551880419254303,
+      "learning_rate": 8.224537431601886e-07,
+      "loss": 0.655,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 884,
+      "tokens_per_second_per_gpu": 16505.32,
+      "total_tokens": 22543491
+    },
+    {
+      "epoch": 0.0707830120771015,
+      "grad_norm": 0.5214104056358337,
+      "learning_rate": 8.086466074476562e-07,
+      "loss": 0.659,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 885,
+      "tokens_per_second_per_gpu": 17549.53,
+      "total_tokens": 22569806
+    },
+    {
+      "epoch": 0.07086299288170839,
+      "grad_norm": 0.542853057384491,
+      "learning_rate": 7.949514654755963e-07,
+      "loss": 0.6105,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 886,
+      "tokens_per_second_per_gpu": 16930.88,
+      "total_tokens": 22594691
+    },
+    {
+      "epoch": 0.07094297368631529,
+      "grad_norm": 0.5428863167762756,
+      "learning_rate": 7.81368484114996e-07,
+      "loss": 0.6104,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 887,
+      "tokens_per_second_per_gpu": 17283.71,
+      "total_tokens": 22620948
+    },
+    {
+      "epoch": 0.07102295449092218,
+      "grad_norm": 0.5423809289932251,
+      "learning_rate": 7.678978288701911e-07,
+      "loss": 0.636,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 888,
+      "tokens_per_second_per_gpu": 17444.73,
+      "total_tokens": 22647130
+    },
+    {
+      "epoch": 0.07110293529552908,
+      "grad_norm": 0.5242039561271667,
+      "learning_rate": 7.545396638768698e-07,
+      "loss": 0.6312,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 889,
+      "tokens_per_second_per_gpu": 16473.27,
+      "total_tokens": 22671849
+    },
+    {
+      "epoch": 0.07118291610013597,
+      "grad_norm": 0.5590543746948242,
+      "learning_rate": 7.412941519000527e-07,
+      "loss": 0.6512,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 890,
+      "tokens_per_second_per_gpu": 16881.91,
+      "total_tokens": 22697023
+    },
+    {
+      "epoch": 0.07126289690474286,
+      "grad_norm": 0.5263185501098633,
+      "learning_rate": 7.281614543321269e-07,
+      "loss": 0.6223,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 891,
+      "tokens_per_second_per_gpu": 16850.16,
+      "total_tokens": 22722217
+    },
+    {
+      "epoch": 0.07134287770934976,
+      "grad_norm": 0.5166627764701843,
+      "learning_rate": 7.151417311908648e-07,
+      "loss": 0.6212,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 892,
+      "tokens_per_second_per_gpu": 16842.39,
+      "total_tokens": 22747378
+    },
+    {
+      "epoch": 0.07142285851395665,
+      "grad_norm": 0.5226914286613464,
+      "learning_rate": 7.022351411174866e-07,
+      "loss": 0.6251,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 893,
+      "tokens_per_second_per_gpu": 17338.77,
+      "total_tokens": 22773619
+    },
+    {
+      "epoch": 0.07150283931856355,
+      "grad_norm": 0.5193334221839905,
+      "learning_rate": 6.894418413747183e-07,
+      "loss": 0.6043,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 894,
+      "tokens_per_second_per_gpu": 17232.17,
+      "total_tokens": 22799126
+    },
+    {
+      "epoch": 0.07158282012317044,
+      "grad_norm": 0.5356144905090332,
+      "learning_rate": 6.767619878448783e-07,
+      "loss": 0.6715,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 895,
+      "tokens_per_second_per_gpu": 17571.32,
+      "total_tokens": 22825099
+    },
+    {
+      "epoch": 0.07166280092777734,
+      "grad_norm": 0.5201844573020935,
+      "learning_rate": 6.641957350279838e-07,
+      "loss": 0.637,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 896,
+      "tokens_per_second_per_gpu": 17330.69,
+      "total_tokens": 22851265
+    },
+    {
+      "epoch": 0.07174278173238423,
+      "grad_norm": 0.5070226192474365,
+      "learning_rate": 6.517432360398556e-07,
+      "loss": 0.6164,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 897,
+      "tokens_per_second_per_gpu": 17725.81,
+      "total_tokens": 22877914
+    },
+    {
+      "epoch": 0.07182276253699112,
+      "grad_norm": 0.5197336673736572,
+      "learning_rate": 6.394046426102673e-07,
+      "loss": 0.6104,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 898,
+      "tokens_per_second_per_gpu": 17001.09,
+      "total_tokens": 22903502
+    },
+    {
+      "epoch": 0.07190274334159802,
+      "grad_norm": 0.5605859756469727,
+      "learning_rate": 6.271801050810856e-07,
+      "loss": 0.7018,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 899,
+      "tokens_per_second_per_gpu": 16955.61,
+      "total_tokens": 22929177
+    },
+    {
+      "epoch": 0.07198272414620491,
+      "grad_norm": 0.4978031516075134,
+      "learning_rate": 6.150697724044407e-07,
+      "loss": 0.6308,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 900,
+      "tokens_per_second_per_gpu": 17524.78,
+      "total_tokens": 22956098
+    },
+    {
+      "epoch": 0.07206270495081181,
+      "grad_norm": 0.5414256453514099,
+      "learning_rate": 6.030737921409169e-07,
+      "loss": 0.6352,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 901,
+      "tokens_per_second_per_gpu": 16727.63,
+      "total_tokens": 22981145
+    },
+    {
+      "epoch": 0.0721426857554187,
+      "grad_norm": 0.5312582850456238,
+      "learning_rate": 5.911923104577455e-07,
+      "loss": 0.6422,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 902,
+      "tokens_per_second_per_gpu": 16767.2,
+      "total_tokens": 23006386
+    },
+    {
+      "epoch": 0.0722226665600256,
+      "grad_norm": 0.5257201194763184,
+      "learning_rate": 5.794254721270331e-07,
+      "loss": 0.6095,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 903,
+      "tokens_per_second_per_gpu": 16540.78,
+      "total_tokens": 23031228
+    },
+    {
+      "epoch": 0.07230264736463249,
+      "grad_norm": 0.5407463908195496,
+      "learning_rate": 5.677734205239904e-07,
+      "loss": 0.6093,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 904,
+      "tokens_per_second_per_gpu": 17082.27,
+      "total_tokens": 23056715
+    },
+    {
+      "epoch": 0.07238262816923938,
+      "grad_norm": 0.5344308018684387,
+      "learning_rate": 5.562362976251901e-07,
+      "loss": 0.655,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 905,
+      "tokens_per_second_per_gpu": 17119.96,
+      "total_tokens": 23082109
+    },
+    {
+      "epoch": 0.07246260897384628,
+      "grad_norm": 0.5326920747756958,
+      "learning_rate": 5.448142440068316e-07,
+      "loss": 0.643,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 906,
+      "tokens_per_second_per_gpu": 17190.5,
+      "total_tokens": 23107313
+    },
+    {
+      "epoch": 0.07254258977845317,
+      "grad_norm": 0.5334905385971069,
+      "learning_rate": 5.335073988430373e-07,
+      "loss": 0.5988,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 907,
+      "tokens_per_second_per_gpu": 16700.52,
+      "total_tokens": 23131980
+    },
+    {
+      "epoch": 0.07262257058306007,
+      "grad_norm": 0.49993833899497986,
+      "learning_rate": 5.223158999041444e-07,
+      "loss": 0.6369,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 908,
+      "tokens_per_second_per_gpu": 16759.27,
+      "total_tokens": 23157639
+    },
+    {
+      "epoch": 0.07270255138766696,
+      "grad_norm": 0.5197968482971191,
+      "learning_rate": 5.112398835550348e-07,
+      "loss": 0.6437,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 909,
+      "tokens_per_second_per_gpu": 17090.58,
+      "total_tokens": 23183670
+    },
+    {
+      "epoch": 0.07278253219227386,
+      "grad_norm": 0.5189102292060852,
+      "learning_rate": 5.002794847534765e-07,
+      "loss": 0.5972,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 910,
+      "tokens_per_second_per_gpu": 16958.96,
+      "total_tokens": 23208974
+    },
+    {
+      "epoch": 0.07286251299688075,
+      "grad_norm": 0.5296539068222046,
+      "learning_rate": 4.894348370484648e-07,
+      "loss": 0.6398,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 911,
+      "tokens_per_second_per_gpu": 17188.2,
+      "total_tokens": 23234688
+    },
+    {
+      "epoch": 0.07294249380148764,
+      "grad_norm": 0.5202224850654602,
+      "learning_rate": 4.787060725786141e-07,
+      "loss": 0.6371,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 912,
+      "tokens_per_second_per_gpu": 17395.29,
+      "total_tokens": 23260424
+    },
+    {
+      "epoch": 0.07302247460609454,
+      "grad_norm": 0.5297356843948364,
+      "learning_rate": 4.6809332207053083e-07,
+      "loss": 0.5857,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 913,
+      "tokens_per_second_per_gpu": 16700.69,
+      "total_tokens": 23285195
+    },
+    {
+      "epoch": 0.07310245541070143,
+      "grad_norm": 0.5384907126426697,
+      "learning_rate": 4.575967148372318e-07,
+      "loss": 0.6212,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 914,
+      "tokens_per_second_per_gpu": 17063.84,
+      "total_tokens": 23310815
+    },
+    {
+      "epoch": 0.07318243621530833,
+      "grad_norm": 0.5373451709747314,
+      "learning_rate": 4.4721637877656377e-07,
+      "loss": 0.6259,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 915,
+      "tokens_per_second_per_gpu": 17316.89,
+      "total_tokens": 23336669
+    },
+    {
+      "epoch": 0.07326241701991522,
+      "grad_norm": 0.5419356226921082,
+      "learning_rate": 4.3695244036964567e-07,
+      "loss": 0.6562,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 916,
+      "tokens_per_second_per_gpu": 17299.46,
+      "total_tokens": 23362881
+    },
+    {
+      "epoch": 0.07334239782452212,
+      "grad_norm": 0.54438316822052,
+      "learning_rate": 4.268050246793276e-07,
+      "loss": 0.612,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 917,
+      "tokens_per_second_per_gpu": 16889.02,
+      "total_tokens": 23388504
+    },
+    {
+      "epoch": 0.07342237862912901,
+      "grad_norm": 0.5277045369148254,
+      "learning_rate": 4.167742553486676e-07,
+      "loss": 0.6303,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 918,
+      "tokens_per_second_per_gpu": 16606.08,
+      "total_tokens": 23413492
+    },
+    {
+      "epoch": 0.0735023594337359,
+      "grad_norm": 0.5115805864334106,
+      "learning_rate": 4.068602545994249e-07,
+      "loss": 0.6335,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 919,
+      "tokens_per_second_per_gpu": 17113.19,
+      "total_tokens": 23439554
+    },
+    {
+      "epoch": 0.0735823402383428,
+      "grad_norm": 0.5200874209403992,
+      "learning_rate": 3.9706314323056936e-07,
+      "loss": 0.6528,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 920,
+      "tokens_per_second_per_gpu": 17124.8,
+      "total_tokens": 23465496
+    },
+    {
+      "epoch": 0.07366232104294969,
+      "grad_norm": 0.535873293876648,
+      "learning_rate": 3.8738304061681107e-07,
+      "loss": 0.6929,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 921,
+      "tokens_per_second_per_gpu": 17206.32,
+      "total_tokens": 23492042
+    },
+    {
+      "epoch": 0.07374230184755659,
+      "grad_norm": 0.5385628938674927,
+      "learning_rate": 3.7782006470714614e-07,
+      "loss": 0.6276,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 922,
+      "tokens_per_second_per_gpu": 16672.51,
+      "total_tokens": 23516992
+    },
+    {
+      "epoch": 0.07382228265216348,
+      "grad_norm": 0.5313562750816345,
+      "learning_rate": 3.68374332023419e-07,
+      "loss": 0.5886,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 923,
+      "tokens_per_second_per_gpu": 16765.04,
+      "total_tokens": 23541526
+    },
+    {
+      "epoch": 0.07390226345677038,
+      "grad_norm": 0.5149674415588379,
+      "learning_rate": 3.590459576589e-07,
+      "loss": 0.6305,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 924,
+      "tokens_per_second_per_gpu": 17117.27,
+      "total_tokens": 23567238
+    },
+    {
+      "epoch": 0.07398224426137727,
+      "grad_norm": 0.5549934506416321,
+      "learning_rate": 3.498350552768859e-07,
+      "loss": 0.6459,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 925,
+      "tokens_per_second_per_gpu": 16924.56,
+      "total_tokens": 23592535
+    },
+    {
+      "epoch": 0.07406222506598416,
+      "grad_norm": 0.5501406788825989,
+      "learning_rate": 3.4074173710931804e-07,
+      "loss": 0.6181,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 926,
+      "tokens_per_second_per_gpu": 17134.37,
+      "total_tokens": 23618080
+    },
+    {
+      "epoch": 0.07414220587059106,
+      "grad_norm": 0.5153313875198364,
+      "learning_rate": 3.3176611395540625e-07,
+      "loss": 0.6321,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 927,
+      "tokens_per_second_per_gpu": 17355.28,
+      "total_tokens": 23644485
+    },
+    {
+      "epoch": 0.07422218667519795,
+      "grad_norm": 0.5083333849906921,
+      "learning_rate": 3.2290829518028867e-07,
+      "loss": 0.627,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 928,
+      "tokens_per_second_per_gpu": 17407.43,
+      "total_tokens": 23670424
+    },
+    {
+      "epoch": 0.07430216747980485,
+      "grad_norm": 0.544588565826416,
+      "learning_rate": 3.1416838871368925e-07,
+      "loss": 0.6258,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 929,
+      "tokens_per_second_per_gpu": 17224.15,
+      "total_tokens": 23696336
+    },
+    {
+      "epoch": 0.07438214828441174,
+      "grad_norm": 0.5177492499351501,
+      "learning_rate": 3.0554650104861137e-07,
+      "loss": 0.6479,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 930,
+      "tokens_per_second_per_gpu": 17223.45,
+      "total_tokens": 23722109
+    },
+    {
+      "epoch": 0.07446212908901864,
+      "grad_norm": 0.5235950350761414,
+      "learning_rate": 2.970427372400353e-07,
+      "loss": 0.5707,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 931,
+      "tokens_per_second_per_gpu": 16511.77,
+      "total_tokens": 23746933
+    },
+    {
+      "epoch": 0.07454210989362553,
+      "grad_norm": 0.4983116090297699,
+      "learning_rate": 2.8865720090364037e-07,
+      "loss": 0.6071,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 932,
+      "tokens_per_second_per_gpu": 17590.81,
+      "total_tokens": 23774001
+    },
+    {
+      "epoch": 0.07462209069823242,
+      "grad_norm": 0.5138797760009766,
+      "learning_rate": 2.8038999421453827e-07,
+      "loss": 0.6404,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 933,
+      "tokens_per_second_per_gpu": 17531.8,
+      "total_tokens": 23800499
+    },
+    {
+      "epoch": 0.07470207150283932,
+      "grad_norm": 0.5279234051704407,
+      "learning_rate": 2.7224121790603517e-07,
+      "loss": 0.6455,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 934,
+      "tokens_per_second_per_gpu": 17253.47,
+      "total_tokens": 23826516
+    },
+    {
+      "epoch": 0.07478205230744621,
+      "grad_norm": 0.5243753790855408,
+      "learning_rate": 2.6421097126839714e-07,
+      "loss": 0.6143,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 935,
+      "tokens_per_second_per_gpu": 17104.36,
+      "total_tokens": 23852173
+    },
+    {
+      "epoch": 0.07486203311205311,
+      "grad_norm": 0.5066297054290771,
+      "learning_rate": 2.5629935214764866e-07,
+      "loss": 0.5797,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 936,
+      "tokens_per_second_per_gpu": 16824.53,
+      "total_tokens": 23877312
+    },
+    {
+      "epoch": 0.07494201391666,
+      "grad_norm": 0.5267778635025024,
+      "learning_rate": 2.4850645694436736e-07,
+      "loss": 0.6155,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 937,
+      "tokens_per_second_per_gpu": 16797.05,
+      "total_tokens": 23902155
+    },
+    {
+      "epoch": 0.0750219947212669,
+      "grad_norm": 0.5988689661026001,
+      "learning_rate": 2.4083238061252565e-07,
+      "loss": 0.6415,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 938,
+      "tokens_per_second_per_gpu": 17265.67,
+      "total_tokens": 23928370
+    },
+    {
+      "epoch": 0.07510197552587379,
+      "grad_norm": 0.49074527621269226,
+      "learning_rate": 2.332772166583208e-07,
+      "loss": 0.595,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 939,
+      "tokens_per_second_per_gpu": 17273.07,
+      "total_tokens": 23954278
+    },
+    {
+      "epoch": 0.07518195633048068,
+      "grad_norm": 0.5439552068710327,
+      "learning_rate": 2.2584105713904126e-07,
+      "loss": 0.6362,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 940,
+      "tokens_per_second_per_gpu": 16440.73,
+      "total_tokens": 23978844
+    },
+    {
+      "epoch": 0.07526193713508758,
+      "grad_norm": 0.5561083555221558,
+      "learning_rate": 2.1852399266194312e-07,
+      "loss": 0.6293,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 941,
+      "tokens_per_second_per_gpu": 16716.95,
+      "total_tokens": 24003689
+    },
+    {
+      "epoch": 0.07534191793969447,
+      "grad_norm": 0.5233296155929565,
+      "learning_rate": 2.1132611238315004e-07,
+      "loss": 0.6433,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 942,
+      "tokens_per_second_per_gpu": 17137.28,
+      "total_tokens": 24029244
+    },
+    {
+      "epoch": 0.07542189874430137,
+      "grad_norm": 0.5398736596107483,
+      "learning_rate": 2.0424750400655947e-07,
+      "loss": 0.6613,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 943,
+      "tokens_per_second_per_gpu": 17276.11,
+      "total_tokens": 24055284
+    },
+    {
+      "epoch": 0.07550187954890826,
+      "grad_norm": 0.5166030526161194,
+      "learning_rate": 1.9728825378278248e-07,
+      "loss": 0.6078,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 944,
+      "tokens_per_second_per_gpu": 17373.57,
+      "total_tokens": 24081384
+    },
+    {
+      "epoch": 0.07558186035351516,
+      "grad_norm": 0.5131341218948364,
+      "learning_rate": 1.9044844650808468e-07,
+      "loss": 0.6308,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 945,
+      "tokens_per_second_per_gpu": 17527.39,
+      "total_tokens": 24107343
+    },
+    {
+      "epoch": 0.07566184115812205,
+      "grad_norm": 0.5063515901565552,
+      "learning_rate": 1.8372816552336025e-07,
+      "loss": 0.57,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 946,
+      "tokens_per_second_per_gpu": 17410.89,
+      "total_tokens": 24133150
+    },
+    {
+      "epoch": 0.07574182196272894,
+      "grad_norm": 0.5385065078735352,
+      "learning_rate": 1.7712749271311392e-07,
+      "loss": 0.6102,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 947,
+      "tokens_per_second_per_gpu": 17121.83,
+      "total_tokens": 24158646
+    },
+    {
+      "epoch": 0.07582180276733584,
+      "grad_norm": 0.5242645740509033,
+      "learning_rate": 1.706465085044584e-07,
+      "loss": 0.6648,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 948,
+      "tokens_per_second_per_gpu": 17418.14,
+      "total_tokens": 24185422
+    },
+    {
+      "epoch": 0.07590178357194273,
+      "grad_norm": 0.5127405524253845,
+      "learning_rate": 1.6428529186614195e-07,
+      "loss": 0.5975,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 949,
+      "tokens_per_second_per_gpu": 16750.54,
+      "total_tokens": 24210681
+    },
+    {
+      "epoch": 0.07598176437654963,
+      "grad_norm": 0.4975850582122803,
+      "learning_rate": 1.580439203075812e-07,
+      "loss": 0.6102,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 950,
+      "tokens_per_second_per_gpu": 17360.01,
+      "total_tokens": 24237288
+    },
+    {
+      "epoch": 0.07606174518115652,
+      "grad_norm": 0.5240901112556458,
+      "learning_rate": 1.519224698779198e-07,
+      "loss": 0.6304,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 951,
+      "tokens_per_second_per_gpu": 16648.45,
+      "total_tokens": 24262146
+    },
+    {
+      "epoch": 0.07614172598576342,
+      "grad_norm": 0.5453839898109436,
+      "learning_rate": 1.4592101516509916e-07,
+      "loss": 0.6353,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 952,
+      "tokens_per_second_per_gpu": 17196.04,
+      "total_tokens": 24288304
+    },
+    {
+      "epoch": 0.07622170679037031,
+      "grad_norm": 0.5186492204666138,
+      "learning_rate": 1.400396292949513e-07,
+      "loss": 0.6199,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 953,
+      "tokens_per_second_per_gpu": 16644.24,
+      "total_tokens": 24313146
+    },
+    {
+      "epoch": 0.0763016875949772,
+      "grad_norm": 0.49842411279678345,
+      "learning_rate": 1.3427838393030634e-07,
+      "loss": 0.6134,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 954,
+      "tokens_per_second_per_gpu": 17154.09,
+      "total_tokens": 24339160
+    },
+    {
+      "epoch": 0.0763816683995841,
+      "grad_norm": 0.5567916035652161,
+      "learning_rate": 1.2863734927012094e-07,
+      "loss": 0.6414,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 955,
+      "tokens_per_second_per_gpu": 16807.04,
+      "total_tokens": 24364306
+    },
+    {
+      "epoch": 0.07646164920419099,
+      "grad_norm": 0.5145589709281921,
+      "learning_rate": 1.231165940486234e-07,
+      "loss": 0.5819,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 956,
+      "tokens_per_second_per_gpu": 16993.98,
+      "total_tokens": 24389531
+    },
+    {
+      "epoch": 0.07654163000879789,
+      "grad_norm": 0.543738842010498,
+      "learning_rate": 1.1771618553447217e-07,
+      "loss": 0.651,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 957,
+      "tokens_per_second_per_gpu": 17372.18,
+      "total_tokens": 24415520
+    },
+    {
+      "epoch": 0.07662161081340478,
+      "grad_norm": 0.49085065722465515,
+      "learning_rate": 1.1243618952994195e-07,
+      "loss": 0.6086,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 958,
+      "tokens_per_second_per_gpu": 17246.99,
+      "total_tokens": 24441786
+    },
+    {
+      "epoch": 0.07670159161801168,
+      "grad_norm": 0.5156171917915344,
+      "learning_rate": 1.0727667037011668e-07,
+      "loss": 0.5842,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 959,
+      "tokens_per_second_per_gpu": 17115.42,
+      "total_tokens": 24467022
+    },
+    {
+      "epoch": 0.07678157242261857,
+      "grad_norm": 0.5145148634910583,
+      "learning_rate": 1.0223769092211012e-07,
+      "loss": 0.5551,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 960,
+      "tokens_per_second_per_gpu": 16428.63,
+      "total_tokens": 24490929
+    },
+    {
+      "epoch": 0.07686155322722546,
+      "grad_norm": 0.5537049174308777,
+      "learning_rate": 9.731931258429638e-08,
+      "loss": 0.6454,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 961,
+      "tokens_per_second_per_gpu": 17267.19,
+      "total_tokens": 24516248
+    },
+    {
+      "epoch": 0.07694153403183236,
+      "grad_norm": 0.543889045715332,
+      "learning_rate": 9.252159528556404e-08,
+      "loss": 0.594,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 962,
+      "tokens_per_second_per_gpu": 16855.69,
+      "total_tokens": 24541430
+    },
+    {
+      "epoch": 0.07702151483643925,
+      "grad_norm": 0.5286483764648438,
+      "learning_rate": 8.784459748458318e-08,
+      "loss": 0.6115,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 963,
+      "tokens_per_second_per_gpu": 17319.91,
+      "total_tokens": 24567628
+    },
+    {
+      "epoch": 0.07710149564104615,
+      "grad_norm": 0.5454973578453064,
+      "learning_rate": 8.328837616909612e-08,
+      "loss": 0.6497,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 964,
+      "tokens_per_second_per_gpu": 17356.21,
+      "total_tokens": 24594157
+    },
+    {
+      "epoch": 0.07718147644565304,
+      "grad_norm": 0.5202831029891968,
+      "learning_rate": 7.885298685522235e-08,
+      "loss": 0.6047,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 965,
+      "tokens_per_second_per_gpu": 17130.28,
+      "total_tokens": 24619949
+    },
+    {
+      "epoch": 0.07726145725025994,
+      "grad_norm": 0.5220912098884583,
+      "learning_rate": 7.453848358678018e-08,
+      "loss": 0.6013,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 966,
+      "tokens_per_second_per_gpu": 17179.24,
+      "total_tokens": 24645528
+    },
+    {
+      "epoch": 0.07734143805486683,
+      "grad_norm": 0.5430648326873779,
+      "learning_rate": 7.034491893463059e-08,
+      "loss": 0.6401,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 967,
+      "tokens_per_second_per_gpu": 17248.77,
+      "total_tokens": 24671124
+    },
+    {
+      "epoch": 0.07742141885947372,
+      "grad_norm": 0.5340640544891357,
+      "learning_rate": 6.627234399603554e-08,
+      "loss": 0.6728,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 968,
+      "tokens_per_second_per_gpu": 17379.29,
+      "total_tokens": 24697233
+    },
+    {
+      "epoch": 0.07750139966408062,
+      "grad_norm": 0.541018545627594,
+      "learning_rate": 6.232080839403631e-08,
+      "loss": 0.6661,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 969,
+      "tokens_per_second_per_gpu": 17330.58,
+      "total_tokens": 24723473
+    },
+    {
+      "epoch": 0.07758138046868751,
+      "grad_norm": 0.5246049761772156,
+      "learning_rate": 5.849036027684607e-08,
+      "loss": 0.6333,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 970,
+      "tokens_per_second_per_gpu": 16577.2,
+      "total_tokens": 24749018
+    },
+    {
+      "epoch": 0.07766136127329441,
+      "grad_norm": 0.5491915941238403,
+      "learning_rate": 5.4781046317267103e-08,
+      "loss": 0.6413,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 971,
+      "tokens_per_second_per_gpu": 17163.06,
+      "total_tokens": 24774116
+    },
+    {
+      "epoch": 0.0777413420779013,
+      "grad_norm": 0.5680013298988342,
+      "learning_rate": 5.119291171211793e-08,
+      "loss": 0.6917,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 972,
+      "tokens_per_second_per_gpu": 17074.63,
+      "total_tokens": 24799793
+    },
+    {
+      "epoch": 0.0778213228825082,
+      "grad_norm": 0.5304521322250366,
+      "learning_rate": 4.772600018168816e-08,
+      "loss": 0.622,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 973,
+      "tokens_per_second_per_gpu": 16766.62,
+      "total_tokens": 24825100
+    },
+    {
+      "epoch": 0.07790130368711509,
+      "grad_norm": 0.5385372042655945,
+      "learning_rate": 4.438035396920004e-08,
+      "loss": 0.6456,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 974,
+      "tokens_per_second_per_gpu": 17139.0,
+      "total_tokens": 24851690
+    },
+    {
+      "epoch": 0.07798128449172198,
+      "grad_norm": 0.549923300743103,
+      "learning_rate": 4.115601384029666e-08,
+      "loss": 0.6265,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 975,
+      "tokens_per_second_per_gpu": 16505.25,
+      "total_tokens": 24875789
+    },
+    {
+      "epoch": 0.07806126529632888,
+      "grad_norm": 0.5306264758110046,
+      "learning_rate": 3.805301908254455e-08,
+      "loss": 0.5789,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 976,
+      "tokens_per_second_per_gpu": 17103.72,
+      "total_tokens": 24900703
+    },
+    {
+      "epoch": 0.07814124610093577,
+      "grad_norm": 0.6005721688270569,
+      "learning_rate": 3.50714075049563e-08,
+      "loss": 0.5928,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 977,
+      "tokens_per_second_per_gpu": 16680.56,
+      "total_tokens": 24926020
+    },
+    {
+      "epoch": 0.07822122690554267,
+      "grad_norm": 0.5427029728889465,
+      "learning_rate": 3.22112154375287e-08,
+      "loss": 0.6533,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 978,
+      "tokens_per_second_per_gpu": 16310.65,
+      "total_tokens": 24950374
+    },
+    {
+      "epoch": 0.07830120771014956,
+      "grad_norm": 0.5275732278823853,
+      "learning_rate": 2.947247773079753e-08,
+      "loss": 0.6329,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 979,
+      "tokens_per_second_per_gpu": 16975.33,
+      "total_tokens": 24975610
+    },
+    {
+      "epoch": 0.07838118851475646,
+      "grad_norm": 0.5323116183280945,
+      "learning_rate": 2.6855227755419046e-08,
+      "loss": 0.6537,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 980,
+      "tokens_per_second_per_gpu": 17462.53,
+      "total_tokens": 25001687
+    },
+    {
+      "epoch": 0.07846116931936335,
+      "grad_norm": 0.5180700421333313,
+      "learning_rate": 2.4359497401758026e-08,
+      "loss": 0.6228,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 981,
+      "tokens_per_second_per_gpu": 17019.02,
+      "total_tokens": 25026807
+    },
+    {
+      "epoch": 0.07854115012397024,
+      "grad_norm": 0.5496319532394409,
+      "learning_rate": 2.1985317079500358e-08,
+      "loss": 0.6294,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 982,
+      "tokens_per_second_per_gpu": 16897.37,
+      "total_tokens": 25051565
+    },
+    {
+      "epoch": 0.07862113092857714,
+      "grad_norm": 0.5391293168067932,
+      "learning_rate": 1.973271571728441e-08,
+      "loss": 0.6272,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 983,
+      "tokens_per_second_per_gpu": 16772.23,
+      "total_tokens": 25076522
+    },
+    {
+      "epoch": 0.07870111173318403,
+      "grad_norm": 0.5196576714515686,
+      "learning_rate": 1.7601720762346895e-08,
+      "loss": 0.6276,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 984,
+      "tokens_per_second_per_gpu": 16931.06,
+      "total_tokens": 25102258
+    },
+    {
+      "epoch": 0.07878109253779093,
+      "grad_norm": 0.5071877241134644,
+      "learning_rate": 1.5592358180189782e-08,
+      "loss": 0.6424,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 985,
+      "tokens_per_second_per_gpu": 17018.31,
+      "total_tokens": 25128366
+    },
+    {
+      "epoch": 0.07886107334239782,
+      "grad_norm": 0.538322925567627,
+      "learning_rate": 1.370465245426167e-08,
+      "loss": 0.6304,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 986,
+      "tokens_per_second_per_gpu": 16589.6,
+      "total_tokens": 25152870
+    },
+    {
+      "epoch": 0.07894105414700472,
+      "grad_norm": 0.49802151322364807,
+      "learning_rate": 1.1938626585660252e-08,
+      "loss": 0.5973,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 987,
+      "tokens_per_second_per_gpu": 17044.83,
+      "total_tokens": 25178205
+    },
+    {
+      "epoch": 0.07902103495161161,
+      "grad_norm": 0.5292408466339111,
+      "learning_rate": 1.0294302092853647e-08,
+      "loss": 0.6749,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 988,
+      "tokens_per_second_per_gpu": 17062.32,
+      "total_tokens": 25203764
+    },
+    {
+      "epoch": 0.0791010157562185,
+      "grad_norm": 0.5256536602973938,
+      "learning_rate": 8.771699011416169e-09,
+      "loss": 0.6082,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 989,
+      "tokens_per_second_per_gpu": 17511.87,
+      "total_tokens": 25229634
+    },
+    {
+      "epoch": 0.0791809965608254,
+      "grad_norm": 0.5201627016067505,
+      "learning_rate": 7.370835893788508e-09,
+      "loss": 0.6419,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 990,
+      "tokens_per_second_per_gpu": 17090.54,
+      "total_tokens": 25255664
+    },
+    {
+      "epoch": 0.07926097736543229,
+      "grad_norm": 0.56233149766922,
+      "learning_rate": 6.091729809042379e-09,
+      "loss": 0.6216,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 991,
+      "tokens_per_second_per_gpu": 17406.21,
+      "total_tokens": 25281827
+    },
+    {
+      "epoch": 0.0793409581700392,
+      "grad_norm": 0.5474256277084351,
+      "learning_rate": 4.9343963426840006e-09,
+      "loss": 0.6036,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 992,
+      "tokens_per_second_per_gpu": 16687.8,
+      "total_tokens": 25306499
+    },
+    {
+      "epoch": 0.07942093897464608,
+      "grad_norm": 0.4903515577316284,
+      "learning_rate": 3.898849596456477e-09,
+      "loss": 0.5721,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 993,
+      "tokens_per_second_per_gpu": 17239.93,
+      "total_tokens": 25332595
+    },
+    {
+      "epoch": 0.07950091977925298,
+      "grad_norm": 0.5319344997406006,
+      "learning_rate": 2.9851021881688314e-09,
+      "loss": 0.6523,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 994,
+      "tokens_per_second_per_gpu": 17089.9,
+      "total_tokens": 25358509
+    },
+    {
+      "epoch": 0.07958090058385987,
+      "grad_norm": 0.5517778396606445,
+      "learning_rate": 2.193165251545004e-09,
+      "loss": 0.6289,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 995,
+      "tokens_per_second_per_gpu": 17147.96,
+      "total_tokens": 25384428
+    },
+    {
+      "epoch": 0.07966088138846676,
+      "grad_norm": 0.5497578978538513,
+      "learning_rate": 1.5230484360873043e-09,
+      "loss": 0.6752,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 996,
+      "tokens_per_second_per_gpu": 17469.68,
+      "total_tokens": 25411007
+    },
+    {
+      "epoch": 0.07974086219307366,
+      "grad_norm": 0.5634413361549377,
+      "learning_rate": 9.74759906957612e-10,
+      "loss": 0.6161,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 997,
+      "tokens_per_second_per_gpu": 16112.77,
+      "total_tokens": 25435004
+    },
+    {
+      "epoch": 0.07982084299768055,
+      "grad_norm": 0.5436570048332214,
+      "learning_rate": 5.483063448785686e-10,
+      "loss": 0.636,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 998,
+      "tokens_per_second_per_gpu": 16917.97,
+      "total_tokens": 25460910
+    },
+    {
+      "epoch": 0.07990082380228745,
+      "grad_norm": 0.5557326078414917,
+      "learning_rate": 2.436929460525317e-10,
+      "loss": 0.6001,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 999,
+      "tokens_per_second_per_gpu": 17178.6,
+      "total_tokens": 25486316
+    },
+    {
+      "epoch": 0.07998080460689434,
+      "grad_norm": 0.5365746021270752,
+      "learning_rate": 6.092342209607083e-11,
+      "loss": 0.616,
+      "memory/device_reserved (GiB)": 69.96,
+      "memory/max_active (GiB)": 66.03,
+      "memory/max_allocated (GiB)": 66.03,
+      "step": 1000,
+      "tokens_per_second_per_gpu": 16970.21,
+      "total_tokens": 25511597
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 1000,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 7.2087150526464e+17,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}