flyingbugs
/

Qwen2.5-1.5B-Open-R1-Distill

@@ -1,11 +1,9 @@
 ---
 base_model: Qwen/Qwen2.5-1.5B-Instruct
-datasets: open-r1/OpenR1-Math-220k
 library_name: transformers
 model_name: Qwen2.5-1.5B-Open-R1-Distill
 tags:
 - generated_from_trainer
-- open-r1
 - trl
 - sft
 licence: license
@@ -13,7 +11,7 @@ licence: license
 # Model Card for Qwen2.5-1.5B-Open-R1-Distill
-This model is a fine-tuned version of [Qwen/Qwen2.5-1.5B-Instruct](https://huggingface.co/Qwen/Qwen2.5-1.5B-Instruct) on the [open-r1/OpenR1-Math-220k](https://huggingface.co/datasets/open-r1/OpenR1-Math-220k) dataset.
 It has been trained using [TRL](https://github.com/huggingface/trl).
 ## Quick start
@@ -29,7 +27,7 @@ print(output["generated_text"])
 ## Training procedure
-[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/jjh233/huggingface/runs/21iwqcw5)
 This model was trained with SFT.

 ---
 base_model: Qwen/Qwen2.5-1.5B-Instruct
 library_name: transformers
 model_name: Qwen2.5-1.5B-Open-R1-Distill
 tags:
 - generated_from_trainer
 - trl
 - sft
 licence: license
 # Model Card for Qwen2.5-1.5B-Open-R1-Distill
+This model is a fine-tuned version of [Qwen/Qwen2.5-1.5B-Instruct](https://huggingface.co/Qwen/Qwen2.5-1.5B-Instruct).
 It has been trained using [TRL](https://github.com/huggingface/trl).
 ## Quick start
 ## Training procedure
+[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/jjh233/huggingface/runs/2sdy2t94)
 This model was trained with SFT.

all_results.json CHANGED Viewed

@@ -1,13 +1,8 @@
 {
-    "eval_loss": 0.8238936066627502,
-    "eval_runtime": 26.0938,
-    "eval_samples": 100,
-    "eval_samples_per_second": 4.944,
-    "eval_steps_per_second": 1.265,
-    "total_flos": 65635690217472.0,
-    "train_loss": 0.0,
-    "train_runtime": 0.9025,
     "train_samples": 93733,
-    "train_samples_per_second": 38008.288,
-    "train_steps_per_second": 296.966
 }

 {
+    "total_flos": 487709642588160.0,
+    "train_loss": 0.5792717831348305,
+    "train_runtime": 20654.3187,
     "train_samples": 93733,
+    "train_samples_per_second": 1.661,
+    "train_steps_per_second": 0.013
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "total_flos": 65635690217472.0,
-    "train_loss": 0.0,
-    "train_runtime": 0.9025,
     "train_samples": 93733,
-    "train_samples_per_second": 38008.288,
-    "train_steps_per_second": 296.966
 }

 {
+    "total_flos": 487709642588160.0,
+    "train_loss": 0.5792717831348305,
+    "train_runtime": 20654.3187,
     "train_samples": 93733,
+    "train_samples_per_second": 1.661,
+    "train_steps_per_second": 0.013
 }

trainer_state.json CHANGED Viewed

@@ -2,2205 +2,391 @@
   "best_metric": null,
   "best_model_checkpoint": null,
   "epoch": 1.0,
-  "eval_steps": 5,
-  "global_step": 676,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.0073964497041420114,
-      "grad_norm": 4.584371191542279,
-      "learning_rate": 7.3529411764705884e-06,
-      "loss": 2.7395,
       "step": 5
     },
     {
-      "epoch": 0.0073964497041420114,
-      "eval_reasoning_loss": 1.308870553970337,
-      "eval_reasoning_runtime": 4.1594,
-      "eval_reasoning_samples_per_second": 128.624,
-      "eval_reasoning_steps_per_second": 1.202,
-      "step": 5
-    },
-    {
-      "epoch": 0.0073964497041420114,
-      "eval_utility_loss": 1.4049550294876099,
-      "eval_utility_runtime": 1.7594,
-      "eval_utility_samples_per_second": 120.498,
-      "eval_utility_steps_per_second": 1.137,
-      "step": 5
-    },
-    {
-      "epoch": 0.014792899408284023,
-      "grad_norm": 2.225119430385955,
-      "learning_rate": 1.4705882352941177e-05,
-      "loss": 2.5801,
-      "step": 10
-    },
-    {
-      "epoch": 0.014792899408284023,
-      "eval_reasoning_loss": 1.1661676168441772,
-      "eval_reasoning_runtime": 4.4119,
-      "eval_reasoning_samples_per_second": 121.264,
-      "eval_reasoning_steps_per_second": 1.133,
-      "step": 10
-    },
-    {
-      "epoch": 0.014792899408284023,
-      "eval_utility_loss": 1.3157464265823364,
-      "eval_utility_runtime": 1.7506,
-      "eval_utility_samples_per_second": 121.103,
-      "eval_utility_steps_per_second": 1.142,
       "step": 10
     },
     {
-      "epoch": 0.022189349112426034,
-      "grad_norm": 1.6694116716156027,
-      "learning_rate": 2.2058823529411766e-05,
-      "loss": 2.4429,
-      "step": 15
-    },
-    {
-      "epoch": 0.022189349112426034,
-      "eval_reasoning_loss": 1.0858653783798218,
-      "eval_reasoning_runtime": 4.5635,
-      "eval_reasoning_samples_per_second": 117.233,
-      "eval_reasoning_steps_per_second": 1.096,
-      "step": 15
-    },
-    {
-      "epoch": 0.022189349112426034,
-      "eval_utility_loss": 1.2957844734191895,
-      "eval_utility_runtime": 1.8291,
-      "eval_utility_samples_per_second": 115.901,
-      "eval_utility_steps_per_second": 1.093,
       "step": 15
     },
     {
-      "epoch": 0.029585798816568046,
-      "grad_norm": 1.305750192627527,
-      "learning_rate": 2.9411764705882354e-05,
-      "loss": 2.3256,
-      "step": 20
-    },
-    {
-      "epoch": 0.029585798816568046,
-      "eval_reasoning_loss": 1.0403348207473755,
-      "eval_reasoning_runtime": 4.8727,
-      "eval_reasoning_samples_per_second": 109.796,
-      "eval_reasoning_steps_per_second": 1.026,
-      "step": 20
-    },
-    {
-      "epoch": 0.029585798816568046,
-      "eval_utility_loss": 1.2852095365524292,
-      "eval_utility_runtime": 1.8864,
-      "eval_utility_samples_per_second": 112.384,
-      "eval_utility_steps_per_second": 1.06,
       "step": 20
     },
     {
-      "epoch": 0.03698224852071006,
-      "grad_norm": 1.3576019842769356,
-      "learning_rate": 3.6764705882352945e-05,
-      "loss": 2.3609,
       "step": 25
     },
     {
-      "epoch": 0.03698224852071006,
-      "eval_reasoning_loss": 1.0135447978973389,
-      "eval_reasoning_runtime": 4.6881,
-      "eval_reasoning_samples_per_second": 114.12,
-      "eval_reasoning_steps_per_second": 1.067,
-      "step": 25
-    },
-    {
-      "epoch": 0.03698224852071006,
-      "eval_utility_loss": 1.274791955947876,
-      "eval_utility_runtime": 1.8048,
-      "eval_utility_samples_per_second": 117.463,
-      "eval_utility_steps_per_second": 1.108,
-      "step": 25
-    },
-    {
-      "epoch": 0.04437869822485207,
-      "grad_norm": 1.3591976835447737,
-      "learning_rate": 4.411764705882353e-05,
-      "loss": 2.219,
-      "step": 30
-    },
-    {
-      "epoch": 0.04437869822485207,
-      "eval_reasoning_loss": 0.9981840252876282,
-      "eval_reasoning_runtime": 4.7288,
-      "eval_reasoning_samples_per_second": 113.138,
-      "eval_reasoning_steps_per_second": 1.057,
-      "step": 30
-    },
-    {
-      "epoch": 0.04437869822485207,
-      "eval_utility_loss": 1.2681363821029663,
-      "eval_utility_runtime": 2.0119,
-      "eval_utility_samples_per_second": 105.371,
-      "eval_utility_steps_per_second": 0.994,
       "step": 30
     },
     {
-      "epoch": 0.051775147928994084,
-      "grad_norm": 1.268058485040803,
-      "learning_rate": 4.999973061007767e-05,
-      "loss": 2.2399,
-      "step": 35
-    },
-    {
-      "epoch": 0.051775147928994084,
-      "eval_reasoning_loss": 0.9858483076095581,
-      "eval_reasoning_runtime": 4.6465,
-      "eval_reasoning_samples_per_second": 115.139,
-      "eval_reasoning_steps_per_second": 1.076,
-      "step": 35
-    },
-    {
-      "epoch": 0.051775147928994084,
-      "eval_utility_loss": 1.2649621963500977,
-      "eval_utility_runtime": 1.8766,
-      "eval_utility_samples_per_second": 112.968,
-      "eval_utility_steps_per_second": 1.066,
       "step": 35
     },
     {
-      "epoch": 0.05917159763313609,
-      "grad_norm": 1.2103607828033616,
-      "learning_rate": 4.999030264010747e-05,
-      "loss": 2.2228,
-      "step": 40
-    },
-    {
-      "epoch": 0.05917159763313609,
-      "eval_reasoning_loss": 0.9769134521484375,
-      "eval_reasoning_runtime": 4.7512,
-      "eval_reasoning_samples_per_second": 112.604,
-      "eval_reasoning_steps_per_second": 1.052,
-      "step": 40
-    },
-    {
-      "epoch": 0.05917159763313609,
-      "eval_utility_loss": 1.2631217241287231,
-      "eval_utility_runtime": 1.8913,
-      "eval_utility_samples_per_second": 112.092,
-      "eval_utility_steps_per_second": 1.057,
       "step": 40
     },
     {
-      "epoch": 0.06656804733727811,
-      "grad_norm": 1.2292426525096565,
-      "learning_rate": 4.996741162407576e-05,
-      "loss": 2.2372,
       "step": 45
     },
     {
-      "epoch": 0.06656804733727811,
-      "eval_reasoning_loss": 0.9719375371932983,
-      "eval_reasoning_runtime": 4.7238,
-      "eval_reasoning_samples_per_second": 113.256,
-      "eval_reasoning_steps_per_second": 1.058,
-      "step": 45
-    },
-    {
-      "epoch": 0.06656804733727811,
-      "eval_utility_loss": 1.262032389640808,
-      "eval_utility_runtime": 1.8046,
-      "eval_utility_samples_per_second": 117.475,
-      "eval_utility_steps_per_second": 1.108,
-      "step": 45
-    },
-    {
-      "epoch": 0.07396449704142012,
-      "grad_norm": 1.1574292202420797,
-      "learning_rate": 4.993107126490191e-05,
-      "loss": 2.1602,
-      "step": 50
-    },
-    {
-      "epoch": 0.07396449704142012,
-      "eval_reasoning_loss": 0.965384840965271,
-      "eval_reasoning_runtime": 4.7496,
-      "eval_reasoning_samples_per_second": 112.641,
-      "eval_reasoning_steps_per_second": 1.053,
-      "step": 50
-    },
-    {
-      "epoch": 0.07396449704142012,
-      "eval_utility_loss": 1.2599124908447266,
-      "eval_utility_runtime": 1.8864,
-      "eval_utility_samples_per_second": 112.382,
-      "eval_utility_steps_per_second": 1.06,
       "step": 50
     },
     {
-      "epoch": 0.08136094674556213,
-      "grad_norm": 1.2385754103472393,
-      "learning_rate": 4.988130331649192e-05,
-      "loss": 2.1932,
-      "step": 55
-    },
-    {
-      "epoch": 0.08136094674556213,
-      "eval_reasoning_loss": 0.9624860882759094,
-      "eval_reasoning_runtime": 4.6346,
-      "eval_reasoning_samples_per_second": 115.436,
-      "eval_reasoning_steps_per_second": 1.079,
-      "step": 55
-    },
-    {
-      "epoch": 0.08136094674556213,
-      "eval_utility_loss": 1.2610447406768799,
-      "eval_utility_runtime": 1.81,
-      "eval_utility_samples_per_second": 117.129,
-      "eval_utility_steps_per_second": 1.105,
       "step": 55
     },
     {
-      "epoch": 0.08875739644970414,
-      "grad_norm": 1.3366791934715165,
-      "learning_rate": 4.981813757071618e-05,
-      "loss": 2.154,
-      "step": 60
-    },
-    {
-      "epoch": 0.08875739644970414,
-      "eval_reasoning_loss": 0.9584144949913025,
-      "eval_reasoning_runtime": 4.7014,
-      "eval_reasoning_samples_per_second": 113.796,
-      "eval_reasoning_steps_per_second": 1.064,
-      "step": 60
-    },
-    {
-      "epoch": 0.08875739644970414,
-      "eval_utility_loss": 1.2589086294174194,
-      "eval_utility_runtime": 1.8524,
-      "eval_utility_samples_per_second": 114.446,
-      "eval_utility_steps_per_second": 1.08,
       "step": 60
     },
     {
-      "epoch": 0.09615384615384616,
-      "grad_norm": 1.153623603608571,
-      "learning_rate": 4.974161183957565e-05,
-      "loss": 2.1082,
       "step": 65
     },
     {
-      "epoch": 0.09615384615384616,
-      "eval_reasoning_loss": 0.9537850022315979,
-      "eval_reasoning_runtime": 5.0172,
-      "eval_reasoning_samples_per_second": 106.632,
-      "eval_reasoning_steps_per_second": 0.997,
-      "step": 65
-    },
-    {
-      "epoch": 0.09615384615384616,
-      "eval_utility_loss": 1.2607706785202026,
-      "eval_utility_runtime": 1.7411,
-      "eval_utility_samples_per_second": 121.759,
-      "eval_utility_steps_per_second": 1.149,
-      "step": 65
-    },
-    {
-      "epoch": 0.10355029585798817,
-      "grad_norm": 1.1278141586447843,
-      "learning_rate": 4.965177193256699e-05,
-      "loss": 2.1095,
-      "step": 70
-    },
-    {
-      "epoch": 0.10355029585798817,
-      "eval_reasoning_loss": 0.9497982859611511,
-      "eval_reasoning_runtime": 4.9054,
-      "eval_reasoning_samples_per_second": 109.063,
-      "eval_reasoning_steps_per_second": 1.019,
-      "step": 70
-    },
-    {
-      "epoch": 0.10355029585798817,
-      "eval_utility_loss": 1.25819993019104,
-      "eval_utility_runtime": 1.7991,
-      "eval_utility_samples_per_second": 117.834,
-      "eval_utility_steps_per_second": 1.112,
       "step": 70
     },
     {
-      "epoch": 0.11094674556213018,
-      "grad_norm": 1.2061200225092161,
-      "learning_rate": 4.9548671629260224e-05,
-      "loss": 2.0884,
-      "step": 75
-    },
-    {
-      "epoch": 0.11094674556213018,
-      "eval_reasoning_loss": 0.9482110142707825,
-      "eval_reasoning_runtime": 4.6282,
-      "eval_reasoning_samples_per_second": 115.596,
-      "eval_reasoning_steps_per_second": 1.08,
-      "step": 75
-    },
-    {
-      "epoch": 0.11094674556213018,
-      "eval_utility_loss": 1.2583030462265015,
-      "eval_utility_runtime": 1.8216,
-      "eval_utility_samples_per_second": 116.379,
-      "eval_utility_steps_per_second": 1.098,
       "step": 75
     },
     {
-      "epoch": 0.11834319526627218,
-      "grad_norm": 1.0632096757239367,
-      "learning_rate": 4.943237264710554e-05,
-      "loss": 2.0952,
-      "step": 80
-    },
-    {
-      "epoch": 0.11834319526627218,
-      "eval_reasoning_loss": 0.9451742768287659,
-      "eval_reasoning_runtime": 4.6101,
-      "eval_reasoning_samples_per_second": 116.049,
-      "eval_reasoning_steps_per_second": 1.085,
-      "step": 80
-    },
-    {
-      "epoch": 0.11834319526627218,
-      "eval_utility_loss": 1.2601256370544434,
-      "eval_utility_runtime": 1.8824,
-      "eval_utility_samples_per_second": 112.621,
-      "eval_utility_steps_per_second": 1.062,
       "step": 80
     },
     {
-      "epoch": 0.1257396449704142,
-      "grad_norm": 1.1561942737227944,
-      "learning_rate": 4.9302944604488165e-05,
-      "loss": 2.0352,
       "step": 85
     },
     {
-      "epoch": 0.1257396449704142,
-      "eval_reasoning_loss": 0.9423359036445618,
-      "eval_reasoning_runtime": 4.5969,
-      "eval_reasoning_samples_per_second": 116.383,
-      "eval_reasoning_steps_per_second": 1.088,
-      "step": 85
-    },
-    {
-      "epoch": 0.1257396449704142,
-      "eval_utility_loss": 1.2616825103759766,
-      "eval_utility_runtime": 1.8916,
-      "eval_utility_samples_per_second": 112.077,
-      "eval_utility_steps_per_second": 1.057,
-      "step": 85
-    },
-    {
-      "epoch": 0.13313609467455623,
-      "grad_norm": 1.0927334096818122,
-      "learning_rate": 4.916046497905381e-05,
-      "loss": 2.0583,
-      "step": 90
-    },
-    {
-      "epoch": 0.13313609467455623,
-      "eval_reasoning_loss": 0.940236508846283,
-      "eval_reasoning_runtime": 4.5778,
-      "eval_reasoning_samples_per_second": 116.869,
-      "eval_reasoning_steps_per_second": 1.092,
-      "step": 90
-    },
-    {
-      "epoch": 0.13313609467455623,
-      "eval_utility_loss": 1.2627779245376587,
-      "eval_utility_runtime": 1.8424,
-      "eval_utility_samples_per_second": 115.065,
-      "eval_utility_steps_per_second": 1.086,
       "step": 90
     },
     {
-      "epoch": 0.14053254437869822,
-      "grad_norm": 1.3461330902573267,
-      "learning_rate": 4.9005019061329266e-05,
-      "loss": 2.0494,
-      "step": 95
-    },
-    {
-      "epoch": 0.14053254437869822,
-      "eval_reasoning_loss": 0.9385782480239868,
-      "eval_reasoning_runtime": 4.7307,
-      "eval_reasoning_samples_per_second": 113.091,
-      "eval_reasoning_steps_per_second": 1.057,
-      "step": 95
-    },
-    {
-      "epoch": 0.14053254437869822,
-      "eval_utility_loss": 1.2633188962936401,
-      "eval_utility_runtime": 1.8137,
-      "eval_utility_samples_per_second": 116.888,
-      "eval_utility_steps_per_second": 1.103,
       "step": 95
     },
     {
-      "epoch": 0.14792899408284024,
-      "grad_norm": 1.3413228946173852,
-      "learning_rate": 4.88366999036662e-05,
-      "loss": 2.0453,
-      "step": 100
-    },
-    {
-      "epoch": 0.14792899408284024,
-      "eval_reasoning_loss": 0.9367873668670654,
-      "eval_reasoning_runtime": 4.6168,
-      "eval_reasoning_samples_per_second": 115.881,
-      "eval_reasoning_steps_per_second": 1.083,
-      "step": 100
-    },
-    {
-      "epoch": 0.14792899408284024,
-      "eval_utility_loss": 1.2648777961730957,
-      "eval_utility_runtime": 1.8308,
-      "eval_utility_samples_per_second": 115.798,
-      "eval_utility_steps_per_second": 1.092,
       "step": 100
     },
     {
-      "epoch": 0.15532544378698224,
-      "grad_norm": 0.8217045735024919,
-      "learning_rate": 4.865560826453856e-05,
-      "loss": 0.9177,
       "step": 105
     },
     {
-      "epoch": 0.15532544378698224,
-      "eval_loss": 0.9352405667304993,
-      "eval_runtime": 3.8923,
-      "eval_samples_per_second": 137.449,
-      "eval_steps_per_second": 1.285,
-      "step": 105
-    },
-    {
-      "epoch": 0.16272189349112426,
-      "grad_norm": 0.9788732678912112,
-      "learning_rate": 4.846185254822698e-05,
-      "loss": 0.9177,
-      "step": 110
-    },
-    {
-      "epoch": 0.16272189349112426,
-      "eval_loss": 0.935136616230011,
-      "eval_runtime": 3.9303,
-      "eval_samples_per_second": 136.121,
-      "eval_steps_per_second": 1.272,
       "step": 110
     },
     {
-      "epoch": 0.17011834319526628,
-      "grad_norm": 0.898568312527589,
-      "learning_rate": 4.825554873992628e-05,
-      "loss": 0.9127,
-      "step": 115
-    },
-    {
-      "epoch": 0.17011834319526628,
-      "eval_loss": 0.9333159327507019,
-      "eval_runtime": 4.2183,
-      "eval_samples_per_second": 126.828,
-      "eval_steps_per_second": 1.185,
       "step": 115
     },
     {
-      "epoch": 0.17751479289940827,
-      "grad_norm": 0.7542611234569648,
-      "learning_rate": 4.803682033631494e-05,
-      "loss": 0.9267,
-      "step": 120
-    },
-    {
-      "epoch": 0.17751479289940827,
-      "eval_loss": 0.9326120018959045,
-      "eval_runtime": 4.33,
-      "eval_samples_per_second": 123.557,
-      "eval_steps_per_second": 1.155,
       "step": 120
     },
     {
-      "epoch": 0.1849112426035503,
-      "grad_norm": 0.8285256031012249,
-      "learning_rate": 4.780579827162803e-05,
-      "loss": 0.9205,
       "step": 125
     },
     {
-      "epoch": 0.1849112426035503,
-      "eval_loss": 0.9305017590522766,
-      "eval_runtime": 4.3606,
-      "eval_samples_per_second": 122.69,
-      "eval_steps_per_second": 1.147,
-      "step": 125
-    },
-    {
-      "epoch": 0.19230769230769232,
-      "grad_norm": 0.9745000016888925,
-      "learning_rate": 4.756262083927795e-05,
-      "loss": 0.917,
-      "step": 130
-    },
-    {
-      "epoch": 0.19230769230769232,
-      "eval_loss": 0.9290282130241394,
-      "eval_runtime": 4.3713,
-      "eval_samples_per_second": 122.388,
-      "eval_steps_per_second": 1.144,
       "step": 130
     },
     {
-      "epoch": 0.1997041420118343,
-      "grad_norm": 0.8868792126499849,
-      "learning_rate": 4.730743360906986e-05,
-      "loss": 0.9034,
-      "step": 135
-    },
-    {
-      "epoch": 0.1997041420118343,
-      "eval_loss": 0.9284210205078125,
-      "eval_runtime": 4.4499,
-      "eval_samples_per_second": 120.228,
-      "eval_steps_per_second": 1.124,
       "step": 135
     },
     {
-      "epoch": 0.20710059171597633,
-      "grad_norm": 0.9306937022571846,
-      "learning_rate": 4.704038934006124e-05,
-      "loss": 0.9223,
-      "step": 140
-    },
-    {
-      "epoch": 0.20710059171597633,
-      "eval_loss": 0.9253069758415222,
-      "eval_runtime": 4.4492,
-      "eval_samples_per_second": 120.247,
-      "eval_steps_per_second": 1.124,
       "step": 140
     },
     {
-      "epoch": 0.21449704142011836,
-      "grad_norm": 0.9044379683040512,
-      "learning_rate": 4.676164788911806e-05,
-      "loss": 0.9215,
       "step": 145
     },
     {
-      "epoch": 0.21449704142011836,
-      "eval_loss": 0.9232907891273499,
-      "eval_runtime": 4.5393,
-      "eval_samples_per_second": 117.859,
-      "eval_steps_per_second": 1.101,
-      "step": 145
-    },
-    {
-      "epoch": 0.22189349112426035,
-      "grad_norm": 0.9600510868099964,
-      "learning_rate": 4.647137611522186e-05,
-      "loss": 0.8967,
-      "step": 150
-    },
-    {
-      "epoch": 0.22189349112426035,
-      "eval_loss": 0.921413242816925,
-      "eval_runtime": 4.5563,
-      "eval_samples_per_second": 117.419,
-      "eval_steps_per_second": 1.097,
       "step": 150
     },
     {
-      "epoch": 0.22928994082840237,
-      "grad_norm": 0.8577020835622902,
-      "learning_rate": 4.6169747779585416e-05,
-      "loss": 0.9124,
-      "step": 155
-    },
-    {
-      "epoch": 0.22928994082840237,
-      "eval_loss": 0.9195402264595032,
-      "eval_runtime": 4.4933,
-      "eval_samples_per_second": 119.067,
-      "eval_steps_per_second": 1.113,
       "step": 155
     },
     {
-      "epoch": 0.23668639053254437,
-      "grad_norm": 0.8280268017058183,
-      "learning_rate": 4.585694344163654e-05,
-      "loss": 0.8906,
-      "step": 160
-    },
-    {
-      "epoch": 0.23668639053254437,
-      "eval_loss": 0.9192004203796387,
-      "eval_runtime": 4.5417,
-      "eval_samples_per_second": 117.797,
-      "eval_steps_per_second": 1.101,
       "step": 160
     },
     {
-      "epoch": 0.2440828402366864,
-      "grad_norm": 0.8048304210000593,
-      "learning_rate": 4.553315035093241e-05,
-      "loss": 0.9004,
       "step": 165
     },
     {
-      "epoch": 0.2440828402366864,
-      "eval_loss": 0.919334352016449,
-      "eval_runtime": 4.5374,
-      "eval_samples_per_second": 117.909,
-      "eval_steps_per_second": 1.102,
-      "step": 165
-    },
-    {
-      "epoch": 0.2514792899408284,
-      "grad_norm": 0.9532036102972735,
-      "learning_rate": 4.5198562335069036e-05,
-      "loss": 0.9106,
-      "step": 170
-    },
-    {
-      "epoch": 0.2514792899408284,
-      "eval_loss": 0.9174200892448425,
-      "eval_runtime": 4.5738,
-      "eval_samples_per_second": 116.971,
-      "eval_steps_per_second": 1.093,
       "step": 170
     },
     {
-      "epoch": 0.2588757396449704,
-      "grad_norm": 0.8190721687575792,
-      "learning_rate": 4.485337968365309e-05,
-      "loss": 0.9131,
-      "step": 175
-    },
-    {
-      "epoch": 0.2588757396449704,
-      "eval_loss": 0.9161617755889893,
-      "eval_runtime": 4.5176,
-      "eval_samples_per_second": 118.425,
-      "eval_steps_per_second": 1.107,
       "step": 175
     },
     {
-      "epoch": 0.26627218934911245,
-      "grad_norm": 1.2006932003749058,
-      "learning_rate": 4.4497809028405335e-05,
-      "loss": 0.8932,
-      "step": 180
-    },
-    {
-      "epoch": 0.26627218934911245,
-      "eval_loss": 0.9148706793785095,
-      "eval_runtime": 4.4688,
-      "eval_samples_per_second": 119.718,
-      "eval_steps_per_second": 1.119,
       "step": 180
     },
     {
-      "epoch": 0.27366863905325445,
-      "grad_norm": 0.8025440479927234,
-      "learning_rate": 4.413206321946775e-05,
-      "loss": 0.8863,
       "step": 185
     },
     {
-      "epoch": 0.27366863905325445,
-      "eval_loss": 0.9131314158439636,
-      "eval_runtime": 4.4717,
-      "eval_samples_per_second": 119.641,
-      "eval_steps_per_second": 1.118,
-      "step": 185
-    },
-    {
-      "epoch": 0.28106508875739644,
-      "grad_norm": 0.8083730916154258,
-      "learning_rate": 4.3756361197988056e-05,
-      "loss": 0.8857,
-      "step": 190
-    },
-    {
-      "epoch": 0.28106508875739644,
-      "eval_loss": 0.9111117124557495,
-      "eval_runtime": 4.5302,
-      "eval_samples_per_second": 118.096,
-      "eval_steps_per_second": 1.104,
       "step": 190
     },
     {
-      "epoch": 0.28846153846153844,
-      "grad_norm": 0.795831165853354,
-      "learning_rate": 4.337092786505812e-05,
-      "loss": 0.8931,
-      "step": 195
-    },
-    {
-      "epoch": 0.28846153846153844,
-      "eval_loss": 0.9104787707328796,
-      "eval_runtime": 4.5367,
-      "eval_samples_per_second": 117.928,
-      "eval_steps_per_second": 1.102,
       "step": 195
     },
     {
-      "epoch": 0.2958579881656805,
-      "grad_norm": 0.7368270359113853,
-      "learning_rate": 4.297599394708471e-05,
-      "loss": 0.8869,
-      "step": 200
-    },
-    {
-      "epoch": 0.2958579881656805,
-      "eval_loss": 0.9094380736351013,
-      "eval_runtime": 4.5088,
-      "eval_samples_per_second": 118.657,
-      "eval_steps_per_second": 1.109,
       "step": 200
     },
     {
-      "epoch": 0.3032544378698225,
-      "grad_norm": 0.9433916024554357,
-      "learning_rate": 4.257179585767301e-05,
-      "loss": 0.8868,
       "step": 205
     },
     {
-      "epoch": 0.3032544378698225,
-      "eval_loss": 0.9086852669715881,
-      "eval_runtime": 4.5444,
-      "eval_samples_per_second": 117.726,
-      "eval_steps_per_second": 1.1,
-      "step": 205
-    },
-    {
-      "epoch": 0.3106508875739645,
-      "grad_norm": 0.840098337392708,
-      "learning_rate": 4.2158575556105764e-05,
-      "loss": 0.8914,
-      "step": 210
-    },
-    {
-      "epoch": 0.3106508875739645,
-      "eval_loss": 0.9070125818252563,
-      "eval_runtime": 4.6468,
-      "eval_samples_per_second": 115.134,
-      "eval_steps_per_second": 1.076,
       "step": 210
     },
     {
-      "epoch": 0.3180473372781065,
-      "grad_norm": 0.7502300558297901,
-      "learning_rate": 4.17365804025027e-05,
-      "loss": 0.8804,
-      "step": 215
-    },
-    {
-      "epoch": 0.3180473372781065,
-      "eval_loss": 0.9057661890983582,
-      "eval_runtime": 4.582,
-      "eval_samples_per_second": 116.76,
-      "eval_steps_per_second": 1.091,
       "step": 215
     },
     {
-      "epoch": 0.3254437869822485,
-      "grad_norm": 0.7844009332707674,
-      "learning_rate": 4.130606300974686e-05,
-      "loss": 0.8826,
-      "step": 220
-    },
-    {
-      "epoch": 0.3254437869822485,
-      "eval_loss": 0.9040650725364685,
-      "eval_runtime": 4.6541,
-      "eval_samples_per_second": 114.953,
-      "eval_steps_per_second": 1.074,
       "step": 220
     },
     {
-      "epoch": 0.3328402366863905,
-      "grad_norm": 0.7605732508216542,
-      "learning_rate": 4.0867281092266644e-05,
-      "loss": 0.8966,
       "step": 225
     },
     {
-      "epoch": 0.3328402366863905,
-      "eval_loss": 0.9045411944389343,
-      "eval_runtime": 4.5979,
-      "eval_samples_per_second": 116.357,
-      "eval_steps_per_second": 1.087,
-      "step": 225
-    },
-    {
-      "epoch": 0.34023668639053256,
-      "grad_norm": 0.7511534980546334,
-      "learning_rate": 4.042049731176386e-05,
-      "loss": 0.8845,
-      "step": 230
-    },
-    {
-      "epoch": 0.34023668639053256,
-      "eval_loss": 0.9032608270645142,
-      "eval_runtime": 4.5071,
-      "eval_samples_per_second": 118.703,
-      "eval_steps_per_second": 1.109,
       "step": 230
     },
     {
-      "epoch": 0.34763313609467456,
-      "grad_norm": 0.7495402660706051,
-      "learning_rate": 3.996597911998038e-05,
-      "loss": 0.8654,
-      "step": 235
-    },
-    {
-      "epoch": 0.34763313609467456,
-      "eval_loss": 0.9020082950592041,
-      "eval_runtime": 4.7865,
-      "eval_samples_per_second": 111.774,
-      "eval_steps_per_second": 1.045,
       "step": 235
     },
     {
-      "epoch": 0.35502958579881655,
-      "grad_norm": 0.7270437363614586,
-      "learning_rate": 3.950399859859737e-05,
-      "loss": 0.877,
-      "step": 240
-    },
-    {
-      "epoch": 0.35502958579881655,
-      "eval_loss": 0.9021012187004089,
-      "eval_runtime": 4.4736,
-      "eval_samples_per_second": 119.59,
-      "eval_steps_per_second": 1.118,
       "step": 240
     },
     {
-      "epoch": 0.3624260355029586,
-      "grad_norm": 0.7847060294005617,
-      "learning_rate": 3.9034832296362885e-05,
-      "loss": 0.8899,
       "step": 245
     },
     {
-      "epoch": 0.3624260355029586,
-      "eval_loss": 0.9012376070022583,
-      "eval_runtime": 4.4956,
-      "eval_samples_per_second": 119.004,
-      "eval_steps_per_second": 1.112,
-      "step": 245
-    },
-    {
-      "epoch": 0.3698224852071006,
-      "grad_norm": 0.6874768710018212,
-      "learning_rate": 3.855876106354553e-05,
-      "loss": 0.8662,
-      "step": 250
-    },
-    {
-      "epoch": 0.3698224852071006,
-      "eval_loss": 0.8995451331138611,
-      "eval_runtime": 4.5879,
-      "eval_samples_per_second": 116.611,
-      "eval_steps_per_second": 1.09,
       "step": 250
     },
     {
-      "epoch": 0.3772189349112426,
-      "grad_norm": 0.7086167285320196,
-      "learning_rate": 3.807606988381309e-05,
-      "loss": 0.8878,
-      "step": 255
-    },
-    {
-      "epoch": 0.3772189349112426,
-      "eval_loss": 0.8975517749786377,
-      "eval_runtime": 4.5179,
-      "eval_samples_per_second": 118.417,
-      "eval_steps_per_second": 1.107,
       "step": 255
     },
     {
-      "epoch": 0.38461538461538464,
-      "grad_norm": 0.8083616193730793,
-      "learning_rate": 3.758704770363688e-05,
-      "loss": 0.8641,
-      "step": 260
-    },
-    {
-      "epoch": 0.38461538461538464,
-      "eval_loss": 0.8961707353591919,
-      "eval_runtime": 4.6188,
-      "eval_samples_per_second": 115.83,
-      "eval_steps_per_second": 1.083,
       "step": 260
     },
     {
-      "epoch": 0.39201183431952663,
-      "grad_norm": 0.80186012197302,
-      "learning_rate": 3.7091987259323813e-05,
-      "loss": 0.8701,
       "step": 265
     },
-    {
-      "epoch": 0.39201183431952663,
-      "eval_loss": 0.8945226073265076,
-      "eval_runtime": 4.6059,
-      "eval_samples_per_second": 116.155,
-      "eval_steps_per_second": 1.086,
-      "step": 265
-    },
-    {
-      "epoch": 0.3994082840236686,
-      "grad_norm": 0.7672004326970635,
-      "learning_rate": 3.6591184901779965e-05,
-      "loss": 0.884,
-      "step": 270
-    },
-    {
-      "epoch": 0.3994082840236686,
-      "eval_loss": 0.8951981663703918,
-      "eval_runtime": 4.5266,
-      "eval_samples_per_second": 118.191,
-      "eval_steps_per_second": 1.105,
-      "step": 270
-    },
-    {
-      "epoch": 0.4068047337278107,
-      "grad_norm": 0.8279425083821433,
-      "learning_rate": 3.6084940419110235e-05,
-      "loss": 0.865,
-      "step": 275
-    },
-    {
-      "epoch": 0.4068047337278107,
-      "eval_loss": 0.8942187428474426,
-      "eval_runtime": 4.4718,
-      "eval_samples_per_second": 119.638,
-      "eval_steps_per_second": 1.118,
-      "step": 275
-    },
-    {
-      "epoch": 0.41420118343195267,
-      "grad_norm": 0.6924917194060726,
-      "learning_rate": 3.557355685716056e-05,
-      "loss": 0.8963,
-      "step": 280
-    },
-    {
-      "epoch": 0.41420118343195267,
-      "eval_loss": 0.8927004337310791,
-      "eval_runtime": 4.5867,
-      "eval_samples_per_second": 116.642,
-      "eval_steps_per_second": 1.09,
-      "step": 280
-    },
-    {
-      "epoch": 0.42159763313609466,
-      "grad_norm": 0.7300617000412236,
-      "learning_rate": 3.505734033810989e-05,
-      "loss": 0.878,
-      "step": 285
-    },
-    {
-      "epoch": 0.42159763313609466,
-      "eval_loss": 0.8926271796226501,
-      "eval_runtime": 4.5293,
-      "eval_samples_per_second": 118.121,
-      "eval_steps_per_second": 1.104,
-      "step": 285
-    },
-    {
-      "epoch": 0.4289940828402367,
-      "grad_norm": 0.8294306981958416,
-      "learning_rate": 3.45365998772207e-05,
-      "loss": 0.876,
-      "step": 290
-    },
-    {
-      "epoch": 0.4289940828402367,
-      "eval_loss": 0.8919618725776672,
-      "eval_runtime": 4.533,
-      "eval_samples_per_second": 118.024,
-      "eval_steps_per_second": 1.103,
-      "step": 290
-    },
-    {
-      "epoch": 0.4363905325443787,
-      "grad_norm": 0.6786743799594892,
-      "learning_rate": 3.4011647197857654e-05,
-      "loss": 0.8816,
-      "step": 295
-    },
-    {
-      "epoch": 0.4363905325443787,
-      "eval_loss": 0.8911965489387512,
-      "eval_runtime": 4.6093,
-      "eval_samples_per_second": 116.069,
-      "eval_steps_per_second": 1.085,
-      "step": 295
-    },
-    {
-      "epoch": 0.4437869822485207,
-      "grad_norm": 0.833036937401054,
-      "learning_rate": 3.34827965448851e-05,
-      "loss": 0.8727,
-      "step": 300
-    },
-    {
-      "epoch": 0.4437869822485207,
-      "eval_loss": 0.8890377879142761,
-      "eval_runtime": 4.5425,
-      "eval_samples_per_second": 117.776,
-      "eval_steps_per_second": 1.101,
-      "step": 300
-    },
-    {
-      "epoch": 0.4511834319526627,
-      "grad_norm": 0.7813589947732351,
-      "learning_rate": 3.2950364496555214e-05,
-      "loss": 0.8738,
-      "step": 305
-    },
-    {
-      "epoch": 0.4511834319526627,
-      "eval_loss": 0.8887431621551514,
-      "eval_runtime": 4.6379,
-      "eval_samples_per_second": 115.353,
-      "eval_steps_per_second": 1.078,
-      "step": 305
-    },
-    {
-      "epoch": 0.45857988165680474,
-      "grad_norm": 0.7325656989385956,
-      "learning_rate": 3.241466977499929e-05,
-      "loss": 0.8658,
-      "step": 310
-    },
-    {
-      "epoch": 0.45857988165680474,
-      "eval_loss": 0.887874186038971,
-      "eval_runtime": 4.6002,
-      "eval_samples_per_second": 116.301,
-      "eval_steps_per_second": 1.087,
-      "step": 310
-    },
-    {
-      "epoch": 0.46597633136094674,
-      "grad_norm": 0.9022362063604372,
-      "learning_rate": 3.187603305543577e-05,
-      "loss": 0.8705,
-      "step": 315
-    },
-    {
-      "epoch": 0.46597633136094674,
-      "eval_loss": 0.8875709772109985,
-      "eval_runtime": 4.59,
-      "eval_samples_per_second": 116.559,
-      "eval_steps_per_second": 1.089,
-      "step": 315
-    },
-    {
-      "epoch": 0.47337278106508873,
-      "grad_norm": 0.7741483099078358,
-      "learning_rate": 3.133477677420894e-05,
-      "loss": 0.8922,
-      "step": 320
-    },
-    {
-      "epoch": 0.47337278106508873,
-      "eval_loss": 0.8861641883850098,
-      "eval_runtime": 4.5295,
-      "eval_samples_per_second": 118.115,
-      "eval_steps_per_second": 1.104,
-      "step": 320
-    },
-    {
-      "epoch": 0.4807692307692308,
-      "grad_norm": 0.6898160412918697,
-      "learning_rate": 3.0791224935773624e-05,
-      "loss": 0.8716,
-      "step": 325
-    },
-    {
-      "epoch": 0.4807692307692308,
-      "eval_loss": 0.8853756189346313,
-      "eval_runtime": 4.5133,
-      "eval_samples_per_second": 118.54,
-      "eval_steps_per_second": 1.108,
-      "step": 325
-    },
-    {
-      "epoch": 0.4881656804733728,
-      "grad_norm": 0.6815469807890937,
-      "learning_rate": 3.0245702918740964e-05,
-      "loss": 0.8554,
-      "step": 330
-    },
-    {
-      "epoch": 0.4881656804733728,
-      "eval_loss": 0.8842912912368774,
-      "eval_runtime": 4.5403,
-      "eval_samples_per_second": 117.834,
-      "eval_steps_per_second": 1.101,
-      "step": 330
-    },
-    {
-      "epoch": 0.49556213017751477,
-      "grad_norm": 0.6536960015603316,
-      "learning_rate": 2.969853728110179e-05,
-      "loss": 0.8469,
-      "step": 335
-    },
-    {
-      "epoch": 0.49556213017751477,
-      "eval_loss": 0.8840665817260742,
-      "eval_runtime": 4.5356,
-      "eval_samples_per_second": 117.957,
-      "eval_steps_per_second": 1.102,
-      "step": 335
-    },
-    {
-      "epoch": 0.5029585798816568,
-      "grad_norm": 0.6782286300780161,
-      "learning_rate": 2.915005556474384e-05,
-      "loss": 0.8699,
-      "step": 340
-    },
-    {
-      "epoch": 0.5029585798816568,
-      "eval_loss": 0.8830198645591736,
-      "eval_runtime": 4.4892,
-      "eval_samples_per_second": 119.175,
-      "eval_steps_per_second": 1.114,
-      "step": 340
-    },
-    {
-      "epoch": 0.5103550295857988,
-      "grad_norm": 0.6416520739158129,
-      "learning_rate": 2.8600586099380123e-05,
-      "loss": 0.8633,
-      "step": 345
-    },
-    {
-      "epoch": 0.5103550295857988,
-      "eval_loss": 0.8818948268890381,
-      "eval_runtime": 4.4716,
-      "eval_samples_per_second": 119.643,
-      "eval_steps_per_second": 1.118,
-      "step": 345
-    },
-    {
-      "epoch": 0.5177514792899408,
-      "grad_norm": 0.7185733539593375,
-      "learning_rate": 2.8050457806005613e-05,
-      "loss": 0.8604,
-      "step": 350
-    },
-    {
-      "epoch": 0.5177514792899408,
-      "eval_loss": 0.8818439245223999,
-      "eval_runtime": 4.5556,
-      "eval_samples_per_second": 117.438,
-      "eval_steps_per_second": 1.098,
-      "step": 350
-    },
-    {
-      "epoch": 0.5251479289940828,
-      "grad_norm": 0.7685402090063009,
-      "learning_rate": 2.7500000000000004e-05,
-      "loss": 0.8607,
-      "step": 355
-    },
-    {
-      "epoch": 0.5251479289940828,
-      "eval_loss": 0.8809483051300049,
-      "eval_runtime": 4.4752,
-      "eval_samples_per_second": 119.546,
-      "eval_steps_per_second": 1.117,
-      "step": 355
-    },
-    {
-      "epoch": 0.5325443786982249,
-      "grad_norm": 0.7342686897340025,
-      "learning_rate": 2.69495421939944e-05,
-      "loss": 0.842,
-      "step": 360
-    },
-    {
-      "epoch": 0.5325443786982249,
-      "eval_loss": 0.8807406425476074,
-      "eval_runtime": 4.4623,
-      "eval_samples_per_second": 119.894,
-      "eval_steps_per_second": 1.121,
-      "step": 360
-    },
-    {
-      "epoch": 0.5399408284023669,
-      "grad_norm": 0.8172803037562146,
-      "learning_rate": 2.639941390061988e-05,
-      "loss": 0.8625,
-      "step": 365
-    },
-    {
-      "epoch": 0.5399408284023669,
-      "eval_loss": 0.8791869878768921,
-      "eval_runtime": 4.5731,
-      "eval_samples_per_second": 116.988,
-      "eval_steps_per_second": 1.093,
-      "step": 365
-    },
-    {
-      "epoch": 0.5473372781065089,
-      "grad_norm": 0.7569175685957509,
-      "learning_rate": 2.584994443525617e-05,
-      "loss": 0.8662,
-      "step": 370
-    },
-    {
-      "epoch": 0.5473372781065089,
-      "eval_loss": 0.8787435293197632,
-      "eval_runtime": 4.578,
-      "eval_samples_per_second": 116.863,
-      "eval_steps_per_second": 1.092,
-      "step": 370
-    },
-    {
-      "epoch": 0.5547337278106509,
-      "grad_norm": 0.7873241841048441,
-      "learning_rate": 2.5301462718898215e-05,
-      "loss": 0.8552,
-      "step": 375
-    },
-    {
-      "epoch": 0.5547337278106509,
-      "eval_loss": 0.8779678344726562,
-      "eval_runtime": 4.532,
-      "eval_samples_per_second": 118.05,
-      "eval_steps_per_second": 1.103,
-      "step": 375
-    },
-    {
-      "epoch": 0.5621301775147929,
-      "grad_norm": 0.7232681596622134,
-      "learning_rate": 2.4754297081259048e-05,
-      "loss": 0.8741,
-      "step": 380
-    },
-    {
-      "epoch": 0.5621301775147929,
-      "eval_loss": 0.87770015001297,
-      "eval_runtime": 4.585,
-      "eval_samples_per_second": 116.685,
-      "eval_steps_per_second": 1.091,
-      "step": 380
-    },
-    {
-      "epoch": 0.5695266272189349,
-      "grad_norm": 0.7943811735564513,
-      "learning_rate": 2.4208775064226384e-05,
-      "loss": 0.8499,
-      "step": 385
-    },
-    {
-      "epoch": 0.5695266272189349,
-      "eval_loss": 0.8768277764320374,
-      "eval_runtime": 4.532,
-      "eval_samples_per_second": 118.051,
-      "eval_steps_per_second": 1.103,
-      "step": 385
-    },
-    {
-      "epoch": 0.5769230769230769,
-      "grad_norm": 0.6788490872865308,
-      "learning_rate": 2.3665223225791074e-05,
-      "loss": 0.8509,
-      "step": 390
-    },
-    {
-      "epoch": 0.5769230769230769,
-      "eval_loss": 0.876204788684845,
-      "eval_runtime": 4.5571,
-      "eval_samples_per_second": 117.399,
-      "eval_steps_per_second": 1.097,
-      "step": 390
-    },
-    {
-      "epoch": 0.584319526627219,
-      "grad_norm": 0.6283691221546651,
-      "learning_rate": 2.3123966944564242e-05,
-      "loss": 0.8546,
-      "step": 395
-    },
-    {
-      "epoch": 0.584319526627219,
-      "eval_loss": 0.8753672242164612,
-      "eval_runtime": 4.4802,
-      "eval_samples_per_second": 119.414,
-      "eval_steps_per_second": 1.116,
-      "step": 395
-    },
-    {
-      "epoch": 0.591715976331361,
-      "grad_norm": 0.6786610256300601,
-      "learning_rate": 2.258533022500071e-05,
-      "loss": 0.836,
-      "step": 400
-    },
-    {
-      "epoch": 0.591715976331361,
-      "eval_loss": 0.874183714389801,
-      "eval_runtime": 4.569,
-      "eval_samples_per_second": 117.093,
-      "eval_steps_per_second": 1.094,
-      "step": 400
-    },
-    {
-      "epoch": 0.599112426035503,
-      "grad_norm": 0.6813901972627211,
-      "learning_rate": 2.2049635503444792e-05,
-      "loss": 0.8555,
-      "step": 405
-    },
-    {
-      "epoch": 0.599112426035503,
-      "eval_loss": 0.8732807636260986,
-      "eval_runtime": 4.5619,
-      "eval_samples_per_second": 117.275,
-      "eval_steps_per_second": 1.096,
-      "step": 405
-    },
-    {
-      "epoch": 0.606508875739645,
-      "grad_norm": 0.660113771455314,
-      "learning_rate": 2.151720345511491e-05,
-      "loss": 0.8483,
-      "step": 410
-    },
-    {
-      "epoch": 0.606508875739645,
-      "eval_loss": 0.8721917867660522,
-      "eval_runtime": 4.7031,
-      "eval_samples_per_second": 113.756,
-      "eval_steps_per_second": 1.063,
-      "step": 410
-    },
-    {
-      "epoch": 0.613905325443787,
-      "grad_norm": 0.6554745701701462,
-      "learning_rate": 2.0988352802142352e-05,
-      "loss": 0.8344,
-      "step": 415
-    },
-    {
-      "epoch": 0.613905325443787,
-      "eval_loss": 0.8716893792152405,
-      "eval_runtime": 4.6708,
-      "eval_samples_per_second": 114.541,
-      "eval_steps_per_second": 1.07,
-      "step": 415
-    },
-    {
-      "epoch": 0.621301775147929,
-      "grad_norm": 0.6532273385705507,
-      "learning_rate": 2.0463400122779307e-05,
-      "loss": 0.8336,
-      "step": 420
-    },
-    {
-      "epoch": 0.621301775147929,
-      "eval_loss": 0.871632993221283,
-      "eval_runtime": 4.6552,
-      "eval_samples_per_second": 114.924,
-      "eval_steps_per_second": 1.074,
-      "step": 420
-    },
-    {
-      "epoch": 0.628698224852071,
-      "grad_norm": 0.6375832377334109,
-      "learning_rate": 1.994265966189012e-05,
-      "loss": 0.8452,
-      "step": 425
-    },
-    {
-      "epoch": 0.628698224852071,
-      "eval_loss": 0.8717252016067505,
-      "eval_runtime": 4.5491,
-      "eval_samples_per_second": 117.607,
-      "eval_steps_per_second": 1.099,
-      "step": 425
-    },
-    {
-      "epoch": 0.636094674556213,
-      "grad_norm": 0.6981207777177686,
-      "learning_rate": 1.9426443142839447e-05,
-      "loss": 0.8429,
-      "step": 430
-    },
-    {
-      "epoch": 0.636094674556213,
-      "eval_loss": 0.8708469271659851,
-      "eval_runtime": 4.5282,
-      "eval_samples_per_second": 118.148,
-      "eval_steps_per_second": 1.104,
-      "step": 430
-    },
-    {
-      "epoch": 0.643491124260355,
-      "grad_norm": 0.652634344146103,
-      "learning_rate": 1.891505958088977e-05,
-      "loss": 0.8405,
-      "step": 435
-    },
-    {
-      "epoch": 0.643491124260355,
-      "eval_loss": 0.8699945211410522,
-      "eval_runtime": 4.5588,
-      "eval_samples_per_second": 117.354,
-      "eval_steps_per_second": 1.097,
-      "step": 435
-    },
-    {
-      "epoch": 0.650887573964497,
-      "grad_norm": 0.6201611689922387,
-      "learning_rate": 1.8408815098220043e-05,
-      "loss": 0.8566,
-      "step": 440
-    },
-    {
-      "epoch": 0.650887573964497,
-      "eval_loss": 0.8690354228019714,
-      "eval_runtime": 4.5688,
-      "eval_samples_per_second": 117.098,
-      "eval_steps_per_second": 1.094,
-      "step": 440
-    },
-    {
-      "epoch": 0.658284023668639,
-      "grad_norm": 0.6371435519919459,
-      "learning_rate": 1.7908012740676195e-05,
-      "loss": 0.8412,
-      "step": 445
-    },
-    {
-      "epoch": 0.658284023668639,
-      "eval_loss": 0.8690587282180786,
-      "eval_runtime": 4.5404,
-      "eval_samples_per_second": 117.832,
-      "eval_steps_per_second": 1.101,
-      "step": 445
-    },
-    {
-      "epoch": 0.665680473372781,
-      "grad_norm": 0.6528979398382087,
-      "learning_rate": 1.7412952296363133e-05,
-      "loss": 0.8395,
-      "step": 450
-    },
-    {
-      "epoch": 0.665680473372781,
-      "eval_loss": 0.8680040240287781,
-      "eval_runtime": 4.4831,
-      "eval_samples_per_second": 119.337,
-      "eval_steps_per_second": 1.115,
-      "step": 450
-    },
-    {
-      "epoch": 0.6730769230769231,
-      "grad_norm": 0.7567869297925619,
-      "learning_rate": 1.6923930116186907e-05,
-      "loss": 0.8481,
-      "step": 455
-    },
-    {
-      "epoch": 0.6730769230769231,
-      "eval_loss": 0.867551863193512,
-      "eval_runtime": 4.4437,
-      "eval_samples_per_second": 120.395,
-      "eval_steps_per_second": 1.125,
-      "step": 455
-    },
-    {
-      "epoch": 0.6804733727810651,
-      "grad_norm": 0.6773475295723909,
-      "learning_rate": 1.644123893645448e-05,
-      "loss": 0.8605,
-      "step": 460
-    },
-    {
-      "epoch": 0.6804733727810651,
-      "eval_loss": 0.8671652674674988,
-      "eval_runtime": 4.5312,
-      "eval_samples_per_second": 118.069,
-      "eval_steps_per_second": 1.103,
-      "step": 460
-    },
-    {
-      "epoch": 0.6878698224852071,
-      "grad_norm": 0.7010338732044618,
-      "learning_rate": 1.5965167703637124e-05,
-      "loss": 0.8395,
-      "step": 465
-    },
-    {
-      "epoch": 0.6878698224852071,
-      "eval_loss": 0.8658307790756226,
-      "eval_runtime": 4.586,
-      "eval_samples_per_second": 116.659,
-      "eval_steps_per_second": 1.09,
-      "step": 465
-    },
-    {
-      "epoch": 0.6952662721893491,
-      "grad_norm": 0.6702003501907882,
-      "learning_rate": 1.5496001401402644e-05,
-      "loss": 0.8418,
-      "step": 470
-    },
-    {
-      "epoch": 0.6952662721893491,
-      "eval_loss": 0.8654137253761292,
-      "eval_runtime": 4.4934,
-      "eval_samples_per_second": 119.062,
-      "eval_steps_per_second": 1.113,
-      "step": 470
-    },
-    {
-      "epoch": 0.7026627218934911,
-      "grad_norm": 0.6408882433617089,
-      "learning_rate": 1.5034020880019619e-05,
-      "loss": 0.8528,
-      "step": 475
-    },
-    {
-      "epoch": 0.7026627218934911,
-      "eval_loss": 0.8655184507369995,
-      "eval_runtime": 4.427,
-      "eval_samples_per_second": 120.85,
-      "eval_steps_per_second": 1.129,
-      "step": 475
-    },
-    {
-      "epoch": 0.7100591715976331,
-      "grad_norm": 0.6451588589935744,
-      "learning_rate": 1.4579502688236146e-05,
-      "loss": 0.856,
-      "step": 480
-    },
-    {
-      "epoch": 0.7100591715976331,
-      "eval_loss": 0.8649392127990723,
-      "eval_runtime": 4.5976,
-      "eval_samples_per_second": 116.366,
-      "eval_steps_per_second": 1.088,
-      "step": 480
-    },
-    {
-      "epoch": 0.7174556213017751,
-      "grad_norm": 0.6270246011748759,
-      "learning_rate": 1.4132718907733361e-05,
-      "loss": 0.8361,
-      "step": 485
-    },
-    {
-      "epoch": 0.7174556213017751,
-      "eval_loss": 0.864596962928772,
-      "eval_runtime": 4.5791,
-      "eval_samples_per_second": 116.835,
-      "eval_steps_per_second": 1.092,
-      "step": 485
-    },
-    {
-      "epoch": 0.7248520710059172,
-      "grad_norm": 0.7162779140578355,
-      "learning_rate": 1.3693936990253142e-05,
-      "loss": 0.8391,
-      "step": 490
-    },
-    {
-      "epoch": 0.7248520710059172,
-      "eval_loss": 0.8636202216148376,
-      "eval_runtime": 4.8532,
-      "eval_samples_per_second": 110.238,
-      "eval_steps_per_second": 1.03,
-      "step": 490
-    },
-    {
-      "epoch": 0.7322485207100592,
-      "grad_norm": 0.6264415975109302,
-      "learning_rate": 1.326341959749731e-05,
-      "loss": 0.8402,
-      "step": 495
-    },
-    {
-      "epoch": 0.7322485207100592,
-      "eval_loss": 0.8627746105194092,
-      "eval_runtime": 4.5577,
-      "eval_samples_per_second": 117.385,
-      "eval_steps_per_second": 1.097,
-      "step": 495
-    },
-    {
-      "epoch": 0.7396449704142012,
-      "grad_norm": 0.5999441934467236,
-      "learning_rate": 1.2841424443894246e-05,
-      "loss": 0.8356,
-      "step": 500
-    },
-    {
-      "epoch": 0.7396449704142012,
-      "eval_loss": 0.8623146414756775,
-      "eval_runtime": 4.5802,
-      "eval_samples_per_second": 116.807,
-      "eval_steps_per_second": 1.092,
-      "step": 500
-    },
-    {
-      "epoch": 0.7470414201183432,
-      "grad_norm": 0.6129410145276629,
-      "learning_rate": 1.2428204142327e-05,
-      "loss": 0.8462,
-      "step": 505
-    },
-    {
-      "epoch": 0.7470414201183432,
-      "eval_loss": 0.86202472448349,
-      "eval_runtime": 4.5046,
-      "eval_samples_per_second": 118.766,
-      "eval_steps_per_second": 1.11,
-      "step": 505
-    },
-    {
-      "epoch": 0.7544378698224852,
-      "grad_norm": 0.8356836512352364,
-      "learning_rate": 1.2024006052915295e-05,
-      "loss": 0.8276,
-      "step": 510
-    },
-    {
-      "epoch": 0.7544378698224852,
-      "eval_loss": 0.8616589903831482,
-      "eval_runtime": 4.5743,
-      "eval_samples_per_second": 116.957,
-      "eval_steps_per_second": 1.093,
-      "step": 510
-    },
-    {
-      "epoch": 0.7618343195266272,
-      "grad_norm": 0.5779272740478268,
-      "learning_rate": 1.1629072134941883e-05,
-      "loss": 0.8478,
-      "step": 515
-    },
-    {
-      "epoch": 0.7618343195266272,
-      "eval_loss": 0.8606404066085815,
-      "eval_runtime": 4.6303,
-      "eval_samples_per_second": 115.544,
-      "eval_steps_per_second": 1.08,
-      "step": 515
-    },
-    {
-      "epoch": 0.7692307692307693,
-      "grad_norm": 0.6069493343307135,
-      "learning_rate": 1.1243638802011954e-05,
-      "loss": 0.8438,
-      "step": 520
-    },
-    {
-      "epoch": 0.7692307692307693,
-      "eval_loss": 0.8605805039405823,
-      "eval_runtime": 4.5932,
-      "eval_samples_per_second": 116.477,
-      "eval_steps_per_second": 1.089,
-      "step": 520
-    },
-    {
-      "epoch": 0.7766272189349113,
-      "grad_norm": 0.6125533080147663,
-      "learning_rate": 1.0867936780532248e-05,
-      "loss": 0.8439,
-      "step": 525
-    },
-    {
-      "epoch": 0.7766272189349113,
-      "eval_loss": 0.8604384064674377,
-      "eval_runtime": 4.6021,
-      "eval_samples_per_second": 116.25,
-      "eval_steps_per_second": 1.086,
-      "step": 525
-    },
-    {
-      "epoch": 0.7840236686390533,
-      "grad_norm": 0.6452403926195849,
-      "learning_rate": 1.0502190971594672e-05,
-      "loss": 0.8424,
-      "step": 530
-    },
-    {
-      "epoch": 0.7840236686390533,
-      "eval_loss": 0.859944760799408,
-      "eval_runtime": 4.5374,
-      "eval_samples_per_second": 117.91,
-      "eval_steps_per_second": 1.102,
-      "step": 530
-    },
-    {
-      "epoch": 0.7914201183431953,
-      "grad_norm": 0.5745825978672692,
-      "learning_rate": 1.014662031634692e-05,
-      "loss": 0.8235,
-      "step": 535
-    },
-    {
-      "epoch": 0.7914201183431953,
-      "eval_loss": 0.8596252202987671,
-      "eval_runtime": 4.4046,
-      "eval_samples_per_second": 121.465,
-      "eval_steps_per_second": 1.135,
-      "step": 535
-    },
-    {
-      "epoch": 0.7988165680473372,
-      "grad_norm": 0.5837129035152734,
-      "learning_rate": 9.80143766493097e-06,
-      "loss": 0.8289,
-      "step": 540
-    },
-    {
-      "epoch": 0.7988165680473372,
-      "eval_loss": 0.8592759966850281,
-      "eval_runtime": 4.5322,
-      "eval_samples_per_second": 118.044,
-      "eval_steps_per_second": 1.103,
-      "step": 540
-    },
-    {
-      "epoch": 0.8062130177514792,
-      "grad_norm": 0.5813377576331795,
-      "learning_rate": 9.466849649067596e-06,
-      "loss": 0.83,
-      "step": 545
-    },
-    {
-      "epoch": 0.8062130177514792,
-      "eval_loss": 0.8585328459739685,
-      "eval_runtime": 4.5627,
-      "eval_samples_per_second": 117.254,
-      "eval_steps_per_second": 1.096,
-      "step": 545
-    },
-    {
-      "epoch": 0.8136094674556213,
-      "grad_norm": 0.6039721338817958,
-      "learning_rate": 9.143056558363463e-06,
-      "loss": 0.8363,
-      "step": 550
-    },
-    {
-      "epoch": 0.8136094674556213,
-      "eval_loss": 0.8581274747848511,
-      "eval_runtime": 4.6357,
-      "eval_samples_per_second": 115.408,
-      "eval_steps_per_second": 1.079,
-      "step": 550
-    },
-    {
-      "epoch": 0.8210059171597633,
-      "grad_norm": 0.5888712234714697,
-      "learning_rate": 8.83025222041459e-06,
-      "loss": 0.8403,
-      "step": 555
-    },
-    {
-      "epoch": 0.8210059171597633,
-      "eval_loss": 0.8580217361450195,
-      "eval_runtime": 4.5942,
-      "eval_samples_per_second": 116.45,
-      "eval_steps_per_second": 1.088,
-      "step": 555
-    },
-    {
-      "epoch": 0.8284023668639053,
-      "grad_norm": 0.6337569313224579,
-      "learning_rate": 8.528623884778144e-06,
-      "loss": 0.8517,
-      "step": 560
-    },
-    {
-      "epoch": 0.8284023668639053,
-      "eval_loss": 0.8578224182128906,
-      "eval_runtime": 4.9197,
-      "eval_samples_per_second": 108.747,
-      "eval_steps_per_second": 1.016,
-      "step": 560
-    },
-    {
-      "epoch": 0.8357988165680473,
-      "grad_norm": 0.5656560440585017,
-      "learning_rate": 8.238352110881945e-06,
-      "loss": 0.8286,
-      "step": 565
-    },
-    {
-      "epoch": 0.8357988165680473,
-      "eval_loss": 0.857262372970581,
-      "eval_runtime": 4.4021,
-      "eval_samples_per_second": 121.533,
-      "eval_steps_per_second": 1.136,
-      "step": 565
-    },
-    {
-      "epoch": 0.8431952662721893,
-      "grad_norm": 0.6428278413031142,
-      "learning_rate": 7.959610659938765e-06,
-      "loss": 0.8341,
-      "step": 570
-    },
-    {
-      "epoch": 0.8431952662721893,
-      "eval_loss": 0.8569393157958984,
-      "eval_runtime": 4.5023,
-      "eval_samples_per_second": 118.829,
-      "eval_steps_per_second": 1.111,
-      "step": 570
-    },
-    {
-      "epoch": 0.8505917159763313,
-      "grad_norm": 0.5744234711786275,
-      "learning_rate": 7.69256639093015e-06,
-      "loss": 0.8262,
-      "step": 575
-    },
-    {
-      "epoch": 0.8505917159763313,
-      "eval_loss": 0.8566195368766785,
-      "eval_runtime": 4.558,
-      "eval_samples_per_second": 117.375,
-      "eval_steps_per_second": 1.097,
-      "step": 575
-    },
-    {
-      "epoch": 0.8579881656804734,
-      "grad_norm": 0.578200912437047,
-      "learning_rate": 7.4373791607220455e-06,
-      "loss": 0.8351,
-      "step": 580
-    },
-    {
-      "epoch": 0.8579881656804734,
-      "eval_loss": 0.8565072417259216,
-      "eval_runtime": 4.5104,
-      "eval_samples_per_second": 118.615,
-      "eval_steps_per_second": 1.109,
-      "step": 580
-    },
-    {
-      "epoch": 0.8653846153846154,
-      "grad_norm": 0.5778075441668177,
-      "learning_rate": 7.194201728371964e-06,
-      "loss": 0.8329,
-      "step": 585
-    },
-    {
-      "epoch": 0.8653846153846154,
-      "eval_loss": 0.8561302423477173,
-      "eval_runtime": 4.5476,
-      "eval_samples_per_second": 117.646,
-      "eval_steps_per_second": 1.099,
-      "step": 585
-    },
-    {
-      "epoch": 0.8727810650887574,
-      "grad_norm": 0.5935938929493908,
-      "learning_rate": 6.96317966368506e-06,
-      "loss": 0.841,
-      "step": 590
-    },
-    {
-      "epoch": 0.8727810650887574,
-      "eval_loss": 0.8557109832763672,
-      "eval_runtime": 4.567,
-      "eval_samples_per_second": 117.145,
-      "eval_steps_per_second": 1.095,
-      "step": 590
-    },
-    {
-      "epoch": 0.8801775147928994,
-      "grad_norm": 0.6038472885423796,
-      "learning_rate": 6.744451260073718e-06,
-      "loss": 0.8286,
-      "step": 595
-    },
-    {
-      "epoch": 0.8801775147928994,
-      "eval_loss": 0.8555126786231995,
-      "eval_runtime": 4.5524,
-      "eval_samples_per_second": 117.519,
-      "eval_steps_per_second": 1.098,
-      "step": 595
-    },
-    {
-      "epoch": 0.8875739644970414,
-      "grad_norm": 0.5943088695918576,
-      "learning_rate": 6.538147451773029e-06,
-      "loss": 0.835,
-      "step": 600
-    },
-    {
-      "epoch": 0.8875739644970414,
-      "eval_loss": 0.8550283312797546,
-      "eval_runtime": 4.4943,
-      "eval_samples_per_second": 119.039,
-      "eval_steps_per_second": 1.113,
-      "step": 600
-    },
-    {
-      "epoch": 0.8949704142011834,
-      "grad_norm": 0.6151479841904817,
-      "learning_rate": 6.3443917354614466e-06,
-      "loss": 0.8313,
-      "step": 605
-    },
-    {
-      "epoch": 0.8949704142011834,
-      "eval_loss": 0.8547914028167725,
-      "eval_runtime": 4.5869,
-      "eval_samples_per_second": 116.638,
-      "eval_steps_per_second": 1.09,
-      "step": 605
-    },
-    {
-      "epoch": 0.9023668639053254,
-      "grad_norm": 0.5914893004098631,
-      "learning_rate": 6.163300096333806e-06,
-      "loss": 0.8276,
-      "step": 610
-    },
-    {
-      "epoch": 0.9023668639053254,
-      "eval_loss": 0.8543236255645752,
-      "eval_runtime": 4.5789,
-      "eval_samples_per_second": 116.84,
-      "eval_steps_per_second": 1.092,
-      "step": 610
-    },
-    {
-      "epoch": 0.9097633136094675,
-      "grad_norm": 0.5915554024359355,
-      "learning_rate": 5.9949809386707394e-06,
-      "loss": 0.8252,
-      "step": 615
-    },
-    {
-      "epoch": 0.9097633136094675,
-      "eval_loss": 0.8538296818733215,
-      "eval_runtime": 4.7415,
-      "eval_samples_per_second": 112.832,
-      "eval_steps_per_second": 1.055,
-      "step": 615
-    },
-    {
-      "epoch": 0.9171597633136095,
-      "grad_norm": 0.5682950068319568,
-      "learning_rate": 5.839535020946193e-06,
-      "loss": 0.8177,
-      "step": 620
-    },
-    {
-      "epoch": 0.9171597633136095,
-      "eval_loss": 0.8535985946655273,
-      "eval_runtime": 4.5719,
-      "eval_samples_per_second": 117.02,
-      "eval_steps_per_second": 1.094,
-      "step": 620
-    },
-    {
-      "epoch": 0.9245562130177515,
-      "grad_norm": 0.5863960670439361,
-      "learning_rate": 5.697055395511836e-06,
-      "loss": 0.8342,
-      "step": 625
-    },
-    {
-      "epoch": 0.9245562130177515,
-      "eval_loss": 0.8532615303993225,
-      "eval_runtime": 4.5376,
-      "eval_samples_per_second": 117.903,
-      "eval_steps_per_second": 1.102,
-      "step": 625
-    },
-    {
-      "epoch": 0.9319526627218935,
-      "grad_norm": 0.5531562271776167,
-      "learning_rate": 5.567627352894467e-06,
-      "loss": 0.8402,
-      "step": 630
-    },
-    {
-      "epoch": 0.9319526627218935,
-      "eval_loss": 0.8529289960861206,
-      "eval_runtime": 4.5667,
-      "eval_samples_per_second": 117.152,
-      "eval_steps_per_second": 1.095,
-      "step": 630
-    },
-    {
-      "epoch": 0.9393491124260355,
-      "grad_norm": 0.595496303433799,
-      "learning_rate": 5.451328370739774e-06,
-      "loss": 0.8233,
-      "step": 635
-    },
-    {
-      "epoch": 0.9393491124260355,
-      "eval_loss": 0.8527988195419312,
-      "eval_runtime": 4.6311,
-      "eval_samples_per_second": 115.523,
-      "eval_steps_per_second": 1.08,
-      "step": 635
-    },
-    {
-      "epoch": 0.9467455621301775,
-      "grad_norm": 0.62602812517354,
-      "learning_rate": 5.3482280674330136e-06,
-      "loss": 0.8183,
-      "step": 640
-    },
-    {
-      "epoch": 0.9467455621301775,
-      "eval_loss": 0.852441668510437,
-      "eval_runtime": 4.5774,
-      "eval_samples_per_second": 116.877,
-      "eval_steps_per_second": 1.092,
-      "step": 640
-    },
-    {
-      "epoch": 0.9541420118343196,
-      "grad_norm": 0.5716364859992062,
-      "learning_rate": 5.25838816042435e-06,
-      "loss": 0.822,
-      "step": 645
-    },
-    {
-      "epoch": 0.9541420118343196,
-      "eval_loss": 0.8520421385765076,
-      "eval_runtime": 4.5908,
-      "eval_samples_per_second": 116.537,
-      "eval_steps_per_second": 1.089,
-      "step": 645
-    },
-    {
-      "epoch": 0.9615384615384616,
-      "grad_norm": 0.5973178018451643,
-      "learning_rate": 5.1818624292838275e-06,
-      "loss": 0.8326,
-      "step": 650
-    },
-    {
-      "epoch": 0.9615384615384616,
-      "eval_loss": 0.8517911434173584,
-      "eval_runtime": 4.5169,
-      "eval_samples_per_second": 118.444,
-      "eval_steps_per_second": 1.107,
-      "step": 650
-    },
-    {
-      "epoch": 0.9689349112426036,
-      "grad_norm": 0.5848676320077507,
-      "learning_rate": 5.118696683508087e-06,
-      "loss": 0.8224,
-      "step": 655
-    },
-    {
-      "epoch": 0.9689349112426036,
-      "eval_loss": 0.8514999151229858,
-      "eval_runtime": 4.6466,
-      "eval_samples_per_second": 115.137,
-      "eval_steps_per_second": 1.076,
-      "step": 655
-    },
-    {
-      "epoch": 0.9763313609467456,
-      "grad_norm": 0.584823125278116,
-      "learning_rate": 5.0689287350980886e-06,
-      "loss": 0.823,
-      "step": 660
-    },
-    {
-      "epoch": 0.9763313609467456,
-      "eval_loss": 0.8514819741249084,
-      "eval_runtime": 4.4836,
-      "eval_samples_per_second": 119.325,
-      "eval_steps_per_second": 1.115,
-      "step": 660
-    },
-    {
-      "epoch": 0.9837278106508875,
-      "grad_norm": 0.5887341532281551,
-      "learning_rate": 5.03258837592424e-06,
-      "loss": 0.8366,
-      "step": 665
-    },
-    {
-      "epoch": 0.9837278106508875,
-      "eval_loss": 0.8512169718742371,
-      "eval_runtime": 4.4841,
-      "eval_samples_per_second": 119.311,
-      "eval_steps_per_second": 1.115,
-      "step": 665
-    },
-    {
-      "epoch": 0.9911242603550295,
-      "grad_norm": 0.6312074358327011,
-      "learning_rate": 5.009697359892536e-06,
-      "loss": 0.82,
-      "step": 670
-    },
-    {
-      "epoch": 0.9911242603550295,
-      "eval_loss": 0.8510258197784424,
-      "eval_runtime": 4.5807,
-      "eval_samples_per_second": 116.794,
-      "eval_steps_per_second": 1.092,
-      "step": 670
-    },
-    {
-      "epoch": 0.9985207100591716,
-      "grad_norm": 0.6109741913754086,
-      "learning_rate": 5.0002693899223325e-06,
-      "loss": 0.8494,
-      "step": 675
-    },
-    {
-      "epoch": 0.9985207100591716,
-      "eval_loss": 0.8508756160736084,
-      "eval_runtime": 4.5433,
-      "eval_samples_per_second": 117.755,
-      "eval_steps_per_second": 1.101,
-      "step": 675
-    },
     {
       "epoch": 1.0,
-      "step": 676,
-      "total_flos": 65635690217472.0,
-      "train_loss": 0.0,
-      "train_runtime": 0.9025,
-      "train_samples_per_second": 38008.288,
-      "train_steps_per_second": 296.966
     }
   ],
   "logging_steps": 5,
@@ -2220,8 +406,8 @@
       "attributes": {}
     }
   },
-  "total_flos": 65635690217472.0,
-  "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null
 }

   "best_metric": null,
   "best_model_checkpoint": null,
   "epoch": 1.0,
+  "eval_steps": 500,
+  "global_step": 268,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.018656716417910446,
+      "grad_norm": 1.8357123991549114,
+      "learning_rate": 1.785714285714286e-05,
+      "loss": 0.8456,
       "step": 5
     },
     {
+      "epoch": 0.03731343283582089,
+      "grad_norm": 0.7888674392020409,
+      "learning_rate": 3.571428571428572e-05,
+      "loss": 0.7682,
       "step": 10
     },
     {
+      "epoch": 0.055970149253731345,
+      "grad_norm": 0.5088001784298014,
+      "learning_rate": 4.999827900623038e-05,
+      "loss": 0.7026,
       "step": 15
     },
     {
+      "epoch": 0.07462686567164178,
+      "grad_norm": 0.3967331836313917,
+      "learning_rate": 4.993807186343243e-05,
+      "loss": 0.6745,
       "step": 20
     },
     {
+      "epoch": 0.09328358208955224,
+      "grad_norm": 0.38953492827269537,
+      "learning_rate": 4.979207812402531e-05,
+      "loss": 0.6436,
       "step": 25
     },
     {
+      "epoch": 0.11194029850746269,
+      "grad_norm": 0.3056894462367877,
+      "learning_rate": 4.956085596012407e-05,
+      "loss": 0.6362,
       "step": 30
     },
     {
+      "epoch": 0.13059701492537312,
+      "grad_norm": 0.2848383986273845,
+      "learning_rate": 4.924528939432311e-05,
+      "loss": 0.6199,
       "step": 35
     },
     {
+      "epoch": 0.14925373134328357,
+      "grad_norm": 0.24821786610124724,
+      "learning_rate": 4.884658491984735e-05,
+      "loss": 0.6106,
       "step": 40
     },
     {
+      "epoch": 0.16791044776119404,
+      "grad_norm": 0.21630773743864942,
+      "learning_rate": 4.8366266887814235e-05,
+      "loss": 0.6112,
       "step": 45
     },
     {
+      "epoch": 0.1865671641791045,
+      "grad_norm": 0.2542614286063211,
+      "learning_rate": 4.780617167924209e-05,
+      "loss": 0.5939,
       "step": 50
     },
     {
+      "epoch": 0.20522388059701493,
+      "grad_norm": 0.273652684856057,
+      "learning_rate": 4.716844068408693e-05,
+      "loss": 0.5965,
       "step": 55
     },
     {
+      "epoch": 0.22388059701492538,
+      "grad_norm": 0.2919315422944058,
+      "learning_rate": 4.6455512114150546e-05,
+      "loss": 0.5919,
       "step": 60
     },
     {
+      "epoch": 0.24253731343283583,
+      "grad_norm": 0.4896363894073648,
+      "learning_rate": 4.5670111681161296e-05,
+      "loss": 0.5829,
       "step": 65
     },
     {
+      "epoch": 0.26119402985074625,
+      "grad_norm": 0.35893234362656307,
+      "learning_rate": 4.481524217566783e-05,
+      "loss": 0.5799,
       "step": 70
     },
     {
+      "epoch": 0.2798507462686567,
+      "grad_norm": 0.47821339713150723,
+      "learning_rate": 4.3894171986588217e-05,
+      "loss": 0.5787,
       "step": 75
     },
     {
+      "epoch": 0.29850746268656714,
+      "grad_norm": 0.42779548633021597,
+      "learning_rate": 4.29104226053073e-05,
+      "loss": 0.5775,
       "step": 80
     },
     {
+      "epoch": 0.31716417910447764,
+      "grad_norm": 0.34493135242732464,
+      "learning_rate": 4.186775516209732e-05,
+      "loss": 0.5728,
       "step": 85
     },
     {
+      "epoch": 0.3358208955223881,
+      "grad_norm": 0.3450752761118264,
+      "learning_rate": 4.077015604633669e-05,
+      "loss": 0.5752,
       "step": 90
     },
     {
+      "epoch": 0.35447761194029853,
+      "grad_norm": 0.3254883369412446,
+      "learning_rate": 3.962182166550441e-05,
+      "loss": 0.5737,
       "step": 95
     },
     {
+      "epoch": 0.373134328358209,
+      "grad_norm": 0.3021937652365121,
+      "learning_rate": 3.8427142401220634e-05,
+      "loss": 0.5697,
       "step": 100
     },
     {
+      "epoch": 0.3917910447761194,
+      "grad_norm": 0.22543629034027707,
+      "learning_rate": 3.71906858236735e-05,
+      "loss": 0.566,
       "step": 105
     },
     {
+      "epoch": 0.41044776119402987,
+      "grad_norm": 0.26150626383864994,
+      "learning_rate": 3.591717922860785e-05,
+      "loss": 0.5733,
       "step": 110
     },
     {
+      "epoch": 0.4291044776119403,
+      "grad_norm": 0.25406069172974854,
+      "learning_rate": 3.46114915636416e-05,
+      "loss": 0.5641,
       "step": 115
     },
     {
+      "epoch": 0.44776119402985076,
+      "grad_norm": 0.2761171780274853,
+      "learning_rate": 3.3278614813010034e-05,
+      "loss": 0.565,
       "step": 120
     },
     {
+      "epoch": 0.4664179104477612,
+      "grad_norm": 0.27444350076630936,
+      "learning_rate": 3.1923644911909e-05,
+      "loss": 0.5619,
       "step": 125
     },
     {
+      "epoch": 0.48507462686567165,
+      "grad_norm": 0.22218188459643629,
+      "learning_rate": 3.0551762263406576e-05,
+      "loss": 0.5606,
       "step": 130
     },
     {
+      "epoch": 0.503731343283582,
+      "grad_norm": 0.23885769537130422,
+      "learning_rate": 2.9168211932412042e-05,
+      "loss": 0.5579,
       "step": 135
     },
     {
+      "epoch": 0.5223880597014925,
+      "grad_norm": 0.19581242444906968,
+      "learning_rate": 2.777828359242567e-05,
+      "loss": 0.5632,
       "step": 140
     },
     {
+      "epoch": 0.5410447761194029,
+      "grad_norm": 0.23903378838505404,
+      "learning_rate": 2.6387291301738377e-05,
+      "loss": 0.5559,
       "step": 145
     },
     {
+      "epoch": 0.5597014925373134,
+      "grad_norm": 0.22131995247320724,
+      "learning_rate": 2.50005531864019e-05,
+      "loss": 0.5537,
       "step": 150
     },
     {
+      "epoch": 0.5783582089552238,
+      "grad_norm": 0.20388629120046767,
+      "learning_rate": 2.362337110764688e-05,
+      "loss": 0.554,
       "step": 155
     },
     {
+      "epoch": 0.5970149253731343,
+      "grad_norm": 0.19865451240052354,
+      "learning_rate": 2.226101039148557e-05,
+      "loss": 0.5523,
       "step": 160
     },
     {
+      "epoch": 0.6156716417910447,
+      "grad_norm": 0.21792292980419078,
+      "learning_rate": 2.0918679697998252e-05,
+      "loss": 0.5511,
       "step": 165
     },
     {
+      "epoch": 0.6343283582089553,
+      "grad_norm": 0.20734976300061925,
+      "learning_rate": 1.9601511107268255e-05,
+      "loss": 0.5516,
       "step": 170
     },
     {
+      "epoch": 0.6529850746268657,
+      "grad_norm": 0.1990824685948915,
+      "learning_rate": 1.8314540498102216e-05,
+      "loss": 0.5512,
       "step": 175
     },
     {
+      "epoch": 0.6716417910447762,
+      "grad_norm": 0.1759699937325297,
+      "learning_rate": 1.7062688294552992e-05,
+      "loss": 0.5433,
       "step": 180
     },
     {
+      "epoch": 0.6902985074626866,
+      "grad_norm": 0.19952904233106478,
+      "learning_rate": 1.5850740653856096e-05,
+      "loss": 0.5467,
       "step": 185
     },
     {
+      "epoch": 0.7089552238805971,
+      "grad_norm": 0.17940456799398388,
+      "learning_rate": 1.4683331167703218e-05,
+      "loss": 0.5503,
       "step": 190
     },
     {
+      "epoch": 0.7276119402985075,
+      "grad_norm": 0.17212507506796912,
+      "learning_rate": 1.356492314681356e-05,
+      "loss": 0.5531,
       "step": 195
     },
     {
+      "epoch": 0.746268656716418,
+      "grad_norm": 0.16216686994925128,
+      "learning_rate": 1.2499792556533716e-05,
+      "loss": 0.5474,
       "step": 200
     },
     {
+      "epoch": 0.7649253731343284,
+      "grad_norm": 0.17719961464188644,
+      "learning_rate": 1.1492011668707753e-05,
+      "loss": 0.5449,
       "step": 205
     },
     {
+      "epoch": 0.7835820895522388,
+      "grad_norm": 0.17440876918971734,
+      "learning_rate": 1.0545433492320603e-05,
+      "loss": 0.5501,
       "step": 210
     },
     {
+      "epoch": 0.8022388059701493,
+      "grad_norm": 0.1578415381103267,
+      "learning_rate": 9.663677042440537e-06,
+      "loss": 0.5444,
       "step": 215
     },
     {
+      "epoch": 0.8208955223880597,
+      "grad_norm": 0.16294954656469435,
+      "learning_rate": 8.850113503781367e-06,
+      "loss": 0.5443,
       "step": 220
     },
     {
+      "epoch": 0.8395522388059702,
+      "grad_norm": 0.14550383873413048,
+      "learning_rate": 8.107853341784671e-06,
+      "loss": 0.5507,
       "step": 225
     },
     {
+      "epoch": 0.8582089552238806,
+      "grad_norm": 0.1571896983780636,
+      "learning_rate": 7.439734410499752e-06,
+      "loss": 0.547,
       "step": 230
     },
     {
+      "epoch": 0.8768656716417911,
+      "grad_norm": 0.1811708441839716,
+      "learning_rate": 6.848311102728011e-06,
+      "loss": 0.5472,
       "step": 235
     },
     {
+      "epoch": 0.8955223880597015,
+      "grad_norm": 0.1768578492896203,
+      "learning_rate": 6.335844583913515e-06,
+      "loss": 0.5433,
       "step": 240
     },
     {
+      "epoch": 0.914179104477612,
+      "grad_norm": 0.14375585775141816,
+      "learning_rate": 5.904294147118193e-06,
+      "loss": 0.547,
       "step": 245
     },
     {
+      "epoch": 0.9328358208955224,
+      "grad_norm": 0.14507740115855672,
+      "learning_rate": 5.555309722133842e-06,
+      "loss": 0.5436,
       "step": 250
     },
     {
+      "epoch": 0.9514925373134329,
+      "grad_norm": 0.14189135037515943,
+      "learning_rate": 5.290225567370509e-06,
+      "loss": 0.5396,
       "step": 255
     },
     {
+      "epoch": 0.9701492537313433,
+      "grad_norm": 0.15104419515678771,
+      "learning_rate": 5.110055168638854e-06,
+      "loss": 0.5433,
       "step": 260
     },
     {
+      "epoch": 0.9888059701492538,
+      "grad_norm": 0.14422216331517992,
+      "learning_rate": 5.0154873643297575e-06,
+      "loss": 0.547,
       "step": 265
     },
     {
       "epoch": 1.0,
+      "step": 268,
+      "total_flos": 487709642588160.0,
+      "train_loss": 0.5792717831348305,
+      "train_runtime": 20654.3187,
+      "train_samples_per_second": 1.661,
+      "train_steps_per_second": 0.013
     }
   ],
   "logging_steps": 5,
       "attributes": {}
     }
   },
+  "total_flos": 487709642588160.0,
+  "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null
 }