Model save

Browse files

Files changed (4) hide show

README.md +4 -6
all_results.json +4 -9
train_results.json +4 -4
trainer_state.json +912 -928

README.md CHANGED Viewed

@@ -1,16 +1,14 @@
 ---
-datasets: HuggingFaceH4/Bespoke-Stratos-17k
 library_name: transformers
 model_name: Qwen2.5-1.5B-Open-R1-Distill
 tags:
 - generated_from_trainer
-- open-r1
 licence: license
 ---
 # Model Card for Qwen2.5-1.5B-Open-R1-Distill
-This model is a fine-tuned version of [None](https://huggingface.co/None) on the [HuggingFaceH4/Bespoke-Stratos-17k](https://huggingface.co/datasets/HuggingFaceH4/Bespoke-Stratos-17k) dataset.
 It has been trained using [TRL](https://github.com/huggingface/trl).
 ## Quick start
@@ -26,7 +24,7 @@ print(output["generated_text"])
 ## Training procedure
-[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/2741919970-hustvl/huggingface/runs/ibmpuibf)
 This model was trained with SFT.
@@ -35,8 +33,8 @@ This model was trained with SFT.
 - TRL: 0.16.0.dev0
 - Transformers: 4.50.0.dev0
-- Pytorch: 2.5.1
-- Datasets: 3.3.1
 - Tokenizers: 0.21.0
 ## Citations

 ---
 library_name: transformers
 model_name: Qwen2.5-1.5B-Open-R1-Distill
 tags:
 - generated_from_trainer
 licence: license
 ---
 # Model Card for Qwen2.5-1.5B-Open-R1-Distill
+This model is a fine-tuned version of [None](https://huggingface.co/None).
 It has been trained using [TRL](https://github.com/huggingface/trl).
 ## Quick start
 ## Training procedure
+[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/2741919970-hustvl/huggingface/runs/3jcwqhpk)
 This model was trained with SFT.
 - TRL: 0.16.0.dev0
 - Transformers: 4.50.0.dev0
+- Pytorch: 2.6.0
+- Datasets: 3.3.2
 - Tokenizers: 0.21.0
 ## Citations

all_results.json CHANGED Viewed

@@ -1,13 +1,8 @@
 {
-    "eval_loss": 0.9801562428474426,
-    "eval_runtime": 8.4113,
-    "eval_samples": 100,
-    "eval_samples_per_second": 11.889,
-    "eval_steps_per_second": 1.546,
     "total_flos": 0.0,
-    "train_loss": 1.0554086321351157,
-    "train_runtime": 8232.1254,
     "train_samples": 16610,
-    "train_samples_per_second": 2.018,
-    "train_steps_per_second": 0.126
 }

 {
     "total_flos": 0.0,
+    "train_loss": 0.9946218774200528,
+    "train_runtime": 21041.6427,
     "train_samples": 16610,
+    "train_samples_per_second": 1.566,
+    "train_steps_per_second": 0.049
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 1.0554086321351157,
-    "train_runtime": 8232.1254,
     "train_samples": 16610,
-    "train_samples_per_second": 2.018,
-    "train_steps_per_second": 0.126
 }

 {
     "total_flos": 0.0,
+    "train_loss": 0.9946218774200528,
+    "train_runtime": 21041.6427,
     "train_samples": 16610,
+    "train_samples_per_second": 1.566,
+    "train_steps_per_second": 0.049
 }

trainer_state.json CHANGED Viewed

@@ -1,1774 +1,1758 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9997592102094871,
   "eval_steps": 100,
-  "global_step": 1038,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.004815795810257645,
-      "grad_norm": 1.2147226333618164,
-      "learning_rate": 6.930673784291687e-06,
-      "loss": 1.5557,
-      "mean_token_accuracy": 0.630362007021904,
       "step": 5
     },
     {
-      "epoch": 0.00963159162051529,
-      "grad_norm": 0.8979360461235046,
-      "learning_rate": 9.915552514839931e-06,
-      "loss": 1.5975,
-      "mean_token_accuracy": 0.620550400018692,
       "step": 10
     },
     {
-      "epoch": 0.014447387430772935,
-      "grad_norm": 0.6861452460289001,
-      "learning_rate": 1.1661594641410821e-05,
-      "loss": 1.4971,
-      "mean_token_accuracy": 0.6368873298168183,
       "step": 15
     },
     {
-      "epoch": 0.01926318324103058,
-      "grad_norm": 0.6750317215919495,
-      "learning_rate": 1.2900431245388171e-05,
-      "loss": 1.4613,
-      "mean_token_accuracy": 0.6366240382194519,
       "step": 20
     },
     {
-      "epoch": 0.024078979051288224,
-      "grad_norm": 0.6331086158752441,
-      "learning_rate": 1.3861347568583374e-05,
-      "loss": 1.3617,
-      "mean_token_accuracy": 0.6534930646419526,
       "step": 25
     },
     {
-      "epoch": 0.02889477486154587,
-      "grad_norm": 0.6154865622520447,
-      "learning_rate": 1.4646473371959063e-05,
-      "loss": 1.3332,
-      "mean_token_accuracy": 0.6580578774213791,
       "step": 30
     },
     {
-      "epoch": 0.03371057067180352,
-      "grad_norm": 0.546588122844696,
-      "learning_rate": 1.5310287780241346e-05,
-      "loss": 1.3098,
-      "mean_token_accuracy": 0.6614556431770324,
       "step": 35
     },
     {
-      "epoch": 0.03852636648206116,
-      "grad_norm": 0.5029358863830566,
-      "learning_rate": 1.5885309975936413e-05,
-      "loss": 1.2399,
-      "mean_token_accuracy": 0.6782816559076309,
       "step": 40
     },
     {
-      "epoch": 0.043342162292318805,
-      "grad_norm": 0.5402973890304565,
-      "learning_rate": 1.639251549852995e-05,
-      "loss": 1.243,
-      "mean_token_accuracy": 0.6727433562278747,
       "step": 45
     },
     {
-      "epoch": 0.04815795810257645,
-      "grad_norm": 0.4923946261405945,
-      "learning_rate": 1.684622629913162e-05,
-      "loss": 1.211,
-      "mean_token_accuracy": 0.6798111200332642,
       "step": 50
     },
     {
-      "epoch": 0.0529737539128341,
-      "grad_norm": 0.4764332175254822,
-      "learning_rate": 1.7256657642548236e-05,
-      "loss": 1.2481,
-      "mean_token_accuracy": 0.6730508714914322,
       "step": 55
     },
     {
-      "epoch": 0.05778954972309174,
-      "grad_norm": 0.4757765829563141,
-      "learning_rate": 1.76313521025073e-05,
-      "loss": 1.2497,
-      "mean_token_accuracy": 0.6692704439163208,
       "step": 60
     },
     {
-      "epoch": 0.06260534553334939,
-      "grad_norm": 0.4728986918926239,
-      "learning_rate": 1.7976037592646964e-05,
-      "loss": 1.2109,
-      "mean_token_accuracy": 0.6769249439239502,
       "step": 65
     },
     {
-      "epoch": 0.06742114134360704,
-      "grad_norm": 0.44879817962646484,
-      "learning_rate": 1.8295166510789593e-05,
-      "loss": 1.2003,
-      "mean_token_accuracy": 0.6800386220216751,
       "step": 70
     },
     {
-      "epoch": 0.07223693715386467,
-      "grad_norm": 0.4452269971370697,
-      "learning_rate": 1.8592268425702507e-05,
-      "loss": 1.1783,
-      "mean_token_accuracy": 0.6860542267560958,
       "step": 75
     },
     {
-      "epoch": 0.07705273296412232,
-      "grad_norm": 0.4323599636554718,
-      "learning_rate": 1.8870188706484653e-05,
-      "loss": 1.1889,
-      "mean_token_accuracy": 0.6835256606340409,
       "step": 80
     },
     {
-      "epoch": 0.08186852877437997,
-      "grad_norm": 0.5153534412384033,
-      "learning_rate": 1.9131254681046113e-05,
-      "loss": 1.1452,
-      "mean_token_accuracy": 0.6931861788034439,
       "step": 85
     },
     {
-      "epoch": 0.08668432458463761,
-      "grad_norm": 0.48632609844207764,
-      "learning_rate": 1.9377394229078192e-05,
-      "loss": 1.1546,
-      "mean_token_accuracy": 0.6885204911231995,
       "step": 90
     },
     {
-      "epoch": 0.09150012039489526,
-      "grad_norm": 0.46052947640419006,
-      "learning_rate": 1.9610222268080128e-05,
-      "loss": 1.1688,
-      "mean_token_accuracy": 0.6875470966100693,
       "step": 95
     },
     {
-      "epoch": 0.0963159162051529,
-      "grad_norm": 0.4639471471309662,
-      "learning_rate": 1.9831105029679863e-05,
-      "loss": 1.1842,
-      "mean_token_accuracy": 0.6816806256771087,
       "step": 100
     },
     {
-      "epoch": 0.0963159162051529,
-      "eval_loss": 1.1612499952316284,
-      "eval_mean_token_accuracy": 0.6914980319830087,
-      "eval_runtime": 8.642,
-      "eval_samples_per_second": 11.571,
-      "eval_steps_per_second": 1.504,
       "step": 100
     },
     {
-      "epoch": 0.10113171201541055,
-      "grad_norm": 0.4894552528858185,
       "learning_rate": 2e-05,
-      "loss": 1.167,
-      "mean_token_accuracy": 0.6845104664564132,
       "step": 105
     },
     {
-      "epoch": 0.1059475078256682,
-      "grad_norm": 0.4709993004798889,
       "learning_rate": 2e-05,
-      "loss": 1.18,
-      "mean_token_accuracy": 0.683196634054184,
       "step": 110
     },
     {
-      "epoch": 0.11076330363592583,
-      "grad_norm": 0.47942236065864563,
       "learning_rate": 2e-05,
-      "loss": 1.1273,
-      "mean_token_accuracy": 0.6949256509542465,
       "step": 115
     },
     {
-      "epoch": 0.11557909944618348,
-      "grad_norm": 0.48427385091781616,
       "learning_rate": 2e-05,
-      "loss": 1.1286,
-      "mean_token_accuracy": 0.6935882419347763,
       "step": 120
     },
     {
-      "epoch": 0.12039489525644112,
-      "grad_norm": 0.5041924118995667,
       "learning_rate": 2e-05,
-      "loss": 1.1458,
-      "mean_token_accuracy": 0.6929215133190155,
       "step": 125
     },
     {
-      "epoch": 0.12521069106669877,
-      "grad_norm": 0.44542378187179565,
       "learning_rate": 2e-05,
-      "loss": 1.1207,
-      "mean_token_accuracy": 0.6961991012096405,
       "step": 130
     },
     {
-      "epoch": 0.13002648687695642,
-      "grad_norm": 0.47258466482162476,
       "learning_rate": 2e-05,
-      "loss": 1.0835,
-      "mean_token_accuracy": 0.7047353446483612,
       "step": 135
     },
     {
-      "epoch": 0.13484228268721407,
-      "grad_norm": 0.4928162097930908,
       "learning_rate": 2e-05,
-      "loss": 1.1012,
-      "mean_token_accuracy": 0.6981151014566421,
       "step": 140
     },
     {
-      "epoch": 0.1396580784974717,
-      "grad_norm": 0.47707924246788025,
       "learning_rate": 2e-05,
-      "loss": 1.1487,
-      "mean_token_accuracy": 0.6873587876558304,
       "step": 145
     },
     {
-      "epoch": 0.14447387430772934,
-      "grad_norm": 0.4788207709789276,
       "learning_rate": 2e-05,
-      "loss": 1.1288,
-      "mean_token_accuracy": 0.6957270383834839,
       "step": 150
     },
     {
-      "epoch": 0.149289670117987,
-      "grad_norm": 0.4736686050891876,
       "learning_rate": 2e-05,
-      "loss": 1.1175,
-      "mean_token_accuracy": 0.6955223828554153,
       "step": 155
     },
     {
-      "epoch": 0.15410546592824464,
-      "grad_norm": 0.46731919050216675,
       "learning_rate": 2e-05,
-      "loss": 1.0898,
-      "mean_token_accuracy": 0.7016006588935852,
       "step": 160
     },
     {
-      "epoch": 0.1589212617385023,
-      "grad_norm": 0.46417754888534546,
       "learning_rate": 2e-05,
-      "loss": 1.1243,
-      "mean_token_accuracy": 0.6959028095006943,
       "step": 165
     },
     {
-      "epoch": 0.16373705754875995,
-      "grad_norm": 0.4850030839443207,
       "learning_rate": 2e-05,
-      "loss": 1.113,
-      "mean_token_accuracy": 0.6952222913503647,
       "step": 170
     },
     {
-      "epoch": 0.16855285335901757,
-      "grad_norm": 0.47516992688179016,
       "learning_rate": 2e-05,
-      "loss": 1.1213,
-      "mean_token_accuracy": 0.6963592380285263,
       "step": 175
     },
     {
-      "epoch": 0.17336864916927522,
-      "grad_norm": 0.4773334860801697,
       "learning_rate": 2e-05,
-      "loss": 1.1026,
-      "mean_token_accuracy": 0.7007035493850708,
       "step": 180
     },
     {
-      "epoch": 0.17818444497953287,
-      "grad_norm": 0.4331914484500885,
       "learning_rate": 2e-05,
-      "loss": 1.0891,
-      "mean_token_accuracy": 0.7041437685489654,
       "step": 185
     },
     {
-      "epoch": 0.18300024078979052,
-      "grad_norm": 0.4739309847354889,
       "learning_rate": 2e-05,
-      "loss": 1.0904,
-      "mean_token_accuracy": 0.7006603956222535,
       "step": 190
     },
     {
-      "epoch": 0.18781603660004817,
-      "grad_norm": 0.5098666548728943,
       "learning_rate": 2e-05,
-      "loss": 1.09,
-      "mean_token_accuracy": 0.7024506121873856,
       "step": 195
     },
     {
-      "epoch": 0.1926318324103058,
-      "grad_norm": 0.47458314895629883,
       "learning_rate": 2e-05,
-      "loss": 1.0966,
-      "mean_token_accuracy": 0.6993225693702698,
       "step": 200
     },
     {
-      "epoch": 0.1926318324103058,
-      "eval_loss": 1.1015625,
-      "eval_mean_token_accuracy": 0.7014527458410996,
-      "eval_runtime": 8.6243,
-      "eval_samples_per_second": 11.595,
-      "eval_steps_per_second": 1.507,
       "step": 200
     },
     {
-      "epoch": 0.19744762822056344,
-      "grad_norm": 0.4341985285282135,
       "learning_rate": 2e-05,
-      "loss": 1.0608,
-      "mean_token_accuracy": 0.7089000910520553,
       "step": 205
     },
     {
-      "epoch": 0.2022634240308211,
-      "grad_norm": 0.4928109645843506,
       "learning_rate": 2e-05,
-      "loss": 1.1052,
-      "mean_token_accuracy": 0.6985082745552063,
       "step": 210
     },
     {
-      "epoch": 0.20707921984107874,
-      "grad_norm": 0.4761582314968109,
       "learning_rate": 2e-05,
-      "loss": 1.0525,
-      "mean_token_accuracy": 0.709627678990364,
       "step": 215
     },
     {
-      "epoch": 0.2118950156513364,
-      "grad_norm": 0.48992499709129333,
       "learning_rate": 2e-05,
-      "loss": 1.0987,
-      "mean_token_accuracy": 0.7000472754240036,
       "step": 220
     },
     {
-      "epoch": 0.21671081146159402,
-      "grad_norm": 0.4606421887874603,
       "learning_rate": 2e-05,
-      "loss": 1.1326,
-      "mean_token_accuracy": 0.6904013842344284,
       "step": 225
     },
     {
-      "epoch": 0.22152660727185167,
-      "grad_norm": 0.4784524738788605,
       "learning_rate": 2e-05,
-      "loss": 1.0829,
-      "mean_token_accuracy": 0.7019407242536545,
       "step": 230
     },
     {
-      "epoch": 0.22634240308210932,
-      "grad_norm": 0.4791426360607147,
       "learning_rate": 2e-05,
-      "loss": 1.0741,
-      "mean_token_accuracy": 0.7062644183635711,
       "step": 235
     },
     {
-      "epoch": 0.23115819889236697,
-      "grad_norm": 0.5347750186920166,
       "learning_rate": 2e-05,
-      "loss": 1.0513,
-      "mean_token_accuracy": 0.7106054097414016,
       "step": 240
     },
     {
-      "epoch": 0.23597399470262462,
-      "grad_norm": 0.5430010557174683,
       "learning_rate": 2e-05,
-      "loss": 1.0813,
-      "mean_token_accuracy": 0.7051879912614822,
       "step": 245
     },
     {
-      "epoch": 0.24078979051288224,
-      "grad_norm": 0.5055649876594543,
       "learning_rate": 2e-05,
-      "loss": 1.0936,
-      "mean_token_accuracy": 0.7014876544475556,
       "step": 250
     },
     {
-      "epoch": 0.2456055863231399,
-      "grad_norm": 0.4852530360221863,
       "learning_rate": 2e-05,
-      "loss": 1.0804,
-      "mean_token_accuracy": 0.7026357978582383,
       "step": 255
     },
     {
-      "epoch": 0.25042138213339754,
-      "grad_norm": 0.5060104727745056,
       "learning_rate": 2e-05,
-      "loss": 1.0673,
-      "mean_token_accuracy": 0.7043526142835617,
       "step": 260
     },
     {
-      "epoch": 0.2552371779436552,
-      "grad_norm": 0.4761098027229309,
       "learning_rate": 2e-05,
-      "loss": 1.074,
-      "mean_token_accuracy": 0.7045256137847901,
       "step": 265
     },
     {
-      "epoch": 0.26005297375391284,
-      "grad_norm": 0.47418275475502014,
       "learning_rate": 2e-05,
-      "loss": 1.0739,
-      "mean_token_accuracy": 0.7012639313936233,
       "step": 270
     },
     {
-      "epoch": 0.2648687695641705,
-      "grad_norm": 0.4582968056201935,
       "learning_rate": 2e-05,
-      "loss": 1.0838,
-      "mean_token_accuracy": 0.7021653652191162,
       "step": 275
     },
     {
-      "epoch": 0.26968456537442814,
-      "grad_norm": 0.47323882579803467,
       "learning_rate": 2e-05,
-      "loss": 1.0757,
-      "mean_token_accuracy": 0.7021588802337646,
       "step": 280
     },
     {
-      "epoch": 0.2745003611846858,
-      "grad_norm": 0.47690513730049133,
       "learning_rate": 2e-05,
-      "loss": 1.09,
-      "mean_token_accuracy": 0.7010543704032898,
       "step": 285
     },
     {
-      "epoch": 0.2793161569949434,
-      "grad_norm": 0.5104436278343201,
       "learning_rate": 2e-05,
-      "loss": 1.0699,
-      "mean_token_accuracy": 0.7045444875955582,
       "step": 290
     },
     {
-      "epoch": 0.28413195280520104,
-      "grad_norm": 0.46935001015663147,
       "learning_rate": 2e-05,
-      "loss": 1.0901,
-      "mean_token_accuracy": 0.6992536067962647,
       "step": 295
     },
     {
-      "epoch": 0.2889477486154587,
-      "grad_norm": 0.4757845401763916,
       "learning_rate": 2e-05,
-      "loss": 1.051,
-      "mean_token_accuracy": 0.7108464986085892,
       "step": 300
     },
     {
-      "epoch": 0.2889477486154587,
-      "eval_loss": 1.0712499618530273,
-      "eval_mean_token_accuracy": 0.7071489003988413,
-      "eval_runtime": 8.6239,
-      "eval_samples_per_second": 11.596,
-      "eval_steps_per_second": 1.507,
       "step": 300
     },
     {
-      "epoch": 0.29376354442571634,
-      "grad_norm": 0.46388521790504456,
       "learning_rate": 2e-05,
-      "loss": 1.0548,
-      "mean_token_accuracy": 0.7095113962888717,
       "step": 305
     },
     {
-      "epoch": 0.298579340235974,
-      "grad_norm": 0.48812395334243774,
       "learning_rate": 2e-05,
-      "loss": 1.0941,
-      "mean_token_accuracy": 0.6993561059236526,
       "step": 310
     },
     {
-      "epoch": 0.30339513604623164,
-      "grad_norm": 0.42772531509399414,
       "learning_rate": 2e-05,
-      "loss": 1.0995,
-      "mean_token_accuracy": 0.6970925956964493,
       "step": 315
     },
     {
-      "epoch": 0.3082109318564893,
-      "grad_norm": 0.4491855800151825,
       "learning_rate": 2e-05,
-      "loss": 1.1388,
-      "mean_token_accuracy": 0.6878453463315963,
       "step": 320
     },
     {
-      "epoch": 0.31302672766674694,
-      "grad_norm": 0.4632098376750946,
       "learning_rate": 2e-05,
-      "loss": 1.0551,
-      "mean_token_accuracy": 0.7084896057844162,
       "step": 325
     },
     {
-      "epoch": 0.3178425234770046,
-      "grad_norm": 0.5304334759712219,
       "learning_rate": 2e-05,
-      "loss": 1.0636,
-      "mean_token_accuracy": 0.706383016705513,
       "step": 330
     },
     {
-      "epoch": 0.32265831928726224,
-      "grad_norm": 0.45156118273735046,
       "learning_rate": 2e-05,
-      "loss": 1.0381,
-      "mean_token_accuracy": 0.7106526464223861,
       "step": 335
     },
     {
-      "epoch": 0.3274741150975199,
-      "grad_norm": 0.4394085705280304,
       "learning_rate": 2e-05,
-      "loss": 1.0858,
-      "mean_token_accuracy": 0.7021456390619278,
       "step": 340
     },
     {
-      "epoch": 0.3322899109077775,
-      "grad_norm": 0.45397478342056274,
       "learning_rate": 2e-05,
-      "loss": 1.034,
-      "mean_token_accuracy": 0.7121325343847275,
       "step": 345
     },
     {
-      "epoch": 0.33710570671803514,
-      "grad_norm": 0.4641047418117523,
       "learning_rate": 2e-05,
-      "loss": 1.025,
-      "mean_token_accuracy": 0.7169907033443451,
       "step": 350
     },
     {
-      "epoch": 0.3419215025282928,
-      "grad_norm": 0.4733441174030304,
       "learning_rate": 2e-05,
-      "loss": 1.0207,
-      "mean_token_accuracy": 0.7163655549287796,
       "step": 355
     },
     {
-      "epoch": 0.34673729833855044,
-      "grad_norm": 0.49704018235206604,
       "learning_rate": 2e-05,
-      "loss": 1.0638,
-      "mean_token_accuracy": 0.7053900867700577,
       "step": 360
     },
     {
-      "epoch": 0.3515530941488081,
-      "grad_norm": 0.4795050024986267,
       "learning_rate": 2e-05,
-      "loss": 1.0723,
-      "mean_token_accuracy": 0.7046771228313446,
       "step": 365
     },
     {
-      "epoch": 0.35636888995906574,
-      "grad_norm": 0.4925204813480377,
       "learning_rate": 2e-05,
-      "loss": 1.0333,
-      "mean_token_accuracy": 0.7136953860521317,
       "step": 370
     },
     {
-      "epoch": 0.3611846857693234,
-      "grad_norm": 0.4750489294528961,
       "learning_rate": 2e-05,
-      "loss": 1.0482,
-      "mean_token_accuracy": 0.7103820770978928,
       "step": 375
     },
     {
-      "epoch": 0.36600048157958104,
-      "grad_norm": 0.48978808522224426,
       "learning_rate": 2e-05,
-      "loss": 1.0436,
-      "mean_token_accuracy": 0.7093423455953598,
       "step": 380
     },
     {
-      "epoch": 0.3708162773898387,
-      "grad_norm": 0.5102350115776062,
       "learning_rate": 2e-05,
-      "loss": 1.0036,
-      "mean_token_accuracy": 0.7225006580352783,
       "step": 385
     },
     {
-      "epoch": 0.37563207320009634,
-      "grad_norm": 0.4660072922706604,
       "learning_rate": 2e-05,
-      "loss": 1.063,
-      "mean_token_accuracy": 0.7056207448244095,
       "step": 390
     },
     {
-      "epoch": 0.38044786901035393,
-      "grad_norm": 0.45591866970062256,
       "learning_rate": 2e-05,
-      "loss": 1.0513,
-      "mean_token_accuracy": 0.7092340558767318,
       "step": 395
     },
     {
-      "epoch": 0.3852636648206116,
-      "grad_norm": 0.4969187378883362,
       "learning_rate": 2e-05,
-      "loss": 1.024,
-      "mean_token_accuracy": 0.7148027062416077,
       "step": 400
     },
     {
-      "epoch": 0.3852636648206116,
-      "eval_loss": 1.050937533378601,
-      "eval_mean_token_accuracy": 0.7114615348669199,
-      "eval_runtime": 8.565,
-      "eval_samples_per_second": 11.675,
-      "eval_steps_per_second": 1.518,
       "step": 400
     },
     {
-      "epoch": 0.39007946063086923,
-      "grad_norm": 0.49762463569641113,
       "learning_rate": 2e-05,
-      "loss": 1.0973,
-      "mean_token_accuracy": 0.6980582684278488,
       "step": 405
     },
     {
-      "epoch": 0.3948952564411269,
-      "grad_norm": 0.47561171650886536,
       "learning_rate": 2e-05,
-      "loss": 1.0179,
-      "mean_token_accuracy": 0.7156326770782471,
       "step": 410
     },
     {
-      "epoch": 0.39971105225138454,
-      "grad_norm": 0.47592732310295105,
       "learning_rate": 2e-05,
-      "loss": 1.076,
-      "mean_token_accuracy": 0.7023025274276733,
       "step": 415
     },
     {
-      "epoch": 0.4045268480616422,
-      "grad_norm": 0.4640940725803375,
       "learning_rate": 2e-05,
-      "loss": 1.038,
-      "mean_token_accuracy": 0.7106958746910095,
       "step": 420
     },
     {
-      "epoch": 0.40934264387189984,
-      "grad_norm": 0.4999053478240967,
       "learning_rate": 2e-05,
-      "loss": 1.0565,
-      "mean_token_accuracy": 0.7072661310434342,
       "step": 425
     },
     {
-      "epoch": 0.4141584396821575,
-      "grad_norm": 0.4585224390029907,
       "learning_rate": 2e-05,
-      "loss": 1.0373,
-      "mean_token_accuracy": 0.710054212808609,
       "step": 430
     },
     {
-      "epoch": 0.41897423549241514,
-      "grad_norm": 0.4704591631889343,
       "learning_rate": 2e-05,
-      "loss": 1.0255,
-      "mean_token_accuracy": 0.7148306041955947,
       "step": 435
     },
     {
-      "epoch": 0.4237900313026728,
-      "grad_norm": 0.4596955478191376,
       "learning_rate": 2e-05,
-      "loss": 1.0681,
-      "mean_token_accuracy": 0.7043379992246628,
       "step": 440
     },
     {
-      "epoch": 0.42860582711293044,
-      "grad_norm": 0.502312958240509,
       "learning_rate": 2e-05,
-      "loss": 1.0014,
-      "mean_token_accuracy": 0.7187342494726181,
       "step": 445
     },
     {
-      "epoch": 0.43342162292318803,
-      "grad_norm": 0.503431499004364,
       "learning_rate": 2e-05,
-      "loss": 1.0492,
-      "mean_token_accuracy": 0.7069419741630554,
       "step": 450
     },
     {
-      "epoch": 0.4382374187334457,
-      "grad_norm": 0.5078609585762024,
       "learning_rate": 2e-05,
-      "loss": 1.0445,
-      "mean_token_accuracy": 0.7107535511255264,
       "step": 455
     },
     {
-      "epoch": 0.44305321454370333,
-      "grad_norm": 0.492558091878891,
       "learning_rate": 2e-05,
-      "loss": 1.0243,
-      "mean_token_accuracy": 0.7159764289855957,
       "step": 460
     },
     {
-      "epoch": 0.447869010353961,
-      "grad_norm": 0.46418413519859314,
       "learning_rate": 2e-05,
-      "loss": 1.0096,
-      "mean_token_accuracy": 0.7168796956539154,
       "step": 465
     },
     {
-      "epoch": 0.45268480616421863,
-      "grad_norm": 0.44123366475105286,
       "learning_rate": 2e-05,
-      "loss": 1.0108,
-      "mean_token_accuracy": 0.7186406791210175,
       "step": 470
     },
     {
-      "epoch": 0.4575006019744763,
-      "grad_norm": 0.4705427885055542,
       "learning_rate": 2e-05,
-      "loss": 1.0173,
-      "mean_token_accuracy": 0.7164324700832367,
       "step": 475
     },
     {
-      "epoch": 0.46231639778473393,
-      "grad_norm": 0.43676939606666565,
       "learning_rate": 2e-05,
-      "loss": 1.0316,
-      "mean_token_accuracy": 0.7118833988904953,
       "step": 480
     },
     {
-      "epoch": 0.4671321935949916,
-      "grad_norm": 0.4746619164943695,
       "learning_rate": 2e-05,
-      "loss": 1.0304,
-      "mean_token_accuracy": 0.712785804271698,
       "step": 485
     },
     {
-      "epoch": 0.47194798940524924,
-      "grad_norm": 0.4496391713619232,
       "learning_rate": 2e-05,
-      "loss": 1.0064,
-      "mean_token_accuracy": 0.7193306088447571,
       "step": 490
     },
     {
-      "epoch": 0.4767637852155069,
-      "grad_norm": 0.4668291211128235,
       "learning_rate": 2e-05,
-      "loss": 1.0087,
-      "mean_token_accuracy": 0.717681935429573,
       "step": 495
     },
     {
-      "epoch": 0.4815795810257645,
-      "grad_norm": 0.49410480260849,
       "learning_rate": 2e-05,
-      "loss": 0.9928,
-      "mean_token_accuracy": 0.7212499767541886,
       "step": 500
     },
     {
-      "epoch": 0.4815795810257645,
-      "eval_loss": 1.0334374904632568,
-      "eval_mean_token_accuracy": 0.7148144520246066,
-      "eval_runtime": 8.5672,
-      "eval_samples_per_second": 11.672,
-      "eval_steps_per_second": 1.517,
       "step": 500
     },
     {
-      "epoch": 0.48639537683602213,
-      "grad_norm": 0.4331699311733246,
       "learning_rate": 2e-05,
-      "loss": 1.0531,
-      "mean_token_accuracy": 0.7062293201684952,
       "step": 505
     },
     {
-      "epoch": 0.4912111726462798,
-      "grad_norm": 0.4359816312789917,
       "learning_rate": 2e-05,
-      "loss": 1.0122,
-      "mean_token_accuracy": 0.7192949712276459,
       "step": 510
     },
     {
-      "epoch": 0.49602696845653743,
-      "grad_norm": 0.5358240008354187,
       "learning_rate": 2e-05,
-      "loss": 1.0434,
-      "mean_token_accuracy": 0.7085084766149521,
       "step": 515
     },
     {
-      "epoch": 0.5008427642667951,
-      "grad_norm": 0.4746890366077423,
       "learning_rate": 2e-05,
-      "loss": 1.0096,
-      "mean_token_accuracy": 0.716804152727127,
       "step": 520
     },
     {
-      "epoch": 0.5056585600770528,
-      "grad_norm": 0.48278114199638367,
       "learning_rate": 2e-05,
-      "loss": 0.9902,
-      "mean_token_accuracy": 0.7223504304885864,
       "step": 525
     },
     {
-      "epoch": 0.5104743558873104,
-      "grad_norm": 0.49195483326911926,
       "learning_rate": 2e-05,
-      "loss": 1.018,
-      "mean_token_accuracy": 0.716482064127922,
       "step": 530
     },
     {
-      "epoch": 0.515290151697568,
-      "grad_norm": 0.47295352816581726,
       "learning_rate": 2e-05,
-      "loss": 1.0475,
-      "mean_token_accuracy": 0.7076182216405869,
       "step": 535
     },
     {
-      "epoch": 0.5201059475078257,
-      "grad_norm": 0.4583546221256256,
       "learning_rate": 2e-05,
-      "loss": 1.0188,
-      "mean_token_accuracy": 0.7161876708269119,
       "step": 540
     },
     {
-      "epoch": 0.5249217433180833,
-      "grad_norm": 0.4691885709762573,
       "learning_rate": 2e-05,
-      "loss": 1.0316,
-      "mean_token_accuracy": 0.7126393973827362,
       "step": 545
     },
     {
-      "epoch": 0.529737539128341,
-      "grad_norm": 0.5013365149497986,
       "learning_rate": 2e-05,
-      "loss": 0.9992,
-      "mean_token_accuracy": 0.7188058078289032,
       "step": 550
     },
     {
-      "epoch": 0.5345533349385986,
-      "grad_norm": 0.4390871822834015,
       "learning_rate": 2e-05,
-      "loss": 1.0112,
-      "mean_token_accuracy": 0.7182704269886017,
       "step": 555
     },
     {
-      "epoch": 0.5393691307488563,
-      "grad_norm": 0.4545508027076721,
       "learning_rate": 2e-05,
-      "loss": 1.0161,
-      "mean_token_accuracy": 0.7146501332521439,
       "step": 560
     },
     {
-      "epoch": 0.5441849265591139,
-      "grad_norm": 0.46719858050346375,
       "learning_rate": 2e-05,
-      "loss": 1.0514,
-      "mean_token_accuracy": 0.7060492634773254,
       "step": 565
     },
     {
-      "epoch": 0.5490007223693716,
-      "grad_norm": 0.4321208596229553,
       "learning_rate": 2e-05,
-      "loss": 0.9971,
-      "mean_token_accuracy": 0.7195345431566238,
       "step": 570
     },
     {
-      "epoch": 0.5538165181796292,
-      "grad_norm": 0.4826374053955078,
       "learning_rate": 2e-05,
-      "loss": 1.0532,
-      "mean_token_accuracy": 0.7067425459623337,
       "step": 575
     },
     {
-      "epoch": 0.5586323139898868,
-      "grad_norm": 0.48376429080963135,
       "learning_rate": 2e-05,
-      "loss": 0.9979,
-      "mean_token_accuracy": 0.7204372942447662,
       "step": 580
     },
     {
-      "epoch": 0.5634481098001445,
-      "grad_norm": 0.5080297589302063,
       "learning_rate": 2e-05,
-      "loss": 1.0432,
-      "mean_token_accuracy": 0.7083571314811706,
       "step": 585
     },
     {
-      "epoch": 0.5682639056104021,
-      "grad_norm": 0.4134162664413452,
       "learning_rate": 2e-05,
-      "loss": 1.0107,
-      "mean_token_accuracy": 0.7153516292572022,
       "step": 590
     },
     {
-      "epoch": 0.5730797014206598,
-      "grad_norm": 0.45565879344940186,
       "learning_rate": 2e-05,
-      "loss": 1.0531,
-      "mean_token_accuracy": 0.7076080977916718,
       "step": 595
     },
     {
-      "epoch": 0.5778954972309174,
-      "grad_norm": 0.49836477637290955,
       "learning_rate": 2e-05,
-      "loss": 1.0051,
-      "mean_token_accuracy": 0.7182355552911759,
       "step": 600
     },
     {
-      "epoch": 0.5778954972309174,
-      "eval_loss": 1.0204687118530273,
-      "eval_mean_token_accuracy": 0.7171955704689026,
-      "eval_runtime": 8.482,
-      "eval_samples_per_second": 11.79,
-      "eval_steps_per_second": 1.533,
       "step": 600
     },
     {
-      "epoch": 0.5827112930411751,
-      "grad_norm": 0.46696388721466064,
       "learning_rate": 2e-05,
-      "loss": 1.0366,
-      "mean_token_accuracy": 0.7119109451770782,
       "step": 605
     },
     {
-      "epoch": 0.5875270888514327,
-      "grad_norm": 0.4734061062335968,
       "learning_rate": 2e-05,
-      "loss": 1.0322,
-      "mean_token_accuracy": 0.7130448073148727,
       "step": 610
     },
     {
-      "epoch": 0.5923428846616904,
-      "grad_norm": 0.4501568078994751,
       "learning_rate": 2e-05,
-      "loss": 0.9959,
-      "mean_token_accuracy": 0.7202717989683152,
       "step": 615
     },
     {
-      "epoch": 0.597158680471948,
-      "grad_norm": 0.46749380230903625,
       "learning_rate": 2e-05,
-      "loss": 1.0644,
-      "mean_token_accuracy": 0.7030862450599671,
       "step": 620
     },
     {
-      "epoch": 0.6019744762822057,
-      "grad_norm": 0.4468248784542084,
       "learning_rate": 2e-05,
-      "loss": 0.9866,
-      "mean_token_accuracy": 0.7225469410419464,
       "step": 625
     },
     {
-      "epoch": 0.6067902720924633,
-      "grad_norm": 0.47491517663002014,
       "learning_rate": 2e-05,
-      "loss": 1.0006,
-      "mean_token_accuracy": 0.7195418655872345,
       "step": 630
     },
     {
-      "epoch": 0.6116060679027209,
-      "grad_norm": 0.46158623695373535,
       "learning_rate": 2e-05,
-      "loss": 1.0398,
-      "mean_token_accuracy": 0.7092684119939804,
       "step": 635
     },
     {
-      "epoch": 0.6164218637129786,
-      "grad_norm": 0.4365028738975525,
       "learning_rate": 2e-05,
-      "loss": 1.0264,
-      "mean_token_accuracy": 0.7130223363637924,
       "step": 640
     },
     {
-      "epoch": 0.6212376595232362,
-      "grad_norm": 0.49602553248405457,
       "learning_rate": 2e-05,
-      "loss": 1.0078,
-      "mean_token_accuracy": 0.7170433759689331,
       "step": 645
     },
     {
-      "epoch": 0.6260534553334939,
-      "grad_norm": 0.4484293758869171,
       "learning_rate": 2e-05,
-      "loss": 1.0257,
-      "mean_token_accuracy": 0.7127807974815369,
       "step": 650
     },
     {
-      "epoch": 0.6308692511437515,
-      "grad_norm": 0.544967532157898,
       "learning_rate": 2e-05,
-      "loss": 1.0318,
-      "mean_token_accuracy": 0.7124882370233536,
       "step": 655
     },
     {
-      "epoch": 0.6356850469540092,
-      "grad_norm": 0.49626436829566956,
       "learning_rate": 2e-05,
-      "loss": 1.0418,
-      "mean_token_accuracy": 0.7077222436666488,
       "step": 660
     },
     {
-      "epoch": 0.6405008427642668,
-      "grad_norm": 0.43986326456069946,
       "learning_rate": 2e-05,
-      "loss": 0.9766,
-      "mean_token_accuracy": 0.7237329006195068,
       "step": 665
     },
     {
-      "epoch": 0.6453166385745245,
-      "grad_norm": 0.48558539152145386,
       "learning_rate": 2e-05,
-      "loss": 1.0335,
-      "mean_token_accuracy": 0.7114945560693741,
       "step": 670
     },
     {
-      "epoch": 0.6501324343847821,
-      "grad_norm": 0.4739987552165985,
       "learning_rate": 2e-05,
-      "loss": 0.9827,
-      "mean_token_accuracy": 0.7252886116504669,
       "step": 675
     },
     {
-      "epoch": 0.6549482301950398,
-      "grad_norm": 0.469598650932312,
       "learning_rate": 2e-05,
-      "loss": 1.0184,
-      "mean_token_accuracy": 0.7135869711637497,
       "step": 680
     },
     {
-      "epoch": 0.6597640260052974,
-      "grad_norm": 0.44300341606140137,
       "learning_rate": 2e-05,
-      "loss": 0.9925,
-      "mean_token_accuracy": 0.7203141242265702,
       "step": 685
     },
     {
-      "epoch": 0.664579821815555,
-      "grad_norm": 0.4621056318283081,
       "learning_rate": 2e-05,
-      "loss": 1.0253,
-      "mean_token_accuracy": 0.7131445229053497,
       "step": 690
     },
     {
-      "epoch": 0.6693956176258127,
-      "grad_norm": 0.4649716913700104,
       "learning_rate": 2e-05,
-      "loss": 1.0125,
-      "mean_token_accuracy": 0.7149119585752487,
       "step": 695
     },
     {
-      "epoch": 0.6742114134360703,
-      "grad_norm": 0.49358126521110535,
       "learning_rate": 2e-05,
-      "loss": 1.0136,
-      "mean_token_accuracy": 0.7160834163427353,
       "step": 700
     },
     {
-      "epoch": 0.6742114134360703,
-      "eval_loss": 1.0096875429153442,
-      "eval_mean_token_accuracy": 0.7198267166431134,
-      "eval_runtime": 8.6585,
-      "eval_samples_per_second": 11.549,
-      "eval_steps_per_second": 1.501,
       "step": 700
     },
     {
-      "epoch": 0.679027209246328,
-      "grad_norm": 0.4873298406600952,
       "learning_rate": 2e-05,
-      "loss": 1.0203,
-      "mean_token_accuracy": 0.7126143038272857,
       "step": 705
     },
     {
-      "epoch": 0.6838430050565856,
-      "grad_norm": 0.4695189893245697,
       "learning_rate": 2e-05,
-      "loss": 1.0062,
-      "mean_token_accuracy": 0.7176679968833923,
       "step": 710
     },
     {
-      "epoch": 0.6886588008668433,
-      "grad_norm": 0.46720319986343384,
       "learning_rate": 2e-05,
-      "loss": 1.0077,
-      "mean_token_accuracy": 0.7165515303611756,
       "step": 715
     },
     {
-      "epoch": 0.6934745966771009,
-      "grad_norm": 0.4640096426010132,
       "learning_rate": 2e-05,
-      "loss": 1.0396,
-      "mean_token_accuracy": 0.7095631629228591,
       "step": 720
     },
     {
-      "epoch": 0.6982903924873586,
-      "grad_norm": 0.4294661283493042,
       "learning_rate": 2e-05,
-      "loss": 1.0619,
-      "mean_token_accuracy": 0.7026620030403137,
       "step": 725
     },
     {
-      "epoch": 0.7031061882976162,
-      "grad_norm": 0.4739510416984558,
       "learning_rate": 2e-05,
-      "loss": 0.9951,
-      "mean_token_accuracy": 0.7200070083141327,
       "step": 730
     },
     {
-      "epoch": 0.7079219841078739,
-      "grad_norm": 0.492569237947464,
       "learning_rate": 2e-05,
-      "loss": 1.0022,
-      "mean_token_accuracy": 0.7179245352745056,
       "step": 735
     },
     {
-      "epoch": 0.7127377799181315,
-      "grad_norm": 0.48600509762763977,
       "learning_rate": 2e-05,
-      "loss": 1.0159,
-      "mean_token_accuracy": 0.7153581887483597,
       "step": 740
     },
     {
-      "epoch": 0.7175535757283891,
-      "grad_norm": 0.5048158764839172,
       "learning_rate": 2e-05,
-      "loss": 0.9899,
-      "mean_token_accuracy": 0.7200082540512085,
       "step": 745
     },
     {
-      "epoch": 0.7223693715386468,
-      "grad_norm": 0.4951934516429901,
       "learning_rate": 2e-05,
-      "loss": 0.9982,
-      "mean_token_accuracy": 0.7204364091157913,
       "step": 750
     },
     {
-      "epoch": 0.7271851673489044,
-      "grad_norm": 0.49931296706199646,
       "learning_rate": 2e-05,
-      "loss": 0.998,
-      "mean_token_accuracy": 0.7174190193414688,
       "step": 755
     },
     {
-      "epoch": 0.7320009631591621,
-      "grad_norm": 0.4547603726387024,
       "learning_rate": 2e-05,
-      "loss": 1.0261,
-      "mean_token_accuracy": 0.7145938724279404,
       "step": 760
     },
     {
-      "epoch": 0.7368167589694197,
-      "grad_norm": 0.43703392148017883,
       "learning_rate": 2e-05,
-      "loss": 0.9416,
-      "mean_token_accuracy": 0.7310493141412735,
       "step": 765
     },
     {
-      "epoch": 0.7416325547796774,
-      "grad_norm": 0.44958263635635376,
       "learning_rate": 2e-05,
-      "loss": 0.9991,
-      "mean_token_accuracy": 0.7186336666345596,
       "step": 770
     },
     {
-      "epoch": 0.746448350589935,
-      "grad_norm": 0.4758422374725342,
       "learning_rate": 2e-05,
-      "loss": 1.0164,
-      "mean_token_accuracy": 0.7137081116437912,
       "step": 775
     },
     {
-      "epoch": 0.7512641464001927,
-      "grad_norm": 0.488331139087677,
       "learning_rate": 2e-05,
-      "loss": 0.9698,
-      "mean_token_accuracy": 0.7264787226915359,
       "step": 780
     },
     {
-      "epoch": 0.7560799422104503,
-      "grad_norm": 0.4642072021961212,
       "learning_rate": 2e-05,
-      "loss": 0.9731,
-      "mean_token_accuracy": 0.7251051425933838,
       "step": 785
     },
     {
-      "epoch": 0.7608957380207079,
-      "grad_norm": 0.4261150360107422,
       "learning_rate": 2e-05,
-      "loss": 1.0072,
-      "mean_token_accuracy": 0.7165987342596054,
       "step": 790
     },
     {
-      "epoch": 0.7657115338309656,
-      "grad_norm": 0.4364739656448364,
       "learning_rate": 2e-05,
-      "loss": 0.9603,
-      "mean_token_accuracy": 0.7281170040369034,
       "step": 795
     },
     {
-      "epoch": 0.7705273296412232,
-      "grad_norm": 0.471077024936676,
       "learning_rate": 2e-05,
-      "loss": 1.0483,
-      "mean_token_accuracy": 0.7061151295900345,
       "step": 800
     },
     {
-      "epoch": 0.7705273296412232,
-      "eval_loss": 1.0003124475479126,
-      "eval_mean_token_accuracy": 0.7220352200361398,
-      "eval_runtime": 8.5998,
-      "eval_samples_per_second": 11.628,
-      "eval_steps_per_second": 1.512,
       "step": 800
     },
     {
-      "epoch": 0.7753431254514809,
-      "grad_norm": 0.4885280728340149,
       "learning_rate": 2e-05,
-      "loss": 1.0073,
-      "mean_token_accuracy": 0.7162327229976654,
       "step": 805
     },
     {
-      "epoch": 0.7801589212617385,
-      "grad_norm": 0.5416684746742249,
       "learning_rate": 2e-05,
-      "loss": 1.0244,
-      "mean_token_accuracy": 0.7137985616922379,
       "step": 810
     },
     {
-      "epoch": 0.7849747170719962,
-      "grad_norm": 0.47809484601020813,
       "learning_rate": 2e-05,
-      "loss": 1.0041,
-      "mean_token_accuracy": 0.7155015915632248,
       "step": 815
     },
     {
-      "epoch": 0.7897905128822538,
-      "grad_norm": 0.4929503798484802,
       "learning_rate": 2e-05,
-      "loss": 0.9961,
-      "mean_token_accuracy": 0.7197568088769912,
       "step": 820
     },
     {
-      "epoch": 0.7946063086925115,
-      "grad_norm": 0.442008912563324,
       "learning_rate": 2e-05,
-      "loss": 0.9856,
-      "mean_token_accuracy": 0.7208785116672516,
       "step": 825
     },
     {
-      "epoch": 0.7994221045027691,
-      "grad_norm": 0.4885089099407196,
       "learning_rate": 2e-05,
-      "loss": 0.9814,
-      "mean_token_accuracy": 0.7215597033500671,
       "step": 830
     },
     {
-      "epoch": 0.8042379003130268,
-      "grad_norm": 0.4534910023212433,
       "learning_rate": 2e-05,
-      "loss": 0.971,
-      "mean_token_accuracy": 0.7238455027341842,
       "step": 835
     },
     {
-      "epoch": 0.8090536961232844,
-      "grad_norm": 0.4507865011692047,
       "learning_rate": 2e-05,
-      "loss": 0.9817,
-      "mean_token_accuracy": 0.7246822834014892,
       "step": 840
     },
     {
-      "epoch": 0.813869491933542,
-      "grad_norm": 0.4892081618309021,
       "learning_rate": 2e-05,
-      "loss": 1.0188,
-      "mean_token_accuracy": 0.7129034757614136,
       "step": 845
     },
     {
-      "epoch": 0.8186852877437997,
-      "grad_norm": 0.45840218663215637,
       "learning_rate": 2e-05,
-      "loss": 1.001,
-      "mean_token_accuracy": 0.7185318768024445,
       "step": 850
     },
     {
-      "epoch": 0.8235010835540573,
-      "grad_norm": 0.4619063436985016,
       "learning_rate": 2e-05,
-      "loss": 0.9486,
-      "mean_token_accuracy": 0.7325035721063614,
       "step": 855
     },
     {
-      "epoch": 0.828316879364315,
-      "grad_norm": 0.44516247510910034,
       "learning_rate": 2e-05,
-      "loss": 1.0055,
-      "mean_token_accuracy": 0.7171078979969024,
       "step": 860
     },
     {
-      "epoch": 0.8331326751745726,
-      "grad_norm": 0.5152034163475037,
       "learning_rate": 2e-05,
-      "loss": 1.026,
-      "mean_token_accuracy": 0.7162949174642563,
       "step": 865
     },
     {
-      "epoch": 0.8379484709848303,
-      "grad_norm": 0.4782991111278534,
       "learning_rate": 2e-05,
-      "loss": 0.9898,
-      "mean_token_accuracy": 0.7220347046852111,
       "step": 870
     },
     {
-      "epoch": 0.8427642667950879,
-      "grad_norm": 0.43797022104263306,
       "learning_rate": 2e-05,
-      "loss": 0.973,
-      "mean_token_accuracy": 0.7254473388195037,
       "step": 875
     },
     {
-      "epoch": 0.8475800626053456,
-      "grad_norm": 0.42285850644111633,
       "learning_rate": 2e-05,
-      "loss": 0.948,
-      "mean_token_accuracy": 0.7321132332086563,
       "step": 880
     },
     {
-      "epoch": 0.8523958584156032,
-      "grad_norm": 0.4795195460319519,
       "learning_rate": 2e-05,
-      "loss": 1.0138,
-      "mean_token_accuracy": 0.7152723044157028,
       "step": 885
     },
     {
-      "epoch": 0.8572116542258609,
-      "grad_norm": 0.4528616666793823,
       "learning_rate": 2e-05,
-      "loss": 0.9734,
-      "mean_token_accuracy": 0.7251696765422821,
       "step": 890
     },
     {
-      "epoch": 0.8620274500361185,
-      "grad_norm": 0.45938703417778015,
       "learning_rate": 2e-05,
-      "loss": 0.9851,
-      "mean_token_accuracy": 0.7221759200096131,
       "step": 895
     },
     {
-      "epoch": 0.8668432458463761,
-      "grad_norm": 0.48591721057891846,
       "learning_rate": 2e-05,
-      "loss": 0.9815,
-      "mean_token_accuracy": 0.7246751219034195,
       "step": 900
     },
     {
-      "epoch": 0.8668432458463761,
-      "eval_loss": 0.9910937547683716,
-      "eval_mean_token_accuracy": 0.7242004642119775,
-      "eval_runtime": 8.6229,
-      "eval_samples_per_second": 11.597,
-      "eval_steps_per_second": 1.508,
       "step": 900
     },
     {
-      "epoch": 0.8716590416566338,
-      "grad_norm": 0.548160970211029,
       "learning_rate": 2e-05,
-      "loss": 0.9728,
-      "mean_token_accuracy": 0.7271899342536926,
       "step": 905
     },
     {
-      "epoch": 0.8764748374668914,
-      "grad_norm": 0.4917408525943756,
       "learning_rate": 2e-05,
-      "loss": 0.983,
-      "mean_token_accuracy": 0.722226795554161,
       "step": 910
     },
     {
-      "epoch": 0.8812906332771491,
-      "grad_norm": 0.43940261006355286,
       "learning_rate": 2e-05,
-      "loss": 0.967,
-      "mean_token_accuracy": 0.7271131485700607,
       "step": 915
     },
     {
-      "epoch": 0.8861064290874067,
-      "grad_norm": 0.46846315264701843,
       "learning_rate": 2e-05,
-      "loss": 0.9694,
-      "mean_token_accuracy": 0.723258101940155,
       "step": 920
     },
     {
-      "epoch": 0.8909222248976644,
-      "grad_norm": 0.5005144476890564,
       "learning_rate": 2e-05,
-      "loss": 1.0068,
-      "mean_token_accuracy": 0.7149937510490417,
       "step": 925
     },
     {
-      "epoch": 0.895738020707922,
-      "grad_norm": 0.43692487478256226,
       "learning_rate": 2e-05,
-      "loss": 0.9817,
-      "mean_token_accuracy": 0.721362081170082,
       "step": 930
     },
     {
-      "epoch": 0.9005538165181797,
-      "grad_norm": 0.47597751021385193,
       "learning_rate": 2e-05,
-      "loss": 0.9869,
-      "mean_token_accuracy": 0.7244188725948334,
       "step": 935
     },
     {
-      "epoch": 0.9053696123284373,
-      "grad_norm": 0.47237148880958557,
       "learning_rate": 2e-05,
-      "loss": 0.9847,
-      "mean_token_accuracy": 0.7214221894741059,
       "step": 940
     },
     {
-      "epoch": 0.910185408138695,
-      "grad_norm": 0.44735458493232727,
       "learning_rate": 2e-05,
-      "loss": 0.9859,
-      "mean_token_accuracy": 0.7203694522380829,
       "step": 945
     },
     {
-      "epoch": 0.9150012039489526,
-      "grad_norm": 0.47945865988731384,
       "learning_rate": 2e-05,
-      "loss": 0.9398,
-      "mean_token_accuracy": 0.7325642824172973,
       "step": 950
     },
     {
-      "epoch": 0.9198169997592102,
-      "grad_norm": 0.43617284297943115,
       "learning_rate": 2e-05,
-      "loss": 0.9659,
-      "mean_token_accuracy": 0.7265276938676835,
       "step": 955
     },
     {
-      "epoch": 0.9246327955694679,
-      "grad_norm": 0.4993121325969696,
       "learning_rate": 2e-05,
-      "loss": 0.9695,
-      "mean_token_accuracy": 0.7261034786701203,
       "step": 960
     },
     {
-      "epoch": 0.9294485913797255,
-      "grad_norm": 0.4212028682231903,
       "learning_rate": 2e-05,
-      "loss": 1.0269,
-      "mean_token_accuracy": 0.7113113075494766,
       "step": 965
     },
     {
-      "epoch": 0.9342643871899832,
-      "grad_norm": 0.4470522701740265,
       "learning_rate": 2e-05,
-      "loss": 0.9729,
-      "mean_token_accuracy": 0.72572822868824,
       "step": 970
     },
     {
-      "epoch": 0.9390801830002408,
-      "grad_norm": 0.442359060049057,
       "learning_rate": 2e-05,
-      "loss": 0.9818,
-      "mean_token_accuracy": 0.7235529303550721,
       "step": 975
     },
     {
-      "epoch": 0.9438959788104985,
-      "grad_norm": 0.49310287833213806,
       "learning_rate": 2e-05,
-      "loss": 0.9653,
-      "mean_token_accuracy": 0.7279765665531158,
       "step": 980
     },
     {
-      "epoch": 0.9487117746207561,
-      "grad_norm": 0.44634732604026794,
       "learning_rate": 2e-05,
-      "loss": 0.9761,
-      "mean_token_accuracy": 0.7246888697147369,
       "step": 985
     },
     {
-      "epoch": 0.9535275704310138,
-      "grad_norm": 0.4682416021823883,
       "learning_rate": 2e-05,
-      "loss": 1.0052,
-      "mean_token_accuracy": 0.7163143336772919,
       "step": 990
     },
     {
-      "epoch": 0.9583433662412714,
-      "grad_norm": 0.49107804894447327,
       "learning_rate": 2e-05,
-      "loss": 1.0147,
-      "mean_token_accuracy": 0.7137022405862808,
       "step": 995
     },
     {
-      "epoch": 0.963159162051529,
-      "grad_norm": 0.4588830769062042,
       "learning_rate": 2e-05,
-      "loss": 0.9901,
-      "mean_token_accuracy": 0.7186317384243012,
       "step": 1000
     },
     {
-      "epoch": 0.963159162051529,
-      "eval_loss": 0.9823437333106995,
-      "eval_mean_token_accuracy": 0.7257784238228431,
-      "eval_runtime": 8.6223,
-      "eval_samples_per_second": 11.598,
-      "eval_steps_per_second": 1.508,
       "step": 1000
     },
     {
-      "epoch": 0.9679749578617867,
-      "grad_norm": 0.4416583180427551,
       "learning_rate": 2e-05,
-      "loss": 0.9372,
-      "mean_token_accuracy": 0.732732167840004,
       "step": 1005
     },
     {
-      "epoch": 0.9727907536720443,
-      "grad_norm": 0.4314471185207367,
       "learning_rate": 2e-05,
-      "loss": 0.9854,
-      "mean_token_accuracy": 0.7232161700725556,
       "step": 1010
     },
     {
-      "epoch": 0.977606549482302,
-      "grad_norm": 0.4762505888938904,
       "learning_rate": 2e-05,
-      "loss": 0.9713,
-      "mean_token_accuracy": 0.7264497399330139,
       "step": 1015
     },
     {
-      "epoch": 0.9824223452925596,
-      "grad_norm": 0.4602217972278595,
       "learning_rate": 2e-05,
-      "loss": 0.9487,
-      "mean_token_accuracy": 0.7303879648447037,
       "step": 1020
     },
     {
-      "epoch": 0.9872381411028173,
-      "grad_norm": 0.40625375509262085,
       "learning_rate": 2e-05,
-      "loss": 0.9711,
-      "mean_token_accuracy": 0.7242156893014908,
       "step": 1025
     },
     {
-      "epoch": 0.9920539369130749,
-      "grad_norm": 0.5164700746536255,
-      "learning_rate": 2e-05,
-      "loss": 0.966,
-      "mean_token_accuracy": 0.7264703720808029,
-      "step": 1030
-    },
-    {
-      "epoch": 0.9968697327233326,
-      "grad_norm": 0.45738255977630615,
-      "learning_rate": 2e-05,
-      "loss": 0.9525,
-      "mean_token_accuracy": 0.7287515312433243,
-      "step": 1035
-    },
-    {
-      "epoch": 0.9997592102094871,
-      "mean_token_accuracy": 0.7337231040000916,
-      "step": 1038,
       "total_flos": 0.0,
-      "train_loss": 1.0554086321351157,
-      "train_runtime": 8232.1254,
-      "train_samples_per_second": 2.018,
-      "train_steps_per_second": 0.126
     }
   ],
   "logging_steps": 5,
-  "max_steps": 1038,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 1,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -1783,7 +1767,7 @@
     }
   },
   "total_flos": 0.0,
-  "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.9989078995267566,
   "eval_steps": 100,
+  "global_step": 1029,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.014561339643247179,
+      "grad_norm": 37.66851806640625,
+      "learning_rate": 6.94512199751671e-06,
+      "loss": 2.2001,
+      "mean_token_accuracy": 0.5431830704212188,
       "step": 5
     },
     {
+      "epoch": 0.029122679286494358,
+      "grad_norm": 35.93154525756836,
+      "learning_rate": 9.936223234807016e-06,
+      "loss": 2.0917,
+      "mean_token_accuracy": 0.5551130786538124,
       "step": 10
     },
     {
+      "epoch": 0.04368401892974154,
+      "grad_norm": 11.33205509185791,
+      "learning_rate": 1.1685905294482498e-05,
+      "loss": 1.6615,
+      "mean_token_accuracy": 0.6157955378293991,
       "step": 15
     },
     {
+      "epoch": 0.058245358572988716,
+      "grad_norm": 0.5927252769470215,
+      "learning_rate": 1.292732447209732e-05,
+      "loss": 1.4254,
+      "mean_token_accuracy": 0.6511392086744309,
       "step": 20
     },
     {
+      "epoch": 0.0728066982162359,
+      "grad_norm": 0.420287549495697,
+      "learning_rate": 1.389024399503342e-05,
+      "loss": 1.3534,
+      "mean_token_accuracy": 0.6588488951325416,
       "step": 25
     },
     {
+      "epoch": 0.08736803785948308,
+      "grad_norm": 0.3345254361629486,
+      "learning_rate": 1.4677006531772802e-05,
+      "loss": 1.3017,
+      "mean_token_accuracy": 0.6658114358782768,
       "step": 30
     },
     {
+      "epoch": 0.10192937750273025,
+      "grad_norm": 0.28586578369140625,
+      "learning_rate": 1.5342204778396236e-05,
+      "loss": 1.2668,
+      "mean_token_accuracy": 0.6703020080924034,
       "step": 35
     },
     {
+      "epoch": 0.11649071714597743,
+      "grad_norm": 0.2802036702632904,
+      "learning_rate": 1.5918425709387625e-05,
+      "loss": 1.2384,
+      "mean_token_accuracy": 0.6751068279147148,
       "step": 40
     },
     {
+      "epoch": 0.1310520567892246,
+      "grad_norm": 0.2390078604221344,
+      "learning_rate": 1.6426688591448284e-05,
+      "loss": 1.2159,
+      "mean_token_accuracy": 0.6786533042788505,
       "step": 45
     },
     {
+      "epoch": 0.1456133964324718,
+      "grad_norm": 0.22002895176410675,
+      "learning_rate": 1.6881345232323726e-05,
+      "loss": 1.1892,
+      "mean_token_accuracy": 0.6840800851583481,
       "step": 50
     },
     {
+      "epoch": 0.16017473607571897,
+      "grad_norm": 0.24121476709842682,
+      "learning_rate": 1.7292632192343935e-05,
+      "loss": 1.1866,
+      "mean_token_accuracy": 0.6831674978137017,
       "step": 55
     },
     {
+      "epoch": 0.17473607571896616,
+      "grad_norm": 0.2153487652540207,
+      "learning_rate": 1.7668107769063104e-05,
+      "loss": 1.1414,
+      "mean_token_accuracy": 0.6937515258789062,
       "step": 60
     },
     {
+      "epoch": 0.1892974153622133,
+      "grad_norm": 0.19544684886932373,
+      "learning_rate": 1.8013511816966716e-05,
+      "loss": 1.1364,
+      "mean_token_accuracy": 0.6935119941830635,
       "step": 65
     },
     {
+      "epoch": 0.2038587550054605,
+      "grad_norm": 0.20832200348377228,
+      "learning_rate": 1.8333306015686545e-05,
+      "loss": 1.1522,
+      "mean_token_accuracy": 0.6890207245945931,
       "step": 70
     },
     {
+      "epoch": 0.21842009464870768,
+      "grad_norm": 0.20898529887199402,
+      "learning_rate": 1.8631027291999205e-05,
+      "loss": 1.1359,
+      "mean_token_accuracy": 0.6920820102095604,
       "step": 75
     },
     {
+      "epoch": 0.23298143429195486,
+      "grad_norm": 0.21433797478675842,
+      "learning_rate": 1.890952694667793e-05,
+      "loss": 1.1177,
+      "mean_token_accuracy": 0.6967326954007149,
       "step": 80
     },
     {
+      "epoch": 0.24754277393520205,
+      "grad_norm": 0.19631509482860565,
+      "learning_rate": 1.9171137159358747e-05,
+      "loss": 1.1084,
+      "mean_token_accuracy": 0.6984182327985764,
       "step": 85
     },
     {
+      "epoch": 0.2621041135784492,
+      "grad_norm": 0.18118107318878174,
+      "learning_rate": 1.941778982873859e-05,
+      "loss": 1.1085,
+      "mean_token_accuracy": 0.6977160558104515,
       "step": 90
     },
     {
+      "epoch": 0.2766654532216964,
+      "grad_norm": 0.20939502120018005,
+      "learning_rate": 1.965110323889735e-05,
+      "loss": 1.1065,
+      "mean_token_accuracy": 0.6980448961257935,
       "step": 95
     },
     {
+      "epoch": 0.2912267928649436,
+      "grad_norm": 0.1910240799188614,
+      "learning_rate": 1.987244646961403e-05,
+      "loss": 1.098,
+      "mean_token_accuracy": 0.6989446982741356,
       "step": 100
     },
     {
+      "epoch": 0.2912267928649436,
+      "eval_loss": 1.1112689971923828,
+      "eval_mean_token_accuracy": 0.6931903600692749,
+      "eval_runtime": 13.1717,
+      "eval_samples_per_second": 5.011,
+      "eval_steps_per_second": 0.38,
       "step": 100
     },
     {
+      "epoch": 0.30578813250819076,
+      "grad_norm": 0.19251097738742828,
       "learning_rate": 2e-05,
+      "loss": 1.0873,
+      "mean_token_accuracy": 0.7030002444982528,
       "step": 105
     },
     {
+      "epoch": 0.32034947215143794,
+      "grad_norm": 0.1976984441280365,
       "learning_rate": 2e-05,
+      "loss": 1.0954,
+      "mean_token_accuracy": 0.6988905444741249,
       "step": 110
     },
     {
+      "epoch": 0.3349108117946851,
+      "grad_norm": 0.18475359678268433,
       "learning_rate": 2e-05,
+      "loss": 1.0734,
+      "mean_token_accuracy": 0.7050403520464897,
       "step": 115
     },
     {
+      "epoch": 0.3494721514379323,
+      "grad_norm": 0.21479089558124542,
       "learning_rate": 2e-05,
+      "loss": 1.0792,
+      "mean_token_accuracy": 0.7049864172935486,
       "step": 120
     },
     {
+      "epoch": 0.3640334910811795,
+      "grad_norm": 0.20598657429218292,
       "learning_rate": 2e-05,
+      "loss": 1.0853,
+      "mean_token_accuracy": 0.7013437002897263,
       "step": 125
     },
     {
+      "epoch": 0.3785948307244266,
+      "grad_norm": 0.2035069763660431,
       "learning_rate": 2e-05,
+      "loss": 1.0758,
+      "mean_token_accuracy": 0.7027781993150711,
       "step": 130
     },
     {
+      "epoch": 0.3931561703676738,
+      "grad_norm": 0.20786674320697784,
       "learning_rate": 2e-05,
+      "loss": 1.086,
+      "mean_token_accuracy": 0.7012925714254379,
       "step": 135
     },
     {
+      "epoch": 0.407717510010921,
+      "grad_norm": 0.19930203258991241,
       "learning_rate": 2e-05,
+      "loss": 1.0819,
+      "mean_token_accuracy": 0.7024676471948623,
       "step": 140
     },
     {
+      "epoch": 0.4222788496541682,
+      "grad_norm": 0.2310095727443695,
       "learning_rate": 2e-05,
+      "loss": 1.0658,
+      "mean_token_accuracy": 0.7064277902245522,
       "step": 145
     },
     {
+      "epoch": 0.43684018929741536,
+      "grad_norm": 0.2163601964712143,
       "learning_rate": 2e-05,
+      "loss": 1.0741,
+      "mean_token_accuracy": 0.7032444015145302,
       "step": 150
     },
     {
+      "epoch": 0.45140152894066254,
+      "grad_norm": 0.22852301597595215,
       "learning_rate": 2e-05,
+      "loss": 1.0647,
+      "mean_token_accuracy": 0.7054958015680313,
       "step": 155
     },
     {
+      "epoch": 0.46596286858390973,
+      "grad_norm": 0.21535199880599976,
       "learning_rate": 2e-05,
+      "loss": 1.0753,
+      "mean_token_accuracy": 0.7024859562516212,
       "step": 160
     },
     {
+      "epoch": 0.4805242082271569,
+      "grad_norm": 0.1874823421239853,
       "learning_rate": 2e-05,
+      "loss": 1.0466,
+      "mean_token_accuracy": 0.710732813179493,
       "step": 165
     },
     {
+      "epoch": 0.4950855478704041,
+      "grad_norm": 0.17631468176841736,
       "learning_rate": 2e-05,
+      "loss": 1.0599,
+      "mean_token_accuracy": 0.7064499124884606,
       "step": 170
     },
     {
+      "epoch": 0.5096468875136513,
+      "grad_norm": 0.20174729824066162,
       "learning_rate": 2e-05,
+      "loss": 1.0447,
+      "mean_token_accuracy": 0.7100659251213074,
       "step": 175
     },
     {
+      "epoch": 0.5242082271568984,
+      "grad_norm": 0.1740773767232895,
       "learning_rate": 2e-05,
+      "loss": 1.0538,
+      "mean_token_accuracy": 0.7067421570420265,
       "step": 180
     },
     {
+      "epoch": 0.5387695668001456,
+      "grad_norm": 0.18247714638710022,
       "learning_rate": 2e-05,
+      "loss": 1.0487,
+      "mean_token_accuracy": 0.7085062861442566,
       "step": 185
     },
     {
+      "epoch": 0.5533309064433928,
+      "grad_norm": 0.19148823618888855,
       "learning_rate": 2e-05,
+      "loss": 1.0597,
+      "mean_token_accuracy": 0.7060058280825615,
       "step": 190
     },
     {
+      "epoch": 0.56789224608664,
+      "grad_norm": 0.1849949061870575,
       "learning_rate": 2e-05,
+      "loss": 1.0422,
+      "mean_token_accuracy": 0.7095287501811981,
       "step": 195
     },
     {
+      "epoch": 0.5824535857298871,
+      "grad_norm": 0.18132270872592926,
       "learning_rate": 2e-05,
+      "loss": 1.0468,
+      "mean_token_accuracy": 0.7086604192852974,
       "step": 200
     },
     {
+      "epoch": 0.5824535857298871,
+      "eval_loss": 1.0518466234207153,
+      "eval_mean_token_accuracy": 0.7042254090309144,
+      "eval_runtime": 9.0776,
+      "eval_samples_per_second": 7.271,
+      "eval_steps_per_second": 0.551,
       "step": 200
     },
     {
+      "epoch": 0.5970149253731343,
+      "grad_norm": 0.18448956310749054,
       "learning_rate": 2e-05,
+      "loss": 1.037,
+      "mean_token_accuracy": 0.7115538448095322,
       "step": 205
     },
     {
+      "epoch": 0.6115762650163815,
+      "grad_norm": 0.18751472234725952,
       "learning_rate": 2e-05,
+      "loss": 1.0445,
+      "mean_token_accuracy": 0.7096409142017365,
       "step": 210
     },
     {
+      "epoch": 0.6261376046596286,
+      "grad_norm": 0.1885630488395691,
       "learning_rate": 2e-05,
+      "loss": 1.03,
+      "mean_token_accuracy": 0.7122749090194702,
       "step": 215
     },
     {
+      "epoch": 0.6406989443028759,
+      "grad_norm": 0.16414892673492432,
       "learning_rate": 2e-05,
+      "loss": 1.0203,
+      "mean_token_accuracy": 0.7152423396706581,
       "step": 220
     },
     {
+      "epoch": 0.655260283946123,
+      "grad_norm": 0.19612085819244385,
       "learning_rate": 2e-05,
+      "loss": 1.0325,
+      "mean_token_accuracy": 0.7118910998106003,
       "step": 225
     },
     {
+      "epoch": 0.6698216235893703,
+      "grad_norm": 0.21399515867233276,
       "learning_rate": 2e-05,
+      "loss": 1.0264,
+      "mean_token_accuracy": 0.7130562499165535,
       "step": 230
     },
     {
+      "epoch": 0.6843829632326174,
+      "grad_norm": 0.19661396741867065,
       "learning_rate": 2e-05,
+      "loss": 1.043,
+      "mean_token_accuracy": 0.7081087440252304,
       "step": 235
     },
     {
+      "epoch": 0.6989443028758646,
+      "grad_norm": 0.1965187042951584,
       "learning_rate": 2e-05,
+      "loss": 1.0232,
+      "mean_token_accuracy": 0.7128947824239731,
       "step": 240
     },
     {
+      "epoch": 0.7135056425191117,
+      "grad_norm": 0.19409024715423584,
       "learning_rate": 2e-05,
+      "loss": 1.0328,
+      "mean_token_accuracy": 0.7117997944355011,
       "step": 245
     },
     {
+      "epoch": 0.728066982162359,
+      "grad_norm": 0.19648292660713196,
       "learning_rate": 2e-05,
+      "loss": 1.038,
+      "mean_token_accuracy": 0.7104994520545006,
       "step": 250
     },
     {
+      "epoch": 0.7426283218056061,
+      "grad_norm": 0.16873674094676971,
       "learning_rate": 2e-05,
+      "loss": 1.0204,
+      "mean_token_accuracy": 0.7144693836569787,
       "step": 255
     },
     {
+      "epoch": 0.7571896614488532,
+      "grad_norm": 0.196326345205307,
       "learning_rate": 2e-05,
+      "loss": 1.0213,
+      "mean_token_accuracy": 0.7139619678258896,
       "step": 260
     },
     {
+      "epoch": 0.7717510010921005,
+      "grad_norm": 0.2151579111814499,
       "learning_rate": 2e-05,
+      "loss": 1.0218,
+      "mean_token_accuracy": 0.7128418371081352,
       "step": 265
     },
     {
+      "epoch": 0.7863123407353476,
+      "grad_norm": 0.17913345992565155,
       "learning_rate": 2e-05,
+      "loss": 1.0265,
+      "mean_token_accuracy": 0.7119010165333748,
       "step": 270
     },
     {
+      "epoch": 0.8008736803785949,
+      "grad_norm": 0.1754622459411621,
       "learning_rate": 2e-05,
+      "loss": 1.0154,
+      "mean_token_accuracy": 0.7142972201108932,
       "step": 275
     },
     {
+      "epoch": 0.815435020021842,
+      "grad_norm": 0.19478586316108704,
       "learning_rate": 2e-05,
+      "loss": 1.0302,
+      "mean_token_accuracy": 0.711237944662571,
       "step": 280
     },
     {
+      "epoch": 0.8299963596650892,
+      "grad_norm": 0.18054774403572083,
       "learning_rate": 2e-05,
+      "loss": 1.0102,
+      "mean_token_accuracy": 0.7163647577166558,
       "step": 285
     },
     {
+      "epoch": 0.8445576993083364,
+      "grad_norm": 0.2034561187028885,
       "learning_rate": 2e-05,
+      "loss": 0.9997,
+      "mean_token_accuracy": 0.7193443968892097,
       "step": 290
     },
     {
+      "epoch": 0.8591190389515836,
+      "grad_norm": 0.202008917927742,
       "learning_rate": 2e-05,
+      "loss": 1.0059,
+      "mean_token_accuracy": 0.718295231461525,
       "step": 295
     },
     {
+      "epoch": 0.8736803785948307,
+      "grad_norm": 0.207170769572258,
       "learning_rate": 2e-05,
+      "loss": 1.0078,
+      "mean_token_accuracy": 0.7157909572124481,
       "step": 300
     },
     {
+      "epoch": 0.8736803785948307,
+      "eval_loss": 1.019649624824524,
+      "eval_mean_token_accuracy": 0.7100205540657043,
+      "eval_runtime": 9.0111,
+      "eval_samples_per_second": 7.324,
+      "eval_steps_per_second": 0.555,
       "step": 300
     },
     {
+      "epoch": 0.8882417182380778,
+      "grad_norm": 0.21266800165176392,
       "learning_rate": 2e-05,
+      "loss": 1.0074,
+      "mean_token_accuracy": 0.7171560257673264,
       "step": 305
     },
     {
+      "epoch": 0.9028030578813251,
+      "grad_norm": 0.19650128483772278,
       "learning_rate": 2e-05,
+      "loss": 1.0142,
+      "mean_token_accuracy": 0.7148646369576455,
       "step": 310
     },
     {
+      "epoch": 0.9173643975245722,
+      "grad_norm": 0.22513243556022644,
       "learning_rate": 2e-05,
+      "loss": 0.9986,
+      "mean_token_accuracy": 0.7187789976596832,
       "step": 315
     },
     {
+      "epoch": 0.9319257371678195,
+      "grad_norm": 0.21226869523525238,
       "learning_rate": 2e-05,
+      "loss": 1.0095,
+      "mean_token_accuracy": 0.7166241943836212,
       "step": 320
     },
     {
+      "epoch": 0.9464870768110666,
+      "grad_norm": 0.20326650142669678,
       "learning_rate": 2e-05,
+      "loss": 1.0193,
+      "mean_token_accuracy": 0.7132607430219651,
       "step": 325
     },
     {
+      "epoch": 0.9610484164543138,
+      "grad_norm": 0.2005230039358139,
       "learning_rate": 2e-05,
+      "loss": 0.9969,
+      "mean_token_accuracy": 0.7200944602489472,
       "step": 330
     },
     {
+      "epoch": 0.975609756097561,
+      "grad_norm": 0.18904553353786469,
       "learning_rate": 2e-05,
+      "loss": 1.0021,
+      "mean_token_accuracy": 0.7175276219844818,
       "step": 335
     },
     {
+      "epoch": 0.9901710957408082,
+      "grad_norm": 0.19811247289180756,
       "learning_rate": 2e-05,
+      "loss": 0.9993,
+      "mean_token_accuracy": 0.7185588896274566,
       "step": 340
     },
     {
+      "epoch": 1.0058245358572988,
+      "grad_norm": 0.1984570026397705,
       "learning_rate": 2e-05,
+      "loss": 1.0395,
+      "mean_token_accuracy": 0.719094998779751,
       "step": 345
     },
     {
+      "epoch": 1.0203858755005462,
+      "grad_norm": 0.19051611423492432,
       "learning_rate": 2e-05,
+      "loss": 0.9733,
+      "mean_token_accuracy": 0.724665792286396,
       "step": 350
     },
     {
+      "epoch": 1.0349472151437933,
+      "grad_norm": 0.17580822110176086,
       "learning_rate": 2e-05,
+      "loss": 0.9811,
+      "mean_token_accuracy": 0.7220699548721313,
       "step": 355
     },
     {
+      "epoch": 1.0495085547870404,
+      "grad_norm": 0.18404695391654968,
       "learning_rate": 2e-05,
+      "loss": 0.9757,
+      "mean_token_accuracy": 0.7235838070511817,
       "step": 360
     },
     {
+      "epoch": 1.0640698944302875,
+      "grad_norm": 0.19152525067329407,
       "learning_rate": 2e-05,
+      "loss": 0.9828,
+      "mean_token_accuracy": 0.7204630091786385,
       "step": 365
     },
     {
+      "epoch": 1.0786312340735347,
+      "grad_norm": 0.19752167165279388,
       "learning_rate": 2e-05,
+      "loss": 0.9974,
+      "mean_token_accuracy": 0.7173234552145005,
       "step": 370
     },
     {
+      "epoch": 1.093192573716782,
+      "grad_norm": 0.1899857074022293,
       "learning_rate": 2e-05,
+      "loss": 0.979,
+      "mean_token_accuracy": 0.7223904326558113,
       "step": 375
     },
     {
+      "epoch": 1.1077539133600292,
+      "grad_norm": 0.19329330325126648,
       "learning_rate": 2e-05,
+      "loss": 0.9859,
+      "mean_token_accuracy": 0.7198724135756492,
       "step": 380
     },
     {
+      "epoch": 1.1223152530032763,
+      "grad_norm": 0.18269023299217224,
       "learning_rate": 2e-05,
+      "loss": 0.9642,
+      "mean_token_accuracy": 0.727630938589573,
       "step": 385
     },
     {
+      "epoch": 1.1368765926465234,
+      "grad_norm": 0.1874740570783615,
       "learning_rate": 2e-05,
+      "loss": 0.9778,
+      "mean_token_accuracy": 0.722543029487133,
       "step": 390
     },
     {
+      "epoch": 1.1514379322897708,
+      "grad_norm": 0.174119770526886,
       "learning_rate": 2e-05,
+      "loss": 0.9568,
+      "mean_token_accuracy": 0.7279941365122795,
       "step": 395
     },
     {
+      "epoch": 1.1659992719330179,
+      "grad_norm": 0.1855311542749405,
       "learning_rate": 2e-05,
+      "loss": 0.9688,
+      "mean_token_accuracy": 0.7247176736593246,
       "step": 400
     },
     {
+      "epoch": 1.1659992719330179,
+      "eval_loss": 0.9988163113594055,
+      "eval_mean_token_accuracy": 0.7142685413360595,
+      "eval_runtime": 9.0627,
+      "eval_samples_per_second": 7.283,
+      "eval_steps_per_second": 0.552,
       "step": 400
     },
     {
+      "epoch": 1.180560611576265,
+      "grad_norm": 0.2153940200805664,
       "learning_rate": 2e-05,
+      "loss": 0.9744,
+      "mean_token_accuracy": 0.723403736948967,
       "step": 405
     },
     {
+      "epoch": 1.1951219512195121,
+      "grad_norm": 0.20522184669971466,
       "learning_rate": 2e-05,
+      "loss": 0.9725,
+      "mean_token_accuracy": 0.7236453905701637,
       "step": 410
     },
     {
+      "epoch": 1.2096832908627593,
+      "grad_norm": 0.1979447901248932,
       "learning_rate": 2e-05,
+      "loss": 0.978,
+      "mean_token_accuracy": 0.7225941598415375,
       "step": 415
     },
     {
+      "epoch": 1.2242446305060066,
+      "grad_norm": 0.19050033390522003,
       "learning_rate": 2e-05,
+      "loss": 0.9645,
+      "mean_token_accuracy": 0.7253967747092247,
       "step": 420
     },
     {
+      "epoch": 1.2388059701492538,
+      "grad_norm": 0.19461773335933685,
       "learning_rate": 2e-05,
+      "loss": 0.9469,
+      "mean_token_accuracy": 0.7304514393210411,
       "step": 425
     },
     {
+      "epoch": 1.2533673097925009,
+      "grad_norm": 0.19699646532535553,
       "learning_rate": 2e-05,
+      "loss": 0.9661,
+      "mean_token_accuracy": 0.7242850378155709,
       "step": 430
     },
     {
+      "epoch": 1.267928649435748,
+      "grad_norm": 0.1707252860069275,
       "learning_rate": 2e-05,
+      "loss": 0.9677,
+      "mean_token_accuracy": 0.7248802036046982,
       "step": 435
     },
     {
+      "epoch": 1.2824899890789951,
+      "grad_norm": 0.191995769739151,
       "learning_rate": 2e-05,
+      "loss": 0.9526,
+      "mean_token_accuracy": 0.7288147822022438,
       "step": 440
     },
     {
+      "epoch": 1.2970513287222425,
+      "grad_norm": 0.18631628155708313,
       "learning_rate": 2e-05,
+      "loss": 0.9705,
+      "mean_token_accuracy": 0.723578467965126,
       "step": 445
     },
     {
+      "epoch": 1.3116126683654896,
+      "grad_norm": 0.18883132934570312,
       "learning_rate": 2e-05,
+      "loss": 0.963,
+      "mean_token_accuracy": 0.7254890978336335,
       "step": 450
     },
     {
+      "epoch": 1.3261740080087367,
+      "grad_norm": 0.19409437477588654,
       "learning_rate": 2e-05,
+      "loss": 0.9664,
+      "mean_token_accuracy": 0.7247894033789635,
       "step": 455
     },
     {
+      "epoch": 1.340735347651984,
+      "grad_norm": 0.17440907657146454,
       "learning_rate": 2e-05,
+      "loss": 0.9539,
+      "mean_token_accuracy": 0.7279758274555206,
       "step": 460
     },
     {
+      "epoch": 1.3552966872952312,
+      "grad_norm": 0.19074754416942596,
       "learning_rate": 2e-05,
+      "loss": 0.9577,
+      "mean_token_accuracy": 0.726808387041092,
       "step": 465
     },
     {
+      "epoch": 1.3698580269384784,
+      "grad_norm": 0.17158101499080658,
       "learning_rate": 2e-05,
+      "loss": 0.9624,
+      "mean_token_accuracy": 0.7265920951962471,
       "step": 470
     },
     {
+      "epoch": 1.3844193665817255,
+      "grad_norm": 0.18509717285633087,
       "learning_rate": 2e-05,
+      "loss": 0.9537,
+      "mean_token_accuracy": 0.7284008353948593,
       "step": 475
     },
     {
+      "epoch": 1.3989807062249726,
+      "grad_norm": 0.18281057476997375,
       "learning_rate": 2e-05,
+      "loss": 0.9676,
+      "mean_token_accuracy": 0.7247360810637474,
       "step": 480
     },
     {
+      "epoch": 1.41354204586822,
+      "grad_norm": 0.17993324995040894,
       "learning_rate": 2e-05,
+      "loss": 0.9662,
+      "mean_token_accuracy": 0.7256203427910805,
       "step": 485
     },
     {
+      "epoch": 1.428103385511467,
+      "grad_norm": 0.21310538053512573,
       "learning_rate": 2e-05,
+      "loss": 0.9601,
+      "mean_token_accuracy": 0.7264375537633896,
       "step": 490
     },
     {
+      "epoch": 1.4426647251547142,
+      "grad_norm": 0.18315577507019043,
       "learning_rate": 2e-05,
+      "loss": 0.9434,
+      "mean_token_accuracy": 0.73150485008955,
       "step": 495
     },
     {
+      "epoch": 1.4572260647979614,
+      "grad_norm": 0.19212491810321808,
       "learning_rate": 2e-05,
+      "loss": 0.949,
+      "mean_token_accuracy": 0.7304915532469749,
       "step": 500
     },
     {
+      "epoch": 1.4572260647979614,
+      "eval_loss": 0.9828361868858337,
+      "eval_mean_token_accuracy": 0.7173765182495118,
+      "eval_runtime": 9.0411,
+      "eval_samples_per_second": 7.3,
+      "eval_steps_per_second": 0.553,
       "step": 500
     },
     {
+      "epoch": 1.4717874044412085,
+      "grad_norm": 0.17383301258087158,
       "learning_rate": 2e-05,
+      "loss": 0.9673,
+      "mean_token_accuracy": 0.7242163941264153,
       "step": 505
     },
     {
+      "epoch": 1.4863487440844558,
+      "grad_norm": 0.1923714131116867,
       "learning_rate": 2e-05,
+      "loss": 0.9525,
+      "mean_token_accuracy": 0.7281391903758049,
       "step": 510
     },
     {
+      "epoch": 1.500910083727703,
+      "grad_norm": 0.20028460025787354,
       "learning_rate": 2e-05,
+      "loss": 0.9684,
+      "mean_token_accuracy": 0.723628830909729,
       "step": 515
     },
     {
+      "epoch": 1.51547142337095,
+      "grad_norm": 0.20677019655704498,
       "learning_rate": 2e-05,
+      "loss": 0.9802,
+      "mean_token_accuracy": 0.7201669454574585,
       "step": 520
     },
     {
+      "epoch": 1.5300327630141974,
+      "grad_norm": 0.17966614663600922,
       "learning_rate": 2e-05,
+      "loss": 0.9509,
+      "mean_token_accuracy": 0.7284548431634903,
       "step": 525
     },
     {
+      "epoch": 1.5445941026574443,
+      "grad_norm": 0.19962792098522186,
       "learning_rate": 2e-05,
+      "loss": 0.9556,
+      "mean_token_accuracy": 0.727879686653614,
       "step": 530
     },
     {
+      "epoch": 1.5591554423006917,
+      "grad_norm": 0.1987488865852356,
       "learning_rate": 2e-05,
+      "loss": 0.9441,
+      "mean_token_accuracy": 0.7310003876686096,
       "step": 535
     },
     {
+      "epoch": 1.5737167819439388,
+      "grad_norm": 0.19578705728054047,
       "learning_rate": 2e-05,
+      "loss": 0.9646,
+      "mean_token_accuracy": 0.7239905044436454,
       "step": 540
     },
     {
+      "epoch": 1.588278121587186,
+      "grad_norm": 0.18124082684516907,
       "learning_rate": 2e-05,
+      "loss": 0.9648,
+      "mean_token_accuracy": 0.7232480734586716,
       "step": 545
     },
     {
+      "epoch": 1.6028394612304333,
+      "grad_norm": 0.18559084832668304,
       "learning_rate": 2e-05,
+      "loss": 0.9374,
+      "mean_token_accuracy": 0.7308333814144135,
       "step": 550
     },
     {
+      "epoch": 1.6174008008736804,
+      "grad_norm": 0.20631375908851624,
       "learning_rate": 2e-05,
+      "loss": 0.9618,
+      "mean_token_accuracy": 0.7258706241846085,
       "step": 555
     },
     {
+      "epoch": 1.6319621405169276,
+      "grad_norm": 0.1777167022228241,
       "learning_rate": 2e-05,
+      "loss": 0.9447,
+      "mean_token_accuracy": 0.7300238028168679,
       "step": 560
     },
     {
+      "epoch": 1.6465234801601747,
+      "grad_norm": 0.17086541652679443,
       "learning_rate": 2e-05,
+      "loss": 0.9396,
+      "mean_token_accuracy": 0.7313713192939758,
       "step": 565
     },
     {
+      "epoch": 1.6610848198034218,
+      "grad_norm": 0.21147526800632477,
       "learning_rate": 2e-05,
+      "loss": 0.9512,
+      "mean_token_accuracy": 0.7282726511359214,
       "step": 570
     },
     {
+      "epoch": 1.6756461594466692,
+      "grad_norm": 0.1869203746318817,
       "learning_rate": 2e-05,
+      "loss": 0.9442,
+      "mean_token_accuracy": 0.7296415269374847,
       "step": 575
     },
     {
+      "epoch": 1.6902074990899163,
+      "grad_norm": 0.19998286664485931,
       "learning_rate": 2e-05,
+      "loss": 0.9495,
+      "mean_token_accuracy": 0.7277965158224106,
       "step": 580
     },
     {
+      "epoch": 1.7047688387331634,
+      "grad_norm": 0.1844228357076645,
       "learning_rate": 2e-05,
+      "loss": 0.9535,
+      "mean_token_accuracy": 0.7272509470582008,
       "step": 585
     },
     {
+      "epoch": 1.7193301783764108,
+      "grad_norm": 0.22390896081924438,
       "learning_rate": 2e-05,
+      "loss": 0.9526,
+      "mean_token_accuracy": 0.7276457890868187,
       "step": 590
     },
     {
+      "epoch": 1.7338915180196577,
+      "grad_norm": 0.18321609497070312,
       "learning_rate": 2e-05,
+      "loss": 0.9534,
+      "mean_token_accuracy": 0.7267900720238686,
       "step": 595
     },
     {
+      "epoch": 1.748452857662905,
+      "grad_norm": 0.1791963130235672,
       "learning_rate": 2e-05,
+      "loss": 0.9656,
+      "mean_token_accuracy": 0.7226544409990311,
       "step": 600
     },
     {
+      "epoch": 1.748452857662905,
+      "eval_loss": 0.9683948755264282,
+      "eval_mean_token_accuracy": 0.719802176952362,
+      "eval_runtime": 9.0575,
+      "eval_samples_per_second": 7.287,
+      "eval_steps_per_second": 0.552,
       "step": 600
     },
     {
+      "epoch": 1.7630141973061522,
+      "grad_norm": 0.2111322432756424,
       "learning_rate": 2e-05,
+      "loss": 0.9594,
+      "mean_token_accuracy": 0.7252815589308739,
       "step": 605
     },
     {
+      "epoch": 1.7775755369493993,
+      "grad_norm": 0.1824427843093872,
       "learning_rate": 2e-05,
+      "loss": 0.9448,
+      "mean_token_accuracy": 0.730655600130558,
       "step": 610
     },
     {
+      "epoch": 1.7921368765926466,
+      "grad_norm": 0.1896345168352127,
       "learning_rate": 2e-05,
+      "loss": 0.9429,
+      "mean_token_accuracy": 0.7295209676027298,
       "step": 615
     },
     {
+      "epoch": 1.8066982162358936,
+      "grad_norm": 0.19917869567871094,
       "learning_rate": 2e-05,
+      "loss": 0.9481,
+      "mean_token_accuracy": 0.72839834690094,
       "step": 620
     },
     {
+      "epoch": 1.821259555879141,
+      "grad_norm": 0.18886856734752655,
       "learning_rate": 2e-05,
+      "loss": 0.9494,
+      "mean_token_accuracy": 0.7279918506741524,
       "step": 625
     },
     {
+      "epoch": 1.835820895522388,
+      "grad_norm": 0.18665249645709991,
       "learning_rate": 2e-05,
+      "loss": 0.941,
+      "mean_token_accuracy": 0.7308425426483154,
       "step": 630
     },
     {
+      "epoch": 1.8503822351656352,
+      "grad_norm": 0.1790022999048233,
       "learning_rate": 2e-05,
+      "loss": 0.9459,
+      "mean_token_accuracy": 0.7287953227758408,
       "step": 635
     },
     {
+      "epoch": 1.8649435748088825,
+      "grad_norm": 0.18598653376102448,
       "learning_rate": 2e-05,
+      "loss": 0.9344,
+      "mean_token_accuracy": 0.7317764893174171,
       "step": 640
     },
     {
+      "epoch": 1.8795049144521296,
+      "grad_norm": 0.18939712643623352,
       "learning_rate": 2e-05,
+      "loss": 0.9473,
+      "mean_token_accuracy": 0.7287281811237335,
       "step": 645
     },
     {
+      "epoch": 1.8940662540953768,
+      "grad_norm": 0.1971713751554489,
       "learning_rate": 2e-05,
+      "loss": 0.9363,
+      "mean_token_accuracy": 0.731384290754795,
       "step": 650
     },
     {
+      "epoch": 1.9086275937386241,
+      "grad_norm": 0.19053973257541656,
       "learning_rate": 2e-05,
+      "loss": 0.9419,
+      "mean_token_accuracy": 0.7299284294247628,
       "step": 655
     },
     {
+      "epoch": 1.923188933381871,
+      "grad_norm": 0.1968354731798172,
       "learning_rate": 2e-05,
+      "loss": 0.9427,
+      "mean_token_accuracy": 0.7299772590398789,
       "step": 660
     },
     {
+      "epoch": 1.9377502730251184,
+      "grad_norm": 0.19762156903743744,
       "learning_rate": 2e-05,
+      "loss": 0.9517,
+      "mean_token_accuracy": 0.7256975680589676,
       "step": 665
     },
     {
+      "epoch": 1.9523116126683655,
+      "grad_norm": 0.18599362671375275,
       "learning_rate": 2e-05,
+      "loss": 0.9346,
+      "mean_token_accuracy": 0.7319954812526703,
       "step": 670
     },
     {
+      "epoch": 1.9668729523116126,
+      "grad_norm": 0.18457342684268951,
       "learning_rate": 2e-05,
+      "loss": 0.9555,
+      "mean_token_accuracy": 0.726130048930645,
       "step": 675
     },
     {
+      "epoch": 1.98143429195486,
+      "grad_norm": 0.1952061802148819,
       "learning_rate": 2e-05,
+      "loss": 0.9396,
+      "mean_token_accuracy": 0.7293583780527115,
       "step": 680
     },
     {
+      "epoch": 1.995995631598107,
+      "grad_norm": 0.24200007319450378,
       "learning_rate": 2e-05,
+      "loss": 0.9461,
+      "mean_token_accuracy": 0.7285397097468376,
       "step": 685
     },
     {
+      "epoch": 2.0116490717145976,
+      "grad_norm": 0.23615935444831848,
       "learning_rate": 2e-05,
+      "loss": 0.9642,
+      "mean_token_accuracy": 0.735066328729902,
       "step": 690
     },
     {
+      "epoch": 2.026210411357845,
+      "grad_norm": 0.20251308381557465,
       "learning_rate": 2e-05,
+      "loss": 0.9104,
+      "mean_token_accuracy": 0.7364416778087616,
       "step": 695
     },
     {
+      "epoch": 2.0407717510010923,
+      "grad_norm": 0.17524279654026031,
       "learning_rate": 2e-05,
+      "loss": 0.9201,
+      "mean_token_accuracy": 0.7344257399439812,
       "step": 700
     },
     {
+      "epoch": 2.0407717510010923,
+      "eval_loss": 0.9588068127632141,
+      "eval_mean_token_accuracy": 0.7223332643508911,
+      "eval_runtime": 9.0725,
+      "eval_samples_per_second": 7.275,
+      "eval_steps_per_second": 0.551,
       "step": 700
     },
     {
+      "epoch": 2.0553330906443392,
+      "grad_norm": 0.177406445145607,
       "learning_rate": 2e-05,
+      "loss": 0.8955,
+      "mean_token_accuracy": 0.741851630806923,
       "step": 705
     },
     {
+      "epoch": 2.0698944302875866,
+      "grad_norm": 0.17523570358753204,
       "learning_rate": 2e-05,
+      "loss": 0.9214,
+      "mean_token_accuracy": 0.7350994989275932,
       "step": 710
     },
     {
+      "epoch": 2.0844557699308335,
+      "grad_norm": 0.18342241644859314,
       "learning_rate": 2e-05,
+      "loss": 0.9071,
+      "mean_token_accuracy": 0.7384255573153495,
       "step": 715
     },
     {
+      "epoch": 2.099017109574081,
+      "grad_norm": 0.17445097863674164,
       "learning_rate": 2e-05,
+      "loss": 0.901,
+      "mean_token_accuracy": 0.7399073630571366,
       "step": 720
     },
     {
+      "epoch": 2.113578449217328,
+      "grad_norm": 0.18421486020088196,
       "learning_rate": 2e-05,
+      "loss": 0.9381,
+      "mean_token_accuracy": 0.7290249973535537,
       "step": 725
     },
     {
+      "epoch": 2.128139788860575,
+      "grad_norm": 0.18407249450683594,
       "learning_rate": 2e-05,
+      "loss": 0.9094,
+      "mean_token_accuracy": 0.7381876617670059,
       "step": 730
     },
     {
+      "epoch": 2.1427011285038224,
+      "grad_norm": 0.19551889598369598,
       "learning_rate": 2e-05,
+      "loss": 0.902,
+      "mean_token_accuracy": 0.7397311061620713,
       "step": 735
     },
     {
+      "epoch": 2.1572624681470693,
+      "grad_norm": 0.19646836817264557,
       "learning_rate": 2e-05,
+      "loss": 0.9189,
+      "mean_token_accuracy": 0.7339320570230484,
       "step": 740
     },
     {
+      "epoch": 2.1718238077903167,
+      "grad_norm": 0.19153904914855957,
       "learning_rate": 2e-05,
+      "loss": 0.9209,
+      "mean_token_accuracy": 0.7338812783360481,
       "step": 745
     },
     {
+      "epoch": 2.186385147433564,
+      "grad_norm": 0.18896165490150452,
       "learning_rate": 2e-05,
+      "loss": 0.9115,
+      "mean_token_accuracy": 0.7361234918236732,
       "step": 750
     },
     {
+      "epoch": 2.200946487076811,
+      "grad_norm": 0.18773645162582397,
       "learning_rate": 2e-05,
+      "loss": 0.9167,
+      "mean_token_accuracy": 0.7351216241717339,
       "step": 755
     },
     {
+      "epoch": 2.2155078267200583,
+      "grad_norm": 0.16787868738174438,
       "learning_rate": 2e-05,
+      "loss": 0.9127,
+      "mean_token_accuracy": 0.7366888895630836,
       "step": 760
     },
     {
+      "epoch": 2.2300691663633057,
+      "grad_norm": 0.1758783459663391,
       "learning_rate": 2e-05,
+      "loss": 0.9042,
+      "mean_token_accuracy": 0.738301183283329,
       "step": 765
     },
     {
+      "epoch": 2.2446305060065526,
+      "grad_norm": 0.17144909501075745,
       "learning_rate": 2e-05,
+      "loss": 0.8967,
+      "mean_token_accuracy": 0.7403302609920501,
       "step": 770
     },
     {
+      "epoch": 2.2591918456498,
+      "grad_norm": 0.16952501237392426,
       "learning_rate": 2e-05,
+      "loss": 0.9238,
+      "mean_token_accuracy": 0.7333216354250908,
       "step": 775
     },
     {
+      "epoch": 2.273753185293047,
+      "grad_norm": 0.19771642982959747,
       "learning_rate": 2e-05,
+      "loss": 0.9211,
+      "mean_token_accuracy": 0.7324410900473595,
       "step": 780
     },
     {
+      "epoch": 2.288314524936294,
+      "grad_norm": 0.20366059243679047,
       "learning_rate": 2e-05,
+      "loss": 0.9051,
+      "mean_token_accuracy": 0.7371811017394065,
       "step": 785
     },
     {
+      "epoch": 2.3028758645795415,
+      "grad_norm": 0.18298108875751495,
       "learning_rate": 2e-05,
+      "loss": 0.915,
+      "mean_token_accuracy": 0.7352513417601585,
       "step": 790
     },
     {
+      "epoch": 2.3174372042227884,
+      "grad_norm": 0.17126043140888214,
       "learning_rate": 2e-05,
+      "loss": 0.9078,
+      "mean_token_accuracy": 0.7370902448892593,
       "step": 795
     },
     {
+      "epoch": 2.3319985438660358,
+      "grad_norm": 0.17268440127372742,
       "learning_rate": 2e-05,
+      "loss": 0.9083,
+      "mean_token_accuracy": 0.7362028434872627,
       "step": 800
     },
     {
+      "epoch": 2.3319985438660358,
+      "eval_loss": 0.9501657485961914,
+      "eval_mean_token_accuracy": 0.7240748167037964,
+      "eval_runtime": 9.038,
+      "eval_samples_per_second": 7.303,
+      "eval_steps_per_second": 0.553,
       "step": 800
     },
     {
+      "epoch": 2.3465598835092827,
+      "grad_norm": 0.18702249228954315,
       "learning_rate": 2e-05,
+      "loss": 0.912,
+      "mean_token_accuracy": 0.7360319286584854,
       "step": 805
     },
     {
+      "epoch": 2.36112122315253,
+      "grad_norm": 0.18535007536411285,
       "learning_rate": 2e-05,
+      "loss": 0.9181,
+      "mean_token_accuracy": 0.7348553270101548,
       "step": 810
     },
     {
+      "epoch": 2.3756825627957774,
+      "grad_norm": 0.19746533036231995,
       "learning_rate": 2e-05,
+      "loss": 0.9119,
+      "mean_token_accuracy": 0.7346351534128189,
       "step": 815
     },
     {
+      "epoch": 2.3902439024390243,
+      "grad_norm": 0.1812228113412857,
       "learning_rate": 2e-05,
+      "loss": 0.9166,
+      "mean_token_accuracy": 0.7355435863137245,
       "step": 820
     },
     {
+      "epoch": 2.4048052420822716,
+      "grad_norm": 0.1950427144765854,
       "learning_rate": 2e-05,
+      "loss": 0.9186,
+      "mean_token_accuracy": 0.7341731756925582,
       "step": 825
     },
     {
+      "epoch": 2.4193665817255186,
+      "grad_norm": 0.19460786879062653,
       "learning_rate": 2e-05,
+      "loss": 0.9136,
+      "mean_token_accuracy": 0.7349476546049118,
       "step": 830
     },
     {
+      "epoch": 2.433927921368766,
+      "grad_norm": 0.1719018816947937,
       "learning_rate": 2e-05,
+      "loss": 0.9104,
+      "mean_token_accuracy": 0.7361870780587196,
       "step": 835
     },
     {
+      "epoch": 2.4484892610120133,
+      "grad_norm": 0.16659170389175415,
       "learning_rate": 2e-05,
+      "loss": 0.8925,
+      "mean_token_accuracy": 0.740250737965107,
       "step": 840
     },
     {
+      "epoch": 2.46305060065526,
+      "grad_norm": 0.20289891958236694,
       "learning_rate": 2e-05,
+      "loss": 0.8955,
+      "mean_token_accuracy": 0.7406818434596062,
       "step": 845
     },
     {
+      "epoch": 2.4776119402985075,
+      "grad_norm": 0.19275344908237457,
       "learning_rate": 2e-05,
+      "loss": 0.9111,
+      "mean_token_accuracy": 0.7354253143072128,
       "step": 850
     },
     {
+      "epoch": 2.4921732799417544,
+      "grad_norm": 0.23027832806110382,
       "learning_rate": 2e-05,
+      "loss": 0.903,
+      "mean_token_accuracy": 0.7381577342748642,
       "step": 855
     },
     {
+      "epoch": 2.5067346195850018,
+      "grad_norm": 0.1945352405309677,
       "learning_rate": 2e-05,
+      "loss": 0.9107,
+      "mean_token_accuracy": 0.7365095824003219,
       "step": 860
     },
     {
+      "epoch": 2.521295959228249,
+      "grad_norm": 0.18727873265743256,
       "learning_rate": 2e-05,
+      "loss": 0.9044,
+      "mean_token_accuracy": 0.7381272122263909,
       "step": 865
     },
     {
+      "epoch": 2.535857298871496,
+      "grad_norm": 0.1687106490135193,
       "learning_rate": 2e-05,
+      "loss": 0.9016,
+      "mean_token_accuracy": 0.7383408591151237,
       "step": 870
     },
     {
+      "epoch": 2.5504186385147434,
+      "grad_norm": 0.18417419493198395,
       "learning_rate": 2e-05,
+      "loss": 0.9023,
+      "mean_token_accuracy": 0.7390033379197121,
       "step": 875
     },
     {
+      "epoch": 2.5649799781579903,
+      "grad_norm": 0.18553201854228973,
       "learning_rate": 2e-05,
+      "loss": 0.8995,
+      "mean_token_accuracy": 0.7391414895653725,
       "step": 880
     },
     {
+      "epoch": 2.5795413178012376,
+      "grad_norm": 0.17184361815452576,
       "learning_rate": 2e-05,
+      "loss": 0.8977,
+      "mean_token_accuracy": 0.7395716354250907,
       "step": 885
     },
     {
+      "epoch": 2.594102657444485,
+      "grad_norm": 0.19258299469947815,
       "learning_rate": 2e-05,
+      "loss": 0.9003,
+      "mean_token_accuracy": 0.7391077131032944,
       "step": 890
     },
     {
+      "epoch": 2.6086639970877323,
+      "grad_norm": 0.18599550426006317,
       "learning_rate": 2e-05,
+      "loss": 0.9007,
+      "mean_token_accuracy": 0.7381867274641991,
       "step": 895
     },
     {
+      "epoch": 2.6232253367309792,
+      "grad_norm": 0.1717829406261444,
       "learning_rate": 2e-05,
+      "loss": 0.9141,
+      "mean_token_accuracy": 0.7353848740458488,
       "step": 900
     },
     {
+      "epoch": 2.6232253367309792,
+      "eval_loss": 0.9417613744735718,
+      "eval_mean_token_accuracy": 0.7259013175964355,
+      "eval_runtime": 9.0308,
+      "eval_samples_per_second": 7.308,
+      "eval_steps_per_second": 0.554,
       "step": 900
     },
     {
+      "epoch": 2.6377866763742266,
+      "grad_norm": 0.1715007722377777,
       "learning_rate": 2e-05,
+      "loss": 0.8983,
+      "mean_token_accuracy": 0.7399233922362327,
       "step": 905
     },
     {
+      "epoch": 2.6523480160174735,
+      "grad_norm": 0.20033277571201324,
       "learning_rate": 2e-05,
+      "loss": 0.8892,
+      "mean_token_accuracy": 0.7421796754002571,
       "step": 910
     },
     {
+      "epoch": 2.666909355660721,
+      "grad_norm": 0.19205278158187866,
       "learning_rate": 2e-05,
+      "loss": 0.9151,
+      "mean_token_accuracy": 0.7349491819739342,
       "step": 915
     },
     {
+      "epoch": 2.681470695303968,
+      "grad_norm": 0.1759193241596222,
       "learning_rate": 2e-05,
+      "loss": 0.8897,
+      "mean_token_accuracy": 0.7411266922950744,
       "step": 920
     },
     {
+      "epoch": 2.696032034947215,
+      "grad_norm": 0.18072772026062012,
       "learning_rate": 2e-05,
+      "loss": 0.9085,
+      "mean_token_accuracy": 0.737930352985859,
       "step": 925
     },
     {
+      "epoch": 2.7105933745904625,
+      "grad_norm": 0.18214493989944458,
       "learning_rate": 2e-05,
+      "loss": 0.9032,
+      "mean_token_accuracy": 0.737660813331604,
       "step": 930
     },
     {
+      "epoch": 2.7251547142337094,
+      "grad_norm": 0.1743292659521103,
       "learning_rate": 2e-05,
+      "loss": 0.8834,
+      "mean_token_accuracy": 0.7436462283134461,
       "step": 935
     },
     {
+      "epoch": 2.7397160538769567,
+      "grad_norm": 0.21689608693122864,
       "learning_rate": 2e-05,
+      "loss": 0.8943,
+      "mean_token_accuracy": 0.7397776529192924,
       "step": 940
     },
     {
+      "epoch": 2.754277393520204,
+      "grad_norm": 0.19008708000183105,
       "learning_rate": 2e-05,
+      "loss": 0.9243,
+      "mean_token_accuracy": 0.7323350265622139,
       "step": 945
     },
     {
+      "epoch": 2.768838733163451,
+      "grad_norm": 0.20445488393306732,
       "learning_rate": 2e-05,
+      "loss": 0.8923,
+      "mean_token_accuracy": 0.7400558426976204,
       "step": 950
     },
     {
+      "epoch": 2.7834000728066983,
+      "grad_norm": 0.18380148708820343,
       "learning_rate": 2e-05,
+      "loss": 0.8938,
+      "mean_token_accuracy": 0.7402835443615914,
       "step": 955
     },
     {
+      "epoch": 2.7979614124499452,
+      "grad_norm": 0.17851661145687103,
       "learning_rate": 2e-05,
+      "loss": 0.8992,
+      "mean_token_accuracy": 0.7384199738502503,
       "step": 960
     },
     {
+      "epoch": 2.8125227520931926,
+      "grad_norm": 0.20929712057113647,
       "learning_rate": 2e-05,
+      "loss": 0.895,
+      "mean_token_accuracy": 0.740375104546547,
       "step": 965
     },
     {
+      "epoch": 2.82708409173644,
+      "grad_norm": 0.19595912098884583,
       "learning_rate": 2e-05,
+      "loss": 0.9008,
+      "mean_token_accuracy": 0.7384095326066017,
       "step": 970
     },
     {
+      "epoch": 2.841645431379687,
+      "grad_norm": 0.17353329062461853,
       "learning_rate": 2e-05,
+      "loss": 0.9021,
+      "mean_token_accuracy": 0.7383004203438759,
       "step": 975
     },
     {
+      "epoch": 2.856206771022934,
+      "grad_norm": 0.1858338862657547,
       "learning_rate": 2e-05,
+      "loss": 0.9004,
+      "mean_token_accuracy": 0.7389308467507363,
       "step": 980
     },
     {
+      "epoch": 2.870768110666181,
+      "grad_norm": 0.18422286212444305,
       "learning_rate": 2e-05,
+      "loss": 0.9109,
+      "mean_token_accuracy": 0.7359930142760277,
       "step": 985
     },
     {
+      "epoch": 2.8853294503094284,
+      "grad_norm": 0.17848879098892212,
       "learning_rate": 2e-05,
+      "loss": 0.8953,
+      "mean_token_accuracy": 0.7397311091423034,
       "step": 990
     },
     {
+      "epoch": 2.899890789952676,
+      "grad_norm": 0.1943521797657013,
       "learning_rate": 2e-05,
+      "loss": 0.8961,
+      "mean_token_accuracy": 0.7394258737564087,
       "step": 995
     },
     {
+      "epoch": 2.9144521295959227,
+      "grad_norm": 0.19629698991775513,
       "learning_rate": 2e-05,
+      "loss": 0.9044,
+      "mean_token_accuracy": 0.7370201960206032,
       "step": 1000
     },
     {
+      "epoch": 2.9144521295959227,
+      "eval_loss": 0.9340672492980957,
+      "eval_mean_token_accuracy": 0.7274513006210327,
+      "eval_runtime": 9.0532,
+      "eval_samples_per_second": 7.29,
+      "eval_steps_per_second": 0.552,
       "step": 1000
     },
     {
+      "epoch": 2.92901346923917,
+      "grad_norm": 0.19953298568725586,
       "learning_rate": 2e-05,
+      "loss": 0.9018,
+      "mean_token_accuracy": 0.7379929170012474,
       "step": 1005
     },
     {
+      "epoch": 2.943574808882417,
+      "grad_norm": 0.19467906653881073,
       "learning_rate": 2e-05,
+      "loss": 0.9054,
+      "mean_token_accuracy": 0.7371795266866684,
       "step": 1010
     },
     {
+      "epoch": 2.9581361485256643,
+      "grad_norm": 0.18607822060585022,
       "learning_rate": 2e-05,
+      "loss": 0.9015,
+      "mean_token_accuracy": 0.7378426045179367,
       "step": 1015
     },
     {
+      "epoch": 2.9726974881689117,
+      "grad_norm": 0.18633662164211273,
       "learning_rate": 2e-05,
+      "loss": 0.9047,
+      "mean_token_accuracy": 0.737396989762783,
       "step": 1020
     },
     {
+      "epoch": 2.9872588278121586,
+      "grad_norm": 0.17410708963871002,
       "learning_rate": 2e-05,
+      "loss": 0.8927,
+      "mean_token_accuracy": 0.7408069744706154,
       "step": 1025
     },
     {
+      "epoch": 2.9989078995267566,
+      "mean_token_accuracy": 0.7377504613250494,
+      "step": 1029,
       "total_flos": 0.0,
+      "train_loss": 0.9946218774200528,
+      "train_runtime": 21041.6427,
+      "train_samples_per_second": 1.566,
+      "train_steps_per_second": 0.049
     }
   ],
   "logging_steps": 5,
+  "max_steps": 1029,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
     }
   },
   "total_flos": 0.0,
+  "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null
 }