End of training

Browse files

Files changed (5) hide show

README.md +2 -2
all_results.json +6 -6
eval_results.json +3 -3
train_results.json +3 -3
trainer_state.json +603 -603

README.md CHANGED Viewed

@@ -16,9 +16,9 @@ should probably proofread and complete it, then remove this comment. -->
 # train_stsb_1745333591
-This model is a fine-tuned version of [meta-llama/Meta-Llama-3-8B-Instruct](https://huggingface.co/meta-llama/Meta-Llama-3-8B-Instruct) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 2.1370
 - Num Input Tokens Seen: 54490336
 ## Model description

 # train_stsb_1745333591
+This model is a fine-tuned version of [meta-llama/Meta-Llama-3-8B-Instruct](https://huggingface.co/meta-llama/Meta-Llama-3-8B-Instruct) on the stsb dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.5494
 - Num Input Tokens Seen: 54490336
 ## Model description

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
     "epoch": 123.45749613601237,
     "eval_loss": 0.5493518114089966,
-    "eval_runtime": 11.2648,
-    "eval_samples_per_second": 51.044,
-    "eval_steps_per_second": 12.783,
     "num_input_tokens_seen": 54490336,
     "total_flos": 2.453675202191819e+18,
     "train_loss": 0.10362623064493919,
-    "train_runtime": 29327.4396,
-    "train_samples_per_second": 21.823,
-    "train_steps_per_second": 1.364
 }

 {
     "epoch": 123.45749613601237,
     "eval_loss": 0.5493518114089966,
+    "eval_runtime": 11.3055,
+    "eval_samples_per_second": 50.86,
+    "eval_steps_per_second": 12.737,
     "num_input_tokens_seen": 54490336,
     "total_flos": 2.453675202191819e+18,
     "train_loss": 0.10362623064493919,
+    "train_runtime": 29204.064,
+    "train_samples_per_second": 21.915,
+    "train_steps_per_second": 1.37
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 123.45749613601237,
     "eval_loss": 0.5493518114089966,
-    "eval_runtime": 11.2648,
-    "eval_samples_per_second": 51.044,
-    "eval_steps_per_second": 12.783,
     "num_input_tokens_seen": 54490336
 }

 {
     "epoch": 123.45749613601237,
     "eval_loss": 0.5493518114089966,
+    "eval_runtime": 11.3055,
+    "eval_samples_per_second": 50.86,
+    "eval_steps_per_second": 12.737,
     "num_input_tokens_seen": 54490336
 }

train_results.json CHANGED Viewed

@@ -3,7 +3,7 @@
     "num_input_tokens_seen": 54490336,
     "total_flos": 2.453675202191819e+18,
     "train_loss": 0.10362623064493919,
-    "train_runtime": 29327.4396,
-    "train_samples_per_second": 21.823,
-    "train_steps_per_second": 1.364
 }

     "num_input_tokens_seen": 54490336,
     "total_flos": 2.453675202191819e+18,
     "train_loss": 0.10362623064493919,
+    "train_runtime": 29204.064,
+    "train_samples_per_second": 21.915,
+    "train_steps_per_second": 1.37
 }

trainer_state.json CHANGED Viewed

@@ -332,9 +332,9 @@
     {
       "epoch": 0.6182380216383307,
       "eval_loss": 0.9577658176422119,
-      "eval_runtime": 11.2148,
-      "eval_samples_per_second": 51.271,
-      "eval_steps_per_second": 12.84,
       "num_input_tokens_seen": 272576,
       "step": 200
     },
@@ -661,9 +661,9 @@
     {
       "epoch": 1.2349304482225656,
       "eval_loss": 0.7184381484985352,
-      "eval_runtime": 11.2254,
-      "eval_samples_per_second": 51.223,
-      "eval_steps_per_second": 12.828,
       "num_input_tokens_seen": 544096,
       "step": 400
     },
@@ -990,9 +990,9 @@
     {
       "epoch": 1.8531684698608966,
       "eval_loss": 0.6815493106842041,
-      "eval_runtime": 11.2454,
-      "eval_samples_per_second": 51.132,
-      "eval_steps_per_second": 12.805,
       "num_input_tokens_seen": 818048,
       "step": 600
     },
@@ -1319,9 +1319,9 @@
     {
       "epoch": 2.469860896445131,
       "eval_loss": 0.6753404140472412,
-      "eval_runtime": 11.2293,
-      "eval_samples_per_second": 51.205,
-      "eval_steps_per_second": 12.824,
       "num_input_tokens_seen": 1089600,
       "step": 800
     },
@@ -1648,9 +1648,9 @@
     {
       "epoch": 3.0865533230293662,
       "eval_loss": 0.6587666273117065,
-      "eval_runtime": 11.228,
-      "eval_samples_per_second": 51.211,
-      "eval_steps_per_second": 12.825,
       "num_input_tokens_seen": 1361504,
       "step": 1000
     },
@@ -1977,9 +1977,9 @@
     {
       "epoch": 3.704791344667697,
       "eval_loss": 0.6507958173751831,
-      "eval_runtime": 11.2113,
-      "eval_samples_per_second": 51.288,
-      "eval_steps_per_second": 12.844,
       "num_input_tokens_seen": 1636960,
       "step": 1200
     },
@@ -2306,9 +2306,9 @@
     {
       "epoch": 4.321483771251932,
       "eval_loss": 0.6580312252044678,
-      "eval_runtime": 11.2184,
-      "eval_samples_per_second": 51.255,
-      "eval_steps_per_second": 12.836,
       "num_input_tokens_seen": 1909696,
       "step": 1400
     },
@@ -2635,9 +2635,9 @@
     {
       "epoch": 4.939721792890262,
       "eval_loss": 0.6381492614746094,
-      "eval_runtime": 11.2079,
-      "eval_samples_per_second": 51.303,
-      "eval_steps_per_second": 12.848,
       "num_input_tokens_seen": 2182656,
       "step": 1600
     },
@@ -2964,9 +2964,9 @@
     {
       "epoch": 5.556414219474497,
       "eval_loss": 0.6330167055130005,
-      "eval_runtime": 11.3399,
-      "eval_samples_per_second": 50.706,
-      "eval_steps_per_second": 12.699,
       "num_input_tokens_seen": 2453904,
       "step": 1800
     },
@@ -3293,9 +3293,9 @@
     {
       "epoch": 6.1731066460587325,
       "eval_loss": 0.6232376098632812,
-      "eval_runtime": 11.2806,
-      "eval_samples_per_second": 50.972,
-      "eval_steps_per_second": 12.765,
       "num_input_tokens_seen": 2727984,
       "step": 2000
     },
@@ -3622,9 +3622,9 @@
     {
       "epoch": 6.7913446676970635,
       "eval_loss": 0.6167892813682556,
-      "eval_runtime": 11.2823,
-      "eval_samples_per_second": 50.965,
-      "eval_steps_per_second": 12.763,
       "num_input_tokens_seen": 2999760,
       "step": 2200
     },
@@ -3951,9 +3951,9 @@
     {
       "epoch": 7.4080370942812985,
       "eval_loss": 0.5621501207351685,
-      "eval_runtime": 11.2613,
-      "eval_samples_per_second": 51.06,
-      "eval_steps_per_second": 12.787,
       "num_input_tokens_seen": 3274528,
       "step": 2400
     },
@@ -4280,9 +4280,9 @@
     {
       "epoch": 8.024729520865533,
       "eval_loss": 0.5813793540000916,
-      "eval_runtime": 11.2929,
-      "eval_samples_per_second": 50.917,
-      "eval_steps_per_second": 12.751,
       "num_input_tokens_seen": 3546880,
       "step": 2600
     },
@@ -4609,9 +4609,9 @@
     {
       "epoch": 8.642967542503865,
       "eval_loss": 0.5915025472640991,
-      "eval_runtime": 11.2898,
-      "eval_samples_per_second": 50.931,
-      "eval_steps_per_second": 12.755,
       "num_input_tokens_seen": 3821184,
       "step": 2800
     },
@@ -4938,9 +4938,9 @@
     {
       "epoch": 9.2596599690881,
       "eval_loss": 0.5584082007408142,
-      "eval_runtime": 11.2915,
-      "eval_samples_per_second": 50.923,
-      "eval_steps_per_second": 12.753,
       "num_input_tokens_seen": 4090704,
       "step": 3000
     },
@@ -5267,9 +5267,9 @@
     {
       "epoch": 9.87789799072643,
       "eval_loss": 0.562062680721283,
-      "eval_runtime": 11.3185,
-      "eval_samples_per_second": 50.802,
-      "eval_steps_per_second": 12.723,
       "num_input_tokens_seen": 4363696,
       "step": 3200
     },
@@ -5596,9 +5596,9 @@
     {
       "epoch": 10.494590417310665,
       "eval_loss": 0.5493518114089966,
-      "eval_runtime": 11.2869,
-      "eval_samples_per_second": 50.944,
-      "eval_steps_per_second": 12.758,
       "num_input_tokens_seen": 4636656,
       "step": 3400
     },
@@ -5925,9 +5925,9 @@
     {
       "epoch": 11.1112828438949,
       "eval_loss": 0.5832644701004028,
-      "eval_runtime": 11.3381,
-      "eval_samples_per_second": 50.714,
-      "eval_steps_per_second": 12.7,
       "num_input_tokens_seen": 4908928,
       "step": 3600
     },
@@ -6254,9 +6254,9 @@
     {
       "epoch": 11.72952086553323,
       "eval_loss": 0.5668447017669678,
-      "eval_runtime": 11.3233,
-      "eval_samples_per_second": 50.78,
-      "eval_steps_per_second": 12.717,
       "num_input_tokens_seen": 5179040,
       "step": 3800
     },
@@ -6583,9 +6583,9 @@
     {
       "epoch": 12.346213292117465,
       "eval_loss": 0.5749086737632751,
-      "eval_runtime": 11.3249,
-      "eval_samples_per_second": 50.773,
-      "eval_steps_per_second": 12.715,
       "num_input_tokens_seen": 5452192,
       "step": 4000
     },
@@ -6912,9 +6912,9 @@
     {
       "epoch": 12.964451313755795,
       "eval_loss": 0.564673900604248,
-      "eval_runtime": 11.3159,
-      "eval_samples_per_second": 50.813,
-      "eval_steps_per_second": 12.725,
       "num_input_tokens_seen": 5724448,
       "step": 4200
     },
@@ -7241,9 +7241,9 @@
     {
       "epoch": 13.58114374034003,
       "eval_loss": 0.557171642780304,
-      "eval_runtime": 11.3161,
-      "eval_samples_per_second": 50.813,
-      "eval_steps_per_second": 12.725,
       "num_input_tokens_seen": 5998032,
       "step": 4400
     },
@@ -7570,9 +7570,9 @@
     {
       "epoch": 14.197836166924265,
       "eval_loss": 0.5686624050140381,
-      "eval_runtime": 11.3282,
-      "eval_samples_per_second": 50.758,
-      "eval_steps_per_second": 12.712,
       "num_input_tokens_seen": 6269792,
       "step": 4600
     },
@@ -7899,9 +7899,9 @@
     {
       "epoch": 14.816074188562597,
       "eval_loss": 0.5626024603843689,
-      "eval_runtime": 11.3545,
-      "eval_samples_per_second": 50.641,
-      "eval_steps_per_second": 12.682,
       "num_input_tokens_seen": 6541248,
       "step": 4800
     },
@@ -8228,9 +8228,9 @@
     {
       "epoch": 15.432766615146832,
       "eval_loss": 0.5851988196372986,
-      "eval_runtime": 11.3221,
-      "eval_samples_per_second": 50.786,
-      "eval_steps_per_second": 12.719,
       "num_input_tokens_seen": 6815200,
       "step": 5000
     },
@@ -8557,9 +8557,9 @@
     {
       "epoch": 16.049459041731065,
       "eval_loss": 0.6189093589782715,
-      "eval_runtime": 11.3258,
-      "eval_samples_per_second": 50.769,
-      "eval_steps_per_second": 12.714,
       "num_input_tokens_seen": 7086224,
       "step": 5200
     },
@@ -8886,9 +8886,9 @@
     {
       "epoch": 16.667697063369395,
       "eval_loss": 0.6122633814811707,
-      "eval_runtime": 11.3336,
-      "eval_samples_per_second": 50.734,
-      "eval_steps_per_second": 12.706,
       "num_input_tokens_seen": 7360560,
       "step": 5400
     },
@@ -9215,9 +9215,9 @@
     {
       "epoch": 17.284389489953632,
       "eval_loss": 0.611182689666748,
-      "eval_runtime": 11.3271,
-      "eval_samples_per_second": 50.763,
-      "eval_steps_per_second": 12.713,
       "num_input_tokens_seen": 7632240,
       "step": 5600
     },
@@ -9544,9 +9544,9 @@
     {
       "epoch": 17.902627511591962,
       "eval_loss": 0.5843232274055481,
-      "eval_runtime": 11.3479,
-      "eval_samples_per_second": 50.67,
-      "eval_steps_per_second": 12.69,
       "num_input_tokens_seen": 7904432,
       "step": 5800
     },
@@ -9873,9 +9873,9 @@
     {
       "epoch": 18.5193199381762,
       "eval_loss": 0.6198561191558838,
-      "eval_runtime": 11.325,
-      "eval_samples_per_second": 50.773,
-      "eval_steps_per_second": 12.715,
       "num_input_tokens_seen": 8177168,
       "step": 6000
     },
@@ -10202,9 +10202,9 @@
     {
       "epoch": 19.136012364760433,
       "eval_loss": 0.6794010996818542,
-      "eval_runtime": 11.3249,
-      "eval_samples_per_second": 50.773,
-      "eval_steps_per_second": 12.715,
       "num_input_tokens_seen": 8449968,
       "step": 6200
     },
@@ -10531,9 +10531,9 @@
     {
       "epoch": 19.754250386398763,
       "eval_loss": 0.6374606490135193,
-      "eval_runtime": 11.3306,
-      "eval_samples_per_second": 50.748,
-      "eval_steps_per_second": 12.709,
       "num_input_tokens_seen": 8722992,
       "step": 6400
     },
@@ -10860,9 +10860,9 @@
     {
       "epoch": 20.370942812983,
       "eval_loss": 0.6705669164657593,
-      "eval_runtime": 11.3299,
-      "eval_samples_per_second": 50.751,
-      "eval_steps_per_second": 12.71,
       "num_input_tokens_seen": 8996224,
       "step": 6600
     },
@@ -11189,9 +11189,9 @@
     {
       "epoch": 20.98918083462133,
       "eval_loss": 0.648054838180542,
-      "eval_runtime": 11.3243,
-      "eval_samples_per_second": 50.776,
-      "eval_steps_per_second": 12.716,
       "num_input_tokens_seen": 9269504,
       "step": 6800
     },
@@ -11518,9 +11518,9 @@
     {
       "epoch": 21.605873261205563,
       "eval_loss": 0.7299332618713379,
-      "eval_runtime": 11.3174,
-      "eval_samples_per_second": 50.807,
-      "eval_steps_per_second": 12.724,
       "num_input_tokens_seen": 9542432,
       "step": 7000
     },
@@ -11847,9 +11847,9 @@
     {
       "epoch": 22.2225656877898,
       "eval_loss": 0.7840644717216492,
-      "eval_runtime": 11.3356,
-      "eval_samples_per_second": 50.725,
-      "eval_steps_per_second": 12.703,
       "num_input_tokens_seen": 9812704,
       "step": 7200
     },
@@ -12176,9 +12176,9 @@
     {
       "epoch": 22.84080370942813,
       "eval_loss": 0.7381678819656372,
-      "eval_runtime": 11.3316,
-      "eval_samples_per_second": 50.743,
-      "eval_steps_per_second": 12.708,
       "num_input_tokens_seen": 10086272,
       "step": 7400
     },
@@ -12505,9 +12505,9 @@
     {
       "epoch": 23.457496136012363,
       "eval_loss": 0.7728149890899658,
-      "eval_runtime": 11.3287,
-      "eval_samples_per_second": 50.756,
-      "eval_steps_per_second": 12.711,
       "num_input_tokens_seen": 10358832,
       "step": 7600
     },
@@ -12834,9 +12834,9 @@
     {
       "epoch": 24.0741885625966,
       "eval_loss": 0.8268849849700928,
-      "eval_runtime": 11.5298,
-      "eval_samples_per_second": 49.871,
-      "eval_steps_per_second": 12.489,
       "num_input_tokens_seen": 10630000,
       "step": 7800
     },
@@ -13163,9 +13163,9 @@
     {
       "epoch": 24.69242658423493,
       "eval_loss": 0.8175145983695984,
-      "eval_runtime": 11.3248,
-      "eval_samples_per_second": 50.774,
-      "eval_steps_per_second": 12.715,
       "num_input_tokens_seen": 10904880,
       "step": 8000
     },
@@ -13492,9 +13492,9 @@
     {
       "epoch": 25.309119010819167,
       "eval_loss": 0.8719689249992371,
-      "eval_runtime": 11.3173,
-      "eval_samples_per_second": 50.807,
-      "eval_steps_per_second": 12.724,
       "num_input_tokens_seen": 11176208,
       "step": 8200
     },
@@ -13821,9 +13821,9 @@
     {
       "epoch": 25.927357032457497,
       "eval_loss": 0.9041878581047058,
-      "eval_runtime": 11.3491,
-      "eval_samples_per_second": 50.665,
-      "eval_steps_per_second": 12.688,
       "num_input_tokens_seen": 11451344,
       "step": 8400
     },
@@ -14150,9 +14150,9 @@
     {
       "epoch": 26.54404945904173,
       "eval_loss": 0.8620166778564453,
-      "eval_runtime": 11.3331,
-      "eval_samples_per_second": 50.736,
-      "eval_steps_per_second": 12.706,
       "num_input_tokens_seen": 11723328,
       "step": 8600
     },
@@ -14479,9 +14479,9 @@
     {
       "epoch": 27.160741885625967,
       "eval_loss": 0.9756768345832825,
-      "eval_runtime": 11.3464,
-      "eval_samples_per_second": 50.677,
-      "eval_steps_per_second": 12.691,
       "num_input_tokens_seen": 11996224,
       "step": 8800
     },
@@ -14808,9 +14808,9 @@
     {
       "epoch": 27.778979907264297,
       "eval_loss": 0.9385554194450378,
-      "eval_runtime": 11.3441,
-      "eval_samples_per_second": 50.687,
-      "eval_steps_per_second": 12.694,
       "num_input_tokens_seen": 12267520,
       "step": 9000
     },
@@ -15137,9 +15137,9 @@
     {
       "epoch": 28.39567233384853,
       "eval_loss": 0.9237757921218872,
-      "eval_runtime": 11.3148,
-      "eval_samples_per_second": 50.819,
-      "eval_steps_per_second": 12.727,
       "num_input_tokens_seen": 12542064,
       "step": 9200
     },
@@ -15466,9 +15466,9 @@
     {
       "epoch": 29.012364760432767,
       "eval_loss": 1.064571499824524,
-      "eval_runtime": 11.3576,
-      "eval_samples_per_second": 50.627,
-      "eval_steps_per_second": 12.679,
       "num_input_tokens_seen": 12812048,
       "step": 9400
     },
@@ -15795,9 +15795,9 @@
     {
       "epoch": 29.630602782071097,
       "eval_loss": 1.0749653577804565,
-      "eval_runtime": 11.3204,
-      "eval_samples_per_second": 50.793,
-      "eval_steps_per_second": 12.72,
       "num_input_tokens_seen": 13085264,
       "step": 9600
     },
@@ -16124,9 +16124,9 @@
     {
       "epoch": 30.24729520865533,
       "eval_loss": 1.0077648162841797,
-      "eval_runtime": 11.3544,
-      "eval_samples_per_second": 50.641,
-      "eval_steps_per_second": 12.682,
       "num_input_tokens_seen": 13356384,
       "step": 9800
     },
@@ -16453,9 +16453,9 @@
     {
       "epoch": 30.865533230293664,
       "eval_loss": 1.057982325553894,
-      "eval_runtime": 11.3281,
-      "eval_samples_per_second": 50.759,
-      "eval_steps_per_second": 12.712,
       "num_input_tokens_seen": 13629216,
       "step": 10000
     },
@@ -16782,9 +16782,9 @@
     {
       "epoch": 31.482225656877898,
       "eval_loss": 1.0450738668441772,
-      "eval_runtime": 11.3237,
-      "eval_samples_per_second": 50.779,
-      "eval_steps_per_second": 12.717,
       "num_input_tokens_seen": 13902736,
       "step": 10200
     },
@@ -17111,9 +17111,9 @@
     {
       "epoch": 32.09891808346213,
       "eval_loss": 1.0477303266525269,
-      "eval_runtime": 11.3224,
-      "eval_samples_per_second": 50.784,
-      "eval_steps_per_second": 12.718,
       "num_input_tokens_seen": 14174192,
       "step": 10400
     },
@@ -17440,9 +17440,9 @@
     {
       "epoch": 32.717156105100464,
       "eval_loss": 1.14347243309021,
-      "eval_runtime": 11.3251,
-      "eval_samples_per_second": 50.772,
-      "eval_steps_per_second": 12.715,
       "num_input_tokens_seen": 14448176,
       "step": 10600
     },
@@ -17769,9 +17769,9 @@
     {
       "epoch": 33.3338485316847,
       "eval_loss": 1.0730254650115967,
-      "eval_runtime": 11.3372,
-      "eval_samples_per_second": 50.718,
-      "eval_steps_per_second": 12.702,
       "num_input_tokens_seen": 14718096,
       "step": 10800
     },
@@ -18098,9 +18098,9 @@
     {
       "epoch": 33.95208655332303,
       "eval_loss": 1.0351147651672363,
-      "eval_runtime": 11.3273,
-      "eval_samples_per_second": 50.762,
-      "eval_steps_per_second": 12.713,
       "num_input_tokens_seen": 14992048,
       "step": 11000
     },
@@ -18427,9 +18427,9 @@
     {
       "epoch": 34.568778979907265,
       "eval_loss": 1.1394553184509277,
-      "eval_runtime": 11.3296,
-      "eval_samples_per_second": 50.752,
-      "eval_steps_per_second": 12.71,
       "num_input_tokens_seen": 15265072,
       "step": 11200
     },
@@ -18756,9 +18756,9 @@
     {
       "epoch": 35.1854714064915,
       "eval_loss": 1.1201566457748413,
-      "eval_runtime": 11.327,
-      "eval_samples_per_second": 50.764,
-      "eval_steps_per_second": 12.713,
       "num_input_tokens_seen": 15538960,
       "step": 11400
     },
@@ -19085,9 +19085,9 @@
     {
       "epoch": 35.80370942812983,
       "eval_loss": 1.133685827255249,
-      "eval_runtime": 11.3415,
-      "eval_samples_per_second": 50.699,
-      "eval_steps_per_second": 12.697,
       "num_input_tokens_seen": 15812880,
       "step": 11600
     },
@@ -19414,9 +19414,9 @@
     {
       "epoch": 36.420401854714065,
       "eval_loss": 1.1776589155197144,
-      "eval_runtime": 11.336,
-      "eval_samples_per_second": 50.723,
-      "eval_steps_per_second": 12.703,
       "num_input_tokens_seen": 16082608,
       "step": 11800
     },
@@ -19743,9 +19743,9 @@
     {
       "epoch": 37.0370942812983,
       "eval_loss": 1.18972909450531,
-      "eval_runtime": 11.3254,
-      "eval_samples_per_second": 50.771,
-      "eval_steps_per_second": 12.715,
       "num_input_tokens_seen": 16357888,
       "step": 12000
     },
@@ -20072,9 +20072,9 @@
     {
       "epoch": 37.65533230293663,
       "eval_loss": 1.2221449613571167,
-      "eval_runtime": 11.351,
-      "eval_samples_per_second": 50.656,
-      "eval_steps_per_second": 12.686,
       "num_input_tokens_seen": 16627872,
       "step": 12200
     },
@@ -20401,9 +20401,9 @@
     {
       "epoch": 38.272024729520865,
       "eval_loss": 1.169758677482605,
-      "eval_runtime": 11.3289,
-      "eval_samples_per_second": 50.755,
-      "eval_steps_per_second": 12.711,
       "num_input_tokens_seen": 16900336,
       "step": 12400
     },
@@ -20730,9 +20730,9 @@
     {
       "epoch": 38.8902627511592,
       "eval_loss": 1.1674479246139526,
-      "eval_runtime": 11.3543,
-      "eval_samples_per_second": 50.642,
-      "eval_steps_per_second": 12.682,
       "num_input_tokens_seen": 17175024,
       "step": 12600
     },
@@ -21059,9 +21059,9 @@
     {
       "epoch": 39.50695517774343,
       "eval_loss": 1.1664071083068848,
-      "eval_runtime": 11.3286,
-      "eval_samples_per_second": 50.757,
-      "eval_steps_per_second": 12.711,
       "num_input_tokens_seen": 17446864,
       "step": 12800
     },
@@ -21388,9 +21388,9 @@
     {
       "epoch": 40.123647604327665,
       "eval_loss": 1.2493196725845337,
-      "eval_runtime": 11.3259,
-      "eval_samples_per_second": 50.769,
-      "eval_steps_per_second": 12.714,
       "num_input_tokens_seen": 17716560,
       "step": 13000
     },
@@ -21717,9 +21717,9 @@
     {
       "epoch": 40.741885625966,
       "eval_loss": 1.3186978101730347,
-      "eval_runtime": 11.3339,
-      "eval_samples_per_second": 50.733,
-      "eval_steps_per_second": 12.705,
       "num_input_tokens_seen": 17991792,
       "step": 13200
     },
@@ -22046,9 +22046,9 @@
     {
       "epoch": 41.35857805255023,
       "eval_loss": 1.256793737411499,
-      "eval_runtime": 11.3245,
-      "eval_samples_per_second": 50.775,
-      "eval_steps_per_second": 12.716,
       "num_input_tokens_seen": 18262992,
       "step": 13400
     },
@@ -22375,9 +22375,9 @@
     {
       "epoch": 41.97681607418856,
       "eval_loss": 1.2447845935821533,
-      "eval_runtime": 11.3516,
-      "eval_samples_per_second": 50.654,
-      "eval_steps_per_second": 12.685,
       "num_input_tokens_seen": 18536880,
       "step": 13600
     },
@@ -22704,9 +22704,9 @@
     {
       "epoch": 42.5935085007728,
       "eval_loss": 1.233655333518982,
-      "eval_runtime": 11.3337,
-      "eval_samples_per_second": 50.734,
-      "eval_steps_per_second": 12.705,
       "num_input_tokens_seen": 18806784,
       "step": 13800
     },
@@ -23033,9 +23033,9 @@
     {
       "epoch": 43.210200927357036,
       "eval_loss": 1.254447102546692,
-      "eval_runtime": 11.3281,
-      "eval_samples_per_second": 50.759,
-      "eval_steps_per_second": 12.712,
       "num_input_tokens_seen": 19080608,
       "step": 14000
     },
@@ -23362,9 +23362,9 @@
     {
       "epoch": 43.82843894899536,
       "eval_loss": 1.3475619554519653,
-      "eval_runtime": 11.3651,
-      "eval_samples_per_second": 50.593,
-      "eval_steps_per_second": 12.67,
       "num_input_tokens_seen": 19352320,
       "step": 14200
     },
@@ -23691,9 +23691,9 @@
     {
       "epoch": 44.4451313755796,
       "eval_loss": 1.2956358194351196,
-      "eval_runtime": 11.3316,
-      "eval_samples_per_second": 50.743,
-      "eval_steps_per_second": 12.708,
       "num_input_tokens_seen": 19624544,
       "step": 14400
     },
@@ -24020,9 +24020,9 @@
     {
       "epoch": 45.061823802163836,
       "eval_loss": 1.214294195175171,
-      "eval_runtime": 11.3366,
-      "eval_samples_per_second": 50.721,
-      "eval_steps_per_second": 12.702,
       "num_input_tokens_seen": 19896064,
       "step": 14600
     },
@@ -24349,9 +24349,9 @@
     {
       "epoch": 45.68006182380216,
       "eval_loss": 1.200486660003662,
-      "eval_runtime": 11.3392,
-      "eval_samples_per_second": 50.709,
-      "eval_steps_per_second": 12.699,
       "num_input_tokens_seen": 20168064,
       "step": 14800
     },
@@ -24678,9 +24678,9 @@
     {
       "epoch": 46.2967542503864,
       "eval_loss": 1.3230748176574707,
-      "eval_runtime": 11.3422,
-      "eval_samples_per_second": 50.696,
-      "eval_steps_per_second": 12.696,
       "num_input_tokens_seen": 20440208,
       "step": 15000
     },
@@ -25007,9 +25007,9 @@
     {
       "epoch": 46.914992272024726,
       "eval_loss": 1.2638696432113647,
-      "eval_runtime": 11.3504,
-      "eval_samples_per_second": 50.659,
-      "eval_steps_per_second": 12.687,
       "num_input_tokens_seen": 20713296,
       "step": 15200
     },
@@ -25336,9 +25336,9 @@
     {
       "epoch": 47.53168469860896,
       "eval_loss": 1.3379755020141602,
-      "eval_runtime": 11.3332,
-      "eval_samples_per_second": 50.736,
-      "eval_steps_per_second": 12.706,
       "num_input_tokens_seen": 20985744,
       "step": 15400
     },
@@ -25665,9 +25665,9 @@
     {
       "epoch": 48.1483771251932,
       "eval_loss": 1.2503776550292969,
-      "eval_runtime": 11.3453,
-      "eval_samples_per_second": 50.682,
-      "eval_steps_per_second": 12.692,
       "num_input_tokens_seen": 21257920,
       "step": 15600
     },
@@ -25994,9 +25994,9 @@
     {
       "epoch": 48.76661514683153,
       "eval_loss": 1.2862586975097656,
-      "eval_runtime": 11.3455,
-      "eval_samples_per_second": 50.681,
-      "eval_steps_per_second": 12.692,
       "num_input_tokens_seen": 21529248,
       "step": 15800
     },
@@ -26323,9 +26323,9 @@
     {
       "epoch": 49.38330757341576,
       "eval_loss": 1.312309741973877,
-      "eval_runtime": 11.34,
-      "eval_samples_per_second": 50.706,
-      "eval_steps_per_second": 12.698,
       "num_input_tokens_seen": 21800992,
       "step": 16000
     },
@@ -26652,9 +26652,9 @@
     {
       "epoch": 50.0,
       "eval_loss": 1.2966762781143188,
-      "eval_runtime": 11.3207,
-      "eval_samples_per_second": 50.792,
-      "eval_steps_per_second": 12.72,
       "num_input_tokens_seen": 22073392,
       "step": 16200
     },
@@ -26981,9 +26981,9 @@
     {
       "epoch": 50.618238021638334,
       "eval_loss": 1.3632538318634033,
-      "eval_runtime": 11.3325,
-      "eval_samples_per_second": 50.739,
-      "eval_steps_per_second": 12.707,
       "num_input_tokens_seen": 22345648,
       "step": 16400
     },
@@ -27310,9 +27310,9 @@
     {
       "epoch": 51.23493044822256,
       "eval_loss": 1.3670175075531006,
-      "eval_runtime": 11.3332,
-      "eval_samples_per_second": 50.736,
-      "eval_steps_per_second": 12.706,
       "num_input_tokens_seen": 22617984,
       "step": 16600
     },
@@ -27639,9 +27639,9 @@
     {
       "epoch": 51.8531684698609,
       "eval_loss": 1.3320527076721191,
-      "eval_runtime": 11.3513,
-      "eval_samples_per_second": 50.655,
-      "eval_steps_per_second": 12.686,
       "num_input_tokens_seen": 22892544,
       "step": 16800
     },
@@ -27968,9 +27968,9 @@
     {
       "epoch": 52.469860896445134,
       "eval_loss": 1.430206537246704,
-      "eval_runtime": 11.3356,
-      "eval_samples_per_second": 50.725,
-      "eval_steps_per_second": 12.703,
       "num_input_tokens_seen": 23163488,
       "step": 17000
     },
@@ -28297,9 +28297,9 @@
     {
       "epoch": 53.086553323029364,
       "eval_loss": 1.321289300918579,
-      "eval_runtime": 11.3247,
-      "eval_samples_per_second": 50.774,
-      "eval_steps_per_second": 12.716,
       "num_input_tokens_seen": 23438320,
       "step": 17200
     },
@@ -28626,9 +28626,9 @@
     {
       "epoch": 53.7047913446677,
       "eval_loss": 1.4570552110671997,
-      "eval_runtime": 11.3234,
-      "eval_samples_per_second": 50.78,
-      "eval_steps_per_second": 12.717,
       "num_input_tokens_seen": 23708720,
       "step": 17400
     },
@@ -28955,9 +28955,9 @@
     {
       "epoch": 54.321483771251934,
       "eval_loss": 1.3873727321624756,
-      "eval_runtime": 11.3556,
-      "eval_samples_per_second": 50.636,
-      "eval_steps_per_second": 12.681,
       "num_input_tokens_seen": 23984304,
       "step": 17600
     },
@@ -29284,9 +29284,9 @@
     {
       "epoch": 54.93972179289026,
       "eval_loss": 1.4202662706375122,
-      "eval_runtime": 11.3507,
-      "eval_samples_per_second": 50.658,
-      "eval_steps_per_second": 12.686,
       "num_input_tokens_seen": 24256368,
       "step": 17800
     },
@@ -29613,9 +29613,9 @@
     {
       "epoch": 55.5564142194745,
       "eval_loss": 1.3830780982971191,
-      "eval_runtime": 11.3461,
-      "eval_samples_per_second": 50.678,
-      "eval_steps_per_second": 12.692,
       "num_input_tokens_seen": 24527040,
       "step": 18000
     },
@@ -29942,9 +29942,9 @@
     {
       "epoch": 56.173106646058734,
       "eval_loss": 1.4858934879302979,
-      "eval_runtime": 11.3373,
-      "eval_samples_per_second": 50.717,
-      "eval_steps_per_second": 12.701,
       "num_input_tokens_seen": 24799312,
       "step": 18200
     },
@@ -30271,9 +30271,9 @@
     {
       "epoch": 56.79134466769706,
       "eval_loss": 1.5054408311843872,
-      "eval_runtime": 11.343,
-      "eval_samples_per_second": 50.692,
-      "eval_steps_per_second": 12.695,
       "num_input_tokens_seen": 25072848,
       "step": 18400
     },
@@ -30600,9 +30600,9 @@
     {
       "epoch": 57.4080370942813,
       "eval_loss": 1.473268747329712,
-      "eval_runtime": 11.3334,
-      "eval_samples_per_second": 50.735,
-      "eval_steps_per_second": 12.706,
       "num_input_tokens_seen": 25347056,
       "step": 18600
     },
@@ -30929,9 +30929,9 @@
     {
       "epoch": 58.024729520865534,
       "eval_loss": 1.5095571279525757,
-      "eval_runtime": 11.3198,
-      "eval_samples_per_second": 50.796,
-      "eval_steps_per_second": 12.721,
       "num_input_tokens_seen": 25618400,
       "step": 18800
     },
@@ -31258,9 +31258,9 @@
     {
       "epoch": 58.64296754250386,
       "eval_loss": 1.3225481510162354,
-      "eval_runtime": 11.3509,
-      "eval_samples_per_second": 50.657,
-      "eval_steps_per_second": 12.686,
       "num_input_tokens_seen": 25892960,
       "step": 19000
     },
@@ -31587,9 +31587,9 @@
     {
       "epoch": 59.2596599690881,
       "eval_loss": 1.4172106981277466,
-      "eval_runtime": 11.3335,
-      "eval_samples_per_second": 50.734,
-      "eval_steps_per_second": 12.706,
       "num_input_tokens_seen": 26164688,
       "step": 19200
     },
@@ -31916,9 +31916,9 @@
     {
       "epoch": 59.87789799072643,
       "eval_loss": 1.35789155960083,
-      "eval_runtime": 11.3267,
-      "eval_samples_per_second": 50.765,
-      "eval_steps_per_second": 12.713,
       "num_input_tokens_seen": 26437392,
       "step": 19400
     },
@@ -32245,9 +32245,9 @@
     {
       "epoch": 60.49459041731066,
       "eval_loss": 1.406263828277588,
-      "eval_runtime": 12.8664,
-      "eval_samples_per_second": 44.69,
-      "eval_steps_per_second": 11.192,
       "num_input_tokens_seen": 26710176,
       "step": 19600
     },
@@ -32574,9 +32574,9 @@
     {
       "epoch": 61.1112828438949,
       "eval_loss": 1.4265893697738647,
-      "eval_runtime": 11.3163,
-      "eval_samples_per_second": 50.812,
-      "eval_steps_per_second": 12.725,
       "num_input_tokens_seen": 26981728,
       "step": 19800
     },
@@ -32903,9 +32903,9 @@
     {
       "epoch": 61.72952086553323,
       "eval_loss": 1.3551362752914429,
-      "eval_runtime": 11.3506,
-      "eval_samples_per_second": 50.658,
-      "eval_steps_per_second": 12.687,
       "num_input_tokens_seen": 27253632,
       "step": 20000
     },
@@ -33232,9 +33232,9 @@
     {
       "epoch": 62.34621329211747,
       "eval_loss": 1.4743679761886597,
-      "eval_runtime": 11.335,
-      "eval_samples_per_second": 50.728,
-      "eval_steps_per_second": 12.704,
       "num_input_tokens_seen": 27524928,
       "step": 20200
     },
@@ -33561,9 +33561,9 @@
     {
       "epoch": 62.964451313755795,
       "eval_loss": 1.5115978717803955,
-      "eval_runtime": 11.3216,
-      "eval_samples_per_second": 50.788,
-      "eval_steps_per_second": 12.719,
       "num_input_tokens_seen": 27799712,
       "step": 20400
     },
@@ -33890,9 +33890,9 @@
     {
       "epoch": 63.58114374034003,
       "eval_loss": 1.5977118015289307,
-      "eval_runtime": 11.3317,
-      "eval_samples_per_second": 50.743,
-      "eval_steps_per_second": 12.708,
       "num_input_tokens_seen": 28071024,
       "step": 20600
     },
@@ -34219,9 +34219,9 @@
     {
       "epoch": 64.19783616692426,
       "eval_loss": 1.5763089656829834,
-      "eval_runtime": 11.3366,
-      "eval_samples_per_second": 50.721,
-      "eval_steps_per_second": 12.702,
       "num_input_tokens_seen": 28342880,
       "step": 20800
     },
@@ -34548,9 +34548,9 @@
     {
       "epoch": 64.8160741885626,
       "eval_loss": 1.6289054155349731,
-      "eval_runtime": 11.3575,
-      "eval_samples_per_second": 50.627,
-      "eval_steps_per_second": 12.679,
       "num_input_tokens_seen": 28617696,
       "step": 21000
     },
@@ -34877,9 +34877,9 @@
     {
       "epoch": 65.43276661514683,
       "eval_loss": 1.6688075065612793,
-      "eval_runtime": 11.3331,
-      "eval_samples_per_second": 50.736,
-      "eval_steps_per_second": 12.706,
       "num_input_tokens_seen": 28888112,
       "step": 21200
     },
@@ -35206,9 +35206,9 @@
     {
       "epoch": 66.04945904173107,
       "eval_loss": 1.6155662536621094,
-      "eval_runtime": 11.3795,
-      "eval_samples_per_second": 50.53,
-      "eval_steps_per_second": 12.654,
       "num_input_tokens_seen": 29162944,
       "step": 21400
     },
@@ -35535,9 +35535,9 @@
     {
       "epoch": 66.6676970633694,
       "eval_loss": 1.6828913688659668,
-      "eval_runtime": 11.3417,
-      "eval_samples_per_second": 50.698,
-      "eval_steps_per_second": 12.697,
       "num_input_tokens_seen": 29434784,
       "step": 21600
     },
@@ -35864,9 +35864,9 @@
     {
       "epoch": 67.28438948995363,
       "eval_loss": 1.6700409650802612,
-      "eval_runtime": 11.3434,
-      "eval_samples_per_second": 50.69,
-      "eval_steps_per_second": 12.695,
       "num_input_tokens_seen": 29706800,
       "step": 21800
     },
@@ -36193,9 +36193,9 @@
     {
       "epoch": 67.90262751159196,
       "eval_loss": 1.6916232109069824,
-      "eval_runtime": 11.3242,
-      "eval_samples_per_second": 50.776,
-      "eval_steps_per_second": 12.716,
       "num_input_tokens_seen": 29980240,
       "step": 22000
     },
@@ -36522,9 +36522,9 @@
     {
       "epoch": 68.5193199381762,
       "eval_loss": 1.7332632541656494,
-      "eval_runtime": 11.3077,
-      "eval_samples_per_second": 50.85,
-      "eval_steps_per_second": 12.735,
       "num_input_tokens_seen": 30250192,
       "step": 22200
     },
@@ -36851,9 +36851,9 @@
     {
       "epoch": 69.13601236476043,
       "eval_loss": 1.7388529777526855,
-      "eval_runtime": 11.34,
-      "eval_samples_per_second": 50.705,
-      "eval_steps_per_second": 12.698,
       "num_input_tokens_seen": 30522672,
       "step": 22400
     },
@@ -37180,9 +37180,9 @@
     {
       "epoch": 69.75425038639877,
       "eval_loss": 1.7202584743499756,
-      "eval_runtime": 11.3257,
-      "eval_samples_per_second": 50.769,
-      "eval_steps_per_second": 12.714,
       "num_input_tokens_seen": 30795024,
       "step": 22600
     },
@@ -37509,9 +37509,9 @@
     {
       "epoch": 70.370942812983,
       "eval_loss": 1.7700324058532715,
-      "eval_runtime": 11.3521,
-      "eval_samples_per_second": 50.651,
-      "eval_steps_per_second": 12.685,
       "num_input_tokens_seen": 31066544,
       "step": 22800
     },
@@ -37838,9 +37838,9 @@
     {
       "epoch": 70.98918083462132,
       "eval_loss": 1.769662857055664,
-      "eval_runtime": 11.3403,
-      "eval_samples_per_second": 50.704,
-      "eval_steps_per_second": 12.698,
       "num_input_tokens_seen": 31338128,
       "step": 23000
     },
@@ -38167,9 +38167,9 @@
     {
       "epoch": 71.60587326120556,
       "eval_loss": 1.8099125623703003,
-      "eval_runtime": 11.3562,
-      "eval_samples_per_second": 50.633,
-      "eval_steps_per_second": 12.68,
       "num_input_tokens_seen": 31609104,
       "step": 23200
     },
@@ -38496,9 +38496,9 @@
     {
       "epoch": 72.2225656877898,
       "eval_loss": 1.856191873550415,
-      "eval_runtime": 11.3444,
-      "eval_samples_per_second": 50.686,
-      "eval_steps_per_second": 12.694,
       "num_input_tokens_seen": 31881424,
       "step": 23400
     },
@@ -38825,9 +38825,9 @@
     {
       "epoch": 72.84080370942813,
       "eval_loss": 1.7837176322937012,
-      "eval_runtime": 11.3265,
-      "eval_samples_per_second": 50.766,
-      "eval_steps_per_second": 12.714,
       "num_input_tokens_seen": 32155024,
       "step": 23600
     },
@@ -39154,9 +39154,9 @@
     {
       "epoch": 73.45749613601237,
       "eval_loss": 1.8125648498535156,
-      "eval_runtime": 11.321,
-      "eval_samples_per_second": 50.79,
-      "eval_steps_per_second": 12.72,
       "num_input_tokens_seen": 32425312,
       "step": 23800
     },
@@ -39483,9 +39483,9 @@
     {
       "epoch": 74.0741885625966,
       "eval_loss": 1.8575142621994019,
-      "eval_runtime": 11.3337,
-      "eval_samples_per_second": 50.734,
-      "eval_steps_per_second": 12.706,
       "num_input_tokens_seen": 32698784,
       "step": 24000
     },
@@ -39812,9 +39812,9 @@
     {
       "epoch": 74.69242658423494,
       "eval_loss": 1.8753187656402588,
-      "eval_runtime": 11.3403,
-      "eval_samples_per_second": 50.704,
-      "eval_steps_per_second": 12.698,
       "num_input_tokens_seen": 32974144,
       "step": 24200
     },
@@ -40141,9 +40141,9 @@
     {
       "epoch": 75.30911901081916,
       "eval_loss": 1.9167370796203613,
-      "eval_runtime": 11.3429,
-      "eval_samples_per_second": 50.692,
-      "eval_steps_per_second": 12.695,
       "num_input_tokens_seen": 33245216,
       "step": 24400
     },
@@ -40470,9 +40470,9 @@
     {
       "epoch": 75.9273570324575,
       "eval_loss": 1.1968048810958862,
-      "eval_runtime": 11.3324,
-      "eval_samples_per_second": 50.74,
-      "eval_steps_per_second": 12.707,
       "num_input_tokens_seen": 33517088,
       "step": 24600
     },
@@ -40799,9 +40799,9 @@
     {
       "epoch": 76.54404945904173,
       "eval_loss": 1.3781951665878296,
-      "eval_runtime": 11.3729,
-      "eval_samples_per_second": 50.559,
-      "eval_steps_per_second": 12.662,
       "num_input_tokens_seen": 33788432,
       "step": 24800
     },
@@ -41128,9 +41128,9 @@
     {
       "epoch": 77.16074188562597,
       "eval_loss": 1.5010449886322021,
-      "eval_runtime": 11.3567,
-      "eval_samples_per_second": 50.631,
-      "eval_steps_per_second": 12.68,
       "num_input_tokens_seen": 34060416,
       "step": 25000
     },
@@ -41457,9 +41457,9 @@
     {
       "epoch": 77.7789799072643,
       "eval_loss": 1.5149627923965454,
-      "eval_runtime": 11.3386,
-      "eval_samples_per_second": 50.712,
-      "eval_steps_per_second": 12.7,
       "num_input_tokens_seen": 34333408,
       "step": 25200
     },
@@ -41786,9 +41786,9 @@
     {
       "epoch": 78.39567233384854,
       "eval_loss": 1.6160272359848022,
-      "eval_runtime": 11.3278,
-      "eval_samples_per_second": 50.76,
-      "eval_steps_per_second": 12.712,
       "num_input_tokens_seen": 34605392,
       "step": 25400
     },
@@ -42115,9 +42115,9 @@
     {
       "epoch": 79.01236476043276,
       "eval_loss": 1.5819573402404785,
-      "eval_runtime": 11.3387,
-      "eval_samples_per_second": 50.711,
-      "eval_steps_per_second": 12.7,
       "num_input_tokens_seen": 34879536,
       "step": 25600
     },
@@ -42444,9 +42444,9 @@
     {
       "epoch": 79.6306027820711,
       "eval_loss": 1.651304841041565,
-      "eval_runtime": 11.3703,
-      "eval_samples_per_second": 50.57,
-      "eval_steps_per_second": 12.665,
       "num_input_tokens_seen": 35153488,
       "step": 25800
     },
@@ -42773,9 +42773,9 @@
     {
       "epoch": 80.24729520865533,
       "eval_loss": 1.6964157819747925,
-      "eval_runtime": 11.3434,
-      "eval_samples_per_second": 50.69,
-      "eval_steps_per_second": 12.695,
       "num_input_tokens_seen": 35424912,
       "step": 26000
     },
@@ -43102,9 +43102,9 @@
     {
       "epoch": 80.86553323029366,
       "eval_loss": 1.7483088970184326,
-      "eval_runtime": 11.341,
-      "eval_samples_per_second": 50.701,
-      "eval_steps_per_second": 12.697,
       "num_input_tokens_seen": 35698064,
       "step": 26200
     },
@@ -43431,9 +43431,9 @@
     {
       "epoch": 81.4822256568779,
       "eval_loss": 1.7370902299880981,
-      "eval_runtime": 11.3472,
-      "eval_samples_per_second": 50.673,
-      "eval_steps_per_second": 12.69,
       "num_input_tokens_seen": 35968160,
       "step": 26400
     },
@@ -43760,9 +43760,9 @@
     {
       "epoch": 82.09891808346214,
       "eval_loss": 1.7790963649749756,
-      "eval_runtime": 11.3412,
-      "eval_samples_per_second": 50.7,
-      "eval_steps_per_second": 12.697,
       "num_input_tokens_seen": 36240928,
       "step": 26600
     },
@@ -44089,9 +44089,9 @@
     {
       "epoch": 82.71715610510046,
       "eval_loss": 1.772797703742981,
-      "eval_runtime": 11.3788,
-      "eval_samples_per_second": 50.533,
-      "eval_steps_per_second": 12.655,
       "num_input_tokens_seen": 36514208,
       "step": 26800
     },
@@ -44418,9 +44418,9 @@
     {
       "epoch": 83.3338485316847,
       "eval_loss": 1.7722996473312378,
-      "eval_runtime": 11.3552,
-      "eval_samples_per_second": 50.638,
-      "eval_steps_per_second": 12.681,
       "num_input_tokens_seen": 36785136,
       "step": 27000
     },
@@ -44747,9 +44747,9 @@
     {
       "epoch": 83.95208655332303,
       "eval_loss": 1.8002300262451172,
-      "eval_runtime": 11.3357,
-      "eval_samples_per_second": 50.725,
-      "eval_steps_per_second": 12.703,
       "num_input_tokens_seen": 37061648,
       "step": 27200
     },
@@ -45076,9 +45076,9 @@
     {
       "epoch": 84.56877897990726,
       "eval_loss": 1.804320216178894,
-      "eval_runtime": 11.3403,
-      "eval_samples_per_second": 50.704,
-      "eval_steps_per_second": 12.698,
       "num_input_tokens_seen": 37333648,
       "step": 27400
     },
@@ -45405,9 +45405,9 @@
     {
       "epoch": 85.1854714064915,
       "eval_loss": 1.8354555368423462,
-      "eval_runtime": 11.3408,
-      "eval_samples_per_second": 50.702,
-      "eval_steps_per_second": 12.698,
       "num_input_tokens_seen": 37605184,
       "step": 27600
     },
@@ -45734,9 +45734,9 @@
     {
       "epoch": 85.80370942812984,
       "eval_loss": 1.8400607109069824,
-      "eval_runtime": 11.3348,
-      "eval_samples_per_second": 50.729,
-      "eval_steps_per_second": 12.704,
       "num_input_tokens_seen": 37875360,
       "step": 27800
     },
@@ -46063,9 +46063,9 @@
     {
       "epoch": 86.42040185471407,
       "eval_loss": 1.8688201904296875,
-      "eval_runtime": 11.3516,
-      "eval_samples_per_second": 50.653,
-      "eval_steps_per_second": 12.685,
       "num_input_tokens_seen": 38150208,
       "step": 28000
     },
@@ -46392,9 +46392,9 @@
     {
       "epoch": 87.0370942812983,
       "eval_loss": 1.810387134552002,
-      "eval_runtime": 11.348,
-      "eval_samples_per_second": 50.67,
-      "eval_steps_per_second": 12.689,
       "num_input_tokens_seen": 38422048,
       "step": 28200
     },
@@ -46721,9 +46721,9 @@
     {
       "epoch": 87.65533230293663,
       "eval_loss": 1.8730015754699707,
-      "eval_runtime": 11.3451,
-      "eval_samples_per_second": 50.683,
-      "eval_steps_per_second": 12.693,
       "num_input_tokens_seen": 38692224,
       "step": 28400
     },
@@ -47050,9 +47050,9 @@
     {
       "epoch": 88.27202472952087,
       "eval_loss": 1.8786824941635132,
-      "eval_runtime": 11.364,
-      "eval_samples_per_second": 50.598,
-      "eval_steps_per_second": 12.672,
       "num_input_tokens_seen": 38964176,
       "step": 28600
     },
@@ -47379,9 +47379,9 @@
     {
       "epoch": 88.8902627511592,
       "eval_loss": 1.8849008083343506,
-      "eval_runtime": 11.3534,
-      "eval_samples_per_second": 50.646,
-      "eval_steps_per_second": 12.683,
       "num_input_tokens_seen": 39235184,
       "step": 28800
     },
@@ -47708,9 +47708,9 @@
     {
       "epoch": 89.50695517774344,
       "eval_loss": 1.9232840538024902,
-      "eval_runtime": 11.357,
-      "eval_samples_per_second": 50.63,
-      "eval_steps_per_second": 12.679,
       "num_input_tokens_seen": 39507520,
       "step": 29000
     },
@@ -48037,9 +48037,9 @@
     {
       "epoch": 90.12364760432767,
       "eval_loss": 1.9127227067947388,
-      "eval_runtime": 11.3392,
-      "eval_samples_per_second": 50.709,
-      "eval_steps_per_second": 12.699,
       "num_input_tokens_seen": 39779328,
       "step": 29200
     },
@@ -48366,9 +48366,9 @@
     {
       "epoch": 90.74188562596599,
       "eval_loss": 1.8981382846832275,
-      "eval_runtime": 11.3584,
-      "eval_samples_per_second": 50.623,
-      "eval_steps_per_second": 12.678,
       "num_input_tokens_seen": 40051520,
       "step": 29400
     },
@@ -48695,9 +48695,9 @@
     {
       "epoch": 91.35857805255023,
       "eval_loss": 1.9302953481674194,
-      "eval_runtime": 11.3578,
-      "eval_samples_per_second": 50.626,
-      "eval_steps_per_second": 12.679,
       "num_input_tokens_seen": 40322576,
       "step": 29600
     },
@@ -49024,9 +49024,9 @@
     {
       "epoch": 91.97681607418856,
       "eval_loss": 1.9179975986480713,
-      "eval_runtime": 11.352,
-      "eval_samples_per_second": 50.652,
-      "eval_steps_per_second": 12.685,
       "num_input_tokens_seen": 40596016,
       "step": 29800
     },
@@ -49353,9 +49353,9 @@
     {
       "epoch": 92.5935085007728,
       "eval_loss": 1.92044997215271,
-      "eval_runtime": 11.3431,
-      "eval_samples_per_second": 50.692,
-      "eval_steps_per_second": 12.695,
       "num_input_tokens_seen": 40867568,
       "step": 30000
     },
@@ -49682,9 +49682,9 @@
     {
       "epoch": 93.21020092735704,
       "eval_loss": 1.9711647033691406,
-      "eval_runtime": 11.3695,
-      "eval_samples_per_second": 50.574,
-      "eval_steps_per_second": 12.665,
       "num_input_tokens_seen": 41140848,
       "step": 30200
     },
@@ -50011,9 +50011,9 @@
     {
       "epoch": 93.82843894899537,
       "eval_loss": 1.976061463356018,
-      "eval_runtime": 11.38,
-      "eval_samples_per_second": 50.527,
-      "eval_steps_per_second": 12.654,
       "num_input_tokens_seen": 41412848,
       "step": 30400
     },
@@ -50340,9 +50340,9 @@
     {
       "epoch": 94.44513137557959,
       "eval_loss": 1.958508849143982,
-      "eval_runtime": 11.3371,
-      "eval_samples_per_second": 50.719,
-      "eval_steps_per_second": 12.702,
       "num_input_tokens_seen": 41683920,
       "step": 30600
     },
@@ -50669,9 +50669,9 @@
     {
       "epoch": 95.06182380216383,
       "eval_loss": 1.9966574907302856,
-      "eval_runtime": 11.3424,
-      "eval_samples_per_second": 50.695,
-      "eval_steps_per_second": 12.696,
       "num_input_tokens_seen": 41959008,
       "step": 30800
     },
@@ -50998,9 +50998,9 @@
     {
       "epoch": 95.68006182380216,
       "eval_loss": 1.9950237274169922,
-      "eval_runtime": 11.3443,
-      "eval_samples_per_second": 50.686,
-      "eval_steps_per_second": 12.694,
       "num_input_tokens_seen": 42231520,
       "step": 31000
     },
@@ -51327,9 +51327,9 @@
     {
       "epoch": 96.2967542503864,
       "eval_loss": 1.9839365482330322,
-      "eval_runtime": 11.3428,
-      "eval_samples_per_second": 50.693,
-      "eval_steps_per_second": 12.695,
       "num_input_tokens_seen": 42502416,
       "step": 31200
     },
@@ -51656,9 +51656,9 @@
     {
       "epoch": 96.91499227202473,
       "eval_loss": 2.004136323928833,
-      "eval_runtime": 11.3314,
-      "eval_samples_per_second": 50.744,
-      "eval_steps_per_second": 12.708,
       "num_input_tokens_seen": 42776304,
       "step": 31400
     },
@@ -51985,9 +51985,9 @@
     {
       "epoch": 97.53168469860897,
       "eval_loss": 2.016206979751587,
-      "eval_runtime": 11.3358,
-      "eval_samples_per_second": 50.724,
-      "eval_steps_per_second": 12.703,
       "num_input_tokens_seen": 43048176,
       "step": 31600
     },
@@ -52314,9 +52314,9 @@
     {
       "epoch": 98.14837712519319,
       "eval_loss": 2.010310173034668,
-      "eval_runtime": 11.3477,
-      "eval_samples_per_second": 50.671,
-      "eval_steps_per_second": 12.69,
       "num_input_tokens_seen": 43320144,
       "step": 31800
     },
@@ -52643,9 +52643,9 @@
     {
       "epoch": 98.76661514683153,
       "eval_loss": 2.008124589920044,
-      "eval_runtime": 11.3399,
-      "eval_samples_per_second": 50.706,
-      "eval_steps_per_second": 12.699,
       "num_input_tokens_seen": 43591728,
       "step": 32000
     },
@@ -52972,9 +52972,9 @@
     {
       "epoch": 99.38330757341576,
       "eval_loss": 2.027338981628418,
-      "eval_runtime": 11.3475,
-      "eval_samples_per_second": 50.672,
-      "eval_steps_per_second": 12.69,
       "num_input_tokens_seen": 43866048,
       "step": 32200
     },
@@ -53301,9 +53301,9 @@
     {
       "epoch": 100.0,
       "eval_loss": 2.034688711166382,
-      "eval_runtime": 11.3308,
-      "eval_samples_per_second": 50.747,
-      "eval_steps_per_second": 12.709,
       "num_input_tokens_seen": 44137040,
       "step": 32400
     },
@@ -53630,9 +53630,9 @@
     {
       "epoch": 100.61823802163833,
       "eval_loss": 2.052443265914917,
-      "eval_runtime": 11.3302,
-      "eval_samples_per_second": 50.749,
-      "eval_steps_per_second": 12.709,
       "num_input_tokens_seen": 44408848,
       "step": 32600
     },
@@ -53959,9 +53959,9 @@
     {
       "epoch": 101.23493044822257,
       "eval_loss": 2.067155599594116,
-      "eval_runtime": 11.3619,
-      "eval_samples_per_second": 50.608,
-      "eval_steps_per_second": 12.674,
       "num_input_tokens_seen": 44682912,
       "step": 32800
     },
@@ -54288,9 +54288,9 @@
     {
       "epoch": 101.85316846986089,
       "eval_loss": 2.042910575866699,
-      "eval_runtime": 11.3611,
-      "eval_samples_per_second": 50.611,
-      "eval_steps_per_second": 12.675,
       "num_input_tokens_seen": 44956000,
       "step": 33000
     },
@@ -54617,9 +54617,9 @@
     {
       "epoch": 102.46986089644513,
       "eval_loss": 2.049968719482422,
-      "eval_runtime": 11.3446,
-      "eval_samples_per_second": 50.685,
-      "eval_steps_per_second": 12.693,
       "num_input_tokens_seen": 45227824,
       "step": 33200
     },
@@ -54946,9 +54946,9 @@
     {
       "epoch": 103.08655332302936,
       "eval_loss": 2.047577142715454,
-      "eval_runtime": 11.3408,
-      "eval_samples_per_second": 50.702,
-      "eval_steps_per_second": 12.698,
       "num_input_tokens_seen": 45498320,
       "step": 33400
     },
@@ -55275,9 +55275,9 @@
     {
       "epoch": 103.7047913446677,
       "eval_loss": 2.0636227130889893,
-      "eval_runtime": 11.3327,
-      "eval_samples_per_second": 50.738,
-      "eval_steps_per_second": 12.707,
       "num_input_tokens_seen": 45773648,
       "step": 33600
     },
@@ -55604,9 +55604,9 @@
     {
       "epoch": 104.32148377125193,
       "eval_loss": 2.080799102783203,
-      "eval_runtime": 11.3402,
-      "eval_samples_per_second": 50.705,
-      "eval_steps_per_second": 12.698,
       "num_input_tokens_seen": 46044128,
       "step": 33800
     },
@@ -55933,9 +55933,9 @@
     {
       "epoch": 104.93972179289027,
       "eval_loss": 2.0720911026000977,
-      "eval_runtime": 11.3379,
-      "eval_samples_per_second": 50.715,
-      "eval_steps_per_second": 12.701,
       "num_input_tokens_seen": 46317504,
       "step": 34000
     },
@@ -56262,9 +56262,9 @@
     {
       "epoch": 105.5564142194745,
       "eval_loss": 2.082965612411499,
-      "eval_runtime": 11.3573,
-      "eval_samples_per_second": 50.628,
-      "eval_steps_per_second": 12.679,
       "num_input_tokens_seen": 46589024,
       "step": 34200
     },
@@ -56591,9 +56591,9 @@
     {
       "epoch": 106.17310664605873,
       "eval_loss": 2.094463348388672,
-      "eval_runtime": 11.3404,
-      "eval_samples_per_second": 50.704,
-      "eval_steps_per_second": 12.698,
       "num_input_tokens_seen": 46863680,
       "step": 34400
     },
@@ -56920,9 +56920,9 @@
     {
       "epoch": 106.79134466769706,
       "eval_loss": 2.0966665744781494,
-      "eval_runtime": 11.3482,
-      "eval_samples_per_second": 50.669,
-      "eval_steps_per_second": 12.689,
       "num_input_tokens_seen": 47135520,
       "step": 34600
     },
@@ -57249,9 +57249,9 @@
     {
       "epoch": 107.4080370942813,
       "eval_loss": 2.1042280197143555,
-      "eval_runtime": 11.341,
-      "eval_samples_per_second": 50.701,
-      "eval_steps_per_second": 12.697,
       "num_input_tokens_seen": 47407056,
       "step": 34800
     },
@@ -57578,9 +57578,9 @@
     {
       "epoch": 108.02472952086553,
       "eval_loss": 2.096859931945801,
-      "eval_runtime": 11.293,
-      "eval_samples_per_second": 50.916,
-      "eval_steps_per_second": 12.751,
       "num_input_tokens_seen": 47680112,
       "step": 35000
     },
@@ -57907,9 +57907,9 @@
     {
       "epoch": 108.64296754250387,
       "eval_loss": 2.1074352264404297,
-      "eval_runtime": 11.29,
-      "eval_samples_per_second": 50.93,
-      "eval_steps_per_second": 12.755,
       "num_input_tokens_seen": 47951632,
       "step": 35200
     },
@@ -58236,9 +58236,9 @@
     {
       "epoch": 109.2596599690881,
       "eval_loss": 2.110261917114258,
-      "eval_runtime": 11.3046,
-      "eval_samples_per_second": 50.864,
-      "eval_steps_per_second": 12.738,
       "num_input_tokens_seen": 48224016,
       "step": 35400
     },
@@ -58565,9 +58565,9 @@
     {
       "epoch": 109.87789799072642,
       "eval_loss": 2.1071767807006836,
-      "eval_runtime": 11.2808,
-      "eval_samples_per_second": 50.971,
-      "eval_steps_per_second": 12.765,
       "num_input_tokens_seen": 48497072,
       "step": 35600
     },
@@ -58894,9 +58894,9 @@
     {
       "epoch": 110.49459041731066,
       "eval_loss": 2.1081290245056152,
-      "eval_runtime": 11.3085,
-      "eval_samples_per_second": 50.847,
-      "eval_steps_per_second": 12.734,
       "num_input_tokens_seen": 48768624,
       "step": 35800
     },
@@ -59223,9 +59223,9 @@
     {
       "epoch": 111.1112828438949,
       "eval_loss": 2.1115777492523193,
-      "eval_runtime": 11.2907,
-      "eval_samples_per_second": 50.927,
-      "eval_steps_per_second": 12.754,
       "num_input_tokens_seen": 49041488,
       "step": 36000
     },
@@ -59552,9 +59552,9 @@
     {
       "epoch": 111.72952086553323,
       "eval_loss": 2.1243085861206055,
-      "eval_runtime": 11.29,
-      "eval_samples_per_second": 50.93,
-      "eval_steps_per_second": 12.755,
       "num_input_tokens_seen": 49314352,
       "step": 36200
     },
@@ -59881,9 +59881,9 @@
     {
       "epoch": 112.34621329211747,
       "eval_loss": 2.1214993000030518,
-      "eval_runtime": 11.2904,
-      "eval_samples_per_second": 50.928,
-      "eval_steps_per_second": 12.754,
       "num_input_tokens_seen": 49584848,
       "step": 36400
     },
@@ -60210,9 +60210,9 @@
     {
       "epoch": 112.9644513137558,
       "eval_loss": 2.1198999881744385,
-      "eval_runtime": 11.2911,
-      "eval_samples_per_second": 50.925,
-      "eval_steps_per_second": 12.753,
       "num_input_tokens_seen": 49858864,
       "step": 36600
     },
@@ -60539,9 +60539,9 @@
     {
       "epoch": 113.58114374034002,
       "eval_loss": 2.129167079925537,
-      "eval_runtime": 11.2949,
-      "eval_samples_per_second": 50.908,
-      "eval_steps_per_second": 12.749,
       "num_input_tokens_seen": 50130000,
       "step": 36800
     },
@@ -60868,9 +60868,9 @@
     {
       "epoch": 114.19783616692426,
       "eval_loss": 2.127554178237915,
-      "eval_runtime": 11.3006,
-      "eval_samples_per_second": 50.882,
-      "eval_steps_per_second": 12.743,
       "num_input_tokens_seen": 50404128,
       "step": 37000
     },
@@ -61197,9 +61197,9 @@
     {
       "epoch": 114.8160741885626,
       "eval_loss": 2.1345906257629395,
-      "eval_runtime": 11.2856,
-      "eval_samples_per_second": 50.95,
-      "eval_steps_per_second": 12.76,
       "num_input_tokens_seen": 50678112,
       "step": 37200
     },
@@ -61526,9 +61526,9 @@
     {
       "epoch": 115.43276661514683,
       "eval_loss": 2.132272481918335,
-      "eval_runtime": 11.2762,
-      "eval_samples_per_second": 50.992,
-      "eval_steps_per_second": 12.77,
       "num_input_tokens_seen": 50946800,
       "step": 37400
     },
@@ -61855,9 +61855,9 @@
     {
       "epoch": 116.04945904173107,
       "eval_loss": 2.131873369216919,
-      "eval_runtime": 11.2834,
-      "eval_samples_per_second": 50.96,
-      "eval_steps_per_second": 12.762,
       "num_input_tokens_seen": 51219680,
       "step": 37600
     },
@@ -62184,9 +62184,9 @@
     {
       "epoch": 116.6676970633694,
       "eval_loss": 2.1323955059051514,
-      "eval_runtime": 11.2909,
-      "eval_samples_per_second": 50.926,
-      "eval_steps_per_second": 12.754,
       "num_input_tokens_seen": 51492544,
       "step": 37800
     },
@@ -62513,9 +62513,9 @@
     {
       "epoch": 117.28438948995363,
       "eval_loss": 2.135064125061035,
-      "eval_runtime": 11.2652,
-      "eval_samples_per_second": 51.042,
-      "eval_steps_per_second": 12.783,
       "num_input_tokens_seen": 51764160,
       "step": 38000
     },
@@ -62842,9 +62842,9 @@
     {
       "epoch": 117.90262751159196,
       "eval_loss": 2.134946584701538,
-      "eval_runtime": 11.2618,
-      "eval_samples_per_second": 51.058,
-      "eval_steps_per_second": 12.787,
       "num_input_tokens_seen": 52039488,
       "step": 38200
     },
@@ -63171,9 +63171,9 @@
     {
       "epoch": 118.5193199381762,
       "eval_loss": 2.1382298469543457,
-      "eval_runtime": 11.2697,
-      "eval_samples_per_second": 51.022,
-      "eval_steps_per_second": 12.778,
       "num_input_tokens_seen": 52311648,
       "step": 38400
     },
@@ -63500,9 +63500,9 @@
     {
       "epoch": 119.13601236476043,
       "eval_loss": 2.1389503479003906,
-      "eval_runtime": 11.2591,
-      "eval_samples_per_second": 51.07,
-      "eval_steps_per_second": 12.79,
       "num_input_tokens_seen": 52584960,
       "step": 38600
     },
@@ -63829,9 +63829,9 @@
     {
       "epoch": 119.75425038639877,
       "eval_loss": 2.141028642654419,
-      "eval_runtime": 11.2592,
-      "eval_samples_per_second": 51.069,
-      "eval_steps_per_second": 12.79,
       "num_input_tokens_seen": 52855712,
       "step": 38800
     },
@@ -64158,9 +64158,9 @@
     {
       "epoch": 120.370942812983,
       "eval_loss": 2.142845630645752,
-      "eval_runtime": 11.261,
-      "eval_samples_per_second": 51.061,
-      "eval_steps_per_second": 12.787,
       "num_input_tokens_seen": 53128480,
       "step": 39000
     },
@@ -64487,9 +64487,9 @@
     {
       "epoch": 120.98918083462132,
       "eval_loss": 2.142850637435913,
-      "eval_runtime": 11.2575,
-      "eval_samples_per_second": 51.077,
-      "eval_steps_per_second": 12.791,
       "num_input_tokens_seen": 53401056,
       "step": 39200
     },
@@ -64816,9 +64816,9 @@
     {
       "epoch": 121.60587326120556,
       "eval_loss": 2.141234874725342,
-      "eval_runtime": 11.2631,
-      "eval_samples_per_second": 51.051,
-      "eval_steps_per_second": 12.785,
       "num_input_tokens_seen": 53673600,
       "step": 39400
     },
@@ -65145,9 +65145,9 @@
     {
       "epoch": 122.2225656877898,
       "eval_loss": 2.1376492977142334,
-      "eval_runtime": 11.2658,
-      "eval_samples_per_second": 51.04,
-      "eval_steps_per_second": 12.782,
       "num_input_tokens_seen": 53943712,
       "step": 39600
     },
@@ -65474,9 +65474,9 @@
     {
       "epoch": 122.84080370942813,
       "eval_loss": 2.1381330490112305,
-      "eval_runtime": 11.2652,
-      "eval_samples_per_second": 51.042,
-      "eval_steps_per_second": 12.783,
       "num_input_tokens_seen": 54217344,
       "step": 39800
     },
@@ -65803,9 +65803,9 @@
     {
       "epoch": 123.45749613601237,
       "eval_loss": 2.137033700942993,
-      "eval_runtime": 11.3401,
-      "eval_samples_per_second": 50.705,
-      "eval_steps_per_second": 12.698,
       "num_input_tokens_seen": 54490336,
       "step": 40000
     },
@@ -65815,9 +65815,9 @@
       "step": 40000,
       "total_flos": 2.453675202191819e+18,
       "train_loss": 0.10362623064493919,
-      "train_runtime": 29327.4396,
-      "train_samples_per_second": 21.823,
-      "train_steps_per_second": 1.364
     }
   ],
   "logging_steps": 5,

     {
       "epoch": 0.6182380216383307,
       "eval_loss": 0.9577658176422119,
+      "eval_runtime": 11.2706,
+      "eval_samples_per_second": 51.018,
+      "eval_steps_per_second": 12.777,
       "num_input_tokens_seen": 272576,
       "step": 200
     },
     {
       "epoch": 1.2349304482225656,
       "eval_loss": 0.7184381484985352,
+      "eval_runtime": 11.278,
+      "eval_samples_per_second": 50.984,
+      "eval_steps_per_second": 12.768,
       "num_input_tokens_seen": 544096,
       "step": 400
     },
     {
       "epoch": 1.8531684698608966,
       "eval_loss": 0.6815493106842041,
+      "eval_runtime": 11.2856,
+      "eval_samples_per_second": 50.95,
+      "eval_steps_per_second": 12.76,
       "num_input_tokens_seen": 818048,
       "step": 600
     },
     {
       "epoch": 2.469860896445131,
       "eval_loss": 0.6753404140472412,
+      "eval_runtime": 11.2983,
+      "eval_samples_per_second": 50.893,
+      "eval_steps_per_second": 12.745,
       "num_input_tokens_seen": 1089600,
       "step": 800
     },
     {
       "epoch": 3.0865533230293662,
       "eval_loss": 0.6587666273117065,
+      "eval_runtime": 11.289,
+      "eval_samples_per_second": 50.935,
+      "eval_steps_per_second": 12.756,
       "num_input_tokens_seen": 1361504,
       "step": 1000
     },
     {
       "epoch": 3.704791344667697,
       "eval_loss": 0.6507958173751831,
+      "eval_runtime": 11.2821,
+      "eval_samples_per_second": 50.966,
+      "eval_steps_per_second": 12.764,
       "num_input_tokens_seen": 1636960,
       "step": 1200
     },
     {
       "epoch": 4.321483771251932,
       "eval_loss": 0.6580312252044678,
+      "eval_runtime": 11.2952,
+      "eval_samples_per_second": 50.907,
+      "eval_steps_per_second": 12.749,
       "num_input_tokens_seen": 1909696,
       "step": 1400
     },
     {
       "epoch": 4.939721792890262,
       "eval_loss": 0.6381492614746094,
+      "eval_runtime": 11.2842,
+      "eval_samples_per_second": 50.956,
+      "eval_steps_per_second": 12.761,
       "num_input_tokens_seen": 2182656,
       "step": 1600
     },
     {
       "epoch": 5.556414219474497,
       "eval_loss": 0.6330167055130005,
+      "eval_runtime": 11.288,
+      "eval_samples_per_second": 50.939,
+      "eval_steps_per_second": 12.757,
       "num_input_tokens_seen": 2453904,
       "step": 1800
     },
     {
       "epoch": 6.1731066460587325,
       "eval_loss": 0.6232376098632812,
+      "eval_runtime": 11.318,
+      "eval_samples_per_second": 50.804,
+      "eval_steps_per_second": 12.723,
       "num_input_tokens_seen": 2727984,
       "step": 2000
     },
     {
       "epoch": 6.7913446676970635,
       "eval_loss": 0.6167892813682556,
+      "eval_runtime": 11.2955,
+      "eval_samples_per_second": 50.905,
+      "eval_steps_per_second": 12.748,
       "num_input_tokens_seen": 2999760,
       "step": 2200
     },
     {
       "epoch": 7.4080370942812985,
       "eval_loss": 0.5621501207351685,
+      "eval_runtime": 11.2909,
+      "eval_samples_per_second": 50.926,
+      "eval_steps_per_second": 12.754,
       "num_input_tokens_seen": 3274528,
       "step": 2400
     },
     {
       "epoch": 8.024729520865533,
       "eval_loss": 0.5813793540000916,
+      "eval_runtime": 11.2998,
+      "eval_samples_per_second": 50.886,
+      "eval_steps_per_second": 12.744,
       "num_input_tokens_seen": 3546880,
       "step": 2600
     },
     {
       "epoch": 8.642967542503865,
       "eval_loss": 0.5915025472640991,
+      "eval_runtime": 11.2948,
+      "eval_samples_per_second": 50.909,
+      "eval_steps_per_second": 12.749,
       "num_input_tokens_seen": 3821184,
       "step": 2800
     },
     {
       "epoch": 9.2596599690881,
       "eval_loss": 0.5584082007408142,
+      "eval_runtime": 11.2865,
+      "eval_samples_per_second": 50.946,
+      "eval_steps_per_second": 12.759,
       "num_input_tokens_seen": 4090704,
       "step": 3000
     },
     {
       "epoch": 9.87789799072643,
       "eval_loss": 0.562062680721283,
+      "eval_runtime": 11.2889,
+      "eval_samples_per_second": 50.935,
+      "eval_steps_per_second": 12.756,
       "num_input_tokens_seen": 4363696,
       "step": 3200
     },
     {
       "epoch": 10.494590417310665,
       "eval_loss": 0.5493518114089966,
+      "eval_runtime": 11.2948,
+      "eval_samples_per_second": 50.909,
+      "eval_steps_per_second": 12.749,
       "num_input_tokens_seen": 4636656,
       "step": 3400
     },
     {
       "epoch": 11.1112828438949,
       "eval_loss": 0.5832644701004028,
+      "eval_runtime": 11.2861,
+      "eval_samples_per_second": 50.948,
+      "eval_steps_per_second": 12.759,
       "num_input_tokens_seen": 4908928,
       "step": 3600
     },
     {
       "epoch": 11.72952086553323,
       "eval_loss": 0.5668447017669678,
+      "eval_runtime": 11.3543,
+      "eval_samples_per_second": 50.641,
+      "eval_steps_per_second": 12.682,
       "num_input_tokens_seen": 5179040,
       "step": 3800
     },
     {
       "epoch": 12.346213292117465,
       "eval_loss": 0.5749086737632751,
+      "eval_runtime": 11.3124,
+      "eval_samples_per_second": 50.829,
+      "eval_steps_per_second": 12.729,
       "num_input_tokens_seen": 5452192,
       "step": 4000
     },
     {
       "epoch": 12.964451313755795,
       "eval_loss": 0.564673900604248,
+      "eval_runtime": 11.2981,
+      "eval_samples_per_second": 50.894,
+      "eval_steps_per_second": 12.746,
       "num_input_tokens_seen": 5724448,
       "step": 4200
     },
     {
       "epoch": 13.58114374034003,
       "eval_loss": 0.557171642780304,
+      "eval_runtime": 11.2883,
+      "eval_samples_per_second": 50.938,
+      "eval_steps_per_second": 12.757,
       "num_input_tokens_seen": 5998032,
       "step": 4400
     },
     {
       "epoch": 14.197836166924265,
       "eval_loss": 0.5686624050140381,
+      "eval_runtime": 11.2932,
+      "eval_samples_per_second": 50.916,
+      "eval_steps_per_second": 12.751,
       "num_input_tokens_seen": 6269792,
       "step": 4600
     },
     {
       "epoch": 14.816074188562597,
       "eval_loss": 0.5626024603843689,
+      "eval_runtime": 11.2851,
+      "eval_samples_per_second": 50.952,
+      "eval_steps_per_second": 12.76,
       "num_input_tokens_seen": 6541248,
       "step": 4800
     },
     {
       "epoch": 15.432766615146832,
       "eval_loss": 0.5851988196372986,
+      "eval_runtime": 11.2997,
+      "eval_samples_per_second": 50.886,
+      "eval_steps_per_second": 12.744,
       "num_input_tokens_seen": 6815200,
       "step": 5000
     },
     {
       "epoch": 16.049459041731065,
       "eval_loss": 0.6189093589782715,
+      "eval_runtime": 11.3118,
+      "eval_samples_per_second": 50.832,
+      "eval_steps_per_second": 12.73,
       "num_input_tokens_seen": 7086224,
       "step": 5200
     },
     {
       "epoch": 16.667697063369395,
       "eval_loss": 0.6122633814811707,
+      "eval_runtime": 11.3022,
+      "eval_samples_per_second": 50.875,
+      "eval_steps_per_second": 12.741,
       "num_input_tokens_seen": 7360560,
       "step": 5400
     },
     {
       "epoch": 17.284389489953632,
       "eval_loss": 0.611182689666748,
+      "eval_runtime": 11.2991,
+      "eval_samples_per_second": 50.889,
+      "eval_steps_per_second": 12.744,
       "num_input_tokens_seen": 7632240,
       "step": 5600
     },
     {
       "epoch": 17.902627511591962,
       "eval_loss": 0.5843232274055481,
+      "eval_runtime": 11.2893,
+      "eval_samples_per_second": 50.933,
+      "eval_steps_per_second": 12.755,
       "num_input_tokens_seen": 7904432,
       "step": 5800
     },
     {
       "epoch": 18.5193199381762,
       "eval_loss": 0.6198561191558838,
+      "eval_runtime": 11.3112,
+      "eval_samples_per_second": 50.835,
+      "eval_steps_per_second": 12.731,
       "num_input_tokens_seen": 8177168,
       "step": 6000
     },
     {
       "epoch": 19.136012364760433,
       "eval_loss": 0.6794010996818542,
+      "eval_runtime": 11.2936,
+      "eval_samples_per_second": 50.914,
+      "eval_steps_per_second": 12.751,
       "num_input_tokens_seen": 8449968,
       "step": 6200
     },
     {
       "epoch": 19.754250386398763,
       "eval_loss": 0.6374606490135193,
+      "eval_runtime": 11.2831,
+      "eval_samples_per_second": 50.961,
+      "eval_steps_per_second": 12.762,
       "num_input_tokens_seen": 8722992,
       "step": 6400
     },
     {
       "epoch": 20.370942812983,
       "eval_loss": 0.6705669164657593,
+      "eval_runtime": 11.2994,
+      "eval_samples_per_second": 50.888,
+      "eval_steps_per_second": 12.744,
       "num_input_tokens_seen": 8996224,
       "step": 6600
     },
     {
       "epoch": 20.98918083462133,
       "eval_loss": 0.648054838180542,
+      "eval_runtime": 11.2898,
+      "eval_samples_per_second": 50.931,
+      "eval_steps_per_second": 12.755,
       "num_input_tokens_seen": 9269504,
       "step": 6800
     },
     {
       "epoch": 21.605873261205563,
       "eval_loss": 0.7299332618713379,
+      "eval_runtime": 11.3095,
+      "eval_samples_per_second": 50.842,
+      "eval_steps_per_second": 12.733,
       "num_input_tokens_seen": 9542432,
       "step": 7000
     },
     {
       "epoch": 22.2225656877898,
       "eval_loss": 0.7840644717216492,
+      "eval_runtime": 11.3076,
+      "eval_samples_per_second": 50.851,
+      "eval_steps_per_second": 12.735,
       "num_input_tokens_seen": 9812704,
       "step": 7200
     },
     {
       "epoch": 22.84080370942813,
       "eval_loss": 0.7381678819656372,
+      "eval_runtime": 11.3001,
+      "eval_samples_per_second": 50.885,
+      "eval_steps_per_second": 12.743,
       "num_input_tokens_seen": 10086272,
       "step": 7400
     },
     {
       "epoch": 23.457496136012363,
       "eval_loss": 0.7728149890899658,
+      "eval_runtime": 11.2886,
+      "eval_samples_per_second": 50.936,
+      "eval_steps_per_second": 12.756,
       "num_input_tokens_seen": 10358832,
       "step": 7600
     },
     {
       "epoch": 24.0741885625966,
       "eval_loss": 0.8268849849700928,
+      "eval_runtime": 11.2998,
+      "eval_samples_per_second": 50.886,
+      "eval_steps_per_second": 12.744,
       "num_input_tokens_seen": 10630000,
       "step": 7800
     },
     {
       "epoch": 24.69242658423493,
       "eval_loss": 0.8175145983695984,
+      "eval_runtime": 11.2902,
+      "eval_samples_per_second": 50.929,
+      "eval_steps_per_second": 12.754,
       "num_input_tokens_seen": 10904880,
       "step": 8000
     },
     {
       "epoch": 25.309119010819167,
       "eval_loss": 0.8719689249992371,
+      "eval_runtime": 11.2821,
+      "eval_samples_per_second": 50.965,
+      "eval_steps_per_second": 12.764,
       "num_input_tokens_seen": 11176208,
       "step": 8200
     },
     {
       "epoch": 25.927357032457497,
       "eval_loss": 0.9041878581047058,
+      "eval_runtime": 11.2871,
+      "eval_samples_per_second": 50.943,
+      "eval_steps_per_second": 12.758,
       "num_input_tokens_seen": 11451344,
       "step": 8400
     },
     {
       "epoch": 26.54404945904173,
       "eval_loss": 0.8620166778564453,
+      "eval_runtime": 11.3068,
+      "eval_samples_per_second": 50.854,
+      "eval_steps_per_second": 12.736,
       "num_input_tokens_seen": 11723328,
       "step": 8600
     },
     {
       "epoch": 27.160741885625967,
       "eval_loss": 0.9756768345832825,
+      "eval_runtime": 11.2984,
+      "eval_samples_per_second": 50.892,
+      "eval_steps_per_second": 12.745,
       "num_input_tokens_seen": 11996224,
       "step": 8800
     },
     {
       "epoch": 27.778979907264297,
       "eval_loss": 0.9385554194450378,
+      "eval_runtime": 11.3054,
+      "eval_samples_per_second": 50.86,
+      "eval_steps_per_second": 12.737,
       "num_input_tokens_seen": 12267520,
       "step": 9000
     },
     {
       "epoch": 28.39567233384853,
       "eval_loss": 0.9237757921218872,
+      "eval_runtime": 11.3005,
+      "eval_samples_per_second": 50.883,
+      "eval_steps_per_second": 12.743,
       "num_input_tokens_seen": 12542064,
       "step": 9200
     },
     {
       "epoch": 29.012364760432767,
       "eval_loss": 1.064571499824524,
+      "eval_runtime": 11.2975,
+      "eval_samples_per_second": 50.896,
+      "eval_steps_per_second": 12.746,
       "num_input_tokens_seen": 12812048,
       "step": 9400
     },
     {
       "epoch": 29.630602782071097,
       "eval_loss": 1.0749653577804565,
+      "eval_runtime": 11.2962,
+      "eval_samples_per_second": 50.902,
+      "eval_steps_per_second": 12.748,
       "num_input_tokens_seen": 13085264,
       "step": 9600
     },
     {
       "epoch": 30.24729520865533,
       "eval_loss": 1.0077648162841797,
+      "eval_runtime": 11.3049,
+      "eval_samples_per_second": 50.863,
+      "eval_steps_per_second": 12.738,
       "num_input_tokens_seen": 13356384,
       "step": 9800
     },
     {
       "epoch": 30.865533230293664,
       "eval_loss": 1.057982325553894,
+      "eval_runtime": 11.3018,
+      "eval_samples_per_second": 50.877,
+      "eval_steps_per_second": 12.741,
       "num_input_tokens_seen": 13629216,
       "step": 10000
     },
     {
       "epoch": 31.482225656877898,
       "eval_loss": 1.0450738668441772,
+      "eval_runtime": 11.2984,
+      "eval_samples_per_second": 50.892,
+      "eval_steps_per_second": 12.745,
       "num_input_tokens_seen": 13902736,
       "step": 10200
     },
     {
       "epoch": 32.09891808346213,
       "eval_loss": 1.0477303266525269,
+      "eval_runtime": 11.2927,
+      "eval_samples_per_second": 50.918,
+      "eval_steps_per_second": 12.752,
       "num_input_tokens_seen": 14174192,
       "step": 10400
     },
     {
       "epoch": 32.717156105100464,
       "eval_loss": 1.14347243309021,
+      "eval_runtime": 11.3094,
+      "eval_samples_per_second": 50.843,
+      "eval_steps_per_second": 12.733,
       "num_input_tokens_seen": 14448176,
       "step": 10600
     },
     {
       "epoch": 33.3338485316847,
       "eval_loss": 1.0730254650115967,
+      "eval_runtime": 11.3076,
+      "eval_samples_per_second": 50.851,
+      "eval_steps_per_second": 12.735,
       "num_input_tokens_seen": 14718096,
       "step": 10800
     },
     {
       "epoch": 33.95208655332303,
       "eval_loss": 1.0351147651672363,
+      "eval_runtime": 11.2934,
+      "eval_samples_per_second": 50.915,
+      "eval_steps_per_second": 12.751,
       "num_input_tokens_seen": 14992048,
       "step": 11000
     },
     {
       "epoch": 34.568778979907265,
       "eval_loss": 1.1394553184509277,
+      "eval_runtime": 11.3011,
+      "eval_samples_per_second": 50.88,
+      "eval_steps_per_second": 12.742,
       "num_input_tokens_seen": 15265072,
       "step": 11200
     },
     {
       "epoch": 35.1854714064915,
       "eval_loss": 1.1201566457748413,
+      "eval_runtime": 11.2937,
+      "eval_samples_per_second": 50.913,
+      "eval_steps_per_second": 12.75,
       "num_input_tokens_seen": 15538960,
       "step": 11400
     },
     {
       "epoch": 35.80370942812983,
       "eval_loss": 1.133685827255249,
+      "eval_runtime": 11.2974,
+      "eval_samples_per_second": 50.897,
+      "eval_steps_per_second": 12.746,
       "num_input_tokens_seen": 15812880,
       "step": 11600
     },
     {
       "epoch": 36.420401854714065,
       "eval_loss": 1.1776589155197144,
+      "eval_runtime": 11.3188,
+      "eval_samples_per_second": 50.8,
+      "eval_steps_per_second": 12.722,
       "num_input_tokens_seen": 16082608,
       "step": 11800
     },
     {
       "epoch": 37.0370942812983,
       "eval_loss": 1.18972909450531,
+      "eval_runtime": 11.3021,
+      "eval_samples_per_second": 50.875,
+      "eval_steps_per_second": 12.741,
       "num_input_tokens_seen": 16357888,
       "step": 12000
     },
     {
       "epoch": 37.65533230293663,
       "eval_loss": 1.2221449613571167,
+      "eval_runtime": 11.2926,
+      "eval_samples_per_second": 50.918,
+      "eval_steps_per_second": 12.752,
       "num_input_tokens_seen": 16627872,
       "step": 12200
     },
     {
       "epoch": 38.272024729520865,
       "eval_loss": 1.169758677482605,
+      "eval_runtime": 11.2954,
+      "eval_samples_per_second": 50.906,
+      "eval_steps_per_second": 12.749,
       "num_input_tokens_seen": 16900336,
       "step": 12400
     },
     {
       "epoch": 38.8902627511592,
       "eval_loss": 1.1674479246139526,
+      "eval_runtime": 11.3053,
+      "eval_samples_per_second": 50.861,
+      "eval_steps_per_second": 12.737,
       "num_input_tokens_seen": 17175024,
       "step": 12600
     },
     {
       "epoch": 39.50695517774343,
       "eval_loss": 1.1664071083068848,
+      "eval_runtime": 11.2986,
+      "eval_samples_per_second": 50.891,
+      "eval_steps_per_second": 12.745,
       "num_input_tokens_seen": 17446864,
       "step": 12800
     },
     {
       "epoch": 40.123647604327665,
       "eval_loss": 1.2493196725845337,
+      "eval_runtime": 11.2977,
+      "eval_samples_per_second": 50.895,
+      "eval_steps_per_second": 12.746,
       "num_input_tokens_seen": 17716560,
       "step": 13000
     },
     {
       "epoch": 40.741885625966,
       "eval_loss": 1.3186978101730347,
+      "eval_runtime": 11.3068,
+      "eval_samples_per_second": 50.855,
+      "eval_steps_per_second": 12.736,
       "num_input_tokens_seen": 17991792,
       "step": 13200
     },
     {
       "epoch": 41.35857805255023,
       "eval_loss": 1.256793737411499,
+      "eval_runtime": 11.299,
+      "eval_samples_per_second": 50.889,
+      "eval_steps_per_second": 12.744,
       "num_input_tokens_seen": 18262992,
       "step": 13400
     },
     {
       "epoch": 41.97681607418856,
       "eval_loss": 1.2447845935821533,
+      "eval_runtime": 11.3003,
+      "eval_samples_per_second": 50.884,
+      "eval_steps_per_second": 12.743,
       "num_input_tokens_seen": 18536880,
       "step": 13600
     },
     {
       "epoch": 42.5935085007728,
       "eval_loss": 1.233655333518982,
+      "eval_runtime": 11.2947,
+      "eval_samples_per_second": 50.909,
+      "eval_steps_per_second": 12.749,
       "num_input_tokens_seen": 18806784,
       "step": 13800
     },
     {
       "epoch": 43.210200927357036,
       "eval_loss": 1.254447102546692,
+      "eval_runtime": 11.3401,
+      "eval_samples_per_second": 50.705,
+      "eval_steps_per_second": 12.698,
       "num_input_tokens_seen": 19080608,
       "step": 14000
     },
     {
       "epoch": 43.82843894899536,
       "eval_loss": 1.3475619554519653,
+      "eval_runtime": 11.3306,
+      "eval_samples_per_second": 50.748,
+      "eval_steps_per_second": 12.709,
       "num_input_tokens_seen": 19352320,
       "step": 14200
     },
     {
       "epoch": 44.4451313755796,
       "eval_loss": 1.2956358194351196,
+      "eval_runtime": 11.3002,
+      "eval_samples_per_second": 50.884,
+      "eval_steps_per_second": 12.743,
       "num_input_tokens_seen": 19624544,
       "step": 14400
     },
     {
       "epoch": 45.061823802163836,
       "eval_loss": 1.214294195175171,
+      "eval_runtime": 11.3055,
+      "eval_samples_per_second": 50.86,
+      "eval_steps_per_second": 12.737,
       "num_input_tokens_seen": 19896064,
       "step": 14600
     },
     {
       "epoch": 45.68006182380216,
       "eval_loss": 1.200486660003662,
+      "eval_runtime": 11.2896,
+      "eval_samples_per_second": 50.932,
+      "eval_steps_per_second": 12.755,
       "num_input_tokens_seen": 20168064,
       "step": 14800
     },
     {
       "epoch": 46.2967542503864,
       "eval_loss": 1.3230748176574707,
+      "eval_runtime": 11.2946,
+      "eval_samples_per_second": 50.909,
+      "eval_steps_per_second": 12.749,
       "num_input_tokens_seen": 20440208,
       "step": 15000
     },
     {
       "epoch": 46.914992272024726,
       "eval_loss": 1.2638696432113647,
+      "eval_runtime": 11.3107,
+      "eval_samples_per_second": 50.837,
+      "eval_steps_per_second": 12.731,
       "num_input_tokens_seen": 20713296,
       "step": 15200
     },
     {
       "epoch": 47.53168469860896,
       "eval_loss": 1.3379755020141602,
+      "eval_runtime": 11.306,
+      "eval_samples_per_second": 50.858,
+      "eval_steps_per_second": 12.737,
       "num_input_tokens_seen": 20985744,
       "step": 15400
     },
     {
       "epoch": 48.1483771251932,
       "eval_loss": 1.2503776550292969,
+      "eval_runtime": 11.2966,
+      "eval_samples_per_second": 50.9,
+      "eval_steps_per_second": 12.747,
       "num_input_tokens_seen": 21257920,
       "step": 15600
     },
     {
       "epoch": 48.76661514683153,
       "eval_loss": 1.2862586975097656,
+      "eval_runtime": 11.3031,
+      "eval_samples_per_second": 50.871,
+      "eval_steps_per_second": 12.74,
       "num_input_tokens_seen": 21529248,
       "step": 15800
     },
     {
       "epoch": 49.38330757341576,
       "eval_loss": 1.312309741973877,
+      "eval_runtime": 11.2944,
+      "eval_samples_per_second": 50.91,
+      "eval_steps_per_second": 12.75,
       "num_input_tokens_seen": 21800992,
       "step": 16000
     },
     {
       "epoch": 50.0,
       "eval_loss": 1.2966762781143188,
+      "eval_runtime": 11.2763,
+      "eval_samples_per_second": 50.992,
+      "eval_steps_per_second": 12.77,
       "num_input_tokens_seen": 22073392,
       "step": 16200
     },
     {
       "epoch": 50.618238021638334,
       "eval_loss": 1.3632538318634033,
+      "eval_runtime": 11.3003,
+      "eval_samples_per_second": 50.884,
+      "eval_steps_per_second": 12.743,
       "num_input_tokens_seen": 22345648,
       "step": 16400
     },
     {
       "epoch": 51.23493044822256,
       "eval_loss": 1.3670175075531006,
+      "eval_runtime": 11.296,
+      "eval_samples_per_second": 50.903,
+      "eval_steps_per_second": 12.748,
       "num_input_tokens_seen": 22617984,
       "step": 16600
     },
     {
       "epoch": 51.8531684698609,
       "eval_loss": 1.3320527076721191,
+      "eval_runtime": 11.3009,
+      "eval_samples_per_second": 50.881,
+      "eval_steps_per_second": 12.742,
       "num_input_tokens_seen": 22892544,
       "step": 16800
     },
     {
       "epoch": 52.469860896445134,
       "eval_loss": 1.430206537246704,
+      "eval_runtime": 11.3085,
+      "eval_samples_per_second": 50.847,
+      "eval_steps_per_second": 12.734,
       "num_input_tokens_seen": 23163488,
       "step": 17000
     },
     {
       "epoch": 53.086553323029364,
       "eval_loss": 1.321289300918579,
+      "eval_runtime": 11.3024,
+      "eval_samples_per_second": 50.874,
+      "eval_steps_per_second": 12.741,
       "num_input_tokens_seen": 23438320,
       "step": 17200
     },
     {
       "epoch": 53.7047913446677,
       "eval_loss": 1.4570552110671997,
+      "eval_runtime": 11.3064,
+      "eval_samples_per_second": 50.856,
+      "eval_steps_per_second": 12.736,
       "num_input_tokens_seen": 23708720,
       "step": 17400
     },
     {
       "epoch": 54.321483771251934,
       "eval_loss": 1.3873727321624756,
+      "eval_runtime": 11.2922,
+      "eval_samples_per_second": 50.92,
+      "eval_steps_per_second": 12.752,
       "num_input_tokens_seen": 23984304,
       "step": 17600
     },
     {
       "epoch": 54.93972179289026,
       "eval_loss": 1.4202662706375122,
+      "eval_runtime": 11.3232,
+      "eval_samples_per_second": 50.781,
+      "eval_steps_per_second": 12.717,
       "num_input_tokens_seen": 24256368,
       "step": 17800
     },
     {
       "epoch": 55.5564142194745,
       "eval_loss": 1.3830780982971191,
+      "eval_runtime": 11.3013,
+      "eval_samples_per_second": 50.879,
+      "eval_steps_per_second": 12.742,
       "num_input_tokens_seen": 24527040,
       "step": 18000
     },
     {
       "epoch": 56.173106646058734,
       "eval_loss": 1.4858934879302979,
+      "eval_runtime": 11.2884,
+      "eval_samples_per_second": 50.937,
+      "eval_steps_per_second": 12.756,
       "num_input_tokens_seen": 24799312,
       "step": 18200
     },
     {
       "epoch": 56.79134466769706,
       "eval_loss": 1.5054408311843872,
+      "eval_runtime": 11.2984,
+      "eval_samples_per_second": 50.892,
+      "eval_steps_per_second": 12.745,
       "num_input_tokens_seen": 25072848,
       "step": 18400
     },
     {
       "epoch": 57.4080370942813,
       "eval_loss": 1.473268747329712,
+      "eval_runtime": 11.3001,
+      "eval_samples_per_second": 50.884,
+      "eval_steps_per_second": 12.743,
       "num_input_tokens_seen": 25347056,
       "step": 18600
     },
     {
       "epoch": 58.024729520865534,
       "eval_loss": 1.5095571279525757,
+      "eval_runtime": 11.2966,
+      "eval_samples_per_second": 50.9,
+      "eval_steps_per_second": 12.747,
       "num_input_tokens_seen": 25618400,
       "step": 18800
     },
     {
       "epoch": 58.64296754250386,
       "eval_loss": 1.3225481510162354,
+      "eval_runtime": 11.3183,
+      "eval_samples_per_second": 50.803,
+      "eval_steps_per_second": 12.723,
       "num_input_tokens_seen": 25892960,
       "step": 19000
     },
     {
       "epoch": 59.2596599690881,
       "eval_loss": 1.4172106981277466,
+      "eval_runtime": 11.3028,
+      "eval_samples_per_second": 50.872,
+      "eval_steps_per_second": 12.74,
       "num_input_tokens_seen": 26164688,
       "step": 19200
     },
     {
       "epoch": 59.87789799072643,
       "eval_loss": 1.35789155960083,
+      "eval_runtime": 11.2938,
+      "eval_samples_per_second": 50.913,
+      "eval_steps_per_second": 12.75,
       "num_input_tokens_seen": 26437392,
       "step": 19400
     },
     {
       "epoch": 60.49459041731066,
       "eval_loss": 1.406263828277588,
+      "eval_runtime": 11.2941,
+      "eval_samples_per_second": 50.911,
+      "eval_steps_per_second": 12.75,
       "num_input_tokens_seen": 26710176,
       "step": 19600
     },
     {
       "epoch": 61.1112828438949,
       "eval_loss": 1.4265893697738647,
+      "eval_runtime": 11.3038,
+      "eval_samples_per_second": 50.868,
+      "eval_steps_per_second": 12.739,
       "num_input_tokens_seen": 26981728,
       "step": 19800
     },
     {
       "epoch": 61.72952086553323,
       "eval_loss": 1.3551362752914429,
+      "eval_runtime": 11.2955,
+      "eval_samples_per_second": 50.905,
+      "eval_steps_per_second": 12.748,
       "num_input_tokens_seen": 27253632,
       "step": 20000
     },
     {
       "epoch": 62.34621329211747,
       "eval_loss": 1.4743679761886597,
+      "eval_runtime": 11.2915,
+      "eval_samples_per_second": 50.923,
+      "eval_steps_per_second": 12.753,
       "num_input_tokens_seen": 27524928,
       "step": 20200
     },
     {
       "epoch": 62.964451313755795,
       "eval_loss": 1.5115978717803955,
+      "eval_runtime": 11.314,
+      "eval_samples_per_second": 50.822,
+      "eval_steps_per_second": 12.728,
       "num_input_tokens_seen": 27799712,
       "step": 20400
     },
     {
       "epoch": 63.58114374034003,
       "eval_loss": 1.5977118015289307,
+      "eval_runtime": 11.3135,
+      "eval_samples_per_second": 50.824,
+      "eval_steps_per_second": 12.728,
       "num_input_tokens_seen": 28071024,
       "step": 20600
     },
     {
       "epoch": 64.19783616692426,
       "eval_loss": 1.5763089656829834,
+      "eval_runtime": 11.2999,
+      "eval_samples_per_second": 50.885,
+      "eval_steps_per_second": 12.743,
       "num_input_tokens_seen": 28342880,
       "step": 20800
     },
     {
       "epoch": 64.8160741885626,
       "eval_loss": 1.6289054155349731,
+      "eval_runtime": 11.3101,
+      "eval_samples_per_second": 50.839,
+      "eval_steps_per_second": 12.732,
       "num_input_tokens_seen": 28617696,
       "step": 21000
     },
     {
       "epoch": 65.43276661514683,
       "eval_loss": 1.6688075065612793,
+      "eval_runtime": 11.304,
+      "eval_samples_per_second": 50.867,
+      "eval_steps_per_second": 12.739,
       "num_input_tokens_seen": 28888112,
       "step": 21200
     },
     {
       "epoch": 66.04945904173107,
       "eval_loss": 1.6155662536621094,
+      "eval_runtime": 11.3029,
+      "eval_samples_per_second": 50.872,
+      "eval_steps_per_second": 12.74,
       "num_input_tokens_seen": 29162944,
       "step": 21400
     },
     {
       "epoch": 66.6676970633694,
       "eval_loss": 1.6828913688659668,
+      "eval_runtime": 11.2964,
+      "eval_samples_per_second": 50.901,
+      "eval_steps_per_second": 12.747,
       "num_input_tokens_seen": 29434784,
       "step": 21600
     },
     {
       "epoch": 67.28438948995363,
       "eval_loss": 1.6700409650802612,
+      "eval_runtime": 11.3083,
+      "eval_samples_per_second": 50.847,
+      "eval_steps_per_second": 12.734,
       "num_input_tokens_seen": 29706800,
       "step": 21800
     },
     {
       "epoch": 67.90262751159196,
       "eval_loss": 1.6916232109069824,
+      "eval_runtime": 11.2968,
+      "eval_samples_per_second": 50.899,
+      "eval_steps_per_second": 12.747,
       "num_input_tokens_seen": 29980240,
       "step": 22000
     },
     {
       "epoch": 68.5193199381762,
       "eval_loss": 1.7332632541656494,
+      "eval_runtime": 11.2865,
+      "eval_samples_per_second": 50.946,
+      "eval_steps_per_second": 12.759,
       "num_input_tokens_seen": 30250192,
       "step": 22200
     },
     {
       "epoch": 69.13601236476043,
       "eval_loss": 1.7388529777526855,
+      "eval_runtime": 11.3123,
+      "eval_samples_per_second": 50.83,
+      "eval_steps_per_second": 12.73,
       "num_input_tokens_seen": 30522672,
       "step": 22400
     },
     {
       "epoch": 69.75425038639877,
       "eval_loss": 1.7202584743499756,
+      "eval_runtime": 11.2903,
+      "eval_samples_per_second": 50.928,
+      "eval_steps_per_second": 12.754,
       "num_input_tokens_seen": 30795024,
       "step": 22600
     },
     {
       "epoch": 70.370942812983,
       "eval_loss": 1.7700324058532715,
+      "eval_runtime": 11.3014,
+      "eval_samples_per_second": 50.878,
+      "eval_steps_per_second": 12.742,
       "num_input_tokens_seen": 31066544,
       "step": 22800
     },
     {
       "epoch": 70.98918083462132,
       "eval_loss": 1.769662857055664,
+      "eval_runtime": 11.3053,
+      "eval_samples_per_second": 50.861,
+      "eval_steps_per_second": 12.737,
       "num_input_tokens_seen": 31338128,
       "step": 23000
     },
     {
       "epoch": 71.60587326120556,
       "eval_loss": 1.8099125623703003,
+      "eval_runtime": 11.297,
+      "eval_samples_per_second": 50.898,
+      "eval_steps_per_second": 12.747,
       "num_input_tokens_seen": 31609104,
       "step": 23200
     },
     {
       "epoch": 72.2225656877898,
       "eval_loss": 1.856191873550415,
+      "eval_runtime": 11.2897,
+      "eval_samples_per_second": 50.931,
+      "eval_steps_per_second": 12.755,
       "num_input_tokens_seen": 31881424,
       "step": 23400
     },
     {
       "epoch": 72.84080370942813,
       "eval_loss": 1.7837176322937012,
+      "eval_runtime": 11.3065,
+      "eval_samples_per_second": 50.856,
+      "eval_steps_per_second": 12.736,
       "num_input_tokens_seen": 32155024,
       "step": 23600
     },
     {
       "epoch": 73.45749613601237,
       "eval_loss": 1.8125648498535156,
+      "eval_runtime": 11.2948,
+      "eval_samples_per_second": 50.909,
+      "eval_steps_per_second": 12.749,
       "num_input_tokens_seen": 32425312,
       "step": 23800
     },
     {
       "epoch": 74.0741885625966,
       "eval_loss": 1.8575142621994019,
+      "eval_runtime": 11.2926,
+      "eval_samples_per_second": 50.918,
+      "eval_steps_per_second": 12.752,
       "num_input_tokens_seen": 32698784,
       "step": 24000
     },
     {
       "epoch": 74.69242658423494,
       "eval_loss": 1.8753187656402588,
+      "eval_runtime": 11.2917,
+      "eval_samples_per_second": 50.922,
+      "eval_steps_per_second": 12.753,
       "num_input_tokens_seen": 32974144,
       "step": 24200
     },
     {
       "epoch": 75.30911901081916,
       "eval_loss": 1.9167370796203613,
+      "eval_runtime": 11.3077,
+      "eval_samples_per_second": 50.85,
+      "eval_steps_per_second": 12.735,
       "num_input_tokens_seen": 33245216,
       "step": 24400
     },
     {
       "epoch": 75.9273570324575,
       "eval_loss": 1.1968048810958862,
+      "eval_runtime": 11.3303,
+      "eval_samples_per_second": 50.749,
+      "eval_steps_per_second": 12.709,
       "num_input_tokens_seen": 33517088,
       "step": 24600
     },
     {
       "epoch": 76.54404945904173,
       "eval_loss": 1.3781951665878296,
+      "eval_runtime": 11.2957,
+      "eval_samples_per_second": 50.904,
+      "eval_steps_per_second": 12.748,
       "num_input_tokens_seen": 33788432,
       "step": 24800
     },
     {
       "epoch": 77.16074188562597,
       "eval_loss": 1.5010449886322021,
+      "eval_runtime": 11.327,
+      "eval_samples_per_second": 50.763,
+      "eval_steps_per_second": 12.713,
       "num_input_tokens_seen": 34060416,
       "step": 25000
     },
     {
       "epoch": 77.7789799072643,
       "eval_loss": 1.5149627923965454,
+      "eval_runtime": 11.2979,
+      "eval_samples_per_second": 50.894,
+      "eval_steps_per_second": 12.746,
       "num_input_tokens_seen": 34333408,
       "step": 25200
     },
     {
       "epoch": 78.39567233384854,
       "eval_loss": 1.6160272359848022,
+      "eval_runtime": 11.2891,
+      "eval_samples_per_second": 50.934,
+      "eval_steps_per_second": 12.756,
       "num_input_tokens_seen": 34605392,
       "step": 25400
     },
     {
       "epoch": 79.01236476043276,
       "eval_loss": 1.5819573402404785,
+      "eval_runtime": 11.3204,
+      "eval_samples_per_second": 50.793,
+      "eval_steps_per_second": 12.72,
       "num_input_tokens_seen": 34879536,
       "step": 25600
     },
     {
       "epoch": 79.6306027820711,
       "eval_loss": 1.651304841041565,
+      "eval_runtime": 11.2935,
+      "eval_samples_per_second": 50.914,
+      "eval_steps_per_second": 12.751,
       "num_input_tokens_seen": 35153488,
       "step": 25800
     },
     {
       "epoch": 80.24729520865533,
       "eval_loss": 1.6964157819747925,
+      "eval_runtime": 11.2883,
+      "eval_samples_per_second": 50.937,
+      "eval_steps_per_second": 12.757,
       "num_input_tokens_seen": 35424912,
       "step": 26000
     },
     {
       "epoch": 80.86553323029366,
       "eval_loss": 1.7483088970184326,
+      "eval_runtime": 11.3043,
+      "eval_samples_per_second": 50.865,
+      "eval_steps_per_second": 12.738,
       "num_input_tokens_seen": 35698064,
       "step": 26200
     },
     {
       "epoch": 81.4822256568779,
       "eval_loss": 1.7370902299880981,
+      "eval_runtime": 11.2996,
+      "eval_samples_per_second": 50.887,
+      "eval_steps_per_second": 12.744,
       "num_input_tokens_seen": 35968160,
       "step": 26400
     },
     {
       "epoch": 82.09891808346214,
       "eval_loss": 1.7790963649749756,
+      "eval_runtime": 11.2991,
+      "eval_samples_per_second": 50.889,
+      "eval_steps_per_second": 12.744,
       "num_input_tokens_seen": 36240928,
       "step": 26600
     },
     {
       "epoch": 82.71715610510046,
       "eval_loss": 1.772797703742981,
+      "eval_runtime": 11.2933,
+      "eval_samples_per_second": 50.915,
+      "eval_steps_per_second": 12.751,
       "num_input_tokens_seen": 36514208,
       "step": 26800
     },
     {
       "epoch": 83.3338485316847,
       "eval_loss": 1.7722996473312378,
+      "eval_runtime": 11.3164,
+      "eval_samples_per_second": 50.811,
+      "eval_steps_per_second": 12.725,
       "num_input_tokens_seen": 36785136,
       "step": 27000
     },
     {
       "epoch": 83.95208655332303,
       "eval_loss": 1.8002300262451172,
+      "eval_runtime": 11.2936,
+      "eval_samples_per_second": 50.914,
+      "eval_steps_per_second": 12.751,
       "num_input_tokens_seen": 37061648,
       "step": 27200
     },
     {
       "epoch": 84.56877897990726,
       "eval_loss": 1.804320216178894,
+      "eval_runtime": 11.2862,
+      "eval_samples_per_second": 50.947,
+      "eval_steps_per_second": 12.759,
       "num_input_tokens_seen": 37333648,
       "step": 27400
     },
     {
       "epoch": 85.1854714064915,
       "eval_loss": 1.8354555368423462,
+      "eval_runtime": 11.3126,
+      "eval_samples_per_second": 50.828,
+      "eval_steps_per_second": 12.729,
       "num_input_tokens_seen": 37605184,
       "step": 27600
     },
     {
       "epoch": 85.80370942812984,
       "eval_loss": 1.8400607109069824,
+      "eval_runtime": 11.2893,
+      "eval_samples_per_second": 50.933,
+      "eval_steps_per_second": 12.755,
       "num_input_tokens_seen": 37875360,
       "step": 27800
     },
     {
       "epoch": 86.42040185471407,
       "eval_loss": 1.8688201904296875,
+      "eval_runtime": 11.2959,
+      "eval_samples_per_second": 50.904,
+      "eval_steps_per_second": 12.748,
       "num_input_tokens_seen": 38150208,
       "step": 28000
     },
     {
       "epoch": 87.0370942812983,
       "eval_loss": 1.810387134552002,
+      "eval_runtime": 11.3075,
+      "eval_samples_per_second": 50.851,
+      "eval_steps_per_second": 12.735,
       "num_input_tokens_seen": 38422048,
       "step": 28200
     },
     {
       "epoch": 87.65533230293663,
       "eval_loss": 1.8730015754699707,
+      "eval_runtime": 11.2946,
+      "eval_samples_per_second": 50.909,
+      "eval_steps_per_second": 12.749,
       "num_input_tokens_seen": 38692224,
       "step": 28400
     },
     {
       "epoch": 88.27202472952087,
       "eval_loss": 1.8786824941635132,
+      "eval_runtime": 11.2989,
+      "eval_samples_per_second": 50.89,
+      "eval_steps_per_second": 12.745,
       "num_input_tokens_seen": 38964176,
       "step": 28600
     },
     {
       "epoch": 88.8902627511592,
       "eval_loss": 1.8849008083343506,
+      "eval_runtime": 11.2971,
+      "eval_samples_per_second": 50.898,
+      "eval_steps_per_second": 12.747,
       "num_input_tokens_seen": 39235184,
       "step": 28800
     },
     {
       "epoch": 89.50695517774344,
       "eval_loss": 1.9232840538024902,
+      "eval_runtime": 11.3151,
+      "eval_samples_per_second": 50.817,
+      "eval_steps_per_second": 12.726,
       "num_input_tokens_seen": 39507520,
       "step": 29000
     },
     {
       "epoch": 90.12364760432767,
       "eval_loss": 1.9127227067947388,
+      "eval_runtime": 11.3026,
+      "eval_samples_per_second": 50.873,
+      "eval_steps_per_second": 12.74,
       "num_input_tokens_seen": 39779328,
       "step": 29200
     },
     {
       "epoch": 90.74188562596599,
       "eval_loss": 1.8981382846832275,
+      "eval_runtime": 11.2948,
+      "eval_samples_per_second": 50.908,
+      "eval_steps_per_second": 12.749,
       "num_input_tokens_seen": 40051520,
       "step": 29400
     },
     {
       "epoch": 91.35857805255023,
       "eval_loss": 1.9302953481674194,
+      "eval_runtime": 11.3008,
+      "eval_samples_per_second": 50.881,
+      "eval_steps_per_second": 12.742,
       "num_input_tokens_seen": 40322576,
       "step": 29600
     },
     {
       "epoch": 91.97681607418856,
       "eval_loss": 1.9179975986480713,
+      "eval_runtime": 11.2952,
+      "eval_samples_per_second": 50.907,
+      "eval_steps_per_second": 12.749,
       "num_input_tokens_seen": 40596016,
       "step": 29800
     },
     {
       "epoch": 92.5935085007728,
       "eval_loss": 1.92044997215271,
+      "eval_runtime": 11.297,
+      "eval_samples_per_second": 50.898,
+      "eval_steps_per_second": 12.747,
       "num_input_tokens_seen": 40867568,
       "step": 30000
     },
     {
       "epoch": 93.21020092735704,
       "eval_loss": 1.9711647033691406,
+      "eval_runtime": 11.3063,
+      "eval_samples_per_second": 50.857,
+      "eval_steps_per_second": 12.736,
       "num_input_tokens_seen": 41140848,
       "step": 30200
     },
     {
       "epoch": 93.82843894899537,
       "eval_loss": 1.976061463356018,
+      "eval_runtime": 11.2906,
+      "eval_samples_per_second": 50.927,
+      "eval_steps_per_second": 12.754,
       "num_input_tokens_seen": 41412848,
       "step": 30400
     },
     {
       "epoch": 94.44513137557959,
       "eval_loss": 1.958508849143982,
+      "eval_runtime": 11.2928,
+      "eval_samples_per_second": 50.917,
+      "eval_steps_per_second": 12.751,
       "num_input_tokens_seen": 41683920,
       "step": 30600
     },
     {
       "epoch": 95.06182380216383,
       "eval_loss": 1.9966574907302856,
+      "eval_runtime": 11.302,
+      "eval_samples_per_second": 50.876,
+      "eval_steps_per_second": 12.741,
       "num_input_tokens_seen": 41959008,
       "step": 30800
     },
     {
       "epoch": 95.68006182380216,
       "eval_loss": 1.9950237274169922,
+      "eval_runtime": 11.3056,
+      "eval_samples_per_second": 50.86,
+      "eval_steps_per_second": 12.737,
       "num_input_tokens_seen": 42231520,
       "step": 31000
     },
     {
       "epoch": 96.2967542503864,
       "eval_loss": 1.9839365482330322,
+      "eval_runtime": 11.293,
+      "eval_samples_per_second": 50.916,
+      "eval_steps_per_second": 12.751,
       "num_input_tokens_seen": 42502416,
       "step": 31200
     },
     {
       "epoch": 96.91499227202473,
       "eval_loss": 2.004136323928833,
+      "eval_runtime": 11.2961,
+      "eval_samples_per_second": 50.902,
+      "eval_steps_per_second": 12.748,
       "num_input_tokens_seen": 42776304,
       "step": 31400
     },
     {
       "epoch": 97.53168469860897,
       "eval_loss": 2.016206979751587,
+      "eval_runtime": 11.3124,
+      "eval_samples_per_second": 50.829,
+      "eval_steps_per_second": 12.729,
       "num_input_tokens_seen": 43048176,
       "step": 31600
     },
     {
       "epoch": 98.14837712519319,
       "eval_loss": 2.010310173034668,
+      "eval_runtime": 11.3207,
+      "eval_samples_per_second": 50.792,
+      "eval_steps_per_second": 12.72,
       "num_input_tokens_seen": 43320144,
       "step": 31800
     },
     {
       "epoch": 98.76661514683153,
       "eval_loss": 2.008124589920044,
+      "eval_runtime": 11.2928,
+      "eval_samples_per_second": 50.917,
+      "eval_steps_per_second": 12.751,
       "num_input_tokens_seen": 43591728,
       "step": 32000
     },
     {
       "epoch": 99.38330757341576,
       "eval_loss": 2.027338981628418,
+      "eval_runtime": 11.3086,
+      "eval_samples_per_second": 50.846,
+      "eval_steps_per_second": 12.734,
       "num_input_tokens_seen": 43866048,
       "step": 32200
     },
     {
       "epoch": 100.0,
       "eval_loss": 2.034688711166382,
+      "eval_runtime": 11.2867,
+      "eval_samples_per_second": 50.945,
+      "eval_steps_per_second": 12.758,
       "num_input_tokens_seen": 44137040,
       "step": 32400
     },
     {
       "epoch": 100.61823802163833,
       "eval_loss": 2.052443265914917,
+      "eval_runtime": 11.2954,
+      "eval_samples_per_second": 50.905,
+      "eval_steps_per_second": 12.749,
       "num_input_tokens_seen": 44408848,
       "step": 32600
     },
     {
       "epoch": 101.23493044822257,
       "eval_loss": 2.067155599594116,
+      "eval_runtime": 11.3248,
+      "eval_samples_per_second": 50.774,
+      "eval_steps_per_second": 12.715,
       "num_input_tokens_seen": 44682912,
       "step": 32800
     },
     {
       "epoch": 101.85316846986089,
       "eval_loss": 2.042910575866699,
+      "eval_runtime": 11.2924,
+      "eval_samples_per_second": 50.919,
+      "eval_steps_per_second": 12.752,
       "num_input_tokens_seen": 44956000,
       "step": 33000
     },
     {
       "epoch": 102.46986089644513,
       "eval_loss": 2.049968719482422,
+      "eval_runtime": 11.2991,
+      "eval_samples_per_second": 50.889,
+      "eval_steps_per_second": 12.744,
       "num_input_tokens_seen": 45227824,
       "step": 33200
     },
     {
       "epoch": 103.08655332302936,
       "eval_loss": 2.047577142715454,
+      "eval_runtime": 11.2983,
+      "eval_samples_per_second": 50.893,
+      "eval_steps_per_second": 12.745,
       "num_input_tokens_seen": 45498320,
       "step": 33400
     },
     {
       "epoch": 103.7047913446677,
       "eval_loss": 2.0636227130889893,
+      "eval_runtime": 11.3222,
+      "eval_samples_per_second": 50.785,
+      "eval_steps_per_second": 12.718,
       "num_input_tokens_seen": 45773648,
       "step": 33600
     },
     {
       "epoch": 104.32148377125193,
       "eval_loss": 2.080799102783203,
+      "eval_runtime": 11.3037,
+      "eval_samples_per_second": 50.868,
+      "eval_steps_per_second": 12.739,
       "num_input_tokens_seen": 46044128,
       "step": 33800
     },
     {
       "epoch": 104.93972179289027,
       "eval_loss": 2.0720911026000977,
+      "eval_runtime": 11.3001,
+      "eval_samples_per_second": 50.885,
+      "eval_steps_per_second": 12.743,
       "num_input_tokens_seen": 46317504,
       "step": 34000
     },
     {
       "epoch": 105.5564142194745,
       "eval_loss": 2.082965612411499,
+      "eval_runtime": 11.312,
+      "eval_samples_per_second": 50.831,
+      "eval_steps_per_second": 12.73,
       "num_input_tokens_seen": 46589024,
       "step": 34200
     },
     {
       "epoch": 106.17310664605873,
       "eval_loss": 2.094463348388672,
+      "eval_runtime": 11.2952,
+      "eval_samples_per_second": 50.906,
+      "eval_steps_per_second": 12.749,
       "num_input_tokens_seen": 46863680,
       "step": 34400
     },
     {
       "epoch": 106.79134466769706,
       "eval_loss": 2.0966665744781494,
+      "eval_runtime": 11.2915,
+      "eval_samples_per_second": 50.923,
+      "eval_steps_per_second": 12.753,
       "num_input_tokens_seen": 47135520,
       "step": 34600
     },
     {
       "epoch": 107.4080370942813,
       "eval_loss": 2.1042280197143555,
+      "eval_runtime": 11.3301,
+      "eval_samples_per_second": 50.75,
+      "eval_steps_per_second": 12.709,
       "num_input_tokens_seen": 47407056,
       "step": 34800
     },
     {
       "epoch": 108.02472952086553,
       "eval_loss": 2.096859931945801,
+      "eval_runtime": 11.2877,
+      "eval_samples_per_second": 50.94,
+      "eval_steps_per_second": 12.757,
       "num_input_tokens_seen": 47680112,
       "step": 35000
     },
     {
       "epoch": 108.64296754250387,
       "eval_loss": 2.1074352264404297,
+      "eval_runtime": 11.2944,
+      "eval_samples_per_second": 50.91,
+      "eval_steps_per_second": 12.75,
       "num_input_tokens_seen": 47951632,
       "step": 35200
     },
     {
       "epoch": 109.2596599690881,
       "eval_loss": 2.110261917114258,
+      "eval_runtime": 11.3012,
+      "eval_samples_per_second": 50.879,
+      "eval_steps_per_second": 12.742,
       "num_input_tokens_seen": 48224016,
       "step": 35400
     },
     {
       "epoch": 109.87789799072642,
       "eval_loss": 2.1071767807006836,
+      "eval_runtime": 11.3117,
+      "eval_samples_per_second": 50.832,
+      "eval_steps_per_second": 12.73,
       "num_input_tokens_seen": 48497072,
       "step": 35600
     },
     {
       "epoch": 110.49459041731066,
       "eval_loss": 2.1081290245056152,
+      "eval_runtime": 11.2959,
+      "eval_samples_per_second": 50.904,
+      "eval_steps_per_second": 12.748,
       "num_input_tokens_seen": 48768624,
       "step": 35800
     },
     {
       "epoch": 111.1112828438949,
       "eval_loss": 2.1115777492523193,
+      "eval_runtime": 11.2933,
+      "eval_samples_per_second": 50.915,
+      "eval_steps_per_second": 12.751,
       "num_input_tokens_seen": 49041488,
       "step": 36000
     },
     {
       "epoch": 111.72952086553323,
       "eval_loss": 2.1243085861206055,
+      "eval_runtime": 11.3106,
+      "eval_samples_per_second": 50.837,
+      "eval_steps_per_second": 12.731,
       "num_input_tokens_seen": 49314352,
       "step": 36200
     },
     {
       "epoch": 112.34621329211747,
       "eval_loss": 2.1214993000030518,
+      "eval_runtime": 11.297,
+      "eval_samples_per_second": 50.898,
+      "eval_steps_per_second": 12.747,
       "num_input_tokens_seen": 49584848,
       "step": 36400
     },
     {
       "epoch": 112.9644513137558,
       "eval_loss": 2.1198999881744385,
+      "eval_runtime": 11.3061,
+      "eval_samples_per_second": 50.857,
+      "eval_steps_per_second": 12.736,
       "num_input_tokens_seen": 49858864,
       "step": 36600
     },
     {
       "epoch": 113.58114374034002,
       "eval_loss": 2.129167079925537,
+      "eval_runtime": 11.3074,
+      "eval_samples_per_second": 50.852,
+      "eval_steps_per_second": 12.735,
       "num_input_tokens_seen": 50130000,
       "step": 36800
     },
     {
       "epoch": 114.19783616692426,
       "eval_loss": 2.127554178237915,
+      "eval_runtime": 11.3023,
+      "eval_samples_per_second": 50.875,
+      "eval_steps_per_second": 12.741,
       "num_input_tokens_seen": 50404128,
       "step": 37000
     },
     {
       "epoch": 114.8160741885626,
       "eval_loss": 2.1345906257629395,
+      "eval_runtime": 11.2978,
+      "eval_samples_per_second": 50.895,
+      "eval_steps_per_second": 12.746,
       "num_input_tokens_seen": 50678112,
       "step": 37200
     },
     {
       "epoch": 115.43276661514683,
       "eval_loss": 2.132272481918335,
+      "eval_runtime": 11.3176,
+      "eval_samples_per_second": 50.806,
+      "eval_steps_per_second": 12.724,
       "num_input_tokens_seen": 50946800,
       "step": 37400
     },
     {
       "epoch": 116.04945904173107,
       "eval_loss": 2.131873369216919,
+      "eval_runtime": 11.3073,
+      "eval_samples_per_second": 50.852,
+      "eval_steps_per_second": 12.735,
       "num_input_tokens_seen": 51219680,
       "step": 37600
     },
     {
       "epoch": 116.6676970633694,
       "eval_loss": 2.1323955059051514,
+      "eval_runtime": 11.2948,
+      "eval_samples_per_second": 50.908,
+      "eval_steps_per_second": 12.749,
       "num_input_tokens_seen": 51492544,
       "step": 37800
     },
     {
       "epoch": 117.28438948995363,
       "eval_loss": 2.135064125061035,
+      "eval_runtime": 11.3036,
+      "eval_samples_per_second": 50.869,
+      "eval_steps_per_second": 12.739,
       "num_input_tokens_seen": 51764160,
       "step": 38000
     },
     {
       "epoch": 117.90262751159196,
       "eval_loss": 2.134946584701538,
+      "eval_runtime": 11.3035,
+      "eval_samples_per_second": 50.869,
+      "eval_steps_per_second": 12.739,
       "num_input_tokens_seen": 52039488,
       "step": 38200
     },
     {
       "epoch": 118.5193199381762,
       "eval_loss": 2.1382298469543457,
+      "eval_runtime": 11.2966,
+      "eval_samples_per_second": 50.9,
+      "eval_steps_per_second": 12.747,
       "num_input_tokens_seen": 52311648,
       "step": 38400
     },
     {
       "epoch": 119.13601236476043,
       "eval_loss": 2.1389503479003906,
+      "eval_runtime": 11.299,
+      "eval_samples_per_second": 50.89,
+      "eval_steps_per_second": 12.745,
       "num_input_tokens_seen": 52584960,
       "step": 38600
     },
     {
       "epoch": 119.75425038639877,
       "eval_loss": 2.141028642654419,
+      "eval_runtime": 11.2899,
+      "eval_samples_per_second": 50.93,
+      "eval_steps_per_second": 12.755,
       "num_input_tokens_seen": 52855712,
       "step": 38800
     },
     {
       "epoch": 120.370942812983,
       "eval_loss": 2.142845630645752,
+      "eval_runtime": 12.65,
+      "eval_samples_per_second": 45.454,
+      "eval_steps_per_second": 11.383,
       "num_input_tokens_seen": 53128480,
       "step": 39000
     },
     {
       "epoch": 120.98918083462132,
       "eval_loss": 2.142850637435913,
+      "eval_runtime": 11.2942,
+      "eval_samples_per_second": 50.911,
+      "eval_steps_per_second": 12.75,
       "num_input_tokens_seen": 53401056,
       "step": 39200
     },
     {
       "epoch": 121.60587326120556,
       "eval_loss": 2.141234874725342,
+      "eval_runtime": 11.3357,
+      "eval_samples_per_second": 50.725,
+      "eval_steps_per_second": 12.703,
       "num_input_tokens_seen": 53673600,
       "step": 39400
     },
     {
       "epoch": 122.2225656877898,
       "eval_loss": 2.1376492977142334,
+      "eval_runtime": 11.2938,
+      "eval_samples_per_second": 50.913,
+      "eval_steps_per_second": 12.75,
       "num_input_tokens_seen": 53943712,
       "step": 39600
     },
     {
       "epoch": 122.84080370942813,
       "eval_loss": 2.1381330490112305,
+      "eval_runtime": 11.2911,
+      "eval_samples_per_second": 50.925,
+      "eval_steps_per_second": 12.753,
       "num_input_tokens_seen": 54217344,
       "step": 39800
     },
     {
       "epoch": 123.45749613601237,
       "eval_loss": 2.137033700942993,
+      "eval_runtime": 11.2958,
+      "eval_samples_per_second": 50.904,
+      "eval_steps_per_second": 12.748,
       "num_input_tokens_seen": 54490336,
       "step": 40000
     },
       "step": 40000,
       "total_flos": 2.453675202191819e+18,
       "train_loss": 0.10362623064493919,
+      "train_runtime": 29204.064,
+      "train_samples_per_second": 21.915,
+      "train_steps_per_second": 1.37
     }
   ],
   "logging_steps": 5,