End of training

Browse files

Files changed (7) hide show

README.md +4 -3
all_results.json +13 -0
eval_results.json +8 -0
train_results.json +9 -0
trainer_state.json +2023 -0
training_eval_loss.png +0 -0
training_loss.png +0 -0

README.md CHANGED Viewed

@@ -4,6 +4,7 @@ license: llama3
 base_model: meta-llama/Meta-Llama-3-8B-Instruct
 tags:
 - llama-factory
 - generated_from_trainer
 model-index:
 - name: train_cb_1757081466
@@ -15,10 +16,10 @@ should probably proofread and complete it, then remove this comment. -->
 # train_cb_1757081466
-This model is a fine-tuned version of [meta-llama/Meta-Llama-3-8B-Instruct](https://huggingface.co/meta-llama/Meta-Llama-3-8B-Instruct) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.3222
-- Num Input Tokens Seen: 297968
 ## Model description

 base_model: meta-llama/Meta-Llama-3-8B-Instruct
 tags:
 - llama-factory
+- prefix-tuning
 - generated_from_trainer
 model-index:
 - name: train_cb_1757081466
 # train_cb_1757081466
+This model is a fine-tuned version of [meta-llama/Meta-Llama-3-8B-Instruct](https://huggingface.co/meta-llama/Meta-Llama-3-8B-Instruct) on the cb dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.3225
+- Num Input Tokens Seen: 310888
 ## Model description

all_results.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+    "epoch": 10.0,
+    "eval_loss": 0.32253095507621765,
+    "eval_runtime": 0.7285,
+    "eval_samples_per_second": 34.319,
+    "eval_steps_per_second": 17.846,
+    "num_input_tokens_seen": 310888,
+    "total_flos": 1.3999146128572416e+16,
+    "train_loss": 0.27997444444191766,
+    "train_runtime": 152.8701,
+    "train_samples_per_second": 14.718,
+    "train_steps_per_second": 7.392
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 10.0,
+    "eval_loss": 0.32253095507621765,
+    "eval_runtime": 0.7285,
+    "eval_samples_per_second": 34.319,
+    "eval_steps_per_second": 17.846,
+    "num_input_tokens_seen": 310888
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 10.0,
+    "num_input_tokens_seen": 310888,
+    "total_flos": 1.3999146128572416e+16,
+    "train_loss": 0.27997444444191766,
+    "train_runtime": 152.8701,
+    "train_samples_per_second": 14.718,
+    "train_steps_per_second": 7.392
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,2023 @@

+{
+  "best_global_step": 570,
+  "best_metric": 0.1859114021062851,
+  "best_model_checkpoint": "saves_stability/prefix-tuning/llama-3-8b-instruct/train_cb_1757081466/checkpoint-570",
+  "epoch": 10.0,
+  "eval_steps": 57,
+  "global_step": 1130,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.04424778761061947,
+      "grad_norm": 158.60247802734375,
+      "learning_rate": 1.7699115044247788e-06,
+      "loss": 7.2714,
+      "num_input_tokens_seen": 1248,
+      "step": 5
+    },
+    {
+      "epoch": 0.08849557522123894,
+      "grad_norm": 164.1085662841797,
+      "learning_rate": 3.982300884955752e-06,
+      "loss": 6.2545,
+      "num_input_tokens_seen": 2864,
+      "step": 10
+    },
+    {
+      "epoch": 0.13274336283185842,
+      "grad_norm": 111.85543823242188,
+      "learning_rate": 6.194690265486726e-06,
+      "loss": 4.3354,
+      "num_input_tokens_seen": 4160,
+      "step": 15
+    },
+    {
+      "epoch": 0.17699115044247787,
+      "grad_norm": 83.06703186035156,
+      "learning_rate": 8.407079646017701e-06,
+      "loss": 2.0766,
+      "num_input_tokens_seen": 5552,
+      "step": 20
+    },
+    {
+      "epoch": 0.22123893805309736,
+      "grad_norm": 92.03155517578125,
+      "learning_rate": 1.0619469026548673e-05,
+      "loss": 1.4378,
+      "num_input_tokens_seen": 6848,
+      "step": 25
+    },
+    {
+      "epoch": 0.26548672566371684,
+      "grad_norm": 76.08715057373047,
+      "learning_rate": 1.2831858407079647e-05,
+      "loss": 0.4648,
+      "num_input_tokens_seen": 8016,
+      "step": 30
+    },
+    {
+      "epoch": 0.30973451327433627,
+      "grad_norm": 62.18666076660156,
+      "learning_rate": 1.504424778761062e-05,
+      "loss": 0.572,
+      "num_input_tokens_seen": 9408,
+      "step": 35
+    },
+    {
+      "epoch": 0.35398230088495575,
+      "grad_norm": 11.945180892944336,
+      "learning_rate": 1.7256637168141594e-05,
+      "loss": 0.2606,
+      "num_input_tokens_seen": 10736,
+      "step": 40
+    },
+    {
+      "epoch": 0.39823008849557523,
+      "grad_norm": 270.0860900878906,
+      "learning_rate": 1.946902654867257e-05,
+      "loss": 0.5221,
+      "num_input_tokens_seen": 11984,
+      "step": 45
+    },
+    {
+      "epoch": 0.4424778761061947,
+      "grad_norm": 58.8084602355957,
+      "learning_rate": 2.1681415929203542e-05,
+      "loss": 0.5118,
+      "num_input_tokens_seen": 13360,
+      "step": 50
+    },
+    {
+      "epoch": 0.48672566371681414,
+      "grad_norm": 80.50281524658203,
+      "learning_rate": 2.3893805309734516e-05,
+      "loss": 0.5795,
+      "num_input_tokens_seen": 14800,
+      "step": 55
+    },
+    {
+      "epoch": 0.504424778761062,
+      "eval_loss": 0.3516029119491577,
+      "eval_runtime": 0.7089,
+      "eval_samples_per_second": 35.267,
+      "eval_steps_per_second": 18.339,
+      "num_input_tokens_seen": 15456,
+      "step": 57
+    },
+    {
+      "epoch": 0.5309734513274337,
+      "grad_norm": 67.8954849243164,
+      "learning_rate": 2.610619469026549e-05,
+      "loss": 0.398,
+      "num_input_tokens_seen": 16192,
+      "step": 60
+    },
+    {
+      "epoch": 0.5752212389380531,
+      "grad_norm": 83.74840545654297,
+      "learning_rate": 2.831858407079646e-05,
+      "loss": 0.3393,
+      "num_input_tokens_seen": 18160,
+      "step": 65
+    },
+    {
+      "epoch": 0.6194690265486725,
+      "grad_norm": 4.390460968017578,
+      "learning_rate": 3.0530973451327434e-05,
+      "loss": 0.2629,
+      "num_input_tokens_seen": 19520,
+      "step": 70
+    },
+    {
+      "epoch": 0.6637168141592921,
+      "grad_norm": 55.11955261230469,
+      "learning_rate": 3.274336283185841e-05,
+      "loss": 0.6772,
+      "num_input_tokens_seen": 20816,
+      "step": 75
+    },
+    {
+      "epoch": 0.7079646017699115,
+      "grad_norm": 58.2765998840332,
+      "learning_rate": 3.495575221238938e-05,
+      "loss": 0.5141,
+      "num_input_tokens_seen": 22432,
+      "step": 80
+    },
+    {
+      "epoch": 0.7522123893805309,
+      "grad_norm": 40.18519592285156,
+      "learning_rate": 3.716814159292036e-05,
+      "loss": 0.968,
+      "num_input_tokens_seen": 23568,
+      "step": 85
+    },
+    {
+      "epoch": 0.7964601769911505,
+      "grad_norm": 73.16150665283203,
+      "learning_rate": 3.938053097345133e-05,
+      "loss": 0.4512,
+      "num_input_tokens_seen": 25280,
+      "step": 90
+    },
+    {
+      "epoch": 0.8407079646017699,
+      "grad_norm": 35.98966598510742,
+      "learning_rate": 4.15929203539823e-05,
+      "loss": 0.7999,
+      "num_input_tokens_seen": 26656,
+      "step": 95
+    },
+    {
+      "epoch": 0.8849557522123894,
+      "grad_norm": 38.017478942871094,
+      "learning_rate": 4.380530973451328e-05,
+      "loss": 0.9526,
+      "num_input_tokens_seen": 28080,
+      "step": 100
+    },
+    {
+      "epoch": 0.9292035398230089,
+      "grad_norm": 15.452778816223145,
+      "learning_rate": 4.601769911504425e-05,
+      "loss": 0.4326,
+      "num_input_tokens_seen": 29344,
+      "step": 105
+    },
+    {
+      "epoch": 0.9734513274336283,
+      "grad_norm": 29.611724853515625,
+      "learning_rate": 4.823008849557522e-05,
+      "loss": 0.2361,
+      "num_input_tokens_seen": 30576,
+      "step": 110
+    },
+    {
+      "epoch": 1.008849557522124,
+      "eval_loss": 1.4061414003372192,
+      "eval_runtime": 0.7082,
+      "eval_samples_per_second": 35.303,
+      "eval_steps_per_second": 18.357,
+      "num_input_tokens_seen": 31408,
+      "step": 114
+    },
+    {
+      "epoch": 1.0176991150442478,
+      "grad_norm": 30.109329223632812,
+      "learning_rate": 4.9999880720033856e-05,
+      "loss": 0.4565,
+      "num_input_tokens_seen": 31584,
+      "step": 115
+    },
+    {
+      "epoch": 1.0619469026548674,
+      "grad_norm": 15.066938400268555,
+      "learning_rate": 4.999570604073014e-05,
+      "loss": 0.6162,
+      "num_input_tokens_seen": 32688,
+      "step": 120
+    },
+    {
+      "epoch": 1.1061946902654867,
+      "grad_norm": 29.882238388061523,
+      "learning_rate": 4.998556850128691e-05,
+      "loss": 0.4465,
+      "num_input_tokens_seen": 33872,
+      "step": 125
+    },
+    {
+      "epoch": 1.1504424778761062,
+      "grad_norm": 11.128195762634277,
+      "learning_rate": 4.996947052006874e-05,
+      "loss": 0.3424,
+      "num_input_tokens_seen": 35136,
+      "step": 130
+    },
+    {
+      "epoch": 1.1946902654867257,
+      "grad_norm": 4.366806507110596,
+      "learning_rate": 4.9947415937335635e-05,
+      "loss": 0.6297,
+      "num_input_tokens_seen": 36448,
+      "step": 135
+    },
+    {
+      "epoch": 1.238938053097345,
+      "grad_norm": 4.560500621795654,
+      "learning_rate": 4.9919410014326955e-05,
+      "loss": 0.2276,
+      "num_input_tokens_seen": 37568,
+      "step": 140
+    },
+    {
+      "epoch": 1.2831858407079646,
+      "grad_norm": 15.226495742797852,
+      "learning_rate": 4.98854594320063e-05,
+      "loss": 0.4086,
+      "num_input_tokens_seen": 38800,
+      "step": 145
+    },
+    {
+      "epoch": 1.3274336283185841,
+      "grad_norm": 7.096482753753662,
+      "learning_rate": 4.98455722894677e-05,
+      "loss": 0.4786,
+      "num_input_tokens_seen": 39824,
+      "step": 150
+    },
+    {
+      "epoch": 1.3716814159292037,
+      "grad_norm": 1.0929534435272217,
+      "learning_rate": 4.979975810200359e-05,
+      "loss": 0.2336,
+      "num_input_tokens_seen": 41312,
+      "step": 155
+    },
+    {
+      "epoch": 1.415929203539823,
+      "grad_norm": 1.4610778093338013,
+      "learning_rate": 4.974802779883484e-05,
+      "loss": 0.4179,
+      "num_input_tokens_seen": 42864,
+      "step": 160
+    },
+    {
+      "epoch": 1.4601769911504425,
+      "grad_norm": 1.1674245595932007,
+      "learning_rate": 4.969039372050356e-05,
+      "loss": 0.1715,
+      "num_input_tokens_seen": 44480,
+      "step": 165
+    },
+    {
+      "epoch": 1.504424778761062,
+      "grad_norm": 5.010025978088379,
+      "learning_rate": 4.9626869615929175e-05,
+      "loss": 0.1954,
+      "num_input_tokens_seen": 45904,
+      "step": 170
+    },
+    {
+      "epoch": 1.5132743362831858,
+      "eval_loss": 0.5750893950462341,
+      "eval_runtime": 0.7056,
+      "eval_samples_per_second": 35.43,
+      "eval_steps_per_second": 18.424,
+      "num_input_tokens_seen": 46128,
+      "step": 171
+    },
+    {
+      "epoch": 1.5486725663716814,
+      "grad_norm": 0.6192958354949951,
+      "learning_rate": 4.9557470639128554e-05,
+      "loss": 0.6675,
+      "num_input_tokens_seen": 47728,
+      "step": 175
+    },
+    {
+      "epoch": 1.592920353982301,
+      "grad_norm": 1.1015119552612305,
+      "learning_rate": 4.9482213345600936e-05,
+      "loss": 0.0695,
+      "num_input_tokens_seen": 49072,
+      "step": 180
+    },
+    {
+      "epoch": 1.6371681415929205,
+      "grad_norm": 0.21914945542812347,
+      "learning_rate": 4.940111568837854e-05,
+      "loss": 0.3679,
+      "num_input_tokens_seen": 50224,
+      "step": 185
+    },
+    {
+      "epoch": 1.6814159292035398,
+      "grad_norm": 3.072237730026245,
+      "learning_rate": 4.931419701374377e-05,
+      "loss": 0.5304,
+      "num_input_tokens_seen": 51392,
+      "step": 190
+    },
+    {
+      "epoch": 1.7256637168141593,
+      "grad_norm": 1.34825599193573,
+      "learning_rate": 4.922147805661402e-05,
+      "loss": 0.1569,
+      "num_input_tokens_seen": 53040,
+      "step": 195
+    },
+    {
+      "epoch": 1.7699115044247788,
+      "grad_norm": 1.5443557500839233,
+      "learning_rate": 4.91229809355953e-05,
+      "loss": 0.3948,
+      "num_input_tokens_seen": 54080,
+      "step": 200
+    },
+    {
+      "epoch": 1.8141592920353982,
+      "grad_norm": 0.7244002223014832,
+      "learning_rate": 4.901872914770569e-05,
+      "loss": 0.151,
+      "num_input_tokens_seen": 55456,
+      "step": 205
+    },
+    {
+      "epoch": 1.8584070796460177,
+      "grad_norm": 11.362713813781738,
+      "learning_rate": 4.8908747562769995e-05,
+      "loss": 0.5248,
+      "num_input_tokens_seen": 56928,
+      "step": 210
+    },
+    {
+      "epoch": 1.9026548672566372,
+      "grad_norm": 2.929269313812256,
+      "learning_rate": 4.8793062417486976e-05,
+      "loss": 0.2828,
+      "num_input_tokens_seen": 58672,
+      "step": 215
+    },
+    {
+      "epoch": 1.9469026548672566,
+      "grad_norm": 6.6553635597229,
+      "learning_rate": 4.867170130917034e-05,
+      "loss": 0.3496,
+      "num_input_tokens_seen": 60064,
+      "step": 220
+    },
+    {
+      "epoch": 1.991150442477876,
+      "grad_norm": 7.771035671234131,
+      "learning_rate": 4.8544693189165324e-05,
+      "loss": 0.4297,
+      "num_input_tokens_seen": 61760,
+      "step": 225
+    },
+    {
+      "epoch": 2.017699115044248,
+      "eval_loss": 0.4387664794921875,
+      "eval_runtime": 0.7069,
+      "eval_samples_per_second": 35.364,
+      "eval_steps_per_second": 18.389,
+      "num_input_tokens_seen": 62512,
+      "step": 228
+    },
+    {
+      "epoch": 2.0353982300884956,
+      "grad_norm": 3.6984031200408936,
+      "learning_rate": 4.841206835594222e-05,
+      "loss": 0.1663,
+      "num_input_tokens_seen": 63088,
+      "step": 230
+    },
+    {
+      "epoch": 2.079646017699115,
+      "grad_norm": 12.891488075256348,
+      "learning_rate": 4.8273858447868424e-05,
+      "loss": 0.3115,
+      "num_input_tokens_seen": 64400,
+      "step": 235
+    },
+    {
+      "epoch": 2.1238938053097347,
+      "grad_norm": 0.34429389238357544,
+      "learning_rate": 4.813009643566101e-05,
+      "loss": 0.0553,
+      "num_input_tokens_seen": 65904,
+      "step": 240
+    },
+    {
+      "epoch": 2.168141592920354,
+      "grad_norm": 1.5679643154144287,
+      "learning_rate": 4.798081661452135e-05,
+      "loss": 0.0229,
+      "num_input_tokens_seen": 67184,
+      "step": 245
+    },
+    {
+      "epoch": 2.2123893805309733,
+      "grad_norm": 12.214455604553223,
+      "learning_rate": 4.7826054595953815e-05,
+      "loss": 0.7841,
+      "num_input_tokens_seen": 68528,
+      "step": 250
+    },
+    {
+      "epoch": 2.256637168141593,
+      "grad_norm": 4.900900363922119,
+      "learning_rate": 4.766584729927049e-05,
+      "loss": 0.2819,
+      "num_input_tokens_seen": 70016,
+      "step": 255
+    },
+    {
+      "epoch": 2.3008849557522124,
+      "grad_norm": 2.5725162029266357,
+      "learning_rate": 4.750023294278381e-05,
+      "loss": 0.1761,
+      "num_input_tokens_seen": 71280,
+      "step": 260
+    },
+    {
+      "epoch": 2.3451327433628317,
+      "grad_norm": 1.1505086421966553,
+      "learning_rate": 4.732925103468944e-05,
+      "loss": 0.2276,
+      "num_input_tokens_seen": 72960,
+      "step": 265
+    },
+    {
+      "epoch": 2.3893805309734515,
+      "grad_norm": 6.388667583465576,
+      "learning_rate": 4.715294236364135e-05,
+      "loss": 0.5257,
+      "num_input_tokens_seen": 74272,
+      "step": 270
+    },
+    {
+      "epoch": 2.433628318584071,
+      "grad_norm": 5.725376605987549,
+      "learning_rate": 4.6971348989021446e-05,
+      "loss": 0.3409,
+      "num_input_tokens_seen": 75520,
+      "step": 275
+    },
+    {
+      "epoch": 2.47787610619469,
+      "grad_norm": 174.96688842773438,
+      "learning_rate": 4.6784514230906146e-05,
+      "loss": 0.4146,
+      "num_input_tokens_seen": 76672,
+      "step": 280
+    },
+    {
+      "epoch": 2.52212389380531,
+      "grad_norm": 7.057203769683838,
+      "learning_rate": 4.659248265973205e-05,
+      "loss": 0.2269,
+      "num_input_tokens_seen": 78272,
+      "step": 285
+    },
+    {
+      "epoch": 2.52212389380531,
+      "eval_loss": 0.22981101274490356,
+      "eval_runtime": 0.7102,
+      "eval_samples_per_second": 35.203,
+      "eval_steps_per_second": 18.306,
+      "num_input_tokens_seen": 78272,
+      "step": 285
+    },
+    {
+      "epoch": 2.566371681415929,
+      "grad_norm": 4.738373756408691,
+      "learning_rate": 4.639530008566349e-05,
+      "loss": 0.3573,
+      "num_input_tokens_seen": 79296,
+      "step": 290
+    },
+    {
+      "epoch": 2.6106194690265485,
+      "grad_norm": 0.413061261177063,
+      "learning_rate": 4.6193013547664255e-05,
+      "loss": 0.2362,
+      "num_input_tokens_seen": 80704,
+      "step": 295
+    },
+    {
+      "epoch": 2.6548672566371683,
+      "grad_norm": 4.458314895629883,
+      "learning_rate": 4.5985671302276165e-05,
+      "loss": 0.1831,
+      "num_input_tokens_seen": 82080,
+      "step": 300
+    },
+    {
+      "epoch": 2.6991150442477876,
+      "grad_norm": 0.6618825793266296,
+      "learning_rate": 4.577332281210727e-05,
+      "loss": 0.249,
+      "num_input_tokens_seen": 83520,
+      "step": 305
+    },
+    {
+      "epoch": 2.7433628318584073,
+      "grad_norm": 0.4620368778705597,
+      "learning_rate": 4.55560187340322e-05,
+      "loss": 0.328,
+      "num_input_tokens_seen": 84832,
+      "step": 310
+    },
+    {
+      "epoch": 2.7876106194690267,
+      "grad_norm": 0.35645490884780884,
+      "learning_rate": 4.533381090710776e-05,
+      "loss": 0.0369,
+      "num_input_tokens_seen": 86144,
+      "step": 315
+    },
+    {
+      "epoch": 2.831858407079646,
+      "grad_norm": 9.479719161987305,
+      "learning_rate": 4.5106752340206435e-05,
+      "loss": 0.5349,
+      "num_input_tokens_seen": 87568,
+      "step": 320
+    },
+    {
+      "epoch": 2.8761061946902657,
+      "grad_norm": 0.5001351833343506,
+      "learning_rate": 4.4874897199370805e-05,
+      "loss": 0.1872,
+      "num_input_tokens_seen": 89024,
+      "step": 325
+    },
+    {
+      "epoch": 2.920353982300885,
+      "grad_norm": 8.476178169250488,
+      "learning_rate": 4.463830079489196e-05,
+      "loss": 0.4609,
+      "num_input_tokens_seen": 90320,
+      "step": 330
+    },
+    {
+      "epoch": 2.9646017699115044,
+      "grad_norm": 0.24967752397060394,
+      "learning_rate": 4.4397019568114987e-05,
+      "loss": 0.1262,
+      "num_input_tokens_seen": 91952,
+      "step": 335
+    },
+    {
+      "epoch": 3.0088495575221237,
+      "grad_norm": 1.342038631439209,
+      "learning_rate": 4.415111107797445e-05,
+      "loss": 0.545,
+      "num_input_tokens_seen": 93496,
+      "step": 340
+    },
+    {
+      "epoch": 3.0265486725663715,
+      "eval_loss": 0.43351349234580994,
+      "eval_runtime": 0.7069,
+      "eval_samples_per_second": 35.365,
+      "eval_steps_per_second": 18.39,
+      "num_input_tokens_seen": 94136,
+      "step": 342
+    },
+    {
+      "epoch": 3.0530973451327434,
+      "grad_norm": 0.784528374671936,
+      "learning_rate": 4.390063398726356e-05,
+      "loss": 0.1923,
+      "num_input_tokens_seen": 94984,
+      "step": 345
+    },
+    {
+      "epoch": 3.0973451327433628,
+      "grad_norm": 8.556395530700684,
+      "learning_rate": 4.3645648048639734e-05,
+      "loss": 0.1364,
+      "num_input_tokens_seen": 96296,
+      "step": 350
+    },
+    {
+      "epoch": 3.1415929203539825,
+      "grad_norm": 0.44090715050697327,
+      "learning_rate": 4.338621409037031e-05,
+      "loss": 0.2228,
+      "num_input_tokens_seen": 97528,
+      "step": 355
+    },
+    {
+      "epoch": 3.185840707964602,
+      "grad_norm": 4.060224533081055,
+      "learning_rate": 4.312239400182166e-05,
+      "loss": 0.1388,
+      "num_input_tokens_seen": 98760,
+      "step": 360
+    },
+    {
+      "epoch": 3.230088495575221,
+      "grad_norm": 2.259648084640503,
+      "learning_rate": 4.285425071869511e-05,
+      "loss": 0.5518,
+      "num_input_tokens_seen": 99864,
+      "step": 365
+    },
+    {
+      "epoch": 3.274336283185841,
+      "grad_norm": 1.4717310667037964,
+      "learning_rate": 4.258184820801331e-05,
+      "loss": 0.1861,
+      "num_input_tokens_seen": 101208,
+      "step": 370
+    },
+    {
+      "epoch": 3.3185840707964602,
+      "grad_norm": 0.34744587540626526,
+      "learning_rate": 4.230525145286057e-05,
+      "loss": 0.0693,
+      "num_input_tokens_seen": 102520,
+      "step": 375
+    },
+    {
+      "epoch": 3.3628318584070795,
+      "grad_norm": 6.193620204925537,
+      "learning_rate": 4.2024526436880785e-05,
+      "loss": 0.2851,
+      "num_input_tokens_seen": 104024,
+      "step": 380
+    },
+    {
+      "epoch": 3.4070796460176993,
+      "grad_norm": 2.856996774673462,
+      "learning_rate": 4.173974012853665e-05,
+      "loss": 0.2516,
+      "num_input_tokens_seen": 105784,
+      "step": 385
+    },
+    {
+      "epoch": 3.4513274336283186,
+      "grad_norm": 1.0180028676986694,
+      "learning_rate": 4.1450960465134025e-05,
+      "loss": 0.4014,
+      "num_input_tokens_seen": 107000,
+      "step": 390
+    },
+    {
+      "epoch": 3.495575221238938,
+      "grad_norm": 3.6202290058135986,
+      "learning_rate": 4.1158256336615096e-05,
+      "loss": 0.3603,
+      "num_input_tokens_seen": 108536,
+      "step": 395
+    },
+    {
+      "epoch": 3.5309734513274336,
+      "eval_loss": 0.23764507472515106,
+      "eval_runtime": 0.7108,
+      "eval_samples_per_second": 35.174,
+      "eval_steps_per_second": 18.29,
+      "num_input_tokens_seen": 109880,
+      "step": 399
+    },
+    {
+      "epoch": 3.5398230088495577,
+      "grad_norm": 3.1358914375305176,
+      "learning_rate": 4.086169756912431e-05,
+      "loss": 0.1939,
+      "num_input_tokens_seen": 110088,
+      "step": 400
+    },
+    {
+      "epoch": 3.584070796460177,
+      "grad_norm": 1.656354546546936,
+      "learning_rate": 4.056135490835098e-05,
+      "loss": 0.11,
+      "num_input_tokens_seen": 111752,
+      "step": 405
+    },
+    {
+      "epoch": 3.6283185840707963,
+      "grad_norm": 0.7589633464813232,
+      "learning_rate": 4.025730000265251e-05,
+      "loss": 0.3031,
+      "num_input_tokens_seen": 112808,
+      "step": 410
+    },
+    {
+      "epoch": 3.672566371681416,
+      "grad_norm": 4.3416032791137695,
+      "learning_rate": 3.994960538596232e-05,
+      "loss": 0.1994,
+      "num_input_tokens_seen": 114264,
+      "step": 415
+    },
+    {
+      "epoch": 3.7168141592920354,
+      "grad_norm": 5.597128868103027,
+      "learning_rate": 3.963834446048644e-05,
+      "loss": 0.2133,
+      "num_input_tokens_seen": 115608,
+      "step": 420
+    },
+    {
+      "epoch": 3.7610619469026547,
+      "grad_norm": 8.884173393249512,
+      "learning_rate": 3.9323591479193074e-05,
+      "loss": 0.278,
+      "num_input_tokens_seen": 116888,
+      "step": 425
+    },
+    {
+      "epoch": 3.8053097345132745,
+      "grad_norm": 0.49469271302223206,
+      "learning_rate": 3.90054215280991e-05,
+      "loss": 0.2608,
+      "num_input_tokens_seen": 118648,
+      "step": 430
+    },
+    {
+      "epoch": 3.849557522123894,
+      "grad_norm": 1.2819952964782715,
+      "learning_rate": 3.8683910508357934e-05,
+      "loss": 0.0295,
+      "num_input_tokens_seen": 119864,
+      "step": 435
+    },
+    {
+      "epoch": 3.893805309734513,
+      "grad_norm": 0.17074313759803772,
+      "learning_rate": 3.83591351181529e-05,
+      "loss": 0.332,
+      "num_input_tokens_seen": 121144,
+      "step": 440
+    },
+    {
+      "epoch": 3.938053097345133,
+      "grad_norm": 2.5671634674072266,
+      "learning_rate": 3.803117283440044e-05,
+      "loss": 0.059,
+      "num_input_tokens_seen": 122504,
+      "step": 445
+    },
+    {
+      "epoch": 3.982300884955752,
+      "grad_norm": 3.7636024951934814,
+      "learning_rate": 3.7700101894267615e-05,
+      "loss": 0.3693,
+      "num_input_tokens_seen": 123784,
+      "step": 450
+    },
+    {
+      "epoch": 4.0265486725663715,
+      "grad_norm": 23.92598533630371,
+      "learning_rate": 3.736600127650817e-05,
+      "loss": 0.4205,
+      "num_input_tokens_seen": 124728,
+      "step": 455
+    },
+    {
+      "epoch": 4.035398230088496,
+      "eval_loss": 0.2482675462961197,
+      "eval_runtime": 0.7058,
+      "eval_samples_per_second": 35.421,
+      "eval_steps_per_second": 18.419,
+      "num_input_tokens_seen": 125144,
+      "step": 456
+    },
+    {
+      "epoch": 4.070796460176991,
+      "grad_norm": 7.132582664489746,
+      "learning_rate": 3.702895068262177e-05,
+      "loss": 0.1596,
+      "num_input_tokens_seen": 126264,
+      "step": 460
+    },
+    {
+      "epoch": 4.115044247787611,
+      "grad_norm": 6.178963661193848,
+      "learning_rate": 3.66890305178407e-05,
+      "loss": 0.3773,
+      "num_input_tokens_seen": 127400,
+      "step": 465
+    },
+    {
+      "epoch": 4.15929203539823,
+      "grad_norm": 0.4468452036380768,
+      "learning_rate": 3.63463218719489e-05,
+      "loss": 0.1251,
+      "num_input_tokens_seen": 128808,
+      "step": 470
+    },
+    {
+      "epoch": 4.20353982300885,
+      "grad_norm": 1.1716653108596802,
+      "learning_rate": 3.600090649993741e-05,
+      "loss": 0.0315,
+      "num_input_tokens_seen": 130184,
+      "step": 475
+    },
+    {
+      "epoch": 4.247787610619469,
+      "grad_norm": 2.446228265762329,
+      "learning_rate": 3.565286680250138e-05,
+      "loss": 0.1617,
+      "num_input_tokens_seen": 131352,
+      "step": 480
+    },
+    {
+      "epoch": 4.292035398230088,
+      "grad_norm": 16.807741165161133,
+      "learning_rate": 3.530228580638291e-05,
+      "loss": 0.2307,
+      "num_input_tokens_seen": 132632,
+      "step": 485
+    },
+    {
+      "epoch": 4.336283185840708,
+      "grad_norm": 14.887909889221191,
+      "learning_rate": 3.494924714456454e-05,
+      "loss": 0.2609,
+      "num_input_tokens_seen": 133816,
+      "step": 490
+    },
+    {
+      "epoch": 4.380530973451328,
+      "grad_norm": 3.152334690093994,
+      "learning_rate": 3.459383503631823e-05,
+      "loss": 0.0534,
+      "num_input_tokens_seen": 135336,
+      "step": 495
+    },
+    {
+      "epoch": 4.424778761061947,
+      "grad_norm": 0.1275576651096344,
+      "learning_rate": 3.423613426711431e-05,
+      "loss": 0.4134,
+      "num_input_tokens_seen": 136504,
+      "step": 500
+    },
+    {
+      "epoch": 4.469026548672566,
+      "grad_norm": 1.5385409593582153,
+      "learning_rate": 3.3876230168395525e-05,
+      "loss": 0.0234,
+      "num_input_tokens_seen": 137656,
+      "step": 505
+    },
+    {
+      "epoch": 4.513274336283186,
+      "grad_norm": 7.704578876495361,
+      "learning_rate": 3.3514208597220705e-05,
+      "loss": 0.5197,
+      "num_input_tokens_seen": 138776,
+      "step": 510
+    },
+    {
+      "epoch": 4.539823008849558,
+      "eval_loss": 0.18963883817195892,
+      "eval_runtime": 0.7031,
+      "eval_samples_per_second": 35.558,
+      "eval_steps_per_second": 18.49,
+      "num_input_tokens_seen": 139544,
+      "step": 513
+    },
+    {
+      "epoch": 4.557522123893805,
+      "grad_norm": 0.17451319098472595,
+      "learning_rate": 3.315015591578314e-05,
+      "loss": 0.2338,
+      "num_input_tokens_seen": 140296,
+      "step": 515
+    },
+    {
+      "epoch": 4.601769911504425,
+      "grad_norm": 4.632303714752197,
+      "learning_rate": 3.278415897080839e-05,
+      "loss": 0.0408,
+      "num_input_tokens_seen": 141720,
+      "step": 520
+    },
+    {
+      "epoch": 4.646017699115045,
+      "grad_norm": 0.036415815353393555,
+      "learning_rate": 3.2416305072836557e-05,
+      "loss": 0.4261,
+      "num_input_tokens_seen": 143336,
+      "step": 525
+    },
+    {
+      "epoch": 4.6902654867256635,
+      "grad_norm": 2.5997607707977295,
+      "learning_rate": 3.204668197539385e-05,
+      "loss": 0.0505,
+      "num_input_tokens_seen": 145016,
+      "step": 530
+    },
+    {
+      "epoch": 4.734513274336283,
+      "grad_norm": 0.5314985513687134,
+      "learning_rate": 3.167537785405854e-05,
+      "loss": 0.1154,
+      "num_input_tokens_seen": 146296,
+      "step": 535
+    },
+    {
+      "epoch": 4.778761061946903,
+      "grad_norm": 3.233059883117676,
+      "learning_rate": 3.13024812854262e-05,
+      "loss": 0.0516,
+      "num_input_tokens_seen": 147656,
+      "step": 540
+    },
+    {
+      "epoch": 4.823008849557522,
+      "grad_norm": 5.46919059753418,
+      "learning_rate": 3.092808122597924e-05,
+      "loss": 0.3412,
+      "num_input_tokens_seen": 148808,
+      "step": 545
+    },
+    {
+      "epoch": 4.867256637168142,
+      "grad_norm": 0.19922271370887756,
+      "learning_rate": 3.0552266990865934e-05,
+      "loss": 0.0287,
+      "num_input_tokens_seen": 150680,
+      "step": 550
+    },
+    {
+      "epoch": 4.911504424778761,
+      "grad_norm": 0.04063204303383827,
+      "learning_rate": 3.017512823259373e-05,
+      "loss": 0.0647,
+      "num_input_tokens_seen": 152392,
+      "step": 555
+    },
+    {
+      "epoch": 4.95575221238938,
+      "grad_norm": 0.041708074510097504,
+      "learning_rate": 2.9796754919642228e-05,
+      "loss": 0.1071,
+      "num_input_tokens_seen": 153896,
+      "step": 560
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 5.79632568359375,
+      "learning_rate": 2.941723731500068e-05,
+      "loss": 0.2245,
+      "num_input_tokens_seen": 155240,
+      "step": 565
+    },
+    {
+      "epoch": 5.04424778761062,
+      "grad_norm": 5.1361565589904785,
+      "learning_rate": 2.9036665954635266e-05,
+      "loss": 0.1052,
+      "num_input_tokens_seen": 156296,
+      "step": 570
+    },
+    {
+      "epoch": 5.04424778761062,
+      "eval_loss": 0.1859114021062851,
+      "eval_runtime": 0.7062,
+      "eval_samples_per_second": 35.402,
+      "eval_steps_per_second": 18.409,
+      "num_input_tokens_seen": 156296,
+      "step": 570
+    },
+    {
+      "epoch": 5.088495575221239,
+      "grad_norm": 0.14968609809875488,
+      "learning_rate": 2.8655131625891274e-05,
+      "loss": 0.0817,
+      "num_input_tokens_seen": 157688,
+      "step": 575
+    },
+    {
+      "epoch": 5.132743362831858,
+      "grad_norm": 4.9272942543029785,
+      "learning_rate": 2.8272725345835278e-05,
+      "loss": 0.1101,
+      "num_input_tokens_seen": 159016,
+      "step": 580
+    },
+    {
+      "epoch": 5.176991150442478,
+      "grad_norm": 0.2512366473674774,
+      "learning_rate": 2.7889538339542527e-05,
+      "loss": 0.1267,
+      "num_input_tokens_seen": 160552,
+      "step": 585
+    },
+    {
+      "epoch": 5.221238938053097,
+      "grad_norm": 0.1694510281085968,
+      "learning_rate": 2.7505662018334698e-05,
+      "loss": 0.1858,
+      "num_input_tokens_seen": 161912,
+      "step": 590
+    },
+    {
+      "epoch": 5.265486725663717,
+      "grad_norm": 0.2537103295326233,
+      "learning_rate": 2.712118795797329e-05,
+      "loss": 0.238,
+      "num_input_tokens_seen": 163288,
+      "step": 595
+    },
+    {
+      "epoch": 5.3097345132743365,
+      "grad_norm": 1.7408089637756348,
+      "learning_rate": 2.6736207876813646e-05,
+      "loss": 0.0122,
+      "num_input_tokens_seen": 164920,
+      "step": 600
+    },
+    {
+      "epoch": 5.353982300884955,
+      "grad_norm": 0.0584169365465641,
+      "learning_rate": 2.635081361392513e-05,
+      "loss": 0.0537,
+      "num_input_tokens_seen": 166296,
+      "step": 605
+    },
+    {
+      "epoch": 5.398230088495575,
+      "grad_norm": 0.6817641854286194,
+      "learning_rate": 2.596509710718235e-05,
+      "loss": 0.0053,
+      "num_input_tokens_seen": 167720,
+      "step": 610
+    },
+    {
+      "epoch": 5.442477876106195,
+      "grad_norm": 0.03988633677363396,
+      "learning_rate": 2.5579150371332956e-05,
+      "loss": 0.1432,
+      "num_input_tokens_seen": 169480,
+      "step": 615
+    },
+    {
+      "epoch": 5.486725663716814,
+      "grad_norm": 0.04661005362868309,
+      "learning_rate": 2.5193065476046955e-05,
+      "loss": 0.4185,
+      "num_input_tokens_seen": 171032,
+      "step": 620
+    },
+    {
+      "epoch": 5.530973451327434,
+      "grad_norm": 4.454204082489014,
+      "learning_rate": 2.480693452395305e-05,
+      "loss": 0.3257,
+      "num_input_tokens_seen": 172072,
+      "step": 625
+    },
+    {
+      "epoch": 5.548672566371682,
+      "eval_loss": 0.20005442202091217,
+      "eval_runtime": 0.7078,
+      "eval_samples_per_second": 35.322,
+      "eval_steps_per_second": 18.367,
+      "num_input_tokens_seen": 172504,
+      "step": 627
+    },
+    {
+      "epoch": 5.575221238938053,
+      "grad_norm": 0.203868567943573,
+      "learning_rate": 2.4420849628667046e-05,
+      "loss": 0.1605,
+      "num_input_tokens_seen": 173368,
+      "step": 630
+    },
+    {
+      "epoch": 5.619469026548672,
+      "grad_norm": 8.949444770812988,
+      "learning_rate": 2.4034902892817648e-05,
+      "loss": 0.2972,
+      "num_input_tokens_seen": 174520,
+      "step": 635
+    },
+    {
+      "epoch": 5.663716814159292,
+      "grad_norm": 0.9069784283638,
+      "learning_rate": 2.3649186386074872e-05,
+      "loss": 0.1017,
+      "num_input_tokens_seen": 175976,
+      "step": 640
+    },
+    {
+      "epoch": 5.707964601769912,
+      "grad_norm": 1.71530282497406,
+      "learning_rate": 2.3263792123186353e-05,
+      "loss": 0.1992,
+      "num_input_tokens_seen": 177240,
+      "step": 645
+    },
+    {
+      "epoch": 5.752212389380531,
+      "grad_norm": 5.149680137634277,
+      "learning_rate": 2.2878812042026713e-05,
+      "loss": 0.2113,
+      "num_input_tokens_seen": 178808,
+      "step": 650
+    },
+    {
+      "epoch": 5.79646017699115,
+      "grad_norm": 0.13400527834892273,
+      "learning_rate": 2.2494337981665304e-05,
+      "loss": 0.1821,
+      "num_input_tokens_seen": 180024,
+      "step": 655
+    },
+    {
+      "epoch": 5.84070796460177,
+      "grad_norm": 0.34926721453666687,
+      "learning_rate": 2.2110461660457482e-05,
+      "loss": 0.0488,
+      "num_input_tokens_seen": 181368,
+      "step": 660
+    },
+    {
+      "epoch": 5.88495575221239,
+      "grad_norm": 0.0739203616976738,
+      "learning_rate": 2.1727274654164728e-05,
+      "loss": 0.0232,
+      "num_input_tokens_seen": 182696,
+      "step": 665
+    },
+    {
+      "epoch": 5.929203539823009,
+      "grad_norm": 0.5862051248550415,
+      "learning_rate": 2.1344868374108732e-05,
+      "loss": 0.0654,
+      "num_input_tokens_seen": 184232,
+      "step": 670
+    },
+    {
+      "epoch": 5.9734513274336285,
+      "grad_norm": 1.7623151540756226,
+      "learning_rate": 2.096333404536474e-05,
+      "loss": 0.1758,
+      "num_input_tokens_seen": 185496,
+      "step": 675
+    },
+    {
+      "epoch": 6.017699115044247,
+      "grad_norm": 0.030710099264979362,
+      "learning_rate": 2.0582762684999327e-05,
+      "loss": 0.0065,
+      "num_input_tokens_seen": 186464,
+      "step": 680
+    },
+    {
+      "epoch": 6.053097345132743,
+      "eval_loss": 0.2582325339317322,
+      "eval_runtime": 0.7044,
+      "eval_samples_per_second": 35.491,
+      "eval_steps_per_second": 18.455,
+      "num_input_tokens_seen": 187664,
+      "step": 684
+    },
+    {
+      "epoch": 6.061946902654867,
+      "grad_norm": 0.4586619734764099,
+      "learning_rate": 2.0203245080357775e-05,
+      "loss": 0.0646,
+      "num_input_tokens_seen": 187936,
+      "step": 685
+    },
+    {
+      "epoch": 6.106194690265487,
+      "grad_norm": 0.207475945353508,
+      "learning_rate": 1.982487176740627e-05,
+      "loss": 0.1359,
+      "num_input_tokens_seen": 189600,
+      "step": 690
+    },
+    {
+      "epoch": 6.150442477876107,
+      "grad_norm": 16.1010684967041,
+      "learning_rate": 1.944773300913407e-05,
+      "loss": 0.0468,
+      "num_input_tokens_seen": 190896,
+      "step": 695
+    },
+    {
+      "epoch": 6.1946902654867255,
+      "grad_norm": 16.56742286682129,
+      "learning_rate": 1.907191877402076e-05,
+      "loss": 0.2096,
+      "num_input_tokens_seen": 192496,
+      "step": 700
+    },
+    {
+      "epoch": 6.238938053097345,
+      "grad_norm": 0.22490589320659637,
+      "learning_rate": 1.8697518714573807e-05,
+      "loss": 0.0786,
+      "num_input_tokens_seen": 193968,
+      "step": 705
+    },
+    {
+      "epoch": 6.283185840707965,
+      "grad_norm": 0.7650446891784668,
+      "learning_rate": 1.832462214594146e-05,
+      "loss": 0.3287,
+      "num_input_tokens_seen": 195232,
+      "step": 710
+    },
+    {
+      "epoch": 6.327433628318584,
+      "grad_norm": 0.919759213924408,
+      "learning_rate": 1.7953318024606157e-05,
+      "loss": 0.0111,
+      "num_input_tokens_seen": 196880,
+      "step": 715
+    },
+    {
+      "epoch": 6.371681415929204,
+      "grad_norm": 0.16696296632289886,
+      "learning_rate": 1.7583694927163453e-05,
+      "loss": 0.122,
+      "num_input_tokens_seen": 198336,
+      "step": 720
+    },
+    {
+      "epoch": 6.415929203539823,
+      "grad_norm": 0.09723463654518127,
+      "learning_rate": 1.7215841029191616e-05,
+      "loss": 0.1655,
+      "num_input_tokens_seen": 199632,
+      "step": 725
+    },
+    {
+      "epoch": 6.460176991150442,
+      "grad_norm": 5.961605072021484,
+      "learning_rate": 1.6849844084216874e-05,
+      "loss": 0.0792,
+      "num_input_tokens_seen": 200944,
+      "step": 730
+    },
+    {
+      "epoch": 6.504424778761062,
+      "grad_norm": 0.780555784702301,
+      "learning_rate": 1.648579140277931e-05,
+      "loss": 0.0897,
+      "num_input_tokens_seen": 202448,
+      "step": 735
+    },
+    {
+      "epoch": 6.548672566371682,
+      "grad_norm": 7.634582996368408,
+      "learning_rate": 1.612376983160449e-05,
+      "loss": 0.0299,
+      "num_input_tokens_seen": 203952,
+      "step": 740
+    },
+    {
+      "epoch": 6.557522123893805,
+      "eval_loss": 0.2114013135433197,
+      "eval_runtime": 0.7072,
+      "eval_samples_per_second": 35.351,
+      "eval_steps_per_second": 18.382,
+      "num_input_tokens_seen": 204128,
+      "step": 741
+    },
+    {
+      "epoch": 6.592920353982301,
+      "grad_norm": 0.6068083643913269,
+      "learning_rate": 1.576386573288569e-05,
+      "loss": 0.0098,
+      "num_input_tokens_seen": 205104,
+      "step": 745
+    },
+    {
+      "epoch": 6.6371681415929205,
+      "grad_norm": 0.24441823363304138,
+      "learning_rate": 1.5406164963681774e-05,
+      "loss": 0.0353,
+      "num_input_tokens_seen": 206656,
+      "step": 750
+    },
+    {
+      "epoch": 6.68141592920354,
+      "grad_norm": 0.02317521534860134,
+      "learning_rate": 1.5050752855435457e-05,
+      "loss": 0.0924,
+      "num_input_tokens_seen": 207648,
+      "step": 755
+    },
+    {
+      "epoch": 6.725663716814159,
+      "grad_norm": 0.12233875691890717,
+      "learning_rate": 1.4697714193617097e-05,
+      "loss": 0.1835,
+      "num_input_tokens_seen": 208928,
+      "step": 760
+    },
+    {
+      "epoch": 6.769911504424779,
+      "grad_norm": 0.06515863537788391,
+      "learning_rate": 1.4347133197498619e-05,
+      "loss": 0.3059,
+      "num_input_tokens_seen": 210432,
+      "step": 765
+    },
+    {
+      "epoch": 6.814159292035399,
+      "grad_norm": 7.31368350982666,
+      "learning_rate": 1.3999093500062587e-05,
+      "loss": 0.2314,
+      "num_input_tokens_seen": 211680,
+      "step": 770
+    },
+    {
+      "epoch": 6.8584070796460175,
+      "grad_norm": 0.24847674369812012,
+      "learning_rate": 1.3653678128051106e-05,
+      "loss": 0.0097,
+      "num_input_tokens_seen": 212832,
+      "step": 775
+    },
+    {
+      "epoch": 6.902654867256637,
+      "grad_norm": 0.3456866443157196,
+      "learning_rate": 1.3310969482159297e-05,
+      "loss": 0.0788,
+      "num_input_tokens_seen": 214144,
+      "step": 780
+    },
+    {
+      "epoch": 6.946902654867257,
+      "grad_norm": 0.45530736446380615,
+      "learning_rate": 1.2971049317378237e-05,
+      "loss": 0.0036,
+      "num_input_tokens_seen": 215440,
+      "step": 785
+    },
+    {
+      "epoch": 6.991150442477876,
+      "grad_norm": 0.15640869736671448,
+      "learning_rate": 1.263399872349183e-05,
+      "loss": 0.0031,
+      "num_input_tokens_seen": 217088,
+      "step": 790
+    },
+    {
+      "epoch": 7.035398230088496,
+      "grad_norm": 10.463488578796387,
+      "learning_rate": 1.2299898105732385e-05,
+      "loss": 0.1574,
+      "num_input_tokens_seen": 218712,
+      "step": 795
+    },
+    {
+      "epoch": 7.061946902654867,
+      "eval_loss": 0.31536608934402466,
+      "eval_runtime": 0.7066,
+      "eval_samples_per_second": 35.379,
+      "eval_steps_per_second": 18.397,
+      "num_input_tokens_seen": 219400,
+      "step": 798
+    },
+    {
+      "epoch": 7.079646017699115,
+      "grad_norm": 0.05625517666339874,
+      "learning_rate": 1.1968827165599564e-05,
+      "loss": 0.123,
+      "num_input_tokens_seen": 219944,
+      "step": 800
+    },
+    {
+      "epoch": 7.123893805309734,
+      "grad_norm": 0.06226060166954994,
+      "learning_rate": 1.1640864881847105e-05,
+      "loss": 0.1137,
+      "num_input_tokens_seen": 221304,
+      "step": 805
+    },
+    {
+      "epoch": 7.168141592920354,
+      "grad_norm": 0.20677171647548676,
+      "learning_rate": 1.1316089491642076e-05,
+      "loss": 0.0069,
+      "num_input_tokens_seen": 222680,
+      "step": 810
+    },
+    {
+      "epoch": 7.212389380530974,
+      "grad_norm": 6.473257064819336,
+      "learning_rate": 1.099457847190091e-05,
+      "loss": 0.0752,
+      "num_input_tokens_seen": 224120,
+      "step": 815
+    },
+    {
+      "epoch": 7.256637168141593,
+      "grad_norm": 2.6501564979553223,
+      "learning_rate": 1.067640852080693e-05,
+      "loss": 0.0092,
+      "num_input_tokens_seen": 225448,
+      "step": 820
+    },
+    {
+      "epoch": 7.300884955752212,
+      "grad_norm": 9.59801959991455,
+      "learning_rate": 1.0361655539513565e-05,
+      "loss": 0.0214,
+      "num_input_tokens_seen": 226840,
+      "step": 825
+    },
+    {
+      "epoch": 7.345132743362832,
+      "grad_norm": 0.01992979645729065,
+      "learning_rate": 1.0050394614037687e-05,
+      "loss": 0.0416,
+      "num_input_tokens_seen": 227928,
+      "step": 830
+    },
+    {
+      "epoch": 7.389380530973451,
+      "grad_norm": 0.19040854275226593,
+      "learning_rate": 9.742699997347498e-06,
+      "loss": 0.0043,
+      "num_input_tokens_seen": 229336,
+      "step": 835
+    },
+    {
+      "epoch": 7.433628318584071,
+      "grad_norm": 0.17141713201999664,
+      "learning_rate": 9.438645091649029e-06,
+      "loss": 0.0196,
+      "num_input_tokens_seen": 231016,
+      "step": 840
+    },
+    {
+      "epoch": 7.477876106194691,
+      "grad_norm": 0.08842453360557556,
+      "learning_rate": 9.138302430875695e-06,
+      "loss": 0.0075,
+      "num_input_tokens_seen": 232296,
+      "step": 845
+    },
+    {
+      "epoch": 7.522123893805309,
+      "grad_norm": 0.12026006728410721,
+      "learning_rate": 8.841743663384913e-06,
+      "loss": 0.002,
+      "num_input_tokens_seen": 233432,
+      "step": 850
+    },
+    {
+      "epoch": 7.566371681415929,
+      "grad_norm": 0.1048886701464653,
+      "learning_rate": 8.549039534865979e-06,
+      "loss": 0.0121,
+      "num_input_tokens_seen": 235224,
+      "step": 855
+    },
+    {
+      "epoch": 7.566371681415929,
+      "eval_loss": 0.29263150691986084,
+      "eval_runtime": 0.7097,
+      "eval_samples_per_second": 35.224,
+      "eval_steps_per_second": 18.316,
+      "num_input_tokens_seen": 235224,
+      "step": 855
+    },
+    {
+      "epoch": 7.610619469026549,
+      "grad_norm": 8.880864143371582,
+      "learning_rate": 8.260259871463352e-06,
+      "loss": 0.1689,
+      "num_input_tokens_seen": 236456,
+      "step": 860
+    },
+    {
+      "epoch": 7.654867256637168,
+      "grad_norm": 0.07442810386419296,
+      "learning_rate": 7.975473563119216e-06,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 237912,
+      "step": 865
+    },
+    {
+      "epoch": 7.699115044247788,
+      "grad_norm": 0.12946204841136932,
+      "learning_rate": 7.69474854713943e-06,
+      "loss": 0.001,
+      "num_input_tokens_seen": 239304,
+      "step": 870
+    },
+    {
+      "epoch": 7.743362831858407,
+      "grad_norm": 10.251002311706543,
+      "learning_rate": 7.4181517919866914e-06,
+      "loss": 0.0955,
+      "num_input_tokens_seen": 240616,
+      "step": 875
+    },
+    {
+      "epoch": 7.787610619469026,
+      "grad_norm": 1.2198227643966675,
+      "learning_rate": 7.1457492813049e-06,
+      "loss": 0.0057,
+      "num_input_tokens_seen": 241928,
+      "step": 880
+    },
+    {
+      "epoch": 7.831858407079646,
+      "grad_norm": 0.03483714163303375,
+      "learning_rate": 6.877605998178344e-06,
+      "loss": 0.0418,
+      "num_input_tokens_seen": 243432,
+      "step": 885
+    },
+    {
+      "epoch": 7.876106194690266,
+      "grad_norm": 8.647575378417969,
+      "learning_rate": 6.613785909629686e-06,
+      "loss": 0.0719,
+      "num_input_tokens_seen": 244904,
+      "step": 890
+    },
+    {
+      "epoch": 7.920353982300885,
+      "grad_norm": 34.08659744262695,
+      "learning_rate": 6.354351951360268e-06,
+      "loss": 0.1715,
+      "num_input_tokens_seen": 246152,
+      "step": 895
+    },
+    {
+      "epoch": 7.964601769911504,
+      "grad_norm": 0.06069398671388626,
+      "learning_rate": 6.099366012736438e-06,
+      "loss": 0.1907,
+      "num_input_tokens_seen": 247320,
+      "step": 900
+    },
+    {
+      "epoch": 8.008849557522124,
+      "grad_norm": 0.18082427978515625,
+      "learning_rate": 5.848888922025553e-06,
+      "loss": 0.0098,
+      "num_input_tokens_seen": 248808,
+      "step": 905
+    },
+    {
+      "epoch": 8.053097345132743,
+      "grad_norm": 0.009733038023114204,
+      "learning_rate": 5.602980431885024e-06,
+      "loss": 0.0126,
+      "num_input_tokens_seen": 250056,
+      "step": 910
+    },
+    {
+      "epoch": 8.070796460176991,
+      "eval_loss": 0.2721284031867981,
+      "eval_runtime": 0.7046,
+      "eval_samples_per_second": 35.482,
+      "eval_steps_per_second": 18.45,
+      "num_input_tokens_seen": 250648,
+      "step": 912
+    },
+    {
+      "epoch": 8.097345132743364,
+      "grad_norm": 0.2778746783733368,
+      "learning_rate": 5.361699205108042e-06,
+      "loss": 0.0037,
+      "num_input_tokens_seen": 251560,
+      "step": 915
+    },
+    {
+      "epoch": 8.141592920353983,
+      "grad_norm": 0.22230306267738342,
+      "learning_rate": 5.125102800629203e-06,
+      "loss": 0.0022,
+      "num_input_tokens_seen": 252808,
+      "step": 920
+    },
+    {
+      "epoch": 8.185840707964601,
+      "grad_norm": 0.12998662889003754,
+      "learning_rate": 4.893247659793568e-06,
+      "loss": 0.0372,
+      "num_input_tokens_seen": 254536,
+      "step": 925
+    },
+    {
+      "epoch": 8.230088495575222,
+      "grad_norm": 2.2539122104644775,
+      "learning_rate": 4.666189092892245e-06,
+      "loss": 0.0098,
+      "num_input_tokens_seen": 256136,
+      "step": 930
+    },
+    {
+      "epoch": 8.274336283185841,
+      "grad_norm": 0.064559206366539,
+      "learning_rate": 4.443981265967806e-06,
+      "loss": 0.0667,
+      "num_input_tokens_seen": 257320,
+      "step": 935
+    },
+    {
+      "epoch": 8.31858407079646,
+      "grad_norm": 9.912572860717773,
+      "learning_rate": 4.226677187892739e-06,
+      "loss": 0.1145,
+      "num_input_tokens_seen": 258920,
+      "step": 940
+    },
+    {
+      "epoch": 8.36283185840708,
+      "grad_norm": 0.22164621949195862,
+      "learning_rate": 4.014328697723835e-06,
+      "loss": 0.0039,
+      "num_input_tokens_seen": 260216,
+      "step": 945
+    },
+    {
+      "epoch": 8.4070796460177,
+      "grad_norm": 0.22859039902687073,
+      "learning_rate": 3.806986452335748e-06,
+      "loss": 0.0035,
+      "num_input_tokens_seen": 261736,
+      "step": 950
+    },
+    {
+      "epoch": 8.451327433628318,
+      "grad_norm": 0.026006024330854416,
+      "learning_rate": 3.604699914336515e-06,
+      "loss": 0.0594,
+      "num_input_tokens_seen": 262920,
+      "step": 955
+    },
+    {
+      "epoch": 8.495575221238939,
+      "grad_norm": 6.112636566162109,
+      "learning_rate": 3.4075173402679574e-06,
+      "loss": 0.0197,
+      "num_input_tokens_seen": 264216,
+      "step": 960
+    },
+    {
+      "epoch": 8.539823008849558,
+      "grad_norm": 0.274373859167099,
+      "learning_rate": 3.215485769093862e-06,
+      "loss": 0.005,
+      "num_input_tokens_seen": 265320,
+      "step": 965
+    },
+    {
+      "epoch": 8.575221238938052,
+      "eval_loss": 0.28286850452423096,
+      "eval_runtime": 0.7016,
+      "eval_samples_per_second": 35.635,
+      "eval_steps_per_second": 18.53,
+      "num_input_tokens_seen": 266456,
+      "step": 969
+    },
+    {
+      "epoch": 8.584070796460177,
+      "grad_norm": 0.031764913350343704,
+      "learning_rate": 3.028651010978556e-06,
+      "loss": 0.0301,
+      "num_input_tokens_seen": 266776,
+      "step": 970
+    },
+    {
+      "epoch": 8.628318584070797,
+      "grad_norm": 0.6587602496147156,
+      "learning_rate": 2.8470576363586633e-06,
+      "loss": 0.005,
+      "num_input_tokens_seen": 268296,
+      "step": 975
+    },
+    {
+      "epoch": 8.672566371681416,
+      "grad_norm": 0.06793249398469925,
+      "learning_rate": 2.67074896531056e-06,
+      "loss": 0.0104,
+      "num_input_tokens_seen": 269528,
+      "step": 980
+    },
+    {
+      "epoch": 8.716814159292035,
+      "grad_norm": 0.20474901795387268,
+      "learning_rate": 2.499767057216193e-06,
+      "loss": 0.0425,
+      "num_input_tokens_seen": 270808,
+      "step": 985
+    },
+    {
+      "epoch": 8.761061946902656,
+      "grad_norm": 0.015458387322723866,
+      "learning_rate": 2.334152700729511e-06,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 271992,
+      "step": 990
+    },
+    {
+      "epoch": 8.805309734513274,
+      "grad_norm": 0.03912809118628502,
+      "learning_rate": 2.1739454040461794e-06,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 273656,
+      "step": 995
+    },
+    {
+      "epoch": 8.849557522123893,
+      "grad_norm": 0.008100362494587898,
+      "learning_rate": 2.019183385478654e-06,
+      "loss": 0.0033,
+      "num_input_tokens_seen": 275352,
+      "step": 1000
+    },
+    {
+      "epoch": 8.893805309734514,
+      "grad_norm": 0.06251242011785507,
+      "learning_rate": 1.8699035643389928e-06,
+      "loss": 0.0358,
+      "num_input_tokens_seen": 276472,
+      "step": 1005
+    },
+    {
+      "epoch": 8.938053097345133,
+      "grad_norm": 0.2489873468875885,
+      "learning_rate": 1.7261415521315798e-06,
+      "loss": 0.0032,
+      "num_input_tokens_seen": 277832,
+      "step": 1010
+    },
+    {
+      "epoch": 8.982300884955752,
+      "grad_norm": 5.699662685394287,
+      "learning_rate": 1.587931644057783e-06,
+      "loss": 0.1213,
+      "num_input_tokens_seen": 279352,
+      "step": 1015
+    },
+    {
+      "epoch": 9.026548672566372,
+      "grad_norm": 0.5742537975311279,
+      "learning_rate": 1.455306810834678e-06,
+      "loss": 0.0038,
+      "num_input_tokens_seen": 280608,
+      "step": 1020
+    },
+    {
+      "epoch": 9.070796460176991,
+      "grad_norm": 0.05869961529970169,
+      "learning_rate": 1.3282986908296713e-06,
+      "loss": 0.003,
+      "num_input_tokens_seen": 281872,
+      "step": 1025
+    },
+    {
+      "epoch": 9.079646017699115,
+      "eval_loss": 0.3063960075378418,
+      "eval_runtime": 0.7061,
+      "eval_samples_per_second": 35.404,
+      "eval_steps_per_second": 18.41,
+      "num_input_tokens_seen": 282256,
+      "step": 1026
+    },
+    {
+      "epoch": 9.11504424778761,
+      "grad_norm": 0.13193757832050323,
+      "learning_rate": 1.2069375825130292e-06,
+      "loss": 0.0052,
+      "num_input_tokens_seen": 283472,
+      "step": 1030
+    },
+    {
+      "epoch": 9.15929203539823,
+      "grad_norm": 0.051749859005212784,
+      "learning_rate": 1.091252437230003e-06,
+      "loss": 0.002,
+      "num_input_tokens_seen": 284992,
+      "step": 1035
+    },
+    {
+      "epoch": 9.20353982300885,
+      "grad_norm": 0.025474902242422104,
+      "learning_rate": 9.812708522943164e-07,
+      "loss": 0.0017,
+      "num_input_tokens_seen": 286464,
+      "step": 1040
+    },
+    {
+      "epoch": 9.247787610619469,
+      "grad_norm": 0.036191411316394806,
+      "learning_rate": 8.770190644047077e-07,
+      "loss": 0.0058,
+      "num_input_tokens_seen": 287792,
+      "step": 1045
+    },
+    {
+      "epoch": 9.29203539823009,
+      "grad_norm": 0.053131312131881714,
+      "learning_rate": 7.785219433859847e-07,
+      "loss": 0.1187,
+      "num_input_tokens_seen": 288960,
+      "step": 1050
+    },
+    {
+      "epoch": 9.336283185840708,
+      "grad_norm": 0.1995568573474884,
+      "learning_rate": 6.858029862562343e-07,
+      "loss": 0.0019,
+      "num_input_tokens_seen": 290336,
+      "step": 1055
+    },
+    {
+      "epoch": 9.380530973451327,
+      "grad_norm": 0.17870356142520905,
+      "learning_rate": 5.988843116214616e-07,
+      "loss": 0.0015,
+      "num_input_tokens_seen": 291728,
+      "step": 1060
+    },
+    {
+      "epoch": 9.424778761061948,
+      "grad_norm": 0.6506099700927734,
+      "learning_rate": 5.177866543990689e-07,
+      "loss": 0.0149,
+      "num_input_tokens_seen": 292944,
+      "step": 1065
+    },
+    {
+      "epoch": 9.469026548672566,
+      "grad_norm": 0.015886101871728897,
+      "learning_rate": 4.425293608714548e-07,
+      "loss": 0.0004,
+      "num_input_tokens_seen": 294448,
+      "step": 1070
+    },
+    {
+      "epoch": 9.513274336283185,
+      "grad_norm": 0.15230748057365417,
+      "learning_rate": 3.7313038407083003e-07,
+      "loss": 0.0722,
+      "num_input_tokens_seen": 295744,
+      "step": 1075
+    },
+    {
+      "epoch": 9.557522123893806,
+      "grad_norm": 0.10186933726072311,
+      "learning_rate": 3.0960627949644107e-07,
+      "loss": 0.1136,
+      "num_input_tokens_seen": 297280,
+      "step": 1080
+    },
+    {
+      "epoch": 9.584070796460177,
+      "eval_loss": 0.322214275598526,
+      "eval_runtime": 0.7055,
+      "eval_samples_per_second": 35.436,
+      "eval_steps_per_second": 18.427,
+      "num_input_tokens_seen": 297968,
+      "step": 1083
+    },
+    {
+      "epoch": 9.601769911504425,
+      "grad_norm": 0.13636958599090576,
+      "learning_rate": 2.5197220116515987e-07,
+      "loss": 0.0127,
+      "num_input_tokens_seen": 298624,
+      "step": 1085
+    },
+    {
+      "epoch": 9.646017699115044,
+      "grad_norm": 0.14171549677848816,
+      "learning_rate": 2.0024189799641435e-07,
+      "loss": 0.0334,
+      "num_input_tokens_seen": 299712,
+      "step": 1090
+    },
+    {
+      "epoch": 9.690265486725664,
+      "grad_norm": 0.017514703795313835,
+      "learning_rate": 1.5442771053230665e-07,
+      "loss": 0.0054,
+      "num_input_tokens_seen": 301152,
+      "step": 1095
+    },
+    {
+      "epoch": 9.734513274336283,
+      "grad_norm": 0.021520795300602913,
+      "learning_rate": 1.1454056799370672e-07,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 302768,
+      "step": 1100
+    },
+    {
+      "epoch": 9.778761061946902,
+      "grad_norm": 0.09183833003044128,
+      "learning_rate": 8.058998567304633e-08,
+      "loss": 0.0201,
+      "num_input_tokens_seen": 304176,
+      "step": 1105
+    },
+    {
+      "epoch": 9.823008849557523,
+      "grad_norm": 0.08951763063669205,
+      "learning_rate": 5.2584062664368105e-08,
+      "loss": 0.0018,
+      "num_input_tokens_seen": 305328,
+      "step": 1110
+    },
+    {
+      "epoch": 9.867256637168142,
+      "grad_norm": 0.404524564743042,
+      "learning_rate": 3.0529479931265535e-08,
+      "loss": 0.0009,
+      "num_input_tokens_seen": 306672,
+      "step": 1115
+    },
+    {
+      "epoch": 9.91150442477876,
+      "grad_norm": 11.300862312316895,
+      "learning_rate": 1.443149871309113e-08,
+      "loss": 0.0429,
+      "num_input_tokens_seen": 307920,
+      "step": 1120
+    },
+    {
+      "epoch": 9.955752212389381,
+      "grad_norm": 0.10828626900911331,
+      "learning_rate": 4.293959269863201e-09,
+      "loss": 0.0011,
+      "num_input_tokens_seen": 309424,
+      "step": 1125
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 0.08019658923149109,
+      "learning_rate": 1.192799661514643e-10,
+      "loss": 0.0185,
+      "num_input_tokens_seen": 310888,
+      "step": 1130
+    },
+    {
+      "epoch": 10.0,
+      "num_input_tokens_seen": 310888,
+      "step": 1130,
+      "total_flos": 1.3999146128572416e+16,
+      "train_loss": 0.27997444444191766,
+      "train_runtime": 152.8701,
+      "train_samples_per_second": 14.718,
+      "train_steps_per_second": 7.392
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 1130,
+  "num_input_tokens_seen": 310888,
+  "num_train_epochs": 10,
+  "save_steps": 57,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.3999146128572416e+16,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}

training_eval_loss.png ADDED Viewed

training_loss.png ADDED Viewed