End of training

Browse files

Files changed (7) hide show

README.md +3 -3
all_results.json +10 -10
eval_results.json +5 -5
train_results.json +6 -6
trainer_state.json +487 -277
training_eval_loss.png +0 -0
training_loss.png +0 -0

README.md CHANGED Viewed

@@ -17,10 +17,10 @@ should probably proofread and complete it, then remove this comment. -->
 # test
-This model is a fine-tuned version of [meta-llama/Llama-3.2-1B-Instruct](https://huggingface.co/meta-llama/Llama-3.2-1B-Instruct) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.3516
-- Num Input Tokens Seen: 43600
 ## Model description

 # test
+This model is a fine-tuned version of [meta-llama/Llama-3.2-1B-Instruct](https://huggingface.co/meta-llama/Llama-3.2-1B-Instruct) on the wsc dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.3491
+- Num Input Tokens Seen: 43904
 ## Model description

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
     "epoch": 1.0,
-    "eval_loss": 0.34589245915412903,
-    "eval_runtime": 0.7925,
-    "eval_samples_per_second": 70.661,
-    "eval_steps_per_second": 17.665,
-    "num_input_tokens_seen": 49376,
-    "total_flos": 497127920369664.0,
-    "train_loss": 1.1438678817749024,
-    "train_runtime": 224.169,
-    "train_samples_per_second": 2.222,
-    "train_steps_per_second": 0.558
 }

 {
     "epoch": 1.0,
+    "eval_loss": 0.34907668828964233,
+    "eval_runtime": 0.5932,
+    "eval_samples_per_second": 94.404,
+    "eval_steps_per_second": 47.202,
+    "num_input_tokens_seen": 43904,
+    "total_flos": 278458437992448.0,
+    "train_loss": 0.3984213411568638,
+    "train_runtime": 80.7936,
+    "train_samples_per_second": 6.164,
+    "train_steps_per_second": 3.082
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 1.0,
-    "eval_loss": 0.34589245915412903,
-    "eval_runtime": 0.7925,
-    "eval_samples_per_second": 70.661,
-    "eval_steps_per_second": 17.665,
-    "num_input_tokens_seen": 49376
 }

 {
     "epoch": 1.0,
+    "eval_loss": 0.34907668828964233,
+    "eval_runtime": 0.5932,
+    "eval_samples_per_second": 94.404,
+    "eval_steps_per_second": 47.202,
+    "num_input_tokens_seen": 43904
 }

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 1.0,
-    "num_input_tokens_seen": 49376,
-    "total_flos": 497127920369664.0,
-    "train_loss": 1.1438678817749024,
-    "train_runtime": 224.169,
-    "train_samples_per_second": 2.222,
-    "train_steps_per_second": 0.558
 }

 {
     "epoch": 1.0,
+    "num_input_tokens_seen": 43904,
+    "total_flos": 278458437992448.0,
+    "train_loss": 0.3984213411568638,
+    "train_runtime": 80.7936,
+    "train_samples_per_second": 6.164,
+    "train_steps_per_second": 3.082
 }

trainer_state.json CHANGED Viewed

@@ -1,383 +1,593 @@
 {
-  "best_global_step": 112,
-  "best_metric": 0.34589245915412903,
-  "best_model_checkpoint": "saves/test/checkpoint-112",
   "epoch": 1.0,
-  "eval_steps": 7,
-  "global_step": 125,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.04,
-      "grad_norm": 556.8270263671875,
-      "learning_rate": 1.5384615384615387e-05,
-      "loss": 10.9709,
-      "num_input_tokens_seen": 2144,
       "step": 5
     },
     {
-      "epoch": 0.056,
-      "eval_loss": 6.5227251052856445,
-      "eval_runtime": 0.703,
-      "eval_samples_per_second": 79.659,
-      "eval_steps_per_second": 19.915,
-      "num_input_tokens_seen": 2880,
-      "step": 7
-    },
-    {
-      "epoch": 0.08,
-      "grad_norm": 166.4779815673828,
-      "learning_rate": 3.461538461538462e-05,
-      "loss": 6.4075,
-      "num_input_tokens_seen": 4128,
       "step": 10
     },
     {
-      "epoch": 0.112,
-      "eval_loss": 1.382468581199646,
-      "eval_runtime": 0.7137,
-      "eval_samples_per_second": 78.462,
-      "eval_steps_per_second": 19.616,
-      "num_input_tokens_seen": 5920,
-      "step": 14
     },
     {
-      "epoch": 0.12,
-      "grad_norm": 137.21327209472656,
-      "learning_rate": 4.999016565957633e-05,
-      "loss": 2.5338,
-      "num_input_tokens_seen": 6240,
       "step": 15
     },
     {
-      "epoch": 0.16,
-      "grad_norm": 15.133822441101074,
-      "learning_rate": 4.96467754629559e-05,
-      "loss": 0.5326,
-      "num_input_tokens_seen": 8096,
       "step": 20
     },
     {
-      "epoch": 0.168,
-      "eval_loss": 0.4987373352050781,
-      "eval_runtime": 0.5096,
-      "eval_samples_per_second": 109.892,
-      "eval_steps_per_second": 27.473,
-      "num_input_tokens_seen": 8416,
-      "step": 21
-    },
-    {
-      "epoch": 0.2,
-      "grad_norm": 18.45602798461914,
-      "learning_rate": 4.881937806807241e-05,
-      "loss": 0.4144,
-      "num_input_tokens_seen": 10112,
       "step": 25
     },
     {
-      "epoch": 0.224,
-      "eval_loss": 0.4531269073486328,
-      "eval_runtime": 0.5083,
-      "eval_samples_per_second": 110.162,
-      "eval_steps_per_second": 27.54,
-      "num_input_tokens_seen": 11264,
-      "step": 28
     },
     {
-      "epoch": 0.24,
-      "grad_norm": 42.76151657104492,
-      "learning_rate": 4.752422169756048e-05,
-      "loss": 0.4563,
-      "num_input_tokens_seen": 12032,
       "step": 30
     },
     {
-      "epoch": 0.28,
-      "grad_norm": 4.994872570037842,
-      "learning_rate": 4.5786740307563636e-05,
-      "loss": 0.4802,
-      "num_input_tokens_seen": 13824,
       "step": 35
     },
     {
-      "epoch": 0.28,
-      "eval_loss": 0.36931881308555603,
-      "eval_runtime": 0.7118,
-      "eval_samples_per_second": 78.679,
-      "eval_steps_per_second": 19.67,
-      "num_input_tokens_seen": 13824,
-      "step": 35
     },
     {
-      "epoch": 0.32,
-      "grad_norm": 8.647699356079102,
-      "learning_rate": 4.364105412207914e-05,
-      "loss": 0.3809,
-      "num_input_tokens_seen": 15840,
       "step": 40
     },
     {
-      "epoch": 0.336,
-      "eval_loss": 0.3872639238834381,
-      "eval_runtime": 0.7546,
-      "eval_samples_per_second": 74.213,
-      "eval_steps_per_second": 18.553,
-      "num_input_tokens_seen": 16672,
-      "step": 42
-    },
-    {
-      "epoch": 0.36,
-      "grad_norm": 12.718330383300781,
-      "learning_rate": 4.1129299588552193e-05,
-      "loss": 0.3844,
-      "num_input_tokens_seen": 17920,
       "step": 45
     },
     {
-      "epoch": 0.392,
-      "eval_loss": 0.3777945637702942,
-      "eval_runtime": 0.7935,
-      "eval_samples_per_second": 70.573,
-      "eval_steps_per_second": 17.643,
-      "num_input_tokens_seen": 19296,
-      "step": 49
-    },
-    {
-      "epoch": 0.4,
-      "grad_norm": 12.110234260559082,
-      "learning_rate": 3.830080191288342e-05,
-      "loss": 0.2817,
-      "num_input_tokens_seen": 19712,
       "step": 50
     },
     {
-      "epoch": 0.44,
-      "grad_norm": 10.657136917114258,
-      "learning_rate": 3.521110642339991e-05,
-      "loss": 0.3831,
-      "num_input_tokens_seen": 21952,
-      "step": 55
     },
     {
-      "epoch": 0.448,
-      "eval_loss": 0.4436803460121155,
-      "eval_runtime": 0.7397,
-      "eval_samples_per_second": 75.71,
-      "eval_steps_per_second": 18.927,
-      "num_input_tokens_seen": 22432,
-      "step": 56
     },
     {
-      "epoch": 0.48,
-      "grad_norm": 10.894862174987793,
-      "learning_rate": 3.1920887785621235e-05,
-      "loss": 0.5576,
-      "num_input_tokens_seen": 24160,
       "step": 60
     },
     {
-      "epoch": 0.504,
-      "eval_loss": 0.35032057762145996,
-      "eval_runtime": 0.7463,
-      "eval_samples_per_second": 75.04,
-      "eval_steps_per_second": 18.76,
-      "num_input_tokens_seen": 25504,
-      "step": 63
-    },
-    {
-      "epoch": 0.52,
-      "grad_norm": 7.415125370025635,
-      "learning_rate": 2.849475848838749e-05,
-      "loss": 0.4013,
-      "num_input_tokens_seen": 26112,
       "step": 65
     },
     {
-      "epoch": 0.56,
-      "grad_norm": 9.572220802307129,
-      "learning_rate": 2.5e-05,
-      "loss": 0.3242,
-      "num_input_tokens_seen": 28064,
-      "step": 70
     },
     {
-      "epoch": 0.56,
-      "eval_loss": 0.37164703011512756,
-      "eval_runtime": 0.7524,
-      "eval_samples_per_second": 74.427,
-      "eval_steps_per_second": 18.607,
-      "num_input_tokens_seen": 28064,
       "step": 70
     },
     {
-      "epoch": 0.6,
-      "grad_norm": 11.036535263061523,
-      "learning_rate": 2.1505241511612522e-05,
-      "loss": 0.3963,
-      "num_input_tokens_seen": 29824,
       "step": 75
     },
     {
-      "epoch": 0.616,
-      "eval_loss": 0.3748786747455597,
-      "eval_runtime": 0.6694,
-      "eval_samples_per_second": 83.657,
-      "eval_steps_per_second": 20.914,
-      "num_input_tokens_seen": 30720,
-      "step": 77
     },
     {
-      "epoch": 0.64,
-      "grad_norm": 2.2476918697357178,
-      "learning_rate": 1.8079112214378768e-05,
-      "loss": 0.3946,
-      "num_input_tokens_seen": 31904,
       "step": 80
     },
     {
-      "epoch": 0.672,
-      "eval_loss": 0.3603578209877014,
-      "eval_runtime": 0.7578,
-      "eval_samples_per_second": 73.897,
-      "eval_steps_per_second": 18.474,
-      "num_input_tokens_seen": 33504,
-      "step": 84
-    },
-    {
-      "epoch": 0.68,
-      "grad_norm": 2.605731248855591,
-      "learning_rate": 1.4788893576600099e-05,
-      "loss": 0.3496,
-      "num_input_tokens_seen": 33984,
       "step": 85
     },
     {
-      "epoch": 0.72,
-      "grad_norm": 2.532665967941284,
-      "learning_rate": 1.1699198087116589e-05,
-      "loss": 0.337,
-      "num_input_tokens_seen": 35776,
       "step": 90
     },
     {
-      "epoch": 0.728,
-      "eval_loss": 0.35710158944129944,
-      "eval_runtime": 0.5883,
-      "eval_samples_per_second": 95.185,
-      "eval_steps_per_second": 23.796,
-      "num_input_tokens_seen": 36128,
       "step": 91
     },
     {
-      "epoch": 0.76,
-      "grad_norm": 2.5953240394592285,
-      "learning_rate": 8.870700411447816e-06,
-      "loss": 0.4315,
-      "num_input_tokens_seen": 37472,
       "step": 95
     },
     {
-      "epoch": 0.784,
-      "eval_loss": 0.3520326614379883,
-      "eval_runtime": 0.8055,
-      "eval_samples_per_second": 69.518,
-      "eval_steps_per_second": 17.38,
-      "num_input_tokens_seen": 38592,
-      "step": 98
-    },
-    {
-      "epoch": 0.8,
-      "grad_norm": 2.179095506668091,
-      "learning_rate": 6.358945877920861e-06,
-      "loss": 0.38,
-      "num_input_tokens_seen": 39328,
       "step": 100
     },
     {
-      "epoch": 0.84,
-      "grad_norm": 5.5090203285217285,
-      "learning_rate": 4.213259692436367e-06,
-      "loss": 0.371,
-      "num_input_tokens_seen": 41280,
-      "step": 105
     },
     {
-      "epoch": 0.84,
-      "eval_loss": 0.34758228063583374,
-      "eval_runtime": 0.7519,
-      "eval_samples_per_second": 74.483,
-      "eval_steps_per_second": 18.621,
-      "num_input_tokens_seen": 41280,
       "step": 105
     },
     {
-      "epoch": 0.88,
-      "grad_norm": 1.8210620880126953,
-      "learning_rate": 2.475778302439524e-06,
-      "loss": 0.364,
-      "num_input_tokens_seen": 43552,
       "step": 110
     },
     {
-      "epoch": 0.896,
-      "eval_loss": 0.34589245915412903,
-      "eval_runtime": 0.7431,
-      "eval_samples_per_second": 75.359,
-      "eval_steps_per_second": 18.84,
-      "num_input_tokens_seen": 44160,
-      "step": 112
-    },
-    {
-      "epoch": 0.92,
-      "grad_norm": 5.644977569580078,
-      "learning_rate": 1.180621931927592e-06,
-      "loss": 0.3554,
-      "num_input_tokens_seen": 45216,
       "step": 115
     },
     {
-      "epoch": 0.952,
-      "eval_loss": 0.3492301404476166,
-      "eval_runtime": 0.7889,
-      "eval_samples_per_second": 70.986,
-      "eval_steps_per_second": 17.747,
-      "num_input_tokens_seen": 46944,
-      "step": 119
     },
     {
-      "epoch": 0.96,
-      "grad_norm": 1.6824895143508911,
-      "learning_rate": 3.5322453704410286e-07,
-      "loss": 0.3494,
-      "num_input_tokens_seen": 47360,
       "step": 120
     },
     {
-      "epoch": 1.0,
-      "grad_norm": 10.473832130432129,
-      "learning_rate": 9.834340423678368e-09,
-      "loss": 0.3588,
-      "num_input_tokens_seen": 49376,
       "step": 125
     },
     {
       "epoch": 1.0,
-      "num_input_tokens_seen": 49376,
-      "step": 125,
-      "total_flos": 497127920369664.0,
-      "train_loss": 1.1438678817749024,
-      "train_runtime": 224.169,
-      "train_samples_per_second": 2.222,
-      "train_steps_per_second": 0.558
     }
   ],
   "logging_steps": 5,
-  "max_steps": 125,
-  "num_input_tokens_seen": 49376,
   "num_train_epochs": 1,
-  "save_steps": 7,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
@@ -390,8 +600,8 @@
       "attributes": {}
     }
   },
-  "total_flos": 497127920369664.0,
-  "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_global_step": 182,
+  "best_metric": 0.34907668828964233,
+  "best_model_checkpoint": "saves/test/checkpoint-182",
   "epoch": 1.0,
+  "eval_steps": 13,
+  "global_step": 249,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.020080321285140562,
+      "grad_norm": 29.701719284057617,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 0.8323,
+      "num_input_tokens_seen": 832,
       "step": 5
     },
     {
+      "epoch": 0.040160642570281124,
+      "grad_norm": 19.538766860961914,
+      "learning_rate": 1.8e-05,
+      "loss": 0.7462,
+      "num_input_tokens_seen": 1760,
       "step": 10
     },
     {
+      "epoch": 0.05220883534136546,
+      "eval_loss": 0.6849029660224915,
+      "eval_runtime": 0.5644,
+      "eval_samples_per_second": 99.229,
+      "eval_steps_per_second": 49.614,
+      "num_input_tokens_seen": 2288,
+      "step": 13
     },
     {
+      "epoch": 0.060240963855421686,
+      "grad_norm": 9.36767292022705,
+      "learning_rate": 2.8000000000000003e-05,
+      "loss": 0.71,
+      "num_input_tokens_seen": 2608,
       "step": 15
     },
     {
+      "epoch": 0.08032128514056225,
+      "grad_norm": 17.907136917114258,
+      "learning_rate": 3.8e-05,
+      "loss": 0.5466,
+      "num_input_tokens_seen": 3536,
       "step": 20
     },
     {
+      "epoch": 0.10040160642570281,
+      "grad_norm": 11.546435356140137,
+      "learning_rate": 4.8e-05,
+      "loss": 0.6639,
+      "num_input_tokens_seen": 4496,
       "step": 25
     },
     {
+      "epoch": 0.10441767068273092,
+      "eval_loss": 0.45566946268081665,
+      "eval_runtime": 0.5583,
+      "eval_samples_per_second": 100.311,
+      "eval_steps_per_second": 50.156,
+      "num_input_tokens_seen": 4656,
+      "step": 26
     },
     {
+      "epoch": 0.12048192771084337,
+      "grad_norm": 8.822799682617188,
+      "learning_rate": 4.996067037544542e-05,
+      "loss": 0.5107,
+      "num_input_tokens_seen": 5424,
       "step": 30
     },
     {
+      "epoch": 0.14056224899598393,
+      "grad_norm": 7.542176246643066,
+      "learning_rate": 4.980110583549062e-05,
+      "loss": 0.3742,
+      "num_input_tokens_seen": 6304,
       "step": 35
     },
     {
+      "epoch": 0.1566265060240964,
+      "eval_loss": 0.3848888874053955,
+      "eval_runtime": 0.5676,
+      "eval_samples_per_second": 98.664,
+      "eval_steps_per_second": 49.332,
+      "num_input_tokens_seen": 6944,
+      "step": 39
     },
     {
+      "epoch": 0.1606425702811245,
+      "grad_norm": 1.9545893669128418,
+      "learning_rate": 4.951963201008076e-05,
+      "loss": 0.3994,
+      "num_input_tokens_seen": 7072,
       "step": 40
     },
     {
+      "epoch": 0.18072289156626506,
+      "grad_norm": 6.747119903564453,
+      "learning_rate": 4.91176324775594e-05,
+      "loss": 0.3929,
+      "num_input_tokens_seen": 7856,
       "step": 45
     },
     {
+      "epoch": 0.20080321285140562,
+      "grad_norm": 9.478217124938965,
+      "learning_rate": 4.8597083257709194e-05,
+      "loss": 0.3565,
+      "num_input_tokens_seen": 8880,
       "step": 50
     },
     {
+      "epoch": 0.20883534136546184,
+      "eval_loss": 0.3768366277217865,
+      "eval_runtime": 0.5874,
+      "eval_samples_per_second": 95.338,
+      "eval_steps_per_second": 47.669,
+      "num_input_tokens_seen": 9232,
+      "step": 52
     },
     {
+      "epoch": 0.22088353413654618,
+      "grad_norm": 2.1806461811065674,
+      "learning_rate": 4.796054309867053e-05,
+      "loss": 0.4015,
+      "num_input_tokens_seen": 9680,
+      "step": 55
     },
     {
+      "epoch": 0.24096385542168675,
+      "grad_norm": 7.034917831420898,
+      "learning_rate": 4.721114089947181e-05,
+      "loss": 0.3437,
+      "num_input_tokens_seen": 10576,
       "step": 60
     },
     {
+      "epoch": 0.26104417670682734,
+      "grad_norm": 2.6137804985046387,
+      "learning_rate": 4.6352560329995686e-05,
+      "loss": 0.3087,
+      "num_input_tokens_seen": 11424,
       "step": 65
     },
     {
+      "epoch": 0.26104417670682734,
+      "eval_loss": 0.3713006377220154,
+      "eval_runtime": 0.5783,
+      "eval_samples_per_second": 96.834,
+      "eval_steps_per_second": 48.417,
+      "num_input_tokens_seen": 11424,
+      "step": 65
     },
     {
+      "epoch": 0.28112449799196787,
+      "grad_norm": 2.673372507095337,
+      "learning_rate": 4.538902172398151e-05,
+      "loss": 0.3702,
+      "num_input_tokens_seen": 12224,
       "step": 70
     },
     {
+      "epoch": 0.30120481927710846,
+      "grad_norm": 1.5868593454360962,
+      "learning_rate": 4.4325261334068426e-05,
+      "loss": 0.3607,
+      "num_input_tokens_seen": 13168,
       "step": 75
     },
     {
+      "epoch": 0.3132530120481928,
+      "eval_loss": 0.3614208996295929,
+      "eval_runtime": 0.6054,
+      "eval_samples_per_second": 92.508,
+      "eval_steps_per_second": 46.254,
+      "num_input_tokens_seen": 13760,
+      "step": 78
     },
     {
+      "epoch": 0.321285140562249,
+      "grad_norm": 7.262303829193115,
+      "learning_rate": 4.316650805085068e-05,
+      "loss": 0.3766,
+      "num_input_tokens_seen": 14080,
       "step": 80
     },
     {
+      "epoch": 0.3413654618473896,
+      "grad_norm": 6.2033772468566895,
+      "learning_rate": 4.1918457700381855e-05,
+      "loss": 0.3639,
+      "num_input_tokens_seen": 15056,
       "step": 85
     },
     {
+      "epoch": 0.3614457831325301,
+      "grad_norm": 6.97931432723999,
+      "learning_rate": 4.058724504646834e-05,
+      "loss": 0.3589,
+      "num_input_tokens_seen": 15904,
       "step": 90
     },
     {
+      "epoch": 0.3654618473895582,
+      "eval_loss": 0.36092114448547363,
+      "eval_runtime": 0.5824,
+      "eval_samples_per_second": 96.155,
+      "eval_steps_per_second": 48.078,
+      "num_input_tokens_seen": 16048,
       "step": 91
     },
     {
+      "epoch": 0.3815261044176707,
+      "grad_norm": 6.607943058013916,
+      "learning_rate": 3.9179413635373897e-05,
+      "loss": 0.3395,
+      "num_input_tokens_seen": 16688,
       "step": 95
     },
     {
+      "epoch": 0.40160642570281124,
+      "grad_norm": 6.295155048370361,
+      "learning_rate": 3.770188363116324e-05,
+      "loss": 0.2898,
+      "num_input_tokens_seen": 17552,
       "step": 100
     },
     {
+      "epoch": 0.41767068273092367,
+      "eval_loss": 0.37226182222366333,
+      "eval_runtime": 0.5933,
+      "eval_samples_per_second": 94.389,
+      "eval_steps_per_second": 47.194,
+      "num_input_tokens_seen": 18272,
+      "step": 104
     },
     {
+      "epoch": 0.42168674698795183,
+      "grad_norm": 1.7356857061386108,
+      "learning_rate": 3.616191779978907e-05,
+      "loss": 0.3169,
+      "num_input_tokens_seen": 18400,
       "step": 105
     },
     {
+      "epoch": 0.44176706827309237,
+      "grad_norm": 5.197076797485352,
+      "learning_rate": 3.456708580912725e-05,
+      "loss": 0.3631,
+      "num_input_tokens_seen": 19456,
       "step": 110
     },
     {
+      "epoch": 0.46184738955823296,
+      "grad_norm": 8.22790241241455,
+      "learning_rate": 3.292522702044221e-05,
+      "loss": 0.4246,
+      "num_input_tokens_seen": 20288,
       "step": 115
     },
     {
+      "epoch": 0.46987951807228917,
+      "eval_loss": 0.36986905336380005,
+      "eval_runtime": 0.5858,
+      "eval_samples_per_second": 95.59,
+      "eval_steps_per_second": 47.795,
+      "num_input_tokens_seen": 20656,
+      "step": 117
     },
     {
+      "epoch": 0.4819277108433735,
+      "grad_norm": 2.152425527572632,
+      "learning_rate": 3.1244411954180676e-05,
+      "loss": 0.3885,
+      "num_input_tokens_seen": 21328,
       "step": 120
     },
     {
+      "epoch": 0.5020080321285141,
+      "grad_norm": 1.8676035404205322,
+      "learning_rate": 2.9532902619507462e-05,
+      "loss": 0.3539,
+      "num_input_tokens_seen": 22304,
       "step": 125
     },
+    {
+      "epoch": 0.5220883534136547,
+      "grad_norm": 6.877042293548584,
+      "learning_rate": 2.7799111902582696e-05,
+      "loss": 0.3657,
+      "num_input_tokens_seen": 23056,
+      "step": 130
+    },
+    {
+      "epoch": 0.5220883534136547,
+      "eval_loss": 0.35231098532676697,
+      "eval_runtime": 0.579,
+      "eval_samples_per_second": 96.724,
+      "eval_steps_per_second": 48.362,
+      "num_input_tokens_seen": 23056,
+      "step": 130
+    },
+    {
+      "epoch": 0.5421686746987951,
+      "grad_norm": 8.028996467590332,
+      "learning_rate": 2.6051562213206632e-05,
+      "loss": 0.3499,
+      "num_input_tokens_seen": 23840,
+      "step": 135
+    },
+    {
+      "epoch": 0.5622489959839357,
+      "grad_norm": 2.0267858505249023,
+      "learning_rate": 2.429884359310328e-05,
+      "loss": 0.3637,
+      "num_input_tokens_seen": 24832,
+      "step": 140
+    },
+    {
+      "epoch": 0.5742971887550201,
+      "eval_loss": 0.3550644516944885,
+      "eval_runtime": 0.5754,
+      "eval_samples_per_second": 97.321,
+      "eval_steps_per_second": 48.66,
+      "num_input_tokens_seen": 25312,
+      "step": 143
+    },
+    {
+      "epoch": 0.5823293172690763,
+      "grad_norm": 1.7024149894714355,
+      "learning_rate": 2.2549571491760986e-05,
+      "loss": 0.3785,
+      "num_input_tokens_seen": 25648,
+      "step": 145
+    },
+    {
+      "epoch": 0.6024096385542169,
+      "grad_norm": 7.411402225494385,
+      "learning_rate": 2.0812344417381595e-05,
+      "loss": 0.3394,
+      "num_input_tokens_seen": 26496,
+      "step": 150
+    },
+    {
+      "epoch": 0.6224899598393574,
+      "grad_norm": 6.996516227722168,
+      "learning_rate": 1.909570167110415e-05,
+      "loss": 0.3938,
+      "num_input_tokens_seen": 27392,
+      "step": 155
+    },
+    {
+      "epoch": 0.6265060240963856,
+      "eval_loss": 0.3516700565814972,
+      "eval_runtime": 0.5784,
+      "eval_samples_per_second": 96.823,
+      "eval_steps_per_second": 48.411,
+      "num_input_tokens_seen": 27552,
+      "step": 156
+    },
+    {
+      "epoch": 0.642570281124498,
+      "grad_norm": 1.795516848564148,
+      "learning_rate": 1.7408081372259632e-05,
+      "loss": 0.3667,
+      "num_input_tokens_seen": 28272,
+      "step": 160
+    },
+    {
+      "epoch": 0.6626506024096386,
+      "grad_norm": 5.605747222900391,
+      "learning_rate": 1.5757778980982626e-05,
+      "loss": 0.3198,
+      "num_input_tokens_seen": 29184,
+      "step": 165
+    },
+    {
+      "epoch": 0.678714859437751,
+      "eval_loss": 0.354565292596817,
+      "eval_runtime": 0.578,
+      "eval_samples_per_second": 96.89,
+      "eval_steps_per_second": 48.445,
+      "num_input_tokens_seen": 29984,
+      "step": 169
+    },
+    {
+      "epoch": 0.6827309236947792,
+      "grad_norm": 2.0162057876586914,
+      "learning_rate": 1.4152906522061048e-05,
+      "loss": 0.3366,
+      "num_input_tokens_seen": 30128,
+      "step": 170
+    },
+    {
+      "epoch": 0.7028112449799196,
+      "grad_norm": 2.3657188415527344,
+      "learning_rate": 1.2601352710458313e-05,
+      "loss": 0.3291,
+      "num_input_tokens_seen": 30976,
+      "step": 175
+    },
+    {
+      "epoch": 0.7228915662650602,
+      "grad_norm": 4.72028923034668,
+      "learning_rate": 1.1110744174509952e-05,
+      "loss": 0.369,
+      "num_input_tokens_seen": 31776,
+      "step": 180
+    },
+    {
+      "epoch": 0.7309236947791165,
+      "eval_loss": 0.34907668828964233,
+      "eval_runtime": 0.5768,
+      "eval_samples_per_second": 97.087,
+      "eval_steps_per_second": 48.544,
+      "num_input_tokens_seen": 32080,
+      "step": 182
+    },
+    {
+      "epoch": 0.7429718875502008,
+      "grad_norm": 7.622625827789307,
+      "learning_rate": 9.688407967401248e-06,
+      "loss": 0.3852,
+      "num_input_tokens_seen": 32608,
+      "step": 185
+    },
+    {
+      "epoch": 0.7630522088353414,
+      "grad_norm": 6.026548862457275,
+      "learning_rate": 8.341335551199902e-06,
+      "loss": 0.4115,
+      "num_input_tokens_seen": 33360,
+      "step": 190
+    },
+    {
+      "epoch": 0.7831325301204819,
+      "grad_norm": 7.148702621459961,
+      "learning_rate": 7.076148430479321e-06,
+      "loss": 0.3673,
+      "num_input_tokens_seen": 34176,
+      "step": 195
+    },
+    {
+      "epoch": 0.7831325301204819,
+      "eval_loss": 0.3541497588157654,
+      "eval_runtime": 0.58,
+      "eval_samples_per_second": 96.553,
+      "eval_steps_per_second": 48.277,
+      "num_input_tokens_seen": 34176,
+      "step": 195
+    },
+    {
+      "epoch": 0.8032128514056225,
+      "grad_norm": 1.6944422721862793,
+      "learning_rate": 5.899065604459814e-06,
+      "loss": 0.3583,
+      "num_input_tokens_seen": 34992,
+      "step": 200
+    },
+    {
+      "epoch": 0.8232931726907631,
+      "grad_norm": 1.7302725315093994,
+      "learning_rate": 4.81587299765594e-06,
+      "loss": 0.3675,
+      "num_input_tokens_seen": 35888,
+      "step": 205
+    },
+    {
+      "epoch": 0.8353413654618473,
+      "eval_loss": 0.3513210713863373,
+      "eval_runtime": 0.5991,
+      "eval_samples_per_second": 93.474,
+      "eval_steps_per_second": 46.737,
+      "num_input_tokens_seen": 36512,
+      "step": 208
+    },
+    {
+      "epoch": 0.8433734939759037,
+      "grad_norm": 1.571621060371399,
+      "learning_rate": 3.831895019292897e-06,
+      "loss": 0.3717,
+      "num_input_tokens_seen": 36848,
+      "step": 210
+    },
+    {
+      "epoch": 0.8634538152610441,
+      "grad_norm": 2.1745762825012207,
+      "learning_rate": 2.9519683912911266e-06,
+      "loss": 0.3723,
+      "num_input_tokens_seen": 37888,
+      "step": 215
+    },
+    {
+      "epoch": 0.8835341365461847,
+      "grad_norm": 1.900101900100708,
+      "learning_rate": 2.1804183734670277e-06,
+      "loss": 0.3634,
+      "num_input_tokens_seen": 38768,
+      "step": 220
+    },
+    {
+      "epoch": 0.8875502008032129,
+      "eval_loss": 0.3546585738658905,
+      "eval_runtime": 0.6095,
+      "eval_samples_per_second": 91.885,
+      "eval_steps_per_second": 45.943,
+      "num_input_tokens_seen": 38912,
+      "step": 221
+    },
+    {
+      "epoch": 0.9036144578313253,
+      "grad_norm": 1.1839439868927002,
+      "learning_rate": 1.5210375028143097e-06,
+      "loss": 0.3656,
+      "num_input_tokens_seen": 39488,
+      "step": 225
+    },
+    {
+      "epoch": 0.9236947791164659,
+      "grad_norm": 1.8801380395889282,
+      "learning_rate": 9.770669513725128e-07,
+      "loss": 0.3446,
+      "num_input_tokens_seen": 40336,
+      "step": 230
+    },
+    {
+      "epoch": 0.9397590361445783,
+      "eval_loss": 0.35187554359436035,
+      "eval_runtime": 0.5983,
+      "eval_samples_per_second": 93.594,
+      "eval_steps_per_second": 46.797,
+      "num_input_tokens_seen": 41120,
+      "step": 234
+    },
+    {
+      "epoch": 0.9437751004016064,
+      "grad_norm": 1.5287421941757202,
+      "learning_rate": 5.5118059431781e-07,
+      "loss": 0.3724,
+      "num_input_tokens_seen": 41328,
+      "step": 235
+    },
+    {
+      "epoch": 0.963855421686747,
+      "grad_norm": 1.8900800943374634,
+      "learning_rate": 2.454718665888589e-07,
+      "loss": 0.3493,
+      "num_input_tokens_seen": 42176,
+      "step": 240
+    },
+    {
+      "epoch": 0.9839357429718876,
+      "grad_norm": 1.2923225164413452,
+      "learning_rate": 6.14434726538493e-08,
+      "loss": 0.3364,
+      "num_input_tokens_seen": 43312,
+      "step": 245
+    },
+    {
+      "epoch": 0.9919678714859438,
+      "eval_loss": 0.3515866696834564,
+      "eval_runtime": 0.62,
+      "eval_samples_per_second": 90.326,
+      "eval_steps_per_second": 45.163,
+      "num_input_tokens_seen": 43600,
+      "step": 247
+    },
     {
       "epoch": 1.0,
+      "num_input_tokens_seen": 43904,
+      "step": 249,
+      "total_flos": 278458437992448.0,
+      "train_loss": 0.3984213411568638,
+      "train_runtime": 80.7936,
+      "train_samples_per_second": 6.164,
+      "train_steps_per_second": 3.082
     }
   ],
   "logging_steps": 5,
+  "max_steps": 249,
+  "num_input_tokens_seen": 43904,
   "num_train_epochs": 1,
+  "save_steps": 13,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
       "attributes": {}
     }
   },
+  "total_flos": 278458437992448.0,
+  "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null
 }

training_eval_loss.png CHANGED Viewed

training_loss.png CHANGED Viewed