End of training

Browse files

Files changed (5) hide show

README.md +3 -3
all_results.json +6 -6
eval_results.json +3 -3
train_results.json +3 -3
trainer_state.json +54 -54

README.md CHANGED Viewed

@@ -17,10 +17,10 @@ should probably proofread and complete it, then remove this comment. -->
 # test
-This model is a fine-tuned version of [meta-llama/Meta-Llama-3-8B-Instruct](https://huggingface.co/meta-llama/Meta-Llama-3-8B-Instruct) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.3585
-- Num Input Tokens Seen: 46944
 ## Model description

 # test
+This model is a fine-tuned version of [meta-llama/Meta-Llama-3-8B-Instruct](https://huggingface.co/meta-llama/Meta-Llama-3-8B-Instruct) on the wsc dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.3497
+- Num Input Tokens Seen: 49376
 ## Model description

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
     "epoch": 1.0,
     "eval_loss": 0.3496828079223633,
-    "eval_runtime": 1.4986,
-    "eval_samples_per_second": 37.369,
-    "eval_steps_per_second": 9.342,
     "num_input_tokens_seen": 49376,
     "total_flos": 2223378963628032.0,
     "train_loss": 1.100914571762085,
-    "train_runtime": 86.254,
-    "train_samples_per_second": 5.774,
-    "train_steps_per_second": 1.449
 }

 {
     "epoch": 1.0,
     "eval_loss": 0.3496828079223633,
+    "eval_runtime": 1.4753,
+    "eval_samples_per_second": 37.957,
+    "eval_steps_per_second": 9.489,
     "num_input_tokens_seen": 49376,
     "total_flos": 2223378963628032.0,
     "train_loss": 1.100914571762085,
+    "train_runtime": 75.0364,
+    "train_samples_per_second": 6.637,
+    "train_steps_per_second": 1.666
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 1.0,
     "eval_loss": 0.3496828079223633,
-    "eval_runtime": 1.4986,
-    "eval_samples_per_second": 37.369,
-    "eval_steps_per_second": 9.342,
     "num_input_tokens_seen": 49376
 }

 {
     "epoch": 1.0,
     "eval_loss": 0.3496828079223633,
+    "eval_runtime": 1.4753,
+    "eval_samples_per_second": 37.957,
+    "eval_steps_per_second": 9.489,
     "num_input_tokens_seen": 49376
 }

train_results.json CHANGED Viewed

@@ -3,7 +3,7 @@
     "num_input_tokens_seen": 49376,
     "total_flos": 2223378963628032.0,
     "train_loss": 1.100914571762085,
-    "train_runtime": 86.254,
-    "train_samples_per_second": 5.774,
-    "train_steps_per_second": 1.449
 }

     "num_input_tokens_seen": 49376,
     "total_flos": 2223378963628032.0,
     "train_loss": 1.100914571762085,
+    "train_runtime": 75.0364,
+    "train_samples_per_second": 6.637,
+    "train_steps_per_second": 1.666
 }

trainer_state.json CHANGED Viewed

@@ -20,9 +20,9 @@
     {
       "epoch": 0.056,
       "eval_loss": 6.932018280029297,
-      "eval_runtime": 1.4196,
-      "eval_samples_per_second": 39.449,
-      "eval_steps_per_second": 9.862,
       "num_input_tokens_seen": 2880,
       "step": 7
     },
@@ -37,9 +37,9 @@
     {
       "epoch": 0.112,
       "eval_loss": 1.6227623224258423,
-      "eval_runtime": 1.3856,
-      "eval_samples_per_second": 40.417,
-      "eval_steps_per_second": 10.104,
       "num_input_tokens_seen": 5920,
       "step": 14
     },
@@ -62,9 +62,9 @@
     {
       "epoch": 0.168,
       "eval_loss": 0.4040253460407257,
-      "eval_runtime": 1.3702,
-      "eval_samples_per_second": 40.869,
-      "eval_steps_per_second": 10.217,
       "num_input_tokens_seen": 8416,
       "step": 21
     },
@@ -79,9 +79,9 @@
     {
       "epoch": 0.224,
       "eval_loss": 3.618654489517212,
-      "eval_runtime": 1.3779,
-      "eval_samples_per_second": 40.642,
-      "eval_steps_per_second": 10.161,
       "num_input_tokens_seen": 11264,
       "step": 28
     },
@@ -104,9 +104,9 @@
     {
       "epoch": 0.28,
       "eval_loss": 0.36673951148986816,
-      "eval_runtime": 1.3899,
-      "eval_samples_per_second": 40.29,
-      "eval_steps_per_second": 10.072,
       "num_input_tokens_seen": 13824,
       "step": 35
     },
@@ -121,9 +121,9 @@
     {
       "epoch": 0.336,
       "eval_loss": 0.3661668598651886,
-      "eval_runtime": 1.3878,
-      "eval_samples_per_second": 40.353,
-      "eval_steps_per_second": 10.088,
       "num_input_tokens_seen": 16672,
       "step": 42
     },
@@ -138,9 +138,9 @@
     {
       "epoch": 0.392,
       "eval_loss": 0.5265085101127625,
-      "eval_runtime": 1.3816,
-      "eval_samples_per_second": 40.532,
-      "eval_steps_per_second": 10.133,
       "num_input_tokens_seen": 19296,
       "step": 49
     },
@@ -163,9 +163,9 @@
     {
       "epoch": 0.448,
       "eval_loss": 0.39251771569252014,
-      "eval_runtime": 1.3876,
-      "eval_samples_per_second": 40.359,
-      "eval_steps_per_second": 10.09,
       "num_input_tokens_seen": 22432,
       "step": 56
     },
@@ -180,9 +180,9 @@
     {
       "epoch": 0.504,
       "eval_loss": 2.652535915374756,
-      "eval_runtime": 1.3806,
-      "eval_samples_per_second": 40.562,
-      "eval_steps_per_second": 10.141,
       "num_input_tokens_seen": 25504,
       "step": 63
     },
@@ -205,9 +205,9 @@
     {
       "epoch": 0.56,
       "eval_loss": 0.37763792276382446,
-      "eval_runtime": 1.3741,
-      "eval_samples_per_second": 40.753,
-      "eval_steps_per_second": 10.188,
       "num_input_tokens_seen": 28064,
       "step": 70
     },
@@ -222,9 +222,9 @@
     {
       "epoch": 0.616,
       "eval_loss": 0.36274200677871704,
-      "eval_runtime": 1.4269,
-      "eval_samples_per_second": 39.245,
-      "eval_steps_per_second": 9.811,
       "num_input_tokens_seen": 30720,
       "step": 77
     },
@@ -239,9 +239,9 @@
     {
       "epoch": 0.672,
       "eval_loss": 0.35259029269218445,
-      "eval_runtime": 1.4343,
-      "eval_samples_per_second": 39.044,
-      "eval_steps_per_second": 9.761,
       "num_input_tokens_seen": 33504,
       "step": 84
     },
@@ -264,9 +264,9 @@
     {
       "epoch": 0.728,
       "eval_loss": 0.3546493351459503,
-      "eval_runtime": 1.4075,
-      "eval_samples_per_second": 39.786,
-      "eval_steps_per_second": 9.946,
       "num_input_tokens_seen": 36128,
       "step": 91
     },
@@ -281,9 +281,9 @@
     {
       "epoch": 0.784,
       "eval_loss": 0.3496828079223633,
-      "eval_runtime": 1.4395,
-      "eval_samples_per_second": 38.902,
-      "eval_steps_per_second": 9.726,
       "num_input_tokens_seen": 38592,
       "step": 98
     },
@@ -306,9 +306,9 @@
     {
       "epoch": 0.84,
       "eval_loss": 0.35384148359298706,
-      "eval_runtime": 1.4061,
-      "eval_samples_per_second": 39.827,
-      "eval_steps_per_second": 9.957,
       "num_input_tokens_seen": 41280,
       "step": 105
     },
@@ -323,9 +323,9 @@
     {
       "epoch": 0.896,
       "eval_loss": 0.3565780818462372,
-      "eval_runtime": 1.4483,
-      "eval_samples_per_second": 38.666,
-      "eval_steps_per_second": 9.666,
       "num_input_tokens_seen": 44160,
       "step": 112
     },
@@ -340,9 +340,9 @@
     {
       "epoch": 0.952,
       "eval_loss": 0.35846200585365295,
-      "eval_runtime": 1.4597,
-      "eval_samples_per_second": 38.364,
-      "eval_steps_per_second": 9.591,
       "num_input_tokens_seen": 46944,
       "step": 119
     },
@@ -368,9 +368,9 @@
       "step": 125,
       "total_flos": 2223378963628032.0,
       "train_loss": 1.100914571762085,
-      "train_runtime": 86.254,
-      "train_samples_per_second": 5.774,
-      "train_steps_per_second": 1.449
     }
   ],
   "logging_steps": 5,

     {
       "epoch": 0.056,
       "eval_loss": 6.932018280029297,
+      "eval_runtime": 1.3801,
+      "eval_samples_per_second": 40.577,
+      "eval_steps_per_second": 10.144,
       "num_input_tokens_seen": 2880,
       "step": 7
     },
     {
       "epoch": 0.112,
       "eval_loss": 1.6227623224258423,
+      "eval_runtime": 1.3899,
+      "eval_samples_per_second": 40.291,
+      "eval_steps_per_second": 10.073,
       "num_input_tokens_seen": 5920,
       "step": 14
     },
     {
       "epoch": 0.168,
       "eval_loss": 0.4040253460407257,
+      "eval_runtime": 1.3955,
+      "eval_samples_per_second": 40.129,
+      "eval_steps_per_second": 10.032,
       "num_input_tokens_seen": 8416,
       "step": 21
     },
     {
       "epoch": 0.224,
       "eval_loss": 3.618654489517212,
+      "eval_runtime": 1.3972,
+      "eval_samples_per_second": 40.08,
+      "eval_steps_per_second": 10.02,
       "num_input_tokens_seen": 11264,
       "step": 28
     },
     {
       "epoch": 0.28,
       "eval_loss": 0.36673951148986816,
+      "eval_runtime": 1.3617,
+      "eval_samples_per_second": 41.124,
+      "eval_steps_per_second": 10.281,
       "num_input_tokens_seen": 13824,
       "step": 35
     },
     {
       "epoch": 0.336,
       "eval_loss": 0.3661668598651886,
+      "eval_runtime": 1.3859,
+      "eval_samples_per_second": 40.406,
+      "eval_steps_per_second": 10.102,
       "num_input_tokens_seen": 16672,
       "step": 42
     },
     {
       "epoch": 0.392,
       "eval_loss": 0.5265085101127625,
+      "eval_runtime": 1.3679,
+      "eval_samples_per_second": 40.94,
+      "eval_steps_per_second": 10.235,
       "num_input_tokens_seen": 19296,
       "step": 49
     },
     {
       "epoch": 0.448,
       "eval_loss": 0.39251771569252014,
+      "eval_runtime": 1.381,
+      "eval_samples_per_second": 40.55,
+      "eval_steps_per_second": 10.138,
       "num_input_tokens_seen": 22432,
       "step": 56
     },
     {
       "epoch": 0.504,
       "eval_loss": 2.652535915374756,
+      "eval_runtime": 1.3855,
+      "eval_samples_per_second": 40.419,
+      "eval_steps_per_second": 10.105,
       "num_input_tokens_seen": 25504,
       "step": 63
     },
     {
       "epoch": 0.56,
       "eval_loss": 0.37763792276382446,
+      "eval_runtime": 1.3818,
+      "eval_samples_per_second": 40.527,
+      "eval_steps_per_second": 10.132,
       "num_input_tokens_seen": 28064,
       "step": 70
     },
     {
       "epoch": 0.616,
       "eval_loss": 0.36274200677871704,
+      "eval_runtime": 1.3919,
+      "eval_samples_per_second": 40.232,
+      "eval_steps_per_second": 10.058,
       "num_input_tokens_seen": 30720,
       "step": 77
     },
     {
       "epoch": 0.672,
       "eval_loss": 0.35259029269218445,
+      "eval_runtime": 1.4073,
+      "eval_samples_per_second": 39.794,
+      "eval_steps_per_second": 9.948,
       "num_input_tokens_seen": 33504,
       "step": 84
     },
     {
       "epoch": 0.728,
       "eval_loss": 0.3546493351459503,
+      "eval_runtime": 1.4289,
+      "eval_samples_per_second": 39.191,
+      "eval_steps_per_second": 9.798,
       "num_input_tokens_seen": 36128,
       "step": 91
     },
     {
       "epoch": 0.784,
       "eval_loss": 0.3496828079223633,
+      "eval_runtime": 1.4365,
+      "eval_samples_per_second": 38.985,
+      "eval_steps_per_second": 9.746,
       "num_input_tokens_seen": 38592,
       "step": 98
     },
     {
       "epoch": 0.84,
       "eval_loss": 0.35384148359298706,
+      "eval_runtime": 1.4278,
+      "eval_samples_per_second": 39.222,
+      "eval_steps_per_second": 9.806,
       "num_input_tokens_seen": 41280,
       "step": 105
     },
     {
       "epoch": 0.896,
       "eval_loss": 0.3565780818462372,
+      "eval_runtime": 1.4257,
+      "eval_samples_per_second": 39.28,
+      "eval_steps_per_second": 9.82,
       "num_input_tokens_seen": 44160,
       "step": 112
     },
     {
       "epoch": 0.952,
       "eval_loss": 0.35846200585365295,
+      "eval_runtime": 1.4469,
+      "eval_samples_per_second": 38.704,
+      "eval_steps_per_second": 9.676,
       "num_input_tokens_seen": 46944,
       "step": 119
     },
       "step": 125,
       "total_flos": 2223378963628032.0,
       "train_loss": 1.100914571762085,
+      "train_runtime": 75.0364,
+      "train_samples_per_second": 6.637,
+      "train_steps_per_second": 1.666
     }
   ],
   "logging_steps": 5,