End of training

Browse files

Files changed (5) hide show

README.md +3 -3
all_results.json +6 -6
eval_results.json +3 -3
train_results.json +3 -3
trainer_state.json +54 -54

README.md CHANGED Viewed

@@ -17,10 +17,10 @@ should probably proofread and complete it, then remove this comment. -->
 # test
-This model is a fine-tuned version of [meta-llama/Llama-3.2-1B-Instruct](https://huggingface.co/meta-llama/Llama-3.2-1B-Instruct) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.3492
-- Num Input Tokens Seen: 46944
 ## Model description

 # test
+This model is a fine-tuned version of [meta-llama/Llama-3.2-1B-Instruct](https://huggingface.co/meta-llama/Llama-3.2-1B-Instruct) on the wsc dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.3459
+- Num Input Tokens Seen: 49376
 ## Model description

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
     "epoch": 1.0,
     "eval_loss": 0.34589245915412903,
-    "eval_runtime": 0.8481,
-    "eval_samples_per_second": 66.033,
-    "eval_steps_per_second": 16.508,
     "num_input_tokens_seen": 49376,
     "total_flos": 497127920369664.0,
     "train_loss": 1.1438678817749024,
-    "train_runtime": 264.1495,
-    "train_samples_per_second": 1.885,
-    "train_steps_per_second": 0.473
 }

 {
     "epoch": 1.0,
     "eval_loss": 0.34589245915412903,
+    "eval_runtime": 0.7925,
+    "eval_samples_per_second": 70.661,
+    "eval_steps_per_second": 17.665,
     "num_input_tokens_seen": 49376,
     "total_flos": 497127920369664.0,
     "train_loss": 1.1438678817749024,
+    "train_runtime": 224.169,
+    "train_samples_per_second": 2.222,
+    "train_steps_per_second": 0.558
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 1.0,
     "eval_loss": 0.34589245915412903,
-    "eval_runtime": 0.8481,
-    "eval_samples_per_second": 66.033,
-    "eval_steps_per_second": 16.508,
     "num_input_tokens_seen": 49376
 }

 {
     "epoch": 1.0,
     "eval_loss": 0.34589245915412903,
+    "eval_runtime": 0.7925,
+    "eval_samples_per_second": 70.661,
+    "eval_steps_per_second": 17.665,
     "num_input_tokens_seen": 49376
 }

train_results.json CHANGED Viewed

@@ -3,7 +3,7 @@
     "num_input_tokens_seen": 49376,
     "total_flos": 497127920369664.0,
     "train_loss": 1.1438678817749024,
-    "train_runtime": 264.1495,
-    "train_samples_per_second": 1.885,
-    "train_steps_per_second": 0.473
 }

     "num_input_tokens_seen": 49376,
     "total_flos": 497127920369664.0,
     "train_loss": 1.1438678817749024,
+    "train_runtime": 224.169,
+    "train_samples_per_second": 2.222,
+    "train_steps_per_second": 0.558
 }

trainer_state.json CHANGED Viewed

@@ -20,9 +20,9 @@
     {
       "epoch": 0.056,
       "eval_loss": 6.5227251052856445,
-      "eval_runtime": 0.7016,
-      "eval_samples_per_second": 79.812,
-      "eval_steps_per_second": 19.953,
       "num_input_tokens_seen": 2880,
       "step": 7
     },
@@ -37,9 +37,9 @@
     {
       "epoch": 0.112,
       "eval_loss": 1.382468581199646,
-      "eval_runtime": 0.7422,
-      "eval_samples_per_second": 75.454,
-      "eval_steps_per_second": 18.864,
       "num_input_tokens_seen": 5920,
       "step": 14
     },
@@ -62,9 +62,9 @@
     {
       "epoch": 0.168,
       "eval_loss": 0.4987373352050781,
-      "eval_runtime": 0.7195,
-      "eval_samples_per_second": 77.827,
-      "eval_steps_per_second": 19.457,
       "num_input_tokens_seen": 8416,
       "step": 21
     },
@@ -79,9 +79,9 @@
     {
       "epoch": 0.224,
       "eval_loss": 0.4531269073486328,
-      "eval_runtime": 0.7843,
-      "eval_samples_per_second": 71.406,
-      "eval_steps_per_second": 17.851,
       "num_input_tokens_seen": 11264,
       "step": 28
     },
@@ -104,9 +104,9 @@
     {
       "epoch": 0.28,
       "eval_loss": 0.36931881308555603,
-      "eval_runtime": 0.8719,
-      "eval_samples_per_second": 64.225,
-      "eval_steps_per_second": 16.056,
       "num_input_tokens_seen": 13824,
       "step": 35
     },
@@ -121,9 +121,9 @@
     {
       "epoch": 0.336,
       "eval_loss": 0.3872639238834381,
-      "eval_runtime": 0.7387,
-      "eval_samples_per_second": 75.812,
-      "eval_steps_per_second": 18.953,
       "num_input_tokens_seen": 16672,
       "step": 42
     },
@@ -138,9 +138,9 @@
     {
       "epoch": 0.392,
       "eval_loss": 0.3777945637702942,
-      "eval_runtime": 0.7665,
-      "eval_samples_per_second": 73.06,
-      "eval_steps_per_second": 18.265,
       "num_input_tokens_seen": 19296,
       "step": 49
     },
@@ -163,9 +163,9 @@
     {
       "epoch": 0.448,
       "eval_loss": 0.4436803460121155,
-      "eval_runtime": 0.7702,
-      "eval_samples_per_second": 72.71,
-      "eval_steps_per_second": 18.178,
       "num_input_tokens_seen": 22432,
       "step": 56
     },
@@ -180,9 +180,9 @@
     {
       "epoch": 0.504,
       "eval_loss": 0.35032057762145996,
-      "eval_runtime": 0.9256,
-      "eval_samples_per_second": 60.502,
-      "eval_steps_per_second": 15.125,
       "num_input_tokens_seen": 25504,
       "step": 63
     },
@@ -205,9 +205,9 @@
     {
       "epoch": 0.56,
       "eval_loss": 0.37164703011512756,
-      "eval_runtime": 0.816,
-      "eval_samples_per_second": 68.627,
-      "eval_steps_per_second": 17.157,
       "num_input_tokens_seen": 28064,
       "step": 70
     },
@@ -222,9 +222,9 @@
     {
       "epoch": 0.616,
       "eval_loss": 0.3748786747455597,
-      "eval_runtime": 0.7992,
-      "eval_samples_per_second": 70.066,
-      "eval_steps_per_second": 17.516,
       "num_input_tokens_seen": 30720,
       "step": 77
     },
@@ -239,9 +239,9 @@
     {
       "epoch": 0.672,
       "eval_loss": 0.3603578209877014,
-      "eval_runtime": 0.7982,
-      "eval_samples_per_second": 70.16,
-      "eval_steps_per_second": 17.54,
       "num_input_tokens_seen": 33504,
       "step": 84
     },
@@ -264,9 +264,9 @@
     {
       "epoch": 0.728,
       "eval_loss": 0.35710158944129944,
-      "eval_runtime": 0.8602,
-      "eval_samples_per_second": 65.102,
-      "eval_steps_per_second": 16.276,
       "num_input_tokens_seen": 36128,
       "step": 91
     },
@@ -281,9 +281,9 @@
     {
       "epoch": 0.784,
       "eval_loss": 0.3520326614379883,
-      "eval_runtime": 0.7911,
-      "eval_samples_per_second": 70.792,
-      "eval_steps_per_second": 17.698,
       "num_input_tokens_seen": 38592,
       "step": 98
     },
@@ -306,9 +306,9 @@
     {
       "epoch": 0.84,
       "eval_loss": 0.34758228063583374,
-      "eval_runtime": 0.8072,
-      "eval_samples_per_second": 69.373,
-      "eval_steps_per_second": 17.343,
       "num_input_tokens_seen": 41280,
       "step": 105
     },
@@ -323,9 +323,9 @@
     {
       "epoch": 0.896,
       "eval_loss": 0.34589245915412903,
-      "eval_runtime": 0.822,
-      "eval_samples_per_second": 68.123,
-      "eval_steps_per_second": 17.031,
       "num_input_tokens_seen": 44160,
       "step": 112
     },
@@ -340,9 +340,9 @@
     {
       "epoch": 0.952,
       "eval_loss": 0.3492301404476166,
-      "eval_runtime": 0.8757,
-      "eval_samples_per_second": 63.945,
-      "eval_steps_per_second": 15.986,
       "num_input_tokens_seen": 46944,
       "step": 119
     },
@@ -368,9 +368,9 @@
       "step": 125,
       "total_flos": 497127920369664.0,
       "train_loss": 1.1438678817749024,
-      "train_runtime": 264.1495,
-      "train_samples_per_second": 1.885,
-      "train_steps_per_second": 0.473
     }
   ],
   "logging_steps": 5,

     {
       "epoch": 0.056,
       "eval_loss": 6.5227251052856445,
+      "eval_runtime": 0.703,
+      "eval_samples_per_second": 79.659,
+      "eval_steps_per_second": 19.915,
       "num_input_tokens_seen": 2880,
       "step": 7
     },
     {
       "epoch": 0.112,
       "eval_loss": 1.382468581199646,
+      "eval_runtime": 0.7137,
+      "eval_samples_per_second": 78.462,
+      "eval_steps_per_second": 19.616,
       "num_input_tokens_seen": 5920,
       "step": 14
     },
     {
       "epoch": 0.168,
       "eval_loss": 0.4987373352050781,
+      "eval_runtime": 0.5096,
+      "eval_samples_per_second": 109.892,
+      "eval_steps_per_second": 27.473,
       "num_input_tokens_seen": 8416,
       "step": 21
     },
     {
       "epoch": 0.224,
       "eval_loss": 0.4531269073486328,
+      "eval_runtime": 0.5083,
+      "eval_samples_per_second": 110.162,
+      "eval_steps_per_second": 27.54,
       "num_input_tokens_seen": 11264,
       "step": 28
     },
     {
       "epoch": 0.28,
       "eval_loss": 0.36931881308555603,
+      "eval_runtime": 0.7118,
+      "eval_samples_per_second": 78.679,
+      "eval_steps_per_second": 19.67,
       "num_input_tokens_seen": 13824,
       "step": 35
     },
     {
       "epoch": 0.336,
       "eval_loss": 0.3872639238834381,
+      "eval_runtime": 0.7546,
+      "eval_samples_per_second": 74.213,
+      "eval_steps_per_second": 18.553,
       "num_input_tokens_seen": 16672,
       "step": 42
     },
     {
       "epoch": 0.392,
       "eval_loss": 0.3777945637702942,
+      "eval_runtime": 0.7935,
+      "eval_samples_per_second": 70.573,
+      "eval_steps_per_second": 17.643,
       "num_input_tokens_seen": 19296,
       "step": 49
     },
     {
       "epoch": 0.448,
       "eval_loss": 0.4436803460121155,
+      "eval_runtime": 0.7397,
+      "eval_samples_per_second": 75.71,
+      "eval_steps_per_second": 18.927,
       "num_input_tokens_seen": 22432,
       "step": 56
     },
     {
       "epoch": 0.504,
       "eval_loss": 0.35032057762145996,
+      "eval_runtime": 0.7463,
+      "eval_samples_per_second": 75.04,
+      "eval_steps_per_second": 18.76,
       "num_input_tokens_seen": 25504,
       "step": 63
     },
     {
       "epoch": 0.56,
       "eval_loss": 0.37164703011512756,
+      "eval_runtime": 0.7524,
+      "eval_samples_per_second": 74.427,
+      "eval_steps_per_second": 18.607,
       "num_input_tokens_seen": 28064,
       "step": 70
     },
     {
       "epoch": 0.616,
       "eval_loss": 0.3748786747455597,
+      "eval_runtime": 0.6694,
+      "eval_samples_per_second": 83.657,
+      "eval_steps_per_second": 20.914,
       "num_input_tokens_seen": 30720,
       "step": 77
     },
     {
       "epoch": 0.672,
       "eval_loss": 0.3603578209877014,
+      "eval_runtime": 0.7578,
+      "eval_samples_per_second": 73.897,
+      "eval_steps_per_second": 18.474,
       "num_input_tokens_seen": 33504,
       "step": 84
     },
     {
       "epoch": 0.728,
       "eval_loss": 0.35710158944129944,
+      "eval_runtime": 0.5883,
+      "eval_samples_per_second": 95.185,
+      "eval_steps_per_second": 23.796,
       "num_input_tokens_seen": 36128,
       "step": 91
     },
     {
       "epoch": 0.784,
       "eval_loss": 0.3520326614379883,
+      "eval_runtime": 0.8055,
+      "eval_samples_per_second": 69.518,
+      "eval_steps_per_second": 17.38,
       "num_input_tokens_seen": 38592,
       "step": 98
     },
     {
       "epoch": 0.84,
       "eval_loss": 0.34758228063583374,
+      "eval_runtime": 0.7519,
+      "eval_samples_per_second": 74.483,
+      "eval_steps_per_second": 18.621,
       "num_input_tokens_seen": 41280,
       "step": 105
     },
     {
       "epoch": 0.896,
       "eval_loss": 0.34589245915412903,
+      "eval_runtime": 0.7431,
+      "eval_samples_per_second": 75.359,
+      "eval_steps_per_second": 18.84,
       "num_input_tokens_seen": 44160,
       "step": 112
     },
     {
       "epoch": 0.952,
       "eval_loss": 0.3492301404476166,
+      "eval_runtime": 0.7889,
+      "eval_samples_per_second": 70.986,
+      "eval_steps_per_second": 17.747,
       "num_input_tokens_seen": 46944,
       "step": 119
     },
       "step": 125,
       "total_flos": 497127920369664.0,
       "train_loss": 1.1438678817749024,
+      "train_runtime": 224.169,
+      "train_samples_per_second": 2.222,
+      "train_steps_per_second": 0.558
     }
   ],
   "logging_steps": 5,