End of training

Files changed (7) hide show

all_results.json CHANGED Viewed

@@ -1,16 +1,16 @@
 {
     "epoch": 2.0,
     "eval_loss": 0.051597148180007935,
-    "eval_runtime": 3.1643,
-    "eval_samples_per_second": 1.264,
-    "eval_steps_per_second": 0.316,
     "test_loss": 1.4216160774230957,
-    "test_runtime": 2.9307,
-    "test_samples_per_second": 1.365,
-    "test_steps_per_second": 0.341,
     "total_flos": 1163339959320.0,
     "train_loss": 0.13540960324462503,
-    "train_runtime": 98.8611,
-    "train_samples_per_second": 0.202,
-    "train_steps_per_second": 0.02
 }

 {
     "epoch": 2.0,
     "eval_loss": 0.051597148180007935,
+    "eval_runtime": 3.1317,
+    "eval_samples_per_second": 1.277,
+    "eval_steps_per_second": 0.319,
     "test_loss": 1.4216160774230957,
+    "test_runtime": 3.3956,
+    "test_samples_per_second": 1.178,
+    "test_steps_per_second": 0.294,
     "total_flos": 1163339959320.0,
     "train_loss": 0.13540960324462503,
+    "train_runtime": 108.0249,
+    "train_samples_per_second": 0.185,
+    "train_steps_per_second": 0.019
 }

eval_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
     "epoch": 2.0,
     "eval_loss": 0.051597148180007935,
-    "eval_runtime": 3.1643,
-    "eval_samples_per_second": 1.264,
-    "eval_steps_per_second": 0.316
 }

 {
     "epoch": 2.0,
     "eval_loss": 0.051597148180007935,
+    "eval_runtime": 3.1317,
+    "eval_samples_per_second": 1.277,
+    "eval_steps_per_second": 0.319
 }

runs/May08_20-26-36_2e4200763c33/events.out.tfevents.1715200240.2e4200763c33.31644.1 ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:cecc843cc6a203859c78f88bbad3b1f802cad2cfeb13be7676ee859054950e2e
+size 354

test_results.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
     "test_loss": 1.4216160774230957,
-    "test_runtime": 2.9307,
-    "test_samples_per_second": 1.365,
-    "test_steps_per_second": 0.341
 }

 {
     "test_loss": 1.4216160774230957,
+    "test_runtime": 3.3956,
+    "test_samples_per_second": 1.178,
+    "test_steps_per_second": 0.294
 }

tokenizer.json CHANGED Viewed

@@ -7,9 +7,7 @@
     "stride": 0
   },
   "padding": {
-    "strategy": {
-      "Fixed": 77
-    },
     "direction": "Right",
     "pad_to_multiple_of": null,
     "pad_id": 49407,

     "stride": 0
   },
   "padding": {
+    "strategy": "BatchLongest",
     "direction": "Right",
     "pad_to_multiple_of": null,
     "pad_id": 49407,

train_results.json CHANGED Viewed

@@ -2,7 +2,7 @@
     "epoch": 2.0,
     "total_flos": 1163339959320.0,
     "train_loss": 0.13540960324462503,
-    "train_runtime": 98.8611,
-    "train_samples_per_second": 0.202,
-    "train_steps_per_second": 0.02
 }

     "epoch": 2.0,
     "total_flos": 1163339959320.0,
     "train_loss": 0.13540960324462503,
+    "train_runtime": 108.0249,
+    "train_samples_per_second": 0.185,
+    "train_steps_per_second": 0.019
 }

trainer_state.json CHANGED Viewed

@@ -18,9 +18,9 @@
     {
       "epoch": 1.0,
       "eval_loss": 0.00024110873346216977,
-      "eval_runtime": 2.8556,
-      "eval_samples_per_second": 1.401,
-      "eval_steps_per_second": 0.35,
       "step": 1
     },
     {
@@ -33,9 +33,9 @@
     {
       "epoch": 2.0,
       "eval_loss": 0.051597148180007935,
-      "eval_runtime": 1.127,
-      "eval_samples_per_second": 3.549,
-      "eval_steps_per_second": 0.887,
       "step": 2
     },
     {
@@ -43,9 +43,9 @@
       "step": 2,
       "total_flos": 1163339959320.0,
       "train_loss": 0.13540960324462503,
-      "train_runtime": 98.8611,
-      "train_samples_per_second": 0.202,
-      "train_steps_per_second": 0.02
     }
   ],
   "logging_steps": 1.0,

     {
       "epoch": 1.0,
       "eval_loss": 0.00024110873346216977,
+      "eval_runtime": 6.3219,
+      "eval_samples_per_second": 0.633,
+      "eval_steps_per_second": 0.158,
       "step": 1
     },
     {
     {
       "epoch": 2.0,
       "eval_loss": 0.051597148180007935,
+      "eval_runtime": 1.1315,
+      "eval_samples_per_second": 3.535,
+      "eval_steps_per_second": 0.884,
       "step": 2
     },
     {
       "step": 2,
       "total_flos": 1163339959320.0,
       "train_loss": 0.13540960324462503,
+      "train_runtime": 108.0249,
+      "train_samples_per_second": 0.185,
+      "train_steps_per_second": 0.019
     }
   ],
   "logging_steps": 1.0,