End of training

Files changed (5) hide show

all_results.json CHANGED Viewed

@@ -1,11 +1,11 @@
 {
     "epoch": 3.0,
-    "eval_loss": 1.7853715419769287,
-    "eval_runtime": 235.5715,
-    "eval_samples_per_second": 84.9,
-    "eval_steps_per_second": 1.77,
-    "train_loss": 1.92795908203125,
-    "train_runtime": 4801.8714,
-    "train_samples_per_second": 37.485,
-    "train_steps_per_second": 0.781
 }

 {
     "epoch": 3.0,
+    "eval_loss": 1.8828033208847046,
+    "eval_runtime": 235.0465,
+    "eval_samples_per_second": 85.09,
+    "eval_steps_per_second": 1.774,
+    "train_loss": 0.6835632873535156,
+    "train_runtime": 4876.546,
+    "train_samples_per_second": 36.911,
+    "train_steps_per_second": 0.769
 }

eval_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
     "epoch": 3.0,
-    "eval_loss": 1.7853715419769287,
-    "eval_runtime": 235.5715,
-    "eval_samples_per_second": 84.9,
-    "eval_steps_per_second": 1.77
 }

 {
     "epoch": 3.0,
+    "eval_loss": 1.8828033208847046,
+    "eval_runtime": 235.0465,
+    "eval_samples_per_second": 85.09,
+    "eval_steps_per_second": 1.774
 }

runs/Jul30_18-18-45_cvrl-flynn-ws2/events.out.tfevents.1690760766.cvrl-flynn-ws2.31103.1 ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:787c5ac8e31918ee73c802335dacf9877d12a32518006bbe42a4c5dd5e23eddf
+size 359

train_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
     "epoch": 3.0,
-    "train_loss": 1.92795908203125,
-    "train_runtime": 4801.8714,
-    "train_samples_per_second": 37.485,
-    "train_steps_per_second": 0.781
 }

 {
     "epoch": 3.0,
+    "train_loss": 0.6835632873535156,
+    "train_runtime": 4876.546,
+    "train_samples_per_second": 36.911,
+    "train_steps_per_second": 0.769
 }

trainer_state.json CHANGED Viewed

@@ -10,53 +10,53 @@
     {
       "epoch": 0.4,
       "learning_rate": 4.3333333333333334e-05,
-      "loss": 3.4742,
       "step": 500
     },
     {
       "epoch": 0.8,
       "learning_rate": 3.6666666666666666e-05,
-      "loss": 2.8398,
       "step": 1000
     },
     {
       "epoch": 1.2,
       "learning_rate": 3e-05,
-      "loss": 2.238,
       "step": 1500
     },
     {
       "epoch": 1.6,
       "learning_rate": 2.3333333333333336e-05,
-      "loss": 1.8677,
       "step": 2000
     },
     {
       "epoch": 2.0,
       "learning_rate": 1.6666666666666667e-05,
-      "loss": 1.7004,
       "step": 2500
     },
     {
       "epoch": 2.4,
       "learning_rate": 1e-05,
-      "loss": 1.0004,
       "step": 3000
     },
     {
       "epoch": 2.8,
       "learning_rate": 3.3333333333333333e-06,
-      "loss": 0.9108,
       "step": 3500
     },
     {
       "epoch": 3.0,
       "step": 3750,
       "total_flos": 2.40331104e+16,
-      "train_loss": 1.92795908203125,
-      "train_runtime": 4801.8714,
-      "train_samples_per_second": 37.485,
-      "train_steps_per_second": 0.781
     }
   ],
   "max_steps": 3750,

     {
       "epoch": 0.4,
       "learning_rate": 4.3333333333333334e-05,
+      "loss": 1.2685,
       "step": 500
     },
     {
       "epoch": 0.8,
       "learning_rate": 3.6666666666666666e-05,
+      "loss": 1.1982,
       "step": 1000
     },
     {
       "epoch": 1.2,
       "learning_rate": 3e-05,
+      "loss": 0.8293,
       "step": 1500
     },
     {
       "epoch": 1.6,
       "learning_rate": 2.3333333333333336e-05,
+      "loss": 0.5996,
       "step": 2000
     },
     {
       "epoch": 2.0,
       "learning_rate": 1.6666666666666667e-05,
+      "loss": 0.5457,
       "step": 2500
     },
     {
       "epoch": 2.4,
       "learning_rate": 1e-05,
+      "loss": 0.2705,
       "step": 3000
     },
     {
       "epoch": 2.8,
       "learning_rate": 3.3333333333333333e-06,
+      "loss": 0.2712,
       "step": 3500
     },
     {
       "epoch": 3.0,
       "step": 3750,
       "total_flos": 2.40331104e+16,
+      "train_loss": 0.6835632873535156,
+      "train_runtime": 4876.546,
+      "train_samples_per_second": 36.911,
+      "train_steps_per_second": 0.769
     }
   ],
   "max_steps": 3750,