End of training

Browse files

Files changed (4) hide show

all_results.json +13 -13
eval_results.json +7 -7
train_results.json +7 -7
trainer_state.json +81 -49

all_results.json CHANGED Viewed

@@ -1,15 +1,15 @@
 {
-    "epoch": 3.0,
-    "eval_f1": 0.8045510528812365,
-    "eval_loss": 0.6810711622238159,
-    "eval_runtime": 1951.2993,
-    "eval_samples": 12908,
-    "eval_samples_per_second": 6.615,
-    "eval_steps_per_second": 0.207,
-    "total_flos": 2.377533515518771e+16,
-    "train_loss": 0.9083002715438119,
-    "train_runtime": 52770.4686,
-    "train_samples": 30117,
-    "train_samples_per_second": 1.712,
-    "train_steps_per_second": 0.054
 }

 {
+    "epoch": 5.0,
+    "eval_f1": 0.7979962127908091,
+    "eval_loss": 0.7055376768112183,
+    "eval_runtime": 10.4046,
+    "eval_samples": 8605,
+    "eval_samples_per_second": 827.037,
+    "eval_steps_per_second": 12.975,
+    "total_flos": 4.52871045169152e+16,
+    "train_loss": 0.9906343055923632,
+    "train_runtime": 639.5262,
+    "train_samples": 34420,
+    "train_samples_per_second": 269.105,
+    "train_steps_per_second": 4.206
 }

eval_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 3.0,
-    "eval_f1": 0.8045510528812365,
-    "eval_loss": 0.6810711622238159,
-    "eval_runtime": 1951.2993,
-    "eval_samples": 12908,
-    "eval_samples_per_second": 6.615,
-    "eval_steps_per_second": 0.207
 }

 {
+    "epoch": 5.0,
+    "eval_f1": 0.7979962127908091,
+    "eval_loss": 0.7055376768112183,
+    "eval_runtime": 10.4046,
+    "eval_samples": 8605,
+    "eval_samples_per_second": 827.037,
+    "eval_steps_per_second": 12.975
 }

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 3.0,
-    "total_flos": 2.377533515518771e+16,
-    "train_loss": 0.9083002715438119,
-    "train_runtime": 52770.4686,
-    "train_samples": 30117,
-    "train_samples_per_second": 1.712,
-    "train_steps_per_second": 0.054
 }

 {
+    "epoch": 5.0,
+    "total_flos": 4.52871045169152e+16,
+    "train_loss": 0.9906343055923632,
+    "train_runtime": 639.5262,
+    "train_samples": 34420,
+    "train_samples_per_second": 269.105,
+    "train_steps_per_second": 4.206
 }

trainer_state.json CHANGED Viewed

@@ -1,75 +1,107 @@
 {
-  "best_metric": null,
-  "best_model_checkpoint": null,
-  "epoch": 3.0,
-  "eval_steps": 300.0,
-  "global_step": 2826,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 1.0,
-      "grad_norm": 15.699420928955078,
-      "learning_rate": 1.6927223719676552e-05,
-      "loss": 1.5106,
-      "step": 942
     },
     {
       "epoch": 1.0,
-      "eval_f1": 0.7668134917297256,
-      "eval_loss": 0.8142930269241333,
-      "eval_runtime": 1955.7939,
-      "eval_samples_per_second": 6.6,
-      "eval_steps_per_second": 0.207,
-      "step": 942
     },
     {
-      "epoch": 2.0,
-      "grad_norm": 4.08961820602417,
-      "learning_rate": 8.463611859838276e-06,
-      "loss": 0.7033,
-      "step": 1884
     },
     {
       "epoch": 2.0,
-      "eval_f1": 0.7984619452840845,
-      "eval_loss": 0.6980345845222473,
-      "eval_runtime": 1952.7483,
-      "eval_samples_per_second": 6.61,
-      "eval_steps_per_second": 0.207,
-      "step": 1884
     },
     {
-      "epoch": 3.0,
-      "grad_norm": 25.8586483001709,
-      "learning_rate": 0.0,
-      "loss": 0.511,
-      "step": 2826
     },
     {
       "epoch": 3.0,
-      "eval_f1": 0.8045510528812365,
-      "eval_loss": 0.6810711622238159,
-      "eval_runtime": 1950.0401,
-      "eval_samples_per_second": 6.619,
-      "eval_steps_per_second": 0.207,
-      "step": 2826
     },
     {
-      "epoch": 3.0,
-      "step": 2826,
-      "total_flos": 2.377533515518771e+16,
-      "train_loss": 0.9083002715438119,
-      "train_runtime": 52770.4686,
-      "train_samples_per_second": 1.712,
-      "train_steps_per_second": 0.054
     }
   ],
   "logging_steps": 500,
-  "max_steps": 2826,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 3,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -83,8 +115,8 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.377533515518771e+16,
-  "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.7055376768112183,
+  "best_model_checkpoint": "./bert-sdg-classification/checkpoint-2690",
+  "epoch": 5.0,
+  "eval_steps": 500,
+  "global_step": 2690,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.929368029739777,
+      "grad_norm": 6.427302360534668,
+      "learning_rate": 8.3e-06,
+      "loss": 2.2299,
+      "step": 500
     },
     {
       "epoch": 1.0,
+      "eval_f1": 0.711832686368243,
+      "eval_loss": 1.0520464181900024,
+      "eval_runtime": 10.5177,
+      "eval_samples_per_second": 818.142,
+      "eval_steps_per_second": 12.835,
+      "step": 538
     },
     {
+      "epoch": 1.858736059479554,
+      "grad_norm": 4.113575458526611,
+      "learning_rate": 8.095693779904307e-06,
+      "loss": 0.9383,
+      "step": 1000
     },
     {
       "epoch": 2.0,
+      "eval_f1": 0.7794402559050377,
+      "eval_loss": 0.7799968719482422,
+      "eval_runtime": 10.5039,
+      "eval_samples_per_second": 819.222,
+      "eval_steps_per_second": 12.852,
+      "step": 1076
     },
     {
+      "epoch": 2.7881040892193307,
+      "grad_norm": 6.160844802856445,
+      "learning_rate": 5.70334928229665e-06,
+      "loss": 0.7379,
+      "step": 1500
     },
     {
       "epoch": 3.0,
+      "eval_f1": 0.794722683984857,
+      "eval_loss": 0.7253227233886719,
+      "eval_runtime": 10.4924,
+      "eval_samples_per_second": 820.119,
+      "eval_steps_per_second": 12.866,
+      "step": 1614
     },
     {
+      "epoch": 3.717472118959108,
+      "grad_norm": 6.640861511230469,
+      "learning_rate": 3.3110047846889954e-06,
+      "loss": 0.6362,
+      "step": 2000
+    },
+    {
+      "epoch": 4.0,
+      "eval_f1": 0.7964522651875893,
+      "eval_loss": 0.7107406854629517,
+      "eval_runtime": 10.5173,
+      "eval_samples_per_second": 818.179,
+      "eval_steps_per_second": 12.836,
+      "step": 2152
+    },
+    {
+      "epoch": 4.646840148698884,
+      "grad_norm": 5.86486291885376,
+      "learning_rate": 9.186602870813398e-07,
+      "loss": 0.5779,
+      "step": 2500
+    },
+    {
+      "epoch": 5.0,
+      "eval_f1": 0.7979962127908091,
+      "eval_loss": 0.7055376768112183,
+      "eval_runtime": 10.5314,
+      "eval_samples_per_second": 817.079,
+      "eval_steps_per_second": 12.819,
+      "step": 2690
+    },
+    {
+      "epoch": 5.0,
+      "step": 2690,
+      "total_flos": 4.52871045169152e+16,
+      "train_loss": 0.9906343055923632,
+      "train_runtime": 639.5262,
+      "train_samples_per_second": 269.105,
+      "train_steps_per_second": 4.206
     }
   ],
   "logging_steps": 500,
+  "max_steps": 2690,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 4.52871045169152e+16,
+  "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null
 }