albertmartinez
/

distilbert-multilingual-sdg-classification

@@ -1,15 +1,15 @@
 {
-    "epoch": 3.0,
-    "eval_f1": 0.7620787815331507,
-    "eval_loss": 0.8311654329299927,
-    "eval_runtime": 1221.0092,
-    "eval_samples": 12908,
-    "eval_samples_per_second": 10.572,
-    "eval_steps_per_second": 1.322,
-    "total_flos": 1.1971550128324608e+16,
-    "train_loss": 1.1780135147299904,
-    "train_runtime": 24677.7647,
-    "train_samples": 30117,
-    "train_samples_per_second": 3.661,
-    "train_steps_per_second": 0.115
 }

 {
+    "epoch": 5.0,
+    "eval_f1": 0.7954325175529264,
+    "eval_loss": 0.734076738357544,
+    "eval_runtime": 677.1647,
+    "eval_samples": 8605,
+    "eval_samples_per_second": 12.707,
+    "eval_steps_per_second": 0.397,
+    "total_flos": 2.28033311981568e+16,
+    "train_loss": 0.7531972722049982,
+    "train_runtime": 49725.5381,
+    "train_samples": 34420,
+    "train_samples_per_second": 3.461,
+    "train_steps_per_second": 0.108
 }

eval_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 3.0,
-    "eval_f1": 0.7620787815331507,
-    "eval_loss": 0.8311654329299927,
-    "eval_runtime": 1221.0092,
-    "eval_samples": 12908,
-    "eval_samples_per_second": 10.572,
-    "eval_steps_per_second": 1.322
 }

 {
+    "epoch": 5.0,
+    "eval_f1": 0.7954325175529264,
+    "eval_loss": 0.734076738357544,
+    "eval_runtime": 677.1647,
+    "eval_samples": 8605,
+    "eval_samples_per_second": 12.707,
+    "eval_steps_per_second": 0.397
 }

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 3.0,
-    "total_flos": 1.1971550128324608e+16,
-    "train_loss": 1.1780135147299904,
-    "train_runtime": 24677.7647,
-    "train_samples": 30117,
-    "train_samples_per_second": 3.661,
-    "train_steps_per_second": 0.115
 }

 {
+    "epoch": 5.0,
+    "total_flos": 2.28033311981568e+16,
+    "train_loss": 0.7531972722049982,
+    "train_runtime": 49725.5381,
+    "train_samples": 34420,
+    "train_samples_per_second": 3.461,
+    "train_steps_per_second": 0.108
 }

trainer_state.json CHANGED Viewed

@@ -1,62 +1,107 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 3.0,
-  "eval_steps": 500,
-  "global_step": 2826,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.5307855626326964,
-      "grad_norm": 7.908592224121094,
-      "learning_rate": 8.333333333333334e-06,
-      "loss": 2.288,
-      "step": 500
     },
     {
-      "epoch": 1.0615711252653928,
-      "grad_norm": 9.661299705505371,
-      "learning_rate": 8.203054806828391e-06,
-      "loss": 1.1887,
-      "step": 1000
     },
     {
-      "epoch": 1.5923566878980893,
-      "grad_norm": 6.738057613372803,
-      "learning_rate": 5.9568733153638815e-06,
-      "loss": 0.9571,
-      "step": 1500
     },
     {
-      "epoch": 2.1231422505307855,
-      "grad_norm": 8.572662353515625,
-      "learning_rate": 3.710691823899371e-06,
-      "loss": 0.8923,
-      "step": 2000
     },
     {
-      "epoch": 2.653927813163482,
-      "grad_norm": 7.6663737297058105,
-      "learning_rate": 1.464510332434861e-06,
-      "loss": 0.8164,
-      "step": 2500
     },
     {
       "epoch": 3.0,
-      "step": 2826,
-      "total_flos": 1.1971550128324608e+16,
-      "train_loss": 1.1780135147299904,
-      "train_runtime": 24677.7647,
-      "train_samples_per_second": 3.661,
-      "train_steps_per_second": 0.115
     }
   ],
   "logging_steps": 500,
-  "max_steps": 2826,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 3,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -70,7 +115,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.1971550128324608e+16,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 5.0,
+  "eval_steps": 500.0,
+  "global_step": 5380,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 1.0,
+      "grad_norm": 10.252312660217285,
+      "learning_rate": 1.8008368200836822e-05,
+      "loss": 1.484,
+      "step": 1076
     },
     {
+      "epoch": 1.0,
+      "eval_f1": 0.7462822532277763,
+      "eval_loss": 0.8799635171890259,
+      "eval_runtime": 683.415,
+      "eval_samples_per_second": 12.591,
+      "eval_steps_per_second": 0.394,
+      "step": 1076
     },
     {
+      "epoch": 2.0,
+      "grad_norm": 11.723691940307617,
+      "learning_rate": 1.3506276150627616e-05,
+      "loss": 0.7957,
+      "step": 2152
     },
     {
+      "epoch": 2.0,
+      "eval_f1": 0.773518075222442,
+      "eval_loss": 0.7795748710632324,
+      "eval_runtime": 678.1252,
+      "eval_samples_per_second": 12.689,
+      "eval_steps_per_second": 0.397,
+      "step": 2152
     },
     {
+      "epoch": 3.0,
+      "grad_norm": 9.515564918518066,
+      "learning_rate": 9.004184100418411e-06,
+      "loss": 0.612,
+      "step": 3228
     },
     {
       "epoch": 3.0,
+      "eval_f1": 0.790370571641359,
+      "eval_loss": 0.7352398037910461,
+      "eval_runtime": 672.8155,
+      "eval_samples_per_second": 12.79,
+      "eval_steps_per_second": 0.4,
+      "step": 3228
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 22.87370491027832,
+      "learning_rate": 4.5020920502092055e-06,
+      "loss": 0.4784,
+      "step": 4304
+    },
+    {
+      "epoch": 4.0,
+      "eval_f1": 0.7948184348707309,
+      "eval_loss": 0.7243198156356812,
+      "eval_runtime": 678.247,
+      "eval_samples_per_second": 12.687,
+      "eval_steps_per_second": 0.397,
+      "step": 4304
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 5.2252960205078125,
+      "learning_rate": 0.0,
+      "loss": 0.3959,
+      "step": 5380
+    },
+    {
+      "epoch": 5.0,
+      "eval_f1": 0.7954325175529264,
+      "eval_loss": 0.734076738357544,
+      "eval_runtime": 676.4727,
+      "eval_samples_per_second": 12.72,
+      "eval_steps_per_second": 0.398,
+      "step": 5380
+    },
+    {
+      "epoch": 5.0,
+      "step": 5380,
+      "total_flos": 2.28033311981568e+16,
+      "train_loss": 0.7531972722049982,
+      "train_runtime": 49725.5381,
+      "train_samples_per_second": 3.461,
+      "train_steps_per_second": 0.108
     }
   ],
   "logging_steps": 500,
+  "max_steps": 5380,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 2.28033311981568e+16,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null