albertmartinez
/

xlm-roberta-large-sdg-classification

@@ -1,15 +1,15 @@
 {
-    "epoch": 3.0,
-    "eval_f1": 0.8090449379841036,
-    "eval_loss": 0.666302502155304,
-    "eval_runtime": 1699.1587,
-    "eval_samples": 12908,
-    "eval_samples_per_second": 7.597,
-    "eval_steps_per_second": 0.95,
-    "total_flos": 8.420491356925133e+16,
-    "train_loss": 0.8763350252555097,
-    "train_runtime": 40548.0547,
-    "train_samples": 30117,
-    "train_samples_per_second": 2.228,
-    "train_steps_per_second": 0.07
 }

 {
+    "epoch": 5.0,
+    "eval_f1": 0.8262395269824653,
+    "eval_loss": 0.6748126149177551,
+    "eval_runtime": 1120.7242,
+    "eval_samples": 8605,
+    "eval_samples_per_second": 7.678,
+    "eval_steps_per_second": 0.24,
+    "total_flos": 1.603929743474688e+17,
+    "train_loss": 0.5906805073904725,
+    "train_runtime": 93341.3352,
+    "train_samples": 34420,
+    "train_samples_per_second": 1.844,
+    "train_steps_per_second": 0.058
 }

eval_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 3.0,
-    "eval_f1": 0.8090449379841036,
-    "eval_loss": 0.666302502155304,
-    "eval_runtime": 1699.1587,
-    "eval_samples": 12908,
-    "eval_samples_per_second": 7.597,
-    "eval_steps_per_second": 0.95
 }

 {
+    "epoch": 5.0,
+    "eval_f1": 0.8262395269824653,
+    "eval_loss": 0.6748126149177551,
+    "eval_runtime": 1120.7242,
+    "eval_samples": 8605,
+    "eval_samples_per_second": 7.678,
+    "eval_steps_per_second": 0.24
 }

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 3.0,
-    "total_flos": 8.420491356925133e+16,
-    "train_loss": 0.8763350252555097,
-    "train_runtime": 40548.0547,
-    "train_samples": 30117,
-    "train_samples_per_second": 2.228,
-    "train_steps_per_second": 0.07
 }

 {
+    "epoch": 5.0,
+    "total_flos": 1.603929743474688e+17,
+    "train_loss": 0.5906805073904725,
+    "train_runtime": 93341.3352,
+    "train_samples": 34420,
+    "train_samples_per_second": 1.844,
+    "train_steps_per_second": 0.058
 }

trainer_state.json CHANGED Viewed

@@ -1,62 +1,107 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 3.0,
-  "eval_steps": 500,
-  "global_step": 2826,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.5307855626326964,
-      "grad_norm": 25.88756561279297,
-      "learning_rate": 8.333333333333334e-06,
-      "loss": 1.8484,
-      "step": 500
     },
     {
-      "epoch": 1.0615711252653928,
-      "grad_norm": 16.342458724975586,
-      "learning_rate": 8.203054806828391e-06,
-      "loss": 0.8665,
-      "step": 1000
     },
     {
-      "epoch": 1.5923566878980893,
-      "grad_norm": 29.014867782592773,
-      "learning_rate": 5.9568733153638815e-06,
-      "loss": 0.7202,
-      "step": 1500
     },
     {
-      "epoch": 2.1231422505307855,
-      "grad_norm": 23.600313186645508,
-      "learning_rate": 3.710691823899371e-06,
-      "loss": 0.643,
-      "step": 2000
     },
     {
-      "epoch": 2.653927813163482,
-      "grad_norm": 21.909465789794922,
-      "learning_rate": 1.464510332434861e-06,
-      "loss": 0.5374,
-      "step": 2500
     },
     {
       "epoch": 3.0,
-      "step": 2826,
-      "total_flos": 8.420491356925133e+16,
-      "train_loss": 0.8763350252555097,
-      "train_runtime": 40548.0547,
-      "train_samples_per_second": 2.228,
-      "train_steps_per_second": 0.07
     }
   ],
   "logging_steps": 500,
-  "max_steps": 2826,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 3,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -70,7 +115,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 8.420491356925133e+16,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 5.0,
+  "eval_steps": 500.0,
+  "global_step": 5380,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 1.0,
+      "grad_norm": 17.019458770751953,
+      "learning_rate": 1.8008368200836822e-05,
+      "loss": 1.2213,
+      "step": 1076
     },
     {
+      "epoch": 1.0,
+      "eval_f1": 0.7824958430254769,
+      "eval_loss": 0.7617404460906982,
+      "eval_runtime": 1102.1746,
+      "eval_samples_per_second": 7.807,
+      "eval_steps_per_second": 0.244,
+      "step": 1076
     },
     {
+      "epoch": 2.0,
+      "grad_norm": 21.141799926757812,
+      "learning_rate": 1.3506276150627616e-05,
+      "loss": 0.6795,
+      "step": 2152
     },
     {
+      "epoch": 2.0,
+      "eval_f1": 0.8069274438342103,
+      "eval_loss": 0.6678793430328369,
+      "eval_runtime": 1131.1127,
+      "eval_samples_per_second": 7.608,
+      "eval_steps_per_second": 0.238,
+      "step": 2152
     },
     {
+      "epoch": 3.0,
+      "grad_norm": 20.788061141967773,
+      "learning_rate": 9.004184100418411e-06,
+      "loss": 0.4878,
+      "step": 3228
     },
     {
       "epoch": 3.0,
+      "eval_f1": 0.8184543003319226,
+      "eval_loss": 0.6415576338768005,
+      "eval_runtime": 1137.7492,
+      "eval_samples_per_second": 7.563,
+      "eval_steps_per_second": 0.236,
+      "step": 3228
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 31.943090438842773,
+      "learning_rate": 4.5020920502092055e-06,
+      "loss": 0.339,
+      "step": 4304
+    },
+    {
+      "epoch": 4.0,
+      "eval_f1": 0.8262643018421877,
+      "eval_loss": 0.6522042155265808,
+      "eval_runtime": 1113.9155,
+      "eval_samples_per_second": 7.725,
+      "eval_steps_per_second": 0.241,
+      "step": 4304
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 10.032992362976074,
+      "learning_rate": 0.0,
+      "loss": 0.226,
+      "step": 5380
+    },
+    {
+      "epoch": 5.0,
+      "eval_f1": 0.8262395269824653,
+      "eval_loss": 0.6748126149177551,
+      "eval_runtime": 1135.4492,
+      "eval_samples_per_second": 7.578,
+      "eval_steps_per_second": 0.237,
+      "step": 5380
+    },
+    {
+      "epoch": 5.0,
+      "step": 5380,
+      "total_flos": 1.603929743474688e+17,
+      "train_loss": 0.5906805073904725,
+      "train_runtime": 93341.3352,
+      "train_samples_per_second": 1.844,
+      "train_steps_per_second": 0.058
     }
   ],
   "logging_steps": 500,
+  "max_steps": 5380,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 1.603929743474688e+17,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null