Training in progress, epoch 4

Browse files

Files changed (15) hide show

model.safetensors +1 -1
run-1/checkpoint-1252/model.safetensors +1 -1
run-1/checkpoint-1252/optimizer.pt +1 -1
run-1/checkpoint-1252/scheduler.pt +1 -1
run-1/checkpoint-1252/trainer_state.json +32 -32
run-1/checkpoint-1252/training_args.bin +1 -1
run-1/checkpoint-626/model.safetensors +1 -1
run-1/checkpoint-626/optimizer.pt +1 -1
run-1/checkpoint-626/scheduler.pt +1 -1
run-1/checkpoint-626/training_args.bin +1 -1
run-1/checkpoint-939/model.safetensors +1 -1
run-1/checkpoint-939/optimizer.pt +1 -1
run-1/checkpoint-939/scheduler.pt +1 -1
run-1/checkpoint-939/trainer_state.json +23 -23
run-1/checkpoint-939/training_args.bin +1 -1

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c30bdd43ef8700852682fdd81d7cfb8b85f7b07fe64e66514f5c74ab85f913a3
 size 598898116

 version https://git-lfs.github.com/spec/v1
+oid sha256:ade954cb3addefcce0810d360fa809c65f180c0974fc2c66eeec8b322557750f
 size 598898116

run-1/checkpoint-1252/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:370d3534f9b361c680c32623da6a50591b08544112b8d478f0468d789fee2c8e
 size 598898116

 version https://git-lfs.github.com/spec/v1
+oid sha256:ade954cb3addefcce0810d360fa809c65f180c0974fc2c66eeec8b322557750f
 size 598898116

run-1/checkpoint-1252/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c6d329c03d57e13e0a4475e000d046b99bdf2268ca265b833b673a4db9cc40da
 size 1197886411

 version https://git-lfs.github.com/spec/v1
+oid sha256:cd526ba45a1abe63bbaf3ef1ad2b0b245794993a6f1dfc3fbc20ca249336d6af
 size 1197886411

run-1/checkpoint-1252/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6327f5ab4e72ed9c0c4a05ebebdbe843085c362a66f43ed9a35b8913cac50eea
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:3cf6043120806951e527204f266c4987f61ac4c1701320a05415bcdad14ecca1
 size 1465

run-1/checkpoint-1252/trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "best_global_step": 1252,
-  "best_metric": 0.7973427772521973,
   "best_model_checkpoint": "classifier-clinc-MBbase-distilled/run-1/checkpoint-1252",
   "epoch": 4.0,
   "eval_steps": 500,
@@ -11,59 +11,59 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.8748387096774194,
-      "eval_loss": 2.3514034748077393,
-      "eval_runtime": 8.6888,
-      "eval_samples_per_second": 356.78,
-      "eval_steps_per_second": 11.164,
       "step": 313
     },
     {
       "epoch": 1.5974440894568689,
-      "grad_norm": 11.41929817199707,
-      "learning_rate": 1.2028753993610226e-05,
-      "loss": 4.6814,
       "step": 500
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.9387096774193548,
-      "eval_loss": 1.0946013927459717,
-      "eval_runtime": 8.8111,
-      "eval_samples_per_second": 351.83,
-      "eval_steps_per_second": 11.009,
       "step": 626
     },
     {
       "epoch": 3.0,
       "eval_accuracy": 0.9490322580645161,
-      "eval_loss": 0.8638759851455688,
-      "eval_runtime": 8.7924,
-      "eval_samples_per_second": 352.576,
-      "eval_steps_per_second": 11.032,
       "step": 939
     },
     {
       "epoch": 3.194888178913738,
-      "grad_norm": 2.687797784805298,
-      "learning_rate": 4.041533546325879e-06,
-      "loss": 0.8232,
       "step": 1000
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.9487096774193549,
-      "eval_loss": 0.7973427772521973,
-      "eval_runtime": 8.9762,
-      "eval_samples_per_second": 345.357,
-      "eval_steps_per_second": 10.806,
       "step": 1252
     }
   ],
   "logging_steps": 500,
-  "max_steps": 1252,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 4,
   "save_steps": 500,
   "stateful_callbacks": {
     "EarlyStoppingCallback": {
@@ -81,7 +81,7 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": true
       },
       "attributes": {}
     }
@@ -90,8 +90,8 @@
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.6366341517957751,
-    "num_train_epochs": 4,
-    "temperature": 4.356589509372901
   }
 }

 {
   "best_global_step": 1252,
+  "best_metric": 0.8706804513931274,
   "best_model_checkpoint": "classifier-clinc-MBbase-distilled/run-1/checkpoint-1252",
   "epoch": 4.0,
   "eval_steps": 500,
   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.8841935483870967,
+      "eval_loss": 2.7125542163848877,
+      "eval_runtime": 8.642,
+      "eval_samples_per_second": 358.712,
+      "eval_steps_per_second": 11.224,
       "step": 313
     },
     {
       "epoch": 1.5974440894568689,
+      "grad_norm": 15.764195442199707,
+      "learning_rate": 1.468583599574015e-05,
+      "loss": 5.4057,
       "step": 500
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.9380645161290323,
+      "eval_loss": 1.3560537099838257,
+      "eval_runtime": 8.8142,
+      "eval_samples_per_second": 351.707,
+      "eval_steps_per_second": 11.005,
       "step": 626
     },
     {
       "epoch": 3.0,
       "eval_accuracy": 0.9490322580645161,
+      "eval_loss": 1.0215872526168823,
+      "eval_runtime": 8.8098,
+      "eval_samples_per_second": 351.879,
+      "eval_steps_per_second": 11.01,
       "step": 939
     },
     {
       "epoch": 3.194888178913738,
+      "grad_norm": 3.932048797607422,
+      "learning_rate": 9.361022364217253e-06,
+      "loss": 1.0728,
       "step": 1000
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.9538709677419355,
+      "eval_loss": 0.8706804513931274,
+      "eval_runtime": 8.7191,
+      "eval_samples_per_second": 355.54,
+      "eval_steps_per_second": 11.125,
       "step": 1252
     }
   ],
   "logging_steps": 500,
+  "max_steps": 1878,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 6,
   "save_steps": 500,
   "stateful_callbacks": {
     "EarlyStoppingCallback": {
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": false
       },
       "attributes": {}
     }
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.43669134703064955,
+    "num_train_epochs": 6,
+    "temperature": 4.700820204359401
   }
 }

run-1/checkpoint-1252/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:56ff736131b836a7dabe107136a81c1bbf2af9db596535261d17917925265c8c
 size 5905

 version https://git-lfs.github.com/spec/v1
+oid sha256:005e75c27b9684ffca09be4a319451b5b3ed9c7d3c39d92ef3bf6ef33af1bd87
 size 5905

run-1/checkpoint-626/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b9ad87f0bcabd8753af801099adaebcaff62efac5ec99c204a5d30f9340d7c06
 size 598898116

 version https://git-lfs.github.com/spec/v1
+oid sha256:a9a39f3d5c808671b9c50e8dd232fb118c2a863cf297a8291f6b6e886ed6ea25
 size 598898116

run-1/checkpoint-626/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c231c0cd3fbc47a8b6e27933af7e2b7295464a826f8359b228a3f1fdbf483b23
 size 1197886411

 version https://git-lfs.github.com/spec/v1
+oid sha256:df1cbe6c21069771c20c4a22652fd1cb4c9fa8e7c260004ccdbc1bf23ee51db2
 size 1197886411

run-1/checkpoint-626/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1e9a7b5592a4029f3ec57c7dbcfd35e00b01562cef219c39239e50201a9d22f7
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:f79a33daf84d1b784d1517562e7679fa0e6281bfc97ee6961b9f75a9f0ba2a7b
 size 1465

run-1/checkpoint-626/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:56ff736131b836a7dabe107136a81c1bbf2af9db596535261d17917925265c8c
 size 5905

 version https://git-lfs.github.com/spec/v1
+oid sha256:005e75c27b9684ffca09be4a319451b5b3ed9c7d3c39d92ef3bf6ef33af1bd87
 size 5905

run-1/checkpoint-939/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e99a38237f5188be1bf3c854a2809e1af914ca807dc52e24f29be9c3cfe94420
 size 598898116

 version https://git-lfs.github.com/spec/v1
+oid sha256:ea96ce5e92abdf60ad828f47231aa42a9f2a2f5daf40e1a2bdd0eb325c3ea43e
 size 598898116

run-1/checkpoint-939/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4265f1139d29d76272c48fd95b09d238668611bcdcf40b88b561f87c18f83159
 size 1197886411

 version https://git-lfs.github.com/spec/v1
+oid sha256:7139dc98d864f192a2cbce0e87baf6c1d34dc5553d9abd2772810498fe2f9960
 size 1197886411

run-1/checkpoint-939/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:84cfb1e7a62ce13d3bd2b30cd84954b016eca2ceddbf4f35473bd12c1cb4a0c8
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:c75b3ffa83808fbdba53567d88e17d4635157498f448356d32b88393fb1d6557
 size 1465

run-1/checkpoint-939/trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "best_global_step": 939,
-  "best_metric": 0.8638759851455688,
   "best_model_checkpoint": "classifier-clinc-MBbase-distilled/run-1/checkpoint-939",
   "epoch": 3.0,
   "eval_steps": 500,
@@ -11,43 +11,43 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.8748387096774194,
-      "eval_loss": 2.3514034748077393,
-      "eval_runtime": 8.6888,
-      "eval_samples_per_second": 356.78,
-      "eval_steps_per_second": 11.164,
       "step": 313
     },
     {
       "epoch": 1.5974440894568689,
-      "grad_norm": 11.41929817199707,
-      "learning_rate": 1.2028753993610226e-05,
-      "loss": 4.6814,
       "step": 500
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.9387096774193548,
-      "eval_loss": 1.0946013927459717,
-      "eval_runtime": 8.8111,
-      "eval_samples_per_second": 351.83,
-      "eval_steps_per_second": 11.009,
       "step": 626
     },
     {
       "epoch": 3.0,
       "eval_accuracy": 0.9490322580645161,
-      "eval_loss": 0.8638759851455688,
-      "eval_runtime": 8.7924,
-      "eval_samples_per_second": 352.576,
-      "eval_steps_per_second": 11.032,
       "step": 939
     }
   ],
   "logging_steps": 500,
-  "max_steps": 1252,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 4,
   "save_steps": 500,
   "stateful_callbacks": {
     "EarlyStoppingCallback": {
@@ -74,8 +74,8 @@
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.6366341517957751,
-    "num_train_epochs": 4,
-    "temperature": 4.356589509372901
   }
 }

 {
   "best_global_step": 939,
+  "best_metric": 1.0215872526168823,
   "best_model_checkpoint": "classifier-clinc-MBbase-distilled/run-1/checkpoint-939",
   "epoch": 3.0,
   "eval_steps": 500,
   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.8841935483870967,
+      "eval_loss": 2.7125542163848877,
+      "eval_runtime": 8.642,
+      "eval_samples_per_second": 358.712,
+      "eval_steps_per_second": 11.224,
       "step": 313
     },
     {
       "epoch": 1.5974440894568689,
+      "grad_norm": 15.764195442199707,
+      "learning_rate": 1.468583599574015e-05,
+      "loss": 5.4057,
       "step": 500
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.9380645161290323,
+      "eval_loss": 1.3560537099838257,
+      "eval_runtime": 8.8142,
+      "eval_samples_per_second": 351.707,
+      "eval_steps_per_second": 11.005,
       "step": 626
     },
     {
       "epoch": 3.0,
       "eval_accuracy": 0.9490322580645161,
+      "eval_loss": 1.0215872526168823,
+      "eval_runtime": 8.8098,
+      "eval_samples_per_second": 351.879,
+      "eval_steps_per_second": 11.01,
       "step": 939
     }
   ],
   "logging_steps": 500,
+  "max_steps": 1878,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 6,
   "save_steps": 500,
   "stateful_callbacks": {
     "EarlyStoppingCallback": {
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.43669134703064955,
+    "num_train_epochs": 6,
+    "temperature": 4.700820204359401
   }
 }

run-1/checkpoint-939/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:56ff736131b836a7dabe107136a81c1bbf2af9db596535261d17917925265c8c
 size 5905

 version https://git-lfs.github.com/spec/v1
+oid sha256:005e75c27b9684ffca09be4a319451b5b3ed9c7d3c39d92ef3bf6ef33af1bd87
 size 5905