Training in progress, epoch 6

Browse files

Files changed (7) hide show

model.safetensors +1 -1
run-1/checkpoint-5724/model.safetensors +1 -1
run-1/checkpoint-5724/optimizer.pt +1 -1
run-1/checkpoint-5724/scaler.pt +1 -1
run-1/checkpoint-5724/scheduler.pt +1 -1
run-1/checkpoint-5724/trainer_state.json +58 -58
run-1/checkpoint-5724/training_args.bin +1 -1

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:86a6df00c1d88a0078b8c3ae2e7f91485ea1e5e53eaabe0ce162de126840de80
 size 598898116

 version https://git-lfs.github.com/spec/v1
+oid sha256:3e7355b73ebac035ca39c08ab03cc3883ea81e6e0a887448e0d23c867a628ceb
 size 598898116

run-1/checkpoint-5724/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7182e860596e3a533cb682a44ccd367d2a63548718a534c235c370acd8871676
 size 598898116

 version https://git-lfs.github.com/spec/v1
+oid sha256:3e7355b73ebac035ca39c08ab03cc3883ea81e6e0a887448e0d23c867a628ceb
 size 598898116

run-1/checkpoint-5724/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cdb69b8ca84dfedda708daaa4e745e034699ccc94865c9bcb68cb320222dbfbe
 size 1197886411

 version https://git-lfs.github.com/spec/v1
+oid sha256:9e02ab88d378d05297aed5c6b681e19e34d0b6ae0e2413b951e9606084608b3c
 size 1197886411

run-1/checkpoint-5724/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7c1191ec6ef2ec1c0aa33d51d1e49844dedd6100b74b90bbbe306c3fc44a0080
 size 1383

 version https://git-lfs.github.com/spec/v1
+oid sha256:4a0b4230f34cfc1b81dc2c15ef8d265bdd348193f5a746ca2018df11549c7ac0
 size 1383

run-1/checkpoint-5724/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:842c477c03985d57c436f042185e94f8b68859521c9e0660a688efc82daf99b1
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:e140f341ca0a4230bd903c046ed15686cf39544df723eba883508fdb9721c46d
 size 1465

run-1/checkpoint-5724/trainer_state.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-  "best_global_step": 4770,
-  "best_metric": 0.9670967741935483,
-  "best_model_checkpoint": "ModernBERT-base-finetuned-distilled-clinc/run-1/checkpoint-4770",
   "epoch": 6.0,
   "eval_steps": 500,
   "global_step": 5724,
@@ -11,105 +11,105 @@
   "log_history": [
     {
       "epoch": 0.9989517819706499,
-      "grad_norm": 5.256518363952637,
-      "learning_rate": 1.7148846960167716e-05,
-      "loss": 2.94,
       "step": 953
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.9467741935483871,
-      "eval_loss": 1.2690216302871704,
-      "eval_runtime": 13.7144,
-      "eval_samples_per_second": 226.039,
-      "eval_steps_per_second": 14.146,
       "step": 954
     },
     {
       "epoch": 1.9979035639412999,
-      "grad_norm": 5.380569934844971,
-      "learning_rate": 1.4294699011680145e-05,
-      "loss": 0.8842,
       "step": 1906
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.9593548387096774,
-      "eval_loss": 0.7936070561408997,
-      "eval_runtime": 13.7,
-      "eval_samples_per_second": 226.278,
-      "eval_steps_per_second": 14.161,
       "step": 1908
     },
     {
       "epoch": 2.99685534591195,
-      "grad_norm": 3.613981246948242,
-      "learning_rate": 1.1440551063192572e-05,
-      "loss": 0.5699,
       "step": 2859
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.9641935483870968,
-      "eval_loss": 0.6687456965446472,
-      "eval_runtime": 13.7363,
-      "eval_samples_per_second": 225.679,
-      "eval_steps_per_second": 14.123,
       "step": 2862
     },
     {
       "epoch": 3.9958071278825997,
-      "grad_norm": 3.4474356174468994,
-      "learning_rate": 8.586403114705001e-06,
-      "loss": 0.4559,
       "step": 3812
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.9654838709677419,
-      "eval_loss": 0.6137078404426575,
-      "eval_runtime": 13.7263,
-      "eval_samples_per_second": 225.844,
-      "eval_steps_per_second": 14.133,
       "step": 3816
     },
     {
       "epoch": 4.99475890985325,
-      "grad_norm": 2.365896463394165,
-      "learning_rate": 5.732255166217431e-06,
-      "loss": 0.3946,
       "step": 4765
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.9670967741935483,
-      "eval_loss": 0.5847680568695068,
-      "eval_runtime": 13.7279,
-      "eval_samples_per_second": 225.817,
-      "eval_steps_per_second": 14.132,
       "step": 4770
     },
     {
       "epoch": 5.9937106918239,
-      "grad_norm": 2.425455093383789,
-      "learning_rate": 2.8781072177298598e-06,
-      "loss": 0.356,
       "step": 5718
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.9654838709677419,
-      "eval_loss": 0.5716797709465027,
-      "eval_runtime": 13.7447,
-      "eval_samples_per_second": 225.542,
-      "eval_steps_per_second": 14.115,
       "step": 5724
     }
   ],
   "logging_steps": 953,
-  "max_steps": 6678,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 7,
   "save_steps": 1000000000.0,
   "stateful_callbacks": {
     "EarlyStoppingCallback": {
@@ -118,7 +118,7 @@
         "early_stopping_threshold": 0.0
       },
       "attributes": {
-        "early_stopping_patience_counter": 1
       }
     },
     "TrainerControl": {
@@ -127,7 +127,7 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
@@ -136,8 +136,8 @@
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.15100905033765077,
-    "num_train_epochs": 7,
-    "temperature": 18
   }
 }

 {
+  "best_global_step": 5724,
+  "best_metric": 0.9606451612903226,
+  "best_model_checkpoint": "ModernBERT-base-finetuned-distilled-clinc/run-1/checkpoint-5724",
   "epoch": 6.0,
   "eval_steps": 500,
   "global_step": 5724,
   "log_history": [
     {
       "epoch": 0.9989517819706499,
+      "grad_norm": 7.467678070068359,
+      "learning_rate": 1.6673654786862336e-05,
+      "loss": 3.1301,
       "step": 953
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.9203225806451613,
+      "eval_loss": 1.3439604043960571,
+      "eval_runtime": 13.3738,
+      "eval_samples_per_second": 231.797,
+      "eval_steps_per_second": 14.506,
       "step": 954
     },
     {
       "epoch": 1.9979035639412999,
+      "grad_norm": 7.362800598144531,
+      "learning_rate": 1.3343815513626837e-05,
+      "loss": 0.9149,
       "step": 1906
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.9490322580645161,
+      "eval_loss": 0.8044440746307373,
+      "eval_runtime": 13.3633,
+      "eval_samples_per_second": 231.979,
+      "eval_steps_per_second": 14.517,
       "step": 1908
     },
     {
       "epoch": 2.99685534591195,
+      "grad_norm": 4.091987133026123,
+      "learning_rate": 1.0013976240391337e-05,
+      "loss": 0.5577,
       "step": 2859
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.9561290322580646,
+      "eval_loss": 0.6619836688041687,
+      "eval_runtime": 13.3076,
+      "eval_samples_per_second": 232.95,
+      "eval_steps_per_second": 14.578,
       "step": 2862
     },
     {
       "epoch": 3.9958071278825997,
+      "grad_norm": 3.777040958404541,
+      "learning_rate": 6.6841369671558355e-06,
+      "loss": 0.4371,
       "step": 3812
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.9590322580645161,
+      "eval_loss": 0.5996799468994141,
+      "eval_runtime": 13.379,
+      "eval_samples_per_second": 231.706,
+      "eval_steps_per_second": 14.5,
       "step": 3816
     },
     {
       "epoch": 4.99475890985325,
+      "grad_norm": 2.1198227405548096,
+      "learning_rate": 3.354297693920336e-06,
+      "loss": 0.3772,
       "step": 4765
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.96,
+      "eval_loss": 0.5738052725791931,
+      "eval_runtime": 13.314,
+      "eval_samples_per_second": 232.837,
+      "eval_steps_per_second": 14.571,
       "step": 4770
     },
     {
       "epoch": 5.9937106918239,
+      "grad_norm": 3.388993501663208,
+      "learning_rate": 2.445842068483578e-08,
+      "loss": 0.3448,
       "step": 5718
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.9606451612903226,
+      "eval_loss": 0.5634305477142334,
+      "eval_runtime": 13.4419,
+      "eval_samples_per_second": 230.622,
+      "eval_steps_per_second": 14.432,
       "step": 5724
     }
   ],
   "logging_steps": 953,
+  "max_steps": 5724,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 6,
   "save_steps": 1000000000.0,
   "stateful_callbacks": {
     "EarlyStoppingCallback": {
         "early_stopping_threshold": 0.0
       },
       "attributes": {
+        "early_stopping_patience_counter": 0
       }
     },
     "TrainerControl": {
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.9287856252244455,
+    "num_train_epochs": 6,
+    "temperature": 15
   }
 }

run-1/checkpoint-5724/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:15589d5aeaba3d8b56609cb603fda218d1886c5365ce6493f2d41326202e6ecd
 size 5905

 version https://git-lfs.github.com/spec/v1
+oid sha256:20ebde890c3b25915c27f2892df04c94cddcc4ef788adf1925833998a07e8392
 size 5905