Training in progress, epoch 1

Files changed (8) hide show

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6e78e0191867f8669128a3259b23e8008f38a2bbf9e1a8d6a1ec63143e22832f
 size 598898116

 version https://git-lfs.github.com/spec/v1
+oid sha256:c30bdd43ef8700852682fdd81d7cfb8b85f7b07fe64e66514f5c74ab85f913a3
 size 598898116

run-1/checkpoint-313/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e985070cbe84cf0764a1d8314763d133c5b36b06873746fdedbd96fbd5925169
 size 598898116

 version https://git-lfs.github.com/spec/v1
+oid sha256:c30bdd43ef8700852682fdd81d7cfb8b85f7b07fe64e66514f5c74ab85f913a3
 size 598898116

run-1/checkpoint-313/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:94d6f3c67b7a216b817582bcba8e01ac40f60455307d798c658ebd1a9fd9a6c2
 size 1197886411

 version https://git-lfs.github.com/spec/v1
+oid sha256:2f10be5aaf79caf149b739ea48b3fece59a8d47b6a3d1d7546ce1ef252764a35
 size 1197886411

run-1/checkpoint-313/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:286bfb530c9dac2b032454875e9a2d08d27f169bd4b58a6c68e31dd670e5aaf1
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:081827cb2011e5cb93b09f1991f3547ab57c55e5fa27dab24d0ee2d860e2a68c
 size 1465

run-1/checkpoint-313/trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "best_global_step": 313,
-  "best_metric": 2.3514034748077393,
   "best_model_checkpoint": "classifier-clinc-MBbase-distilled/run-1/checkpoint-313",
   "epoch": 1.0,
   "eval_steps": 500,
@@ -11,18 +11,18 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.8748387096774194,
-      "eval_loss": 2.3514034748077393,
-      "eval_runtime": 8.6888,
-      "eval_samples_per_second": 356.78,
-      "eval_steps_per_second": 11.164,
       "step": 313
     }
   ],
   "logging_steps": 500,
-  "max_steps": 1252,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 4,
   "save_steps": 500,
   "stateful_callbacks": {
     "EarlyStoppingCallback": {
@@ -49,8 +49,8 @@
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.6366341517957751,
-    "num_train_epochs": 4,
-    "temperature": 4.356589509372901
   }
 }

 {
   "best_global_step": 313,
+  "best_metric": 2.7125542163848877,
   "best_model_checkpoint": "classifier-clinc-MBbase-distilled/run-1/checkpoint-313",
   "epoch": 1.0,
   "eval_steps": 500,
   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.8841935483870967,
+      "eval_loss": 2.7125542163848877,
+      "eval_runtime": 8.642,
+      "eval_samples_per_second": 358.712,
+      "eval_steps_per_second": 11.224,
       "step": 313
     }
   ],
   "logging_steps": 500,
+  "max_steps": 1878,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 6,
   "save_steps": 500,
   "stateful_callbacks": {
     "EarlyStoppingCallback": {
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.43669134703064955,
+    "num_train_epochs": 6,
+    "temperature": 4.700820204359401
   }
 }

run-1/checkpoint-313/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:56ff736131b836a7dabe107136a81c1bbf2af9db596535261d17917925265c8c
 size 5905

 version https://git-lfs.github.com/spec/v1
+oid sha256:005e75c27b9684ffca09be4a319451b5b3ed9c7d3c39d92ef3bf6ef33af1bd87
 size 5905

run-1/checkpoint-626/trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "best_global_step": 626,
-  "best_metric": 1.0946013927459717,
   "best_model_checkpoint": "classifier-clinc-MBbase-distilled/run-1/checkpoint-626",
   "epoch": 2.0,
   "eval_steps": 500,
@@ -11,34 +11,34 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.8748387096774194,
-      "eval_loss": 2.3514034748077393,
-      "eval_runtime": 8.6888,
-      "eval_samples_per_second": 356.78,
-      "eval_steps_per_second": 11.164,
       "step": 313
     },
     {
       "epoch": 1.5974440894568689,
-      "grad_norm": 11.41929817199707,
-      "learning_rate": 1.2028753993610226e-05,
-      "loss": 4.6814,
       "step": 500
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.9387096774193548,
-      "eval_loss": 1.0946013927459717,
-      "eval_runtime": 8.8111,
-      "eval_samples_per_second": 351.83,
-      "eval_steps_per_second": 11.009,
       "step": 626
     }
   ],
   "logging_steps": 500,
-  "max_steps": 1252,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 4,
   "save_steps": 500,
   "stateful_callbacks": {
     "EarlyStoppingCallback": {
@@ -65,8 +65,8 @@
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.6366341517957751,
-    "num_train_epochs": 4,
-    "temperature": 4.356589509372901
   }
 }

 {
   "best_global_step": 626,
+  "best_metric": 1.3560537099838257,
   "best_model_checkpoint": "classifier-clinc-MBbase-distilled/run-1/checkpoint-626",
   "epoch": 2.0,
   "eval_steps": 500,
   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.8841935483870967,
+      "eval_loss": 2.7125542163848877,
+      "eval_runtime": 8.642,
+      "eval_samples_per_second": 358.712,
+      "eval_steps_per_second": 11.224,
       "step": 313
     },
     {
       "epoch": 1.5974440894568689,
+      "grad_norm": 15.764195442199707,
+      "learning_rate": 1.468583599574015e-05,
+      "loss": 5.4057,
       "step": 500
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.9380645161290323,
+      "eval_loss": 1.3560537099838257,
+      "eval_runtime": 8.8142,
+      "eval_samples_per_second": 351.707,
+      "eval_steps_per_second": 11.005,
       "step": 626
     }
   ],
   "logging_steps": 500,
+  "max_steps": 1878,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 6,
   "save_steps": 500,
   "stateful_callbacks": {
     "EarlyStoppingCallback": {
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.43669134703064955,
+    "num_train_epochs": 6,
+    "temperature": 4.700820204359401
   }
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3774de0dc9784f2ab1918da7fc680b1fa7a61c646dab0571a12594c4ddc726eb
 size 5905

 version https://git-lfs.github.com/spec/v1
+oid sha256:005e75c27b9684ffca09be4a319451b5b3ed9c7d3c39d92ef3bf6ef33af1bd87
 size 5905