Training in progress, epoch 1

Browse files

Files changed (10) hide show

model.safetensors +1 -1
run-0/checkpoint-117/trainer_state.json +33 -33
run-0/checkpoint-39/model.safetensors +1 -1
run-0/checkpoint-39/optimizer.pt +1 -1
run-0/checkpoint-39/trainer_state.json +7 -7
run-0/checkpoint-39/training_args.bin +1 -1
run-0/checkpoint-78/optimizer.pt +1 -1
run-0/checkpoint-78/trainer_state.json +20 -20
run-0/checkpoint-78/training_args.bin +1 -1
training_args.bin +1 -1

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:412f9273b330a691e1d2f17f66ad772a8d5ae3052958dbafa9c26df5eddb1dce
 size 437958648

 version https://git-lfs.github.com/spec/v1
+oid sha256:86da292e44eb636b62e95367ef4936d89b7b6baee6fe9119a8b62c9e977f0c9d
 size 437958648

run-0/checkpoint-117/trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "best_global_step": 78,
-  "best_metric": 0.6714801444043321,
   "best_model_checkpoint": "bert-base-uncased-finetuned-rte-run_14/run-0/checkpoint-78",
   "epoch": 3.0,
   "eval_steps": 500,
@@ -11,21 +11,21 @@
   "log_history": [
     {
       "epoch": 0.2564102564102564,
-      "grad_norm": 1.662625789642334,
       "learning_rate": 9.487179487179487e-05,
       "loss": 0.696,
       "step": 10
     },
     {
       "epoch": 0.5128205128205128,
-      "grad_norm": 2.0300352573394775,
       "learning_rate": 8.974358974358975e-05,
       "loss": 0.6793,
       "step": 20
     },
     {
       "epoch": 0.7692307692307693,
-      "grad_norm": 4.492157936096191,
       "learning_rate": 8.461538461538461e-05,
       "loss": 0.6499,
       "step": 30
@@ -33,84 +33,84 @@
     {
       "epoch": 1.0,
       "eval_accuracy": 0.631768953068592,
-      "eval_loss": 0.6312768459320068,
-      "eval_runtime": 0.6623,
-      "eval_samples_per_second": 418.266,
-      "eval_steps_per_second": 7.55,
       "step": 39
     },
     {
       "epoch": 1.0256410256410255,
-      "grad_norm": 3.4885644912719727,
       "learning_rate": 7.948717948717948e-05,
       "loss": 0.6793,
       "step": 40
     },
     {
       "epoch": 1.282051282051282,
-      "grad_norm": 5.2225494384765625,
       "learning_rate": 7.435897435897436e-05,
-      "loss": 0.5596,
       "step": 50
     },
     {
       "epoch": 1.5384615384615383,
-      "grad_norm": 6.484560489654541,
       "learning_rate": 6.923076923076924e-05,
-      "loss": 0.5713,
       "step": 60
     },
     {
       "epoch": 1.7948717948717947,
-      "grad_norm": 4.836739540100098,
       "learning_rate": 6.410256410256412e-05,
-      "loss": 0.545,
       "step": 70
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.6714801444043321,
-      "eval_loss": 0.658456563949585,
-      "eval_runtime": 0.6622,
-      "eval_samples_per_second": 418.306,
-      "eval_steps_per_second": 7.551,
       "step": 78
     },
     {
       "epoch": 2.051282051282051,
-      "grad_norm": 6.515610218048096,
       "learning_rate": 5.897435897435898e-05,
-      "loss": 0.4786,
       "step": 80
     },
     {
       "epoch": 2.3076923076923075,
-      "grad_norm": 5.974998950958252,
       "learning_rate": 5.384615384615385e-05,
-      "loss": 0.3373,
       "step": 90
     },
     {
       "epoch": 2.564102564102564,
-      "grad_norm": 2.976608991622925,
       "learning_rate": 4.871794871794872e-05,
-      "loss": 0.3314,
       "step": 100
     },
     {
       "epoch": 2.8205128205128203,
-      "grad_norm": 3.50764799118042,
       "learning_rate": 4.358974358974359e-05,
-      "loss": 0.3235,
       "step": 110
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.6714801444043321,
-      "eval_loss": 0.7251453399658203,
-      "eval_runtime": 0.6621,
-      "eval_samples_per_second": 418.365,
-      "eval_steps_per_second": 7.552,
       "step": 117
     }
   ],

 {
   "best_global_step": 78,
+  "best_metric": 0.6931407942238267,
   "best_model_checkpoint": "bert-base-uncased-finetuned-rte-run_14/run-0/checkpoint-78",
   "epoch": 3.0,
   "eval_steps": 500,
   "log_history": [
     {
       "epoch": 0.2564102564102564,
+      "grad_norm": 1.662626028060913,
       "learning_rate": 9.487179487179487e-05,
       "loss": 0.696,
       "step": 10
     },
     {
       "epoch": 0.5128205128205128,
+      "grad_norm": 2.0300467014312744,
       "learning_rate": 8.974358974358975e-05,
       "loss": 0.6793,
       "step": 20
     },
     {
       "epoch": 0.7692307692307693,
+      "grad_norm": 4.490738868713379,
       "learning_rate": 8.461538461538461e-05,
       "loss": 0.6499,
       "step": 30
     {
       "epoch": 1.0,
       "eval_accuracy": 0.631768953068592,
+      "eval_loss": 0.6309793591499329,
+      "eval_runtime": 0.6606,
+      "eval_samples_per_second": 419.298,
+      "eval_steps_per_second": 7.569,
       "step": 39
     },
     {
       "epoch": 1.0256410256410255,
+      "grad_norm": 3.481339454650879,
       "learning_rate": 7.948717948717948e-05,
       "loss": 0.6793,
       "step": 40
     },
     {
       "epoch": 1.282051282051282,
+      "grad_norm": 4.932971477508545,
       "learning_rate": 7.435897435897436e-05,
+      "loss": 0.5602,
       "step": 50
     },
     {
       "epoch": 1.5384615384615383,
+      "grad_norm": 7.099682807922363,
       "learning_rate": 6.923076923076924e-05,
+      "loss": 0.5998,
       "step": 60
     },
     {
       "epoch": 1.7948717948717947,
+      "grad_norm": 3.696152925491333,
       "learning_rate": 6.410256410256412e-05,
+      "loss": 0.5403,
       "step": 70
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.6931407942238267,
+      "eval_loss": 0.6287456154823303,
+      "eval_runtime": 0.6619,
+      "eval_samples_per_second": 418.511,
+      "eval_steps_per_second": 7.554,
       "step": 78
     },
     {
       "epoch": 2.051282051282051,
+      "grad_norm": 3.8591785430908203,
       "learning_rate": 5.897435897435898e-05,
+      "loss": 0.4872,
       "step": 80
     },
     {
       "epoch": 2.3076923076923075,
+      "grad_norm": 4.27885627746582,
       "learning_rate": 5.384615384615385e-05,
+      "loss": 0.3396,
       "step": 90
     },
     {
       "epoch": 2.564102564102564,
+      "grad_norm": 4.205892562866211,
       "learning_rate": 4.871794871794872e-05,
+      "loss": 0.3372,
       "step": 100
     },
     {
       "epoch": 2.8205128205128203,
+      "grad_norm": 5.800762176513672,
       "learning_rate": 4.358974358974359e-05,
+      "loss": 0.3422,
       "step": 110
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.6787003610108303,
+      "eval_loss": 0.7227063179016113,
+      "eval_runtime": 0.6696,
+      "eval_samples_per_second": 413.706,
+      "eval_steps_per_second": 7.468,
       "step": 117
     }
   ],

run-0/checkpoint-39/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f8ec7f7b3ec4f4e47c64e07300ea6845153110e55de857fc61b53b22abee3d62
 size 437958648

 version https://git-lfs.github.com/spec/v1
+oid sha256:86da292e44eb636b62e95367ef4936d89b7b6baee6fe9119a8b62c9e977f0c9d
 size 437958648

run-0/checkpoint-39/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3d5cab3efc7529f533d1e9c8138407beef77cc54df5f93dea4c9b2ef07d9646c
 size 876038394

 version https://git-lfs.github.com/spec/v1
+oid sha256:e214d4bf994f70027fe98b044d22190bb61c8b1144a91ffbfb465e093a5c2438
 size 876038394

run-0/checkpoint-39/trainer_state.json CHANGED Viewed

@@ -11,21 +11,21 @@
   "log_history": [
     {
       "epoch": 0.2564102564102564,
-      "grad_norm": 1.662625789642334,
       "learning_rate": 9.487179487179487e-05,
       "loss": 0.696,
       "step": 10
     },
     {
       "epoch": 0.5128205128205128,
-      "grad_norm": 2.0300352573394775,
       "learning_rate": 8.974358974358975e-05,
       "loss": 0.6793,
       "step": 20
     },
     {
       "epoch": 0.7692307692307693,
-      "grad_norm": 4.492157936096191,
       "learning_rate": 8.461538461538461e-05,
       "loss": 0.6499,
       "step": 30
@@ -33,10 +33,10 @@
     {
       "epoch": 1.0,
       "eval_accuracy": 0.631768953068592,
-      "eval_loss": 0.6312768459320068,
-      "eval_runtime": 0.6623,
-      "eval_samples_per_second": 418.266,
-      "eval_steps_per_second": 7.55,
       "step": 39
     }
   ],

   "log_history": [
     {
       "epoch": 0.2564102564102564,
+      "grad_norm": 1.662626028060913,
       "learning_rate": 9.487179487179487e-05,
       "loss": 0.696,
       "step": 10
     },
     {
       "epoch": 0.5128205128205128,
+      "grad_norm": 2.0300467014312744,
       "learning_rate": 8.974358974358975e-05,
       "loss": 0.6793,
       "step": 20
     },
     {
       "epoch": 0.7692307692307693,
+      "grad_norm": 4.490738868713379,
       "learning_rate": 8.461538461538461e-05,
       "loss": 0.6499,
       "step": 30
     {
       "epoch": 1.0,
       "eval_accuracy": 0.631768953068592,
+      "eval_loss": 0.6309793591499329,
+      "eval_runtime": 0.6606,
+      "eval_samples_per_second": 419.298,
+      "eval_steps_per_second": 7.569,
       "step": 39
     }
   ],

run-0/checkpoint-39/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b2aa20791cd3401b748110a053f719d6902e4d9ccc845f2f5d2ff250a3d27441
 size 5432

 version https://git-lfs.github.com/spec/v1
+oid sha256:a9df7fcee919248151322838e3ee2bda70121eb4c651bc0be349c4f5f62deeaf
 size 5432

run-0/checkpoint-78/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:552491f5bb81693240c1212a8d55a754eab07995de8d771ad0c53d9454e1384d
 size 876038394

 version https://git-lfs.github.com/spec/v1
+oid sha256:ca0f0afc8ff9b1bbf70aee7c27e39d28e11475bb7312389acd7e3b7b91c16532
 size 876038394

run-0/checkpoint-78/trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "best_global_step": 78,
-  "best_metric": 0.6714801444043321,
   "best_model_checkpoint": "bert-base-uncased-finetuned-rte-run_14/run-0/checkpoint-78",
   "epoch": 2.0,
   "eval_steps": 500,
@@ -11,21 +11,21 @@
   "log_history": [
     {
       "epoch": 0.2564102564102564,
-      "grad_norm": 1.662625789642334,
       "learning_rate": 9.487179487179487e-05,
       "loss": 0.696,
       "step": 10
     },
     {
       "epoch": 0.5128205128205128,
-      "grad_norm": 2.0300352573394775,
       "learning_rate": 8.974358974358975e-05,
       "loss": 0.6793,
       "step": 20
     },
     {
       "epoch": 0.7692307692307693,
-      "grad_norm": 4.492157936096191,
       "learning_rate": 8.461538461538461e-05,
       "loss": 0.6499,
       "step": 30
@@ -33,47 +33,47 @@
     {
       "epoch": 1.0,
       "eval_accuracy": 0.631768953068592,
-      "eval_loss": 0.6312768459320068,
-      "eval_runtime": 0.6623,
-      "eval_samples_per_second": 418.266,
-      "eval_steps_per_second": 7.55,
       "step": 39
     },
     {
       "epoch": 1.0256410256410255,
-      "grad_norm": 3.4885644912719727,
       "learning_rate": 7.948717948717948e-05,
       "loss": 0.6793,
       "step": 40
     },
     {
       "epoch": 1.282051282051282,
-      "grad_norm": 5.2225494384765625,
       "learning_rate": 7.435897435897436e-05,
-      "loss": 0.5596,
       "step": 50
     },
     {
       "epoch": 1.5384615384615383,
-      "grad_norm": 6.484560489654541,
       "learning_rate": 6.923076923076924e-05,
-      "loss": 0.5713,
       "step": 60
     },
     {
       "epoch": 1.7948717948717947,
-      "grad_norm": 4.836739540100098,
       "learning_rate": 6.410256410256412e-05,
-      "loss": 0.545,
       "step": 70
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.6714801444043321,
-      "eval_loss": 0.658456563949585,
-      "eval_runtime": 0.6622,
-      "eval_samples_per_second": 418.306,
-      "eval_steps_per_second": 7.551,
       "step": 78
     }
   ],

 {
   "best_global_step": 78,
+  "best_metric": 0.6931407942238267,
   "best_model_checkpoint": "bert-base-uncased-finetuned-rte-run_14/run-0/checkpoint-78",
   "epoch": 2.0,
   "eval_steps": 500,
   "log_history": [
     {
       "epoch": 0.2564102564102564,
+      "grad_norm": 1.662626028060913,
       "learning_rate": 9.487179487179487e-05,
       "loss": 0.696,
       "step": 10
     },
     {
       "epoch": 0.5128205128205128,
+      "grad_norm": 2.0300467014312744,
       "learning_rate": 8.974358974358975e-05,
       "loss": 0.6793,
       "step": 20
     },
     {
       "epoch": 0.7692307692307693,
+      "grad_norm": 4.490738868713379,
       "learning_rate": 8.461538461538461e-05,
       "loss": 0.6499,
       "step": 30
     {
       "epoch": 1.0,
       "eval_accuracy": 0.631768953068592,
+      "eval_loss": 0.6309793591499329,
+      "eval_runtime": 0.6606,
+      "eval_samples_per_second": 419.298,
+      "eval_steps_per_second": 7.569,
       "step": 39
     },
     {
       "epoch": 1.0256410256410255,
+      "grad_norm": 3.481339454650879,
       "learning_rate": 7.948717948717948e-05,
       "loss": 0.6793,
       "step": 40
     },
     {
       "epoch": 1.282051282051282,
+      "grad_norm": 4.932971477508545,
       "learning_rate": 7.435897435897436e-05,
+      "loss": 0.5602,
       "step": 50
     },
     {
       "epoch": 1.5384615384615383,
+      "grad_norm": 7.099682807922363,
       "learning_rate": 6.923076923076924e-05,
+      "loss": 0.5998,
       "step": 60
     },
     {
       "epoch": 1.7948717948717947,
+      "grad_norm": 3.696152925491333,
       "learning_rate": 6.410256410256412e-05,
+      "loss": 0.5403,
       "step": 70
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.6931407942238267,
+      "eval_loss": 0.6287456154823303,
+      "eval_runtime": 0.6619,
+      "eval_samples_per_second": 418.511,
+      "eval_steps_per_second": 7.554,
       "step": 78
     }
   ],

run-0/checkpoint-78/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b2aa20791cd3401b748110a053f719d6902e4d9ccc845f2f5d2ff250a3d27441
 size 5432

 version https://git-lfs.github.com/spec/v1
+oid sha256:a9df7fcee919248151322838e3ee2bda70121eb4c651bc0be349c4f5f62deeaf
 size 5432

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d3b56f5748926563f136139b0a704c2318bef154283c8fe65f2a26a4f7f220a7
 size 5432

 version https://git-lfs.github.com/spec/v1
+oid sha256:a9df7fcee919248151322838e3ee2bda70121eb4c651bc0be349c4f5f62deeaf
 size 5432