Training in progress, step 375, checkpoint

Files changed (6) hide show

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e60dc13a9be0f38c3273ec0396322e8df046ab7dc8a41881063db63515dfb185
 size 25205016

 version https://git-lfs.github.com/spec/v1
+oid sha256:22b286c2a7b81b7310d1f8db2e18dc5eac7bf25c8623555bfda3247681643782
 size 25205016

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:04dabc213e593408cdafbc438c3a0a6e16453b239fbffcb809bf8cfb9c6908dd
 size 13061323

 version https://git-lfs.github.com/spec/v1
+oid sha256:dd1fc30dd04182b1f8e8a996db59c1422f4398cda9daec3cb19101e38c2c2f54
 size 13061323

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:20c730066fb7aa74695b6df8b6564b44490e40e603f80cd15c4b77e785da187d
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:9daf34a6f5cec182719ab04edb21954bac15f15a7e3ae3e9fc6e999b4ea1160f
 size 14645

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cbfdebb582e3efa85be96dfd074d121a404370a5e4c9114efc541665f084d3a8
 size 1383

 version https://git-lfs.github.com/spec/v1
+oid sha256:2a1d6e49e1244c2136fab7f3074345ca5593ed632d4d0d6d129c6fe8e480d66c
 size 1383

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fcf9aea5557374939f32266171ea84daa512daedb5e609b80ef3a7dd04f0e6f2
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:de59d3546d424e9956bea9e19bc51e16199139902a3c29741a9536eb04acc24f
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.4,
   "eval_steps": 50,
-  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -140,6 +140,35 @@
       "eval_samples_per_second": 8.4,
       "eval_steps_per_second": 1.064,
       "step": 300
     }
   ],
   "logging_steps": 25,
@@ -154,12 +183,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 5544301156761600.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.0,
   "eval_steps": 50,
+  "global_step": 375,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 8.4,
       "eval_steps_per_second": 1.064,
       "step": 300
+    },
+    {
+      "epoch": 2.6,
+      "grad_norm": 2.8476767539978027,
+      "learning_rate": 1.0336662707363287e-06,
+      "loss": 6.9329,
+      "step": 325
+    },
+    {
+      "epoch": 2.8,
+      "grad_norm": 3.1517913341522217,
+      "learning_rate": 2.921771798838069e-07,
+      "loss": 6.861,
+      "step": 350
+    },
+    {
+      "epoch": 2.8,
+      "eval_loss": 6.814030170440674,
+      "eval_runtime": 36.1954,
+      "eval_samples_per_second": 8.288,
+      "eval_steps_per_second": 1.05,
+      "step": 350
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 3.607140064239502,
+      "learning_rate": 3.3703469648760367e-09,
+      "loss": 6.8769,
+      "step": 375
     }
   ],
   "logging_steps": 25,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 6930376445952000.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null