Training in progress, step 4950, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +118 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:19ae8e66a3e7180ff406d73d26175f28f065c62b5e96be9581974c2a27f6e281
 size 2231685024

 version https://git-lfs.github.com/spec/v1
+oid sha256:5ed20b6874093a7161b65b1e1200cb511c0e3bd7419c8e25d5b81c923b598f96
 size 2231685024

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6bbb46111783306a8de9b03ae71ff3bcc36e74645ee420fba5fedae748ca5446
 size 4383116999

 version https://git-lfs.github.com/spec/v1
+oid sha256:327ab0018c15664bce2839f2927d845c65c2d8a53e134dfacfbde2cfb2327877
 size 4383116999

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4413b3c1c89ddb3d57ddabb40868d44f33618613ca6b14588ab3262fd959fe1a
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:b8bf0fcb1f7b613e5c7f00ca071aeebb5941a801d1488690efaa0b8ff1605c4f
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:536269e746606d89d7092eefc1d242400387136c0a490c65f4003318a00e54ce
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:b104801e8f2977a5280eca927cca74cec17e750775fe40d3bc9414c93058be59
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.7983394265174866,
-  "best_model_checkpoint": "./output/checkpoint-4800",
-  "epoch": 0.34500107812836917,
   "eval_steps": 150,
-  "global_step": 4800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3623,6 +3623,119 @@
       "eval_samples_per_second": 6.133,
       "eval_steps_per_second": 6.133,
       "step": 4800
     }
   ],
   "logging_steps": 10,
@@ -3642,7 +3755,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.088392743032586e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.7982437610626221,
+  "best_model_checkpoint": "./output/checkpoint-4950",
+  "epoch": 0.3557823618198807,
   "eval_steps": 150,
+  "global_step": 4950,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 6.133,
       "eval_steps_per_second": 6.133,
       "step": 4800
+    },
+    {
+      "epoch": 0.3457198303744699,
+      "grad_norm": 4.458255767822266,
+      "learning_rate": 2.964201089733987e-07,
+      "loss": 0.7048,
+      "step": 4810
+    },
+    {
+      "epoch": 0.3464385826205707,
+      "grad_norm": 3.821779489517212,
+      "learning_rate": 2.66072829537678e-07,
+      "loss": 0.7115,
+      "step": 4820
+    },
+    {
+      "epoch": 0.34715733486667144,
+      "grad_norm": 3.816742181777954,
+      "learning_rate": 2.3735885622078624e-07,
+      "loss": 0.7119,
+      "step": 4830
+    },
+    {
+      "epoch": 0.34787608711277224,
+      "grad_norm": 4.855486869812012,
+      "learning_rate": 2.102793693417038e-07,
+      "loss": 0.6831,
+      "step": 4840
+    },
+    {
+      "epoch": 0.348594839358873,
+      "grad_norm": 4.475304126739502,
+      "learning_rate": 1.8483548203207081e-07,
+      "loss": 0.7049,
+      "step": 4850
+    },
+    {
+      "epoch": 0.34931359160497377,
+      "grad_norm": 3.8661746978759766,
+      "learning_rate": 1.6102824019043728e-07,
+      "loss": 0.6819,
+      "step": 4860
+    },
+    {
+      "epoch": 0.3500323438510745,
+      "grad_norm": 4.284508228302002,
+      "learning_rate": 1.3885862243927072e-07,
+      "loss": 0.7462,
+      "step": 4870
+    },
+    {
+      "epoch": 0.3507510960971753,
+      "grad_norm": 3.998692512512207,
+      "learning_rate": 1.1832754008472614e-07,
+      "loss": 0.7378,
+      "step": 4880
+    },
+    {
+      "epoch": 0.35146984834327605,
+      "grad_norm": 4.27777624130249,
+      "learning_rate": 9.943583707917815e-08,
+      "loss": 0.7321,
+      "step": 4890
+    },
+    {
+      "epoch": 0.35218860058937684,
+      "grad_norm": 3.2360732555389404,
+      "learning_rate": 8.21842899865466e-08,
+      "loss": 0.7669,
+      "step": 4900
+    },
+    {
+      "epoch": 0.3529073528354776,
+      "grad_norm": 3.907960891723633,
+      "learning_rate": 6.65736079503665e-08,
+      "loss": 0.7666,
+      "step": 4910
+    },
+    {
+      "epoch": 0.3536261050815784,
+      "grad_norm": 3.8733742237091064,
+      "learning_rate": 5.260443266462467e-08,
+      "loss": 0.716,
+      "step": 4920
+    },
+    {
+      "epoch": 0.3543448573276792,
+      "grad_norm": 3.6972267627716064,
+      "learning_rate": 4.0277338347416426e-08,
+      "loss": 0.7439,
+      "step": 4930
+    },
+    {
+      "epoch": 0.3550636095737799,
+      "grad_norm": 3.7578091621398926,
+      "learning_rate": 2.9592831717293326e-08,
+      "loss": 0.6808,
+      "step": 4940
+    },
+    {
+      "epoch": 0.3557823618198807,
+      "grad_norm": 3.6677637100219727,
+      "learning_rate": 2.0551351972484257e-08,
+      "loss": 0.7256,
+      "step": 4950
+    },
+    {
+      "epoch": 0.3557823618198807,
+      "eval_loss": 0.7982437610626221,
+      "eval_runtime": 79.6541,
+      "eval_samples_per_second": 6.277,
+      "eval_steps_per_second": 6.277,
+      "step": 4950
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 4.215132315739914e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null