Training in progress, step 144, checkpoint

Browse files

Files changed (3) hide show

last-checkpoint/model-00001-of-00002.safetensors +1 -1
last-checkpoint/model-00002-of-00002.safetensors +1 -1
last-checkpoint/trainer_state.json +123 -3

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f80a7bc4478514fc43b45340abbcbdc55ece8273b526f2861e622e00eaec86ef
 size 4969539560

 version https://git-lfs.github.com/spec/v1
+oid sha256:47ff32476ecc21d56bff8791c9c19cc9356ce3dd7fcc8242010e48d55c769041
 size 4969539560

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ba52b61c5ccddc47cf4dc6c884fd2e506b81bcd29dba3aab266c2a249a913285
 size 1912795688

 version https://git-lfs.github.com/spec/v1
+oid sha256:78bfd1c19c7ea6b2dab65d32007db116ce032d73875b76b9a0b25bc3b2426bf7
 size 1912795688

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 32.0,
   "eval_steps": 16,
-  "global_step": 128,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -968,6 +968,126 @@
       "eval_samples_per_second": 16.554,
       "eval_steps_per_second": 16.554,
       "step": 128
     }
   ],
   "logging_steps": 1,
@@ -987,7 +1107,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.292905152282624e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 36.0,
   "eval_steps": 16,
+  "global_step": 144,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 16.554,
       "eval_steps_per_second": 16.554,
       "step": 128
+    },
+    {
+      "epoch": 32.29090909090909,
+      "grad_norm": 7.1595611572265625,
+      "learning_rate": 8.737029101523929e-08,
+      "loss": 0.7418,
+      "step": 129
+    },
+    {
+      "epoch": 32.58181818181818,
+      "grad_norm": 7.2520294189453125,
+      "learning_rate": 8.709627021193817e-08,
+      "loss": 0.7407,
+      "step": 130
+    },
+    {
+      "epoch": 32.872727272727275,
+      "grad_norm": 6.757298469543457,
+      "learning_rate": 8.681980515339464e-08,
+      "loss": 0.7486,
+      "step": 131
+    },
+    {
+      "epoch": 33.0,
+      "grad_norm": 6.70634651184082,
+      "learning_rate": 8.65409168934933e-08,
+      "loss": 0.7381,
+      "step": 132
+    },
+    {
+      "epoch": 33.29090909090909,
+      "grad_norm": 8.267258644104004,
+      "learning_rate": 8.625962667065488e-08,
+      "loss": 0.8277,
+      "step": 133
+    },
+    {
+      "epoch": 33.58181818181818,
+      "grad_norm": 6.568601608276367,
+      "learning_rate": 8.597595590621892e-08,
+      "loss": 0.7345,
+      "step": 134
+    },
+    {
+      "epoch": 33.872727272727275,
+      "grad_norm": 6.368529796600342,
+      "learning_rate": 8.568992620281244e-08,
+      "loss": 0.6949,
+      "step": 135
+    },
+    {
+      "epoch": 34.0,
+      "grad_norm": 6.077971458435059,
+      "learning_rate": 8.540155934270471e-08,
+      "loss": 0.6427,
+      "step": 136
+    },
+    {
+      "epoch": 34.29090909090909,
+      "grad_norm": 6.2005743980407715,
+      "learning_rate": 8.511087728614862e-08,
+      "loss": 0.7113,
+      "step": 137
+    },
+    {
+      "epoch": 34.58181818181818,
+      "grad_norm": 6.390923023223877,
+      "learning_rate": 8.481790216970819e-08,
+      "loss": 0.7422,
+      "step": 138
+    },
+    {
+      "epoch": 34.872727272727275,
+      "grad_norm": 7.773628234863281,
+      "learning_rate": 8.452265630457283e-08,
+      "loss": 0.7829,
+      "step": 139
+    },
+    {
+      "epoch": 35.0,
+      "grad_norm": 7.676466941833496,
+      "learning_rate": 8.422516217485826e-08,
+      "loss": 0.718,
+      "step": 140
+    },
+    {
+      "epoch": 35.29090909090909,
+      "grad_norm": 6.630233287811279,
+      "learning_rate": 8.392544243589427e-08,
+      "loss": 0.7046,
+      "step": 141
+    },
+    {
+      "epoch": 35.58181818181818,
+      "grad_norm": 6.816230297088623,
+      "learning_rate": 8.362351991249938e-08,
+      "loss": 0.7685,
+      "step": 142
+    },
+    {
+      "epoch": 35.872727272727275,
+      "grad_norm": 6.341788291931152,
+      "learning_rate": 8.331941759724268e-08,
+      "loss": 0.6774,
+      "step": 143
+    },
+    {
+      "epoch": 36.0,
+      "grad_norm": 8.306670188903809,
+      "learning_rate": 8.301315864869288e-08,
+      "loss": 0.9019,
+      "step": 144
+    },
+    {
+      "epoch": 36.0,
+      "eval_loss": 0.7050113677978516,
+      "eval_runtime": 0.7541,
+      "eval_samples_per_second": 17.239,
+      "eval_steps_per_second": 17.239,
+      "step": 144
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 4.829518296317952e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null