Training in progress, step 20500, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +81 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b1998440dc1fd1017b8e8ae1d999fce13a94dffb0b42736c732ef0d40ee60bd0
 size 891558696

 version https://git-lfs.github.com/spec/v1
+oid sha256:9f364037fe3d6208b2c05dda635ce09c71590d8662e232f0b7b434a1610e5c6b
 size 891558696

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dd973c109381ca03cc4c7ff8271e54697feff8b75e9d2abe1f7ad064426cfc27
 size 1783272762

 version https://git-lfs.github.com/spec/v1
+oid sha256:b999ec0e9bc401face62bc16ac08f4e745f2cd6b0ffba6a9f05615f8c9650e5f
 size 1783272762

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eec7922e0e8f954a67c405890db8015d9bb8a0c99cdf61294b3077009dcff9eb
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:91d0e4637157719f5fcffcd5d4a99e903acaab012174cc7599b33a508d13c5ca
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bf75de0e462da04981b7e7eaad4e35f0906a2b31e58f69cacf60ddca173fc0ea
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:d3a5ed47396b325271b233c59cffa14dc5086d4af5c552b3c7216a7a0ac3fa86
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.08186879754066467,
   "best_model_checkpoint": "./fine-tuned/checkpoint-19000",
-  "epoch": 1.6,
   "eval_steps": 500,
-  "global_step": 20000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3127,6 +3127,84 @@
       "eval_samples_per_second": 22.716,
       "eval_steps_per_second": 5.679,
       "step": 20000
     }
   ],
   "logging_steps": 50,
@@ -3146,7 +3224,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.87166312448e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.08186879754066467,
   "best_model_checkpoint": "./fine-tuned/checkpoint-19000",
+  "epoch": 1.6400000000000001,
   "eval_steps": 500,
+  "global_step": 20500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 22.716,
       "eval_steps_per_second": 5.679,
       "step": 20000
+    },
+    {
+      "epoch": 1.604,
+      "grad_norm": 0.18323849141597748,
+      "learning_rate": 5.9472e-06,
+      "loss": 0.0555,
+      "step": 20050
+    },
+    {
+      "epoch": 1.608,
+      "grad_norm": 0.10411707311868668,
+      "learning_rate": 5.8872e-06,
+      "loss": 0.0506,
+      "step": 20100
+    },
+    {
+      "epoch": 1.612,
+      "grad_norm": 0.18998867273330688,
+      "learning_rate": 5.8272e-06,
+      "loss": 0.0522,
+      "step": 20150
+    },
+    {
+      "epoch": 1.616,
+      "grad_norm": 0.159571573138237,
+      "learning_rate": 5.7672e-06,
+      "loss": 0.0527,
+      "step": 20200
+    },
+    {
+      "epoch": 1.62,
+      "grad_norm": 0.10246822983026505,
+      "learning_rate": 5.7072e-06,
+      "loss": 0.0517,
+      "step": 20250
+    },
+    {
+      "epoch": 1.624,
+      "grad_norm": 0.17232735455036163,
+      "learning_rate": 5.6472e-06,
+      "loss": 0.0559,
+      "step": 20300
+    },
+    {
+      "epoch": 1.6280000000000001,
+      "grad_norm": 0.13078981637954712,
+      "learning_rate": 5.5872e-06,
+      "loss": 0.0497,
+      "step": 20350
+    },
+    {
+      "epoch": 1.6320000000000001,
+      "grad_norm": 0.06083545461297035,
+      "learning_rate": 5.527199999999999e-06,
+      "loss": 0.0502,
+      "step": 20400
+    },
+    {
+      "epoch": 1.6360000000000001,
+      "grad_norm": 0.1311408132314682,
+      "learning_rate": 5.467200000000001e-06,
+      "loss": 0.0572,
+      "step": 20450
+    },
+    {
+      "epoch": 1.6400000000000001,
+      "grad_norm": 0.16154557466506958,
+      "learning_rate": 5.4072000000000005e-06,
+      "loss": 0.0545,
+      "step": 20500
+    },
+    {
+      "epoch": 1.6400000000000001,
+      "eval_loss": 0.08202797174453735,
+      "eval_runtime": 87.9943,
+      "eval_samples_per_second": 22.729,
+      "eval_steps_per_second": 5.682,
+      "step": 20500
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 4.993454702592e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null