Training in progress, step 20000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +81 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:505ab1c5a34c51302d4bbe4a328e757e4ed0c5b5a72411048c8f13bbf2635e0c
 size 891558696

 version https://git-lfs.github.com/spec/v1
+oid sha256:b1998440dc1fd1017b8e8ae1d999fce13a94dffb0b42736c732ef0d40ee60bd0
 size 891558696

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a7d32e738e2880d3c24e7619fc2f522beb9e9c3515dd4633aed48a29ef433cf5
 size 1783272762

 version https://git-lfs.github.com/spec/v1
+oid sha256:dd973c109381ca03cc4c7ff8271e54697feff8b75e9d2abe1f7ad064426cfc27
 size 1783272762

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:93c8742c8826e2530a7b338bfc6b583a37586dd446431d091cb023f04fe4b53a
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:eec7922e0e8f954a67c405890db8015d9bb8a0c99cdf61294b3077009dcff9eb
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:588932b38df48361d8c321bcc1bc5968dc8111dbf384cded84b91367b4837f6a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:bf75de0e462da04981b7e7eaad4e35f0906a2b31e58f69cacf60ddca173fc0ea
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.08186879754066467,
   "best_model_checkpoint": "./fine-tuned/checkpoint-19000",
-  "epoch": 1.56,
   "eval_steps": 500,
-  "global_step": 19500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3049,6 +3049,84 @@
       "eval_samples_per_second": 22.703,
       "eval_steps_per_second": 5.676,
       "step": 19500
     }
   ],
   "logging_steps": 50,
@@ -3068,7 +3146,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.749871546368e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.08186879754066467,
   "best_model_checkpoint": "./fine-tuned/checkpoint-19000",
+  "epoch": 1.6,
   "eval_steps": 500,
+  "global_step": 20000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 22.703,
       "eval_steps_per_second": 5.676,
       "step": 19500
+    },
+    {
+      "epoch": 1.564,
+      "grad_norm": 0.22682276368141174,
+      "learning_rate": 6.5472e-06,
+      "loss": 0.0603,
+      "step": 19550
+    },
+    {
+      "epoch": 1.568,
+      "grad_norm": 0.13181114196777344,
+      "learning_rate": 6.4871999999999995e-06,
+      "loss": 0.0497,
+      "step": 19600
+    },
+    {
+      "epoch": 1.572,
+      "grad_norm": 0.1349440962076187,
+      "learning_rate": 6.427200000000001e-06,
+      "loss": 0.0507,
+      "step": 19650
+    },
+    {
+      "epoch": 1.576,
+      "grad_norm": 0.1361471712589264,
+      "learning_rate": 6.367200000000001e-06,
+      "loss": 0.0501,
+      "step": 19700
+    },
+    {
+      "epoch": 1.58,
+      "grad_norm": 0.25193363428115845,
+      "learning_rate": 6.3072e-06,
+      "loss": 0.0565,
+      "step": 19750
+    },
+    {
+      "epoch": 1.584,
+      "grad_norm": 0.12969471514225006,
+      "learning_rate": 6.2472e-06,
+      "loss": 0.0616,
+      "step": 19800
+    },
+    {
+      "epoch": 1.588,
+      "grad_norm": 0.18332916498184204,
+      "learning_rate": 6.187200000000001e-06,
+      "loss": 0.0513,
+      "step": 19850
+    },
+    {
+      "epoch": 1.592,
+      "grad_norm": 0.19354714453220367,
+      "learning_rate": 6.1272e-06,
+      "loss": 0.0612,
+      "step": 19900
+    },
+    {
+      "epoch": 1.596,
+      "grad_norm": 0.17420926690101624,
+      "learning_rate": 6.0672e-06,
+      "loss": 0.0604,
+      "step": 19950
+    },
+    {
+      "epoch": 1.6,
+      "grad_norm": 0.09988817572593689,
+      "learning_rate": 6.0072e-06,
+      "loss": 0.0523,
+      "step": 20000
+    },
+    {
+      "epoch": 1.6,
+      "eval_loss": 0.08189179003238678,
+      "eval_runtime": 88.0418,
+      "eval_samples_per_second": 22.716,
+      "eval_steps_per_second": 5.679,
+      "step": 20000
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 4.87166312448e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null