Training in progress, step 18000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +81 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e8ffabfeec9f6eebd2a7900dd8bf8405bf07a25820f0a7c5d6b4d5a8bfa48293
 size 891558696

 version https://git-lfs.github.com/spec/v1
+oid sha256:0e87cb14acd4e6fe6bcad897a8f042f31acae6fb2e34f61ed68b17e469e4f393
 size 891558696

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7c081cd44daea3b6fc16a00cbe0211572d0c0a312f0060bc10c918341394bda2
 size 1783272762

 version https://git-lfs.github.com/spec/v1
+oid sha256:5e64bb265a77f08e4da4240e30c68e0a0ae7eb01df9530a76fcba45020acfd6b
 size 1783272762

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:afa26191eaed430ee9b2402f370925cf1a280b0be2f2a361324924659b56d574
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:ea1c5d0777adfd9f21aec03650885c94d8b0325360d164ecc81c3a16d777cc03
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3e544656266b7150eb42d485eede2fd99a780796aabfa23eadeeb94220226471
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:4bc3c023f1bacc02e7db4990bce2636fd592e49ea544612a30431a586cc170fc
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.0821109265089035,
   "best_model_checkpoint": "./fine-tuned/checkpoint-17500",
-  "epoch": 1.4,
   "eval_steps": 500,
-  "global_step": 17500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2737,6 +2737,84 @@
       "eval_samples_per_second": 22.71,
       "eval_steps_per_second": 5.677,
       "step": 17500
     }
   ],
   "logging_steps": 50,
@@ -2756,7 +2834,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.26270523392e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.0821109265089035,
   "best_model_checkpoint": "./fine-tuned/checkpoint-17500",
+  "epoch": 1.44,
   "eval_steps": 500,
+  "global_step": 18000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 22.71,
       "eval_steps_per_second": 5.677,
       "step": 17500
+    },
+    {
+      "epoch": 1.404,
+      "grad_norm": 0.1634778082370758,
+      "learning_rate": 8.9448e-06,
+      "loss": 0.0532,
+      "step": 17550
+    },
+    {
+      "epoch": 1.408,
+      "grad_norm": 0.12161219865083694,
+      "learning_rate": 8.8848e-06,
+      "loss": 0.0541,
+      "step": 17600
+    },
+    {
+      "epoch": 1.412,
+      "grad_norm": 0.15347328782081604,
+      "learning_rate": 8.824799999999999e-06,
+      "loss": 0.0535,
+      "step": 17650
+    },
+    {
+      "epoch": 1.416,
+      "grad_norm": 0.07917541265487671,
+      "learning_rate": 8.7648e-06,
+      "loss": 0.0552,
+      "step": 17700
+    },
+    {
+      "epoch": 1.42,
+      "grad_norm": 0.15406325459480286,
+      "learning_rate": 8.7048e-06,
+      "loss": 0.0584,
+      "step": 17750
+    },
+    {
+      "epoch": 1.424,
+      "grad_norm": 0.21300417184829712,
+      "learning_rate": 8.6448e-06,
+      "loss": 0.0565,
+      "step": 17800
+    },
+    {
+      "epoch": 1.428,
+      "grad_norm": 0.20691223442554474,
+      "learning_rate": 8.584800000000001e-06,
+      "loss": 0.0504,
+      "step": 17850
+    },
+    {
+      "epoch": 1.432,
+      "grad_norm": 0.1366143375635147,
+      "learning_rate": 8.5248e-06,
+      "loss": 0.0573,
+      "step": 17900
+    },
+    {
+      "epoch": 1.436,
+      "grad_norm": 0.11994505673646927,
+      "learning_rate": 8.4648e-06,
+      "loss": 0.0576,
+      "step": 17950
+    },
+    {
+      "epoch": 1.44,
+      "grad_norm": 0.06461376696825027,
+      "learning_rate": 8.404800000000001e-06,
+      "loss": 0.0595,
+      "step": 18000
+    },
+    {
+      "epoch": 1.44,
+      "eval_loss": 0.08217783272266388,
+      "eval_runtime": 88.0706,
+      "eval_samples_per_second": 22.709,
+      "eval_steps_per_second": 5.677,
+      "step": 18000
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 4.384496812032e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null