Training in progress, step 24500, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +83 -5

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6f9311e2550653c7cfff27cdfcd9ae1c1ccbbeaa1e9481e382a45fb1ada32568
 size 891558696

 version https://git-lfs.github.com/spec/v1
+oid sha256:a24784d7d4d1fc3fbb8fc67b836bb1c712f3f7b0c64c99ff1439b5fe2a051a5b
 size 891558696

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8b0751212d7784f97747445314fe884f391f2159de9683d5358f326eecd2a4d1
 size 1783272762

 version https://git-lfs.github.com/spec/v1
+oid sha256:970bf634ac4ebe2edc929d89a76708d0db104aba94f7c07086ba7355e47fc214
 size 1783272762

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d17b897621ac09187e8d36f4eeef5f19583342b14705476fa86e2dbea16377ec
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:21c4e82da06fbd2a474e3defc7564dd624a46c9abb731c268ce51609d77b1972
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ed5584b494a8ffe5156189ac2ab8d1dfe54f3dfebb02cc807c1073c45dc03931
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:81a72d6c77b06746b972f475e80b7808db62786b79e89637fe4fa97684c444ab
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.08148019760847092,
-  "best_model_checkpoint": "./fine-tuned/checkpoint-24000",
-  "epoch": 1.92,
   "eval_steps": 500,
-  "global_step": 24000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3751,6 +3751,84 @@
       "eval_samples_per_second": 22.717,
       "eval_steps_per_second": 5.679,
       "step": 24000
     }
   ],
   "logging_steps": 50,
@@ -3770,7 +3848,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5.845995749376e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.08147666603326797,
+  "best_model_checkpoint": "./fine-tuned/checkpoint-24500",
+  "epoch": 1.96,
   "eval_steps": 500,
+  "global_step": 24500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 22.717,
       "eval_steps_per_second": 5.679,
       "step": 24000
+    },
+    {
+      "epoch": 1.924,
+      "grad_norm": 0.18958355486392975,
+      "learning_rate": 1.1496e-06,
+      "loss": 0.054,
+      "step": 24050
+    },
+    {
+      "epoch": 1.928,
+      "grad_norm": 0.12351219356060028,
+      "learning_rate": 1.0896e-06,
+      "loss": 0.0614,
+      "step": 24100
+    },
+    {
+      "epoch": 1.932,
+      "grad_norm": 0.175857812166214,
+      "learning_rate": 1.0296e-06,
+      "loss": 0.0541,
+      "step": 24150
+    },
+    {
+      "epoch": 1.936,
+      "grad_norm": 0.15968987345695496,
+      "learning_rate": 9.696e-07,
+      "loss": 0.0568,
+      "step": 24200
+    },
+    {
+      "epoch": 1.94,
+      "grad_norm": 0.15781116485595703,
+      "learning_rate": 9.096e-07,
+      "loss": 0.055,
+      "step": 24250
+    },
+    {
+      "epoch": 1.944,
+      "grad_norm": 0.17276370525360107,
+      "learning_rate": 8.496000000000001e-07,
+      "loss": 0.0475,
+      "step": 24300
+    },
+    {
+      "epoch": 1.948,
+      "grad_norm": 0.09511862695217133,
+      "learning_rate": 7.896e-07,
+      "loss": 0.0509,
+      "step": 24350
+    },
+    {
+      "epoch": 1.952,
+      "grad_norm": 0.1636885106563568,
+      "learning_rate": 7.296000000000001e-07,
+      "loss": 0.0508,
+      "step": 24400
+    },
+    {
+      "epoch": 1.956,
+      "grad_norm": 0.12255977094173431,
+      "learning_rate": 6.696e-07,
+      "loss": 0.0467,
+      "step": 24450
+    },
+    {
+      "epoch": 1.96,
+      "grad_norm": 0.18492284417152405,
+      "learning_rate": 6.096000000000001e-07,
+      "loss": 0.0559,
+      "step": 24500
+    },
+    {
+      "epoch": 1.96,
+      "eval_loss": 0.08147666603326797,
+      "eval_runtime": 88.0584,
+      "eval_samples_per_second": 22.712,
+      "eval_steps_per_second": 5.678,
+      "step": 24500
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 5.967787327488e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null