Training in progress, epoch 3, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +78 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4befdd3f09e9c679dc40530559fabbaa4e830310fd3991e4bbaa3311dcd424c9
 size 2682482800

 version https://git-lfs.github.com/spec/v1
+oid sha256:06eac7db7293a0170434a5a23ec2899d5d06054f91f8ca97b03ece381e880aaf
 size 2682482800

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:71dba3b96b8d272909517c3dac072631e8a7f11327952878a48a37a3af524ce8
 size 5365108834

 version https://git-lfs.github.com/spec/v1
+oid sha256:fdc5048b335a64ba6e0fcfa9db527f603faeadaf4eb63cc9f7d9458347d5cc78
 size 5365108834

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:964109b969e887b4efbe365a0f65c7d5f4c4d5f54fa26ef42c5f637a18eae37f
 size 15006

 version https://git-lfs.github.com/spec/v1
+oid sha256:d562835a401abebf3538c5ff829d4da5e3b042c2e18f89b321c3c030d691c233
 size 15006

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:863cf4a7956086b9fd348589f422e8af87ea5d78b5c7d0e595c32a5aaf7e77e5
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:fca60d3e211c90170c539f1ba6815cff92dba636daaf20fea2fac1d2459b3c9f
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.9972065305108946,
   "eval_steps": 50,
-  "global_step": 753,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -232,6 +232,81 @@
       "eval_samples_per_second": 47.63,
       "eval_steps_per_second": 23.815,
       "step": 750
     }
   ],
   "logging_steps": 50,
@@ -251,7 +326,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.2018630583228826e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.9972065305108946,
   "eval_steps": 50,
+  "global_step": 1004,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 47.63,
       "eval_steps_per_second": 23.815,
       "step": 750
+    },
+    {
+      "epoch": 3.186727916071761,
+      "grad_norm": 0.9792215824127197,
+      "learning_rate": 6.812749003984064e-05,
+      "loss": 1.1527,
+      "step": 800
+    },
+    {
+      "epoch": 3.186727916071761,
+      "eval_loss": 1.1857693195343018,
+      "eval_runtime": 14.7604,
+      "eval_samples_per_second": 57.451,
+      "eval_steps_per_second": 28.726,
+      "step": 800
+    },
+    {
+      "epoch": 3.385374635297039,
+      "grad_norm": 0.916307806968689,
+      "learning_rate": 6.613545816733068e-05,
+      "loss": 1.1294,
+      "step": 850
+    },
+    {
+      "epoch": 3.385374635297039,
+      "eval_loss": 1.1673567295074463,
+      "eval_runtime": 32.8585,
+      "eval_samples_per_second": 25.808,
+      "eval_steps_per_second": 12.904,
+      "step": 850
+    },
+    {
+      "epoch": 3.5840213545223167,
+      "grad_norm": 0.9643361568450928,
+      "learning_rate": 6.414342629482072e-05,
+      "loss": 1.1162,
+      "step": 900
+    },
+    {
+      "epoch": 3.5840213545223167,
+      "eval_loss": 1.1727643013000488,
+      "eval_runtime": 14.7175,
+      "eval_samples_per_second": 57.619,
+      "eval_steps_per_second": 28.809,
+      "step": 900
+    },
+    {
+      "epoch": 3.7826680737475944,
+      "grad_norm": 0.9754778146743774,
+      "learning_rate": 6.215139442231077e-05,
+      "loss": 1.1016,
+      "step": 950
+    },
+    {
+      "epoch": 3.7826680737475944,
+      "eval_loss": 1.1499500274658203,
+      "eval_runtime": 14.7384,
+      "eval_samples_per_second": 57.537,
+      "eval_steps_per_second": 28.768,
+      "step": 950
+    },
+    {
+      "epoch": 3.9813147929728725,
+      "grad_norm": 0.9538551568984985,
+      "learning_rate": 6.01593625498008e-05,
+      "loss": 1.0814,
+      "step": 1000
+    },
+    {
+      "epoch": 3.9813147929728725,
+      "eval_loss": 1.1356687545776367,
+      "eval_runtime": 14.7227,
+      "eval_samples_per_second": 57.598,
+      "eval_steps_per_second": 28.799,
+      "step": 1000
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 1.6024625345881702e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null