Training in progress, epoch 4, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +78 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:06eac7db7293a0170434a5a23ec2899d5d06054f91f8ca97b03ece381e880aaf
 size 2682482800

 version https://git-lfs.github.com/spec/v1
+oid sha256:4b8a05354bfc115960dd16218e1ebb70714a6d58cf36c6dfcbb59abbf712ee6c
 size 2682482800

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fdc5048b335a64ba6e0fcfa9db527f603faeadaf4eb63cc9f7d9458347d5cc78
 size 5365108834

 version https://git-lfs.github.com/spec/v1
+oid sha256:789221ac653e4b18a53f5043ec5c3993652f6e86b04a6c8b6fa2041e24213b49
 size 5365108834

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d562835a401abebf3538c5ff829d4da5e3b042c2e18f89b321c3c030d691c233
 size 15006

 version https://git-lfs.github.com/spec/v1
+oid sha256:1791dcc0c8e5d9192b7663e1b585ff1dccd113452a5e1d1cca250b5164d37cb8
 size 15006

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fca60d3e211c90170c539f1ba6815cff92dba636daaf20fea2fac1d2459b3c9f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:52002c03f9e92e22821e4d80f4cf803ea1f4727e756138e319ab19f9be28c22e
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 3.9972065305108946,
   "eval_steps": 50,
-  "global_step": 1004,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -307,6 +307,81 @@
       "eval_samples_per_second": 57.598,
       "eval_steps_per_second": 28.799,
       "step": 1000
     }
   ],
   "logging_steps": 50,
@@ -326,7 +401,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.6024625345881702e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 4.997206530510894,
   "eval_steps": 50,
+  "global_step": 1255,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 57.598,
       "eval_steps_per_second": 28.799,
       "step": 1000
+    },
+    {
+      "epoch": 4.182754981687255,
+      "grad_norm": 0.9160069227218628,
+      "learning_rate": 5.816733067729084e-05,
+      "loss": 1.0749,
+      "step": 1050
+    },
+    {
+      "epoch": 4.182754981687255,
+      "eval_loss": 1.1225874423980713,
+      "eval_runtime": 14.7411,
+      "eval_samples_per_second": 57.526,
+      "eval_steps_per_second": 28.763,
+      "step": 1050
+    },
+    {
+      "epoch": 4.381401700912534,
+      "grad_norm": 1.1243151426315308,
+      "learning_rate": 5.6175298804780876e-05,
+      "loss": 1.0462,
+      "step": 1100
+    },
+    {
+      "epoch": 4.381401700912534,
+      "eval_loss": 1.1159089803695679,
+      "eval_runtime": 14.5859,
+      "eval_samples_per_second": 58.138,
+      "eval_steps_per_second": 29.069,
+      "step": 1100
+    },
+    {
+      "epoch": 4.580048420137811,
+      "grad_norm": 1.018583059310913,
+      "learning_rate": 5.418326693227092e-05,
+      "loss": 1.052,
+      "step": 1150
+    },
+    {
+      "epoch": 4.580048420137811,
+      "eval_loss": 1.1180405616760254,
+      "eval_runtime": 14.8148,
+      "eval_samples_per_second": 57.24,
+      "eval_steps_per_second": 28.62,
+      "step": 1150
+    },
+    {
+      "epoch": 4.778695139363089,
+      "grad_norm": 0.9607245922088623,
+      "learning_rate": 5.219123505976096e-05,
+      "loss": 1.0432,
+      "step": 1200
+    },
+    {
+      "epoch": 4.778695139363089,
+      "eval_loss": 1.0965369939804077,
+      "eval_runtime": 14.6889,
+      "eval_samples_per_second": 57.731,
+      "eval_steps_per_second": 28.865,
+      "step": 1200
+    },
+    {
+      "epoch": 4.977341858588367,
+      "grad_norm": 1.06922447681427,
+      "learning_rate": 5.0199203187251e-05,
+      "loss": 1.0289,
+      "step": 1250
+    },
+    {
+      "epoch": 4.977341858588367,
+      "eval_loss": 1.1008275747299194,
+      "eval_runtime": 14.6242,
+      "eval_samples_per_second": 57.986,
+      "eval_steps_per_second": 28.993,
+      "step": 1250
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 2.0033664206870938e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null