Training in progress, step 180000

Browse files

Files changed (13) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:890dc581163da8ac34698455aef8e08af0d03b6c31e289a5752b729c1a6eb8ad
 size 50044689

 version https://git-lfs.github.com/spec/v1
+oid sha256:ae1b0d96f667a7b16c0c7d2f49737d4497a498e6fce49a93b982d94c8de8309c
 size 50044689

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:478382e1e4afce83db55490eec55f2c2cc88645b07b91562f7bf2468273abbf0
 size 25761253

 version https://git-lfs.github.com/spec/v1
+oid sha256:434932d378cb26c672decfb210d19f8b4a125ed1b9443d7969a7371379940fc8
 size 25761253

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b8bf8ede2357b1086ec56810178a0bcfed2f59612fe08e69399b2d94840600f1
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:016c297c140d00f5c3ece68fb6697280ca6918ef74f0bee47ce148ceaa7045be
 size 14503

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b8bf8ede2357b1086ec56810178a0bcfed2f59612fe08e69399b2d94840600f1
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:016c297c140d00f5c3ece68fb6697280ca6918ef74f0bee47ce148ceaa7045be
 size 14503

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b8bf8ede2357b1086ec56810178a0bcfed2f59612fe08e69399b2d94840600f1
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:016c297c140d00f5c3ece68fb6697280ca6918ef74f0bee47ce148ceaa7045be
 size 14503

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b8bf8ede2357b1086ec56810178a0bcfed2f59612fe08e69399b2d94840600f1
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:016c297c140d00f5c3ece68fb6697280ca6918ef74f0bee47ce148ceaa7045be
 size 14503

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b8bf8ede2357b1086ec56810178a0bcfed2f59612fe08e69399b2d94840600f1
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:016c297c140d00f5c3ece68fb6697280ca6918ef74f0bee47ce148ceaa7045be
 size 14503

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b8bf8ede2357b1086ec56810178a0bcfed2f59612fe08e69399b2d94840600f1
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:016c297c140d00f5c3ece68fb6697280ca6918ef74f0bee47ce148ceaa7045be
 size 14503

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b8bf8ede2357b1086ec56810178a0bcfed2f59612fe08e69399b2d94840600f1
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:016c297c140d00f5c3ece68fb6697280ca6918ef74f0bee47ce148ceaa7045be
 size 14503

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b8bf8ede2357b1086ec56810178a0bcfed2f59612fe08e69399b2d94840600f1
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:016c297c140d00f5c3ece68fb6697280ca6918ef74f0bee47ce148ceaa7045be
 size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1470898ecdc6550560113c5e2cfd1e79edea6b27c0b7d35814645546c1b5bff0
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:ae7e48b658f6388c6c044e6d37239970a21307494d626979f7e10630dfa93207
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 7.583868665239115,
-  "global_step": 170000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3406,11 +3406,211 @@
       "eval_samples_per_second": 1033.305,
       "eval_steps_per_second": 16.195,
       "step": 170000
     }
   ],
   "max_steps": 250000,
   "num_train_epochs": 12,
-  "total_flos": 2.7228061248434544e+21,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 8.029978586723768,
+  "global_step": 180000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 1033.305,
       "eval_steps_per_second": 16.195,
       "step": 170000
+    },
+    {
+      "epoch": 7.61,
+      "learning_rate": 0.00015862789502737648,
+      "loss": 0.3728,
+      "step": 170500
+    },
+    {
+      "epoch": 7.63,
+      "learning_rate": 0.00015693712647480446,
+      "loss": 0.3731,
+      "step": 171000
+    },
+    {
+      "epoch": 7.63,
+      "eval_loss": 0.3457169234752655,
+      "eval_runtime": 2.2902,
+      "eval_samples_per_second": 1002.962,
+      "eval_steps_per_second": 15.719,
+      "step": 171000
+    },
+    {
+      "epoch": 7.65,
+      "learning_rate": 0.00015525283467197743,
+      "loss": 0.3727,
+      "step": 171500
+    },
+    {
+      "epoch": 7.67,
+      "learning_rate": 0.00015357509329527556,
+      "loss": 0.3726,
+      "step": 172000
+    },
+    {
+      "epoch": 7.67,
+      "eval_loss": 0.3477800190448761,
+      "eval_runtime": 2.185,
+      "eval_samples_per_second": 1051.256,
+      "eval_steps_per_second": 16.476,
+      "step": 172000
+    },
+    {
+      "epoch": 7.7,
+      "learning_rate": 0.00015190397573454158,
+      "loss": 0.3727,
+      "step": 172500
+    },
+    {
+      "epoch": 7.72,
+      "learning_rate": 0.00015023955508987127,
+      "loss": 0.3725,
+      "step": 173000
+    },
+    {
+      "epoch": 7.72,
+      "eval_loss": 0.3447197675704956,
+      "eval_runtime": 2.1651,
+      "eval_samples_per_second": 1060.935,
+      "eval_steps_per_second": 16.628,
+      "step": 173000
+    },
+    {
+      "epoch": 7.74,
+      "learning_rate": 0.00014858190416841565,
+      "loss": 0.3724,
+      "step": 173500
+    },
+    {
+      "epoch": 7.76,
+      "learning_rate": 0.00014693109548119591,
+      "loss": 0.3722,
+      "step": 174000
+    },
+    {
+      "epoch": 7.76,
+      "eval_loss": 0.3459009826183319,
+      "eval_runtime": 2.2671,
+      "eval_samples_per_second": 1013.172,
+      "eval_steps_per_second": 15.879,
+      "step": 174000
+    },
+    {
+      "epoch": 7.78,
+      "learning_rate": 0.00014528720123993226,
+      "loss": 0.3721,
+      "step": 174500
+    },
+    {
+      "epoch": 7.81,
+      "learning_rate": 0.0001436502933538841,
+      "loss": 0.3723,
+      "step": 175000
+    },
+    {
+      "epoch": 7.81,
+      "eval_loss": 0.3462165296077728,
+      "eval_runtime": 2.2195,
+      "eval_samples_per_second": 1034.906,
+      "eval_steps_per_second": 16.22,
+      "step": 175000
+    },
+    {
+      "epoch": 7.83,
+      "learning_rate": 0.00014202044342670508,
+      "loss": 0.372,
+      "step": 175500
+    },
+    {
+      "epoch": 7.85,
+      "learning_rate": 0.00014039772275331125,
+      "loss": 0.3718,
+      "step": 176000
+    },
+    {
+      "epoch": 7.85,
+      "eval_loss": 0.3463585674762726,
+      "eval_runtime": 2.2454,
+      "eval_samples_per_second": 1022.987,
+      "eval_steps_per_second": 16.033,
+      "step": 176000
+    },
+    {
+      "epoch": 7.87,
+      "learning_rate": 0.00013878220231676152,
+      "loss": 0.3716,
+      "step": 176500
+    },
+    {
+      "epoch": 7.9,
+      "learning_rate": 0.00013717395278515355,
+      "loss": 0.3716,
+      "step": 177000
+    },
+    {
+      "epoch": 7.9,
+      "eval_loss": 0.34527209401130676,
+      "eval_runtime": 2.2682,
+      "eval_samples_per_second": 1012.694,
+      "eval_steps_per_second": 15.872,
+      "step": 177000
+    },
+    {
+      "epoch": 7.92,
+      "learning_rate": 0.00013557304450853162,
+      "loss": 0.3714,
+      "step": 177500
+    },
+    {
+      "epoch": 7.94,
+      "learning_rate": 0.00013397954751581014,
+      "loss": 0.3712,
+      "step": 178000
+    },
+    {
+      "epoch": 7.94,
+      "eval_loss": 0.34656643867492676,
+      "eval_runtime": 2.2489,
+      "eval_samples_per_second": 1021.386,
+      "eval_steps_per_second": 16.008,
+      "step": 178000
+    },
+    {
+      "epoch": 7.96,
+      "learning_rate": 0.00013239353151170983,
+      "loss": 0.371,
+      "step": 178500
+    },
+    {
+      "epoch": 7.99,
+      "learning_rate": 0.00013081506587370853,
+      "loss": 0.3712,
+      "step": 179000
+    },
+    {
+      "epoch": 7.99,
+      "eval_loss": 0.34555310010910034,
+      "eval_runtime": 2.1617,
+      "eval_samples_per_second": 1062.607,
+      "eval_steps_per_second": 16.654,
+      "step": 179000
+    },
+    {
+      "epoch": 8.01,
+      "learning_rate": 0.00012924421964900695,
+      "loss": 0.371,
+      "step": 179500
+    },
+    {
+      "epoch": 8.03,
+      "learning_rate": 0.00012768106155150758,
+      "loss": 0.3709,
+      "step": 180000
+    },
+    {
+      "epoch": 8.03,
+      "eval_loss": 0.34523507952690125,
+      "eval_runtime": 2.3269,
+      "eval_samples_per_second": 987.138,
+      "eval_steps_per_second": 15.471,
+      "step": 180000
     }
   ],
   "max_steps": 250000,
   "num_train_epochs": 12,
+  "total_flos": 2.882966995727085e+21,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:478382e1e4afce83db55490eec55f2c2cc88645b07b91562f7bf2468273abbf0
 size 25761253

 version https://git-lfs.github.com/spec/v1
+oid sha256:434932d378cb26c672decfb210d19f8b4a125ed1b9443d7969a7371379940fc8
 size 25761253