Training in progress, step 30000

Browse files

Files changed (13) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:74edd0cbfef63026b31ad51e8f4bc01025df6b2f2a0198b920cb1fc03a8579b7
 size 893438545

 version https://git-lfs.github.com/spec/v1
+oid sha256:6126f0ff62ccd2a1bb01472f31242c870de9e3dc53a06aa105077fae41608b79
 size 893438545

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:532ee195f2906ab9ce0bf8722baaca50a9bcc629a6a0003a6ae623a01b7ea889
 size 449471589

 version https://git-lfs.github.com/spec/v1
+oid sha256:b399c38e921c215c625dfa7144f627f6549650ed1df7e1ef7deb2d863ca674a9
 size 449471589

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b9e0931a17310d4650ee3518b83c618a6ffd8c6840ad8bd778d326fb339eb375
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:c0be7c4ced12e0858928365082a1279c3330778ef5c90870360fd46cc963be5c
 size 14503

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b9e0931a17310d4650ee3518b83c618a6ffd8c6840ad8bd778d326fb339eb375
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:c0be7c4ced12e0858928365082a1279c3330778ef5c90870360fd46cc963be5c
 size 14503

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b9e0931a17310d4650ee3518b83c618a6ffd8c6840ad8bd778d326fb339eb375
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:c0be7c4ced12e0858928365082a1279c3330778ef5c90870360fd46cc963be5c
 size 14503

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b9e0931a17310d4650ee3518b83c618a6ffd8c6840ad8bd778d326fb339eb375
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:c0be7c4ced12e0858928365082a1279c3330778ef5c90870360fd46cc963be5c
 size 14503

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b9e0931a17310d4650ee3518b83c618a6ffd8c6840ad8bd778d326fb339eb375
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:c0be7c4ced12e0858928365082a1279c3330778ef5c90870360fd46cc963be5c
 size 14503

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b9e0931a17310d4650ee3518b83c618a6ffd8c6840ad8bd778d326fb339eb375
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:c0be7c4ced12e0858928365082a1279c3330778ef5c90870360fd46cc963be5c
 size 14503

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b9e0931a17310d4650ee3518b83c618a6ffd8c6840ad8bd778d326fb339eb375
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:c0be7c4ced12e0858928365082a1279c3330778ef5c90870360fd46cc963be5c
 size 14503

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b9e0931a17310d4650ee3518b83c618a6ffd8c6840ad8bd778d326fb339eb375
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:c0be7c4ced12e0858928365082a1279c3330778ef5c90870360fd46cc963be5c
 size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5ca250cf2344e8df6eed15e28ea548564b75ef302cf69c48962d23fb49df8b25
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:0eff7bfd19bb5de4a804b312a4895c5e9ec017a31baa7a463d8d86ec7115b34c
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.22305744844584724,
-  "global_step": 20000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -406,11 +406,211 @@
       "eval_samples_per_second": 968.19,
       "eval_steps_per_second": 15.174,
       "step": 20000
     }
   ],
   "max_steps": 1000000,
   "num_train_epochs": 12,
-  "total_flos": 1.402005220606943e+21,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.33458617266877083,
+  "global_step": 30000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 968.19,
       "eval_steps_per_second": 15.174,
       "step": 20000
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 6.149999999999999e-05,
+      "loss": 0.5248,
+      "step": 20500
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 6.299999999999999e-05,
+      "loss": 0.5203,
+      "step": 21000
+    },
+    {
+      "epoch": 0.23,
+      "eval_loss": 0.5055692195892334,
+      "eval_runtime": 2.4443,
+      "eval_samples_per_second": 939.719,
+      "eval_steps_per_second": 14.728,
+      "step": 21000
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 6.45e-05,
+      "loss": 0.5151,
+      "step": 21500
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 6.599999999999999e-05,
+      "loss": 0.5105,
+      "step": 22000
+    },
+    {
+      "epoch": 0.25,
+      "eval_loss": 0.4966994822025299,
+      "eval_runtime": 2.3756,
+      "eval_samples_per_second": 966.927,
+      "eval_steps_per_second": 15.154,
+      "step": 22000
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 6.75e-05,
+      "loss": 0.5062,
+      "step": 22500
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 6.9e-05,
+      "loss": 0.5023,
+      "step": 23000
+    },
+    {
+      "epoch": 0.26,
+      "eval_loss": 0.4855397045612335,
+      "eval_runtime": 2.4105,
+      "eval_samples_per_second": 952.91,
+      "eval_steps_per_second": 14.935,
+      "step": 23000
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 7.049999999999999e-05,
+      "loss": 0.4981,
+      "step": 23500
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 7.199999999999999e-05,
+      "loss": 0.4951,
+      "step": 24000
+    },
+    {
+      "epoch": 0.27,
+      "eval_loss": 0.4793773889541626,
+      "eval_runtime": 2.3882,
+      "eval_samples_per_second": 961.816,
+      "eval_steps_per_second": 15.074,
+      "step": 24000
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 7.35e-05,
+      "loss": 0.4904,
+      "step": 24500
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 7.5e-05,
+      "loss": 0.4874,
+      "step": 25000
+    },
+    {
+      "epoch": 0.28,
+      "eval_loss": 0.4764867126941681,
+      "eval_runtime": 2.4085,
+      "eval_samples_per_second": 953.713,
+      "eval_steps_per_second": 14.947,
+      "step": 25000
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 7.649999999999999e-05,
+      "loss": 0.4837,
+      "step": 25500
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 7.8e-05,
+      "loss": 0.4803,
+      "step": 26000
+    },
+    {
+      "epoch": 0.29,
+      "eval_loss": 0.46588340401649475,
+      "eval_runtime": 2.4213,
+      "eval_samples_per_second": 948.654,
+      "eval_steps_per_second": 14.868,
+      "step": 26000
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 7.95e-05,
+      "loss": 0.4768,
+      "step": 26500
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 8.1e-05,
+      "loss": 0.4731,
+      "step": 27000
+    },
+    {
+      "epoch": 0.3,
+      "eval_loss": 0.4568893611431122,
+      "eval_runtime": 2.416,
+      "eval_samples_per_second": 950.734,
+      "eval_steps_per_second": 14.9,
+      "step": 27000
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 8.25e-05,
+      "loss": 0.4701,
+      "step": 27500
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 8.4e-05,
+      "loss": 0.4673,
+      "step": 28000
+    },
+    {
+      "epoch": 0.31,
+      "eval_loss": 0.45133140683174133,
+      "eval_runtime": 2.3585,
+      "eval_samples_per_second": 973.912,
+      "eval_steps_per_second": 15.264,
+      "step": 28000
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 8.549999999999999e-05,
+      "loss": 0.4637,
+      "step": 28500
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 8.699999999999999e-05,
+      "loss": 0.4607,
+      "step": 29000
+    },
+    {
+      "epoch": 0.32,
+      "eval_loss": 0.44702839851379395,
+      "eval_runtime": 2.4192,
+      "eval_samples_per_second": 949.488,
+      "eval_steps_per_second": 14.881,
+      "step": 29000
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 8.849999999999998e-05,
+      "loss": 0.4579,
+      "step": 29500
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 8.999999999999999e-05,
+      "loss": 0.4542,
+      "step": 30000
+    },
+    {
+      "epoch": 0.33,
+      "eval_loss": 0.4402887225151062,
+      "eval_runtime": 2.4131,
+      "eval_samples_per_second": 951.902,
+      "eval_steps_per_second": 14.919,
+      "step": 30000
     }
   ],
   "max_steps": 1000000,
   "num_train_epochs": 12,
+  "total_flos": 2.1030078309104144e+21,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:532ee195f2906ab9ce0bf8722baaca50a9bcc629a6a0003a6ae623a01b7ea889
 size 449471589

 version https://git-lfs.github.com/spec/v1
+oid sha256:b399c38e921c215c625dfa7144f627f6549650ed1df7e1ef7deb2d863ca674a9
 size 449471589