Training in progress, step 130000

Browse files

Files changed (13) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f5c1a1f468fc2d342a23f1ac0d5752569966a310ca13ca1f923b43583a411e84
 size 50044689

 version https://git-lfs.github.com/spec/v1
+oid sha256:eb9dcc4ff2bc74ab69f0263634058bb8fb9cc796ba30099ac6af07a524413216
 size 50044689

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:65a92e8166f8fa9a54e98da57dbdf5c7d7bdbe9bb899a7638fe74e0582796f58
 size 25761253

 version https://git-lfs.github.com/spec/v1
+oid sha256:77770474995765e28cd3f772259c3b9f70956913fcf88d26cfbea63dec9f29f8
 size 25761253

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:44b70180124cd582ce1fec2362a6c7b1500fac5e37241e6e64ee705ea6e177b8
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:3017ce4acc395c8911d9ef1e39e206b06d5a44dba6f5be7a0a365fda3aceface
 size 14503

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:44b70180124cd582ce1fec2362a6c7b1500fac5e37241e6e64ee705ea6e177b8
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:3017ce4acc395c8911d9ef1e39e206b06d5a44dba6f5be7a0a365fda3aceface
 size 14503

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:44b70180124cd582ce1fec2362a6c7b1500fac5e37241e6e64ee705ea6e177b8
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:3017ce4acc395c8911d9ef1e39e206b06d5a44dba6f5be7a0a365fda3aceface
 size 14503

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:44b70180124cd582ce1fec2362a6c7b1500fac5e37241e6e64ee705ea6e177b8
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:3017ce4acc395c8911d9ef1e39e206b06d5a44dba6f5be7a0a365fda3aceface
 size 14503

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:44b70180124cd582ce1fec2362a6c7b1500fac5e37241e6e64ee705ea6e177b8
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:3017ce4acc395c8911d9ef1e39e206b06d5a44dba6f5be7a0a365fda3aceface
 size 14503

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:44b70180124cd582ce1fec2362a6c7b1500fac5e37241e6e64ee705ea6e177b8
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:3017ce4acc395c8911d9ef1e39e206b06d5a44dba6f5be7a0a365fda3aceface
 size 14503

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:44b70180124cd582ce1fec2362a6c7b1500fac5e37241e6e64ee705ea6e177b8
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:3017ce4acc395c8911d9ef1e39e206b06d5a44dba6f5be7a0a365fda3aceface
 size 14503

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:44b70180124cd582ce1fec2362a6c7b1500fac5e37241e6e64ee705ea6e177b8
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:3017ce4acc395c8911d9ef1e39e206b06d5a44dba6f5be7a0a365fda3aceface
 size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c534c69c702472a462ee5c5c8e40f09fd7295b5cb464c1c3364c271724c3d05b
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:fa61e63d6ec853afa02e48d5167bab30a383bd9f05f192b20c686fb9a3478097
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 5.353319057815845,
-  "global_step": 120000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2406,11 +2406,211 @@
       "eval_samples_per_second": 1070.506,
       "eval_steps_per_second": 16.778,
       "step": 120000
     }
   ],
   "max_steps": 250000,
   "num_train_epochs": 12,
-  "total_flos": 1.9219803744787812e+21,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 5.799428979300499,
+  "global_step": 130000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 1070.506,
       "eval_steps_per_second": 16.778,
       "step": 120000
+    },
+    {
+      "epoch": 5.38,
+      "learning_rate": 0.0003468073028890751,
+      "loss": 0.3886,
+      "step": 120500
+    },
+    {
+      "epoch": 5.4,
+      "learning_rate": 0.0003448750009162916,
+      "loss": 0.3887,
+      "step": 121000
+    },
+    {
+      "epoch": 5.4,
+      "eval_loss": 0.3600543737411499,
+      "eval_runtime": 2.1567,
+      "eval_samples_per_second": 1065.071,
+      "eval_steps_per_second": 16.692,
+      "step": 121000
+    },
+    {
+      "epoch": 5.42,
+      "learning_rate": 0.00034294095468179094,
+      "loss": 0.3881,
+      "step": 121500
+    },
+    {
+      "epoch": 5.44,
+      "learning_rate": 0.00034100524878702073,
+      "loss": 0.3883,
+      "step": 122000
+    },
+    {
+      "epoch": 5.44,
+      "eval_loss": 0.3610630929470062,
+      "eval_runtime": 2.1629,
+      "eval_samples_per_second": 1061.977,
+      "eval_steps_per_second": 16.644,
+      "step": 122000
+    },
+    {
+      "epoch": 5.46,
+      "learning_rate": 0.000339067967906028,
+      "loss": 0.4695,
+      "step": 122500
+    },
+    {
+      "epoch": 5.49,
+      "learning_rate": 0.0003371291967817539,
+      "loss": 0.6776,
+      "step": 123000
+    },
+    {
+      "epoch": 5.49,
+      "eval_loss": 0.6768860220909119,
+      "eval_runtime": 2.1959,
+      "eval_samples_per_second": 1046.056,
+      "eval_steps_per_second": 16.394,
+      "step": 123000
+    },
+    {
+      "epoch": 5.51,
+      "learning_rate": 0.0003351890202223285,
+      "loss": 0.6171,
+      "step": 123500
+    },
+    {
+      "epoch": 5.53,
+      "learning_rate": 0.0003332475230973597,
+      "loss": 0.3917,
+      "step": 124000
+    },
+    {
+      "epoch": 5.53,
+      "eval_loss": 0.36259856820106506,
+      "eval_runtime": 2.1732,
+      "eval_samples_per_second": 1056.948,
+      "eval_steps_per_second": 16.565,
+      "step": 124000
+    },
+    {
+      "epoch": 5.55,
+      "learning_rate": 0.00033130479033422134,
+      "loss": 0.3889,
+      "step": 124500
+    },
+    {
+      "epoch": 5.58,
+      "learning_rate": 0.0003293609069143381,
+      "loss": 0.3897,
+      "step": 125000
+    },
+    {
+      "epoch": 5.58,
+      "eval_loss": 0.3617185652256012,
+      "eval_runtime": 2.1669,
+      "eval_samples_per_second": 1060.024,
+      "eval_steps_per_second": 16.613,
+      "step": 125000
+    },
+    {
+      "epoch": 5.6,
+      "learning_rate": 0.00032741595786946783,
+      "loss": 0.3879,
+      "step": 125500
+    },
+    {
+      "epoch": 5.62,
+      "learning_rate": 0.000325470028277983,
+      "loss": 0.3869,
+      "step": 126000
+    },
+    {
+      "epoch": 5.62,
+      "eval_loss": 0.35780513286590576,
+      "eval_runtime": 2.1966,
+      "eval_samples_per_second": 1045.71,
+      "eval_steps_per_second": 16.389,
+      "step": 126000
+    },
+    {
+      "epoch": 5.64,
+      "learning_rate": 0.00032352320326114754,
+      "loss": 0.3868,
+      "step": 126500
+    },
+    {
+      "epoch": 5.67,
+      "learning_rate": 0.00032157556797939436,
+      "loss": 0.3864,
+      "step": 127000
+    },
+    {
+      "epoch": 5.67,
+      "eval_loss": 0.35783183574676514,
+      "eval_runtime": 2.2195,
+      "eval_samples_per_second": 1034.94,
+      "eval_steps_per_second": 16.22,
+      "step": 127000
+    },
+    {
+      "epoch": 5.69,
+      "learning_rate": 0.00031962720762860057,
+      "loss": 0.3865,
+      "step": 127500
+    },
+    {
+      "epoch": 5.71,
+      "learning_rate": 0.0003176782074363595,
+      "loss": 0.3862,
+      "step": 128000
+    },
+    {
+      "epoch": 5.71,
+      "eval_loss": 0.35733312368392944,
+      "eval_runtime": 2.1604,
+      "eval_samples_per_second": 1063.224,
+      "eval_steps_per_second": 16.664,
+      "step": 128000
+    },
+    {
+      "epoch": 5.73,
+      "learning_rate": 0.0003157286526582535,
+      "loss": 0.3858,
+      "step": 128500
+    },
+    {
+      "epoch": 5.75,
+      "learning_rate": 0.0003137786285741241,
+      "loss": 0.3855,
+      "step": 129000
+    },
+    {
+      "epoch": 5.75,
+      "eval_loss": 0.3577572703361511,
+      "eval_runtime": 2.1724,
+      "eval_samples_per_second": 1057.343,
+      "eval_steps_per_second": 16.571,
+      "step": 129000
+    },
+    {
+      "epoch": 5.78,
+      "learning_rate": 0.0003118282204843421,
+      "loss": 0.3854,
+      "step": 129500
+    },
+    {
+      "epoch": 5.8,
+      "learning_rate": 0.0003098775137060758,
+      "loss": 0.3854,
+      "step": 130000
+    },
+    {
+      "epoch": 5.8,
+      "eval_loss": 0.357120543718338,
+      "eval_runtime": 2.158,
+      "eval_samples_per_second": 1064.4,
+      "eval_steps_per_second": 16.682,
+      "step": 130000
     }
   ],
   "max_steps": 250000,
   "num_train_epochs": 12,
+  "total_flos": 2.0821483773445852e+21,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:65a92e8166f8fa9a54e98da57dbdf5c7d7bdbe9bb899a7638fe74e0582796f58
 size 25761253

 version https://git-lfs.github.com/spec/v1
+oid sha256:77770474995765e28cd3f772259c3b9f70956913fcf88d26cfbea63dec9f29f8
 size 25761253