Training in progress, step 80624

Files changed (6) hide show

last-checkpoint/optimizer.pt +2 -2
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +257 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:86217225d7cd41a33df6e628a809ff37337b8cae8b60b627d11b40cf0cc74d4d
-size 133906117

 version https://git-lfs.github.com/spec/v1
+oid sha256:f1a32601442637b42f7a6eb10ebea11d5d313b374e4bc71dab957e52f81ba30d
+size 133906309

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2b85119d9ce7de09760ad6f50ef01233ac40b1284c199cfe6758d0438c2f617d
 size 266387761

 version https://git-lfs.github.com/spec/v1
+oid sha256:3a81cbf5d8cd63bef63639bc99cfc0f2477944d78d679cea7a6a8bf8465875fd
 size 266387761

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ba1459a55b276706d50169f646d5abc9d3ae02b6aac4529867f3178659d9f573
 size 14511

 version https://git-lfs.github.com/spec/v1
+oid sha256:99abdf87e091757a4c26601a35007bfa738d7dc783b6dec2f7e9dcc551f7dba0
 size 14511

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4feadef87614a154dba84298df97d9e7b6305e2e944020a12c50873ae6873bdb
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:62e8dbbdc09c6ae689f3a38febec079d787f5f9cfadb6ee31fcc9975cbbabc68
 size 627

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.2250101866340198,
-  "global_step": 60468,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -758,11 +758,265 @@
       "eval_samples_per_second": 388.927,
       "eval_steps_per_second": 6.077,
       "step": 60000
     }
   ],
   "max_steps": 806202,
   "num_train_epochs": 3,
-  "total_flos": 1.0259983296107643e+18,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.3000135821786931,
+  "global_step": 80624,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 388.927,
       "eval_steps_per_second": 6.077,
       "step": 60000
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 2.3594167338706678e-05,
+      "loss": 2.9852,
+      "step": 60500
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 2.3578347234067888e-05,
+      "loss": 3.1677,
+      "step": 61000
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 2.35625271294291e-05,
+      "loss": 3.0343,
+      "step": 61500
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 2.3546707024790315e-05,
+      "loss": 2.9848,
+      "step": 62000
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 2.3530886920151525e-05,
+      "loss": 3.0706,
+      "step": 62500
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 2.351506681551274e-05,
+      "loss": 3.036,
+      "step": 63000
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 2.349924671087395e-05,
+      "loss": 2.9671,
+      "step": 63500
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 2.3483426606235166e-05,
+      "loss": 3.0112,
+      "step": 64000
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 2.3467606501596376e-05,
+      "loss": 2.9627,
+      "step": 64500
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 2.3451786396957586e-05,
+      "loss": 3.0045,
+      "step": 65000
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 2.34359662923188e-05,
+      "loss": 3.0389,
+      "step": 65500
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 2.3420146187680013e-05,
+      "loss": 2.9675,
+      "step": 66000
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 2.3404326083041223e-05,
+      "loss": 2.9137,
+      "step": 66500
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 2.3388505978402436e-05,
+      "loss": 2.9304,
+      "step": 67000
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 2.3372685873763647e-05,
+      "loss": 2.931,
+      "step": 67500
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 2.3356865769124863e-05,
+      "loss": 2.8961,
+      "step": 68000
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 2.3341045664486074e-05,
+      "loss": 2.9894,
+      "step": 68500
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 2.3325225559847284e-05,
+      "loss": 2.8711,
+      "step": 69000
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 2.3309405455208497e-05,
+      "loss": 2.8287,
+      "step": 69500
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 2.329358535056971e-05,
+      "loss": 2.899,
+      "step": 70000
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 2.327776524593092e-05,
+      "loss": 2.8684,
+      "step": 70500
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 2.3261945141292134e-05,
+      "loss": 2.8482,
+      "step": 71000
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 2.3246125036653344e-05,
+      "loss": 2.8913,
+      "step": 71500
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 2.3230304932014558e-05,
+      "loss": 2.8641,
+      "step": 72000
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 2.321448482737577e-05,
+      "loss": 2.861,
+      "step": 72500
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 2.319866472273698e-05,
+      "loss": 2.8647,
+      "step": 73000
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 2.3182844618098195e-05,
+      "loss": 2.8619,
+      "step": 73500
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 2.316702451345941e-05,
+      "loss": 2.8267,
+      "step": 74000
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 2.3151204408820622e-05,
+      "loss": 2.8155,
+      "step": 74500
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 2.3135384304181832e-05,
+      "loss": 2.876,
+      "step": 75000
+    },
+    {
+      "epoch": 0.28,
+      "eval_loss": 2.817479133605957,
+      "eval_runtime": 15565.5566,
+      "eval_samples_per_second": 389.979,
+      "eval_steps_per_second": 6.093,
+      "step": 75000
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 2.3119564199543042e-05,
+      "loss": 2.7945,
+      "step": 75500
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 2.3103744094904256e-05,
+      "loss": 2.8052,
+      "step": 76000
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 2.308792399026547e-05,
+      "loss": 2.7997,
+      "step": 76500
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 2.307210388562668e-05,
+      "loss": 2.7941,
+      "step": 77000
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 2.3056283780987893e-05,
+      "loss": 2.8057,
+      "step": 77500
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 2.3040463676349103e-05,
+      "loss": 2.8142,
+      "step": 78000
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 2.302464357171032e-05,
+      "loss": 2.8154,
+      "step": 78500
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 2.300882346707153e-05,
+      "loss": 2.7736,
+      "step": 79000
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 2.299300336243274e-05,
+      "loss": 2.8183,
+      "step": 79500
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 2.2977183257793953e-05,
+      "loss": 2.7761,
+      "step": 80000
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 2.2961363153155167e-05,
+      "loss": 2.747,
+      "step": 80500
     }
   ],
   "max_steps": 806202,
   "num_train_epochs": 3,
+  "total_flos": 1.3679977728143524e+18,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2b85119d9ce7de09760ad6f50ef01233ac40b1284c199cfe6758d0438c2f617d
 size 266387761

 version https://git-lfs.github.com/spec/v1
+oid sha256:3a81cbf5d8cd63bef63639bc99cfc0f2477944d78d679cea7a6a8bf8465875fd
 size 266387761