Training in progress, epoch 7

Browse files

Files changed (8) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +288 -3
pytorch_model.bin +1 -1
runs/Feb20_18-27-58_ubuntu-2004/events.out.tfevents.1676885321.ubuntu-2004.886785.0 +2 -2

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:27f3648a6badaba6668f8c6d4db4c2b9896ababb988525769298b2731863da37
 size 236470789

 version https://git-lfs.github.com/spec/v1
+oid sha256:b2266edb0b6b0e74ee02fbe5aa2f5218baeeafe1a239137bf990ae0aeab9a119
 size 236470789

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c3d71c32019041a99199225d8bb52225cec92c140618e167aad1e1ccb4d0d934
 size 118243218

 version https://git-lfs.github.com/spec/v1
+oid sha256:c433f5760508a1599460a99e03b20a531880dfdad44d71ab00bd1c682027dadd
 size 118243218

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ce5c3856f1342734c9ff443026f78f9d74949332f5c5b796847ea499dbf0c080
 size 15597

 version https://git-lfs.github.com/spec/v1
+oid sha256:cb85f55f522538f02d3eea0fa023913981174e2e0027d28652cb76e91ebd4d8d
 size 15597

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b278cd6e09360f31a3d837f80dee4c2ce4d9c9d186a939ecf157e1a0deb793f3
 size 557

 version https://git-lfs.github.com/spec/v1
+oid sha256:a1a10f0e22563a2ad91f9f31ad1fc6a7a42e9711d892d03058453301106a5f72
 size 557

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b1f64a9b985406894ef65cdb08cec8746d6a7f750e0466984f5ddbc1f0df99b9
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:a8f3332503ed7c858b6a78cb5232c8214dfa941a5425ab04fab1ad9da09e728b
 size 627

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 6.0,
-  "global_step": 137640,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1710,11 +1710,296 @@
       "eval_samples_per_second": 496.625,
       "eval_steps_per_second": 31.039,
       "step": 137640
     }
   ],
   "max_steps": 321160,
   "num_train_epochs": 14,
-  "total_flos": 1.041429725631959e+18,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 7.0,
+  "global_step": 160580,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 496.625,
       "eval_steps_per_second": 31.039,
       "step": 137640
+    },
+    {
+      "epoch": 6.02,
+      "learning_rate": 5.762640431768718e-05,
+      "loss": 1.9502,
+      "step": 138000
+    },
+    {
+      "epoch": 6.04,
+      "learning_rate": 5.746914589807138e-05,
+      "loss": 1.9521,
+      "step": 138500
+    },
+    {
+      "epoch": 6.06,
+      "learning_rate": 5.7311887478455593e-05,
+      "loss": 1.9533,
+      "step": 139000
+    },
+    {
+      "epoch": 6.08,
+      "learning_rate": 5.715462905883982e-05,
+      "loss": 1.9533,
+      "step": 139500
+    },
+    {
+      "epoch": 6.1,
+      "learning_rate": 5.699768515606326e-05,
+      "loss": 1.9513,
+      "step": 140000
+    },
+    {
+      "epoch": 6.12,
+      "learning_rate": 5.684042673644747e-05,
+      "loss": 1.9491,
+      "step": 140500
+    },
+    {
+      "epoch": 6.15,
+      "learning_rate": 5.668316831683168e-05,
+      "loss": 1.9514,
+      "step": 141000
+    },
+    {
+      "epoch": 6.17,
+      "learning_rate": 5.65259098972159e-05,
+      "loss": 1.9492,
+      "step": 141500
+    },
+    {
+      "epoch": 6.19,
+      "learning_rate": 5.6368965994439346e-05,
+      "loss": 1.947,
+      "step": 142000
+    },
+    {
+      "epoch": 6.21,
+      "learning_rate": 5.6211707574823556e-05,
+      "loss": 1.945,
+      "step": 142500
+    },
+    {
+      "epoch": 6.23,
+      "learning_rate": 5.605444915520778e-05,
+      "loss": 1.9505,
+      "step": 143000
+    },
+    {
+      "epoch": 6.26,
+      "learning_rate": 5.5897190735591984e-05,
+      "loss": 1.9488,
+      "step": 143500
+    },
+    {
+      "epoch": 6.28,
+      "learning_rate": 5.5740246832815436e-05,
+      "loss": 1.9451,
+      "step": 144000
+    },
+    {
+      "epoch": 6.3,
+      "learning_rate": 5.5582988413199646e-05,
+      "loss": 1.9416,
+      "step": 144500
+    },
+    {
+      "epoch": 6.32,
+      "learning_rate": 5.542572999358386e-05,
+      "loss": 1.9487,
+      "step": 145000
+    },
+    {
+      "epoch": 6.34,
+      "learning_rate": 5.5268471573968074e-05,
+      "loss": 1.9394,
+      "step": 145500
+    },
+    {
+      "epoch": 6.36,
+      "learning_rate": 5.511152767119152e-05,
+      "loss": 1.9463,
+      "step": 146000
+    },
+    {
+      "epoch": 6.39,
+      "learning_rate": 5.495426925157573e-05,
+      "loss": 1.947,
+      "step": 146500
+    },
+    {
+      "epoch": 6.41,
+      "learning_rate": 5.4797010831959947e-05,
+      "loss": 1.9424,
+      "step": 147000
+    },
+    {
+      "epoch": 6.43,
+      "learning_rate": 5.463975241234416e-05,
+      "loss": 1.9433,
+      "step": 147500
+    },
+    {
+      "epoch": 6.45,
+      "learning_rate": 5.448280850956761e-05,
+      "loss": 1.9416,
+      "step": 148000
+    },
+    {
+      "epoch": 6.47,
+      "learning_rate": 5.432555008995181e-05,
+      "loss": 1.9443,
+      "step": 148500
+    },
+    {
+      "epoch": 6.5,
+      "learning_rate": 5.4168291670336036e-05,
+      "loss": 1.9422,
+      "step": 149000
+    },
+    {
+      "epoch": 6.52,
+      "learning_rate": 5.401103325072025e-05,
+      "loss": 1.9421,
+      "step": 149500
+    },
+    {
+      "epoch": 6.54,
+      "learning_rate": 5.385408934794369e-05,
+      "loss": 1.9412,
+      "step": 150000
+    },
+    {
+      "epoch": 6.56,
+      "learning_rate": 5.36968309283279e-05,
+      "loss": 1.9411,
+      "step": 150500
+    },
+    {
+      "epoch": 6.58,
+      "learning_rate": 5.353957250871212e-05,
+      "loss": 1.9375,
+      "step": 151000
+    },
+    {
+      "epoch": 6.6,
+      "learning_rate": 5.338231408909633e-05,
+      "loss": 1.9399,
+      "step": 151500
+    },
+    {
+      "epoch": 6.63,
+      "learning_rate": 5.3225370186319776e-05,
+      "loss": 1.9344,
+      "step": 152000
+    },
+    {
+      "epoch": 6.65,
+      "learning_rate": 5.3068111766703986e-05,
+      "loss": 1.9419,
+      "step": 152500
+    },
+    {
+      "epoch": 6.67,
+      "learning_rate": 5.291085334708821e-05,
+      "loss": 1.9353,
+      "step": 153000
+    },
+    {
+      "epoch": 6.69,
+      "learning_rate": 5.275359492747241e-05,
+      "loss": 1.9386,
+      "step": 153500
+    },
+    {
+      "epoch": 6.71,
+      "learning_rate": 5.259633650785664e-05,
+      "loss": 1.9403,
+      "step": 154000
+    },
+    {
+      "epoch": 6.73,
+      "learning_rate": 5.2439392605080076e-05,
+      "loss": 1.9336,
+      "step": 154500
+    },
+    {
+      "epoch": 6.76,
+      "learning_rate": 5.228213418546429e-05,
+      "loss": 1.934,
+      "step": 155000
+    },
+    {
+      "epoch": 6.78,
+      "learning_rate": 5.21248757658485e-05,
+      "loss": 1.9322,
+      "step": 155500
+    },
+    {
+      "epoch": 6.8,
+      "learning_rate": 5.196761734623272e-05,
+      "loss": 1.9316,
+      "step": 156000
+    },
+    {
+      "epoch": 6.82,
+      "learning_rate": 5.181067344345617e-05,
+      "loss": 1.9319,
+      "step": 156500
+    },
+    {
+      "epoch": 6.84,
+      "learning_rate": 5.1653415023840376e-05,
+      "loss": 1.937,
+      "step": 157000
+    },
+    {
+      "epoch": 6.87,
+      "learning_rate": 5.1496156604224586e-05,
+      "loss": 1.9324,
+      "step": 157500
+    },
+    {
+      "epoch": 6.89,
+      "learning_rate": 5.133889818460881e-05,
+      "loss": 1.9305,
+      "step": 158000
+    },
+    {
+      "epoch": 6.91,
+      "learning_rate": 5.1181954281832256e-05,
+      "loss": 1.932,
+      "step": 158500
+    },
+    {
+      "epoch": 6.93,
+      "learning_rate": 5.1024695862216466e-05,
+      "loss": 1.9298,
+      "step": 159000
+    },
+    {
+      "epoch": 6.95,
+      "learning_rate": 5.0867437442600676e-05,
+      "loss": 1.9289,
+      "step": 159500
+    },
+    {
+      "epoch": 6.97,
+      "learning_rate": 5.071017902298489e-05,
+      "loss": 1.9263,
+      "step": 160000
+    },
+    {
+      "epoch": 7.0,
+      "learning_rate": 5.055323512020834e-05,
+      "loss": 1.9313,
+      "step": 160500
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.631738439030596,
+      "eval_loss": 1.8091248273849487,
+      "eval_runtime": 359.593,
+      "eval_samples_per_second": 494.871,
+      "eval_steps_per_second": 30.929,
+      "step": 160580
     }
   ],
   "max_steps": 321160,
   "num_train_epochs": 14,
+  "total_flos": 1.2150058886378496e+18,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c3d71c32019041a99199225d8bb52225cec92c140618e167aad1e1ccb4d0d934
 size 118243218

 version https://git-lfs.github.com/spec/v1
+oid sha256:c433f5760508a1599460a99e03b20a531880dfdad44d71ab00bd1c682027dadd
 size 118243218

runs/Feb20_18-27-58_ubuntu-2004/events.out.tfevents.1676885321.ubuntu-2004.886785.0 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:421928b94b23f10aa10b0c399afa84e783ed1e8b949a4822fbce947b89041721
-size 49630

 version https://git-lfs.github.com/spec/v1
+oid sha256:76ccf92c99516f4744f2ccb27d9c0dd34d687200b637d2a59ebecfb67ba42c1f
+size 57319