Training in progress, step 64080, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +219 -3

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4d86e4fe2de30a69460ddbd5a942e2bdeaafdcced717f26aaf0f853b53ef615a
 size 133863493

 version https://git-lfs.github.com/spec/v1
+oid sha256:b86a84182ff88a7c986add22427bacc5f8a51e9b3e4bef6daf556d62b008c732
 size 133863493

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d8dcb8b35abdc0e9950d3a2e2d25f8ebb8d2ffa2dc1520ac6dbd6a23b6e065b0
 size 266276525

 version https://git-lfs.github.com/spec/v1
+oid sha256:15f196a437e4c6c59c2a4538f2c12c86af84e2522719c72b5cd92e246b7260d0
 size 266276525

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:36050cdd6c371ff514eeea269cdeb435f87d40ac6c2717d3000dadc8e8f763bd
 size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:c5e339ec1c96e2c63049ee0fe678a8a0a0e5482e752b4392d3980403c0937608
 size 14575

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:87f5e4bd8575c3017fbf0da73fe3a93ea1c9f2eea5656020bfcacccea1efc8a1
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:437c711e9d81dff0bcf10e9282fa03116f3762fe3ad325416b5a0d33bd998163
 size 627

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.4000337083386003,
   "eval_steps": 500,
-  "global_step": 56960,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1739,13 +1739,229 @@
       "learning_rate": 1.4226876951923482e-07,
       "loss": 0.0107,
       "step": 56800
     }
   ],
   "logging_steps": 200,
   "max_steps": 71199,
   "num_train_epochs": 3,
   "save_steps": 7120,
-  "total_flos": 4.8291268727755776e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.7000379218809254,
   "eval_steps": 500,
+  "global_step": 64080,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 1.4226876951923482e-07,
       "loss": 0.0107,
       "step": 56800
+    },
+    {
+      "epoch": 2.4,
+      "learning_rate": 1.4029267715838705e-07,
+      "loss": 0.0067,
+      "step": 57000
+    },
+    {
+      "epoch": 2.41,
+      "learning_rate": 1.3831658479753928e-07,
+      "loss": 0.0197,
+      "step": 57200
+    },
+    {
+      "epoch": 2.42,
+      "learning_rate": 1.3634049243669152e-07,
+      "loss": 0.0094,
+      "step": 57400
+    },
+    {
+      "epoch": 2.43,
+      "learning_rate": 1.3436440007584375e-07,
+      "loss": 0.0125,
+      "step": 57600
+    },
+    {
+      "epoch": 2.44,
+      "learning_rate": 1.3238830771499598e-07,
+      "loss": 0.0099,
+      "step": 57800
+    },
+    {
+      "epoch": 2.44,
+      "learning_rate": 1.3041221535414824e-07,
+      "loss": 0.0128,
+      "step": 58000
+    },
+    {
+      "epoch": 2.45,
+      "learning_rate": 1.2843612299330047e-07,
+      "loss": 0.0129,
+      "step": 58200
+    },
+    {
+      "epoch": 2.46,
+      "learning_rate": 1.264600306324527e-07,
+      "loss": 0.0071,
+      "step": 58400
+    },
+    {
+      "epoch": 2.47,
+      "learning_rate": 1.2448393827160493e-07,
+      "loss": 0.0184,
+      "step": 58600
+    },
+    {
+      "epoch": 2.48,
+      "learning_rate": 1.2250784591075716e-07,
+      "loss": 0.0127,
+      "step": 58800
+    },
+    {
+      "epoch": 2.49,
+      "learning_rate": 1.205317535499094e-07,
+      "loss": 0.0117,
+      "step": 59000
+    },
+    {
+      "epoch": 2.49,
+      "learning_rate": 1.1855566118906164e-07,
+      "loss": 0.0133,
+      "step": 59200
+    },
+    {
+      "epoch": 2.5,
+      "learning_rate": 1.1657956882821387e-07,
+      "loss": 0.0073,
+      "step": 59400
+    },
+    {
+      "epoch": 2.51,
+      "learning_rate": 1.1460347646736612e-07,
+      "loss": 0.0115,
+      "step": 59600
+    },
+    {
+      "epoch": 2.52,
+      "learning_rate": 1.1262738410651835e-07,
+      "loss": 0.0059,
+      "step": 59800
+    },
+    {
+      "epoch": 2.53,
+      "learning_rate": 1.1065129174567058e-07,
+      "loss": 0.0073,
+      "step": 60000
+    },
+    {
+      "epoch": 2.54,
+      "learning_rate": 1.0867519938482282e-07,
+      "loss": 0.01,
+      "step": 60200
+    },
+    {
+      "epoch": 2.54,
+      "learning_rate": 1.0669910702397505e-07,
+      "loss": 0.0071,
+      "step": 60400
+    },
+    {
+      "epoch": 2.55,
+      "learning_rate": 1.0472301466312729e-07,
+      "loss": 0.0063,
+      "step": 60600
+    },
+    {
+      "epoch": 2.56,
+      "learning_rate": 1.0274692230227953e-07,
+      "loss": 0.0054,
+      "step": 60800
+    },
+    {
+      "epoch": 2.57,
+      "learning_rate": 1.0077082994143176e-07,
+      "loss": 0.0048,
+      "step": 61000
+    },
+    {
+      "epoch": 2.58,
+      "learning_rate": 9.8794737580584e-08,
+      "loss": 0.0047,
+      "step": 61200
+    },
+    {
+      "epoch": 2.59,
+      "learning_rate": 9.681864521973623e-08,
+      "loss": 0.008,
+      "step": 61400
+    },
+    {
+      "epoch": 2.6,
+      "learning_rate": 9.484255285888847e-08,
+      "loss": 0.0086,
+      "step": 61600
+    },
+    {
+      "epoch": 2.6,
+      "learning_rate": 9.28664604980407e-08,
+      "loss": 0.008,
+      "step": 61800
+    },
+    {
+      "epoch": 2.61,
+      "learning_rate": 9.089036813719293e-08,
+      "loss": 0.0067,
+      "step": 62000
+    },
+    {
+      "epoch": 2.62,
+      "learning_rate": 8.891427577634518e-08,
+      "loss": 0.006,
+      "step": 62200
+    },
+    {
+      "epoch": 2.63,
+      "learning_rate": 8.69381834154974e-08,
+      "loss": 0.0075,
+      "step": 62400
+    },
+    {
+      "epoch": 2.64,
+      "learning_rate": 8.496209105464964e-08,
+      "loss": 0.005,
+      "step": 62600
+    },
+    {
+      "epoch": 2.65,
+      "learning_rate": 8.298599869380187e-08,
+      "loss": 0.0012,
+      "step": 62800
+    },
+    {
+      "epoch": 2.65,
+      "learning_rate": 8.10099063329541e-08,
+      "loss": 0.0038,
+      "step": 63000
+    },
+    {
+      "epoch": 2.66,
+      "learning_rate": 7.903381397210635e-08,
+      "loss": 0.0077,
+      "step": 63200
+    },
+    {
+      "epoch": 2.67,
+      "learning_rate": 7.705772161125858e-08,
+      "loss": 0.0092,
+      "step": 63400
+    },
+    {
+      "epoch": 2.68,
+      "learning_rate": 7.508162925041081e-08,
+      "loss": 0.0075,
+      "step": 63600
+    },
+    {
+      "epoch": 2.69,
+      "learning_rate": 7.310553688956304e-08,
+      "loss": 0.0047,
+      "step": 63800
+    },
+    {
+      "epoch": 2.7,
+      "learning_rate": 7.112944452871529e-08,
+      "loss": 0.0057,
+      "step": 64000
     }
   ],
   "logging_steps": 200,
   "max_steps": 71199,
   "num_train_epochs": 3,
   "save_steps": 7120,
+  "total_flos": 5.4327866094867456e+17,
   "trial_name": null,
   "trial_params": null
 }