Training in progress, step 39000, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +353 -3

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:85198d44150dd14dc748ac40b8bc5114b47ca08dc1aa2350d3a07d27b2e60109
 size 319352826

 version https://git-lfs.github.com/spec/v1
+oid sha256:fa8d092167263760751be7d64325984a75b7703a340e78d50675e80c3268d124
 size 319352826

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d0510082ca4b5d270ea3f0da8ac5e584aa078b6cb148f402cd1ad606f52c0a03
 size 900372486

 version https://git-lfs.github.com/spec/v1
+oid sha256:d61ec51d8d7118e96f0dea2c3a25213ed4312020f0758f383f9360478751ced5
 size 900372486

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2f9cea07efef388aaa4d845d75160c41a0dd68d3421684c54fac1c07520d2735
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:fa7750a42bfcb857f2a8e98481152c1819f20fb160a29916eafdca1fe7427f50
 size 14960

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ebdc426ed788887085056988e2767e2a6aa14d71ec9f52eb10bf22f7d91d20f9
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:50dcdff9fd2af9b5bad6141fb049dadfa5202e5b29d58dd20b462f210d858734
 size 14960

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bac533bc34534beac3208835cd7735cfe0091b41649f1553a7021e09465ecf25
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:21f1502aa78044a36b5816c5c55d8e465c4014bfb315f8f493433e3ca45e7ae7
 size 14960

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:adbdc7018bdeed82712d18c65f68c2bcdc595394c33ad7aba1ba358ae13f0a71
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:5a17f91aa15ca7b8a7e9989ef3ca40593acdf2c68462ffb083c0202e8a25a1ee
 size 14960

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f7cbf3f1b2d5b56d9f5b71f70765a3b4d09f29112fad8f5bfc47e27378749620
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:fa403d369b1ca2463cb498c59fd6da0c0d97bf23ae0774f6dd0f5ad165ffa16e
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.05628995846393591,
   "eval_steps": 500,
-  "global_step": 38000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -13308,6 +13308,356 @@
       "learning_rate": 4.907397438075633e-05,
       "loss": 22.7662,
       "step": 38000
     }
   ],
   "logging_steps": 20,
@@ -13327,7 +13677,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 7.030978338202059e+19,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.057771273160355276,
   "eval_steps": 500,
+  "global_step": 39000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 4.907397438075633e-05,
       "loss": 22.7662,
       "step": 38000
+    },
+    {
+      "epoch": 0.0563195847578643,
+      "grad_norm": 7.8125,
+      "learning_rate": 4.9073480487255576e-05,
+      "loss": 22.8013,
+      "step": 38020
+    },
+    {
+      "epoch": 0.056349211051792684,
+      "grad_norm": 8.375,
+      "learning_rate": 4.907298659375481e-05,
+      "loss": 22.7253,
+      "step": 38040
+    },
+    {
+      "epoch": 0.05637883734572107,
+      "grad_norm": 8.0,
+      "learning_rate": 4.907249270025406e-05,
+      "loss": 22.8673,
+      "step": 38060
+    },
+    {
+      "epoch": 0.056408463639649464,
+      "grad_norm": 8.5,
+      "learning_rate": 4.907199880675331e-05,
+      "loss": 22.773,
+      "step": 38080
+    },
+    {
+      "epoch": 0.05643808993357785,
+      "grad_norm": 8.3125,
+      "learning_rate": 4.907150491325255e-05,
+      "loss": 22.7193,
+      "step": 38100
+    },
+    {
+      "epoch": 0.05646771622750624,
+      "grad_norm": 8.1875,
+      "learning_rate": 4.907101101975179e-05,
+      "loss": 22.8162,
+      "step": 38120
+    },
+    {
+      "epoch": 0.056497342521434624,
+      "grad_norm": 8.9375,
+      "learning_rate": 4.907051712625104e-05,
+      "loss": 22.7384,
+      "step": 38140
+    },
+    {
+      "epoch": 0.05652696881536301,
+      "grad_norm": 8.6875,
+      "learning_rate": 4.907002323275028e-05,
+      "loss": 22.7555,
+      "step": 38160
+    },
+    {
+      "epoch": 0.0565565951092914,
+      "grad_norm": 7.3125,
+      "learning_rate": 4.906952933924952e-05,
+      "loss": 22.7421,
+      "step": 38180
+    },
+    {
+      "epoch": 0.05658622140321978,
+      "grad_norm": 8.75,
+      "learning_rate": 4.906903544574876e-05,
+      "loss": 22.7838,
+      "step": 38200
+    },
+    {
+      "epoch": 0.056615847697148176,
+      "grad_norm": 8.4375,
+      "learning_rate": 4.906854155224801e-05,
+      "loss": 22.7588,
+      "step": 38220
+    },
+    {
+      "epoch": 0.05664547399107656,
+      "grad_norm": 7.375,
+      "learning_rate": 4.9068047658747254e-05,
+      "loss": 22.7246,
+      "step": 38240
+    },
+    {
+      "epoch": 0.05667510028500495,
+      "grad_norm": 8.3125,
+      "learning_rate": 4.906755376524649e-05,
+      "loss": 22.7522,
+      "step": 38260
+    },
+    {
+      "epoch": 0.056704726578933336,
+      "grad_norm": 8.875,
+      "learning_rate": 4.906705987174574e-05,
+      "loss": 22.7606,
+      "step": 38280
+    },
+    {
+      "epoch": 0.05673435287286172,
+      "grad_norm": 12.25,
+      "learning_rate": 4.9066565978244984e-05,
+      "loss": 22.7347,
+      "step": 38300
+    },
+    {
+      "epoch": 0.05676397916679011,
+      "grad_norm": 8.8125,
+      "learning_rate": 4.906607208474423e-05,
+      "loss": 22.7115,
+      "step": 38320
+    },
+    {
+      "epoch": 0.056793605460718495,
+      "grad_norm": 9.0,
+      "learning_rate": 4.9065578191243465e-05,
+      "loss": 22.6453,
+      "step": 38340
+    },
+    {
+      "epoch": 0.05682323175464688,
+      "grad_norm": 12.875,
+      "learning_rate": 4.9065084297742715e-05,
+      "loss": 22.7791,
+      "step": 38360
+    },
+    {
+      "epoch": 0.056852858048575275,
+      "grad_norm": 9.75,
+      "learning_rate": 4.906459040424196e-05,
+      "loss": 22.6924,
+      "step": 38380
+    },
+    {
+      "epoch": 0.05688248434250366,
+      "grad_norm": 9.1875,
+      "learning_rate": 4.9064096510741195e-05,
+      "loss": 22.6704,
+      "step": 38400
+    },
+    {
+      "epoch": 0.05691211063643205,
+      "grad_norm": 7.5625,
+      "learning_rate": 4.906360261724044e-05,
+      "loss": 22.7041,
+      "step": 38420
+    },
+    {
+      "epoch": 0.056941736930360434,
+      "grad_norm": 7.59375,
+      "learning_rate": 4.906310872373969e-05,
+      "loss": 22.7381,
+      "step": 38440
+    },
+    {
+      "epoch": 0.05697136322428882,
+      "grad_norm": 8.25,
+      "learning_rate": 4.906261483023893e-05,
+      "loss": 22.8227,
+      "step": 38460
+    },
+    {
+      "epoch": 0.05700098951821721,
+      "grad_norm": 8.4375,
+      "learning_rate": 4.906212093673817e-05,
+      "loss": 22.7251,
+      "step": 38480
+    },
+    {
+      "epoch": 0.057030615812145594,
+      "grad_norm": 7.6875,
+      "learning_rate": 4.906162704323741e-05,
+      "loss": 22.6936,
+      "step": 38500
+    },
+    {
+      "epoch": 0.05706024210607398,
+      "grad_norm": 8.8125,
+      "learning_rate": 4.906113314973666e-05,
+      "loss": 22.7815,
+      "step": 38520
+    },
+    {
+      "epoch": 0.05708986840000237,
+      "grad_norm": 8.875,
+      "learning_rate": 4.90606392562359e-05,
+      "loss": 22.7159,
+      "step": 38540
+    },
+    {
+      "epoch": 0.05711949469393076,
+      "grad_norm": 8.875,
+      "learning_rate": 4.906014536273514e-05,
+      "loss": 22.7325,
+      "step": 38560
+    },
+    {
+      "epoch": 0.057149120987859146,
+      "grad_norm": 8.375,
+      "learning_rate": 4.905965146923439e-05,
+      "loss": 22.7178,
+      "step": 38580
+    },
+    {
+      "epoch": 0.05717874728178753,
+      "grad_norm": 8.3125,
+      "learning_rate": 4.9059157575733636e-05,
+      "loss": 22.7357,
+      "step": 38600
+    },
+    {
+      "epoch": 0.05720837357571592,
+      "grad_norm": 8.0,
+      "learning_rate": 4.905866368223287e-05,
+      "loss": 22.7835,
+      "step": 38620
+    },
+    {
+      "epoch": 0.057237999869644306,
+      "grad_norm": 8.0,
+      "learning_rate": 4.9058169788732116e-05,
+      "loss": 22.7622,
+      "step": 38640
+    },
+    {
+      "epoch": 0.05726762616357269,
+      "grad_norm": 11.0,
+      "learning_rate": 4.9057675895231366e-05,
+      "loss": 22.7288,
+      "step": 38660
+    },
+    {
+      "epoch": 0.05729725245750108,
+      "grad_norm": 8.0,
+      "learning_rate": 4.90571820017306e-05,
+      "loss": 22.8271,
+      "step": 38680
+    },
+    {
+      "epoch": 0.05732687875142947,
+      "grad_norm": 8.8125,
+      "learning_rate": 4.9056688108229846e-05,
+      "loss": 22.8034,
+      "step": 38700
+    },
+    {
+      "epoch": 0.05735650504535786,
+      "grad_norm": 7.75,
+      "learning_rate": 4.905619421472909e-05,
+      "loss": 22.7918,
+      "step": 38720
+    },
+    {
+      "epoch": 0.057386131339286245,
+      "grad_norm": 8.375,
+      "learning_rate": 4.905570032122834e-05,
+      "loss": 22.7912,
+      "step": 38740
+    },
+    {
+      "epoch": 0.05741575763321463,
+      "grad_norm": 7.25,
+      "learning_rate": 4.9055206427727576e-05,
+      "loss": 22.6727,
+      "step": 38760
+    },
+    {
+      "epoch": 0.05744538392714302,
+      "grad_norm": 8.0,
+      "learning_rate": 4.905471253422682e-05,
+      "loss": 22.799,
+      "step": 38780
+    },
+    {
+      "epoch": 0.057475010221071404,
+      "grad_norm": 7.9375,
+      "learning_rate": 4.905421864072606e-05,
+      "loss": 22.7086,
+      "step": 38800
+    },
+    {
+      "epoch": 0.05750463651499979,
+      "grad_norm": 8.6875,
+      "learning_rate": 4.9053724747225314e-05,
+      "loss": 22.7619,
+      "step": 38820
+    },
+    {
+      "epoch": 0.05753426280892818,
+      "grad_norm": 9.5,
+      "learning_rate": 4.905323085372455e-05,
+      "loss": 22.7321,
+      "step": 38840
+    },
+    {
+      "epoch": 0.05756388910285657,
+      "grad_norm": 7.03125,
+      "learning_rate": 4.9052736960223794e-05,
+      "loss": 22.7381,
+      "step": 38860
+    },
+    {
+      "epoch": 0.05759351539678496,
+      "grad_norm": 7.84375,
+      "learning_rate": 4.9052243066723044e-05,
+      "loss": 22.6783,
+      "step": 38880
+    },
+    {
+      "epoch": 0.05762314169071334,
+      "grad_norm": 7.75,
+      "learning_rate": 4.905174917322228e-05,
+      "loss": 22.7077,
+      "step": 38900
+    },
+    {
+      "epoch": 0.05765276798464173,
+      "grad_norm": 8.1875,
+      "learning_rate": 4.9051255279721524e-05,
+      "loss": 22.7116,
+      "step": 38920
+    },
+    {
+      "epoch": 0.057682394278570116,
+      "grad_norm": 8.375,
+      "learning_rate": 4.905076138622077e-05,
+      "loss": 22.6759,
+      "step": 38940
+    },
+    {
+      "epoch": 0.0577120205724985,
+      "grad_norm": 9.25,
+      "learning_rate": 4.905026749272002e-05,
+      "loss": 22.7974,
+      "step": 38960
+    },
+    {
+      "epoch": 0.05774164686642689,
+      "grad_norm": 8.625,
+      "learning_rate": 4.9049773599219254e-05,
+      "loss": 22.7558,
+      "step": 38980
+    },
+    {
+      "epoch": 0.057771273160355276,
+      "grad_norm": 10.5625,
+      "learning_rate": 4.90492797057185e-05,
+      "loss": 22.7169,
+      "step": 39000
     }
   ],
   "logging_steps": 20,
       "attributes": {}
     }
   },
+  "total_flos": 7.216003991715447e+19,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": null