Training in progress, step 57000, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +294 -6

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:37d8cb0a48975371483c8d0f0ea6cbaf3751d2262e07e187669c5fa919e08bdd
 size 373077376

 version https://git-lfs.github.com/spec/v1
+oid sha256:0cae5bd40cebc93aa05562030f2b12652a8c928f29de2177774bdfb46d57e338
 size 373077376

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0698df592b4199333ec83aae72823b0afe639bf7b1724f696793eea67074662d
 size 422377931

 version https://git-lfs.github.com/spec/v1
+oid sha256:3455cdb481c045d67e6c29cc19cbf512f3f4349a97202825124c73528f7b3652
 size 422377931

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1b1f38a3490635b3698eb8dc53557f282297c0ad5c2a0688b8ef197ae933742a
 size 15365

 version https://git-lfs.github.com/spec/v1
+oid sha256:e189d953d56fbbb1dc48bf345790e84a3fa8ff54652aa62e6c6b85a7192fc179
 size 15365

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:79ac1919bb29ab4ae2b1b0fd8994bb6245a7e65efdd03caed0c32a8061880453
 size 15365

 version https://git-lfs.github.com/spec/v1
+oid sha256:f952436541ae47c1950b5a1b819228a6aa1f641c3a191645aa67b0892fe0b260
 size 15365

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8d1a2675a27b09581871a511c3a1b6270fe19135aa45d2b488c95610aa4071bf
 size 15365

 version https://git-lfs.github.com/spec/v1
+oid sha256:71bb0fe2b2559162529fb3a1e66e184ec5cc1d927ba0e24ba8b4215d6d671a7b
 size 15365

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:093642c6af6e0eff31531a5cc5f33bd12f66b88e390ca8a0b353843eca5d3d88
 size 15365

 version https://git-lfs.github.com/spec/v1
+oid sha256:cf14548f27ec2bb28d193492f3a62a0d7bf30afb378a1eaed2530adf64f04c79
 size 15365

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5a43a1adab58b12e1b9f398e0b2131e69a1f26da62e19f0d8154a7da3af2a7c5
 size 1401

 version https://git-lfs.github.com/spec/v1
+oid sha256:cca6fb53f371a50c66a1841bfc607b1baa7b2a69fcea3747532bd4d0962b4499
 size 1401

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 55000,
-  "best_metric": 2.553321599960327,
-  "best_model_checkpoint": "./artifacts/models/pretrain-4gpu-8k-ckpt/checkpoint-55000",
-  "epoch": 0.98083861701755,
   "eval_steps": 1000,
-  "global_step": 56000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -16136,6 +16136,294 @@
       "eval_samples_per_second": 100.371,
       "eval_steps_per_second": 3.158,
       "step": 56000
     }
   ],
   "logging_steps": 25,
@@ -16155,7 +16443,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.8403068460916015e+19,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 57000,
+  "best_metric": 2.5533201694488525,
+  "best_model_checkpoint": "./artifacts/models/pretrain-4gpu-8k-ckpt/checkpoint-57000",
+  "epoch": 0.9983535923214348,
   "eval_steps": 1000,
+  "global_step": 57000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 100.371,
       "eval_steps_per_second": 3.158,
       "step": 56000
+    },
+    {
+      "epoch": 0.9812764914001472,
+      "grad_norm": 0.2109375,
+      "learning_rate": 9.59941896743366e-07,
+      "loss": 2.5361,
+      "step": 56025
+    },
+    {
+      "epoch": 0.9817143657827443,
+      "grad_norm": 0.20703125,
+      "learning_rate": 9.156223661438423e-07,
+      "loss": 2.5396,
+      "step": 56050
+    },
+    {
+      "epoch": 0.9821522401653414,
+      "grad_norm": 0.212890625,
+      "learning_rate": 8.723493140556648e-07,
+      "loss": 2.5361,
+      "step": 56075
+    },
+    {
+      "epoch": 0.9825901145479385,
+      "grad_norm": 0.203125,
+      "learning_rate": 8.301228312136422e-07,
+      "loss": 2.5437,
+      "step": 56100
+    },
+    {
+      "epoch": 0.9830279889305356,
+      "grad_norm": 0.2177734375,
+      "learning_rate": 7.88943006158116e-07,
+      "loss": 2.5395,
+      "step": 56125
+    },
+    {
+      "epoch": 0.9834658633131327,
+      "grad_norm": 0.21875,
+      "learning_rate": 7.488099252347946e-07,
+      "loss": 2.5497,
+      "step": 56150
+    },
+    {
+      "epoch": 0.9839037376957298,
+      "grad_norm": 0.21484375,
+      "learning_rate": 7.097236725945866e-07,
+      "loss": 2.5393,
+      "step": 56175
+    },
+    {
+      "epoch": 0.9843416120783269,
+      "grad_norm": 0.212890625,
+      "learning_rate": 6.716843301934894e-07,
+      "loss": 2.5412,
+      "step": 56200
+    },
+    {
+      "epoch": 0.9847794864609241,
+      "grad_norm": 0.2138671875,
+      "learning_rate": 6.346919777922011e-07,
+      "loss": 2.546,
+      "step": 56225
+    },
+    {
+      "epoch": 0.9852173608435212,
+      "grad_norm": 0.212890625,
+      "learning_rate": 5.987466929561757e-07,
+      "loss": 2.546,
+      "step": 56250
+    },
+    {
+      "epoch": 0.9856552352261183,
+      "grad_norm": 0.2265625,
+      "learning_rate": 5.638485510554014e-07,
+      "loss": 2.5372,
+      "step": 56275
+    },
+    {
+      "epoch": 0.9860931096087154,
+      "grad_norm": 0.2197265625,
+      "learning_rate": 5.29997625264178e-07,
+      "loss": 2.5395,
+      "step": 56300
+    },
+    {
+      "epoch": 0.9865309839913126,
+      "grad_norm": 0.255859375,
+      "learning_rate": 4.971939865610064e-07,
+      "loss": 2.5328,
+      "step": 56325
+    },
+    {
+      "epoch": 0.9869688583739097,
+      "grad_norm": 0.2255859375,
+      "learning_rate": 4.654377037284774e-07,
+      "loss": 2.5318,
+      "step": 56350
+    },
+    {
+      "epoch": 0.9874067327565068,
+      "grad_norm": 0.2021484375,
+      "learning_rate": 4.347288433530494e-07,
+      "loss": 2.5302,
+      "step": 56375
+    },
+    {
+      "epoch": 0.9878446071391039,
+      "grad_norm": 0.20703125,
+      "learning_rate": 4.050674698248824e-07,
+      "loss": 2.5494,
+      "step": 56400
+    },
+    {
+      "epoch": 0.9882824815217011,
+      "grad_norm": 0.2138671875,
+      "learning_rate": 3.764536453380041e-07,
+      "loss": 2.5285,
+      "step": 56425
+    },
+    {
+      "epoch": 0.9887203559042982,
+      "grad_norm": 0.2158203125,
+      "learning_rate": 3.4888742988964383e-07,
+      "loss": 2.5454,
+      "step": 56450
+    },
+    {
+      "epoch": 0.9891582302868953,
+      "grad_norm": 0.2177734375,
+      "learning_rate": 3.2236888128067687e-07,
+      "loss": 2.5468,
+      "step": 56475
+    },
+    {
+      "epoch": 0.9895961046694924,
+      "grad_norm": 0.21484375,
+      "learning_rate": 2.968980551150136e-07,
+      "loss": 2.5422,
+      "step": 56500
+    },
+    {
+      "epoch": 0.9900339790520896,
+      "grad_norm": 0.21875,
+      "learning_rate": 2.7247500479982145e-07,
+      "loss": 2.5383,
+      "step": 56525
+    },
+    {
+      "epoch": 0.9904718534346867,
+      "grad_norm": 0.208984375,
+      "learning_rate": 2.490997815453033e-07,
+      "loss": 2.5277,
+      "step": 56550
+    },
+    {
+      "epoch": 0.9909097278172838,
+      "grad_norm": 0.2197265625,
+      "learning_rate": 2.2677243436453056e-07,
+      "loss": 2.5163,
+      "step": 56575
+    },
+    {
+      "epoch": 0.9913476021998809,
+      "grad_norm": 0.220703125,
+      "learning_rate": 2.054930100734431e-07,
+      "loss": 2.5343,
+      "step": 56600
+    },
+    {
+      "epoch": 0.9917854765824781,
+      "grad_norm": 0.212890625,
+      "learning_rate": 1.8526155329057214e-07,
+      "loss": 2.5355,
+      "step": 56625
+    },
+    {
+      "epoch": 0.9922233509650752,
+      "grad_norm": 0.2138671875,
+      "learning_rate": 1.6607810643731737e-07,
+      "loss": 2.5432,
+      "step": 56650
+    },
+    {
+      "epoch": 0.9926612253476722,
+      "grad_norm": 0.216796875,
+      "learning_rate": 1.47942709737392e-07,
+      "loss": 2.5337,
+      "step": 56675
+    },
+    {
+      "epoch": 0.9930990997302693,
+      "grad_norm": 0.2119140625,
+      "learning_rate": 1.3085540121698937e-07,
+      "loss": 2.5476,
+      "step": 56700
+    },
+    {
+      "epoch": 0.9935369741128665,
+      "grad_norm": 0.224609375,
+      "learning_rate": 1.1481621670478282e-07,
+      "loss": 2.5355,
+      "step": 56725
+    },
+    {
+      "epoch": 0.9939748484954636,
+      "grad_norm": 0.2109375,
+      "learning_rate": 9.982518983170375e-08,
+      "loss": 2.5383,
+      "step": 56750
+    },
+    {
+      "epoch": 0.9944127228780607,
+      "grad_norm": 0.2080078125,
+      "learning_rate": 8.58823520308305e-08,
+      "loss": 2.542,
+      "step": 56775
+    },
+    {
+      "epoch": 0.9948505972606578,
+      "grad_norm": 0.220703125,
+      "learning_rate": 7.298773253749946e-08,
+      "loss": 2.5432,
+      "step": 56800
+    },
+    {
+      "epoch": 0.995288471643255,
+      "grad_norm": 0.212890625,
+      "learning_rate": 6.114135838908296e-08,
+      "loss": 2.5368,
+      "step": 56825
+    },
+    {
+      "epoch": 0.9957263460258521,
+      "grad_norm": 0.212890625,
+      "learning_rate": 5.0343254425044837e-08,
+      "loss": 2.5428,
+      "step": 56850
+    },
+    {
+      "epoch": 0.9961642204084492,
+      "grad_norm": 0.216796875,
+      "learning_rate": 4.0593443286773834e-08,
+      "loss": 2.5417,
+      "step": 56875
+    },
+    {
+      "epoch": 0.9966020947910463,
+      "grad_norm": 0.2109375,
+      "learning_rate": 3.189194541769469e-08,
+      "loss": 2.5482,
+      "step": 56900
+    },
+    {
+      "epoch": 0.9970399691736435,
+      "grad_norm": 0.21484375,
+      "learning_rate": 2.4238779063046057e-08,
+      "loss": 2.5316,
+      "step": 56925
+    },
+    {
+      "epoch": 0.9974778435562406,
+      "grad_norm": 0.2138671875,
+      "learning_rate": 1.7633960269991535e-08,
+      "loss": 2.5438,
+      "step": 56950
+    },
+    {
+      "epoch": 0.9979157179388377,
+      "grad_norm": 0.2119140625,
+      "learning_rate": 1.2077502887453129e-08,
+      "loss": 2.538,
+      "step": 56975
+    },
+    {
+      "epoch": 0.9983535923214348,
+      "grad_norm": 0.2109375,
+      "learning_rate": 7.569418566222286e-09,
+      "loss": 2.5309,
+      "step": 57000
+    },
+    {
+      "epoch": 0.9983535923214348,
+      "eval_loss": 2.5533201694488525,
+      "eval_runtime": 36.4092,
+      "eval_samples_per_second": 100.387,
+      "eval_steps_per_second": 3.159,
+      "step": 57000
     }
   ],
   "logging_steps": 25,
       "attributes": {}
     }
   },
+  "total_flos": 2.8910359451038384e+19,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null