Training in progress, step 5000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +453 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:84f66cc33d9cd5915476a96d4590c19f424c7a30752f1c8fbfea7813b99ddcec
 size 536223056

 version https://git-lfs.github.com/spec/v1
+oid sha256:e6e1468ef363199a8ce8dceeee806e0cd1265dabba9569f802d5e0ffdf55cf29
 size 536223056

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ff96785f117afab51789d3a95126f7a57e937335d9e00258dde9f7269e32c788
 size 1072594443

 version https://git-lfs.github.com/spec/v1
+oid sha256:979fd7f70ce82e647328d9ca181635fd358343ae3c4356518a994deb8d2c7554
 size 1072594443

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:61c19bab1174704a4a4441475683bf1270277af15d2e2c95e964789128e482c4
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:098b29492211804ab324a36f37466821d948280bb74fce4ba895c03f13ecd878
 size 14645

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b42a9ebffc25267408092ad255514977530cb80117fd8185edcad8326726d7b8
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:c8c6451e983e45b2059a969443ca799e62ce60a9d34862e6b02e6b5034f66233
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9067096514205117,
   "eval_steps": 500,
-  "global_step": 4500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4058,6 +4058,456 @@
       "mean_token_accuracy": 0.8125901579856872,
       "num_tokens": 4982012.0,
       "step": 4500
     }
   ],
   "logging_steps": 10,
@@ -4077,7 +4527,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6031407455969280.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.007455168245013,
   "eval_steps": 500,
+  "global_step": 5000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "mean_token_accuracy": 0.8125901579856872,
       "num_tokens": 4982012.0,
       "step": 4500
+    },
+    {
+      "epoch": 0.9087245617570018,
+      "grad_norm": 10.875,
+      "learning_rate": 1.3943179528510981e-05,
+      "loss": 0.9166,
+      "mean_token_accuracy": 0.7789366781711579,
+      "num_tokens": 4992691.0,
+      "step": 4510
+    },
+    {
+      "epoch": 0.9107394720934918,
+      "grad_norm": 10.6875,
+      "learning_rate": 1.3929746792934382e-05,
+      "loss": 0.8536,
+      "mean_token_accuracy": 0.7905638337135314,
+      "num_tokens": 5004578.0,
+      "step": 4520
+    },
+    {
+      "epoch": 0.9127543824299819,
+      "grad_norm": 14.25,
+      "learning_rate": 1.3916314057357782e-05,
+      "loss": 0.976,
+      "mean_token_accuracy": 0.7722863137722016,
+      "num_tokens": 5015364.0,
+      "step": 4530
+    },
+    {
+      "epoch": 0.9147692927664719,
+      "grad_norm": 12.9375,
+      "learning_rate": 1.3902881321781181e-05,
+      "loss": 0.8254,
+      "mean_token_accuracy": 0.7985598504543304,
+      "num_tokens": 5026777.0,
+      "step": 4540
+    },
+    {
+      "epoch": 0.9167842031029619,
+      "grad_norm": 14.3125,
+      "learning_rate": 1.3889448586204582e-05,
+      "loss": 0.8435,
+      "mean_token_accuracy": 0.7964738607406616,
+      "num_tokens": 5038156.0,
+      "step": 4550
+    },
+    {
+      "epoch": 0.918799113439452,
+      "grad_norm": 10.8125,
+      "learning_rate": 1.3876015850627982e-05,
+      "loss": 0.9532,
+      "mean_token_accuracy": 0.7702659487724304,
+      "num_tokens": 5049182.0,
+      "step": 4560
+    },
+    {
+      "epoch": 0.920814023775942,
+      "grad_norm": 10.375,
+      "learning_rate": 1.3862583115051383e-05,
+      "loss": 0.749,
+      "mean_token_accuracy": 0.8094150185585022,
+      "num_tokens": 5060508.0,
+      "step": 4570
+    },
+    {
+      "epoch": 0.9228289341124319,
+      "grad_norm": 11.1875,
+      "learning_rate": 1.384915037947478e-05,
+      "loss": 0.9101,
+      "mean_token_accuracy": 0.780214524269104,
+      "num_tokens": 5072338.0,
+      "step": 4580
+    },
+    {
+      "epoch": 0.924843844448922,
+      "grad_norm": 11.0625,
+      "learning_rate": 1.383571764389818e-05,
+      "loss": 0.8272,
+      "mean_token_accuracy": 0.7955898463726043,
+      "num_tokens": 5083561.0,
+      "step": 4590
+    },
+    {
+      "epoch": 0.926858754785412,
+      "grad_norm": 11.125,
+      "learning_rate": 1.382228490832158e-05,
+      "loss": 0.8138,
+      "mean_token_accuracy": 0.797929847240448,
+      "num_tokens": 5095032.0,
+      "step": 4600
+    },
+    {
+      "epoch": 0.9288736651219021,
+      "grad_norm": 13.5,
+      "learning_rate": 1.380885217274498e-05,
+      "loss": 0.8166,
+      "mean_token_accuracy": 0.7943983316421509,
+      "num_tokens": 5105707.0,
+      "step": 4610
+    },
+    {
+      "epoch": 0.9308885754583921,
+      "grad_norm": 12.0625,
+      "learning_rate": 1.379541943716838e-05,
+      "loss": 0.8926,
+      "mean_token_accuracy": 0.7872261703014374,
+      "num_tokens": 5116277.0,
+      "step": 4620
+    },
+    {
+      "epoch": 0.9329034857948821,
+      "grad_norm": 10.125,
+      "learning_rate": 1.378198670159178e-05,
+      "loss": 0.8729,
+      "mean_token_accuracy": 0.7849249064922332,
+      "num_tokens": 5128524.0,
+      "step": 4630
+    },
+    {
+      "epoch": 0.9349183961313722,
+      "grad_norm": 10.625,
+      "learning_rate": 1.376855396601518e-05,
+      "loss": 0.8558,
+      "mean_token_accuracy": 0.7900417923927308,
+      "num_tokens": 5139328.0,
+      "step": 4640
+    },
+    {
+      "epoch": 0.9369333064678622,
+      "grad_norm": 10.625,
+      "learning_rate": 1.375512123043858e-05,
+      "loss": 0.8806,
+      "mean_token_accuracy": 0.7793081521987915,
+      "num_tokens": 5152047.0,
+      "step": 4650
+    },
+    {
+      "epoch": 0.9389482168043523,
+      "grad_norm": 10.6875,
+      "learning_rate": 1.374168849486198e-05,
+      "loss": 0.9167,
+      "mean_token_accuracy": 0.7699385344982147,
+      "num_tokens": 5163236.0,
+      "step": 4660
+    },
+    {
+      "epoch": 0.9409631271408422,
+      "grad_norm": 12.6875,
+      "learning_rate": 1.3728255759285381e-05,
+      "loss": 0.778,
+      "mean_token_accuracy": 0.8066167533397675,
+      "num_tokens": 5173182.0,
+      "step": 4670
+    },
+    {
+      "epoch": 0.9429780374773322,
+      "grad_norm": 10.8125,
+      "learning_rate": 1.3714823023708778e-05,
+      "loss": 0.8731,
+      "mean_token_accuracy": 0.7907391846179962,
+      "num_tokens": 5184212.0,
+      "step": 4680
+    },
+    {
+      "epoch": 0.9449929478138223,
+      "grad_norm": 14.1875,
+      "learning_rate": 1.3701390288132179e-05,
+      "loss": 0.8561,
+      "mean_token_accuracy": 0.7872300326824189,
+      "num_tokens": 5195178.0,
+      "step": 4690
+    },
+    {
+      "epoch": 0.9470078581503123,
+      "grad_norm": 10.0625,
+      "learning_rate": 1.368795755255558e-05,
+      "loss": 0.8959,
+      "mean_token_accuracy": 0.785253643989563,
+      "num_tokens": 5206174.0,
+      "step": 4700
+    },
+    {
+      "epoch": 0.9490227684868023,
+      "grad_norm": 10.1875,
+      "learning_rate": 1.3674524816978978e-05,
+      "loss": 0.82,
+      "mean_token_accuracy": 0.8018651187419892,
+      "num_tokens": 5216839.0,
+      "step": 4710
+    },
+    {
+      "epoch": 0.9510376788232924,
+      "grad_norm": 12.375,
+      "learning_rate": 1.3661092081402379e-05,
+      "loss": 1.0637,
+      "mean_token_accuracy": 0.7501500964164733,
+      "num_tokens": 5228271.0,
+      "step": 4720
+    },
+    {
+      "epoch": 0.9530525891597824,
+      "grad_norm": 12.625,
+      "learning_rate": 1.364765934582578e-05,
+      "loss": 0.9295,
+      "mean_token_accuracy": 0.7782152414321899,
+      "num_tokens": 5238828.0,
+      "step": 4730
+    },
+    {
+      "epoch": 0.9550674994962725,
+      "grad_norm": 12.0625,
+      "learning_rate": 1.363422661024918e-05,
+      "loss": 0.9794,
+      "mean_token_accuracy": 0.7655089437961579,
+      "num_tokens": 5250865.0,
+      "step": 4740
+    },
+    {
+      "epoch": 0.9570824098327625,
+      "grad_norm": 12.75,
+      "learning_rate": 1.3620793874672577e-05,
+      "loss": 0.8559,
+      "mean_token_accuracy": 0.783417934179306,
+      "num_tokens": 5261161.0,
+      "step": 4750
+    },
+    {
+      "epoch": 0.9590973201692524,
+      "grad_norm": 13.125,
+      "learning_rate": 1.3607361139095977e-05,
+      "loss": 0.8129,
+      "mean_token_accuracy": 0.8023806989192963,
+      "num_tokens": 5271735.0,
+      "step": 4760
+    },
+    {
+      "epoch": 0.9611122305057425,
+      "grad_norm": 10.3125,
+      "learning_rate": 1.3593928403519378e-05,
+      "loss": 0.9024,
+      "mean_token_accuracy": 0.7816856026649475,
+      "num_tokens": 5282948.0,
+      "step": 4770
+    },
+    {
+      "epoch": 0.9631271408422325,
+      "grad_norm": 16.375,
+      "learning_rate": 1.3580495667942777e-05,
+      "loss": 0.7899,
+      "mean_token_accuracy": 0.8060350120067596,
+      "num_tokens": 5293161.0,
+      "step": 4780
+    },
+    {
+      "epoch": 0.9651420511787225,
+      "grad_norm": 12.0625,
+      "learning_rate": 1.3567062932366177e-05,
+      "loss": 0.9497,
+      "mean_token_accuracy": 0.7778710544109344,
+      "num_tokens": 5303823.0,
+      "step": 4790
+    },
+    {
+      "epoch": 0.9671569615152126,
+      "grad_norm": 12.375,
+      "learning_rate": 1.3553630196789578e-05,
+      "loss": 0.8374,
+      "mean_token_accuracy": 0.7918814778327942,
+      "num_tokens": 5314457.0,
+      "step": 4800
+    },
+    {
+      "epoch": 0.9691718718517026,
+      "grad_norm": 13.4375,
+      "learning_rate": 1.3540197461212977e-05,
+      "loss": 1.0195,
+      "mean_token_accuracy": 0.7530766189098358,
+      "num_tokens": 5324766.0,
+      "step": 4810
+    },
+    {
+      "epoch": 0.9711867821881927,
+      "grad_norm": 12.8125,
+      "learning_rate": 1.3526764725636377e-05,
+      "loss": 0.8813,
+      "mean_token_accuracy": 0.7811478495597839,
+      "num_tokens": 5336093.0,
+      "step": 4820
+    },
+    {
+      "epoch": 0.9732016925246827,
+      "grad_norm": 10.4375,
+      "learning_rate": 1.3513331990059778e-05,
+      "loss": 0.8947,
+      "mean_token_accuracy": 0.7876034200191497,
+      "num_tokens": 5346706.0,
+      "step": 4830
+    },
+    {
+      "epoch": 0.9752166028611727,
+      "grad_norm": 15.25,
+      "learning_rate": 1.3499899254483178e-05,
+      "loss": 0.8773,
+      "mean_token_accuracy": 0.7921059668064118,
+      "num_tokens": 5357534.0,
+      "step": 4840
+    },
+    {
+      "epoch": 0.9772315131976627,
+      "grad_norm": 10.75,
+      "learning_rate": 1.3486466518906575e-05,
+      "loss": 0.895,
+      "mean_token_accuracy": 0.7818942189216613,
+      "num_tokens": 5370003.0,
+      "step": 4850
+    },
+    {
+      "epoch": 0.9792464235341527,
+      "grad_norm": 11.3125,
+      "learning_rate": 1.3473033783329976e-05,
+      "loss": 0.7589,
+      "mean_token_accuracy": 0.8098963499069214,
+      "num_tokens": 5381355.0,
+      "step": 4860
+    },
+    {
+      "epoch": 0.9812613338706427,
+      "grad_norm": 12.0625,
+      "learning_rate": 1.3459601047753376e-05,
+      "loss": 0.793,
+      "mean_token_accuracy": 0.8019460260868072,
+      "num_tokens": 5392541.0,
+      "step": 4870
+    },
+    {
+      "epoch": 0.9832762442071328,
+      "grad_norm": 14.5,
+      "learning_rate": 1.3446168312176775e-05,
+      "loss": 0.9046,
+      "mean_token_accuracy": 0.781462025642395,
+      "num_tokens": 5403838.0,
+      "step": 4880
+    },
+    {
+      "epoch": 0.9852911545436228,
+      "grad_norm": 11.25,
+      "learning_rate": 1.3432735576600176e-05,
+      "loss": 0.9039,
+      "mean_token_accuracy": 0.7840433418750763,
+      "num_tokens": 5414995.0,
+      "step": 4890
+    },
+    {
+      "epoch": 0.9873060648801129,
+      "grad_norm": 9.5,
+      "learning_rate": 1.3419302841023576e-05,
+      "loss": 0.8909,
+      "mean_token_accuracy": 0.7859670460224152,
+      "num_tokens": 5426001.0,
+      "step": 4900
+    },
+    {
+      "epoch": 0.9893209752166029,
+      "grad_norm": 13.375,
+      "learning_rate": 1.3405870105446977e-05,
+      "loss": 0.8171,
+      "mean_token_accuracy": 0.7865999937057495,
+      "num_tokens": 5438081.0,
+      "step": 4910
+    },
+    {
+      "epoch": 0.9913358855530929,
+      "grad_norm": 14.3125,
+      "learning_rate": 1.3392437369870374e-05,
+      "loss": 0.9477,
+      "mean_token_accuracy": 0.773062938451767,
+      "num_tokens": 5449464.0,
+      "step": 4920
+    },
+    {
+      "epoch": 0.9933507958895829,
+      "grad_norm": 11.3125,
+      "learning_rate": 1.3379004634293775e-05,
+      "loss": 0.9291,
+      "mean_token_accuracy": 0.7776412189006805,
+      "num_tokens": 5461080.0,
+      "step": 4930
+    },
+    {
+      "epoch": 0.9953657062260729,
+      "grad_norm": 11.625,
+      "learning_rate": 1.3365571898717175e-05,
+      "loss": 0.8828,
+      "mean_token_accuracy": 0.7811066091060639,
+      "num_tokens": 5472144.0,
+      "step": 4940
+    },
+    {
+      "epoch": 0.9973806165625629,
+      "grad_norm": 9.875,
+      "learning_rate": 1.3352139163140574e-05,
+      "loss": 0.8439,
+      "mean_token_accuracy": 0.7922865450382233,
+      "num_tokens": 5484117.0,
+      "step": 4950
+    },
+    {
+      "epoch": 0.999395526899053,
+      "grad_norm": 10.5,
+      "learning_rate": 1.3338706427563974e-05,
+      "loss": 0.8985,
+      "mean_token_accuracy": 0.7755892872810364,
+      "num_tokens": 5495916.0,
+      "step": 4960
+    },
+    {
+      "epoch": 1.001410437235543,
+      "grad_norm": 12.875,
+      "learning_rate": 1.3325273691987375e-05,
+      "loss": 0.8131,
+      "mean_token_accuracy": 0.7963548183441163,
+      "num_tokens": 5506891.0,
+      "step": 4970
+    },
+    {
+      "epoch": 1.003425347572033,
+      "grad_norm": 10.3125,
+      "learning_rate": 1.3311840956410774e-05,
+      "loss": 0.7879,
+      "mean_token_accuracy": 0.7989233016967774,
+      "num_tokens": 5519454.0,
+      "step": 4980
+    },
+    {
+      "epoch": 1.005440257908523,
+      "grad_norm": 11.875,
+      "learning_rate": 1.3298408220834174e-05,
+      "loss": 0.7878,
+      "mean_token_accuracy": 0.8067593216896057,
+      "num_tokens": 5529707.0,
+      "step": 4990
+    },
+    {
+      "epoch": 1.007455168245013,
+      "grad_norm": 11.1875,
+      "learning_rate": 1.3284975485257575e-05,
+      "loss": 0.7955,
+      "mean_token_accuracy": 0.800259780883789,
+      "num_tokens": 5541015.0,
+      "step": 5000
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 6697551334397952.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null