Training in progress, step 3500, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +903 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9954efb766a4618113b96a524d55f94d09d87a3792b59e5ed9bd7a12a9c3cf8e
 size 2384234968

 version https://git-lfs.github.com/spec/v1
+oid sha256:29b32b64478cbdeda9875145bb265427fdfdcfc88b4dfa3e973d6646373e0a0f
 size 2384234968

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:17b68b3ca976f7fd977408a7a53989ae17957719ab53b8d074cea81d998e9c4d
 size 4768663315

 version https://git-lfs.github.com/spec/v1
+oid sha256:8cc9bb74074cb17bdb9685f131305e9e7ae2f53f82516e862de8e7a638f79006
 size 4768663315

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:de69a2834426ff9ef8199d077e00892579278af31d8969d77f98235b5cfc010a
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:2534e434cd5abbb8f7668d3eab0549db0ef95d6a797a3efa86b712e8e32266a7
 size 14645

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8ee2e9e1516affc6da40a027df47b003edcf1d9f7876c83392a1a532d8732f81
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:a1ccf15ab626b17b6464b860472b5e0620f2d570991113393ae691c84ea2b523
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.4509903504316912,
   "eval_steps": 100,
-  "global_step": 2500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2258,6 +2258,906 @@
       "mean_token_accuracy": 0.7767490215599537,
       "num_tokens": 20478464.0,
       "step": 2500
     }
   ],
   "logging_steps": 10,
@@ -2277,7 +3177,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5.41205816452055e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.0313429587172602,
   "eval_steps": 100,
+  "global_step": 3500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "mean_token_accuracy": 0.7767490215599537,
       "num_tokens": 20478464.0,
       "step": 2500
+    },
+    {
+      "epoch": 1.4567946020459988,
+      "grad_norm": 1.3819377422332764,
+      "learning_rate": 5.717970765262253e-06,
+      "loss": 0.0996,
+      "mean_token_accuracy": 0.7780210342258215,
+      "num_tokens": 20560384.0,
+      "step": 2510
+    },
+    {
+      "epoch": 1.4625988536603063,
+      "grad_norm": 1.2591315507888794,
+      "learning_rate": 5.696474634565779e-06,
+      "loss": 0.0934,
+      "mean_token_accuracy": 0.7870963752269745,
+      "num_tokens": 20642304.0,
+      "step": 2520
+    },
+    {
+      "epoch": 1.4684031052746136,
+      "grad_norm": 1.2373124361038208,
+      "learning_rate": 5.674978503869304e-06,
+      "loss": 0.09,
+      "mean_token_accuracy": 0.7776785731315613,
+      "num_tokens": 20724224.0,
+      "step": 2530
+    },
+    {
+      "epoch": 1.4742073568889211,
+      "grad_norm": 1.255920648574829,
+      "learning_rate": 5.653482373172829e-06,
+      "loss": 0.1054,
+      "mean_token_accuracy": 0.7527152694761753,
+      "num_tokens": 20806144.0,
+      "step": 2540
+    },
+    {
+      "epoch": 1.4800116085032287,
+      "grad_norm": 1.8799701929092407,
+      "learning_rate": 5.631986242476355e-06,
+      "loss": 0.0987,
+      "mean_token_accuracy": 0.7734344460070133,
+      "num_tokens": 20888064.0,
+      "step": 2550
+    },
+    {
+      "epoch": 1.485815860117536,
+      "grad_norm": 1.6360814571380615,
+      "learning_rate": 5.61049011177988e-06,
+      "loss": 0.0818,
+      "mean_token_accuracy": 0.7760029345750808,
+      "num_tokens": 20969984.0,
+      "step": 2560
+    },
+    {
+      "epoch": 1.4916201117318435,
+      "grad_norm": 1.651768445968628,
+      "learning_rate": 5.588993981083406e-06,
+      "loss": 0.0922,
+      "mean_token_accuracy": 0.787769079208374,
+      "num_tokens": 21051904.0,
+      "step": 2570
+    },
+    {
+      "epoch": 1.497424363346151,
+      "grad_norm": 1.5460911989212036,
+      "learning_rate": 5.567497850386931e-06,
+      "loss": 0.1021,
+      "mean_token_accuracy": 0.7730185888707638,
+      "num_tokens": 21133824.0,
+      "step": 2580
+    },
+    {
+      "epoch": 1.5032286149604586,
+      "grad_norm": 1.3855364322662354,
+      "learning_rate": 5.546001719690456e-06,
+      "loss": 0.1081,
+      "mean_token_accuracy": 0.7509540095925331,
+      "num_tokens": 21215744.0,
+      "step": 2590
+    },
+    {
+      "epoch": 1.509032866574766,
+      "grad_norm": 1.7831671237945557,
+      "learning_rate": 5.524505588993981e-06,
+      "loss": 0.0976,
+      "mean_token_accuracy": 0.7773605681955814,
+      "num_tokens": 21297664.0,
+      "step": 2600
+    },
+    {
+      "epoch": 1.5148371181890736,
+      "grad_norm": 1.4737831354141235,
+      "learning_rate": 5.503009458297507e-06,
+      "loss": 0.091,
+      "mean_token_accuracy": 0.7802592940628529,
+      "num_tokens": 21379584.0,
+      "step": 2610
+    },
+    {
+      "epoch": 1.520641369803381,
+      "grad_norm": 1.8076776266098022,
+      "learning_rate": 5.481513327601032e-06,
+      "loss": 0.0919,
+      "mean_token_accuracy": 0.7831947166472674,
+      "num_tokens": 21461504.0,
+      "step": 2620
+    },
+    {
+      "epoch": 1.5264456214176885,
+      "grad_norm": 1.5028278827667236,
+      "learning_rate": 5.460017196904558e-06,
+      "loss": 0.1015,
+      "mean_token_accuracy": 0.7705234806984663,
+      "num_tokens": 21543424.0,
+      "step": 2630
+    },
+    {
+      "epoch": 1.5322498730319958,
+      "grad_norm": 1.859098196029663,
+      "learning_rate": 5.4385210662080835e-06,
+      "loss": 0.1083,
+      "mean_token_accuracy": 0.7652274943888188,
+      "num_tokens": 21625344.0,
+      "step": 2640
+    },
+    {
+      "epoch": 1.5380541246463033,
+      "grad_norm": 2.0585951805114746,
+      "learning_rate": 5.417024935511609e-06,
+      "loss": 0.0912,
+      "mean_token_accuracy": 0.7723703488707543,
+      "num_tokens": 21707264.0,
+      "step": 2650
+    },
+    {
+      "epoch": 1.5438583762606108,
+      "grad_norm": 1.7115544080734253,
+      "learning_rate": 5.395528804815133e-06,
+      "loss": 0.1011,
+      "mean_token_accuracy": 0.7763698607683182,
+      "num_tokens": 21789184.0,
+      "step": 2660
+    },
+    {
+      "epoch": 1.5496626278749184,
+      "grad_norm": 1.1767747402191162,
+      "learning_rate": 5.374032674118659e-06,
+      "loss": 0.0948,
+      "mean_token_accuracy": 0.7808953076601028,
+      "num_tokens": 21871104.0,
+      "step": 2670
+    },
+    {
+      "epoch": 1.555466879489226,
+      "grad_norm": 1.825332522392273,
+      "learning_rate": 5.352536543422184e-06,
+      "loss": 0.0841,
+      "mean_token_accuracy": 0.7940068498253823,
+      "num_tokens": 21953024.0,
+      "step": 2680
+    },
+    {
+      "epoch": 1.5612711311035334,
+      "grad_norm": 1.7559678554534912,
+      "learning_rate": 5.33104041272571e-06,
+      "loss": 0.1111,
+      "mean_token_accuracy": 0.7540117435157299,
+      "num_tokens": 22034944.0,
+      "step": 2690
+    },
+    {
+      "epoch": 1.567075382717841,
+      "grad_norm": 1.1683419942855835,
+      "learning_rate": 5.309544282029235e-06,
+      "loss": 0.0968,
+      "mean_token_accuracy": 0.782081701233983,
+      "num_tokens": 22116864.0,
+      "step": 2700
+    },
+    {
+      "epoch": 1.5728796343321483,
+      "grad_norm": 1.3004035949707031,
+      "learning_rate": 5.288048151332761e-06,
+      "loss": 0.0986,
+      "mean_token_accuracy": 0.7779843434691429,
+      "num_tokens": 22198784.0,
+      "step": 2710
+    },
+    {
+      "epoch": 1.5786838859464558,
+      "grad_norm": 1.7196249961853027,
+      "learning_rate": 5.266552020636287e-06,
+      "loss": 0.0918,
+      "mean_token_accuracy": 0.7894324842840433,
+      "num_tokens": 22280704.0,
+      "step": 2720
+    },
+    {
+      "epoch": 1.5844881375607631,
+      "grad_norm": 1.1833781003952026,
+      "learning_rate": 5.2450558899398105e-06,
+      "loss": 0.1001,
+      "mean_token_accuracy": 0.7578400194644928,
+      "num_tokens": 22362624.0,
+      "step": 2730
+    },
+    {
+      "epoch": 1.5902923891750707,
+      "grad_norm": 1.5964421033859253,
+      "learning_rate": 5.223559759243336e-06,
+      "loss": 0.0889,
+      "mean_token_accuracy": 0.7843933455646038,
+      "num_tokens": 22444544.0,
+      "step": 2740
+    },
+    {
+      "epoch": 1.5960966407893782,
+      "grad_norm": 1.2686461210250854,
+      "learning_rate": 5.202063628546862e-06,
+      "loss": 0.1015,
+      "mean_token_accuracy": 0.7669398248195648,
+      "num_tokens": 22526464.0,
+      "step": 2750
+    },
+    {
+      "epoch": 1.6019008924036857,
+      "grad_norm": 1.5164870023727417,
+      "learning_rate": 5.180567497850387e-06,
+      "loss": 0.0903,
+      "mean_token_accuracy": 0.7708292577415705,
+      "num_tokens": 22608384.0,
+      "step": 2760
+    },
+    {
+      "epoch": 1.6077051440179932,
+      "grad_norm": 1.2695127725601196,
+      "learning_rate": 5.159071367153913e-06,
+      "loss": 0.0926,
+      "mean_token_accuracy": 0.7750244583934546,
+      "num_tokens": 22690304.0,
+      "step": 2770
+    },
+    {
+      "epoch": 1.6135093956323008,
+      "grad_norm": 1.2489911317825317,
+      "learning_rate": 5.1375752364574386e-06,
+      "loss": 0.0918,
+      "mean_token_accuracy": 0.7785225044935942,
+      "num_tokens": 22772224.0,
+      "step": 2780
+    },
+    {
+      "epoch": 1.619313647246608,
+      "grad_norm": 1.5641402006149292,
+      "learning_rate": 5.116079105760964e-06,
+      "loss": 0.1098,
+      "mean_token_accuracy": 0.76334393247962,
+      "num_tokens": 22854144.0,
+      "step": 2790
+    },
+    {
+      "epoch": 1.6251178988609156,
+      "grad_norm": 1.3082184791564941,
+      "learning_rate": 5.094582975064489e-06,
+      "loss": 0.0995,
+      "mean_token_accuracy": 0.7862891420722008,
+      "num_tokens": 22936064.0,
+      "step": 2800
+    },
+    {
+      "epoch": 1.6309221504752232,
+      "grad_norm": 1.783996820449829,
+      "learning_rate": 5.073086844368014e-06,
+      "loss": 0.0896,
+      "mean_token_accuracy": 0.7687989220023155,
+      "num_tokens": 23017984.0,
+      "step": 2810
+    },
+    {
+      "epoch": 1.6367264020895305,
+      "grad_norm": 1.7711577415466309,
+      "learning_rate": 5.051590713671539e-06,
+      "loss": 0.1018,
+      "mean_token_accuracy": 0.7766756389290095,
+      "num_tokens": 23099904.0,
+      "step": 2820
+    },
+    {
+      "epoch": 1.642530653703838,
+      "grad_norm": 1.7994273900985718,
+      "learning_rate": 5.030094582975065e-06,
+      "loss": 0.0824,
+      "mean_token_accuracy": 0.7806262217462063,
+      "num_tokens": 23181824.0,
+      "step": 2830
+    },
+    {
+      "epoch": 1.6483349053181455,
+      "grad_norm": 1.2382689714431763,
+      "learning_rate": 5.0085984522785905e-06,
+      "loss": 0.0908,
+      "mean_token_accuracy": 0.7679672215133906,
+      "num_tokens": 23263744.0,
+      "step": 2840
+    },
+    {
+      "epoch": 1.654139156932453,
+      "grad_norm": 1.6400649547576904,
+      "learning_rate": 4.987102321582116e-06,
+      "loss": 0.0932,
+      "mean_token_accuracy": 0.7889799430966378,
+      "num_tokens": 23345664.0,
+      "step": 2850
+    },
+    {
+      "epoch": 1.6599434085467606,
+      "grad_norm": 1.4534789323806763,
+      "learning_rate": 4.965606190885641e-06,
+      "loss": 0.1011,
+      "mean_token_accuracy": 0.7663038164377213,
+      "num_tokens": 23427584.0,
+      "step": 2860
+    },
+    {
+      "epoch": 1.6657476601610681,
+      "grad_norm": 1.167546272277832,
+      "learning_rate": 4.9441100601891665e-06,
+      "loss": 0.0926,
+      "mean_token_accuracy": 0.7886497065424919,
+      "num_tokens": 23509504.0,
+      "step": 2870
+    },
+    {
+      "epoch": 1.6715519117753754,
+      "grad_norm": 1.3506172895431519,
+      "learning_rate": 4.922613929492692e-06,
+      "loss": 0.0967,
+      "mean_token_accuracy": 0.7687377691268921,
+      "num_tokens": 23591424.0,
+      "step": 2880
+    },
+    {
+      "epoch": 1.677356163389683,
+      "grad_norm": 1.5580819845199585,
+      "learning_rate": 4.901117798796217e-06,
+      "loss": 0.1032,
+      "mean_token_accuracy": 0.7531555775552988,
+      "num_tokens": 23673344.0,
+      "step": 2890
+    },
+    {
+      "epoch": 1.6831604150039903,
+      "grad_norm": 1.21241295337677,
+      "learning_rate": 4.8796216680997424e-06,
+      "loss": 0.0814,
+      "mean_token_accuracy": 0.785212817415595,
+      "num_tokens": 23755264.0,
+      "step": 2900
+    },
+    {
+      "epoch": 1.6889646666182978,
+      "grad_norm": 1.4660733938217163,
+      "learning_rate": 4.858125537403268e-06,
+      "loss": 0.0898,
+      "mean_token_accuracy": 0.7939579278230667,
+      "num_tokens": 23837184.0,
+      "step": 2910
+    },
+    {
+      "epoch": 1.6947689182326053,
+      "grad_norm": 1.4002984762191772,
+      "learning_rate": 4.836629406706793e-06,
+      "loss": 0.0982,
+      "mean_token_accuracy": 0.7646648734807968,
+      "num_tokens": 23919104.0,
+      "step": 2920
+    },
+    {
+      "epoch": 1.7005731698469129,
+      "grad_norm": 1.2702486515045166,
+      "learning_rate": 4.815133276010318e-06,
+      "loss": 0.0932,
+      "mean_token_accuracy": 0.7652764186263085,
+      "num_tokens": 24001024.0,
+      "step": 2930
+    },
+    {
+      "epoch": 1.7063774214612204,
+      "grad_norm": 1.3194500207901,
+      "learning_rate": 4.793637145313844e-06,
+      "loss": 0.0849,
+      "mean_token_accuracy": 0.794006847590208,
+      "num_tokens": 24082944.0,
+      "step": 2940
+    },
+    {
+      "epoch": 1.712181673075528,
+      "grad_norm": 1.3983765840530396,
+      "learning_rate": 4.772141014617369e-06,
+      "loss": 0.0923,
+      "mean_token_accuracy": 0.788772015273571,
+      "num_tokens": 24164864.0,
+      "step": 2950
+    },
+    {
+      "epoch": 1.7179859246898355,
+      "grad_norm": 1.535221815109253,
+      "learning_rate": 4.750644883920894e-06,
+      "loss": 0.089,
+      "mean_token_accuracy": 0.7784368902444839,
+      "num_tokens": 24246784.0,
+      "step": 2960
+    },
+    {
+      "epoch": 1.7237901763041428,
+      "grad_norm": 1.2413194179534912,
+      "learning_rate": 4.72914875322442e-06,
+      "loss": 0.0914,
+      "mean_token_accuracy": 0.7653987266123294,
+      "num_tokens": 24328704.0,
+      "step": 2970
+    },
+    {
+      "epoch": 1.7295944279184503,
+      "grad_norm": 1.0277676582336426,
+      "learning_rate": 4.707652622527945e-06,
+      "loss": 0.0808,
+      "mean_token_accuracy": 0.7767734847962856,
+      "num_tokens": 24410624.0,
+      "step": 2980
+    },
+    {
+      "epoch": 1.7353986795327576,
+      "grad_norm": 1.6544444561004639,
+      "learning_rate": 4.68615649183147e-06,
+      "loss": 0.0971,
+      "mean_token_accuracy": 0.7798067525029182,
+      "num_tokens": 24492544.0,
+      "step": 2990
+    },
+    {
+      "epoch": 1.7412029311470651,
+      "grad_norm": 1.4925342798233032,
+      "learning_rate": 4.664660361134996e-06,
+      "loss": 0.0874,
+      "mean_token_accuracy": 0.7851394325494766,
+      "num_tokens": 24574464.0,
+      "step": 3000
+    },
+    {
+      "epoch": 1.7470071827613727,
+      "grad_norm": 1.1997790336608887,
+      "learning_rate": 4.6431642304385216e-06,
+      "loss": 0.0885,
+      "mean_token_accuracy": 0.7740826837718486,
+      "num_tokens": 24656384.0,
+      "step": 3010
+    },
+    {
+      "epoch": 1.7528114343756802,
+      "grad_norm": 1.6726058721542358,
+      "learning_rate": 4.621668099742046e-06,
+      "loss": 0.102,
+      "mean_token_accuracy": 0.7693126246333122,
+      "num_tokens": 24738304.0,
+      "step": 3020
+    },
+    {
+      "epoch": 1.7586156859899877,
+      "grad_norm": 1.4176825284957886,
+      "learning_rate": 4.600171969045572e-06,
+      "loss": 0.09,
+      "mean_token_accuracy": 0.7685176137834787,
+      "num_tokens": 24820224.0,
+      "step": 3030
+    },
+    {
+      "epoch": 1.7644199376042953,
+      "grad_norm": 0.9416372179985046,
+      "learning_rate": 4.5786758383490975e-06,
+      "loss": 0.0876,
+      "mean_token_accuracy": 0.791475048661232,
+      "num_tokens": 24902144.0,
+      "step": 3040
+    },
+    {
+      "epoch": 1.7702241892186026,
+      "grad_norm": 1.2992349863052368,
+      "learning_rate": 4.557179707652623e-06,
+      "loss": 0.0766,
+      "mean_token_accuracy": 0.7893101766705513,
+      "num_tokens": 24984064.0,
+      "step": 3050
+    },
+    {
+      "epoch": 1.7760284408329101,
+      "grad_norm": 1.262165904045105,
+      "learning_rate": 4.535683576956148e-06,
+      "loss": 0.0809,
+      "mean_token_accuracy": 0.7902886483818292,
+      "num_tokens": 25065984.0,
+      "step": 3060
+    },
+    {
+      "epoch": 1.7818326924472174,
+      "grad_norm": 1.4758257865905762,
+      "learning_rate": 4.5141874462596735e-06,
+      "loss": 0.1039,
+      "mean_token_accuracy": 0.7650684904307127,
+      "num_tokens": 25147904.0,
+      "step": 3070
+    },
+    {
+      "epoch": 1.787636944061525,
+      "grad_norm": 2.127101182937622,
+      "learning_rate": 4.492691315563199e-06,
+      "loss": 0.0975,
+      "mean_token_accuracy": 0.7761130124330521,
+      "num_tokens": 25229824.0,
+      "step": 3080
+    },
+    {
+      "epoch": 1.7934411956758325,
+      "grad_norm": 1.079978346824646,
+      "learning_rate": 4.471195184866725e-06,
+      "loss": 0.0787,
+      "mean_token_accuracy": 0.7821550846099854,
+      "num_tokens": 25311744.0,
+      "step": 3090
+    },
+    {
+      "epoch": 1.79924544729014,
+      "grad_norm": 1.8025544881820679,
+      "learning_rate": 4.4496990541702495e-06,
+      "loss": 0.0905,
+      "mean_token_accuracy": 0.7709515657275915,
+      "num_tokens": 25393664.0,
+      "step": 3100
+    },
+    {
+      "epoch": 1.8050496989044476,
+      "grad_norm": 1.2720634937286377,
+      "learning_rate": 4.428202923473775e-06,
+      "loss": 0.0822,
+      "mean_token_accuracy": 0.7785836607217789,
+      "num_tokens": 25475584.0,
+      "step": 3110
+    },
+    {
+      "epoch": 1.810853950518755,
+      "grad_norm": 1.397544503211975,
+      "learning_rate": 4.406706792777301e-06,
+      "loss": 0.0922,
+      "mean_token_accuracy": 0.7664016611874104,
+      "num_tokens": 25557504.0,
+      "step": 3120
+    },
+    {
+      "epoch": 1.8166582021330626,
+      "grad_norm": 1.4213645458221436,
+      "learning_rate": 4.385210662080826e-06,
+      "loss": 0.1,
+      "mean_token_accuracy": 0.7702666360884904,
+      "num_tokens": 25639424.0,
+      "step": 3130
+    },
+    {
+      "epoch": 1.82246245374737,
+      "grad_norm": 1.2967301607131958,
+      "learning_rate": 4.363714531384351e-06,
+      "loss": 0.1063,
+      "mean_token_accuracy": 0.7763576325029135,
+      "num_tokens": 25721344.0,
+      "step": 3140
+    },
+    {
+      "epoch": 1.8282667053616775,
+      "grad_norm": 1.6965436935424805,
+      "learning_rate": 4.342218400687877e-06,
+      "loss": 0.0872,
+      "mean_token_accuracy": 0.7696550872176886,
+      "num_tokens": 25803264.0,
+      "step": 3150
+    },
+    {
+      "epoch": 1.8340709569759848,
+      "grad_norm": 1.4721688032150269,
+      "learning_rate": 4.320722269991402e-06,
+      "loss": 0.0964,
+      "mean_token_accuracy": 0.7688478477299213,
+      "num_tokens": 25885184.0,
+      "step": 3160
+    },
+    {
+      "epoch": 1.8398752085902923,
+      "grad_norm": 1.4195119142532349,
+      "learning_rate": 4.299226139294928e-06,
+      "loss": 0.0991,
+      "mean_token_accuracy": 0.7586594883352518,
+      "num_tokens": 25967104.0,
+      "step": 3170
+    },
+    {
+      "epoch": 1.8456794602045998,
+      "grad_norm": 1.3307346105575562,
+      "learning_rate": 4.277730008598453e-06,
+      "loss": 0.0854,
+      "mean_token_accuracy": 0.7778987269848585,
+      "num_tokens": 26049024.0,
+      "step": 3180
+    },
+    {
+      "epoch": 1.8514837118189074,
+      "grad_norm": 1.5801392793655396,
+      "learning_rate": 4.256233877901978e-06,
+      "loss": 0.094,
+      "mean_token_accuracy": 0.7833414874970913,
+      "num_tokens": 26130944.0,
+      "step": 3190
+    },
+    {
+      "epoch": 1.857287963433215,
+      "grad_norm": 1.1459014415740967,
+      "learning_rate": 4.234737747205504e-06,
+      "loss": 0.098,
+      "mean_token_accuracy": 0.7790851287543774,
+      "num_tokens": 26212864.0,
+      "step": 3200
+    },
+    {
+      "epoch": 1.8630922150475224,
+      "grad_norm": 1.6354542970657349,
+      "learning_rate": 4.213241616509029e-06,
+      "loss": 0.0866,
+      "mean_token_accuracy": 0.7839407980442047,
+      "num_tokens": 26294784.0,
+      "step": 3210
+    },
+    {
+      "epoch": 1.8688964666618297,
+      "grad_norm": 1.173956274986267,
+      "learning_rate": 4.191745485812554e-06,
+      "loss": 0.0911,
+      "mean_token_accuracy": 0.7827788643538952,
+      "num_tokens": 26376704.0,
+      "step": 3220
+    },
+    {
+      "epoch": 1.8747007182761373,
+      "grad_norm": 1.160238265991211,
+      "learning_rate": 4.17024935511608e-06,
+      "loss": 0.1016,
+      "mean_token_accuracy": 0.7670009769499302,
+      "num_tokens": 26458624.0,
+      "step": 3230
+    },
+    {
+      "epoch": 1.8805049698904448,
+      "grad_norm": 1.2570644617080688,
+      "learning_rate": 4.148753224419605e-06,
+      "loss": 0.0752,
+      "mean_token_accuracy": 0.7890044003725052,
+      "num_tokens": 26540544.0,
+      "step": 3240
+    },
+    {
+      "epoch": 1.886309221504752,
+      "grad_norm": 1.4081250429153442,
+      "learning_rate": 4.12725709372313e-06,
+      "loss": 0.0872,
+      "mean_token_accuracy": 0.7651051852852107,
+      "num_tokens": 26622464.0,
+      "step": 3250
+    },
+    {
+      "epoch": 1.8921134731190596,
+      "grad_norm": 1.629294753074646,
+      "learning_rate": 4.105760963026656e-06,
+      "loss": 0.0879,
+      "mean_token_accuracy": 0.7650929551571608,
+      "num_tokens": 26704384.0,
+      "step": 3260
+    },
+    {
+      "epoch": 1.8979177247333672,
+      "grad_norm": 1.3318721055984497,
+      "learning_rate": 4.0842648323301806e-06,
+      "loss": 0.0849,
+      "mean_token_accuracy": 0.7725538168102503,
+      "num_tokens": 26786304.0,
+      "step": 3270
+    },
+    {
+      "epoch": 1.9037219763476747,
+      "grad_norm": 1.236822485923767,
+      "learning_rate": 4.062768701633706e-06,
+      "loss": 0.0897,
+      "mean_token_accuracy": 0.7780821904540062,
+      "num_tokens": 26868224.0,
+      "step": 3280
+    },
+    {
+      "epoch": 1.9095262279619822,
+      "grad_norm": 1.0354118347167969,
+      "learning_rate": 4.041272570937232e-06,
+      "loss": 0.0907,
+      "mean_token_accuracy": 0.7778742648661137,
+      "num_tokens": 26950144.0,
+      "step": 3290
+    },
+    {
+      "epoch": 1.9153304795762898,
+      "grad_norm": 1.2480920553207397,
+      "learning_rate": 4.0197764402407565e-06,
+      "loss": 0.0867,
+      "mean_token_accuracy": 0.7747186873108148,
+      "num_tokens": 27032064.0,
+      "step": 3300
+    },
+    {
+      "epoch": 1.921134731190597,
+      "grad_norm": 1.3865294456481934,
+      "learning_rate": 3.998280309544282e-06,
+      "loss": 0.0956,
+      "mean_token_accuracy": 0.784209881350398,
+      "num_tokens": 27113984.0,
+      "step": 3310
+    },
+    {
+      "epoch": 1.9269389828049046,
+      "grad_norm": 1.4300016164779663,
+      "learning_rate": 3.976784178847808e-06,
+      "loss": 0.1034,
+      "mean_token_accuracy": 0.7619985315948725,
+      "num_tokens": 27195904.0,
+      "step": 3320
+    },
+    {
+      "epoch": 1.932743234419212,
+      "grad_norm": 1.2628036737442017,
+      "learning_rate": 3.9552880481513325e-06,
+      "loss": 0.1013,
+      "mean_token_accuracy": 0.7635885566473007,
+      "num_tokens": 27277824.0,
+      "step": 3330
+    },
+    {
+      "epoch": 1.9385474860335195,
+      "grad_norm": 1.4809879064559937,
+      "learning_rate": 3.933791917454858e-06,
+      "loss": 0.0914,
+      "mean_token_accuracy": 0.7683708433061838,
+      "num_tokens": 27359744.0,
+      "step": 3340
+    },
+    {
+      "epoch": 1.944351737647827,
+      "grad_norm": 1.3218101263046265,
+      "learning_rate": 3.912295786758384e-06,
+      "loss": 0.1039,
+      "mean_token_accuracy": 0.7580479431897402,
+      "num_tokens": 27441664.0,
+      "step": 3350
+    },
+    {
+      "epoch": 1.9501559892621345,
+      "grad_norm": 2.1898369789123535,
+      "learning_rate": 3.890799656061909e-06,
+      "loss": 0.0868,
+      "mean_token_accuracy": 0.7617172211408615,
+      "num_tokens": 27523584.0,
+      "step": 3360
+    },
+    {
+      "epoch": 1.955960240876442,
+      "grad_norm": 1.6249711513519287,
+      "learning_rate": 3.869303525365434e-06,
+      "loss": 0.0848,
+      "mean_token_accuracy": 0.791927594691515,
+      "num_tokens": 27605504.0,
+      "step": 3370
+    },
+    {
+      "epoch": 1.9617644924907496,
+      "grad_norm": 1.3207077980041504,
+      "learning_rate": 3.84780739466896e-06,
+      "loss": 0.0811,
+      "mean_token_accuracy": 0.7898116454482078,
+      "num_tokens": 27687424.0,
+      "step": 3380
+    },
+    {
+      "epoch": 1.967568744105057,
+      "grad_norm": 1.4129955768585205,
+      "learning_rate": 3.826311263972485e-06,
+      "loss": 0.0852,
+      "mean_token_accuracy": 0.7753913916647435,
+      "num_tokens": 27769344.0,
+      "step": 3390
+    },
+    {
+      "epoch": 1.9733729957193644,
+      "grad_norm": 2.2473080158233643,
+      "learning_rate": 3.804815133276011e-06,
+      "loss": 0.089,
+      "mean_token_accuracy": 0.7784858100116253,
+      "num_tokens": 27851264.0,
+      "step": 3400
+    },
+    {
+      "epoch": 1.979177247333672,
+      "grad_norm": 1.0944265127182007,
+      "learning_rate": 3.7833190025795357e-06,
+      "loss": 0.0988,
+      "mean_token_accuracy": 0.7655577287077904,
+      "num_tokens": 27933184.0,
+      "step": 3410
+    },
+    {
+      "epoch": 1.9849814989479793,
+      "grad_norm": 1.1985645294189453,
+      "learning_rate": 3.7618228718830613e-06,
+      "loss": 0.0829,
+      "mean_token_accuracy": 0.7765900172293186,
+      "num_tokens": 28015104.0,
+      "step": 3420
+    },
+    {
+      "epoch": 1.9907857505622868,
+      "grad_norm": 1.6854956150054932,
+      "learning_rate": 3.740326741186587e-06,
+      "loss": 0.0837,
+      "mean_token_accuracy": 0.7793052829802036,
+      "num_tokens": 28097024.0,
+      "step": 3430
+    },
+    {
+      "epoch": 1.9965900021765943,
+      "grad_norm": 1.2909150123596191,
+      "learning_rate": 3.7188306104901125e-06,
+      "loss": 0.093,
+      "mean_token_accuracy": 0.7680161453783512,
+      "num_tokens": 28178944.0,
+      "step": 3440
+    },
+    {
+      "epoch": 2.002321700645723,
+      "grad_norm": 1.2459158897399902,
+      "learning_rate": 3.6973344797936372e-06,
+      "loss": 0.0914,
+      "mean_token_accuracy": 0.7728331138061572,
+      "num_tokens": 28259328.0,
+      "step": 3450
+    },
+    {
+      "epoch": 2.0081259522600305,
+      "grad_norm": 1.108630895614624,
+      "learning_rate": 3.675838349097163e-06,
+      "loss": 0.0655,
+      "mean_token_accuracy": 0.7846501931548119,
+      "num_tokens": 28341248.0,
+      "step": 3460
+    },
+    {
+      "epoch": 2.013930203874338,
+      "grad_norm": 1.8924497365951538,
+      "learning_rate": 3.6543422184006884e-06,
+      "loss": 0.0778,
+      "mean_token_accuracy": 0.7803449083119631,
+      "num_tokens": 28423168.0,
+      "step": 3470
+    },
+    {
+      "epoch": 2.0197344554886456,
+      "grad_norm": 1.6642768383026123,
+      "learning_rate": 3.6328460877042136e-06,
+      "loss": 0.0753,
+      "mean_token_accuracy": 0.7758439350873232,
+      "num_tokens": 28505088.0,
+      "step": 3480
+    },
+    {
+      "epoch": 2.0255387071029527,
+      "grad_norm": 2.043719530105591,
+      "learning_rate": 3.611349957007739e-06,
+      "loss": 0.0772,
+      "mean_token_accuracy": 0.7852984338998794,
+      "num_tokens": 28587008.0,
+      "step": 3490
+    },
+    {
+      "epoch": 2.0313429587172602,
+      "grad_norm": 1.5983003377914429,
+      "learning_rate": 3.5898538263112644e-06,
+      "loss": 0.074,
+      "mean_token_accuracy": 0.7707681007683277,
+      "num_tokens": 28668928.0,
+      "step": 3500
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 7.5766378694443e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null