checkpoint complet pour reprise

Browse files

Files changed (7) hide show

results/checkpoint-1200/adapter_model.safetensors +1 -1
results/checkpoint-1200/optimizer.pt +1 -1
results/checkpoint-1200/rng_state.pth +1 -1
results/checkpoint-1200/scaler.pt +1 -1
results/checkpoint-1200/scheduler.pt +1 -1
results/checkpoint-1200/trainer_state.json +725 -725
results/checkpoint-1200/training_args.bin +1 -1

results/checkpoint-1200/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9810fb11e27e844da85f316d6e19343b9259a84286f60e41a5a47d94851eaa0a
 size 9108904

 version https://git-lfs.github.com/spec/v1
+oid sha256:aadac4b039bae373fdd4721162b0781dcca6c991bae66f228b25e86938e025d4
 size 9108904

results/checkpoint-1200/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:48e30ea83347f9bd88caa51ac7a27ed0fee2d39497d01d7ca7e1e987cc63536d
 size 18287162

 version https://git-lfs.github.com/spec/v1
+oid sha256:abbc98f1f2e0b5315aeb9f79cd7f2c04e653a8bd49b8345dba6a8d0c6b41f7ac
 size 18287162

results/checkpoint-1200/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a3efe79c3c2463f77fe43ad580dd60c311943b1c5433e083e7c9378757397c15
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:aa8a50f7b976d8c8ca34d880dd26f60dd2f851bac0a0a5095719fb54f5a75773
 size 14244

results/checkpoint-1200/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2946f81c3523d36c686d97ab3ae7914939afcd3c46edf20cd1c0443342cca6a1
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:beeef06129d3879de46a6da795139adc62396b85b4a9bd7c58a4fe337c9a9c57
 size 988

results/checkpoint-1200/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d30bfb1b47382b83586c7e4fe5892e12c903176ed5cc061cd9a948072e7f2a3e
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:5cfc5baadd288335fe7d83a0d3dd2b713a9e631fc75cb337745b4efa6e9e4c91
 size 1064

results/checkpoint-1200/trainer_state.json CHANGED Viewed

@@ -2,7 +2,7 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 3.7623529411764705,
   "eval_steps": 500,
   "global_step": 1200,
   "is_hyper_param_search": false,
@@ -10,1091 +10,1091 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.03137254901960784,
-      "grad_norm": 2.0088300704956055,
-      "learning_rate": 8.000000000000001e-07,
-      "loss": 3.282,
-      "mean_token_accuracy": 0.4480127369053662,
-      "num_tokens": 34003.0,
       "step": 10
     },
     {
-      "epoch": 0.06274509803921569,
-      "grad_norm": 0.46773308515548706,
-      "learning_rate": 1.7000000000000002e-06,
-      "loss": 3.3452,
-      "mean_token_accuracy": 0.4279281569644809,
-      "num_tokens": 66834.0,
       "step": 20
     },
     {
-      "epoch": 0.09411764705882353,
-      "grad_norm": 1.1083784103393555,
-      "learning_rate": 2.7000000000000004e-06,
-      "loss": 3.1795,
-      "mean_token_accuracy": 0.4369500808417797,
-      "num_tokens": 102094.0,
       "step": 30
     },
     {
-      "epoch": 0.12549019607843137,
-      "grad_norm": 3.110588788986206,
-      "learning_rate": 3.7e-06,
-      "loss": 3.1706,
-      "mean_token_accuracy": 0.43956867372617126,
-      "num_tokens": 136916.0,
       "step": 40
     },
     {
-      "epoch": 0.1568627450980392,
-      "grad_norm": 0.6114773750305176,
-      "learning_rate": 4.600000000000001e-06,
-      "loss": 3.2986,
-      "mean_token_accuracy": 0.4236688693985343,
-      "num_tokens": 166339.0,
       "step": 50
     },
     {
-      "epoch": 0.18823529411764706,
-      "grad_norm": 1.4991090297698975,
-      "learning_rate": 5.600000000000001e-06,
-      "loss": 3.3758,
-      "mean_token_accuracy": 0.4320780340582132,
-      "num_tokens": 193757.0,
       "step": 60
     },
     {
-      "epoch": 0.2196078431372549,
-      "grad_norm": 1.0190929174423218,
-      "learning_rate": 6.600000000000001e-06,
-      "loss": 3.5999,
-      "mean_token_accuracy": 0.4074632978066802,
-      "num_tokens": 227753.0,
       "step": 70
     },
     {
-      "epoch": 0.25098039215686274,
-      "grad_norm": 0.5823692679405212,
-      "learning_rate": 7.600000000000001e-06,
-      "loss": 3.242,
-      "mean_token_accuracy": 0.4243007113225758,
-      "num_tokens": 258774.0,
       "step": 80
     },
     {
-      "epoch": 0.2823529411764706,
-      "grad_norm": 1.197152018547058,
-      "learning_rate": 8.6e-06,
-      "loss": 3.7351,
-      "mean_token_accuracy": 0.40340174464508893,
-      "num_tokens": 289476.0,
       "step": 90
     },
     {
-      "epoch": 0.3137254901960784,
-      "grad_norm": 1.116959810256958,
-      "learning_rate": 9.600000000000001e-06,
-      "loss": 3.4449,
-      "mean_token_accuracy": 0.42097287215292456,
-      "num_tokens": 319562.0,
       "step": 100
     },
     {
-      "epoch": 0.34509803921568627,
-      "grad_norm": 2.1092543601989746,
-      "learning_rate": 9.948805460750855e-06,
-      "loss": 3.2034,
-      "mean_token_accuracy": 0.42690765811130404,
-      "num_tokens": 350950.0,
       "step": 110
     },
     {
-      "epoch": 0.3764705882352941,
-      "grad_norm": 0.726530909538269,
-      "learning_rate": 9.863481228668942e-06,
-      "loss": 3.1113,
-      "mean_token_accuracy": 0.44094684603624046,
-      "num_tokens": 379819.0,
       "step": 120
     },
     {
-      "epoch": 0.40784313725490196,
-      "grad_norm": 1.3136755228042603,
-      "learning_rate": 9.778156996587031e-06,
-      "loss": 3.1945,
-      "mean_token_accuracy": 0.448084157705307,
-      "num_tokens": 412785.0,
       "step": 130
     },
     {
-      "epoch": 0.4392156862745098,
-      "grad_norm": 0.9245865941047668,
-      "learning_rate": 9.69283276450512e-06,
-      "loss": 3.0248,
-      "mean_token_accuracy": 0.4554275684058666,
-      "num_tokens": 442964.0,
       "step": 140
     },
     {
-      "epoch": 0.47058823529411764,
-      "grad_norm": 4.568413257598877,
-      "learning_rate": 9.607508532423209e-06,
-      "loss": 3.0576,
-      "mean_token_accuracy": 0.45087954150512816,
-      "num_tokens": 473446.0,
       "step": 150
     },
     {
-      "epoch": 0.5019607843137255,
-      "grad_norm": 7.357224464416504,
-      "learning_rate": 9.522184300341298e-06,
-      "loss": 3.195,
-      "mean_token_accuracy": 0.4267027805559337,
-      "num_tokens": 503608.0,
       "step": 160
     },
     {
-      "epoch": 0.5333333333333333,
-      "grad_norm": 0.9659298658370972,
-      "learning_rate": 9.436860068259387e-06,
-      "loss": 3.1946,
-      "mean_token_accuracy": 0.4488052343018353,
-      "num_tokens": 533341.0,
       "step": 170
     },
     {
-      "epoch": 0.5647058823529412,
-      "grad_norm": 1.9798550605773926,
-      "learning_rate": 9.351535836177476e-06,
-      "loss": 3.25,
-      "mean_token_accuracy": 0.4342062085866928,
-      "num_tokens": 563710.0,
       "step": 180
     },
     {
-      "epoch": 0.596078431372549,
-      "grad_norm": 2.385053873062134,
-      "learning_rate": 9.266211604095564e-06,
-      "loss": 2.8966,
-      "mean_token_accuracy": 0.4620134405791759,
-      "num_tokens": 592080.0,
       "step": 190
     },
     {
-      "epoch": 0.6274509803921569,
-      "grad_norm": 1.955040693283081,
-      "learning_rate": 9.180887372013653e-06,
-      "loss": 3.2465,
-      "mean_token_accuracy": 0.42782977214083073,
-      "num_tokens": 621337.0,
       "step": 200
     },
     {
-      "epoch": 0.6588235294117647,
-      "grad_norm": 3.6970317363739014,
-      "learning_rate": 9.09556313993174e-06,
-      "loss": 3.1251,
-      "mean_token_accuracy": 0.44717809772118927,
-      "num_tokens": 646419.0,
       "step": 210
     },
     {
-      "epoch": 0.6901960784313725,
-      "grad_norm": 2.0861480236053467,
-      "learning_rate": 9.01023890784983e-06,
-      "loss": 3.1319,
-      "mean_token_accuracy": 0.4380856929346919,
-      "num_tokens": 678845.0,
       "step": 220
     },
     {
-      "epoch": 0.7215686274509804,
-      "grad_norm": 1.1843408346176147,
-      "learning_rate": 8.924914675767918e-06,
-      "loss": 3.0282,
-      "mean_token_accuracy": 0.4654800074175,
-      "num_tokens": 708108.0,
       "step": 230
     },
     {
-      "epoch": 0.7529411764705882,
-      "grad_norm": 2.084069013595581,
-      "learning_rate": 8.839590443686009e-06,
-      "loss": 3.1245,
-      "mean_token_accuracy": 0.43198747336864474,
-      "num_tokens": 734439.0,
       "step": 240
     },
     {
-      "epoch": 0.7843137254901961,
-      "grad_norm": 3.9663286209106445,
-      "learning_rate": 8.754266211604096e-06,
-      "loss": 2.8906,
-      "mean_token_accuracy": 0.45770675158128143,
-      "num_tokens": 763349.0,
       "step": 250
     },
     {
-      "epoch": 0.8156862745098039,
-      "grad_norm": 2.0605413913726807,
-      "learning_rate": 8.668941979522185e-06,
-      "loss": 2.9757,
-      "mean_token_accuracy": 0.4534512896090746,
-      "num_tokens": 791592.0,
       "step": 260
     },
     {
-      "epoch": 0.8470588235294118,
-      "grad_norm": 3.5317554473876953,
-      "learning_rate": 8.583617747440274e-06,
-      "loss": 2.8376,
-      "mean_token_accuracy": 0.4683062855154276,
-      "num_tokens": 825019.0,
       "step": 270
     },
     {
-      "epoch": 0.8784313725490196,
-      "grad_norm": 3.9178497791290283,
-      "learning_rate": 8.498293515358363e-06,
-      "loss": 2.9376,
-      "mean_token_accuracy": 0.45492212250828745,
-      "num_tokens": 854288.0,
       "step": 280
     },
     {
-      "epoch": 0.9098039215686274,
-      "grad_norm": 0.9526835680007935,
-      "learning_rate": 8.412969283276451e-06,
-      "loss": 2.8571,
-      "mean_token_accuracy": 0.46086471611633895,
-      "num_tokens": 884793.0,
       "step": 290
     },
     {
-      "epoch": 0.9411764705882353,
-      "grad_norm": 3.918769598007202,
-      "learning_rate": 8.327645051194539e-06,
-      "loss": 2.7934,
-      "mean_token_accuracy": 0.4795181108638644,
-      "num_tokens": 915321.0,
       "step": 300
     },
     {
-      "epoch": 0.9725490196078431,
-      "grad_norm": 3.45381760597229,
-      "learning_rate": 8.24232081911263e-06,
-      "loss": 2.8085,
-      "mean_token_accuracy": 0.4741422997787595,
-      "num_tokens": 946666.0,
       "step": 310
     },
     {
-      "epoch": 1.0031372549019608,
-      "grad_norm": 2.1785495281219482,
-      "learning_rate": 8.156996587030718e-06,
-      "loss": 2.8618,
-      "mean_token_accuracy": 0.4749741800702535,
-      "num_tokens": 974017.0,
       "step": 320
     },
     {
-      "epoch": 1.0345098039215685,
-      "grad_norm": 6.006409168243408,
-      "learning_rate": 8.071672354948807e-06,
-      "loss": 2.9078,
-      "mean_token_accuracy": 0.46515854969620707,
-      "num_tokens": 1004744.0,
       "step": 330
     },
     {
-      "epoch": 1.0658823529411765,
-      "grad_norm": 1.7984623908996582,
-      "learning_rate": 7.986348122866894e-06,
-      "loss": 2.9124,
-      "mean_token_accuracy": 0.4585884911939502,
-      "num_tokens": 1033652.0,
       "step": 340
     },
     {
-      "epoch": 1.0972549019607842,
-      "grad_norm": 2.510467052459717,
-      "learning_rate": 7.901023890784983e-06,
-      "loss": 2.8057,
-      "mean_token_accuracy": 0.4740089667029679,
-      "num_tokens": 1066035.0,
       "step": 350
     },
     {
-      "epoch": 1.1286274509803922,
-      "grad_norm": 3.545011520385742,
-      "learning_rate": 7.815699658703072e-06,
-      "loss": 2.8801,
-      "mean_token_accuracy": 0.4632578143849969,
-      "num_tokens": 1092737.0,
       "step": 360
     },
     {
-      "epoch": 1.16,
-      "grad_norm": 2.1517884731292725,
-      "learning_rate": 7.73037542662116e-06,
-      "loss": 2.7748,
-      "mean_token_accuracy": 0.47425267212092875,
-      "num_tokens": 1121228.0,
       "step": 370
     },
     {
-      "epoch": 1.1913725490196079,
-      "grad_norm": 1.727739691734314,
-      "learning_rate": 7.64505119453925e-06,
-      "loss": 2.7721,
-      "mean_token_accuracy": 0.4736901242285967,
-      "num_tokens": 1152714.0,
       "step": 380
     },
     {
-      "epoch": 1.2227450980392156,
-      "grad_norm": 2.197744131088257,
-      "learning_rate": 7.5597269624573385e-06,
-      "loss": 2.7644,
-      "mean_token_accuracy": 0.47409027721732855,
-      "num_tokens": 1184573.0,
       "step": 390
     },
     {
-      "epoch": 1.2541176470588236,
-      "grad_norm": 3.178690195083618,
-      "learning_rate": 7.474402730375427e-06,
-      "loss": 2.6941,
-      "mean_token_accuracy": 0.48159148562699555,
-      "num_tokens": 1218513.0,
       "step": 400
     },
     {
-      "epoch": 1.2854901960784313,
-      "grad_norm": 1.3430229425430298,
-      "learning_rate": 7.389078498293516e-06,
-      "loss": 2.5874,
-      "mean_token_accuracy": 0.49995266608893874,
-      "num_tokens": 1250333.0,
       "step": 410
     },
     {
-      "epoch": 1.3168627450980392,
-      "grad_norm": 3.5784506797790527,
-      "learning_rate": 7.303754266211604e-06,
-      "loss": 2.5586,
-      "mean_token_accuracy": 0.5180117629468441,
-      "num_tokens": 1286668.0,
       "step": 420
     },
     {
-      "epoch": 1.348235294117647,
-      "grad_norm": 31.7750186920166,
-      "learning_rate": 7.218430034129693e-06,
-      "loss": 2.6383,
-      "mean_token_accuracy": 0.48776071686297656,
-      "num_tokens": 1315580.0,
       "step": 430
     },
     {
-      "epoch": 1.379607843137255,
-      "grad_norm": 2.4759323596954346,
-      "learning_rate": 7.133105802047782e-06,
-      "loss": 2.6451,
-      "mean_token_accuracy": 0.4944142198190093,
-      "num_tokens": 1347539.0,
       "step": 440
     },
     {
-      "epoch": 1.4109803921568629,
-      "grad_norm": 1.7809475660324097,
-      "learning_rate": 7.047781569965872e-06,
-      "loss": 2.7221,
-      "mean_token_accuracy": 0.47517210952937605,
-      "num_tokens": 1377083.0,
       "step": 450
     },
     {
-      "epoch": 1.4423529411764706,
-      "grad_norm": 1.1610660552978516,
-      "learning_rate": 6.96245733788396e-06,
-      "loss": 2.5579,
-      "mean_token_accuracy": 0.49381575733423233,
-      "num_tokens": 1408914.0,
       "step": 460
     },
     {
-      "epoch": 1.4737254901960783,
-      "grad_norm": 4.139962673187256,
-      "learning_rate": 6.877133105802049e-06,
-      "loss": 2.9326,
-      "mean_token_accuracy": 0.45861218236386775,
-      "num_tokens": 1438118.0,
       "step": 470
     },
     {
-      "epoch": 1.5050980392156863,
-      "grad_norm": 3.0993845462799072,
-      "learning_rate": 6.7918088737201375e-06,
-      "loss": 2.8458,
-      "mean_token_accuracy": 0.47443244988098743,
-      "num_tokens": 1467640.0,
       "step": 480
     },
     {
-      "epoch": 1.5364705882352943,
-      "grad_norm": 1.291991949081421,
-      "learning_rate": 6.7064846416382255e-06,
-      "loss": 2.6781,
-      "mean_token_accuracy": 0.4779525174759328,
-      "num_tokens": 1495733.0,
       "step": 490
     },
     {
-      "epoch": 1.567843137254902,
-      "grad_norm": 4.795923709869385,
-      "learning_rate": 6.621160409556314e-06,
-      "loss": 2.9197,
-      "mean_token_accuracy": 0.4680457916110754,
-      "num_tokens": 1525251.0,
       "step": 500
     },
     {
-      "epoch": 1.5992156862745097,
-      "grad_norm": 1.3896703720092773,
-      "learning_rate": 6.535836177474402e-06,
-      "loss": 2.6147,
-      "mean_token_accuracy": 0.49835432767868043,
-      "num_tokens": 1554363.0,
       "step": 510
     },
     {
-      "epoch": 1.6305882352941177,
-      "grad_norm": 1.1814641952514648,
-      "learning_rate": 6.450511945392492e-06,
-      "loss": 2.6656,
-      "mean_token_accuracy": 0.48573412485420703,
-      "num_tokens": 1581026.0,
       "step": 520
     },
     {
-      "epoch": 1.6619607843137256,
-      "grad_norm": 1.8640310764312744,
-      "learning_rate": 6.365187713310581e-06,
-      "loss": 2.5826,
-      "mean_token_accuracy": 0.4969061462208629,
-      "num_tokens": 1611477.0,
       "step": 530
     },
     {
-      "epoch": 1.6933333333333334,
-      "grad_norm": 4.471650123596191,
-      "learning_rate": 6.27986348122867e-06,
-      "loss": 2.6517,
-      "mean_token_accuracy": 0.4934783162549138,
-      "num_tokens": 1641681.0,
       "step": 540
     },
     {
-      "epoch": 1.724705882352941,
-      "grad_norm": 3.423351526260376,
-      "learning_rate": 6.194539249146758e-06,
-      "loss": 2.6683,
-      "mean_token_accuracy": 0.48104359675198793,
-      "num_tokens": 1670996.0,
       "step": 550
     },
     {
-      "epoch": 1.756078431372549,
-      "grad_norm": 1.9675357341766357,
-      "learning_rate": 6.109215017064847e-06,
-      "loss": 2.5381,
-      "mean_token_accuracy": 0.49859709180891515,
-      "num_tokens": 1702169.0,
       "step": 560
     },
     {
-      "epoch": 1.787450980392157,
-      "grad_norm": 1.6399911642074585,
-      "learning_rate": 6.023890784982936e-06,
-      "loss": 2.5058,
-      "mean_token_accuracy": 0.5064322877675295,
-      "num_tokens": 1731408.0,
       "step": 570
     },
     {
-      "epoch": 1.8188235294117647,
-      "grad_norm": 1.8453171253204346,
-      "learning_rate": 5.938566552901024e-06,
-      "loss": 2.6272,
-      "mean_token_accuracy": 0.4801918284967542,
-      "num_tokens": 1759204.0,
       "step": 580
     },
     {
-      "epoch": 1.8501960784313725,
-      "grad_norm": 1.7112871408462524,
-      "learning_rate": 5.853242320819113e-06,
-      "loss": 2.4362,
-      "mean_token_accuracy": 0.512086040340364,
-      "num_tokens": 1789717.0,
       "step": 590
     },
     {
-      "epoch": 1.8815686274509804,
-      "grad_norm": 3.174295663833618,
-      "learning_rate": 5.767918088737202e-06,
-      "loss": 2.5042,
-      "mean_token_accuracy": 0.5141274336725473,
-      "num_tokens": 1821803.0,
       "step": 600
     },
     {
-      "epoch": 1.9129411764705884,
-      "grad_norm": 3.231480121612549,
-      "learning_rate": 5.682593856655291e-06,
-      "loss": 2.6359,
-      "mean_token_accuracy": 0.49160230327397586,
-      "num_tokens": 1853817.0,
       "step": 610
     },
     {
-      "epoch": 1.944313725490196,
-      "grad_norm": 1.1881468296051025,
-      "learning_rate": 5.597269624573379e-06,
-      "loss": 2.4535,
-      "mean_token_accuracy": 0.5213793812319636,
-      "num_tokens": 1885929.0,
       "step": 620
     },
     {
-      "epoch": 1.9756862745098038,
-      "grad_norm": 1.3049256801605225,
-      "learning_rate": 5.511945392491468e-06,
-      "loss": 2.5596,
-      "mean_token_accuracy": 0.5133258309215307,
-      "num_tokens": 1918060.0,
       "step": 630
     },
     {
-      "epoch": 2.0062745098039216,
-      "grad_norm": 2.1421661376953125,
-      "learning_rate": 5.426621160409556e-06,
-      "loss": 2.4831,
-      "mean_token_accuracy": 0.5165034267000663,
-      "num_tokens": 1948420.0,
       "step": 640
     },
     {
-      "epoch": 2.0376470588235294,
-      "grad_norm": 2.0425727367401123,
-      "learning_rate": 5.341296928327645e-06,
-      "loss": 2.3654,
-      "mean_token_accuracy": 0.5259943537414074,
-      "num_tokens": 1977715.0,
       "step": 650
     },
     {
-      "epoch": 2.069019607843137,
-      "grad_norm": 4.167781352996826,
-      "learning_rate": 5.255972696245735e-06,
-      "loss": 2.3315,
-      "mean_token_accuracy": 0.5249333314597606,
-      "num_tokens": 2008534.0,
       "step": 660
     },
     {
-      "epoch": 2.1003921568627453,
-      "grad_norm": 1.0092592239379883,
-      "learning_rate": 5.1706484641638235e-06,
-      "loss": 2.5238,
-      "mean_token_accuracy": 0.5057306325063109,
-      "num_tokens": 2039030.0,
       "step": 670
     },
     {
-      "epoch": 2.131764705882353,
-      "grad_norm": 1.6947963237762451,
-      "learning_rate": 5.0853242320819115e-06,
-      "loss": 2.5809,
-      "mean_token_accuracy": 0.5050426244735717,
-      "num_tokens": 2068912.0,
       "step": 680
     },
     {
-      "epoch": 2.1631372549019607,
-      "grad_norm": 1.5759137868881226,
-      "learning_rate": 5e-06,
-      "loss": 2.4439,
-      "mean_token_accuracy": 0.5173273866996169,
-      "num_tokens": 2101461.0,
       "step": 690
     },
     {
-      "epoch": 2.1945098039215685,
-      "grad_norm": 1.685102939605713,
-      "learning_rate": 4.914675767918089e-06,
-      "loss": 2.4616,
-      "mean_token_accuracy": 0.5100228149443865,
-      "num_tokens": 2131232.0,
       "step": 700
     },
     {
-      "epoch": 2.2258823529411766,
-      "grad_norm": 1.9910387992858887,
-      "learning_rate": 4.829351535836178e-06,
-      "loss": 2.3545,
-      "mean_token_accuracy": 0.5206725034862757,
-      "num_tokens": 2160460.0,
       "step": 710
     },
     {
-      "epoch": 2.2572549019607844,
-      "grad_norm": 1.7385118007659912,
-      "learning_rate": 4.744027303754267e-06,
-      "loss": 2.521,
-      "mean_token_accuracy": 0.503148902207613,
-      "num_tokens": 2188175.0,
       "step": 720
     },
     {
-      "epoch": 2.288627450980392,
-      "grad_norm": 5.597545623779297,
-      "learning_rate": 4.658703071672355e-06,
-      "loss": 2.467,
-      "mean_token_accuracy": 0.5022781057283282,
-      "num_tokens": 2218714.0,
       "step": 730
     },
     {
-      "epoch": 2.32,
-      "grad_norm": 1.7059907913208008,
-      "learning_rate": 4.573378839590444e-06,
-      "loss": 2.4086,
-      "mean_token_accuracy": 0.504382885247469,
-      "num_tokens": 2249170.0,
       "step": 740
     },
     {
-      "epoch": 2.351372549019608,
-      "grad_norm": 1.951714277267456,
-      "learning_rate": 4.488054607508533e-06,
-      "loss": 2.3236,
-      "mean_token_accuracy": 0.5256480574607849,
-      "num_tokens": 2280286.0,
       "step": 750
     },
     {
-      "epoch": 2.3827450980392157,
-      "grad_norm": 1.0276103019714355,
-      "learning_rate": 4.402730375426622e-06,
-      "loss": 2.3727,
-      "mean_token_accuracy": 0.5266215573996306,
-      "num_tokens": 2311312.0,
       "step": 760
     },
     {
-      "epoch": 2.4141176470588235,
-      "grad_norm": 2.829286813735962,
-      "learning_rate": 4.31740614334471e-06,
-      "loss": 2.5146,
-      "mean_token_accuracy": 0.5105616014450789,
-      "num_tokens": 2340935.0,
       "step": 770
     },
     {
-      "epoch": 2.445490196078431,
-      "grad_norm": 3.0118846893310547,
-      "learning_rate": 4.232081911262799e-06,
-      "loss": 2.3505,
-      "mean_token_accuracy": 0.5210155340842902,
-      "num_tokens": 2370291.0,
       "step": 780
     },
     {
-      "epoch": 2.4768627450980394,
-      "grad_norm": 1.9568514823913574,
-      "learning_rate": 4.1467576791808874e-06,
-      "loss": 2.3832,
-      "mean_token_accuracy": 0.5071445981040597,
-      "num_tokens": 2399843.0,
       "step": 790
     },
     {
-      "epoch": 2.508235294117647,
-      "grad_norm": 1.8932603597640991,
-      "learning_rate": 4.061433447098976e-06,
-      "loss": 2.3508,
-      "mean_token_accuracy": 0.5251543965190649,
-      "num_tokens": 2428762.0,
       "step": 800
     },
     {
-      "epoch": 2.539607843137255,
-      "grad_norm": 1.755767822265625,
-      "learning_rate": 3.976109215017065e-06,
-      "loss": 2.3532,
-      "mean_token_accuracy": 0.5324380807578564,
-      "num_tokens": 2458475.0,
       "step": 810
     },
     {
-      "epoch": 2.5709803921568626,
-      "grad_norm": 2.4889233112335205,
-      "learning_rate": 3.890784982935154e-06,
-      "loss": 2.6067,
-      "mean_token_accuracy": 0.5031498618423939,
-      "num_tokens": 2489770.0,
       "step": 820
     },
     {
-      "epoch": 2.6023529411764708,
-      "grad_norm": 4.700379371643066,
-      "learning_rate": 3.8054607508532425e-06,
-      "loss": 2.5566,
-      "mean_token_accuracy": 0.502924164570868,
-      "num_tokens": 2521156.0,
       "step": 830
     },
     {
-      "epoch": 2.6337254901960785,
-      "grad_norm": 12.594019889831543,
-      "learning_rate": 3.7201365187713314e-06,
-      "loss": 2.1664,
-      "mean_token_accuracy": 0.5561403293162585,
-      "num_tokens": 2553903.0,
       "step": 840
     },
     {
-      "epoch": 2.665098039215686,
-      "grad_norm": 5.380671977996826,
-      "learning_rate": 3.6348122866894202e-06,
-      "loss": 2.3804,
-      "mean_token_accuracy": 0.5276698149740696,
-      "num_tokens": 2583417.0,
       "step": 850
     },
     {
-      "epoch": 2.696470588235294,
-      "grad_norm": 6.616447448730469,
-      "learning_rate": 3.5494880546075087e-06,
-      "loss": 2.4498,
-      "mean_token_accuracy": 0.5167227942496538,
-      "num_tokens": 2612099.0,
       "step": 860
     },
     {
-      "epoch": 2.7278431372549017,
-      "grad_norm": 1.3597829341888428,
-      "learning_rate": 3.4641638225255976e-06,
-      "loss": 2.173,
-      "mean_token_accuracy": 0.5551321767270565,
-      "num_tokens": 2644692.0,
       "step": 870
     },
     {
-      "epoch": 2.75921568627451,
-      "grad_norm": 2.5514867305755615,
-      "learning_rate": 3.378839590443686e-06,
-      "loss": 2.3411,
-      "mean_token_accuracy": 0.534308859705925,
-      "num_tokens": 2680221.0,
       "step": 880
     },
     {
-      "epoch": 2.7905882352941176,
-      "grad_norm": 2.470513105392456,
-      "learning_rate": 3.2935153583617753e-06,
-      "loss": 2.3716,
-      "mean_token_accuracy": 0.5275221727788448,
-      "num_tokens": 2715613.0,
       "step": 890
     },
     {
-      "epoch": 2.8219607843137258,
-      "grad_norm": 1.194263219833374,
-      "learning_rate": 3.2081911262798638e-06,
-      "loss": 2.3571,
-      "mean_token_accuracy": 0.5199422530829907,
-      "num_tokens": 2745234.0,
       "step": 900
     },
     {
-      "epoch": 2.8533333333333335,
-      "grad_norm": Infinity,
-      "learning_rate": 3.122866894197952e-06,
-      "loss": 2.4158,
-      "mean_token_accuracy": 0.5191751107573509,
-      "num_tokens": 2775161.0,
       "step": 910
     },
     {
-      "epoch": 2.8847058823529412,
-      "grad_norm": 1.294569492340088,
-      "learning_rate": 3.046075085324232e-06,
-      "loss": 2.3558,
-      "mean_token_accuracy": 0.5214510016143322,
-      "num_tokens": 2805373.0,
       "step": 920
     },
     {
-      "epoch": 2.916078431372549,
-      "grad_norm": 4.139784336090088,
-      "learning_rate": 2.9607508532423213e-06,
-      "loss": 2.3869,
-      "mean_token_accuracy": 0.5307831708341837,
-      "num_tokens": 2831957.0,
       "step": 930
     },
     {
-      "epoch": 2.9474509803921567,
-      "grad_norm": 1.2397838830947876,
-      "learning_rate": 2.8754266211604098e-06,
-      "loss": 2.3455,
-      "mean_token_accuracy": 0.5367285626009106,
-      "num_tokens": 2862724.0,
       "step": 940
     },
     {
-      "epoch": 2.978823529411765,
-      "grad_norm": 1.8458396196365356,
-      "learning_rate": 2.790102389078498e-06,
-      "loss": 2.3212,
-      "mean_token_accuracy": 0.540785015001893,
-      "num_tokens": 2895266.0,
       "step": 950
     },
     {
-      "epoch": 3.0094117647058822,
-      "grad_norm": 2.0150907039642334,
-      "learning_rate": 2.7047781569965875e-06,
-      "loss": 2.3589,
-      "mean_token_accuracy": 0.5204295409031403,
-      "num_tokens": 2924126.0,
       "step": 960
     },
     {
-      "epoch": 3.0407843137254904,
-      "grad_norm": 10.822606086730957,
-      "learning_rate": 2.619453924914676e-06,
-      "loss": 2.1408,
-      "mean_token_accuracy": 0.5493647336959839,
-      "num_tokens": 2956817.0,
       "step": 970
     },
     {
-      "epoch": 3.072156862745098,
-      "grad_norm": 1.3175485134124756,
-      "learning_rate": 2.534129692832765e-06,
-      "loss": 2.3916,
-      "mean_token_accuracy": 0.5206685658544302,
-      "num_tokens": 2986467.0,
       "step": 980
     },
     {
-      "epoch": 3.103529411764706,
-      "grad_norm": 1.7138490676879883,
-      "learning_rate": 2.4488054607508537e-06,
-      "loss": 2.3403,
-      "mean_token_accuracy": 0.5319944698363542,
-      "num_tokens": 3018127.0,
       "step": 990
     },
     {
-      "epoch": 3.1349019607843136,
-      "grad_norm": 1.6033964157104492,
-      "learning_rate": 2.363481228668942e-06,
-      "loss": 2.2751,
-      "mean_token_accuracy": 0.5398386877030135,
-      "num_tokens": 3047280.0,
       "step": 1000
     },
     {
-      "epoch": 3.1662745098039213,
-      "grad_norm": 7.103280544281006,
-      "learning_rate": 2.278156996587031e-06,
-      "loss": 2.3816,
-      "mean_token_accuracy": 0.5190372098237276,
-      "num_tokens": 3077137.0,
       "step": 1010
     },
     {
-      "epoch": 3.1976470588235295,
-      "grad_norm": 2.4392924308776855,
-      "learning_rate": 2.1928327645051195e-06,
-      "loss": 2.3052,
-      "mean_token_accuracy": 0.5296947434544563,
-      "num_tokens": 3106067.0,
       "step": 1020
     },
     {
-      "epoch": 3.2290196078431372,
-      "grad_norm": 1.4106686115264893,
-      "learning_rate": 2.1075085324232083e-06,
-      "loss": 2.3615,
-      "mean_token_accuracy": 0.525895349867642,
-      "num_tokens": 3136450.0,
       "step": 1030
     },
     {
-      "epoch": 3.260392156862745,
-      "grad_norm": 3.269272565841675,
-      "learning_rate": 2.022184300341297e-06,
-      "loss": 2.3037,
-      "mean_token_accuracy": 0.5490067519247532,
-      "num_tokens": 3166808.0,
       "step": 1040
     },
     {
-      "epoch": 3.291764705882353,
-      "grad_norm": 1.5100555419921875,
-      "learning_rate": 1.9368600682593857e-06,
-      "loss": 2.3014,
-      "mean_token_accuracy": 0.5390114476904273,
-      "num_tokens": 3197483.0,
       "step": 1050
     },
     {
-      "epoch": 3.323137254901961,
-      "grad_norm": 1.4328869581222534,
-      "learning_rate": 1.8515358361774745e-06,
-      "loss": 2.2193,
-      "mean_token_accuracy": 0.5445488292723895,
-      "num_tokens": 3229662.0,
       "step": 1060
     },
     {
-      "epoch": 3.3545098039215686,
-      "grad_norm": 0.9292280077934265,
-      "learning_rate": 1.7662116040955632e-06,
-      "loss": 2.1304,
-      "mean_token_accuracy": 0.5581423584371805,
-      "num_tokens": 3262175.0,
       "step": 1070
     },
     {
-      "epoch": 3.3858823529411763,
-      "grad_norm": 2.55062198638916,
-      "learning_rate": 1.680887372013652e-06,
-      "loss": 2.4022,
-      "mean_token_accuracy": 0.5283184833824635,
-      "num_tokens": 3291239.0,
       "step": 1080
     },
     {
-      "epoch": 3.417254901960784,
-      "grad_norm": 3.2028212547302246,
-      "learning_rate": 1.5955631399317405e-06,
-      "loss": 2.4047,
-      "mean_token_accuracy": 0.530560277402401,
-      "num_tokens": 3321636.0,
       "step": 1090
     },
     {
-      "epoch": 3.4486274509803923,
-      "grad_norm": 1.1053611040115356,
-      "learning_rate": 1.5102389078498294e-06,
-      "loss": 2.0193,
-      "mean_token_accuracy": 0.5678496524691582,
-      "num_tokens": 3355839.0,
       "step": 1100
     },
     {
-      "epoch": 3.48,
-      "grad_norm": 1.1278761625289917,
-      "learning_rate": 1.4249146757679183e-06,
-      "loss": 2.1899,
-      "mean_token_accuracy": 0.5349464191123843,
-      "num_tokens": 3390743.0,
       "step": 1110
     },
     {
-      "epoch": 3.5113725490196077,
-      "grad_norm": 1.3680450916290283,
-      "learning_rate": 1.339590443686007e-06,
-      "loss": 2.3307,
-      "mean_token_accuracy": 0.5308054933324456,
-      "num_tokens": 3422911.0,
       "step": 1120
     },
     {
-      "epoch": 3.542745098039216,
-      "grad_norm": 3.9734294414520264,
-      "learning_rate": 1.2542662116040958e-06,
-      "loss": 2.2857,
-      "mean_token_accuracy": 0.5387092420831323,
-      "num_tokens": 3453759.0,
       "step": 1130
     },
     {
-      "epoch": 3.5741176470588236,
-      "grad_norm": 2.855978012084961,
-      "learning_rate": 1.1689419795221844e-06,
-      "loss": 2.2933,
-      "mean_token_accuracy": 0.5302057925611734,
-      "num_tokens": 3482976.0,
       "step": 1140
     },
     {
-      "epoch": 3.6054901960784314,
-      "grad_norm": 2.837674617767334,
-      "learning_rate": 1.0836177474402731e-06,
-      "loss": 2.3656,
-      "mean_token_accuracy": 0.5338190544396639,
-      "num_tokens": 3512124.0,
       "step": 1150
     },
     {
-      "epoch": 3.636862745098039,
-      "grad_norm": 1.6821599006652832,
-      "learning_rate": 9.982935153583618e-07,
-      "loss": 2.3696,
-      "mean_token_accuracy": 0.5232982926070691,
-      "num_tokens": 3539944.0,
       "step": 1160
     },
     {
-      "epoch": 3.668235294117647,
-      "grad_norm": 8.743041038513184,
-      "learning_rate": 9.129692832764505e-07,
-      "loss": 2.3186,
-      "mean_token_accuracy": 0.5293452955782414,
-      "num_tokens": 3568686.0,
       "step": 1170
     },
     {
-      "epoch": 3.699607843137255,
-      "grad_norm": 3.6034657955169678,
-      "learning_rate": 8.276450511945393e-07,
-      "loss": 2.474,
-      "mean_token_accuracy": 0.518931976519525,
-      "num_tokens": 3596306.0,
       "step": 1180
     },
     {
-      "epoch": 3.7309803921568627,
-      "grad_norm": 1.2798527479171753,
-      "learning_rate": 7.42320819112628e-07,
-      "loss": 2.1739,
-      "mean_token_accuracy": 0.5471075214445591,
-      "num_tokens": 3625513.0,
       "step": 1190
     },
     {
-      "epoch": 3.7623529411764705,
-      "grad_norm": 1.1355539560317993,
-      "learning_rate": 6.569965870307168e-07,
-      "loss": 2.2781,
-      "mean_token_accuracy": 0.5349656146019697,
-      "num_tokens": 3658136.0,
       "step": 1200
     }
   ],
   "logging_steps": 10,
-  "max_steps": 1272,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 4,
-  "save_steps": 200,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
@@ -1107,7 +1107,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6.324879825159782e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.4242424242424243,
   "eval_steps": 500,
   "global_step": 1200,
   "is_hyper_param_search": false,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.020202020202020204,
+      "grad_norm": 0.7669611573219299,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 3.4353,
+      "mean_token_accuracy": 0.4085813149809837,
+      "num_tokens": 19518.0,
       "step": 10
     },
     {
+      "epoch": 0.04040404040404041,
+      "grad_norm": 1.0622327327728271,
+      "learning_rate": 1.7000000000000003e-05,
+      "loss": 2.917,
+      "mean_token_accuracy": 0.47086485363543035,
+      "num_tokens": 39828.0,
       "step": 20
     },
     {
+      "epoch": 0.06060606060606061,
+      "grad_norm": 0.7585554718971252,
+      "learning_rate": 2.6000000000000002e-05,
+      "loss": 3.4086,
+      "mean_token_accuracy": 0.4174537444487214,
+      "num_tokens": 60025.0,
       "step": 30
     },
     {
+      "epoch": 0.08080808080808081,
+      "grad_norm": 0.8688523173332214,
+      "learning_rate": 3.6e-05,
+      "loss": 3.0871,
+      "mean_token_accuracy": 0.44842766746878626,
+      "num_tokens": 79198.0,
       "step": 40
     },
     {
+      "epoch": 0.10101010101010101,
+      "grad_norm": 1.1718096733093262,
+      "learning_rate": 4.600000000000001e-05,
+      "loss": 2.8734,
+      "mean_token_accuracy": 0.47476900182664394,
+      "num_tokens": 99513.0,
       "step": 50
     },
     {
+      "epoch": 0.12121212121212122,
+      "grad_norm": 4.563867092132568,
+      "learning_rate": 5.500000000000001e-05,
+      "loss": 3.3615,
+      "mean_token_accuracy": 0.4317817037925124,
+      "num_tokens": 117370.0,
       "step": 60
     },
     {
+      "epoch": 0.1414141414141414,
+      "grad_norm": 1.2560386657714844,
+      "learning_rate": 6.500000000000001e-05,
+      "loss": 3.283,
+      "mean_token_accuracy": 0.4325120337307453,
+      "num_tokens": 135492.0,
       "step": 70
     },
     {
+      "epoch": 0.16161616161616163,
+      "grad_norm": 0.9355543255805969,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 2.6181,
+      "mean_token_accuracy": 0.5057813063263893,
+      "num_tokens": 155520.0,
       "step": 80
     },
     {
+      "epoch": 0.18181818181818182,
+      "grad_norm": 3.2217044830322266,
+      "learning_rate": 8.5e-05,
+      "loss": 2.7865,
+      "mean_token_accuracy": 0.4679586015641689,
+      "num_tokens": 175768.0,
       "step": 90
     },
     {
+      "epoch": 0.20202020202020202,
+      "grad_norm": 3.879002809524536,
+      "learning_rate": 9.5e-05,
+      "loss": 2.5889,
+      "mean_token_accuracy": 0.4929826859384775,
+      "num_tokens": 194625.0,
       "step": 100
     },
     {
+      "epoch": 0.2222222222222222,
+      "grad_norm": 4.434224605560303,
+      "learning_rate": 9.96389891696751e-05,
+      "loss": 2.8938,
+      "mean_token_accuracy": 0.4700875423848629,
+      "num_tokens": 213171.0,
       "step": 110
     },
     {
+      "epoch": 0.24242424242424243,
+      "grad_norm": 9.846081733703613,
+      "learning_rate": 9.891696750902527e-05,
+      "loss": 2.343,
+      "mean_token_accuracy": 0.5364672098308801,
+      "num_tokens": 233264.0,
       "step": 120
     },
     {
+      "epoch": 0.26262626262626265,
+      "grad_norm": 1.6914633512496948,
+      "learning_rate": 9.819494584837545e-05,
+      "loss": 2.0776,
+      "mean_token_accuracy": 0.5672583125531674,
+      "num_tokens": 253987.0,
       "step": 130
     },
     {
+      "epoch": 0.2828282828282828,
+      "grad_norm": 2.6192626953125,
+      "learning_rate": 9.747292418772563e-05,
+      "loss": 2.3453,
+      "mean_token_accuracy": 0.5441015616059304,
+      "num_tokens": 270290.0,
       "step": 140
     },
     {
+      "epoch": 0.30303030303030304,
+      "grad_norm": 1.5915228128433228,
+      "learning_rate": 9.675090252707581e-05,
+      "loss": 2.3179,
+      "mean_token_accuracy": 0.5427416026592254,
+      "num_tokens": 287937.0,
       "step": 150
     },
     {
+      "epoch": 0.32323232323232326,
+      "grad_norm": 3.6255054473876953,
+      "learning_rate": 9.6028880866426e-05,
+      "loss": 2.0695,
+      "mean_token_accuracy": 0.5739563502371311,
+      "num_tokens": 307751.0,
       "step": 160
     },
     {
+      "epoch": 0.3434343434343434,
+      "grad_norm": 1.644443392753601,
+      "learning_rate": 9.530685920577617e-05,
+      "loss": 2.0005,
+      "mean_token_accuracy": 0.5894926242530346,
+      "num_tokens": 329149.0,
       "step": 170
     },
     {
+      "epoch": 0.36363636363636365,
+      "grad_norm": 3.0595431327819824,
+      "learning_rate": 9.458483754512635e-05,
+      "loss": 2.1171,
+      "mean_token_accuracy": 0.563767921924591,
+      "num_tokens": 346950.0,
       "step": 180
     },
     {
+      "epoch": 0.3838383838383838,
+      "grad_norm": 4.366697311401367,
+      "learning_rate": 9.386281588447655e-05,
+      "loss": 1.8502,
+      "mean_token_accuracy": 0.6056702233850956,
+      "num_tokens": 365017.0,
       "step": 190
     },
     {
+      "epoch": 0.40404040404040403,
+      "grad_norm": 2.07828950881958,
+      "learning_rate": 9.314079422382673e-05,
+      "loss": 1.7173,
+      "mean_token_accuracy": 0.621714337170124,
+      "num_tokens": 385734.0,
       "step": 200
     },
     {
+      "epoch": 0.42424242424242425,
+      "grad_norm": 2.536418914794922,
+      "learning_rate": 9.24187725631769e-05,
+      "loss": 1.8389,
+      "mean_token_accuracy": 0.6277161747217178,
+      "num_tokens": 403192.0,
       "step": 210
     },
     {
+      "epoch": 0.4444444444444444,
+      "grad_norm": 1.2784960269927979,
+      "learning_rate": 9.169675090252709e-05,
+      "loss": 1.8463,
+      "mean_token_accuracy": 0.614106347411871,
+      "num_tokens": 423909.0,
       "step": 220
     },
     {
+      "epoch": 0.46464646464646464,
+      "grad_norm": 2.1213629245758057,
+      "learning_rate": 9.097472924187727e-05,
+      "loss": 1.9916,
+      "mean_token_accuracy": 0.5884236626327037,
+      "num_tokens": 440385.0,
       "step": 230
     },
     {
+      "epoch": 0.48484848484848486,
+      "grad_norm": 2.149017810821533,
+      "learning_rate": 9.025270758122743e-05,
+      "loss": 1.8883,
+      "mean_token_accuracy": 0.5964126840233803,
+      "num_tokens": 458254.0,
       "step": 240
     },
     {
+      "epoch": 0.5050505050505051,
+      "grad_norm": 2.0171642303466797,
+      "learning_rate": 8.953068592057761e-05,
+      "loss": 2.0051,
+      "mean_token_accuracy": 0.5975183926522731,
+      "num_tokens": 473348.0,
       "step": 250
     },
     {
+      "epoch": 0.5252525252525253,
+      "grad_norm": 2.7957370281219482,
+      "learning_rate": 8.88086642599278e-05,
+      "loss": 1.8217,
+      "mean_token_accuracy": 0.6270358674228191,
+      "num_tokens": 494498.0,
       "step": 260
     },
     {
+      "epoch": 0.5454545454545454,
+      "grad_norm": 1.990042805671692,
+      "learning_rate": 8.808664259927798e-05,
+      "loss": 1.9135,
+      "mean_token_accuracy": 0.6138852916657924,
+      "num_tokens": 513100.0,
       "step": 270
     },
     {
+      "epoch": 0.5656565656565656,
+      "grad_norm": 2.3455405235290527,
+      "learning_rate": 8.736462093862816e-05,
+      "loss": 1.73,
+      "mean_token_accuracy": 0.6234532974660396,
+      "num_tokens": 532747.0,
       "step": 280
     },
     {
+      "epoch": 0.5858585858585859,
+      "grad_norm": 6.667909145355225,
+      "learning_rate": 8.664259927797834e-05,
+      "loss": 1.7277,
+      "mean_token_accuracy": 0.6382385298609734,
+      "num_tokens": 548769.0,
       "step": 290
     },
     {
+      "epoch": 0.6060606060606061,
+      "grad_norm": 1.917138695716858,
+      "learning_rate": 8.592057761732852e-05,
+      "loss": 1.5142,
+      "mean_token_accuracy": 0.6500309258699417,
+      "num_tokens": 567923.0,
       "step": 300
     },
     {
+      "epoch": 0.6262626262626263,
+      "grad_norm": 2.0420806407928467,
+      "learning_rate": 8.51985559566787e-05,
+      "loss": 1.7889,
+      "mean_token_accuracy": 0.6363476559519767,
+      "num_tokens": 585783.0,
       "step": 310
     },
     {
+      "epoch": 0.6464646464646465,
+      "grad_norm": 2.097153425216675,
+      "learning_rate": 8.447653429602888e-05,
+      "loss": 1.8036,
+      "mean_token_accuracy": 0.6113098107278347,
+      "num_tokens": 603216.0,
       "step": 320
     },
     {
+      "epoch": 0.6666666666666666,
+      "grad_norm": 1.5260653495788574,
+      "learning_rate": 8.375451263537906e-05,
+      "loss": 1.6468,
+      "mean_token_accuracy": 0.6486528031527996,
+      "num_tokens": 624173.0,
       "step": 330
     },
     {
+      "epoch": 0.6868686868686869,
+      "grad_norm": 1.6897279024124146,
+      "learning_rate": 8.303249097472924e-05,
+      "loss": 1.6672,
+      "mean_token_accuracy": 0.6469507545232773,
+      "num_tokens": 644656.0,
       "step": 340
     },
     {
+      "epoch": 0.7070707070707071,
+      "grad_norm": 3.271334648132324,
+      "learning_rate": 8.231046931407944e-05,
+      "loss": 1.7365,
+      "mean_token_accuracy": 0.6231018535792827,
+      "num_tokens": 664866.0,
       "step": 350
     },
     {
+      "epoch": 0.7272727272727273,
+      "grad_norm": 2.4320480823516846,
+      "learning_rate": 8.158844765342962e-05,
+      "loss": 1.7142,
+      "mean_token_accuracy": 0.6582800924777985,
+      "num_tokens": 683588.0,
       "step": 360
     },
     {
+      "epoch": 0.7474747474747475,
+      "grad_norm": 1.7879201173782349,
+      "learning_rate": 8.086642599277978e-05,
+      "loss": 1.7034,
+      "mean_token_accuracy": 0.6335549138486385,
+      "num_tokens": 701111.0,
       "step": 370
     },
     {
+      "epoch": 0.7676767676767676,
+      "grad_norm": 2.026250123977661,
+      "learning_rate": 8.014440433212996e-05,
+      "loss": 1.7315,
+      "mean_token_accuracy": 0.647477601468563,
+      "num_tokens": 719347.0,
       "step": 380
     },
     {
+      "epoch": 0.7878787878787878,
+      "grad_norm": 1.7138152122497559,
+      "learning_rate": 7.942238267148014e-05,
+      "loss": 1.612,
+      "mean_token_accuracy": 0.6578697174787521,
+      "num_tokens": 736038.0,
       "step": 390
     },
     {
+      "epoch": 0.8080808080808081,
+      "grad_norm": 1.5255950689315796,
+      "learning_rate": 7.870036101083032e-05,
+      "loss": 1.8457,
+      "mean_token_accuracy": 0.6219270460307598,
+      "num_tokens": 754840.0,
       "step": 400
     },
     {
+      "epoch": 0.8282828282828283,
+      "grad_norm": 3.739635705947876,
+      "learning_rate": 7.79783393501805e-05,
+      "loss": 1.7356,
+      "mean_token_accuracy": 0.6468625396490097,
+      "num_tokens": 769781.0,
       "step": 410
     },
     {
+      "epoch": 0.8484848484848485,
+      "grad_norm": 1.507598638534546,
+      "learning_rate": 7.72563176895307e-05,
+      "loss": 1.692,
+      "mean_token_accuracy": 0.6468491986393928,
+      "num_tokens": 788586.0,
       "step": 420
     },
     {
+      "epoch": 0.8686868686868687,
+      "grad_norm": 1.7837804555892944,
+      "learning_rate": 7.653429602888087e-05,
+      "loss": 1.5843,
+      "mean_token_accuracy": 0.6515591643750668,
+      "num_tokens": 808940.0,
       "step": 430
     },
     {
+      "epoch": 0.8888888888888888,
+      "grad_norm": 1.6429297924041748,
+      "learning_rate": 7.581227436823105e-05,
+      "loss": 1.7314,
+      "mean_token_accuracy": 0.6319857247173786,
+      "num_tokens": 828022.0,
       "step": 440
     },
     {
+      "epoch": 0.9090909090909091,
+      "grad_norm": 2.7530970573425293,
+      "learning_rate": 7.509025270758123e-05,
+      "loss": 1.7059,
+      "mean_token_accuracy": 0.6434222847223282,
+      "num_tokens": 845577.0,
       "step": 450
     },
     {
+      "epoch": 0.9292929292929293,
+      "grad_norm": 1.5740615129470825,
+      "learning_rate": 7.436823104693141e-05,
+      "loss": 1.7016,
+      "mean_token_accuracy": 0.6465534403920173,
+      "num_tokens": 866655.0,
       "step": 460
     },
     {
+      "epoch": 0.9494949494949495,
+      "grad_norm": 1.735592246055603,
+      "learning_rate": 7.36462093862816e-05,
+      "loss": 1.7066,
+      "mean_token_accuracy": 0.6451319254934788,
+      "num_tokens": 884148.0,
       "step": 470
     },
     {
+      "epoch": 0.9696969696969697,
+      "grad_norm": 2.2288308143615723,
+      "learning_rate": 7.292418772563177e-05,
+      "loss": 1.5397,
+      "mean_token_accuracy": 0.657177159935236,
+      "num_tokens": 905387.0,
       "step": 480
     },
     {
+      "epoch": 0.98989898989899,
+      "grad_norm": 2.363151788711548,
+      "learning_rate": 7.220216606498195e-05,
+      "loss": 1.919,
+      "mean_token_accuracy": 0.632861833833158,
+      "num_tokens": 925073.0,
       "step": 490
     },
     {
+      "epoch": 1.0101010101010102,
+      "grad_norm": 2.896883487701416,
+      "learning_rate": 7.148014440433213e-05,
+      "loss": 1.7299,
+      "mean_token_accuracy": 0.6438414633274079,
+      "num_tokens": 941834.0,
       "step": 500
     },
     {
+      "epoch": 1.0303030303030303,
+      "grad_norm": 5.034731388092041,
+      "learning_rate": 7.075812274368231e-05,
+      "loss": 1.6831,
+      "mean_token_accuracy": 0.6518400736153126,
+      "num_tokens": 958017.0,
       "step": 510
     },
     {
+      "epoch": 1.0505050505050506,
+      "grad_norm": 1.8448883295059204,
+      "learning_rate": 7.003610108303249e-05,
+      "loss": 1.5903,
+      "mean_token_accuracy": 0.656456682831049,
+      "num_tokens": 974729.0,
       "step": 520
     },
     {
+      "epoch": 1.0707070707070707,
+      "grad_norm": 1.8980131149291992,
+      "learning_rate": 6.931407942238267e-05,
+      "loss": 1.5521,
+      "mean_token_accuracy": 0.6531489036977292,
+      "num_tokens": 995648.0,
       "step": 530
     },
     {
+      "epoch": 1.0909090909090908,
+      "grad_norm": 11.001644134521484,
+      "learning_rate": 6.859205776173285e-05,
+      "loss": 1.6765,
+      "mean_token_accuracy": 0.6484075963497162,
+      "num_tokens": 1013028.0,
       "step": 540
     },
     {
+      "epoch": 1.1111111111111112,
+      "grad_norm": 2.1369686126708984,
+      "learning_rate": 6.787003610108303e-05,
+      "loss": 1.6332,
+      "mean_token_accuracy": 0.6697568111121655,
+      "num_tokens": 1035666.0,
       "step": 550
     },
     {
+      "epoch": 1.1313131313131313,
+      "grad_norm": 1.4799697399139404,
+      "learning_rate": 6.714801444043321e-05,
+      "loss": 1.7022,
+      "mean_token_accuracy": 0.6447197504341602,
+      "num_tokens": 1055111.0,
       "step": 560
     },
     {
+      "epoch": 1.1515151515151516,
+      "grad_norm": 2.329430341720581,
+      "learning_rate": 6.642599277978339e-05,
+      "loss": 1.7747,
+      "mean_token_accuracy": 0.6284119591116906,
+      "num_tokens": 1073114.0,
       "step": 570
     },
     {
+      "epoch": 1.1717171717171717,
+      "grad_norm": 3.0006322860717773,
+      "learning_rate": 6.570397111913357e-05,
+      "loss": 1.6484,
+      "mean_token_accuracy": 0.6459825620055198,
+      "num_tokens": 1089325.0,
       "step": 580
     },
     {
+      "epoch": 1.1919191919191918,
+      "grad_norm": 8.296801567077637,
+      "learning_rate": 6.498194945848377e-05,
+      "loss": 1.6361,
+      "mean_token_accuracy": 0.6575549930334091,
+      "num_tokens": 1105923.0,
       "step": 590
     },
     {
+      "epoch": 1.2121212121212122,
+      "grad_norm": 2.0805375576019287,
+      "learning_rate": 6.425992779783394e-05,
+      "loss": 1.4366,
+      "mean_token_accuracy": 0.6729512564837933,
+      "num_tokens": 1127328.0,
       "step": 600
     },
     {
+      "epoch": 1.2323232323232323,
+      "grad_norm": 2.0608692169189453,
+      "learning_rate": 6.353790613718412e-05,
+      "loss": 1.5935,
+      "mean_token_accuracy": 0.6634075284004212,
+      "num_tokens": 1147181.0,
       "step": 610
     },
     {
+      "epoch": 1.2525252525252526,
+      "grad_norm": 3.865906238555908,
+      "learning_rate": 6.28158844765343e-05,
+      "loss": 1.5445,
+      "mean_token_accuracy": 0.6648930206894874,
+      "num_tokens": 1164753.0,
       "step": 620
     },
     {
+      "epoch": 1.2727272727272727,
+      "grad_norm": 1.8212089538574219,
+      "learning_rate": 6.209386281588448e-05,
+      "loss": 1.6492,
+      "mean_token_accuracy": 0.6418032497167587,
+      "num_tokens": 1184594.0,
       "step": 630
     },
     {
+      "epoch": 1.2929292929292928,
+      "grad_norm": 3.3243095874786377,
+      "learning_rate": 6.137184115523465e-05,
+      "loss": 1.5253,
+      "mean_token_accuracy": 0.669656652957201,
+      "num_tokens": 1206129.0,
       "step": 640
     },
     {
+      "epoch": 1.3131313131313131,
+      "grad_norm": 1.6167833805084229,
+      "learning_rate": 6.064981949458484e-05,
+      "loss": 1.5478,
+      "mean_token_accuracy": 0.6591526836156845,
+      "num_tokens": 1226012.0,
       "step": 650
     },
     {
+      "epoch": 1.3333333333333333,
+      "grad_norm": 3.81766676902771,
+      "learning_rate": 5.992779783393502e-05,
+      "loss": 1.788,
+      "mean_token_accuracy": 0.6285306230187416,
+      "num_tokens": 1242162.0,
       "step": 660
     },
     {
+      "epoch": 1.3535353535353536,
+      "grad_norm": 1.2418630123138428,
+      "learning_rate": 5.9205776173285197e-05,
+      "loss": 1.498,
+      "mean_token_accuracy": 0.6632598295807839,
+      "num_tokens": 1265769.0,
       "step": 670
     },
     {
+      "epoch": 1.3737373737373737,
+      "grad_norm": 5.77175235748291,
+      "learning_rate": 5.848375451263538e-05,
+      "loss": 1.5168,
+      "mean_token_accuracy": 0.668974144756794,
+      "num_tokens": 1284762.0,
       "step": 680
     },
     {
+      "epoch": 1.393939393939394,
+      "grad_norm": 2.184446334838867,
+      "learning_rate": 5.776173285198556e-05,
+      "loss": 1.5881,
+      "mean_token_accuracy": 0.6551995210349559,
+      "num_tokens": 1303301.0,
       "step": 690
     },
     {
+      "epoch": 1.4141414141414141,
+      "grad_norm": 1.2407817840576172,
+      "learning_rate": 5.703971119133574e-05,
+      "loss": 1.5,
+      "mean_token_accuracy": 0.6752019837498665,
+      "num_tokens": 1325905.0,
       "step": 700
     },
     {
+      "epoch": 1.4343434343434343,
+      "grad_norm": 1.709302544593811,
+      "learning_rate": 5.631768953068592e-05,
+      "loss": 1.3928,
+      "mean_token_accuracy": 0.6914731428027153,
+      "num_tokens": 1345901.0,
       "step": 710
     },
     {
+      "epoch": 1.4545454545454546,
+      "grad_norm": 1.451839566230774,
+      "learning_rate": 5.55956678700361e-05,
+      "loss": 1.7266,
+      "mean_token_accuracy": 0.6524573139846325,
+      "num_tokens": 1362788.0,
       "step": 720
     },
     {
+      "epoch": 1.4747474747474747,
+      "grad_norm": 3.0613152980804443,
+      "learning_rate": 5.487364620938629e-05,
+      "loss": 1.5518,
+      "mean_token_accuracy": 0.669068893790245,
+      "num_tokens": 1379456.0,
       "step": 730
     },
     {
+      "epoch": 1.494949494949495,
+      "grad_norm": 1.5313241481781006,
+      "learning_rate": 5.415162454873647e-05,
+      "loss": 1.4793,
+      "mean_token_accuracy": 0.6733302772045135,
+      "num_tokens": 1398659.0,
       "step": 740
     },
     {
+      "epoch": 1.5151515151515151,
+      "grad_norm": 1.9046810865402222,
+      "learning_rate": 5.342960288808665e-05,
+      "loss": 1.441,
+      "mean_token_accuracy": 0.681334413588047,
+      "num_tokens": 1416828.0,
       "step": 750
     },
     {
+      "epoch": 1.5353535353535355,
+      "grad_norm": 1.984887719154358,
+      "learning_rate": 5.270758122743683e-05,
+      "loss": 1.6379,
+      "mean_token_accuracy": 0.6509823858737945,
+      "num_tokens": 1431285.0,
       "step": 760
     },
     {
+      "epoch": 1.5555555555555556,
+      "grad_norm": 1.1224578619003296,
+      "learning_rate": 5.1985559566787e-05,
+      "loss": 1.6412,
+      "mean_token_accuracy": 0.6585724964737892,
+      "num_tokens": 1451394.0,
       "step": 770
     },
     {
+      "epoch": 1.5757575757575757,
+      "grad_norm": 1.988461971282959,
+      "learning_rate": 5.126353790613718e-05,
+      "loss": 1.7935,
+      "mean_token_accuracy": 0.6379878364503384,
+      "num_tokens": 1471734.0,
       "step": 780
     },
     {
+      "epoch": 1.595959595959596,
+      "grad_norm": 1.495737075805664,
+      "learning_rate": 5.054151624548736e-05,
+      "loss": 1.5828,
+      "mean_token_accuracy": 0.6762645319104195,
+      "num_tokens": 1489257.0,
       "step": 790
     },
     {
+      "epoch": 1.6161616161616161,
+      "grad_norm": 8.480497360229492,
+      "learning_rate": 4.981949458483755e-05,
+      "loss": 1.8259,
+      "mean_token_accuracy": 0.6398707143962383,
+      "num_tokens": 1506944.0,
       "step": 800
     },
     {
+      "epoch": 1.6363636363636362,
+      "grad_norm": 3.5872299671173096,
+      "learning_rate": 4.909747292418773e-05,
+      "loss": 1.659,
+      "mean_token_accuracy": 0.6536437503993511,
+      "num_tokens": 1522614.0,
       "step": 810
     },
     {
+      "epoch": 1.6565656565656566,
+      "grad_norm": 1.6361726522445679,
+      "learning_rate": 4.837545126353791e-05,
+      "loss": 1.6725,
+      "mean_token_accuracy": 0.6559996947646141,
+      "num_tokens": 1543689.0,
       "step": 820
     },
     {
+      "epoch": 1.676767676767677,
+      "grad_norm": 2.0231411457061768,
+      "learning_rate": 4.765342960288809e-05,
+      "loss": 1.5075,
+      "mean_token_accuracy": 0.6640274345874786,
+      "num_tokens": 1563909.0,
       "step": 830
     },
     {
+      "epoch": 1.696969696969697,
+      "grad_norm": 2.8920161724090576,
+      "learning_rate": 4.693140794223827e-05,
+      "loss": 1.7398,
+      "mean_token_accuracy": 0.6467047482728958,
+      "num_tokens": 1581501.0,
       "step": 840
     },
     {
+      "epoch": 1.7171717171717171,
+      "grad_norm": 1.7013530731201172,
+      "learning_rate": 4.620938628158845e-05,
+      "loss": 1.5343,
+      "mean_token_accuracy": 0.6554797604680062,
+      "num_tokens": 1602745.0,
       "step": 850
     },
     {
+      "epoch": 1.7373737373737375,
+      "grad_norm": 1.5854769945144653,
+      "learning_rate": 4.548736462093863e-05,
+      "loss": 1.5482,
+      "mean_token_accuracy": 0.6624557688832283,
+      "num_tokens": 1622681.0,
       "step": 860
     },
     {
+      "epoch": 1.7575757575757576,
+      "grad_norm": 1.8224149942398071,
+      "learning_rate": 4.4765342960288806e-05,
+      "loss": 1.5386,
+      "mean_token_accuracy": 0.6684516966342926,
+      "num_tokens": 1640007.0,
       "step": 870
     },
     {
+      "epoch": 1.7777777777777777,
+      "grad_norm": 3.453603744506836,
+      "learning_rate": 4.404332129963899e-05,
+      "loss": 1.517,
+      "mean_token_accuracy": 0.6810053952038289,
+      "num_tokens": 1662564.0,
       "step": 880
     },
     {
+      "epoch": 1.797979797979798,
+      "grad_norm": 1.8291434049606323,
+      "learning_rate": 4.332129963898917e-05,
+      "loss": 1.4867,
+      "mean_token_accuracy": 0.6807132661342621,
+      "num_tokens": 1682205.0,
       "step": 890
     },
     {
+      "epoch": 1.8181818181818183,
+      "grad_norm": 3.217017889022827,
+      "learning_rate": 4.259927797833935e-05,
+      "loss": 1.5669,
+      "mean_token_accuracy": 0.6671051770448685,
+      "num_tokens": 1697359.0,
       "step": 900
     },
     {
+      "epoch": 1.8383838383838382,
+      "grad_norm": 1.371291160583496,
+      "learning_rate": 4.187725631768953e-05,
+      "loss": 1.4343,
+      "mean_token_accuracy": 0.6958822838962078,
+      "num_tokens": 1720184.0,
       "step": 910
     },
     {
+      "epoch": 1.8585858585858586,
+      "grad_norm": 2.7192142009735107,
+      "learning_rate": 4.115523465703972e-05,
+      "loss": 1.4134,
+      "mean_token_accuracy": 0.6945954069495202,
+      "num_tokens": 1739446.0,
       "step": 920
     },
     {
+      "epoch": 1.878787878787879,
+      "grad_norm": 2.4172279834747314,
+      "learning_rate": 4.043321299638989e-05,
+      "loss": 1.5238,
+      "mean_token_accuracy": 0.6700037866830826,
+      "num_tokens": 1758629.0,
       "step": 930
     },
     {
+      "epoch": 1.898989898989899,
+      "grad_norm": 1.7151827812194824,
+      "learning_rate": 3.971119133574007e-05,
+      "loss": 1.5609,
+      "mean_token_accuracy": 0.665402963757515,
+      "num_tokens": 1777313.0,
       "step": 940
     },
     {
+      "epoch": 1.9191919191919191,
+      "grad_norm": 2.2101497650146484,
+      "learning_rate": 3.898916967509025e-05,
+      "loss": 1.6266,
+      "mean_token_accuracy": 0.6585289388895035,
+      "num_tokens": 1797829.0,
       "step": 950
     },
     {
+      "epoch": 1.9393939393939394,
+      "grad_norm": 1.5860098600387573,
+      "learning_rate": 3.826714801444044e-05,
+      "loss": 1.5842,
+      "mean_token_accuracy": 0.6568711154162884,
+      "num_tokens": 1819044.0,
       "step": 960
     },
     {
+      "epoch": 1.9595959595959596,
+      "grad_norm": 2.2135324478149414,
+      "learning_rate": 3.754512635379062e-05,
+      "loss": 1.5017,
+      "mean_token_accuracy": 0.6738567680120469,
+      "num_tokens": 1837829.0,
       "step": 970
     },
     {
+      "epoch": 1.9797979797979797,
+      "grad_norm": 1.8832942247390747,
+      "learning_rate": 3.68231046931408e-05,
+      "loss": 1.6386,
+      "mean_token_accuracy": 0.6536656714975834,
+      "num_tokens": 1854112.0,
       "step": 980
     },
     {
+      "epoch": 2.0,
+      "grad_norm": 1.4356534481048584,
+      "learning_rate": 3.610108303249098e-05,
+      "loss": 1.5847,
+      "mean_token_accuracy": 0.661115899682045,
+      "num_tokens": 1869584.0,
       "step": 990
     },
     {
+      "epoch": 2.0202020202020203,
+      "grad_norm": 3.277709484100342,
+      "learning_rate": 3.537906137184116e-05,
+      "loss": 1.5794,
+      "mean_token_accuracy": 0.6566751167178154,
+      "num_tokens": 1885930.0,
       "step": 1000
     },
     {
+      "epoch": 2.04040404040404,
+      "grad_norm": 1.672176718711853,
+      "learning_rate": 3.4657039711191336e-05,
+      "loss": 1.6426,
+      "mean_token_accuracy": 0.669060529768467,
+      "num_tokens": 1908386.0,
       "step": 1010
     },
     {
+      "epoch": 2.0606060606060606,
+      "grad_norm": 1.787185549736023,
+      "learning_rate": 3.3935018050541516e-05,
+      "loss": 1.487,
+      "mean_token_accuracy": 0.6758425906300545,
+      "num_tokens": 1928179.0,
       "step": 1020
     },
     {
+      "epoch": 2.080808080808081,
+      "grad_norm": 1.1577355861663818,
+      "learning_rate": 3.3212996389891696e-05,
+      "loss": 1.4625,
+      "mean_token_accuracy": 0.6700806766748428,
+      "num_tokens": 1947571.0,
       "step": 1030
     },
     {
+      "epoch": 2.101010101010101,
+      "grad_norm": 2.881878137588501,
+      "learning_rate": 3.249097472924188e-05,
+      "loss": 1.5191,
+      "mean_token_accuracy": 0.6762366116046905,
+      "num_tokens": 1965861.0,
       "step": 1040
     },
     {
+      "epoch": 2.121212121212121,
+      "grad_norm": 1.5470958948135376,
+      "learning_rate": 3.176895306859206e-05,
+      "loss": 1.5277,
+      "mean_token_accuracy": 0.6653557240962982,
+      "num_tokens": 1987291.0,
       "step": 1050
     },
     {
+      "epoch": 2.1414141414141414,
+      "grad_norm": 1.8662647008895874,
+      "learning_rate": 3.104693140794224e-05,
+      "loss": 1.4983,
+      "mean_token_accuracy": 0.6764706581830978,
+      "num_tokens": 2003260.0,
       "step": 1060
     },
     {
+      "epoch": 2.1616161616161618,
+      "grad_norm": 1.2521296739578247,
+      "learning_rate": 3.032490974729242e-05,
+      "loss": 1.4703,
+      "mean_token_accuracy": 0.6709941066801548,
+      "num_tokens": 2020415.0,
       "step": 1070
     },
     {
+      "epoch": 2.1818181818181817,
+      "grad_norm": 6.714540004730225,
+      "learning_rate": 2.9602888086642598e-05,
+      "loss": 1.6314,
+      "mean_token_accuracy": 0.6627085514366626,
+      "num_tokens": 2037429.0,
       "step": 1080
     },
     {
+      "epoch": 2.202020202020202,
+      "grad_norm": 2.123655080795288,
+      "learning_rate": 2.888086642599278e-05,
+      "loss": 1.5588,
+      "mean_token_accuracy": 0.6700812846422195,
+      "num_tokens": 2054688.0,
       "step": 1090
     },
     {
+      "epoch": 2.2222222222222223,
+      "grad_norm": 2.0840301513671875,
+      "learning_rate": 2.815884476534296e-05,
+      "loss": 1.7006,
+      "mean_token_accuracy": 0.6508332662284374,
+      "num_tokens": 2075865.0,
       "step": 1100
     },
     {
+      "epoch": 2.242424242424242,
+      "grad_norm": 1.9797368049621582,
+      "learning_rate": 2.7436823104693144e-05,
+      "loss": 1.501,
+      "mean_token_accuracy": 0.6622319832444191,
+      "num_tokens": 2093688.0,
       "step": 1110
     },
     {
+      "epoch": 2.2626262626262625,
+      "grad_norm": 2.007617950439453,
+      "learning_rate": 2.6714801444043324e-05,
+      "loss": 1.487,
+      "mean_token_accuracy": 0.6778388306498527,
+      "num_tokens": 2113155.0,
       "step": 1120
     },
     {
+      "epoch": 2.282828282828283,
+      "grad_norm": 1.2606422901153564,
+      "learning_rate": 2.59927797833935e-05,
+      "loss": 1.4389,
+      "mean_token_accuracy": 0.6810906417667866,
+      "num_tokens": 2131996.0,
       "step": 1130
     },
     {
+      "epoch": 2.303030303030303,
+      "grad_norm": 1.655875563621521,
+      "learning_rate": 2.527075812274368e-05,
+      "loss": 1.5242,
+      "mean_token_accuracy": 0.6587833181023598,
+      "num_tokens": 2151671.0,
       "step": 1140
     },
     {
+      "epoch": 2.323232323232323,
+      "grad_norm": 1.516184687614441,
+      "learning_rate": 2.4548736462093864e-05,
+      "loss": 1.4613,
+      "mean_token_accuracy": 0.6847339481115341,
+      "num_tokens": 2173364.0,
       "step": 1150
     },
     {
+      "epoch": 2.3434343434343434,
+      "grad_norm": 1.842247486114502,
+      "learning_rate": 2.3826714801444043e-05,
+      "loss": 1.5037,
+      "mean_token_accuracy": 0.6658960357308388,
+      "num_tokens": 2190588.0,
       "step": 1160
     },
     {
+      "epoch": 2.3636363636363638,
+      "grad_norm": 3.459821939468384,
+      "learning_rate": 2.3104693140794227e-05,
+      "loss": 1.6169,
+      "mean_token_accuracy": 0.6574626617133618,
+      "num_tokens": 2212944.0,
       "step": 1170
     },
     {
+      "epoch": 2.3838383838383836,
+      "grad_norm": 2.880796194076538,
+      "learning_rate": 2.2382671480144403e-05,
+      "loss": 1.4261,
+      "mean_token_accuracy": 0.6781707689166069,
+      "num_tokens": 2230777.0,
       "step": 1180
     },
     {
+      "epoch": 2.404040404040404,
+      "grad_norm": 1.416815996170044,
+      "learning_rate": 2.1660649819494586e-05,
+      "loss": 1.539,
+      "mean_token_accuracy": 0.6707717284560204,
+      "num_tokens": 2248750.0,
       "step": 1190
     },
     {
+      "epoch": 2.4242424242424243,
+      "grad_norm": 1.6914799213409424,
+      "learning_rate": 2.0938628158844766e-05,
+      "loss": 1.4456,
+      "mean_token_accuracy": 0.6809201754629612,
+      "num_tokens": 2266641.0,
       "step": 1200
     }
   ],
   "logging_steps": 10,
+  "max_steps": 1485,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 50,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
       "attributes": {}
     }
   },
+  "total_flos": 3.918999165635174e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

results/checkpoint-1200/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1d6e53bf1d681901c1cdb28909be54e0d63c65199d2388028634c1022d22ce03
 size 5560

 version https://git-lfs.github.com/spec/v1
+oid sha256:2c2e099a6969a2a35f5b0a318e89c5857fca33ddbae202ddebca99dadbbe51de
 size 5560