Upload folder using huggingface_hub

Browse files

Files changed (7) hide show

adapter_config.json +4 -4
adapter_model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +436 -436
training_args.bin +1 -1

adapter_config.json CHANGED Viewed

@@ -25,12 +25,12 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "down_proj",
-    "gate_proj",
-    "q_proj",
     "v_proj",
-    "up_proj",
     "k_proj",
     "o_proj"
   ],
   "target_parameters": null,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "v_proj",
+    "q_proj",
     "k_proj",
+    "up_proj",
+    "gate_proj",
+    "down_proj",
     "o_proj"
   ],
   "target_parameters": null,

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:113914c3a9ee16733e58f144a9deeca955b0922ab00373741664c59a81d5ed15
 size 645975704

 version https://git-lfs.github.com/spec/v1
+oid sha256:cd16a83486b928f6cc0241a7882893e158babc6dd4a67f332ae4f534facd8c86
 size 645975704

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e19a83976d7b82f54bb4a0f6f7715f4c02b88623321d19bd752fd983e6806256
 size 1292087499

 version https://git-lfs.github.com/spec/v1
+oid sha256:8b62b0bfaf641adbe41f088ddd9a3aa363eba72ea7e327a1da8bbce8885aabc9
 size 1292087499

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0b8f4725c0848633ed9e183cba04e612b910caa03960fb7a327aef513ddf465e
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:919326fcb5ecb4a36f040cc547270748ad022189adac0a473721620686517f34
 size 14645

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:13c315171d65d7a17956efce3890599a6e10f86bff109a674a492a6c135b9c49
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:49bc3fab163d4d421c507c6573f14dfaf3a399471064ffb19f74b86c0e66eb8e
 size 1465

trainer_state.json CHANGED Viewed

@@ -11,799 +11,799 @@
   "log_history": [
     {
       "epoch": 0.060350030175015085,
-      "grad_norm": 0.2549596130847931,
-      "learning_rate": 0.0001636363636363636,
-      "loss": 1.7622,
-      "mean_token_accuracy": 0.636659591794014,
-      "num_tokens": 157807.0,
       "step": 25
     },
     {
       "epoch": 0.12070006035003017,
-      "grad_norm": 0.26669397950172424,
-      "learning_rate": 0.00033409090909090905,
-      "loss": 0.7954,
-      "mean_token_accuracy": 0.794013529419899,
-      "num_tokens": 285036.0,
       "step": 50
     },
     {
       "epoch": 0.18105009052504525,
-      "grad_norm": 0.19134272634983063,
-      "learning_rate": 0.0005045454545454546,
-      "loss": 0.5897,
-      "mean_token_accuracy": 0.837238620519638,
-      "num_tokens": 443279.0,
       "step": 75
     },
     {
       "epoch": 0.24140012070006034,
-      "grad_norm": 0.24841615557670593,
-      "learning_rate": 0.0005999774265866424,
-      "loss": 0.5122,
-      "mean_token_accuracy": 0.8582117992639542,
-      "num_tokens": 569358.0,
       "step": 100
     },
     {
       "epoch": 0.30175015087507545,
-      "grad_norm": 0.208372563123703,
-      "learning_rate": 0.0005997582513956242,
-      "loss": 0.3663,
-      "mean_token_accuracy": 0.8957295078039169,
-      "num_tokens": 729085.0,
       "step": 125
     },
     {
       "epoch": 0.3621001810500905,
-      "grad_norm": 0.2048349678516388,
-      "learning_rate": 0.0005993060798733474,
-      "loss": 0.2976,
-      "mean_token_accuracy": 0.9137766647338867,
-      "num_tokens": 857264.0,
       "step": 150
     },
     {
       "epoch": 0.4224502112251056,
-      "grad_norm": 0.16685613989830017,
-      "learning_rate": 0.0005986212634840513,
-      "loss": 0.2196,
-      "mean_token_accuracy": 0.9362494552135467,
-      "num_tokens": 1014533.0,
       "step": 175
     },
     {
       "epoch": 0.4828002414001207,
-      "grad_norm": 0.20695029199123383,
-      "learning_rate": 0.0005977043345223621,
-      "loss": 0.2028,
-      "mean_token_accuracy": 0.9412092477083206,
-      "num_tokens": 1140813.0,
       "step": 200
     },
     {
       "epoch": 0.5431502715751357,
-      "grad_norm": 0.15852399170398712,
-      "learning_rate": 0.0005965560056995495,
-      "loss": 0.1714,
-      "mean_token_accuracy": 0.9513516998291016,
-      "num_tokens": 1298110.0,
       "step": 225
     },
     {
       "epoch": 0.6035003017501509,
-      "grad_norm": 0.26144832372665405,
-      "learning_rate": 0.0005951771695895515,
-      "loss": 0.1319,
-      "mean_token_accuracy": 0.9622357904911041,
-      "num_tokens": 1424382.0,
       "step": 250
     },
     {
       "epoch": 0.663850331925166,
-      "grad_norm": 0.13929001986980438,
-      "learning_rate": 0.0005935688979351926,
-      "loss": 0.1362,
-      "mean_token_accuracy": 0.9618479776382446,
-      "num_tokens": 1581234.0,
       "step": 275
     },
     {
       "epoch": 0.724200362100181,
-      "grad_norm": 0.20948883891105652,
-      "learning_rate": 0.0005917324408151391,
-      "loss": 0.1148,
-      "mean_token_accuracy": 0.9671791672706604,
-      "num_tokens": 1707432.0,
       "step": 300
     },
     {
       "epoch": 0.7845503922751962,
-      "grad_norm": 0.1256396621465683,
-      "learning_rate": 0.0005896692256722372,
-      "loss": 0.1204,
-      "mean_token_accuracy": 0.9664241331815719,
-      "num_tokens": 1865179.0,
       "step": 325
     },
     {
       "epoch": 0.8449004224502112,
-      "grad_norm": 0.16760271787643433,
-      "learning_rate": 0.0005873808562039883,
-      "loss": 0.0993,
-      "mean_token_accuracy": 0.9722720664739609,
-      "num_tokens": 1991194.0,
       "step": 350
     },
     {
       "epoch": 0.9052504526252263,
-      "grad_norm": 0.13247406482696533,
-      "learning_rate": 0.000584869111116027,
-      "loss": 0.1088,
-      "mean_token_accuracy": 0.9698091906309128,
-      "num_tokens": 2148159.0,
       "step": 375
     },
     {
       "epoch": 0.9656004828002414,
-      "grad_norm": 0.1613062173128128,
-      "learning_rate": 0.000582135942739566,
-      "loss": 0.0808,
-      "mean_token_accuracy": 0.9774637776613235,
-      "num_tokens": 2274851.0,
       "step": 400
     },
     {
       "epoch": 1.0,
-      "eval_loss": 0.08808618038892746,
-      "eval_mean_token_accuracy": 0.9753262432845863,
       "eval_num_tokens": 2354180.0,
-      "eval_runtime": 15.8043,
-      "eval_samples_per_second": 23.348,
-      "eval_steps_per_second": 11.706,
       "step": 415
     },
     {
       "epoch": 1.024140012070006,
-      "grad_norm": 0.15485015511512756,
-      "learning_rate": 0.0005791834755138876,
-      "loss": 0.0976,
-      "mean_token_accuracy": 0.9728126489010054,
-      "num_tokens": 2422868.0,
       "step": 425
     },
     {
       "epoch": 1.0844900422450212,
-      "grad_norm": 0.10847453773021698,
-      "learning_rate": 0.0005760140043350575,
       "loss": 0.0611,
-      "mean_token_accuracy": 0.9824439281225205,
-      "num_tokens": 2564989.0,
       "step": 450
     },
     {
       "epoch": 1.1448400724200363,
-      "grad_norm": 0.09102415293455124,
-      "learning_rate": 0.0005726299927721457,
-      "loss": 0.0816,
-      "mean_token_accuracy": 0.9779865646362305,
-      "num_tokens": 2704814.0,
       "step": 475
     },
     {
       "epoch": 1.2051901025950513,
-      "grad_norm": 0.09399569034576416,
-      "learning_rate": 0.0005690340711523424,
-      "loss": 0.0544,
-      "mean_token_accuracy": 0.9843483155965805,
-      "num_tokens": 2845574.0,
       "step": 500
     },
     {
       "epoch": 1.2655401327700664,
-      "grad_norm": 0.0724228098988533,
-      "learning_rate": 0.0005652290345164548,
-      "loss": 0.0815,
-      "mean_token_accuracy": 0.9766461044549942,
-      "num_tokens": 2988351.0,
       "step": 525
     },
     {
       "epoch": 1.3258901629450814,
-      "grad_norm": 0.07961975783109665,
-      "learning_rate": 0.0005612178404463753,
-      "loss": 0.0555,
-      "mean_token_accuracy": 0.9839057290554046,
-      "num_tokens": 3131450.0,
       "step": 550
     },
     {
       "epoch": 1.3862401931200965,
-      "grad_norm": 0.1089630052447319,
-      "learning_rate": 0.0005570036067662102,
-      "loss": 0.0718,
-      "mean_token_accuracy": 0.9797851747274399,
-      "num_tokens": 3274594.0,
       "step": 575
     },
     {
       "epoch": 1.4465902232951118,
-      "grad_norm": 0.06336581707000732,
-      "learning_rate": 0.0005525896091188552,
       "loss": 0.0492,
-      "mean_token_accuracy": 0.9854604113101959,
-      "num_tokens": 3416329.0,
       "step": 600
     },
     {
       "epoch": 1.5069402534701268,
-      "grad_norm": 0.06915699690580368,
-      "learning_rate": 0.0005479792784199004,
-      "loss": 0.0653,
-      "mean_token_accuracy": 0.9818730032444001,
-      "num_tokens": 3557102.0,
       "step": 625
     },
     {
       "epoch": 1.567290283645142,
-      "grad_norm": 0.09291143715381622,
-      "learning_rate": 0.0005431761981908461,
-      "loss": 0.0516,
-      "mean_token_accuracy": 0.9852055913209915,
-      "num_tokens": 3701095.0,
       "step": 650
     },
     {
       "epoch": 1.627640313820157,
-      "grad_norm": 0.07441911846399307,
-      "learning_rate": 0.0005381841017737,
-      "loss": 0.0555,
-      "mean_token_accuracy": 0.9845552426576615,
-      "num_tokens": 3844239.0,
       "step": 675
     },
     {
       "epoch": 1.687990343995172,
-      "grad_norm": 0.09067196398973465,
-      "learning_rate": 0.0005330068694291224,
       "loss": 0.0454,
-      "mean_token_accuracy": 0.9871112030744552,
-      "num_tokens": 3988455.0,
       "step": 700
     },
     {
       "epoch": 1.748340374170187,
-      "grad_norm": 0.05332234129309654,
-      "learning_rate": 0.000527648525320374,
-      "loss": 0.0527,
-      "mean_token_accuracy": 0.9853162139654159,
-      "num_tokens": 4129554.0,
       "step": 725
     },
     {
       "epoch": 1.8086904043452021,
-      "grad_norm": 0.07973570376634598,
-      "learning_rate": 0.0005221132343854112,
-      "loss": 0.0415,
-      "mean_token_accuracy": 0.9880281090736389,
-      "num_tokens": 4270951.0,
       "step": 750
     },
     {
       "epoch": 1.8690404345202172,
-      "grad_norm": 0.06410035490989685,
-      "learning_rate": 0.0005164052990995595,
-      "loss": 0.0587,
-      "mean_token_accuracy": 0.9833071821928024,
-      "num_tokens": 4412170.0,
       "step": 775
     },
     {
       "epoch": 1.9293904646952322,
-      "grad_norm": 0.10863803327083588,
-      "learning_rate": 0.0005105291561312827,
-      "loss": 0.0426,
-      "mean_token_accuracy": 0.9874854302406311,
-      "num_tokens": 4555061.0,
       "step": 800
     },
     {
       "epoch": 1.9897404948702473,
-      "grad_norm": 0.06359567493200302,
-      "learning_rate": 0.0005044893728936449,
-      "loss": 0.0454,
-      "mean_token_accuracy": 0.9876255023479462,
-      "num_tokens": 4688503.0,
       "step": 825
     },
     {
       "epoch": 2.0,
-      "eval_loss": 0.054030660539865494,
-      "eval_mean_token_accuracy": 0.9852899135770025,
       "eval_num_tokens": 4708360.0,
-      "eval_runtime": 15.7855,
-      "eval_samples_per_second": 23.376,
-      "eval_steps_per_second": 11.72,
       "step": 830
     },
     {
       "epoch": 2.048280024140012,
-      "grad_norm": 0.08557040989398956,
-      "learning_rate": 0.0004982906439941489,
-      "loss": 0.051,
-      "mean_token_accuracy": 0.9849937619622221,
-      "num_tokens": 4838547.0,
       "step": 850
     },
     {
       "epoch": 2.1086300543150274,
-      "grad_norm": 0.07765046507120132,
-      "learning_rate": 0.0004919377875857071,
-      "loss": 0.0313,
-      "mean_token_accuracy": 0.9904298150539398,
-      "num_tokens": 4971888.0,
       "step": 875
     },
     {
       "epoch": 2.1689800844900424,
-      "grad_norm": 0.04834737256169319,
-      "learning_rate": 0.00048543574162158455,
-      "loss": 0.0484,
-      "mean_token_accuracy": 0.9856269609928131,
-      "num_tokens": 5123809.0,
       "step": 900
     },
     {
       "epoch": 2.2293301146650575,
-      "grad_norm": 0.0744078978896141,
-      "learning_rate": 0.00047878956001722235,
-      "loss": 0.0318,
-      "mean_token_accuracy": 0.9904006707668305,
-      "num_tokens": 5257157.0,
       "step": 925
     },
     {
       "epoch": 2.2896801448400725,
-      "grad_norm": 0.06557600945234299,
-      "learning_rate": 0.00047200440872192636,
-      "loss": 0.0443,
-      "mean_token_accuracy": 0.9863678300380707,
-      "num_tokens": 5407203.0,
       "step": 950
     },
     {
       "epoch": 2.3500301750150876,
-      "grad_norm": 0.07097447663545609,
-      "learning_rate": 0.0004650855617034737,
-      "loss": 0.0326,
-      "mean_token_accuracy": 0.9901631319522858,
-      "num_tokens": 5539507.0,
       "step": 975
     },
     {
       "epoch": 2.4103802051901027,
-      "grad_norm": 0.09130991250276566,
-      "learning_rate": 0.00045803839684875944,
-      "loss": 0.0423,
-      "mean_token_accuracy": 0.9872457224130631,
-      "num_tokens": 5690823.0,
       "step": 1000
     },
     {
       "epoch": 2.4707302353651177,
-      "grad_norm": 0.06412132829427719,
-      "learning_rate": 0.00045086839178366795,
-      "loss": 0.0318,
-      "mean_token_accuracy": 0.9907098066806793,
-      "num_tokens": 5825317.0,
       "step": 1025
     },
     {
       "epoch": 2.5310802655401328,
-      "grad_norm": 0.05260787159204483,
-      "learning_rate": 0.00044358111961541986,
-      "loss": 0.042,
-      "mean_token_accuracy": 0.9874378234148026,
-      "num_tokens": 5975743.0,
       "step": 1050
     },
     {
       "epoch": 2.591430295715148,
-      "grad_norm": 0.04893992841243744,
-      "learning_rate": 0.0004361822446007026,
-      "loss": 0.0323,
-      "mean_token_accuracy": 0.990597317814827,
-      "num_tokens": 6107203.0,
       "step": 1075
     },
     {
       "epoch": 2.651780325890163,
-      "grad_norm": 0.047428593039512634,
-      "learning_rate": 0.00042867751774295254,
-      "loss": 0.0458,
-      "mean_token_accuracy": 0.9866835039854049,
-      "num_tokens": 6258840.0,
       "step": 1100
     },
     {
       "epoch": 2.712130356065178,
-      "grad_norm": 0.04629245027899742,
-      "learning_rate": 0.0004210727723222105,
-      "loss": 0.0297,
-      "mean_token_accuracy": 0.990944333076477,
-      "num_tokens": 6390779.0,
       "step": 1125
     },
     {
       "epoch": 2.772480386240193,
-      "grad_norm": 0.05299977585673332,
-      "learning_rate": 0.0004133739193610255,
-      "loss": 0.0418,
-      "mean_token_accuracy": 0.9874403899908066,
-      "num_tokens": 6543210.0,
       "step": 1150
     },
     {
       "epoch": 2.832830416415208,
-      "grad_norm": 0.044210728257894516,
-      "learning_rate": 0.00040558694302992963,
-      "loss": 0.0292,
-      "mean_token_accuracy": 0.9912893986701965,
-      "num_tokens": 6677163.0,
       "step": 1175
     },
     {
       "epoch": 2.8931804465902236,
-      "grad_norm": 0.034908175468444824,
-      "learning_rate": 0.00039771789599605845,
-      "loss": 0.0404,
-      "mean_token_accuracy": 0.9877376782894135,
-      "num_tokens": 6827748.0,
       "step": 1200
     },
     {
       "epoch": 2.9535304767652386,
-      "grad_norm": 0.05875537171959877,
-      "learning_rate": 0.0003897728947185279,
-      "loss": 0.028,
-      "mean_token_accuracy": 0.9915457659959793,
-      "num_tokens": 6959551.0,
       "step": 1225
     },
     {
       "epoch": 3.0,
-      "eval_loss": 0.0452975295484066,
-      "eval_mean_token_accuracy": 0.9880153765549531,
       "eval_num_tokens": 7062540.0,
-      "eval_runtime": 15.7338,
-      "eval_samples_per_second": 23.453,
-      "eval_steps_per_second": 11.758,
       "step": 1245
     },
     {
       "epoch": 3.012070006035003,
-      "grad_norm": 0.042585525661706924,
-      "learning_rate": 0.00038175811469422905,
-      "loss": 0.0374,
-      "mean_token_accuracy": 0.9883644322759098,
-      "num_tokens": 7100902.0,
       "step": 1250
     },
     {
       "epoch": 3.0724200362100182,
-      "grad_norm": 0.06379897147417068,
-      "learning_rate": 0.00037367978565773226,
-      "loss": 0.028,
-      "mean_token_accuracy": 0.99155364215374,
-      "num_tokens": 7250783.0,
       "step": 1275
     },
     {
       "epoch": 3.1327700663850333,
-      "grad_norm": 0.07204161584377289,
-      "learning_rate": 0.0003655441867390346,
-      "loss": 0.0306,
-      "mean_token_accuracy": 0.9907914429903031,
-      "num_tokens": 7386632.0,
       "step": 1300
     },
     {
       "epoch": 3.1931200965600484,
-      "grad_norm": 0.06669546663761139,
-      "learning_rate": 0.00035735764158291254,
-      "loss": 0.0254,
-      "mean_token_accuracy": 0.9917327278852462,
-      "num_tokens": 7534074.0,
       "step": 1325
     },
     {
       "epoch": 3.2534701267350634,
-      "grad_norm": 0.056468356400728226,
-      "learning_rate": 0.0003491265134336745,
-      "loss": 0.0286,
-      "mean_token_accuracy": 0.9912703585624695,
-      "num_tokens": 7670187.0,
       "step": 1350
     },
     {
       "epoch": 3.3138201569100785,
-      "grad_norm": 0.04088124632835388,
-      "learning_rate": 0.00034085720018913276,
-      "loss": 0.0252,
-      "mean_token_accuracy": 0.9922074353694916,
-      "num_tokens": 7816677.0,
       "step": 1375
     },
     {
       "epoch": 3.3741701870850935,
-      "grad_norm": 0.060834601521492004,
-      "learning_rate": 0.0003325561294276413,
-      "loss": 0.0314,
-      "mean_token_accuracy": 0.9902624082565308,
-      "num_tokens": 7952220.0,
       "step": 1400
     },
     {
       "epoch": 3.4345202172601086,
-      "grad_norm": 0.047619305551052094,
-      "learning_rate": 0.00032422975341206157,
-      "loss": 0.0257,
-      "mean_token_accuracy": 0.9918809252977371,
-      "num_tokens": 8099840.0,
       "step": 1425
     },
     {
       "epoch": 3.4948702474351236,
-      "grad_norm": 0.05335197225213051,
-      "learning_rate": 0.000315884544074543,
-      "loss": 0.0284,
-      "mean_token_accuracy": 0.9908446717262268,
-      "num_tokens": 8236126.0,
       "step": 1450
     },
     {
       "epoch": 3.5552202776101387,
-      "grad_norm": 0.05193324014544487,
-      "learning_rate": 0.0003075269879860149,
-      "loss": 0.0237,
-      "mean_token_accuracy": 0.9922806292772293,
-      "num_tokens": 8384778.0,
       "step": 1475
     },
     {
       "epoch": 3.6155703077851538,
-      "grad_norm": 0.050464097410440445,
-      "learning_rate": 0.0002991635813142984,
-      "loss": 0.0281,
-      "mean_token_accuracy": 0.9910313940048218,
-      "num_tokens": 8519003.0,
       "step": 1500
     },
     {
       "epoch": 3.675920337960169,
-      "grad_norm": 0.0418088473379612,
-      "learning_rate": 0.0002908008247747611,
-      "loss": 0.0248,
-      "mean_token_accuracy": 0.9920767372846604,
-      "num_tokens": 8666448.0,
       "step": 1525
     },
     {
       "epoch": 3.736270368135184,
-      "grad_norm": 0.0733715295791626,
-      "learning_rate": 0.00028244521857743467,
-      "loss": 0.0261,
-      "mean_token_accuracy": 0.9917522144317626,
-      "num_tokens": 8802995.0,
       "step": 1550
     },
     {
       "epoch": 3.796620398310199,
-      "grad_norm": 0.029181618243455887,
-      "learning_rate": 0.00027410325737452793,
-      "loss": 0.0253,
-      "mean_token_accuracy": 0.9918905264139175,
-      "num_tokens": 8952485.0,
       "step": 1575
     },
     {
       "epoch": 3.856970428485214,
-      "grad_norm": 0.022401634603738785,
-      "learning_rate": 0.0002657814252122571,
-      "loss": 0.0255,
-      "mean_token_accuracy": 0.9920559304952622,
-      "num_tokens": 9088126.0,
       "step": 1600
     },
     {
       "epoch": 3.9173204586602295,
-      "grad_norm": 0.035883549600839615,
-      "learning_rate": 0.00025748619049092167,
-      "loss": 0.0247,
-      "mean_token_accuracy": 0.9920018029212951,
-      "num_tokens": 9238043.0,
       "step": 1625
     },
     {
       "epoch": 3.9776704888352445,
-      "grad_norm": 0.031110195443034172,
-      "learning_rate": 0.0002492240009371417,
-      "loss": 0.0248,
-      "mean_token_accuracy": 0.9918604761362075,
-      "num_tokens": 9369467.0,
       "step": 1650
     },
     {
       "epoch": 4.0,
-      "eval_loss": 0.04084077104926109,
-      "eval_mean_token_accuracy": 0.9893259013021315,
       "eval_num_tokens": 9416720.0,
-      "eval_runtime": 15.7205,
-      "eval_samples_per_second": 23.473,
-      "eval_steps_per_second": 11.768,
       "step": 1660
     },
     {
       "epoch": 4.036210018105009,
-      "grad_norm": 0.042655326426029205,
-      "learning_rate": 0.00024100127859216246,
-      "loss": 0.0245,
-      "mean_token_accuracy": 0.9926608100379866,
-      "num_tokens": 9517025.0,
       "step": 1675
     },
     {
       "epoch": 4.096560048280024,
-      "grad_norm": 0.0497356578707695,
-      "learning_rate": 0.0002328244148201266,
-      "loss": 0.0179,
-      "mean_token_accuracy": 0.9941043162345886,
-      "num_tokens": 9655560.0,
       "step": 1700
     },
     {
       "epoch": 4.15691007845504,
-      "grad_norm": 0.028950069099664688,
-      "learning_rate": 0.0002246997653401883,
-      "loss": 0.0236,
-      "mean_token_accuracy": 0.9927883541584015,
-      "num_tokens": 9802510.0,
       "step": 1725
     },
     {
       "epoch": 4.217260108630055,
-      "grad_norm": 0.02388886548578739,
-      "learning_rate": 0.00021663364528633574,
-      "loss": 0.0183,
-      "mean_token_accuracy": 0.9939106184244156,
-      "num_tokens": 9938159.0,
       "step": 1750
     },
     {
       "epoch": 4.27761013880507,
-      "grad_norm": 0.05049145594239235,
-      "learning_rate": 0.00020863232429875822,
       "loss": 0.0233,
-      "mean_token_accuracy": 0.9924809694290161,
-      "num_tokens": 10084527.0,
       "step": 1775
     },
     {
       "epoch": 4.337960168980085,
-      "grad_norm": 0.02479761652648449,
-      "learning_rate": 0.00020070202165057554,
-      "loss": 0.0189,
-      "mean_token_accuracy": 0.9934798705577851,
-      "num_tokens": 10223699.0,
       "step": 1800
     },
     {
       "epoch": 4.3983101991551,
-      "grad_norm": 0.02417929284274578,
-      "learning_rate": 0.00019284890141371618,
-      "loss": 0.0211,
-      "mean_token_accuracy": 0.9930866587162018,
-      "num_tokens": 10371425.0,
       "step": 1825
     },
     {
       "epoch": 4.458660229330115,
-      "grad_norm": 0.029235906898975372,
-      "learning_rate": 0.00018507906766770314,
-      "loss": 0.0188,
-      "mean_token_accuracy": 0.9934960836172104,
-      "num_tokens": 10510828.0,
       "step": 1850
     },
     {
       "epoch": 4.51901025950513,
-      "grad_norm": 0.02183988131582737,
-      "learning_rate": 0.00017739855975506917,
-      "loss": 0.0204,
-      "mean_token_accuracy": 0.9933663594722748,
-      "num_tokens": 10657379.0,
       "step": 1875
     },
     {
       "epoch": 4.579360289680145,
-      "grad_norm": 0.027698421850800514,
-      "learning_rate": 0.00016981334758709322,
-      "loss": 0.0183,
-      "mean_token_accuracy": 0.9937446874380111,
-      "num_tokens": 10794758.0,
       "step": 1900
     },
     {
       "epoch": 4.63971031985516,
-      "grad_norm": 0.030431602150201797,
-      "learning_rate": 0.00016232932700350157,
-      "loss": 0.0199,
-      "mean_token_accuracy": 0.9932859373092652,
-      "num_tokens": 10942187.0,
       "step": 1925
     },
     {
       "epoch": 4.700060350030175,
-      "grad_norm": 0.026663949713110924,
-      "learning_rate": 0.00015495231518974608,
-      "loss": 0.0188,
-      "mean_token_accuracy": 0.9938339275121689,
-      "num_tokens": 11079614.0,
       "step": 1950
     },
     {
       "epoch": 4.76041038020519,
-      "grad_norm": 0.025490237399935722,
-      "learning_rate": 0.000147688046155417,
-      "loss": 0.0209,
-      "mean_token_accuracy": 0.9929323321580887,
-      "num_tokens": 11226358.0,
       "step": 1975
     },
     {
       "epoch": 4.820760410380205,
-      "grad_norm": 0.0648968443274498,
-      "learning_rate": 0.00014054216627730755,
-      "loss": 0.0177,
-      "mean_token_accuracy": 0.9939511501789093,
-      "num_tokens": 11363683.0,
       "step": 2000
     },
     {
       "epoch": 4.88111044055522,
-      "grad_norm": 0.040247052907943726,
-      "learning_rate": 0.00013352022991059375,
-      "loss": 0.021,
-      "mean_token_accuracy": 0.9929184436798095,
-      "num_tokens": 11508599.0,
       "step": 2025
     },
     {
       "epoch": 4.941460470730235,
-      "grad_norm": 0.01861538551747799,
-      "learning_rate": 0.00012662769507154113,
-      "loss": 0.0173,
-      "mean_token_accuracy": 0.9944949728250504,
-      "num_tokens": 11644898.0,
       "step": 2050
     },
     {
       "epoch": 5.0,
-      "grad_norm": 0.07224704325199127,
-      "learning_rate": 0.00011986991919509261,
-      "loss": 0.0207,
-      "mean_token_accuracy": 0.9934880923979061,
       "num_tokens": 11770900.0,
       "step": 2075
     },
     {
       "epoch": 5.0,
-      "eval_loss": 0.03971695154905319,
-      "eval_mean_token_accuracy": 0.9899426402272404,
       "eval_num_tokens": 11770900.0,
-      "eval_runtime": 15.7222,
-      "eval_samples_per_second": 23.47,
-      "eval_steps_per_second": 11.767,
       "step": 2075
     }
   ],
@@ -824,7 +824,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5.113947106809139e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

   "log_history": [
     {
       "epoch": 0.060350030175015085,
+      "grad_norm": 0.2555118501186371,
+      "learning_rate": 0.00014209090909090907,
+      "loss": 1.7961,
+      "mean_token_accuracy": 0.6338900655508042,
+      "num_tokens": 157654.0,
       "step": 25
     },
     {
       "epoch": 0.12070006035003017,
+      "grad_norm": 0.2974064350128174,
+      "learning_rate": 0.0002901022727272727,
+      "loss": 0.8651,
+      "mean_token_accuracy": 0.7819488084316254,
+      "num_tokens": 283594.0,
       "step": 50
     },
     {
       "epoch": 0.18105009052504525,
+      "grad_norm": 0.1821448802947998,
+      "learning_rate": 0.0004381136363636364,
+      "loss": 0.6201,
+      "mean_token_accuracy": 0.829513993859291,
+      "num_tokens": 441384.0,
       "step": 75
     },
     {
       "epoch": 0.24140012070006034,
+      "grad_norm": 0.219114288687706,
+      "learning_rate": 0.0005209803987527346,
+      "loss": 0.4804,
+      "mean_token_accuracy": 0.8656451117992401,
+      "num_tokens": 570025.0,
       "step": 100
     },
     {
       "epoch": 0.30175015087507545,
+      "grad_norm": 0.27953630685806274,
+      "learning_rate": 0.0005207900816285337,
+      "loss": 0.3653,
+      "mean_token_accuracy": 0.8948821222782135,
+      "num_tokens": 725198.0,
       "step": 125
     },
     {
       "epoch": 0.3621001810500905,
+      "grad_norm": 0.23318831622600555,
+      "learning_rate": 0.0005203974460233567,
+      "loss": 0.3394,
+      "mean_token_accuracy": 0.9027728015184402,
+      "num_tokens": 850794.0,
       "step": 150
     },
     {
       "epoch": 0.4224502112251056,
+      "grad_norm": 0.16859084367752075,
+      "learning_rate": 0.000519802797125318,
+      "loss": 0.2425,
+      "mean_token_accuracy": 0.9307077479362488,
+      "num_tokens": 1008079.0,
       "step": 175
     },
     {
       "epoch": 0.4828002414001207,
+      "grad_norm": 0.21337567269802094,
+      "learning_rate": 0.0005190065971435844,
+      "loss": 0.2287,
+      "mean_token_accuracy": 0.9341706246137619,
+      "num_tokens": 1133934.0,
       "step": 200
     },
     {
       "epoch": 0.5431502715751357,
+      "grad_norm": 0.1900060623884201,
+      "learning_rate": 0.0005180094649491089,
+      "loss": 0.1665,
+      "mean_token_accuracy": 0.951556549668312,
+      "num_tokens": 1290998.0,
       "step": 225
     },
     {
       "epoch": 0.6035003017501509,
+      "grad_norm": 0.2943938374519348,
+      "learning_rate": 0.000516812175593594,
+      "loss": 0.1434,
+      "mean_token_accuracy": 0.9590511202812195,
+      "num_tokens": 1417806.0,
       "step": 250
     },
     {
       "epoch": 0.663850331925166,
+      "grad_norm": 0.11302364617586136,
+      "learning_rate": 0.0005154156597070589,
+      "loss": 0.1444,
+      "mean_token_accuracy": 0.9595862078666687,
+      "num_tokens": 1575293.0,
       "step": 275
     },
     {
       "epoch": 0.724200362100181,
+      "grad_norm": 0.27972692251205444,
+      "learning_rate": 0.0005138210027744792,
+      "loss": 0.1209,
+      "mean_token_accuracy": 0.9656497663259507,
+      "num_tokens": 1701625.0,
       "step": 300
     },
     {
       "epoch": 0.7845503922751962,
+      "grad_norm": 0.1272473782300949,
+      "learning_rate": 0.0005120294442920594,
+      "loss": 0.1096,
+      "mean_token_accuracy": 0.9686538934707641,
+      "num_tokens": 1860100.0,
       "step": 325
     },
     {
       "epoch": 0.8449004224502112,
+      "grad_norm": 0.22622144222259521,
+      "learning_rate": 0.0005100423768037967,
+      "loss": 0.1035,
+      "mean_token_accuracy": 0.970460234284401,
+      "num_tokens": 1987374.0,
       "step": 350
     },
     {
       "epoch": 0.9052504526252263,
+      "grad_norm": 0.12625542283058167,
+      "learning_rate": 0.0005078613448190834,
+      "loss": 0.1132,
+      "mean_token_accuracy": 0.9690200018882752,
+      "num_tokens": 2146461.0,
       "step": 375
     },
     {
       "epoch": 0.9656004828002414,
+      "grad_norm": 0.177975594997406,
+      "learning_rate": 0.0005054880436121898,
+      "loss": 0.0866,
+      "mean_token_accuracy": 0.9762758094072342,
+      "num_tokens": 2272344.0,
       "step": 400
     },
     {
       "epoch": 1.0,
+      "eval_loss": 0.0893438458442688,
+      "eval_mean_token_accuracy": 0.9755367253277752,
       "eval_num_tokens": 2354180.0,
+      "eval_runtime": 15.9986,
+      "eval_samples_per_second": 23.065,
+      "eval_steps_per_second": 11.564,
       "step": 415
     },
     {
       "epoch": 1.024140012070006,
+      "grad_norm": 0.10577582567930222,
+      "learning_rate": 0.0005029243179045591,
+      "loss": 0.0871,
+      "mean_token_accuracy": 0.9752628661922573,
+      "num_tokens": 2422544.0,
       "step": 425
     },
     {
       "epoch": 1.0844900422450212,
+      "grad_norm": 0.15040436387062073,
+      "learning_rate": 0.0005001721604309415,
       "loss": 0.0611,
+      "mean_token_accuracy": 0.9824812412261963,
+      "num_tokens": 2565633.0,
       "step": 450
     },
     {
       "epoch": 1.1448400724200363,
+      "grad_norm": 0.09043437987565994,
+      "learning_rate": 0.0004972337103904799,
+      "loss": 0.0851,
+      "mean_token_accuracy": 0.9762555521726608,
+      "num_tokens": 2708192.0,
       "step": 475
     },
     {
       "epoch": 1.2051901025950513,
+      "grad_norm": 0.08423709124326706,
+      "learning_rate": 0.0004941112517839508,
+      "loss": 0.0551,
+      "mean_token_accuracy": 0.9843029165267945,
+      "num_tokens": 2852072.0,
       "step": 500
     },
     {
       "epoch": 1.2655401327700664,
+      "grad_norm": 0.10297609120607376,
+      "learning_rate": 0.0004908072116384549,
+      "loss": 0.0622,
+      "mean_token_accuracy": 0.982346653342247,
+      "num_tokens": 2992794.0,
       "step": 525
     },
     {
       "epoch": 1.3258901629450814,
+      "grad_norm": 0.08755902945995331,
+      "learning_rate": 0.00048732415812093586,
+      "loss": 0.056,
+      "mean_token_accuracy": 0.984083269238472,
+      "num_tokens": 3134652.0,
       "step": 550
     },
     {
       "epoch": 1.3862401931200965,
+      "grad_norm": 0.09771203249692917,
+      "learning_rate": 0.0004836647985419926,
+      "loss": 0.0704,
+      "mean_token_accuracy": 0.9805797964334488,
+      "num_tokens": 3276784.0,
       "step": 575
     },
     {
       "epoch": 1.4465902232951118,
+      "grad_norm": 0.11501556634902954,
+      "learning_rate": 0.00047983197725153936,
       "loss": 0.0492,
+      "mean_token_accuracy": 0.9858285415172577,
+      "num_tokens": 3419527.0,
       "step": 600
     },
     {
       "epoch": 1.5069402534701268,
+      "grad_norm": 0.06587153673171997,
+      "learning_rate": 0.0004758286734279469,
+      "loss": 0.0679,
+      "mean_token_accuracy": 0.9807516372203827,
+      "num_tokens": 3560910.0,
       "step": 625
     },
     {
       "epoch": 1.567290283645142,
+      "grad_norm": 0.11413555592298508,
+      "learning_rate": 0.00047165799876238475,
+      "loss": 0.0485,
+      "mean_token_accuracy": 0.9861949247121811,
+      "num_tokens": 3704409.0,
       "step": 650
     },
     {
       "epoch": 1.627640313820157,
+      "grad_norm": 0.07050240784883499,
+      "learning_rate": 0.00046732319504016285,
+      "loss": 0.0618,
+      "mean_token_accuracy": 0.9829549384117127,
+      "num_tokens": 3847083.0,
       "step": 675
     },
     {
       "epoch": 1.687990343995172,
+      "grad_norm": 0.11633298546075821,
+      "learning_rate": 0.00046282763162095467,
       "loss": 0.0454,
+      "mean_token_accuracy": 0.9869883376359939,
+      "num_tokens": 3989418.0,
       "step": 700
     },
     {
       "epoch": 1.748340374170187,
+      "grad_norm": 0.08928703516721725,
+      "learning_rate": 0.00045817480281985817,
+      "loss": 0.0593,
+      "mean_token_accuracy": 0.9837275487184525,
+      "num_tokens": 4128788.0,
       "step": 725
     },
     {
       "epoch": 1.8086904043452021,
+      "grad_norm": 0.05468004569411278,
+      "learning_rate": 0.00045336832519133203,
+      "loss": 0.044,
+      "mean_token_accuracy": 0.9875295370817184,
+      "num_tokens": 4269534.0,
       "step": 750
     },
     {
       "epoch": 1.8690404345202172,
+      "grad_norm": 0.08439141511917114,
+      "learning_rate": 0.00044841193471811754,
+      "loss": 0.0612,
+      "mean_token_accuracy": 0.9824546372890473,
+      "num_tokens": 4412269.0,
       "step": 775
     },
     {
       "epoch": 1.9293904646952322,
+      "grad_norm": 0.07864434272050858,
+      "learning_rate": 0.0004433094839073305,
+      "loss": 0.0437,
+      "mean_token_accuracy": 0.9871676206588745,
+      "num_tokens": 4554996.0,
       "step": 800
     },
     {
       "epoch": 1.9897404948702473,
+      "grad_norm": 0.07595550268888474,
+      "learning_rate": 0.00043806493879598165,
+      "loss": 0.0462,
+      "mean_token_accuracy": 0.9875918942689895,
+      "num_tokens": 4688327.0,
       "step": 825
     },
     {
       "epoch": 2.0,
+      "eval_loss": 0.05492718890309334,
+      "eval_mean_token_accuracy": 0.9854504933228364,
       "eval_num_tokens": 4708360.0,
+      "eval_runtime": 16.012,
+      "eval_samples_per_second": 23.045,
+      "eval_steps_per_second": 11.554,
       "step": 830
     },
     {
       "epoch": 2.048280024140012,
+      "grad_norm": 0.0821777731180191,
+      "learning_rate": 0.0004326823758682526,
+      "loss": 0.0464,
+      "mean_token_accuracy": 0.9861399519074824,
+      "num_tokens": 4837216.0,
       "step": 850
     },
     {
       "epoch": 2.1086300543150274,
+      "grad_norm": 0.05397653952240944,
+      "learning_rate": 0.0004271659788869223,
+      "loss": 0.033,
+      "mean_token_accuracy": 0.9902914655208588,
+      "num_tokens": 4969882.0,
       "step": 875
     },
     {
       "epoch": 2.1689800844900424,
+      "grad_norm": 0.07699369639158249,
+      "learning_rate": 0.0004215200356414093,
+      "loss": 0.0437,
+      "mean_token_accuracy": 0.9872231745719909,
+      "num_tokens": 5121640.0,
       "step": 900
     },
     {
       "epoch": 2.2293301146650575,
+      "grad_norm": 0.06484604626893997,
+      "learning_rate": 0.0004157489346149548,
+      "loss": 0.0334,
+      "mean_token_accuracy": 0.9897586101293564,
+      "num_tokens": 5254936.0,
       "step": 925
     },
     {
       "epoch": 2.2896801448400725,
+      "grad_norm": 0.06028969585895538,
+      "learning_rate": 0.0004098571615735394,
+      "loss": 0.0434,
+      "mean_token_accuracy": 0.9870266842842103,
+      "num_tokens": 5406478.0,
       "step": 950
     },
     {
       "epoch": 2.3500301750150876,
+      "grad_norm": 0.08240769803524017,
+      "learning_rate": 0.000403849296079183,
+      "loss": 0.0328,
+      "mean_token_accuracy": 0.9905992788076401,
+      "num_tokens": 5539680.0,
       "step": 975
     },
     {
       "epoch": 2.4103802051901027,
+      "grad_norm": 0.07461749762296677,
+      "learning_rate": 0.0003977300079303395,
+      "loss": 0.046,
+      "mean_token_accuracy": 0.9860885471105576,
+      "num_tokens": 5690925.0,
       "step": 1000
     },
     {
       "epoch": 2.4707302353651177,
+      "grad_norm": 0.044400863349437714,
+      "learning_rate": 0.0003915040535321517,
+      "loss": 0.031,
+      "mean_token_accuracy": 0.9906466883420945,
+      "num_tokens": 5822826.0,
       "step": 1025
     },
     {
       "epoch": 2.5310802655401328,
+      "grad_norm": 0.08952440321445465,
+      "learning_rate": 0.0003851762721993896,
+      "loss": 0.0446,
+      "mean_token_accuracy": 0.9869460552930832,
+      "num_tokens": 5974897.0,
       "step": 1050
     },
     {
       "epoch": 2.591430295715148,
+      "grad_norm": 0.08355443924665451,
+      "learning_rate": 0.00037875158239494345,
+      "loss": 0.0306,
+      "mean_token_accuracy": 0.9908532989025116,
+      "num_tokens": 6107881.0,
       "step": 1075
     },
     {
       "epoch": 2.651780325890163,
+      "grad_norm": 0.049891915172338486,
+      "learning_rate": 0.00037223497790679714,
+      "loss": 0.0456,
+      "mean_token_accuracy": 0.9867906486988067,
+      "num_tokens": 6258259.0,
       "step": 1100
     },
     {
       "epoch": 2.712130356065178,
+      "grad_norm": 0.053985197097063065,
+      "learning_rate": 0.0003656315239664528,
+      "loss": 0.0302,
+      "mean_token_accuracy": 0.9908502048254013,
+      "num_tokens": 6391420.0,
       "step": 1125
     },
     {
       "epoch": 2.772480386240193,
+      "grad_norm": 0.039380334317684174,
+      "learning_rate": 0.00035894635331182377,
+      "loss": 0.0453,
+      "mean_token_accuracy": 0.9865706026554107,
+      "num_tokens": 6544101.0,
       "step": 1150
     },
     {
       "epoch": 2.832830416415208,
+      "grad_norm": 0.05963930860161781,
+      "learning_rate": 0.0003521846621976556,
+      "loss": 0.0303,
+      "mean_token_accuracy": 0.9909638494253159,
+      "num_tokens": 6676760.0,
       "step": 1175
     },
     {
       "epoch": 2.8931804465902236,
+      "grad_norm": 0.03845281898975372,
+      "learning_rate": 0.00034535170635657743,
+      "loss": 0.0406,
+      "mean_token_accuracy": 0.9878826266527176,
+      "num_tokens": 6827493.0,
       "step": 1200
     },
     {
       "epoch": 2.9535304767652386,
+      "grad_norm": 0.06949020177125931,
+      "learning_rate": 0.0003384527969139218,
+      "loss": 0.0277,
+      "mean_token_accuracy": 0.9915235358476638,
+      "num_tokens": 6960271.0,
       "step": 1225
     },
     {
       "epoch": 3.0,
+      "eval_loss": 0.04539692401885986,
+      "eval_mean_token_accuracy": 0.9875544515815942,
       "eval_num_tokens": 7062540.0,
+      "eval_runtime": 16.016,
+      "eval_samples_per_second": 23.039,
+      "eval_steps_per_second": 11.551,
       "step": 1245
     },
     {
       "epoch": 3.012070006035003,
+      "grad_norm": 0.03516312316060066,
+      "learning_rate": 0.0003314932962594889,
+      "loss": 0.0362,
+      "mean_token_accuracy": 0.9887829656453476,
+      "num_tokens": 7099304.0,
       "step": 1250
     },
     {
       "epoch": 3.0724200362100182,
+      "grad_norm": 0.0641891360282898,
+      "learning_rate": 0.0003244786138794642,
+      "loss": 0.025,
+      "mean_token_accuracy": 0.9919194889068603,
+      "num_tokens": 7247194.0,
       "step": 1275
     },
     {
       "epoch": 3.1327700663850333,
+      "grad_norm": 0.05540559068322182,
+      "learning_rate": 0.0003174142021517284,
+      "loss": 0.0273,
+      "mean_token_accuracy": 0.9912847858667374,
+      "num_tokens": 7383605.0,
       "step": 1300
     },
     {
       "epoch": 3.1931200965600484,
+      "grad_norm": 0.036626674234867096,
+      "learning_rate": 0.0003103055521078291,
+      "loss": 0.0268,
+      "mean_token_accuracy": 0.9917373913526535,
+      "num_tokens": 7532425.0,
       "step": 1325
     },
     {
       "epoch": 3.2534701267350634,
+      "grad_norm": 0.07257969677448273,
+      "learning_rate": 0.00030315818916490736,
+      "loss": 0.0313,
+      "mean_token_accuracy": 0.9903122758865357,
+      "num_tokens": 7668583.0,
       "step": 1350
     },
     {
       "epoch": 3.3138201569100785,
+      "grad_norm": 0.026177173480391502,
+      "learning_rate": 0.00029597766883089697,
+      "loss": 0.0261,
+      "mean_token_accuracy": 0.9917293560504913,
+      "num_tokens": 7816713.0,
       "step": 1375
     },
     {
       "epoch": 3.3741701870850935,
+      "grad_norm": 0.058491937816143036,
+      "learning_rate": 0.0002887695723863352,
+      "loss": 0.0293,
+      "mean_token_accuracy": 0.9907053065299988,
+      "num_tokens": 7953359.0,
       "step": 1400
     },
     {
       "epoch": 3.4345202172601086,
+      "grad_norm": 0.04674854129552841,
+      "learning_rate": 0.00028153950254614015,
+      "loss": 0.0247,
+      "mean_token_accuracy": 0.992136053442955,
+      "num_tokens": 8103024.0,
       "step": 1425
     },
     {
       "epoch": 3.4948702474351236,
+      "grad_norm": 0.06961289793252945,
+      "learning_rate": 0.0002742930791047282,
+      "loss": 0.0299,
+      "mean_token_accuracy": 0.9910703629255295,
+      "num_tokens": 8239193.0,
       "step": 1450
     },
     {
       "epoch": 3.5552202776101387,
+      "grad_norm": 0.052263230085372925,
+      "learning_rate": 0.0002670359345678563,
+      "loss": 0.026,
+      "mean_token_accuracy": 0.9916572499275208,
+      "num_tokens": 8388210.0,
       "step": 1475
     },
     {
       "epoch": 3.6155703077851538,
+      "grad_norm": 0.0689224824309349,
+      "learning_rate": 0.00025977370977458246,
+      "loss": 0.0262,
+      "mean_token_accuracy": 0.9915121608972549,
+      "num_tokens": 8524498.0,
       "step": 1500
     },
     {
       "epoch": 3.675920337960169,
+      "grad_norm": 0.026073528453707695,
+      "learning_rate": 0.0002525120495127509,
+      "loss": 0.0253,
+      "mean_token_accuracy": 0.9922972655296326,
+      "num_tokens": 8673299.0,
       "step": 1525
     },
     {
       "epoch": 3.736270368135184,
+      "grad_norm": 0.06121857091784477,
+      "learning_rate": 0.0002452565981314058,
+      "loss": 0.0279,
+      "mean_token_accuracy": 0.9911224627494812,
+      "num_tokens": 8808991.0,
       "step": 1550
     },
     {
       "epoch": 3.796620398310199,
+      "grad_norm": 0.022890372201800346,
+      "learning_rate": 0.00023801299515354842,
+      "loss": 0.0225,
+      "mean_token_accuracy": 0.9928586632013321,
+      "num_tokens": 8956517.0,
       "step": 1575
     },
     {
       "epoch": 3.856970428485214,
+      "grad_norm": 0.05721288546919823,
+      "learning_rate": 0.00023078687089264326,
+      "loss": 0.0262,
+      "mean_token_accuracy": 0.9914663273096085,
+      "num_tokens": 9091016.0,
       "step": 1600
     },
     {
       "epoch": 3.9173204586602295,
+      "grad_norm": 0.02130250260233879,
+      "learning_rate": 0.00022358384207628367,
+      "loss": 0.0234,
+      "mean_token_accuracy": 0.9922544056177139,
+      "num_tokens": 9237731.0,
       "step": 1625
     },
     {
       "epoch": 3.9776704888352445,
+      "grad_norm": 0.04317730665206909,
+      "learning_rate": 0.00021640950748041802,
+      "loss": 0.0247,
+      "mean_token_accuracy": 0.9921871078014374,
+      "num_tokens": 9369515.0,
       "step": 1650
     },
     {
       "epoch": 4.0,
+      "eval_loss": 0.04090578854084015,
+      "eval_mean_token_accuracy": 0.9890131476763132,
       "eval_num_tokens": 9416720.0,
+      "eval_runtime": 16.0268,
+      "eval_samples_per_second": 23.024,
+      "eval_steps_per_second": 11.543,
       "step": 1660
     },
     {
       "epoch": 4.036210018105009,
+      "grad_norm": 0.036448780447244644,
+      "learning_rate": 0.00020926944357752775,
+      "loss": 0.022,
+      "mean_token_accuracy": 0.9928884309591707,
+      "num_tokens": 9515736.0,
       "step": 1675
     },
     {
       "epoch": 4.096560048280024,
+      "grad_norm": 0.027000512927770615,
+      "learning_rate": 0.00020216920020214326,
+      "loss": 0.0188,
+      "mean_token_accuracy": 0.9937462592124939,
+      "num_tokens": 9651890.0,
       "step": 1700
     },
     {
       "epoch": 4.15691007845504,
+      "grad_norm": 0.0342092290520668,
+      "learning_rate": 0.00019511429623706353,
+      "loss": 0.0229,
+      "mean_token_accuracy": 0.9928898781538009,
+      "num_tokens": 9797002.0,
       "step": 1725
     },
     {
       "epoch": 4.217260108630055,
+      "grad_norm": 0.031318746507167816,
+      "learning_rate": 0.00018811021532363489,
+      "loss": 0.0181,
+      "mean_token_accuracy": 0.9940047591924668,
+      "num_tokens": 9935038.0,
       "step": 1750
     },
     {
       "epoch": 4.27761013880507,
+      "grad_norm": 0.025446726009249687,
+      "learning_rate": 0.00018116240159942172,
       "loss": 0.0233,
+      "mean_token_accuracy": 0.9922664022445679,
+      "num_tokens": 10083216.0,
       "step": 1775
     },
     {
       "epoch": 4.337960168980085,
+      "grad_norm": 0.03149225190281868,
+      "learning_rate": 0.0001742762554665831,
+      "loss": 0.0185,
+      "mean_token_accuracy": 0.9938816410303116,
+      "num_tokens": 10222100.0,
       "step": 1800
     },
     {
       "epoch": 4.3983101991551,
+      "grad_norm": 0.03767989203333855,
+      "learning_rate": 0.00016745712939424356,
+      "loss": 0.0226,
+      "mean_token_accuracy": 0.9924985402822495,
+      "num_tokens": 10370077.0,
       "step": 1825
     },
     {
       "epoch": 4.458660229330115,
+      "grad_norm": 0.02160339243710041,
+      "learning_rate": 0.00016071032375812225,
+      "loss": 0.0179,
+      "mean_token_accuracy": 0.9938990676403046,
+      "num_tokens": 10507974.0,
       "step": 1850
     },
     {
       "epoch": 4.51901025950513,
+      "grad_norm": 0.04912654682993889,
+      "learning_rate": 0.00015404108272065175,
+      "loss": 0.022,
+      "mean_token_accuracy": 0.9925913631916046,
+      "num_tokens": 10653228.0,
       "step": 1875
     },
     {
       "epoch": 4.579360289680145,
+      "grad_norm": 0.02648838609457016,
+      "learning_rate": 0.00014745459015479262,
+      "loss": 0.0187,
+      "mean_token_accuracy": 0.9936872887611389,
+      "num_tokens": 10790348.0,
       "step": 1900
     },
     {
       "epoch": 4.63971031985516,
+      "grad_norm": 0.030189577490091324,
+      "learning_rate": 0.0001409559656147072,
+      "loss": 0.0212,
+      "mean_token_accuracy": 0.993015621304512,
+      "num_tokens": 10937297.0,
       "step": 1925
     },
     {
       "epoch": 4.700060350030175,
+      "grad_norm": 0.026134416460990906,
+      "learning_rate": 0.00013455026035642952,
+      "loss": 0.0186,
+      "mean_token_accuracy": 0.9938356405496598,
+      "num_tokens": 11075319.0,
       "step": 1950
     },
     {
       "epoch": 4.76041038020519,
+      "grad_norm": 0.029894286766648293,
+      "learning_rate": 0.00012824245341162046,
+      "loss": 0.0205,
+      "mean_token_accuracy": 0.9930271410942078,
+      "num_tokens": 11220693.0,
       "step": 1975
     },
     {
       "epoch": 4.820760410380205,
+      "grad_norm": 0.022440843284130096,
+      "learning_rate": 0.00012203744771746207,
+      "loss": 0.0181,
+      "mean_token_accuracy": 0.9940010941028595,
+      "num_tokens": 11357759.0,
       "step": 2000
     },
     {
       "epoch": 4.88111044055522,
+      "grad_norm": 0.04004226252436638,
+      "learning_rate": 0.00011594006630569889,
+      "loss": 0.0243,
+      "mean_token_accuracy": 0.9918814218044281,
+      "num_tokens": 11506389.0,
       "step": 2025
     },
     {
       "epoch": 4.941460470730235,
+      "grad_norm": 0.025478657335042953,
+      "learning_rate": 0.00010995504855378823,
+      "loss": 0.0176,
+      "mean_token_accuracy": 0.9940668666362762,
+      "num_tokens": 11644773.0,
       "step": 2050
     },
     {
       "epoch": 5.0,
+      "grad_norm": 0.0995091125369072,
+      "learning_rate": 0.00010408704650107208,
+      "loss": 0.0191,
+      "mean_token_accuracy": 0.9937616193417421,
       "num_tokens": 11770900.0,
       "step": 2075
     },
     {
       "epoch": 5.0,
+      "eval_loss": 0.03994831442832947,
+      "eval_mean_token_accuracy": 0.9898936400542389,
       "eval_num_tokens": 11770900.0,
+      "eval_runtime": 15.9599,
+      "eval_samples_per_second": 23.12,
+      "eval_steps_per_second": 11.592,
       "step": 2075
     }
   ],
       "attributes": {}
     }
   },
+  "total_flos": 5.1141133004634624e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:40794b3fd456b024024487eaa2ab17e954722e38bbaed4ada4bd298dc482abd9
 size 6097

 version https://git-lfs.github.com/spec/v1
+oid sha256:8df2475c9956609c364fb58b0499f81bebce8d55121af31d0d0dbdfdf66aab4c
 size 6097