Training in progress, step 10000, checkpoint

Browse files

Files changed (4) hide show

checkpoint-10000/model.safetensors +1 -1
checkpoint-10000/optimizer.pt +1 -1
checkpoint-10000/trainer_state.json +446 -446
checkpoint-10000/training_args.bin +1 -1

checkpoint-10000/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f1a5761ff85a9b925091004c9b5d326eab3b14b1e62bc9bd9f76ae25f65e33b3
 size 503128704

 version https://git-lfs.github.com/spec/v1
+oid sha256:c7139e359e39666d1d2bbc215bf672b98b6327c7dc8bd20c5fa16d1998711c2e
 size 503128704

checkpoint-10000/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ba453e42bb87ce014372643d0f5c4b1f1eee5148b2513b9fb8bd43125f4dbe56
 size 1006351290

 version https://git-lfs.github.com/spec/v1
+oid sha256:4d5288bb29698901a628a80c576994b82887c8b5b067878c54fd4a2404b71605
 size 1006351290

checkpoint-10000/trainer_state.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "best_metric": 3.7569897174835205,
   "best_model_checkpoint": "/scratch/cl5625/exceptions/models/100M_low_0_6910/checkpoint-10000",
   "epoch": 1.0781671159029649,
   "eval_steps": 1000,
@@ -10,1491 +10,1491 @@
   "log_history": [
     {
       "epoch": 0.005390835579514825,
-      "grad_norm": 2.8118252754211426,
       "learning_rate": 0.000276,
-      "loss": 9.0225,
       "step": 50
     },
     {
       "epoch": 0.01078167115902965,
-      "grad_norm": 1.6856672763824463,
       "learning_rate": 0.0005759999999999999,
-      "loss": 6.9773,
       "step": 100
     },
     {
       "epoch": 0.016172506738544475,
-      "grad_norm": 0.9568011164665222,
       "learning_rate": 0.000599702104695089,
-      "loss": 6.5177,
       "step": 150
     },
     {
       "epoch": 0.0215633423180593,
-      "grad_norm": 1.2443560361862183,
       "learning_rate": 0.0005993783054506205,
-      "loss": 6.2578,
       "step": 200
     },
     {
       "epoch": 0.026954177897574125,
-      "grad_norm": 1.41825270652771,
       "learning_rate": 0.0005990545062061521,
-      "loss": 6.0969,
       "step": 250
     },
     {
       "epoch": 0.03234501347708895,
-      "grad_norm": 1.9072396755218506,
       "learning_rate": 0.0005987307069616836,
-      "loss": 5.9635,
       "step": 300
     },
     {
       "epoch": 0.03773584905660377,
-      "grad_norm": 1.5556931495666504,
       "learning_rate": 0.0005984069077172153,
-      "loss": 5.8839,
       "step": 350
     },
     {
       "epoch": 0.0431266846361186,
-      "grad_norm": 1.5125844478607178,
       "learning_rate": 0.0005980831084727469,
-      "loss": 5.8238,
       "step": 400
     },
     {
       "epoch": 0.04851752021563342,
-      "grad_norm": 1.5804698467254639,
       "learning_rate": 0.0005977593092282784,
-      "loss": 5.7627,
       "step": 450
     },
     {
       "epoch": 0.05390835579514825,
-      "grad_norm": 1.1904308795928955,
       "learning_rate": 0.00059743550998381,
-      "loss": 5.6518,
       "step": 500
     },
     {
       "epoch": 0.05929919137466307,
-      "grad_norm": 1.009339690208435,
       "learning_rate": 0.0005971117107393416,
-      "loss": 5.6142,
       "step": 550
     },
     {
       "epoch": 0.0646900269541779,
-      "grad_norm": 1.3357371091842651,
       "learning_rate": 0.0005967879114948732,
-      "loss": 5.5406,
       "step": 600
     },
     {
       "epoch": 0.07008086253369272,
-      "grad_norm": 1.434008240699768,
       "learning_rate": 0.0005964641122504047,
-      "loss": 5.4783,
       "step": 650
     },
     {
       "epoch": 0.07547169811320754,
-      "grad_norm": 0.8490063548088074,
       "learning_rate": 0.0005961403130059363,
-      "loss": 5.3996,
       "step": 700
     },
     {
       "epoch": 0.08086253369272237,
-      "grad_norm": 1.1594209671020508,
       "learning_rate": 0.0005958165137614678,
-      "loss": 5.331,
       "step": 750
     },
     {
       "epoch": 0.0862533692722372,
-      "grad_norm": 0.9333789348602295,
       "learning_rate": 0.0005954927145169995,
-      "loss": 5.2596,
       "step": 800
     },
     {
       "epoch": 0.09164420485175202,
-      "grad_norm": 1.0127500295639038,
       "learning_rate": 0.0005951689152725309,
-      "loss": 5.2418,
       "step": 850
     },
     {
       "epoch": 0.09703504043126684,
-      "grad_norm": 1.113052487373352,
       "learning_rate": 0.0005948451160280626,
-      "loss": 5.1815,
       "step": 900
     },
     {
       "epoch": 0.10242587601078167,
-      "grad_norm": 0.9113388061523438,
       "learning_rate": 0.0005945213167835941,
-      "loss": 5.1162,
       "step": 950
     },
     {
       "epoch": 0.1078167115902965,
-      "grad_norm": 0.9989785552024841,
       "learning_rate": 0.0005941975175391257,
-      "loss": 5.1216,
       "step": 1000
     },
     {
       "epoch": 0.1078167115902965,
-      "eval_accuracy": 0.22690449769715637,
-      "eval_loss": 5.032634735107422,
-      "eval_runtime": 184.9778,
-      "eval_samples_per_second": 97.368,
-      "eval_steps_per_second": 6.087,
       "step": 1000
     },
     {
       "epoch": 0.11320754716981132,
-      "grad_norm": 1.0346425771713257,
       "learning_rate": 0.0005938737182946572,
-      "loss": 5.0533,
       "step": 1050
     },
     {
       "epoch": 0.11859838274932614,
-      "grad_norm": 1.3372762203216553,
       "learning_rate": 0.0005935499190501888,
-      "loss": 5.014,
       "step": 1100
     },
     {
       "epoch": 0.12398921832884097,
-      "grad_norm": 1.185377836227417,
       "learning_rate": 0.0005932261198057204,
-      "loss": 5.0192,
       "step": 1150
     },
     {
       "epoch": 0.1293800539083558,
-      "grad_norm": 1.010504961013794,
       "learning_rate": 0.000592902320561252,
-      "loss": 4.9761,
       "step": 1200
     },
     {
       "epoch": 0.1347708894878706,
-      "grad_norm": 0.8940131068229675,
       "learning_rate": 0.0005925785213167835,
-      "loss": 4.9547,
       "step": 1250
     },
     {
       "epoch": 0.14016172506738545,
-      "grad_norm": 1.0484291315078735,
       "learning_rate": 0.0005922547220723151,
-      "loss": 4.9102,
       "step": 1300
     },
     {
       "epoch": 0.14555256064690028,
-      "grad_norm": 0.882337212562561,
       "learning_rate": 0.0005919309228278468,
-      "loss": 4.8568,
       "step": 1350
     },
     {
       "epoch": 0.1509433962264151,
-      "grad_norm": 1.2623690366744995,
       "learning_rate": 0.0005916071235833783,
-      "loss": 4.8624,
       "step": 1400
     },
     {
       "epoch": 0.15633423180592992,
-      "grad_norm": 0.7710188627243042,
       "learning_rate": 0.0005912833243389097,
-      "loss": 4.8192,
       "step": 1450
     },
     {
       "epoch": 0.16172506738544473,
-      "grad_norm": 0.933644711971283,
       "learning_rate": 0.0005909595250944414,
-      "loss": 4.8205,
       "step": 1500
     },
     {
       "epoch": 0.16711590296495957,
-      "grad_norm": 1.3466095924377441,
       "learning_rate": 0.000590635725849973,
-      "loss": 4.8013,
       "step": 1550
     },
     {
       "epoch": 0.1725067385444744,
-      "grad_norm": 1.1399619579315186,
       "learning_rate": 0.0005903119266055045,
-      "loss": 4.7772,
       "step": 1600
     },
     {
       "epoch": 0.1778975741239892,
-      "grad_norm": 0.8201636075973511,
       "learning_rate": 0.0005899881273610361,
-      "loss": 4.7511,
       "step": 1650
     },
     {
       "epoch": 0.18328840970350405,
-      "grad_norm": 0.902688205242157,
       "learning_rate": 0.0005896643281165677,
-      "loss": 4.7286,
       "step": 1700
     },
     {
       "epoch": 0.18867924528301888,
-      "grad_norm": 0.8644108176231384,
       "learning_rate": 0.0005893405288720993,
-      "loss": 4.6775,
       "step": 1750
     },
     {
       "epoch": 0.1940700808625337,
-      "grad_norm": 0.7629256844520569,
       "learning_rate": 0.0005890167296276308,
-      "loss": 4.704,
       "step": 1800
     },
     {
       "epoch": 0.19946091644204852,
-      "grad_norm": 1.2781596183776855,
       "learning_rate": 0.0005886929303831624,
-      "loss": 4.6549,
       "step": 1850
     },
     {
       "epoch": 0.20485175202156333,
-      "grad_norm": 0.7812705636024475,
       "learning_rate": 0.0005883691311386939,
-      "loss": 4.632,
       "step": 1900
     },
     {
       "epoch": 0.21024258760107817,
-      "grad_norm": 0.7588018178939819,
       "learning_rate": 0.0005880453318942256,
-      "loss": 4.608,
       "step": 1950
     },
     {
       "epoch": 0.215633423180593,
-      "grad_norm": 0.7466468811035156,
       "learning_rate": 0.0005877215326497571,
-      "loss": 4.5906,
       "step": 2000
     },
     {
       "epoch": 0.215633423180593,
-      "eval_accuracy": 0.26987845327398857,
-      "eval_loss": 4.5157904624938965,
-      "eval_runtime": 183.7342,
-      "eval_samples_per_second": 98.027,
-      "eval_steps_per_second": 6.128,
       "step": 2000
     },
     {
       "epoch": 0.2210242587601078,
-      "grad_norm": 0.826682448387146,
       "learning_rate": 0.0005873977334052887,
       "loss": 4.576,
       "step": 2050
     },
     {
       "epoch": 0.22641509433962265,
-      "grad_norm": 0.9647506475448608,
       "learning_rate": 0.0005870739341608202,
-      "loss": 4.5599,
       "step": 2100
     },
     {
       "epoch": 0.23180592991913745,
-      "grad_norm": 1.005610466003418,
       "learning_rate": 0.0005867501349163519,
-      "loss": 4.5335,
       "step": 2150
     },
     {
       "epoch": 0.2371967654986523,
-      "grad_norm": 1.0172079801559448,
       "learning_rate": 0.0005864263356718833,
-      "loss": 4.5304,
       "step": 2200
     },
     {
       "epoch": 0.24258760107816713,
-      "grad_norm": 0.8978919982910156,
       "learning_rate": 0.000586102536427415,
-      "loss": 4.5045,
       "step": 2250
     },
     {
       "epoch": 0.24797843665768193,
-      "grad_norm": 0.9270089268684387,
       "learning_rate": 0.0005857787371829465,
-      "loss": 4.5004,
       "step": 2300
     },
     {
       "epoch": 0.25336927223719674,
-      "grad_norm": 1.124731183052063,
       "learning_rate": 0.0005854549379384781,
-      "loss": 4.4774,
       "step": 2350
     },
     {
       "epoch": 0.2587601078167116,
-      "grad_norm": 0.7949519157409668,
       "learning_rate": 0.0005851311386940096,
-      "loss": 4.4615,
       "step": 2400
     },
     {
       "epoch": 0.2641509433962264,
-      "grad_norm": 0.7883573770523071,
       "learning_rate": 0.0005848073394495412,
-      "loss": 4.4503,
       "step": 2450
     },
     {
       "epoch": 0.2695417789757412,
-      "grad_norm": 0.9283429384231567,
       "learning_rate": 0.0005844835402050728,
-      "loss": 4.4294,
       "step": 2500
     },
     {
       "epoch": 0.2749326145552561,
-      "grad_norm": 0.703683078289032,
       "learning_rate": 0.0005841597409606044,
-      "loss": 4.3969,
       "step": 2550
     },
     {
       "epoch": 0.2803234501347709,
-      "grad_norm": 0.812880277633667,
       "learning_rate": 0.000583835941716136,
-      "loss": 4.4119,
       "step": 2600
     },
     {
       "epoch": 0.2857142857142857,
-      "grad_norm": 0.9256618618965149,
       "learning_rate": 0.0005835121424716675,
-      "loss": 4.3917,
       "step": 2650
     },
     {
       "epoch": 0.29110512129380056,
-      "grad_norm": 0.7537206411361694,
       "learning_rate": 0.0005831883432271992,
-      "loss": 4.3791,
       "step": 2700
     },
     {
       "epoch": 0.29649595687331537,
-      "grad_norm": 0.9869926571846008,
       "learning_rate": 0.0005828645439827307,
-      "loss": 4.3759,
       "step": 2750
     },
     {
       "epoch": 0.3018867924528302,
-      "grad_norm": 0.8514196276664734,
       "learning_rate": 0.0005825407447382622,
-      "loss": 4.3314,
       "step": 2800
     },
     {
       "epoch": 0.30727762803234504,
-      "grad_norm": 0.7071971893310547,
       "learning_rate": 0.0005822169454937938,
-      "loss": 4.3577,
       "step": 2850
     },
     {
       "epoch": 0.31266846361185985,
-      "grad_norm": 0.8087393045425415,
       "learning_rate": 0.0005818931462493254,
-      "loss": 4.326,
       "step": 2900
     },
     {
       "epoch": 0.31805929919137466,
-      "grad_norm": 0.8092687129974365,
       "learning_rate": 0.0005815693470048569,
-      "loss": 4.3304,
       "step": 2950
     },
     {
       "epoch": 0.32345013477088946,
-      "grad_norm": 0.7119380235671997,
       "learning_rate": 0.0005812455477603885,
-      "loss": 4.3198,
       "step": 3000
     },
     {
       "epoch": 0.32345013477088946,
-      "eval_accuracy": 0.29812342337868974,
-      "eval_loss": 4.240254878997803,
-      "eval_runtime": 183.7893,
-      "eval_samples_per_second": 97.998,
-      "eval_steps_per_second": 6.127,
       "step": 3000
     },
     {
       "epoch": 0.3288409703504043,
-      "grad_norm": 0.7455107569694519,
       "learning_rate": 0.0005809217485159201,
-      "loss": 4.3188,
       "step": 3050
     },
     {
       "epoch": 0.33423180592991913,
-      "grad_norm": 0.8890029191970825,
       "learning_rate": 0.0005805979492714517,
-      "loss": 4.2983,
       "step": 3100
     },
     {
       "epoch": 0.33962264150943394,
-      "grad_norm": 0.8936235308647156,
       "learning_rate": 0.0005802741500269832,
-      "loss": 4.2817,
       "step": 3150
     },
     {
       "epoch": 0.3450134770889488,
-      "grad_norm": 0.6431916356086731,
       "learning_rate": 0.0005799503507825148,
       "loss": 4.2802,
       "step": 3200
     },
     {
       "epoch": 0.3504043126684636,
-      "grad_norm": 0.7159081697463989,
       "learning_rate": 0.0005796265515380463,
-      "loss": 4.2707,
       "step": 3250
     },
     {
       "epoch": 0.3557951482479784,
-      "grad_norm": 0.9267504215240479,
       "learning_rate": 0.000579302752293578,
-      "loss": 4.277,
       "step": 3300
     },
     {
       "epoch": 0.3611859838274933,
-      "grad_norm": 0.8296390771865845,
       "learning_rate": 0.0005789789530491095,
-      "loss": 4.2509,
       "step": 3350
     },
     {
       "epoch": 0.3665768194070081,
-      "grad_norm": 0.7630621790885925,
       "learning_rate": 0.0005786551538046411,
-      "loss": 4.2406,
       "step": 3400
     },
     {
       "epoch": 0.3719676549865229,
-      "grad_norm": 0.6547260284423828,
       "learning_rate": 0.0005783313545601726,
-      "loss": 4.2344,
       "step": 3450
     },
     {
       "epoch": 0.37735849056603776,
-      "grad_norm": 0.8587298393249512,
       "learning_rate": 0.0005780075553157043,
-      "loss": 4.2341,
       "step": 3500
     },
     {
       "epoch": 0.38274932614555257,
-      "grad_norm": 0.7555488348007202,
       "learning_rate": 0.0005776837560712357,
-      "loss": 4.2299,
       "step": 3550
     },
     {
       "epoch": 0.3881401617250674,
-      "grad_norm": 0.8421213626861572,
       "learning_rate": 0.0005773599568267673,
-      "loss": 4.2202,
       "step": 3600
     },
     {
       "epoch": 0.3935309973045822,
-      "grad_norm": 0.7566924095153809,
       "learning_rate": 0.0005770361575822989,
-      "loss": 4.2103,
       "step": 3650
     },
     {
       "epoch": 0.39892183288409705,
-      "grad_norm": 0.7638437747955322,
       "learning_rate": 0.0005767123583378305,
-      "loss": 4.1973,
       "step": 3700
     },
     {
       "epoch": 0.40431266846361186,
-      "grad_norm": 0.6439513564109802,
       "learning_rate": 0.000576388559093362,
-      "loss": 4.199,
       "step": 3750
     },
     {
       "epoch": 0.40970350404312667,
-      "grad_norm": 0.7719266414642334,
       "learning_rate": 0.0005760647598488936,
-      "loss": 4.1635,
       "step": 3800
     },
     {
       "epoch": 0.41509433962264153,
-      "grad_norm": 0.6647982597351074,
       "learning_rate": 0.0005757409606044253,
-      "loss": 4.1739,
       "step": 3850
     },
     {
       "epoch": 0.42048517520215634,
-      "grad_norm": 0.7858614325523376,
       "learning_rate": 0.0005754171613599568,
-      "loss": 4.1932,
       "step": 3900
     },
     {
       "epoch": 0.42587601078167114,
-      "grad_norm": 1.070395588874817,
       "learning_rate": 0.0005750933621154884,
-      "loss": 4.1588,
       "step": 3950
     },
     {
       "epoch": 0.431266846361186,
-      "grad_norm": 0.6882054805755615,
       "learning_rate": 0.0005747695628710199,
-      "loss": 4.1634,
       "step": 4000
     },
     {
       "epoch": 0.431266846361186,
-      "eval_accuracy": 0.3118610599024015,
-      "eval_loss": 4.099079608917236,
-      "eval_runtime": 183.6446,
-      "eval_samples_per_second": 98.075,
-      "eval_steps_per_second": 6.131,
       "step": 4000
     },
     {
       "epoch": 0.4366576819407008,
-      "grad_norm": 0.8163891434669495,
       "learning_rate": 0.0005744457636265515,
-      "loss": 4.1703,
       "step": 4050
     },
     {
       "epoch": 0.4420485175202156,
-      "grad_norm": 0.7172017097473145,
       "learning_rate": 0.0005741219643820831,
-      "loss": 4.1633,
       "step": 4100
     },
     {
       "epoch": 0.4474393530997305,
-      "grad_norm": 0.7089101672172546,
       "learning_rate": 0.0005737981651376146,
-      "loss": 4.1486,
       "step": 4150
     },
     {
       "epoch": 0.4528301886792453,
-      "grad_norm": 0.6500125527381897,
       "learning_rate": 0.0005734743658931462,
-      "loss": 4.1541,
       "step": 4200
     },
     {
       "epoch": 0.4582210242587601,
-      "grad_norm": 0.6067988276481628,
       "learning_rate": 0.0005731505666486778,
-      "loss": 4.1386,
       "step": 4250
     },
     {
       "epoch": 0.4636118598382749,
-      "grad_norm": 0.8405300974845886,
       "learning_rate": 0.0005728267674042093,
-      "loss": 4.1407,
       "step": 4300
     },
     {
       "epoch": 0.46900269541778977,
-      "grad_norm": 0.65191650390625,
       "learning_rate": 0.0005725029681597409,
-      "loss": 4.1283,
       "step": 4350
     },
     {
       "epoch": 0.4743935309973046,
-      "grad_norm": 0.674238920211792,
       "learning_rate": 0.0005721791689152725,
-      "loss": 4.1114,
       "step": 4400
     },
     {
       "epoch": 0.4797843665768194,
-      "grad_norm": 0.660973072052002,
       "learning_rate": 0.0005718553696708041,
-      "loss": 4.1208,
       "step": 4450
     },
     {
       "epoch": 0.48517520215633425,
-      "grad_norm": 0.6465425491333008,
       "learning_rate": 0.0005715315704263356,
-      "loss": 4.1158,
       "step": 4500
     },
     {
       "epoch": 0.49056603773584906,
-      "grad_norm": 0.7483091950416565,
       "learning_rate": 0.0005712077711818672,
-      "loss": 4.1276,
       "step": 4550
     },
     {
       "epoch": 0.49595687331536387,
-      "grad_norm": 0.845150351524353,
       "learning_rate": 0.0005708839719373987,
-      "loss": 4.1192,
       "step": 4600
     },
     {
       "epoch": 0.5013477088948787,
-      "grad_norm": 0.634871244430542,
       "learning_rate": 0.0005705601726929304,
-      "loss": 4.0755,
       "step": 4650
     },
     {
       "epoch": 0.5067385444743935,
-      "grad_norm": 0.6169816851615906,
       "learning_rate": 0.0005702363734484619,
-      "loss": 4.078,
       "step": 4700
     },
     {
       "epoch": 0.5121293800539084,
-      "grad_norm": 0.8197508454322815,
       "learning_rate": 0.0005699125742039935,
-      "loss": 4.084,
       "step": 4750
     },
     {
       "epoch": 0.5175202156334232,
-      "grad_norm": 0.733070969581604,
       "learning_rate": 0.000569588774959525,
-      "loss": 4.0813,
       "step": 4800
     },
     {
       "epoch": 0.522911051212938,
-      "grad_norm": 0.6208024024963379,
       "learning_rate": 0.0005692649757150567,
-      "loss": 4.0748,
       "step": 4850
     },
     {
       "epoch": 0.5283018867924528,
-      "grad_norm": 0.7824249863624573,
       "learning_rate": 0.0005689411764705881,
-      "loss": 4.0771,
       "step": 4900
     },
     {
       "epoch": 0.5336927223719676,
-      "grad_norm": 0.6890459656715393,
       "learning_rate": 0.0005686173772261197,
-      "loss": 4.0671,
       "step": 4950
     },
     {
       "epoch": 0.5390835579514824,
-      "grad_norm": 0.7617940902709961,
       "learning_rate": 0.0005682935779816514,
       "loss": 4.0659,
       "step": 5000
     },
     {
       "epoch": 0.5390835579514824,
-      "eval_accuracy": 0.32073376337421977,
-      "eval_loss": 3.998711347579956,
-      "eval_runtime": 183.5304,
-      "eval_samples_per_second": 98.136,
-      "eval_steps_per_second": 6.135,
       "step": 5000
     },
     {
       "epoch": 0.5444743935309974,
-      "grad_norm": 0.6309065222740173,
       "learning_rate": 0.0005679697787371829,
-      "loss": 4.0746,
       "step": 5050
     },
     {
       "epoch": 0.5498652291105122,
-      "grad_norm": 0.5925028920173645,
       "learning_rate": 0.0005676459794927145,
-      "loss": 4.0574,
       "step": 5100
     },
     {
       "epoch": 0.555256064690027,
-      "grad_norm": 0.6035439968109131,
       "learning_rate": 0.000567322180248246,
-      "loss": 4.0516,
       "step": 5150
     },
     {
       "epoch": 0.5606469002695418,
-      "grad_norm": 0.7275799512863159,
       "learning_rate": 0.0005669983810037777,
-      "loss": 4.0651,
       "step": 5200
     },
     {
       "epoch": 0.5660377358490566,
-      "grad_norm": 0.6090968251228333,
       "learning_rate": 0.0005666745817593092,
-      "loss": 4.0379,
       "step": 5250
     },
     {
       "epoch": 0.5714285714285714,
-      "grad_norm": 0.632185161113739,
       "learning_rate": 0.0005663507825148408,
-      "loss": 4.0381,
       "step": 5300
     },
     {
       "epoch": 0.5768194070080862,
-      "grad_norm": 0.6599447131156921,
       "learning_rate": 0.0005660269832703723,
-      "loss": 4.0278,
       "step": 5350
     },
     {
       "epoch": 0.5822102425876011,
-      "grad_norm": 0.648209810256958,
       "learning_rate": 0.0005657031840259039,
-      "loss": 4.0327,
       "step": 5400
     },
     {
       "epoch": 0.5876010781671159,
-      "grad_norm": 0.6686100363731384,
       "learning_rate": 0.0005653793847814355,
-      "loss": 4.0357,
       "step": 5450
     },
     {
       "epoch": 0.5929919137466307,
-      "grad_norm": 0.7332231998443604,
       "learning_rate": 0.000565055585536967,
-      "loss": 4.0131,
       "step": 5500
     },
     {
       "epoch": 0.5983827493261455,
-      "grad_norm": 0.6814959645271301,
       "learning_rate": 0.0005647317862924986,
-      "loss": 4.033,
       "step": 5550
     },
     {
       "epoch": 0.6037735849056604,
-      "grad_norm": 0.6917067766189575,
       "learning_rate": 0.0005644079870480302,
-      "loss": 3.9815,
       "step": 5600
     },
     {
       "epoch": 0.6091644204851752,
-      "grad_norm": 0.6626110672950745,
       "learning_rate": 0.0005640841878035617,
-      "loss": 4.0186,
       "step": 5650
     },
     {
       "epoch": 0.6145552560646901,
-      "grad_norm": 0.7377511262893677,
       "learning_rate": 0.0005637603885590933,
-      "loss": 4.0184,
       "step": 5700
     },
     {
       "epoch": 0.6199460916442049,
-      "grad_norm": 0.6328345537185669,
       "learning_rate": 0.0005634365893146248,
-      "loss": 4.019,
       "step": 5750
     },
     {
       "epoch": 0.6253369272237197,
-      "grad_norm": 0.6522849798202515,
       "learning_rate": 0.0005631127900701565,
-      "loss": 4.01,
       "step": 5800
     },
     {
       "epoch": 0.6307277628032345,
-      "grad_norm": 0.6383638978004456,
       "learning_rate": 0.000562788990825688,
-      "loss": 3.9816,
       "step": 5850
     },
     {
       "epoch": 0.6361185983827493,
-      "grad_norm": 0.593140721321106,
       "learning_rate": 0.0005624651915812196,
-      "loss": 3.9949,
       "step": 5900
     },
     {
       "epoch": 0.6415094339622641,
-      "grad_norm": 0.7360444068908691,
       "learning_rate": 0.0005621413923367511,
-      "loss": 4.0016,
       "step": 5950
     },
     {
       "epoch": 0.6469002695417789,
-      "grad_norm": 0.6608056426048279,
       "learning_rate": 0.0005618175930922828,
-      "loss": 4.0076,
       "step": 6000
     },
     {
       "epoch": 0.6469002695417789,
-      "eval_accuracy": 0.32758476256247404,
-      "eval_loss": 3.921957492828369,
-      "eval_runtime": 183.5766,
-      "eval_samples_per_second": 98.112,
-      "eval_steps_per_second": 6.134,
       "step": 6000
     },
     {
       "epoch": 0.6522911051212938,
-      "grad_norm": 0.6179393529891968,
       "learning_rate": 0.0005614937938478143,
-      "loss": 3.9939,
       "step": 6050
     },
     {
       "epoch": 0.6576819407008087,
-      "grad_norm": 0.7146060466766357,
       "learning_rate": 0.0005611699946033459,
-      "loss": 3.9929,
       "step": 6100
     },
     {
       "epoch": 0.6630727762803235,
-      "grad_norm": 0.601253867149353,
       "learning_rate": 0.0005608461953588774,
-      "loss": 3.9838,
       "step": 6150
     },
     {
       "epoch": 0.6684636118598383,
-      "grad_norm": 0.6216392517089844,
       "learning_rate": 0.000560522396114409,
-      "loss": 3.9788,
       "step": 6200
     },
     {
       "epoch": 0.6738544474393531,
-      "grad_norm": 0.6294983625411987,
       "learning_rate": 0.0005601985968699405,
-      "loss": 3.9608,
       "step": 6250
     },
     {
       "epoch": 0.6792452830188679,
-      "grad_norm": 0.7225786447525024,
       "learning_rate": 0.0005598747976254721,
-      "loss": 3.9794,
       "step": 6300
     },
     {
       "epoch": 0.6846361185983828,
-      "grad_norm": 0.6607632637023926,
       "learning_rate": 0.0005595509983810038,
-      "loss": 3.9496,
       "step": 6350
     },
     {
       "epoch": 0.6900269541778976,
-      "grad_norm": 0.5790310502052307,
       "learning_rate": 0.0005592271991365353,
-      "loss": 3.9592,
       "step": 6400
     },
     {
       "epoch": 0.6954177897574124,
-      "grad_norm": 0.6292189955711365,
       "learning_rate": 0.0005589033998920669,
-      "loss": 3.9773,
       "step": 6450
     },
     {
       "epoch": 0.7008086253369272,
-      "grad_norm": 0.6256137490272522,
       "learning_rate": 0.0005585796006475984,
-      "loss": 3.9487,
       "step": 6500
     },
     {
       "epoch": 0.706199460916442,
-      "grad_norm": 0.6231578588485718,
       "learning_rate": 0.0005582558014031301,
-      "loss": 3.9727,
       "step": 6550
     },
     {
       "epoch": 0.7115902964959568,
-      "grad_norm": 0.6470305323600769,
       "learning_rate": 0.0005579320021586616,
-      "loss": 3.9563,
       "step": 6600
     },
     {
       "epoch": 0.7169811320754716,
-      "grad_norm": 0.5552076697349548,
       "learning_rate": 0.0005576082029141932,
-      "loss": 3.951,
       "step": 6650
     },
     {
       "epoch": 0.7223719676549866,
-      "grad_norm": 0.5381990671157837,
       "learning_rate": 0.0005572844036697247,
-      "loss": 3.9356,
       "step": 6700
     },
     {
       "epoch": 0.7277628032345014,
-      "grad_norm": 0.6558448076248169,
       "learning_rate": 0.0005569606044252563,
-      "loss": 3.9426,
       "step": 6750
     },
     {
       "epoch": 0.7331536388140162,
-      "grad_norm": 0.8135426640510559,
       "learning_rate": 0.0005566368051807879,
-      "loss": 3.9613,
       "step": 6800
     },
     {
       "epoch": 0.738544474393531,
-      "grad_norm": 0.6013303995132446,
       "learning_rate": 0.0005563130059363194,
-      "loss": 3.9451,
       "step": 6850
     },
     {
       "epoch": 0.7439353099730458,
-      "grad_norm": 0.5324015617370605,
       "learning_rate": 0.000555989206691851,
-      "loss": 3.9444,
       "step": 6900
     },
     {
       "epoch": 0.7493261455525606,
-      "grad_norm": 0.6945801377296448,
       "learning_rate": 0.0005556654074473826,
-      "loss": 3.9473,
       "step": 6950
     },
     {
       "epoch": 0.7547169811320755,
-      "grad_norm": 0.7069705128669739,
       "learning_rate": 0.0005553416082029141,
-      "loss": 3.9328,
       "step": 7000
     },
     {
       "epoch": 0.7547169811320755,
-      "eval_accuracy": 0.3323933047655917,
-      "eval_loss": 3.8696444034576416,
-      "eval_runtime": 183.451,
-      "eval_samples_per_second": 98.179,
-      "eval_steps_per_second": 6.138,
       "step": 7000
     },
     {
       "epoch": 0.7601078167115903,
-      "grad_norm": 0.6576606631278992,
       "learning_rate": 0.0005550178089584457,
-      "loss": 3.9266,
       "step": 7050
     },
     {
       "epoch": 0.7654986522911051,
-      "grad_norm": 0.5154832005500793,
       "learning_rate": 0.0005546940097139772,
-      "loss": 3.9252,
       "step": 7100
     },
     {
       "epoch": 0.77088948787062,
-      "grad_norm": 0.6892321109771729,
       "learning_rate": 0.0005543702104695089,
-      "loss": 3.9271,
       "step": 7150
     },
     {
       "epoch": 0.7762803234501348,
-      "grad_norm": 0.6380577087402344,
       "learning_rate": 0.0005540464112250404,
-      "loss": 3.9261,
       "step": 7200
     },
     {
       "epoch": 0.7816711590296496,
-      "grad_norm": 0.652199923992157,
       "learning_rate": 0.000553722611980572,
-      "loss": 3.9387,
       "step": 7250
     },
     {
       "epoch": 0.7870619946091644,
-      "grad_norm": 0.5706573724746704,
       "learning_rate": 0.0005533988127361035,
-      "loss": 3.9201,
       "step": 7300
     },
     {
       "epoch": 0.7924528301886793,
-      "grad_norm": 0.5596190690994263,
       "learning_rate": 0.0005530750134916352,
-      "loss": 3.9361,
       "step": 7350
     },
     {
       "epoch": 0.7978436657681941,
-      "grad_norm": 0.6239616274833679,
       "learning_rate": 0.0005527512142471668,
-      "loss": 3.9104,
       "step": 7400
     },
     {
       "epoch": 0.8032345013477089,
-      "grad_norm": 0.5858375430107117,
       "learning_rate": 0.0005524274150026982,
-      "loss": 3.9105,
       "step": 7450
     },
     {
       "epoch": 0.8086253369272237,
-      "grad_norm": 0.5788413286209106,
       "learning_rate": 0.0005521036157582299,
-      "loss": 3.904,
       "step": 7500
     },
     {
       "epoch": 0.8140161725067385,
-      "grad_norm": 0.6172971725463867,
       "learning_rate": 0.0005517798165137614,
-      "loss": 3.9068,
       "step": 7550
     },
     {
       "epoch": 0.8194070080862533,
-      "grad_norm": 0.6352159976959229,
       "learning_rate": 0.000551456017269293,
-      "loss": 3.8812,
       "step": 7600
     },
     {
       "epoch": 0.8247978436657682,
-      "grad_norm": 0.6148518323898315,
       "learning_rate": 0.0005511322180248245,
-      "loss": 3.8997,
       "step": 7650
     },
     {
       "epoch": 0.8301886792452831,
-      "grad_norm": 0.6033445000648499,
       "learning_rate": 0.0005508084187803562,
-      "loss": 3.9111,
       "step": 7700
     },
     {
       "epoch": 0.8355795148247979,
-      "grad_norm": 0.5412169694900513,
       "learning_rate": 0.0005504846195358877,
-      "loss": 3.9042,
       "step": 7750
     },
     {
       "epoch": 0.8409703504043127,
-      "grad_norm": 0.5904088616371155,
       "learning_rate": 0.0005501608202914193,
-      "loss": 3.892,
       "step": 7800
     },
     {
       "epoch": 0.8463611859838275,
-      "grad_norm": 0.6405267715454102,
       "learning_rate": 0.0005498370210469508,
-      "loss": 3.8977,
       "step": 7850
     },
     {
       "epoch": 0.8517520215633423,
-      "grad_norm": 0.6236185431480408,
       "learning_rate": 0.0005495132218024824,
-      "loss": 3.8806,
       "step": 7900
     },
     {
       "epoch": 0.8571428571428571,
-      "grad_norm": 0.6019570231437683,
       "learning_rate": 0.000549189422558014,
-      "loss": 3.8888,
       "step": 7950
     },
     {
       "epoch": 0.862533692722372,
-      "grad_norm": 0.5633127093315125,
       "learning_rate": 0.0005488656233135456,
-      "loss": 3.8875,
       "step": 8000
     },
     {
       "epoch": 0.862533692722372,
-      "eval_accuracy": 0.33722933614932643,
-      "eval_loss": 3.821709632873535,
-      "eval_runtime": 183.4138,
-      "eval_samples_per_second": 98.199,
-      "eval_steps_per_second": 6.139,
       "step": 8000
     },
     {
       "epoch": 0.8679245283018868,
-      "grad_norm": 0.5992864966392517,
       "learning_rate": 0.0005485418240690771,
-      "loss": 3.8707,
       "step": 8050
     },
     {
       "epoch": 0.8733153638814016,
-      "grad_norm": 0.6274523735046387,
       "learning_rate": 0.0005482180248246087,
-      "loss": 3.8864,
       "step": 8100
     },
     {
       "epoch": 0.8787061994609164,
-      "grad_norm": 0.6176576614379883,
       "learning_rate": 0.0005478942255801403,
-      "loss": 3.8807,
       "step": 8150
     },
     {
       "epoch": 0.8840970350404312,
-      "grad_norm": 0.5266938805580139,
       "learning_rate": 0.0005475704263356718,
-      "loss": 3.8706,
       "step": 8200
     },
     {
       "epoch": 0.889487870619946,
-      "grad_norm": 0.5737940073013306,
       "learning_rate": 0.0005472466270912034,
-      "loss": 3.8805,
       "step": 8250
     },
     {
       "epoch": 0.894878706199461,
-      "grad_norm": 0.6148428320884705,
       "learning_rate": 0.000546922827846735,
-      "loss": 3.8693,
       "step": 8300
     },
     {
       "epoch": 0.9002695417789758,
-      "grad_norm": 0.5487964749336243,
       "learning_rate": 0.0005465990286022665,
-      "loss": 3.869,
       "step": 8350
     },
     {
       "epoch": 0.9056603773584906,
-      "grad_norm": 0.6526573896408081,
       "learning_rate": 0.0005462752293577981,
-      "loss": 3.8841,
       "step": 8400
     },
     {
       "epoch": 0.9110512129380054,
-      "grad_norm": 0.601149320602417,
       "learning_rate": 0.0005459514301133296,
-      "loss": 3.8793,
       "step": 8450
     },
     {
       "epoch": 0.9164420485175202,
-      "grad_norm": 0.5263657569885254,
       "learning_rate": 0.0005456276308688613,
-      "loss": 3.8761,
       "step": 8500
     },
     {
       "epoch": 0.921832884097035,
-      "grad_norm": 0.5656020045280457,
       "learning_rate": 0.0005453038316243929,
-      "loss": 3.8672,
       "step": 8550
     },
     {
       "epoch": 0.9272237196765498,
-      "grad_norm": 0.565776526927948,
       "learning_rate": 0.0005449800323799244,
-      "loss": 3.8777,
       "step": 8600
     },
     {
       "epoch": 0.9326145552560647,
-      "grad_norm": 0.5656868815422058,
       "learning_rate": 0.000544656233135456,
-      "loss": 3.8577,
       "step": 8650
     },
     {
       "epoch": 0.9380053908355795,
-      "grad_norm": 0.5700314044952393,
       "learning_rate": 0.0005443324338909875,
-      "loss": 3.8624,
       "step": 8700
     },
     {
       "epoch": 0.9433962264150944,
-      "grad_norm": 0.5940127968788147,
       "learning_rate": 0.0005440086346465192,
-      "loss": 3.8726,
       "step": 8750
     },
     {
       "epoch": 0.9487870619946092,
-      "grad_norm": 0.5483199954032898,
       "learning_rate": 0.0005436848354020506,
-      "loss": 3.8541,
       "step": 8800
     },
     {
       "epoch": 0.954177897574124,
-      "grad_norm": 0.6202383041381836,
       "learning_rate": 0.0005433610361575823,
-      "loss": 3.8599,
       "step": 8850
     },
     {
       "epoch": 0.9595687331536388,
-      "grad_norm": 0.5427079200744629,
       "learning_rate": 0.0005430372369131138,
-      "loss": 3.8437,
       "step": 8900
     },
     {
       "epoch": 0.9649595687331537,
-      "grad_norm": 0.5505421757698059,
       "learning_rate": 0.0005427134376686454,
-      "loss": 3.858,
       "step": 8950
     },
     {
       "epoch": 0.9703504043126685,
-      "grad_norm": 0.6305214166641235,
       "learning_rate": 0.0005423896384241769,
-      "loss": 3.8437,
       "step": 9000
     },
     {
       "epoch": 0.9703504043126685,
-      "eval_accuracy": 0.3406345176534323,
-      "eval_loss": 3.7832400798797607,
-      "eval_runtime": 183.7219,
-      "eval_samples_per_second": 98.034,
-      "eval_steps_per_second": 6.129,
       "step": 9000
     },
     {
       "epoch": 0.9757412398921833,
-      "grad_norm": 0.7392898797988892,
       "learning_rate": 0.0005420658391797086,
-      "loss": 3.8372,
       "step": 9050
     },
     {
       "epoch": 0.9811320754716981,
-      "grad_norm": 0.587247908115387,
       "learning_rate": 0.0005417420399352401,
-      "loss": 3.8504,
       "step": 9100
     },
     {
       "epoch": 0.9865229110512129,
-      "grad_norm": 0.5904769897460938,
       "learning_rate": 0.0005414182406907717,
-      "loss": 3.844,
       "step": 9150
     },
     {
       "epoch": 0.9919137466307277,
-      "grad_norm": 0.632688581943512,
       "learning_rate": 0.0005410944414463032,
-      "loss": 3.8564,
       "step": 9200
     },
     {
       "epoch": 0.9973045822102425,
-      "grad_norm": 0.5667609572410583,
       "learning_rate": 0.0005407706422018348,
-      "loss": 3.8552,
       "step": 9250
     },
     {
       "epoch": 1.0026954177897573,
-      "grad_norm": 0.6239280700683594,
       "learning_rate": 0.0005404468429573664,
-      "loss": 3.8025,
       "step": 9300
     },
     {
       "epoch": 1.0080862533692723,
-      "grad_norm": 0.6430540680885315,
       "learning_rate": 0.000540123043712898,
-      "loss": 3.7743,
       "step": 9350
     },
     {
       "epoch": 1.013477088948787,
-      "grad_norm": 0.5992752909660339,
       "learning_rate": 0.0005397992444684295,
-      "loss": 3.7575,
       "step": 9400
     },
     {
       "epoch": 1.0188679245283019,
-      "grad_norm": 0.6434339284896851,
       "learning_rate": 0.0005394754452239611,
-      "loss": 3.7703,
       "step": 9450
     },
     {
       "epoch": 1.0242587601078168,
-      "grad_norm": 0.5548680424690247,
       "learning_rate": 0.0005391516459794927,
-      "loss": 3.7811,
       "step": 9500
     },
     {
       "epoch": 1.0296495956873315,
-      "grad_norm": 0.5591529011726379,
       "learning_rate": 0.0005388278467350242,
-      "loss": 3.7885,
       "step": 9550
     },
     {
       "epoch": 1.0350404312668464,
-      "grad_norm": 0.5492196083068848,
       "learning_rate": 0.0005385040474905557,
-      "loss": 3.7816,
       "step": 9600
     },
     {
       "epoch": 1.0404312668463611,
-      "grad_norm": 0.5632776618003845,
       "learning_rate": 0.0005381802482460874,
-      "loss": 3.7914,
       "step": 9650
     },
     {
       "epoch": 1.045822102425876,
-      "grad_norm": 0.5463435053825378,
       "learning_rate": 0.000537856449001619,
-      "loss": 3.7925,
       "step": 9700
     },
     {
       "epoch": 1.0512129380053907,
-      "grad_norm": 0.5662521719932556,
       "learning_rate": 0.0005375326497571505,
-      "loss": 3.7623,
       "step": 9750
     },
     {
       "epoch": 1.0566037735849056,
-      "grad_norm": 0.6173110008239746,
       "learning_rate": 0.000537208850512682,
-      "loss": 3.7692,
       "step": 9800
     },
     {
       "epoch": 1.0619946091644206,
-      "grad_norm": 0.5675989389419556,
       "learning_rate": 0.0005368850512682137,
       "loss": 3.7665,
       "step": 9850
     },
     {
       "epoch": 1.0673854447439353,
-      "grad_norm": 0.5368490815162659,
       "learning_rate": 0.0005365612520237453,
-      "loss": 3.7797,
       "step": 9900
     },
     {
       "epoch": 1.0727762803234502,
-      "grad_norm": 0.5896486639976501,
       "learning_rate": 0.0005362374527792768,
-      "loss": 3.7825,
       "step": 9950
     },
     {
       "epoch": 1.0781671159029649,
-      "grad_norm": 0.5884218215942383,
       "learning_rate": 0.0005359136535348084,
-      "loss": 3.7795,
       "step": 10000
     },
     {
       "epoch": 1.0781671159029649,
-      "eval_accuracy": 0.3442962286256681,
-      "eval_loss": 3.7569897174835205,
-      "eval_runtime": 183.6339,
-      "eval_samples_per_second": 98.081,
       "eval_steps_per_second": 6.132,
       "step": 10000
     }

 {
+  "best_metric": 3.7604787349700928,
   "best_model_checkpoint": "/scratch/cl5625/exceptions/models/100M_low_0_6910/checkpoint-10000",
   "epoch": 1.0781671159029649,
   "eval_steps": 1000,
   "log_history": [
     {
       "epoch": 0.005390835579514825,
+      "grad_norm": 4.480591297149658,
       "learning_rate": 0.000276,
+      "loss": 9.0235,
       "step": 50
     },
     {
       "epoch": 0.01078167115902965,
+      "grad_norm": 11.022015571594238,
       "learning_rate": 0.0005759999999999999,
+      "loss": 6.9569,
       "step": 100
     },
     {
       "epoch": 0.016172506738544475,
+      "grad_norm": 1.1546674966812134,
       "learning_rate": 0.000599702104695089,
+      "loss": 6.5399,
       "step": 150
     },
     {
       "epoch": 0.0215633423180593,
+      "grad_norm": 3.1353228092193604,
       "learning_rate": 0.0005993783054506205,
+      "loss": 6.248,
       "step": 200
     },
     {
       "epoch": 0.026954177897574125,
+      "grad_norm": 1.6697328090667725,
       "learning_rate": 0.0005990545062061521,
+      "loss": 6.0862,
       "step": 250
     },
     {
       "epoch": 0.03234501347708895,
+      "grad_norm": 2.0377206802368164,
       "learning_rate": 0.0005987307069616836,
+      "loss": 5.9479,
       "step": 300
     },
     {
       "epoch": 0.03773584905660377,
+      "grad_norm": 1.4318047761917114,
       "learning_rate": 0.0005984069077172153,
+      "loss": 5.8817,
       "step": 350
     },
     {
       "epoch": 0.0431266846361186,
+      "grad_norm": 1.5913349390029907,
       "learning_rate": 0.0005980831084727469,
+      "loss": 5.8152,
       "step": 400
     },
     {
       "epoch": 0.04851752021563342,
+      "grad_norm": 1.8550465106964111,
       "learning_rate": 0.0005977593092282784,
+      "loss": 5.7519,
       "step": 450
     },
     {
       "epoch": 0.05390835579514825,
+      "grad_norm": 0.9737682342529297,
       "learning_rate": 0.00059743550998381,
+      "loss": 5.6406,
       "step": 500
     },
     {
       "epoch": 0.05929919137466307,
+      "grad_norm": 0.9562398791313171,
       "learning_rate": 0.0005971117107393416,
+      "loss": 5.6015,
       "step": 550
     },
     {
       "epoch": 0.0646900269541779,
+      "grad_norm": 1.5083309412002563,
       "learning_rate": 0.0005967879114948732,
+      "loss": 5.5299,
       "step": 600
     },
     {
       "epoch": 0.07008086253369272,
+      "grad_norm": 1.215437650680542,
       "learning_rate": 0.0005964641122504047,
+      "loss": 5.4602,
       "step": 650
     },
     {
       "epoch": 0.07547169811320754,
+      "grad_norm": 0.867893636226654,
       "learning_rate": 0.0005961403130059363,
+      "loss": 5.3926,
       "step": 700
     },
     {
       "epoch": 0.08086253369272237,
+      "grad_norm": 0.9043947458267212,
       "learning_rate": 0.0005958165137614678,
+      "loss": 5.3218,
       "step": 750
     },
     {
       "epoch": 0.0862533692722372,
+      "grad_norm": 1.0625038146972656,
       "learning_rate": 0.0005954927145169995,
+      "loss": 5.2494,
       "step": 800
     },
     {
       "epoch": 0.09164420485175202,
+      "grad_norm": 1.1064561605453491,
       "learning_rate": 0.0005951689152725309,
+      "loss": 5.2301,
       "step": 850
     },
     {
       "epoch": 0.09703504043126684,
+      "grad_norm": 1.3318357467651367,
       "learning_rate": 0.0005948451160280626,
+      "loss": 5.1705,
       "step": 900
     },
     {
       "epoch": 0.10242587601078167,
+      "grad_norm": 0.7937541007995605,
       "learning_rate": 0.0005945213167835941,
+      "loss": 5.1053,
       "step": 950
     },
     {
       "epoch": 0.1078167115902965,
+      "grad_norm": 1.1719013452529907,
       "learning_rate": 0.0005941975175391257,
+      "loss": 5.1141,
       "step": 1000
     },
     {
       "epoch": 0.1078167115902965,
+      "eval_accuracy": 0.2272003595106752,
+      "eval_loss": 5.0241169929504395,
+      "eval_runtime": 184.1996,
+      "eval_samples_per_second": 97.78,
+      "eval_steps_per_second": 6.113,
       "step": 1000
     },
     {
       "epoch": 0.11320754716981132,
+      "grad_norm": 1.2634905576705933,
       "learning_rate": 0.0005938737182946572,
+      "loss": 5.0469,
       "step": 1050
     },
     {
       "epoch": 0.11859838274932614,
+      "grad_norm": 1.3801699876785278,
       "learning_rate": 0.0005935499190501888,
+      "loss": 5.0061,
       "step": 1100
     },
     {
       "epoch": 0.12398921832884097,
+      "grad_norm": 0.9360342025756836,
       "learning_rate": 0.0005932261198057204,
+      "loss": 5.0103,
       "step": 1150
     },
     {
       "epoch": 0.1293800539083558,
+      "grad_norm": 0.822311282157898,
       "learning_rate": 0.000592902320561252,
+      "loss": 4.9697,
       "step": 1200
     },
     {
       "epoch": 0.1347708894878706,
+      "grad_norm": 0.9512536525726318,
       "learning_rate": 0.0005925785213167835,
+      "loss": 4.9463,
       "step": 1250
     },
     {
       "epoch": 0.14016172506738545,
+      "grad_norm": 0.9103826284408569,
       "learning_rate": 0.0005922547220723151,
+      "loss": 4.9043,
       "step": 1300
     },
     {
       "epoch": 0.14555256064690028,
+      "grad_norm": 1.1774672269821167,
       "learning_rate": 0.0005919309228278468,
+      "loss": 4.8499,
       "step": 1350
     },
     {
       "epoch": 0.1509433962264151,
+      "grad_norm": 1.0059438943862915,
       "learning_rate": 0.0005916071235833783,
+      "loss": 4.8548,
       "step": 1400
     },
     {
       "epoch": 0.15633423180592992,
+      "grad_norm": 1.1289772987365723,
       "learning_rate": 0.0005912833243389097,
+      "loss": 4.8155,
       "step": 1450
     },
     {
       "epoch": 0.16172506738544473,
+      "grad_norm": 0.8365297317504883,
       "learning_rate": 0.0005909595250944414,
+      "loss": 4.8128,
       "step": 1500
     },
     {
       "epoch": 0.16711590296495957,
+      "grad_norm": 0.9716570377349854,
       "learning_rate": 0.000590635725849973,
+      "loss": 4.7983,
       "step": 1550
     },
     {
       "epoch": 0.1725067385444744,
+      "grad_norm": 1.0259066820144653,
       "learning_rate": 0.0005903119266055045,
+      "loss": 4.7741,
       "step": 1600
     },
     {
       "epoch": 0.1778975741239892,
+      "grad_norm": 1.1290489435195923,
       "learning_rate": 0.0005899881273610361,
+      "loss": 4.7448,
       "step": 1650
     },
     {
       "epoch": 0.18328840970350405,
+      "grad_norm": 1.0750524997711182,
       "learning_rate": 0.0005896643281165677,
+      "loss": 4.7288,
       "step": 1700
     },
     {
       "epoch": 0.18867924528301888,
+      "grad_norm": 0.9852170944213867,
       "learning_rate": 0.0005893405288720993,
+      "loss": 4.6785,
       "step": 1750
     },
     {
       "epoch": 0.1940700808625337,
+      "grad_norm": 0.7680540680885315,
       "learning_rate": 0.0005890167296276308,
+      "loss": 4.7077,
       "step": 1800
     },
     {
       "epoch": 0.19946091644204852,
+      "grad_norm": 1.04122793674469,
       "learning_rate": 0.0005886929303831624,
+      "loss": 4.6545,
       "step": 1850
     },
     {
       "epoch": 0.20485175202156333,
+      "grad_norm": 0.8569570779800415,
       "learning_rate": 0.0005883691311386939,
+      "loss": 4.6332,
       "step": 1900
     },
     {
       "epoch": 0.21024258760107817,
+      "grad_norm": 0.6798708438873291,
       "learning_rate": 0.0005880453318942256,
+      "loss": 4.6122,
       "step": 1950
     },
     {
       "epoch": 0.215633423180593,
+      "grad_norm": 0.9140726327896118,
       "learning_rate": 0.0005877215326497571,
+      "loss": 4.5896,
       "step": 2000
     },
     {
       "epoch": 0.215633423180593,
+      "eval_accuracy": 0.2689640305701419,
+      "eval_loss": 4.519481182098389,
+      "eval_runtime": 183.592,
+      "eval_samples_per_second": 98.103,
+      "eval_steps_per_second": 6.133,
       "step": 2000
     },
     {
       "epoch": 0.2210242587601078,
+      "grad_norm": 0.9053829908370972,
       "learning_rate": 0.0005873977334052887,
       "loss": 4.576,
       "step": 2050
     },
     {
       "epoch": 0.22641509433962265,
+      "grad_norm": 1.0720793008804321,
       "learning_rate": 0.0005870739341608202,
+      "loss": 4.5561,
       "step": 2100
     },
     {
       "epoch": 0.23180592991913745,
+      "grad_norm": 0.9383276104927063,
       "learning_rate": 0.0005867501349163519,
+      "loss": 4.5334,
       "step": 2150
     },
     {
       "epoch": 0.2371967654986523,
+      "grad_norm": 0.7491163015365601,
       "learning_rate": 0.0005864263356718833,
+      "loss": 4.5287,
       "step": 2200
     },
     {
       "epoch": 0.24258760107816713,
+      "grad_norm": 0.8868927955627441,
       "learning_rate": 0.000586102536427415,
+      "loss": 4.5065,
       "step": 2250
     },
     {
       "epoch": 0.24797843665768193,
+      "grad_norm": 0.7057210206985474,
       "learning_rate": 0.0005857787371829465,
+      "loss": 4.4984,
       "step": 2300
     },
     {
       "epoch": 0.25336927223719674,
+      "grad_norm": 1.031919002532959,
       "learning_rate": 0.0005854549379384781,
+      "loss": 4.4739,
       "step": 2350
     },
     {
       "epoch": 0.2587601078167116,
+      "grad_norm": 0.7643184065818787,
       "learning_rate": 0.0005851311386940096,
+      "loss": 4.4625,
       "step": 2400
     },
     {
       "epoch": 0.2641509433962264,
+      "grad_norm": 0.7940760850906372,
       "learning_rate": 0.0005848073394495412,
+      "loss": 4.4487,
       "step": 2450
     },
     {
       "epoch": 0.2695417789757412,
+      "grad_norm": 1.0397628545761108,
       "learning_rate": 0.0005844835402050728,
+      "loss": 4.427,
       "step": 2500
     },
     {
       "epoch": 0.2749326145552561,
+      "grad_norm": 0.8003842830657959,
       "learning_rate": 0.0005841597409606044,
+      "loss": 4.3974,
       "step": 2550
     },
     {
       "epoch": 0.2803234501347709,
+      "grad_norm": 0.8629958629608154,
       "learning_rate": 0.000583835941716136,
+      "loss": 4.4104,
       "step": 2600
     },
     {
       "epoch": 0.2857142857142857,
+      "grad_norm": 0.8870101571083069,
       "learning_rate": 0.0005835121424716675,
+      "loss": 4.3916,
       "step": 2650
     },
     {
       "epoch": 0.29110512129380056,
+      "grad_norm": 0.826655387878418,
       "learning_rate": 0.0005831883432271992,
+      "loss": 4.377,
       "step": 2700
     },
     {
       "epoch": 0.29649595687331537,
+      "grad_norm": 0.9174228310585022,
       "learning_rate": 0.0005828645439827307,
+      "loss": 4.3734,
       "step": 2750
     },
     {
       "epoch": 0.3018867924528302,
+      "grad_norm": 0.7232673168182373,
       "learning_rate": 0.0005825407447382622,
+      "loss": 4.3265,
       "step": 2800
     },
     {
       "epoch": 0.30727762803234504,
+      "grad_norm": 0.6589747071266174,
       "learning_rate": 0.0005822169454937938,
+      "loss": 4.3549,
       "step": 2850
     },
     {
       "epoch": 0.31266846361185985,
+      "grad_norm": 0.718672513961792,
       "learning_rate": 0.0005818931462493254,
+      "loss": 4.3224,
       "step": 2900
     },
     {
       "epoch": 0.31805929919137466,
+      "grad_norm": 0.7860566973686218,
       "learning_rate": 0.0005815693470048569,
+      "loss": 4.3266,
       "step": 2950
     },
     {
       "epoch": 0.32345013477088946,
+      "grad_norm": 0.7988869547843933,
       "learning_rate": 0.0005812455477603885,
+      "loss": 4.3176,
       "step": 3000
     },
     {
       "epoch": 0.32345013477088946,
+      "eval_accuracy": 0.2978062655991593,
+      "eval_loss": 4.240555286407471,
+      "eval_runtime": 183.5428,
+      "eval_samples_per_second": 98.13,
+      "eval_steps_per_second": 6.135,
       "step": 3000
     },
     {
       "epoch": 0.3288409703504043,
+      "grad_norm": 0.6903765797615051,
       "learning_rate": 0.0005809217485159201,
+      "loss": 4.3178,
       "step": 3050
     },
     {
       "epoch": 0.33423180592991913,
+      "grad_norm": 0.8304448127746582,
       "learning_rate": 0.0005805979492714517,
+      "loss": 4.2967,
       "step": 3100
     },
     {
       "epoch": 0.33962264150943394,
+      "grad_norm": 0.7549655437469482,
       "learning_rate": 0.0005802741500269832,
+      "loss": 4.2781,
       "step": 3150
     },
     {
       "epoch": 0.3450134770889488,
+      "grad_norm": 0.7030351758003235,
       "learning_rate": 0.0005799503507825148,
       "loss": 4.2802,
       "step": 3200
     },
     {
       "epoch": 0.3504043126684636,
+      "grad_norm": 0.7830392122268677,
       "learning_rate": 0.0005796265515380463,
+      "loss": 4.2733,
       "step": 3250
     },
     {
       "epoch": 0.3557951482479784,
+      "grad_norm": 1.0291404724121094,
       "learning_rate": 0.000579302752293578,
+      "loss": 4.2733,
       "step": 3300
     },
     {
       "epoch": 0.3611859838274933,
+      "grad_norm": 0.9816632866859436,
       "learning_rate": 0.0005789789530491095,
+      "loss": 4.2498,
       "step": 3350
     },
     {
       "epoch": 0.3665768194070081,
+      "grad_norm": 0.7603627443313599,
       "learning_rate": 0.0005786551538046411,
+      "loss": 4.243,
       "step": 3400
     },
     {
       "epoch": 0.3719676549865229,
+      "grad_norm": 0.6449446082115173,
       "learning_rate": 0.0005783313545601726,
+      "loss": 4.2318,
       "step": 3450
     },
     {
       "epoch": 0.37735849056603776,
+      "grad_norm": 0.8295075297355652,
       "learning_rate": 0.0005780075553157043,
+      "loss": 4.2306,
       "step": 3500
     },
     {
       "epoch": 0.38274932614555257,
+      "grad_norm": 0.7270027995109558,
       "learning_rate": 0.0005776837560712357,
+      "loss": 4.229,
       "step": 3550
     },
     {
       "epoch": 0.3881401617250674,
+      "grad_norm": 0.7727758884429932,
       "learning_rate": 0.0005773599568267673,
+      "loss": 4.2168,
       "step": 3600
     },
     {
       "epoch": 0.3935309973045822,
+      "grad_norm": 0.7819605469703674,
       "learning_rate": 0.0005770361575822989,
+      "loss": 4.2084,
       "step": 3650
     },
     {
       "epoch": 0.39892183288409705,
+      "grad_norm": 0.6820802092552185,
       "learning_rate": 0.0005767123583378305,
+      "loss": 4.1978,
       "step": 3700
     },
     {
       "epoch": 0.40431266846361186,
+      "grad_norm": 0.7236999273300171,
       "learning_rate": 0.000576388559093362,
+      "loss": 4.2005,
       "step": 3750
     },
     {
       "epoch": 0.40970350404312667,
+      "grad_norm": 0.6337780952453613,
       "learning_rate": 0.0005760647598488936,
+      "loss": 4.1639,
       "step": 3800
     },
     {
       "epoch": 0.41509433962264153,
+      "grad_norm": 0.6012069582939148,
       "learning_rate": 0.0005757409606044253,
+      "loss": 4.1724,
       "step": 3850
     },
     {
       "epoch": 0.42048517520215634,
+      "grad_norm": 0.702266275882721,
       "learning_rate": 0.0005754171613599568,
+      "loss": 4.1909,
       "step": 3900
     },
     {
       "epoch": 0.42587601078167114,
+      "grad_norm": 1.7298035621643066,
       "learning_rate": 0.0005750933621154884,
+      "loss": 4.1606,
       "step": 3950
     },
     {
       "epoch": 0.431266846361186,
+      "grad_norm": 0.6099041104316711,
       "learning_rate": 0.0005747695628710199,
+      "loss": 4.1612,
       "step": 4000
     },
     {
       "epoch": 0.431266846361186,
+      "eval_accuracy": 0.3116489694653876,
+      "eval_loss": 4.0956339836120605,
+      "eval_runtime": 183.5386,
+      "eval_samples_per_second": 98.132,
+      "eval_steps_per_second": 6.135,
       "step": 4000
     },
     {
       "epoch": 0.4366576819407008,
+      "grad_norm": 0.7810817360877991,
       "learning_rate": 0.0005744457636265515,
+      "loss": 4.1682,
       "step": 4050
     },
     {
       "epoch": 0.4420485175202156,
+      "grad_norm": 0.7356455326080322,
       "learning_rate": 0.0005741219643820831,
+      "loss": 4.1615,
       "step": 4100
     },
     {
       "epoch": 0.4474393530997305,
+      "grad_norm": 0.6011427044868469,
       "learning_rate": 0.0005737981651376146,
+      "loss": 4.1428,
       "step": 4150
     },
     {
       "epoch": 0.4528301886792453,
+      "grad_norm": 0.6384567618370056,
       "learning_rate": 0.0005734743658931462,
+      "loss": 4.1515,
       "step": 4200
     },
     {
       "epoch": 0.4582210242587601,
+      "grad_norm": 0.60776686668396,
       "learning_rate": 0.0005731505666486778,
+      "loss": 4.1383,
       "step": 4250
     },
     {
       "epoch": 0.4636118598382749,
+      "grad_norm": 0.7365734577178955,
       "learning_rate": 0.0005728267674042093,
+      "loss": 4.1402,
       "step": 4300
     },
     {
       "epoch": 0.46900269541778977,
+      "grad_norm": 0.9101449251174927,
       "learning_rate": 0.0005725029681597409,
+      "loss": 4.1279,
       "step": 4350
     },
     {
       "epoch": 0.4743935309973046,
+      "grad_norm": 0.7431625127792358,
       "learning_rate": 0.0005721791689152725,
+      "loss": 4.1123,
       "step": 4400
     },
     {
       "epoch": 0.4797843665768194,
+      "grad_norm": 0.6213470101356506,
       "learning_rate": 0.0005718553696708041,
+      "loss": 4.1218,
       "step": 4450
     },
     {
       "epoch": 0.48517520215633425,
+      "grad_norm": 0.5886948108673096,
       "learning_rate": 0.0005715315704263356,
+      "loss": 4.115,
       "step": 4500
     },
     {
       "epoch": 0.49056603773584906,
+      "grad_norm": 0.7804937958717346,
       "learning_rate": 0.0005712077711818672,
+      "loss": 4.1258,
       "step": 4550
     },
     {
       "epoch": 0.49595687331536387,
+      "grad_norm": 0.8453713059425354,
       "learning_rate": 0.0005708839719373987,
+      "loss": 4.1191,
       "step": 4600
     },
     {
       "epoch": 0.5013477088948787,
+      "grad_norm": 0.6225478053092957,
       "learning_rate": 0.0005705601726929304,
+      "loss": 4.077,
       "step": 4650
     },
     {
       "epoch": 0.5067385444743935,
+      "grad_norm": 0.6805531978607178,
       "learning_rate": 0.0005702363734484619,
+      "loss": 4.0773,
       "step": 4700
     },
     {
       "epoch": 0.5121293800539084,
+      "grad_norm": 0.5881138443946838,
       "learning_rate": 0.0005699125742039935,
+      "loss": 4.0845,
       "step": 4750
     },
     {
       "epoch": 0.5175202156334232,
+      "grad_norm": 0.7222368121147156,
       "learning_rate": 0.000569588774959525,
+      "loss": 4.0792,
       "step": 4800
     },
     {
       "epoch": 0.522911051212938,
+      "grad_norm": 0.6774405837059021,
       "learning_rate": 0.0005692649757150567,
+      "loss": 4.0735,
       "step": 4850
     },
     {
       "epoch": 0.5283018867924528,
+      "grad_norm": 0.6772297024726868,
       "learning_rate": 0.0005689411764705881,
+      "loss": 4.0765,
       "step": 4900
     },
     {
       "epoch": 0.5336927223719676,
+      "grad_norm": 0.6554037928581238,
       "learning_rate": 0.0005686173772261197,
+      "loss": 4.0658,
       "step": 4950
     },
     {
       "epoch": 0.5390835579514824,
+      "grad_norm": 0.8091623783111572,
       "learning_rate": 0.0005682935779816514,
       "loss": 4.0659,
       "step": 5000
     },
     {
       "epoch": 0.5390835579514824,
+      "eval_accuracy": 0.32031305939260213,
+      "eval_loss": 4.003881454467773,
+      "eval_runtime": 183.6428,
+      "eval_samples_per_second": 98.076,
+      "eval_steps_per_second": 6.131,
       "step": 5000
     },
     {
       "epoch": 0.5444743935309974,
+      "grad_norm": 0.683763861656189,
       "learning_rate": 0.0005679697787371829,
+      "loss": 4.073,
       "step": 5050
     },
     {
       "epoch": 0.5498652291105122,
+      "grad_norm": 0.6603772640228271,
       "learning_rate": 0.0005676459794927145,
+      "loss": 4.061,
       "step": 5100
     },
     {
       "epoch": 0.555256064690027,
+      "grad_norm": 0.6838295459747314,
       "learning_rate": 0.000567322180248246,
+      "loss": 4.0538,
       "step": 5150
     },
     {
       "epoch": 0.5606469002695418,
+      "grad_norm": 0.633878231048584,
       "learning_rate": 0.0005669983810037777,
+      "loss": 4.0601,
       "step": 5200
     },
     {
       "epoch": 0.5660377358490566,
+      "grad_norm": 0.6317396759986877,
       "learning_rate": 0.0005666745817593092,
+      "loss": 4.0392,
       "step": 5250
     },
     {
       "epoch": 0.5714285714285714,
+      "grad_norm": 0.5789533257484436,
       "learning_rate": 0.0005663507825148408,
+      "loss": 4.0392,
       "step": 5300
     },
     {
       "epoch": 0.5768194070080862,
+      "grad_norm": 0.6972223520278931,
       "learning_rate": 0.0005660269832703723,
+      "loss": 4.0281,
       "step": 5350
     },
     {
       "epoch": 0.5822102425876011,
+      "grad_norm": 0.6561431288719177,
       "learning_rate": 0.0005657031840259039,
+      "loss": 4.0341,
       "step": 5400
     },
     {
       "epoch": 0.5876010781671159,
+      "grad_norm": 0.7065162062644958,
       "learning_rate": 0.0005653793847814355,
+      "loss": 4.0336,
       "step": 5450
     },
     {
       "epoch": 0.5929919137466307,
+      "grad_norm": 0.7364255785942078,
       "learning_rate": 0.000565055585536967,
+      "loss": 4.0121,
       "step": 5500
     },
     {
       "epoch": 0.5983827493261455,
+      "grad_norm": 0.6912387013435364,
       "learning_rate": 0.0005647317862924986,
+      "loss": 4.0371,
       "step": 5550
     },
     {
       "epoch": 0.6037735849056604,
+      "grad_norm": 0.6509950757026672,
       "learning_rate": 0.0005644079870480302,
+      "loss": 3.9827,
       "step": 5600
     },
     {
       "epoch": 0.6091644204851752,
+      "grad_norm": 0.583453893661499,
       "learning_rate": 0.0005640841878035617,
+      "loss": 4.0182,
       "step": 5650
     },
     {
       "epoch": 0.6145552560646901,
+      "grad_norm": 0.652877926826477,
       "learning_rate": 0.0005637603885590933,
+      "loss": 4.0188,
       "step": 5700
     },
     {
       "epoch": 0.6199460916442049,
+      "grad_norm": 0.6168596148490906,
       "learning_rate": 0.0005634365893146248,
+      "loss": 4.0192,
       "step": 5750
     },
     {
       "epoch": 0.6253369272237197,
+      "grad_norm": 0.5807291865348816,
       "learning_rate": 0.0005631127900701565,
+      "loss": 4.008,
       "step": 5800
     },
     {
       "epoch": 0.6307277628032345,
+      "grad_norm": 0.6488702893257141,
       "learning_rate": 0.000562788990825688,
+      "loss": 3.9801,
       "step": 5850
     },
     {
       "epoch": 0.6361185983827493,
+      "grad_norm": 0.5922713279724121,
       "learning_rate": 0.0005624651915812196,
+      "loss": 3.9942,
       "step": 5900
     },
     {
       "epoch": 0.6415094339622641,
+      "grad_norm": 0.6832694411277771,
       "learning_rate": 0.0005621413923367511,
+      "loss": 4.0023,
       "step": 5950
     },
     {
       "epoch": 0.6469002695417789,
+      "grad_norm": 0.5798869729042053,
       "learning_rate": 0.0005618175930922828,
+      "loss": 4.0073,
       "step": 6000
     },
     {
       "epoch": 0.6469002695417789,
+      "eval_accuracy": 0.32747524045155707,
+      "eval_loss": 3.9221885204315186,
+      "eval_runtime": 183.4523,
+      "eval_samples_per_second": 98.178,
+      "eval_steps_per_second": 6.138,
       "step": 6000
     },
     {
       "epoch": 0.6522911051212938,
+      "grad_norm": 0.6464242935180664,
       "learning_rate": 0.0005614937938478143,
+      "loss": 3.9966,
       "step": 6050
     },
     {
       "epoch": 0.6576819407008087,
+      "grad_norm": 0.658988356590271,
       "learning_rate": 0.0005611699946033459,
+      "loss": 3.9887,
       "step": 6100
     },
     {
       "epoch": 0.6630727762803235,
+      "grad_norm": 0.6025015711784363,
       "learning_rate": 0.0005608461953588774,
+      "loss": 3.9854,
       "step": 6150
     },
     {
       "epoch": 0.6684636118598383,
+      "grad_norm": 0.5225794315338135,
       "learning_rate": 0.000560522396114409,
+      "loss": 3.9778,
       "step": 6200
     },
     {
       "epoch": 0.6738544474393531,
+      "grad_norm": 0.6130637526512146,
       "learning_rate": 0.0005601985968699405,
+      "loss": 3.9589,
       "step": 6250
     },
     {
       "epoch": 0.6792452830188679,
+      "grad_norm": 0.7012153267860413,
       "learning_rate": 0.0005598747976254721,
+      "loss": 3.9756,
       "step": 6300
     },
     {
       "epoch": 0.6846361185983828,
+      "grad_norm": 0.6216394901275635,
       "learning_rate": 0.0005595509983810038,
+      "loss": 3.9472,
       "step": 6350
     },
     {
       "epoch": 0.6900269541778976,
+      "grad_norm": 0.5851438641548157,
       "learning_rate": 0.0005592271991365353,
+      "loss": 3.961,
       "step": 6400
     },
     {
       "epoch": 0.6954177897574124,
+      "grad_norm": 0.6050034761428833,
       "learning_rate": 0.0005589033998920669,
+      "loss": 3.977,
       "step": 6450
     },
     {
       "epoch": 0.7008086253369272,
+      "grad_norm": 0.7108364105224609,
       "learning_rate": 0.0005585796006475984,
+      "loss": 3.9476,
       "step": 6500
     },
     {
       "epoch": 0.706199460916442,
+      "grad_norm": 0.6024855971336365,
       "learning_rate": 0.0005582558014031301,
+      "loss": 3.9737,
       "step": 6550
     },
     {
       "epoch": 0.7115902964959568,
+      "grad_norm": 0.6015711426734924,
       "learning_rate": 0.0005579320021586616,
+      "loss": 3.9551,
       "step": 6600
     },
     {
       "epoch": 0.7169811320754716,
+      "grad_norm": 0.5948218107223511,
       "learning_rate": 0.0005576082029141932,
+      "loss": 3.9501,
       "step": 6650
     },
     {
       "epoch": 0.7223719676549866,
+      "grad_norm": 0.5604109168052673,
       "learning_rate": 0.0005572844036697247,
+      "loss": 3.9359,
       "step": 6700
     },
     {
       "epoch": 0.7277628032345014,
+      "grad_norm": 0.5681114196777344,
       "learning_rate": 0.0005569606044252563,
+      "loss": 3.9409,
       "step": 6750
     },
     {
       "epoch": 0.7331536388140162,
+      "grad_norm": 0.7211326360702515,
       "learning_rate": 0.0005566368051807879,
+      "loss": 3.959,
       "step": 6800
     },
     {
       "epoch": 0.738544474393531,
+      "grad_norm": 0.7264713644981384,
       "learning_rate": 0.0005563130059363194,
+      "loss": 3.946,
       "step": 6850
     },
     {
       "epoch": 0.7439353099730458,
+      "grad_norm": 0.537442684173584,
       "learning_rate": 0.000555989206691851,
+      "loss": 3.9459,
       "step": 6900
     },
     {
       "epoch": 0.7493261455525606,
+      "grad_norm": 0.6321280002593994,
       "learning_rate": 0.0005556654074473826,
+      "loss": 3.9496,
       "step": 6950
     },
     {
       "epoch": 0.7547169811320755,
+      "grad_norm": 0.6744154691696167,
       "learning_rate": 0.0005553416082029141,
+      "loss": 3.9322,
       "step": 7000
     },
     {
       "epoch": 0.7547169811320755,
+      "eval_accuracy": 0.33246686277064214,
+      "eval_loss": 3.870067596435547,
+      "eval_runtime": 183.7087,
+      "eval_samples_per_second": 98.041,
+      "eval_steps_per_second": 6.129,
       "step": 7000
     },
     {
       "epoch": 0.7601078167115903,
+      "grad_norm": 0.5471804141998291,
       "learning_rate": 0.0005550178089584457,
+      "loss": 3.925,
       "step": 7050
     },
     {
       "epoch": 0.7654986522911051,
+      "grad_norm": 0.5467572808265686,
       "learning_rate": 0.0005546940097139772,
+      "loss": 3.9244,
       "step": 7100
     },
     {
       "epoch": 0.77088948787062,
+      "grad_norm": 0.6606742143630981,
       "learning_rate": 0.0005543702104695089,
+      "loss": 3.928,
       "step": 7150
     },
     {
       "epoch": 0.7762803234501348,
+      "grad_norm": 0.5569108724594116,
       "learning_rate": 0.0005540464112250404,
+      "loss": 3.9235,
       "step": 7200
     },
     {
       "epoch": 0.7816711590296496,
+      "grad_norm": 0.6275643706321716,
       "learning_rate": 0.000553722611980572,
+      "loss": 3.9371,
       "step": 7250
     },
     {
       "epoch": 0.7870619946091644,
+      "grad_norm": 0.5649941563606262,
       "learning_rate": 0.0005533988127361035,
+      "loss": 3.9205,
       "step": 7300
     },
     {
       "epoch": 0.7924528301886793,
+      "grad_norm": 0.6518858671188354,
       "learning_rate": 0.0005530750134916352,
+      "loss": 3.9381,
       "step": 7350
     },
     {
       "epoch": 0.7978436657681941,
+      "grad_norm": 0.5718905329704285,
       "learning_rate": 0.0005527512142471668,
+      "loss": 3.9101,
       "step": 7400
     },
     {
       "epoch": 0.8032345013477089,
+      "grad_norm": 0.5825619101524353,
       "learning_rate": 0.0005524274150026982,
+      "loss": 3.9122,
       "step": 7450
     },
     {
       "epoch": 0.8086253369272237,
+      "grad_norm": 0.5970243215560913,
       "learning_rate": 0.0005521036157582299,
+      "loss": 3.9021,
       "step": 7500
     },
     {
       "epoch": 0.8140161725067385,
+      "grad_norm": 0.6513302326202393,
       "learning_rate": 0.0005517798165137614,
+      "loss": 3.9071,
       "step": 7550
     },
     {
       "epoch": 0.8194070080862533,
+      "grad_norm": 0.6460273861885071,
       "learning_rate": 0.000551456017269293,
+      "loss": 3.8825,
       "step": 7600
     },
     {
       "epoch": 0.8247978436657682,
+      "grad_norm": 0.5874283909797668,
       "learning_rate": 0.0005511322180248245,
+      "loss": 3.9013,
       "step": 7650
     },
     {
       "epoch": 0.8301886792452831,
+      "grad_norm": 0.5879489183425903,
       "learning_rate": 0.0005508084187803562,
+      "loss": 3.9105,
       "step": 7700
     },
     {
       "epoch": 0.8355795148247979,
+      "grad_norm": 0.5399644374847412,
       "learning_rate": 0.0005504846195358877,
+      "loss": 3.9043,
       "step": 7750
     },
     {
       "epoch": 0.8409703504043127,
+      "grad_norm": 0.6143382787704468,
       "learning_rate": 0.0005501608202914193,
+      "loss": 3.894,
       "step": 7800
     },
     {
       "epoch": 0.8463611859838275,
+      "grad_norm": 0.6967446804046631,
       "learning_rate": 0.0005498370210469508,
+      "loss": 3.8981,
       "step": 7850
     },
     {
       "epoch": 0.8517520215633423,
+      "grad_norm": 0.6088925004005432,
       "learning_rate": 0.0005495132218024824,
+      "loss": 3.8815,
       "step": 7900
     },
     {
       "epoch": 0.8571428571428571,
+      "grad_norm": 0.6350536346435547,
       "learning_rate": 0.000549189422558014,
+      "loss": 3.892,
       "step": 7950
     },
     {
       "epoch": 0.862533692722372,
+      "grad_norm": 0.6048186421394348,
       "learning_rate": 0.0005488656233135456,
+      "loss": 3.8887,
       "step": 8000
     },
     {
       "epoch": 0.862533692722372,
+      "eval_accuracy": 0.3370834153209916,
+      "eval_loss": 3.8229870796203613,
+      "eval_runtime": 183.3909,
+      "eval_samples_per_second": 98.211,
+      "eval_steps_per_second": 6.14,
       "step": 8000
     },
     {
       "epoch": 0.8679245283018868,
+      "grad_norm": 0.5503471493721008,
       "learning_rate": 0.0005485418240690771,
+      "loss": 3.8711,
       "step": 8050
     },
     {
       "epoch": 0.8733153638814016,
+      "grad_norm": 0.6174845695495605,
       "learning_rate": 0.0005482180248246087,
+      "loss": 3.8863,
       "step": 8100
     },
     {
       "epoch": 0.8787061994609164,
+      "grad_norm": 0.6125220656394958,
       "learning_rate": 0.0005478942255801403,
+      "loss": 3.8837,
       "step": 8150
     },
     {
       "epoch": 0.8840970350404312,
+      "grad_norm": 0.5201207399368286,
       "learning_rate": 0.0005475704263356718,
+      "loss": 3.8717,
       "step": 8200
     },
     {
       "epoch": 0.889487870619946,
+      "grad_norm": 0.5790812373161316,
       "learning_rate": 0.0005472466270912034,
+      "loss": 3.882,
       "step": 8250
     },
     {
       "epoch": 0.894878706199461,
+      "grad_norm": 0.6342065334320068,
       "learning_rate": 0.000546922827846735,
+      "loss": 3.8698,
       "step": 8300
     },
     {
       "epoch": 0.9002695417789758,
+      "grad_norm": 0.564558744430542,
       "learning_rate": 0.0005465990286022665,
+      "loss": 3.8684,
       "step": 8350
     },
     {
       "epoch": 0.9056603773584906,
+      "grad_norm": 0.5782247185707092,
       "learning_rate": 0.0005462752293577981,
+      "loss": 3.8869,
       "step": 8400
     },
     {
       "epoch": 0.9110512129380054,
+      "grad_norm": 0.586661696434021,
       "learning_rate": 0.0005459514301133296,
+      "loss": 3.8805,
       "step": 8450
     },
     {
       "epoch": 0.9164420485175202,
+      "grad_norm": 0.5306695699691772,
       "learning_rate": 0.0005456276308688613,
+      "loss": 3.8768,
       "step": 8500
     },
     {
       "epoch": 0.921832884097035,
+      "grad_norm": 0.6053674221038818,
       "learning_rate": 0.0005453038316243929,
+      "loss": 3.8682,
       "step": 8550
     },
     {
       "epoch": 0.9272237196765498,
+      "grad_norm": 0.5706995129585266,
       "learning_rate": 0.0005449800323799244,
+      "loss": 3.8806,
       "step": 8600
     },
     {
       "epoch": 0.9326145552560647,
+      "grad_norm": 0.5597892999649048,
       "learning_rate": 0.000544656233135456,
+      "loss": 3.8589,
       "step": 8650
     },
     {
       "epoch": 0.9380053908355795,
+      "grad_norm": 0.5851758122444153,
       "learning_rate": 0.0005443324338909875,
+      "loss": 3.8635,
       "step": 8700
     },
     {
       "epoch": 0.9433962264150944,
+      "grad_norm": 0.564349889755249,
       "learning_rate": 0.0005440086346465192,
+      "loss": 3.8742,
       "step": 8750
     },
     {
       "epoch": 0.9487870619946092,
+      "grad_norm": 0.5862805843353271,
       "learning_rate": 0.0005436848354020506,
+      "loss": 3.855,
       "step": 8800
     },
     {
       "epoch": 0.954177897574124,
+      "grad_norm": 0.5932011008262634,
       "learning_rate": 0.0005433610361575823,
+      "loss": 3.8588,
       "step": 8850
     },
     {
       "epoch": 0.9595687331536388,
+      "grad_norm": 0.57476806640625,
       "learning_rate": 0.0005430372369131138,
+      "loss": 3.8431,
       "step": 8900
     },
     {
       "epoch": 0.9649595687331537,
+      "grad_norm": 0.6483927369117737,
       "learning_rate": 0.0005427134376686454,
+      "loss": 3.8577,
       "step": 8950
     },
     {
       "epoch": 0.9703504043126685,
+      "grad_norm": 0.6311809420585632,
       "learning_rate": 0.0005423896384241769,
+      "loss": 3.8463,
       "step": 9000
     },
     {
       "epoch": 0.9703504043126685,
+      "eval_accuracy": 0.3406645058504691,
+      "eval_loss": 3.783052682876587,
+      "eval_runtime": 183.7352,
+      "eval_samples_per_second": 98.027,
+      "eval_steps_per_second": 6.128,
       "step": 9000
     },
     {
       "epoch": 0.9757412398921833,
+      "grad_norm": 0.585279643535614,
       "learning_rate": 0.0005420658391797086,
+      "loss": 3.8383,
       "step": 9050
     },
     {
       "epoch": 0.9811320754716981,
+      "grad_norm": 0.5927286744117737,
       "learning_rate": 0.0005417420399352401,
+      "loss": 3.8525,
       "step": 9100
     },
     {
       "epoch": 0.9865229110512129,
+      "grad_norm": 0.6152717471122742,
       "learning_rate": 0.0005414182406907717,
+      "loss": 3.8451,
       "step": 9150
     },
     {
       "epoch": 0.9919137466307277,
+      "grad_norm": 0.6622257828712463,
       "learning_rate": 0.0005410944414463032,
+      "loss": 3.8608,
       "step": 9200
     },
     {
       "epoch": 0.9973045822102425,
+      "grad_norm": 0.5549481511116028,
       "learning_rate": 0.0005407706422018348,
+      "loss": 3.8575,
       "step": 9250
     },
     {
       "epoch": 1.0026954177897573,
+      "grad_norm": 0.5387691855430603,
       "learning_rate": 0.0005404468429573664,
+      "loss": 3.8051,
       "step": 9300
     },
     {
       "epoch": 1.0080862533692723,
+      "grad_norm": 0.6694597005844116,
       "learning_rate": 0.000540123043712898,
+      "loss": 3.7746,
       "step": 9350
     },
     {
       "epoch": 1.013477088948787,
+      "grad_norm": 0.5881537199020386,
       "learning_rate": 0.0005397992444684295,
+      "loss": 3.7565,
       "step": 9400
     },
     {
       "epoch": 1.0188679245283019,
+      "grad_norm": 0.6585460901260376,
       "learning_rate": 0.0005394754452239611,
+      "loss": 3.7706,
       "step": 9450
     },
     {
       "epoch": 1.0242587601078168,
+      "grad_norm": 0.5887331366539001,
       "learning_rate": 0.0005391516459794927,
+      "loss": 3.7821,
       "step": 9500
     },
     {
       "epoch": 1.0296495956873315,
+      "grad_norm": 0.563365638256073,
       "learning_rate": 0.0005388278467350242,
+      "loss": 3.7902,
       "step": 9550
     },
     {
       "epoch": 1.0350404312668464,
+      "grad_norm": 0.5882139801979065,
       "learning_rate": 0.0005385040474905557,
+      "loss": 3.7837,
       "step": 9600
     },
     {
       "epoch": 1.0404312668463611,
+      "grad_norm": 0.5479844808578491,
       "learning_rate": 0.0005381802482460874,
+      "loss": 3.7941,
       "step": 9650
     },
     {
       "epoch": 1.045822102425876,
+      "grad_norm": 0.530982494354248,
       "learning_rate": 0.000537856449001619,
+      "loss": 3.7935,
       "step": 9700
     },
     {
       "epoch": 1.0512129380053907,
+      "grad_norm": 0.5939108729362488,
       "learning_rate": 0.0005375326497571505,
+      "loss": 3.7627,
       "step": 9750
     },
     {
       "epoch": 1.0566037735849056,
+      "grad_norm": 0.6456679105758667,
       "learning_rate": 0.000537208850512682,
+      "loss": 3.7711,
       "step": 9800
     },
     {
       "epoch": 1.0619946091644206,
+      "grad_norm": 0.5563388466835022,
       "learning_rate": 0.0005368850512682137,
       "loss": 3.7665,
       "step": 9850
     },
     {
       "epoch": 1.0673854447439353,
+      "grad_norm": 0.5349035859107971,
       "learning_rate": 0.0005365612520237453,
+      "loss": 3.7807,
       "step": 9900
     },
     {
       "epoch": 1.0727762803234502,
+      "grad_norm": 0.5764602422714233,
       "learning_rate": 0.0005362374527792768,
+      "loss": 3.7823,
       "step": 9950
     },
     {
       "epoch": 1.0781671159029649,
+      "grad_norm": 0.5731992721557617,
       "learning_rate": 0.0005359136535348084,
+      "loss": 3.7831,
       "step": 10000
     },
     {
       "epoch": 1.0781671159029649,
+      "eval_accuracy": 0.3440578441898031,
+      "eval_loss": 3.7604787349700928,
+      "eval_runtime": 183.6154,
+      "eval_samples_per_second": 98.091,
       "eval_steps_per_second": 6.132,
       "step": 10000
     }

checkpoint-10000/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0a817c7e11417e737801a5f84486a890a03f5efa8f82d52f39fcbcc53ecc8de5
 size 5304

 version https://git-lfs.github.com/spec/v1
+oid sha256:5446cb3556d5a7a5827b24898b2585968b6498d558252beee1814da016bbe785
 size 5304