ember / trainer_state.json
Kush26's picture
Update base model to checkpoint-9650 (~5B tokens, step 9650)
87b3310 verified
Raw
History Blame Contribute Delete
176 kB
{
"best_global_step": null,
"best_metric": null,
"best_model_checkpoint": null,
"epoch": 0.1,
"eval_steps": 500,
"global_step": 9650,
"is_hyper_param_search": false,
"is_local_process_zero": true,
"is_world_process_zero": true,
"log_history": [
{
"epoch": 0.00016666666666666666,
"grad_norm": 14.297810554504395,
"learning_rate": 1.3499999999999998e-06,
"loss": 11.175775146484375,
"step": 10
},
{
"epoch": 0.0003333333333333333,
"grad_norm": 8.92794418334961,
"learning_rate": 2.85e-06,
"loss": 10.527365112304688,
"step": 20
},
{
"epoch": 0.0005,
"grad_norm": 3.7201273441314697,
"learning_rate": 4.35e-06,
"loss": 9.680557250976562,
"step": 30
},
{
"epoch": 0.0006666666666666666,
"grad_norm": 3.4802424907684326,
"learning_rate": 5.85e-06,
"loss": 9.302367401123046,
"step": 40
},
{
"epoch": 0.0008333333333333334,
"grad_norm": 3.940255880355835,
"learning_rate": 7.35e-06,
"loss": 8.909403991699218,
"step": 50
},
{
"epoch": 0.001,
"grad_norm": 2.993356704711914,
"learning_rate": 8.849999999999998e-06,
"loss": 8.356079864501954,
"step": 60
},
{
"epoch": 0.0011666666666666668,
"grad_norm": 2.9796433448791504,
"learning_rate": 1.035e-05,
"loss": 7.9435173034667965,
"step": 70
},
{
"epoch": 0.0013333333333333333,
"grad_norm": 3.0474584102630615,
"learning_rate": 1.1849999999999998e-05,
"loss": 7.6440284729003904,
"step": 80
},
{
"epoch": 0.0015,
"grad_norm": 2.147731304168701,
"learning_rate": 1.3349999999999998e-05,
"loss": 7.392823791503906,
"step": 90
},
{
"epoch": 0.0016666666666666668,
"grad_norm": 2.9777767658233643,
"learning_rate": 1.485e-05,
"loss": 7.160243225097656,
"step": 100
},
{
"epoch": 0.0018333333333333333,
"grad_norm": 3.442213535308838,
"learning_rate": 1.6349999999999998e-05,
"loss": 6.910230255126953,
"step": 110
},
{
"epoch": 0.002,
"grad_norm": 1.9802011251449585,
"learning_rate": 1.7849999999999997e-05,
"loss": 6.733470916748047,
"step": 120
},
{
"epoch": 0.0021666666666666666,
"grad_norm": 3.293522357940674,
"learning_rate": 1.935e-05,
"loss": 6.564137268066406,
"step": 130
},
{
"epoch": 0.0023333333333333335,
"grad_norm": 2.318138599395752,
"learning_rate": 2.085e-05,
"loss": 6.410511779785156,
"step": 140
},
{
"epoch": 0.0025,
"grad_norm": 1.8537381887435913,
"learning_rate": 2.2349999999999998e-05,
"loss": 6.195587539672852,
"step": 150
},
{
"epoch": 0.0026666666666666666,
"grad_norm": 2.452784538269043,
"learning_rate": 2.3849999999999997e-05,
"loss": 6.022871398925782,
"step": 160
},
{
"epoch": 0.0028333333333333335,
"grad_norm": 2.760226011276245,
"learning_rate": 2.535e-05,
"loss": 5.868363952636718,
"step": 170
},
{
"epoch": 0.003,
"grad_norm": 2.2246060371398926,
"learning_rate": 2.6849999999999995e-05,
"loss": 5.678731918334961,
"step": 180
},
{
"epoch": 0.0031666666666666666,
"grad_norm": 2.437960386276245,
"learning_rate": 2.8349999999999998e-05,
"loss": 5.5810894012451175,
"step": 190
},
{
"epoch": 0.0033333333333333335,
"grad_norm": 2.2690577507019043,
"learning_rate": 2.985e-05,
"loss": 5.393305969238281,
"step": 200
},
{
"epoch": 0.0035,
"grad_norm": 2.249206066131592,
"learning_rate": 3.1349999999999996e-05,
"loss": 5.256457901000976,
"step": 210
},
{
"epoch": 0.0036666666666666666,
"grad_norm": 2.175391435623169,
"learning_rate": 3.285e-05,
"loss": 5.130535507202149,
"step": 220
},
{
"epoch": 0.003833333333333333,
"grad_norm": 3.0227811336517334,
"learning_rate": 3.435e-05,
"loss": 5.026712036132812,
"step": 230
},
{
"epoch": 0.004,
"grad_norm": 3.269705057144165,
"learning_rate": 3.585e-05,
"loss": 4.898946762084961,
"step": 240
},
{
"epoch": 0.004166666666666667,
"grad_norm": 3.4760587215423584,
"learning_rate": 3.735e-05,
"loss": 4.815313720703125,
"step": 250
},
{
"epoch": 0.004333333333333333,
"grad_norm": 3.678823471069336,
"learning_rate": 3.8849999999999996e-05,
"loss": 4.687419128417969,
"step": 260
},
{
"epoch": 0.0045,
"grad_norm": 2.79219913482666,
"learning_rate": 4.035e-05,
"loss": 4.555228042602539,
"step": 270
},
{
"epoch": 0.004666666666666667,
"grad_norm": 3.8011438846588135,
"learning_rate": 4.185e-05,
"loss": 4.465290832519531,
"step": 280
},
{
"epoch": 0.004833333333333334,
"grad_norm": 3.286940813064575,
"learning_rate": 4.334999999999999e-05,
"loss": 4.359551239013672,
"step": 290
},
{
"epoch": 0.005,
"grad_norm": 4.136998176574707,
"learning_rate": 4.484999999999999e-05,
"loss": 4.275360107421875,
"step": 300
},
{
"epoch": 0.005166666666666667,
"grad_norm": 3.4878525733947754,
"learning_rate": 4.6349999999999995e-05,
"loss": 4.186351013183594,
"step": 310
},
{
"epoch": 0.005333333333333333,
"grad_norm": 3.2811970710754395,
"learning_rate": 4.785e-05,
"loss": 4.137750625610352,
"step": 320
},
{
"epoch": 0.0055,
"grad_norm": 3.300088882446289,
"learning_rate": 4.935e-05,
"loss": 4.083171463012695,
"step": 330
},
{
"epoch": 0.005666666666666667,
"grad_norm": 2.9177348613739014,
"learning_rate": 5.0849999999999996e-05,
"loss": 3.978733444213867,
"step": 340
},
{
"epoch": 0.005833333333333334,
"grad_norm": 2.957092523574829,
"learning_rate": 5.234999999999999e-05,
"loss": 3.9336376190185547,
"step": 350
},
{
"epoch": 0.006,
"grad_norm": 2.75334095954895,
"learning_rate": 5.3849999999999994e-05,
"loss": 3.8648487091064454,
"step": 360
},
{
"epoch": 0.006166666666666667,
"grad_norm": 3.36582612991333,
"learning_rate": 5.535e-05,
"loss": 3.8383750915527344,
"step": 370
},
{
"epoch": 0.006333333333333333,
"grad_norm": 3.27022123336792,
"learning_rate": 5.684999999999999e-05,
"loss": 3.8231891632080077,
"step": 380
},
{
"epoch": 0.0065,
"grad_norm": 2.8231465816497803,
"learning_rate": 5.8349999999999995e-05,
"loss": 3.7710498809814452,
"step": 390
},
{
"epoch": 0.006666666666666667,
"grad_norm": 2.8562817573547363,
"learning_rate": 5.985e-05,
"loss": 3.703901672363281,
"step": 400
},
{
"epoch": 0.006833333333333334,
"grad_norm": 2.708444118499756,
"learning_rate": 6.134999999999999e-05,
"loss": 3.690731430053711,
"step": 410
},
{
"epoch": 0.007,
"grad_norm": 2.327440023422241,
"learning_rate": 6.285e-05,
"loss": 3.64001350402832,
"step": 420
},
{
"epoch": 0.007166666666666667,
"grad_norm": 2.3135883808135986,
"learning_rate": 6.434999999999999e-05,
"loss": 3.63990478515625,
"step": 430
},
{
"epoch": 0.007333333333333333,
"grad_norm": 2.6845688819885254,
"learning_rate": 6.584999999999999e-05,
"loss": 3.602303314208984,
"step": 440
},
{
"epoch": 0.0075,
"grad_norm": 2.0262644290924072,
"learning_rate": 6.735e-05,
"loss": 3.5283145904541016,
"step": 450
},
{
"epoch": 0.007666666666666666,
"grad_norm": 2.0807831287384033,
"learning_rate": 6.884999999999999e-05,
"loss": 3.5422496795654297,
"step": 460
},
{
"epoch": 0.007833333333333333,
"grad_norm": 2.4081315994262695,
"learning_rate": 7.034999999999999e-05,
"loss": 3.4911945343017576,
"step": 470
},
{
"epoch": 0.008,
"grad_norm": 1.836987853050232,
"learning_rate": 7.184999999999998e-05,
"loss": 3.4667892456054688,
"step": 480
},
{
"epoch": 0.008166666666666666,
"grad_norm": 2.355318546295166,
"learning_rate": 7.335e-05,
"loss": 3.4672470092773438,
"step": 490
},
{
"epoch": 0.008333333333333333,
"grad_norm": 2.058490037918091,
"learning_rate": 7.484999999999999e-05,
"loss": 3.393095779418945,
"step": 500
},
{
"epoch": 0.0085,
"grad_norm": 2.053673505783081,
"learning_rate": 7.635e-05,
"loss": 3.391928863525391,
"step": 510
},
{
"epoch": 0.008666666666666666,
"grad_norm": 1.780815601348877,
"learning_rate": 7.785e-05,
"loss": 3.407213592529297,
"step": 520
},
{
"epoch": 0.008833333333333334,
"grad_norm": 1.8663444519042969,
"learning_rate": 7.934999999999999e-05,
"loss": 3.3710628509521485,
"step": 530
},
{
"epoch": 0.009,
"grad_norm": 1.9582051038742065,
"learning_rate": 8.085e-05,
"loss": 3.3235591888427733,
"step": 540
},
{
"epoch": 0.009166666666666667,
"grad_norm": 1.972941279411316,
"learning_rate": 8.235e-05,
"loss": 3.288467788696289,
"step": 550
},
{
"epoch": 0.009333333333333334,
"grad_norm": 1.9734792709350586,
"learning_rate": 8.385e-05,
"loss": 3.278826904296875,
"step": 560
},
{
"epoch": 0.0095,
"grad_norm": 1.7474493980407715,
"learning_rate": 8.534999999999999e-05,
"loss": 3.269306182861328,
"step": 570
},
{
"epoch": 0.009666666666666667,
"grad_norm": 1.6593666076660156,
"learning_rate": 8.684999999999998e-05,
"loss": 3.2291339874267577,
"step": 580
},
{
"epoch": 0.009833333333333333,
"grad_norm": 1.6678528785705566,
"learning_rate": 8.834999999999999e-05,
"loss": 3.19910888671875,
"step": 590
},
{
"epoch": 0.01,
"grad_norm": 1.7990621328353882,
"learning_rate": 8.984999999999999e-05,
"loss": 3.2183486938476564,
"step": 600
},
{
"epoch": 0.010166666666666666,
"grad_norm": 1.7901487350463867,
"learning_rate": 9.134999999999998e-05,
"loss": 3.1689579010009767,
"step": 610
},
{
"epoch": 0.010333333333333333,
"grad_norm": 1.7504736185073853,
"learning_rate": 9.285e-05,
"loss": 3.166044235229492,
"step": 620
},
{
"epoch": 0.0105,
"grad_norm": 1.5876473188400269,
"learning_rate": 9.434999999999999e-05,
"loss": 3.132395362854004,
"step": 630
},
{
"epoch": 0.010666666666666666,
"grad_norm": 1.4617185592651367,
"learning_rate": 9.585e-05,
"loss": 3.137837791442871,
"step": 640
},
{
"epoch": 0.010833333333333334,
"grad_norm": 1.510992407798767,
"learning_rate": 9.735e-05,
"loss": 3.134562110900879,
"step": 650
},
{
"epoch": 0.011,
"grad_norm": 1.5073765516281128,
"learning_rate": 9.884999999999999e-05,
"loss": 3.1096372604370117,
"step": 660
},
{
"epoch": 0.011166666666666667,
"grad_norm": 1.5816830396652222,
"learning_rate": 0.00010035,
"loss": 3.0559246063232424,
"step": 670
},
{
"epoch": 0.011333333333333334,
"grad_norm": 1.6063289642333984,
"learning_rate": 0.00010185,
"loss": 3.0526498794555663,
"step": 680
},
{
"epoch": 0.0115,
"grad_norm": 1.3957390785217285,
"learning_rate": 0.00010334999999999998,
"loss": 3.047122764587402,
"step": 690
},
{
"epoch": 0.011666666666666667,
"grad_norm": 1.5005953311920166,
"learning_rate": 0.00010484999999999999,
"loss": 3.0388126373291016,
"step": 700
},
{
"epoch": 0.011833333333333333,
"grad_norm": 1.596427083015442,
"learning_rate": 0.00010634999999999998,
"loss": 3.022883415222168,
"step": 710
},
{
"epoch": 0.012,
"grad_norm": 1.3984756469726562,
"learning_rate": 0.00010784999999999999,
"loss": 2.978668212890625,
"step": 720
},
{
"epoch": 0.012166666666666666,
"grad_norm": 1.2459074258804321,
"learning_rate": 0.00010934999999999999,
"loss": 2.9714258193969725,
"step": 730
},
{
"epoch": 0.012333333333333333,
"grad_norm": 1.3867474794387817,
"learning_rate": 0.00011084999999999998,
"loss": 2.9811878204345703,
"step": 740
},
{
"epoch": 0.0125,
"grad_norm": 1.3084795475006104,
"learning_rate": 0.00011235,
"loss": 2.9637191772460936,
"step": 750
},
{
"epoch": 0.012666666666666666,
"grad_norm": 1.2939265966415405,
"learning_rate": 0.00011384999999999999,
"loss": 2.940631103515625,
"step": 760
},
{
"epoch": 0.012833333333333334,
"grad_norm": 1.3884607553482056,
"learning_rate": 0.00011535,
"loss": 2.898904800415039,
"step": 770
},
{
"epoch": 0.013,
"grad_norm": 1.10460364818573,
"learning_rate": 0.00011685,
"loss": 2.914503288269043,
"step": 780
},
{
"epoch": 0.013166666666666667,
"grad_norm": 1.2655820846557617,
"learning_rate": 0.00011834999999999999,
"loss": 2.895877456665039,
"step": 790
},
{
"epoch": 0.013333333333333334,
"grad_norm": 1.1122198104858398,
"learning_rate": 0.00011985,
"loss": 2.904026985168457,
"step": 800
},
{
"epoch": 0.0135,
"grad_norm": 1.2572715282440186,
"learning_rate": 0.00012135,
"loss": 2.8351789474487306,
"step": 810
},
{
"epoch": 0.013666666666666667,
"grad_norm": 1.3550209999084473,
"learning_rate": 0.00012284999999999998,
"loss": 2.8636459350585937,
"step": 820
},
{
"epoch": 0.013833333333333333,
"grad_norm": 0.92742520570755,
"learning_rate": 0.00012435,
"loss": 2.8171138763427734,
"step": 830
},
{
"epoch": 0.014,
"grad_norm": 1.07759428024292,
"learning_rate": 0.00012585,
"loss": 2.8060197830200195,
"step": 840
},
{
"epoch": 0.014166666666666666,
"grad_norm": 1.1448051929473877,
"learning_rate": 0.00012734999999999998,
"loss": 2.795998382568359,
"step": 850
},
{
"epoch": 0.014333333333333333,
"grad_norm": 0.9354196190834045,
"learning_rate": 0.00012885,
"loss": 2.768997001647949,
"step": 860
},
{
"epoch": 0.0145,
"grad_norm": 1.0693879127502441,
"learning_rate": 0.00013035,
"loss": 2.7732864379882813,
"step": 870
},
{
"epoch": 0.014666666666666666,
"grad_norm": 0.9721701145172119,
"learning_rate": 0.00013184999999999998,
"loss": 2.759377288818359,
"step": 880
},
{
"epoch": 0.014833333333333334,
"grad_norm": 1.0717929601669312,
"learning_rate": 0.00013335,
"loss": 2.7331707000732424,
"step": 890
},
{
"epoch": 0.015,
"grad_norm": 1.0174472332000732,
"learning_rate": 0.00013485,
"loss": 2.7001853942871095,
"step": 900
},
{
"epoch": 0.015166666666666667,
"grad_norm": 1.0769199132919312,
"learning_rate": 0.00013634999999999998,
"loss": 2.7025869369506834,
"step": 910
},
{
"epoch": 0.015333333333333332,
"grad_norm": 1.1206380128860474,
"learning_rate": 0.00013785,
"loss": 2.694252586364746,
"step": 920
},
{
"epoch": 0.0155,
"grad_norm": 0.9890035390853882,
"learning_rate": 0.00013935,
"loss": 2.681113433837891,
"step": 930
},
{
"epoch": 0.015666666666666666,
"grad_norm": 1.035932183265686,
"learning_rate": 0.00014084999999999998,
"loss": 2.682352828979492,
"step": 940
},
{
"epoch": 0.015833333333333335,
"grad_norm": 0.9429165124893188,
"learning_rate": 0.00014235,
"loss": 2.6295612335205076,
"step": 950
},
{
"epoch": 0.016,
"grad_norm": 0.8270607590675354,
"learning_rate": 0.00014384999999999997,
"loss": 2.6640741348266603,
"step": 960
},
{
"epoch": 0.016166666666666666,
"grad_norm": 1.1936181783676147,
"learning_rate": 0.00014534999999999998,
"loss": 2.6394475936889648,
"step": 970
},
{
"epoch": 0.01633333333333333,
"grad_norm": 1.0914827585220337,
"learning_rate": 0.00014685,
"loss": 2.6144994735717773,
"step": 980
},
{
"epoch": 0.0165,
"grad_norm": 0.8323391675949097,
"learning_rate": 0.00014834999999999997,
"loss": 2.5976608276367186,
"step": 990
},
{
"epoch": 0.016666666666666666,
"grad_norm": 0.817717969417572,
"learning_rate": 0.00014984999999999998,
"loss": 2.5982643127441407,
"step": 1000
},
{
"epoch": 0.016833333333333332,
"grad_norm": 1.0404084920883179,
"learning_rate": 0.00015134999999999997,
"loss": 2.5767370223999024,
"step": 1010
},
{
"epoch": 0.017,
"grad_norm": 0.9311416745185852,
"learning_rate": 0.00015284999999999997,
"loss": 2.565751838684082,
"step": 1020
},
{
"epoch": 0.017166666666666667,
"grad_norm": 0.9678856134414673,
"learning_rate": 0.00015434999999999998,
"loss": 2.5317737579345705,
"step": 1030
},
{
"epoch": 0.017333333333333333,
"grad_norm": 0.9805819392204285,
"learning_rate": 0.00015584999999999997,
"loss": 2.5258121490478516,
"step": 1040
},
{
"epoch": 0.0175,
"grad_norm": 0.7922776341438293,
"learning_rate": 0.00015734999999999998,
"loss": 2.5400224685668946,
"step": 1050
},
{
"epoch": 0.017666666666666667,
"grad_norm": 0.8440002202987671,
"learning_rate": 0.00015884999999999999,
"loss": 2.5049901962280274,
"step": 1060
},
{
"epoch": 0.017833333333333333,
"grad_norm": 0.8814069032669067,
"learning_rate": 0.00016034999999999997,
"loss": 2.500185012817383,
"step": 1070
},
{
"epoch": 0.018,
"grad_norm": 0.7535040378570557,
"learning_rate": 0.00016184999999999998,
"loss": 2.487553596496582,
"step": 1080
},
{
"epoch": 0.018166666666666668,
"grad_norm": 1.007371187210083,
"learning_rate": 0.00016334999999999999,
"loss": 2.50408821105957,
"step": 1090
},
{
"epoch": 0.018333333333333333,
"grad_norm": 0.7742697596549988,
"learning_rate": 0.00016485,
"loss": 2.5046213150024412,
"step": 1100
},
{
"epoch": 0.0185,
"grad_norm": 0.8482025265693665,
"learning_rate": 0.00016634999999999998,
"loss": 2.493575096130371,
"step": 1110
},
{
"epoch": 1.0000666666666667,
"grad_norm": 0.7820495963096619,
"learning_rate": 0.00016785,
"loss": 2.706912040710449,
"step": 1120
},
{
"epoch": 1.0002333333333333,
"grad_norm": 0.7099973559379578,
"learning_rate": 0.00016935,
"loss": 2.4309906005859374,
"step": 1130
},
{
"epoch": 1.0004,
"grad_norm": 0.6877136826515198,
"learning_rate": 0.00017084999999999998,
"loss": 2.449149322509766,
"step": 1140
},
{
"epoch": 1.0005666666666666,
"grad_norm": 0.8360202312469482,
"learning_rate": 0.00017235,
"loss": 2.4464847564697267,
"step": 1150
},
{
"epoch": 1.0007333333333333,
"grad_norm": 0.7134903073310852,
"learning_rate": 0.00017385,
"loss": 2.430519866943359,
"step": 1160
},
{
"epoch": 1.0009,
"grad_norm": 0.9075033664703369,
"learning_rate": 0.00017534999999999998,
"loss": 2.40509033203125,
"step": 1170
},
{
"epoch": 1.0010666666666668,
"grad_norm": 0.8332974314689636,
"learning_rate": 0.00017685,
"loss": 2.4284109115600585,
"step": 1180
},
{
"epoch": 1.0012333333333334,
"grad_norm": 0.6970870494842529,
"learning_rate": 0.00017835,
"loss": 2.4098472595214844,
"step": 1190
},
{
"epoch": 1.0014,
"grad_norm": 0.6665694713592529,
"learning_rate": 0.00017984999999999998,
"loss": 2.395026206970215,
"step": 1200
},
{
"epoch": 1.0015666666666667,
"grad_norm": 0.6687540411949158,
"learning_rate": 0.00018135,
"loss": 2.3692419052124025,
"step": 1210
},
{
"epoch": 1.0017333333333334,
"grad_norm": 0.8831247687339783,
"learning_rate": 0.00018285,
"loss": 2.3781986236572266,
"step": 1220
},
{
"epoch": 1.0019,
"grad_norm": 0.6402927041053772,
"learning_rate": 0.00018435,
"loss": 2.361619567871094,
"step": 1230
},
{
"epoch": 1.0020666666666667,
"grad_norm": 0.7041394710540771,
"learning_rate": 0.00018585,
"loss": 2.353261184692383,
"step": 1240
},
{
"epoch": 1.0022333333333333,
"grad_norm": 0.7513797283172607,
"learning_rate": 0.00018735,
"loss": 2.3699949264526365,
"step": 1250
},
{
"epoch": 1.0024,
"grad_norm": 0.6802843809127808,
"learning_rate": 0.00018884999999999996,
"loss": 2.355624198913574,
"step": 1260
},
{
"epoch": 1.0025666666666666,
"grad_norm": 0.6382043361663818,
"learning_rate": 0.00019034999999999996,
"loss": 2.3294889450073244,
"step": 1270
},
{
"epoch": 1.0027333333333333,
"grad_norm": 0.7075265645980835,
"learning_rate": 0.00019184999999999997,
"loss": 2.3211458206176756,
"step": 1280
},
{
"epoch": 1.0029,
"grad_norm": 0.6168259382247925,
"learning_rate": 0.00019334999999999998,
"loss": 2.303839683532715,
"step": 1290
},
{
"epoch": 1.0030666666666668,
"grad_norm": 0.6752699017524719,
"learning_rate": 0.00019484999999999997,
"loss": 2.331635856628418,
"step": 1300
},
{
"epoch": 1.0032333333333334,
"grad_norm": 0.7414150238037109,
"learning_rate": 0.00019634999999999998,
"loss": 2.333931541442871,
"step": 1310
},
{
"epoch": 1.0034,
"grad_norm": 0.5768128633499146,
"learning_rate": 0.00019784999999999998,
"loss": 2.309197998046875,
"step": 1320
},
{
"epoch": 1.0035666666666667,
"grad_norm": 0.7151084542274475,
"learning_rate": 0.00019934999999999997,
"loss": 2.288164520263672,
"step": 1330
},
{
"epoch": 1.0037333333333334,
"grad_norm": 0.6732338666915894,
"learning_rate": 0.00020084999999999998,
"loss": 2.295826530456543,
"step": 1340
},
{
"epoch": 1.0039,
"grad_norm": 0.6337047219276428,
"learning_rate": 0.00020234999999999999,
"loss": 2.281715965270996,
"step": 1350
},
{
"epoch": 1.0040666666666667,
"grad_norm": 0.6295289993286133,
"learning_rate": 0.00020384999999999997,
"loss": 2.2805261611938477,
"step": 1360
},
{
"epoch": 1.0042333333333333,
"grad_norm": 0.5674924254417419,
"learning_rate": 0.00020534999999999998,
"loss": 2.276862907409668,
"step": 1370
},
{
"epoch": 1.0044,
"grad_norm": 0.8244264721870422,
"learning_rate": 0.00020684999999999999,
"loss": 2.2846065521240235,
"step": 1380
},
{
"epoch": 1.0045666666666666,
"grad_norm": 0.5457371473312378,
"learning_rate": 0.00020835,
"loss": 2.2605510711669923,
"step": 1390
},
{
"epoch": 1.0047333333333333,
"grad_norm": 0.8645628690719604,
"learning_rate": 0.00020984999999999998,
"loss": 2.2508319854736327,
"step": 1400
},
{
"epoch": 1.0049,
"grad_norm": 0.5244976878166199,
"learning_rate": 0.00021135,
"loss": 2.2424762725830076,
"step": 1410
},
{
"epoch": 1.0050666666666668,
"grad_norm": 0.6354586482048035,
"learning_rate": 0.00021285,
"loss": 2.2320966720581055,
"step": 1420
},
{
"epoch": 1.0052333333333334,
"grad_norm": 0.6979833841323853,
"learning_rate": 0.00021434999999999998,
"loss": 2.2552522659301757,
"step": 1430
},
{
"epoch": 1.0054,
"grad_norm": 0.5455880165100098,
"learning_rate": 0.00021585,
"loss": 2.2437259674072267,
"step": 1440
},
{
"epoch": 1.0055666666666667,
"grad_norm": 0.8435111045837402,
"learning_rate": 0.00021735,
"loss": 2.249082565307617,
"step": 1450
},
{
"epoch": 1.0057333333333334,
"grad_norm": 0.6287665367126465,
"learning_rate": 0.00021884999999999998,
"loss": 2.229854393005371,
"step": 1460
},
{
"epoch": 1.0059,
"grad_norm": 0.4953818917274475,
"learning_rate": 0.00022035,
"loss": 2.229512023925781,
"step": 1470
},
{
"epoch": 1.0060666666666667,
"grad_norm": 0.5459710955619812,
"learning_rate": 0.00022185,
"loss": 2.207718086242676,
"step": 1480
},
{
"epoch": 1.0062333333333333,
"grad_norm": 0.5606301426887512,
"learning_rate": 0.00022335,
"loss": 2.213382911682129,
"step": 1490
},
{
"epoch": 1.0064,
"grad_norm": 0.535137951374054,
"learning_rate": 0.00022485,
"loss": 2.2047290802001953,
"step": 1500
},
{
"epoch": 1.0065666666666666,
"grad_norm": 0.7108746767044067,
"learning_rate": 0.00022634999999999997,
"loss": 2.2026611328125,
"step": 1510
},
{
"epoch": 1.0067333333333333,
"grad_norm": 0.5354933738708496,
"learning_rate": 0.00022784999999999995,
"loss": 2.1966262817382813,
"step": 1520
},
{
"epoch": 1.0069,
"grad_norm": 0.5238562822341919,
"learning_rate": 0.00022934999999999996,
"loss": 2.192904472351074,
"step": 1530
},
{
"epoch": 1.0070666666666668,
"grad_norm": 0.5200198888778687,
"learning_rate": 0.00023084999999999997,
"loss": 2.1925033569335937,
"step": 1540
},
{
"epoch": 1.0072333333333334,
"grad_norm": 0.5277844071388245,
"learning_rate": 0.00023234999999999998,
"loss": 2.1947145462036133,
"step": 1550
},
{
"epoch": 1.0074,
"grad_norm": 0.4872555434703827,
"learning_rate": 0.00023384999999999997,
"loss": 2.1701236724853517,
"step": 1560
},
{
"epoch": 1.0075666666666667,
"grad_norm": 0.4913088083267212,
"learning_rate": 0.00023534999999999997,
"loss": 2.184732437133789,
"step": 1570
},
{
"epoch": 1.0077333333333334,
"grad_norm": 0.5435949563980103,
"learning_rate": 0.00023684999999999998,
"loss": 2.1729846954345704,
"step": 1580
},
{
"epoch": 1.0079,
"grad_norm": 0.6295453906059265,
"learning_rate": 0.00023834999999999997,
"loss": 2.192562294006348,
"step": 1590
},
{
"epoch": 1.0080666666666667,
"grad_norm": 0.4600837230682373,
"learning_rate": 0.00023984999999999998,
"loss": 2.1549304962158202,
"step": 1600
},
{
"epoch": 1.0082333333333333,
"grad_norm": 0.4506412446498871,
"learning_rate": 0.00024134999999999998,
"loss": 2.158854293823242,
"step": 1610
},
{
"epoch": 1.0084,
"grad_norm": 0.5208119750022888,
"learning_rate": 0.00024284999999999997,
"loss": 2.1459197998046875,
"step": 1620
},
{
"epoch": 1.0085666666666666,
"grad_norm": 0.4893856942653656,
"learning_rate": 0.00024435,
"loss": 2.148777198791504,
"step": 1630
},
{
"epoch": 1.0087333333333333,
"grad_norm": 0.4930168688297272,
"learning_rate": 0.00024585,
"loss": 2.125368118286133,
"step": 1640
},
{
"epoch": 1.0089,
"grad_norm": 0.4652084410190582,
"learning_rate": 0.00024734999999999997,
"loss": 2.1323593139648436,
"step": 1650
},
{
"epoch": 1.0090666666666666,
"grad_norm": 0.5389001965522766,
"learning_rate": 0.00024885,
"loss": 2.135792350769043,
"step": 1660
},
{
"epoch": 1.0092333333333334,
"grad_norm": 0.457022100687027,
"learning_rate": 0.00025035,
"loss": 2.1415658950805665,
"step": 1670
},
{
"epoch": 1.0094,
"grad_norm": 0.4299754500389099,
"learning_rate": 0.00025184999999999997,
"loss": 2.122327995300293,
"step": 1680
},
{
"epoch": 1.0095666666666667,
"grad_norm": 0.4978894889354706,
"learning_rate": 0.00025335,
"loss": 2.1148754119873048,
"step": 1690
},
{
"epoch": 1.0097333333333334,
"grad_norm": 0.429126501083374,
"learning_rate": 0.00025485,
"loss": 2.0946537017822267,
"step": 1700
},
{
"epoch": 1.0099,
"grad_norm": 0.4430970549583435,
"learning_rate": 0.00025634999999999997,
"loss": 2.113183784484863,
"step": 1710
},
{
"epoch": 1.0100666666666667,
"grad_norm": 0.5041225552558899,
"learning_rate": 0.00025785,
"loss": 2.1197893142700197,
"step": 1720
},
{
"epoch": 1.0102333333333333,
"grad_norm": 0.44492107629776,
"learning_rate": 0.00025935,
"loss": 2.083152961730957,
"step": 1730
},
{
"epoch": 1.0104,
"grad_norm": 0.5288322567939758,
"learning_rate": 0.00026084999999999997,
"loss": 2.099713897705078,
"step": 1740
},
{
"epoch": 1.0105666666666666,
"grad_norm": 0.41168212890625,
"learning_rate": 0.00026235,
"loss": 2.0932744979858398,
"step": 1750
},
{
"epoch": 1.0107333333333333,
"grad_norm": 0.5603193044662476,
"learning_rate": 0.00026384999999999994,
"loss": 2.094789505004883,
"step": 1760
},
{
"epoch": 1.0109,
"grad_norm": 0.5161806344985962,
"learning_rate": 0.00026534999999999997,
"loss": 2.1284894943237305,
"step": 1770
},
{
"epoch": 1.0110666666666666,
"grad_norm": 0.41853898763656616,
"learning_rate": 0.00026684999999999995,
"loss": 2.0773319244384765,
"step": 1780
},
{
"epoch": 1.0112333333333334,
"grad_norm": 0.5440929532051086,
"learning_rate": 0.00026835,
"loss": 2.084604835510254,
"step": 1790
},
{
"epoch": 1.0114,
"grad_norm": 0.40722721815109253,
"learning_rate": 0.00026984999999999997,
"loss": 2.0671564102172852,
"step": 1800
},
{
"epoch": 1.0115666666666667,
"grad_norm": 0.41399574279785156,
"learning_rate": 0.00027134999999999995,
"loss": 2.0832889556884764,
"step": 1810
},
{
"epoch": 1.0117333333333334,
"grad_norm": 0.49388933181762695,
"learning_rate": 0.00027285,
"loss": 2.075506591796875,
"step": 1820
},
{
"epoch": 1.0119,
"grad_norm": 0.4293297827243805,
"learning_rate": 0.00027435,
"loss": 2.0805021286010743,
"step": 1830
},
{
"epoch": 1.0120666666666667,
"grad_norm": 0.40732425451278687,
"learning_rate": 0.00027584999999999996,
"loss": 2.049145317077637,
"step": 1840
},
{
"epoch": 1.0122333333333333,
"grad_norm": 0.3965112268924713,
"learning_rate": 0.00027735,
"loss": 2.0812307357788087,
"step": 1850
},
{
"epoch": 1.0124,
"grad_norm": 0.4156767725944519,
"learning_rate": 0.00027885,
"loss": 2.062709999084473,
"step": 1860
},
{
"epoch": 1.0125666666666666,
"grad_norm": 0.471309632062912,
"learning_rate": 0.00028034999999999996,
"loss": 2.068245506286621,
"step": 1870
},
{
"epoch": 1.0127333333333333,
"grad_norm": 0.4497111439704895,
"learning_rate": 0.00028185,
"loss": 2.0558444976806642,
"step": 1880
},
{
"epoch": 1.0129,
"grad_norm": 0.4482715129852295,
"learning_rate": 0.00028335,
"loss": 2.0624961853027344,
"step": 1890
},
{
"epoch": 1.0130666666666666,
"grad_norm": 0.41347697377204895,
"learning_rate": 0.00028484999999999996,
"loss": 2.0406215667724608,
"step": 1900
},
{
"epoch": 1.0132333333333334,
"grad_norm": 0.6128464341163635,
"learning_rate": 0.00028635,
"loss": 2.0728612899780274,
"step": 1910
},
{
"epoch": 1.0134,
"grad_norm": 0.38494449853897095,
"learning_rate": 0.00028785,
"loss": 2.0554380416870117,
"step": 1920
},
{
"epoch": 1.0135666666666667,
"grad_norm": 0.427548885345459,
"learning_rate": 0.00028934999999999996,
"loss": 2.034651756286621,
"step": 1930
},
{
"epoch": 1.0137333333333334,
"grad_norm": 0.43239572644233704,
"learning_rate": 0.00029085,
"loss": 2.026533317565918,
"step": 1940
},
{
"epoch": 1.0139,
"grad_norm": 0.3870188891887665,
"learning_rate": 0.00029235,
"loss": 2.03892822265625,
"step": 1950
},
{
"epoch": 1.0140666666666667,
"grad_norm": 0.406421422958374,
"learning_rate": 0.00029384999999999996,
"loss": 2.0305675506591796,
"step": 1960
},
{
"epoch": 1.0142333333333333,
"grad_norm": 0.3901691138744354,
"learning_rate": 0.00029535,
"loss": 2.0243934631347655,
"step": 1970
},
{
"epoch": 1.0144,
"grad_norm": 0.3800658881664276,
"learning_rate": 0.00029685,
"loss": 2.023728942871094,
"step": 1980
},
{
"epoch": 1.0145666666666666,
"grad_norm": 0.5150614380836487,
"learning_rate": 0.00029835,
"loss": 2.0288442611694335,
"step": 1990
},
{
"epoch": 1.0147333333333333,
"grad_norm": 0.3727407455444336,
"learning_rate": 0.00029985,
"loss": 2.025221824645996,
"step": 2000
},
{
"epoch": 1.0149,
"grad_norm": 0.4141431152820587,
"learning_rate": 0.0002999999821766214,
"loss": 2.0167604446411134,
"step": 2010
},
{
"epoch": 1.0150666666666666,
"grad_norm": 0.37171122431755066,
"learning_rate": 0.0002999999205649478,
"loss": 1.9933094024658202,
"step": 2020
},
{
"epoch": 1.0152333333333334,
"grad_norm": 0.3756411671638489,
"learning_rate": 0.0002999998149449555,
"loss": 2.0210105895996096,
"step": 2030
},
{
"epoch": 1.0154,
"grad_norm": 0.3639385402202606,
"learning_rate": 0.00029999966531667557,
"loss": 2.0091827392578123,
"step": 2040
},
{
"epoch": 1.0155666666666667,
"grad_norm": 0.8484693765640259,
"learning_rate": 0.0002999994716801518,
"loss": 2.0151844024658203,
"step": 2050
},
{
"epoch": 1.0157333333333334,
"grad_norm": 0.4140762388706207,
"learning_rate": 0.0002999992340354411,
"loss": 2.024458885192871,
"step": 2060
},
{
"epoch": 1.0159,
"grad_norm": 0.3462969660758972,
"learning_rate": 0.00029999895238261314,
"loss": 2.0107778549194335,
"step": 2070
},
{
"epoch": 1.0160666666666667,
"grad_norm": 0.3533947765827179,
"learning_rate": 0.0002999986267217506,
"loss": 2.009040641784668,
"step": 2080
},
{
"epoch": 1.0162333333333333,
"grad_norm": 0.3650343120098114,
"learning_rate": 0.00029999825705294896,
"loss": 1.992868995666504,
"step": 2090
},
{
"epoch": 1.0164,
"grad_norm": 0.3732404410839081,
"learning_rate": 0.0002999978433763167,
"loss": 1.9918212890625,
"step": 2100
},
{
"epoch": 1.0165666666666666,
"grad_norm": 0.3752574920654297,
"learning_rate": 0.0002999973856919752,
"loss": 1.99306640625,
"step": 2110
},
{
"epoch": 1.0167333333333333,
"grad_norm": 0.3408653438091278,
"learning_rate": 0.0002999968840000588,
"loss": 1.982255744934082,
"step": 2120
},
{
"epoch": 1.0169,
"grad_norm": 0.40709778666496277,
"learning_rate": 0.0002999963383007145,
"loss": 1.9962303161621093,
"step": 2130
},
{
"epoch": 1.0170666666666666,
"grad_norm": 0.45272234082221985,
"learning_rate": 0.0002999957485941026,
"loss": 1.9663330078125,
"step": 2140
},
{
"epoch": 1.0172333333333334,
"grad_norm": 0.3251003921031952,
"learning_rate": 0.00029999511488039605,
"loss": 1.9691213607788085,
"step": 2150
},
{
"epoch": 1.0174,
"grad_norm": 0.4428218603134155,
"learning_rate": 0.0002999944371597808,
"loss": 1.958636474609375,
"step": 2160
},
{
"epoch": 1.0175666666666667,
"grad_norm": 0.46182894706726074,
"learning_rate": 0.0002999937154324556,
"loss": 1.9858266830444335,
"step": 2170
},
{
"epoch": 1.0177333333333334,
"grad_norm": 0.8355538845062256,
"learning_rate": 0.00029999294969863225,
"loss": 1.9517662048339843,
"step": 2180
},
{
"epoch": 1.0179,
"grad_norm": 0.3260430097579956,
"learning_rate": 0.00029999213995853544,
"loss": 1.978273582458496,
"step": 2190
},
{
"epoch": 1.0180666666666667,
"grad_norm": 0.32824161648750305,
"learning_rate": 0.0002999912862124027,
"loss": 1.9533300399780273,
"step": 2200
},
{
"epoch": 1.0182333333333333,
"grad_norm": 0.43425774574279785,
"learning_rate": 0.00029999038846048446,
"loss": 1.9833160400390626,
"step": 2210
},
{
"epoch": 1.0184,
"grad_norm": 0.4289158284664154,
"learning_rate": 0.0002999894467030442,
"loss": 1.9894195556640626,
"step": 2220
},
{
"epoch": 1.0185666666666666,
"grad_norm": 0.33242323994636536,
"learning_rate": 0.0002999884609403582,
"loss": 1.9739130020141602,
"step": 2230
},
{
"epoch": 2.0001333333333333,
"grad_norm": 0.3483293354511261,
"learning_rate": 0.0002999874311727157,
"loss": 2.1391387939453126,
"step": 2240
},
{
"epoch": 2.0003,
"grad_norm": 0.4419577717781067,
"learning_rate": 0.0002999863574004187,
"loss": 1.9526805877685547,
"step": 2250
},
{
"epoch": 2.0004666666666666,
"grad_norm": 0.32892906665802,
"learning_rate": 0.00029998523962378236,
"loss": 1.9603885650634765,
"step": 2260
},
{
"epoch": 2.0006333333333335,
"grad_norm": 0.3562873303890228,
"learning_rate": 0.0002999840778431346,
"loss": 1.9467247009277344,
"step": 2270
},
{
"epoch": 2.0008,
"grad_norm": 0.3505720794200897,
"learning_rate": 0.00029998287205881623,
"loss": 1.9456769943237304,
"step": 2280
},
{
"epoch": 2.000966666666667,
"grad_norm": 0.4977933466434479,
"learning_rate": 0.000299981622271181,
"loss": 1.9312908172607421,
"step": 2290
},
{
"epoch": 2.001133333333333,
"grad_norm": 0.35553523898124695,
"learning_rate": 0.0002999803284805956,
"loss": 1.9541061401367188,
"step": 2300
},
{
"epoch": 2.0013,
"grad_norm": 0.3140776753425598,
"learning_rate": 0.0002999789906874397,
"loss": 1.9477697372436524,
"step": 2310
},
{
"epoch": 2.0014666666666665,
"grad_norm": 0.3130316138267517,
"learning_rate": 0.0002999776088921058,
"loss": 1.9310338973999024,
"step": 2320
},
{
"epoch": 2.0016333333333334,
"grad_norm": 0.31942018866539,
"learning_rate": 0.0002999761830949991,
"loss": 1.918303871154785,
"step": 2330
},
{
"epoch": 2.0018,
"grad_norm": 0.33003127574920654,
"learning_rate": 0.0002999747132965381,
"loss": 1.9304985046386718,
"step": 2340
},
{
"epoch": 2.0019666666666667,
"grad_norm": 0.3321942389011383,
"learning_rate": 0.0002999731994971539,
"loss": 1.911811065673828,
"step": 2350
},
{
"epoch": 2.0021333333333335,
"grad_norm": 0.3409428000450134,
"learning_rate": 0.00029997164169729074,
"loss": 1.9200147628784179,
"step": 2360
},
{
"epoch": 2.0023,
"grad_norm": 0.3252435624599457,
"learning_rate": 0.0002999700398974057,
"loss": 1.935724639892578,
"step": 2370
},
{
"epoch": 2.002466666666667,
"grad_norm": 0.31721359491348267,
"learning_rate": 0.00029996839409796857,
"loss": 1.9181198120117187,
"step": 2380
},
{
"epoch": 2.0026333333333333,
"grad_norm": 0.3215249180793762,
"learning_rate": 0.00029996670429946226,
"loss": 1.8987350463867188,
"step": 2390
},
{
"epoch": 2.0028,
"grad_norm": 0.40686535835266113,
"learning_rate": 0.0002999649705023826,
"loss": 1.9019346237182617,
"step": 2400
},
{
"epoch": 2.0029666666666666,
"grad_norm": 0.39925655722618103,
"learning_rate": 0.0002999631927072383,
"loss": 1.902694320678711,
"step": 2410
},
{
"epoch": 2.0031333333333334,
"grad_norm": 0.31708091497421265,
"learning_rate": 0.00029996137091455077,
"loss": 1.919948196411133,
"step": 2420
},
{
"epoch": 2.0033,
"grad_norm": 0.30797794461250305,
"learning_rate": 0.0002999595051248547,
"loss": 1.9114618301391602,
"step": 2430
},
{
"epoch": 2.0034666666666667,
"grad_norm": 0.34483590722084045,
"learning_rate": 0.00029995759533869734,
"loss": 1.9047100067138671,
"step": 2440
},
{
"epoch": 2.003633333333333,
"grad_norm": 0.3035229742527008,
"learning_rate": 0.0002999556415566391,
"loss": 1.9036048889160155,
"step": 2450
},
{
"epoch": 2.0038,
"grad_norm": 0.31910640001296997,
"learning_rate": 0.00029995364377925315,
"loss": 1.8925201416015625,
"step": 2460
},
{
"epoch": 2.0039666666666665,
"grad_norm": 0.31238090991973877,
"learning_rate": 0.00029995160200712564,
"loss": 1.8917516708374023,
"step": 2470
},
{
"epoch": 2.0041333333333333,
"grad_norm": 0.33110883831977844,
"learning_rate": 0.00029994951624085566,
"loss": 1.9027652740478516,
"step": 2480
},
{
"epoch": 2.0043,
"grad_norm": 0.3299698233604431,
"learning_rate": 0.000299947386481055,
"loss": 1.901352882385254,
"step": 2490
},
{
"epoch": 2.0044666666666666,
"grad_norm": 0.31205272674560547,
"learning_rate": 0.0002999452127283486,
"loss": 1.8980585098266602,
"step": 2500
},
{
"epoch": 2.0046333333333335,
"grad_norm": 0.29499128460884094,
"learning_rate": 0.0002999429949833742,
"loss": 1.8852500915527344,
"step": 2510
},
{
"epoch": 2.0048,
"grad_norm": 0.3277484178543091,
"learning_rate": 0.00029994073324678247,
"loss": 1.88719482421875,
"step": 2520
},
{
"epoch": 2.004966666666667,
"grad_norm": 0.3019053637981415,
"learning_rate": 0.000299938427519237,
"loss": 1.8691232681274415,
"step": 2530
},
{
"epoch": 2.005133333333333,
"grad_norm": 0.2999207079410553,
"learning_rate": 0.0002999360778014143,
"loss": 1.8811899185180665,
"step": 2540
},
{
"epoch": 2.0053,
"grad_norm": 0.309031218290329,
"learning_rate": 0.00029993368409400356,
"loss": 1.8907697677612305,
"step": 2550
},
{
"epoch": 2.0054666666666665,
"grad_norm": 0.30694296956062317,
"learning_rate": 0.0002999312463977073,
"loss": 1.8924570083618164,
"step": 2560
},
{
"epoch": 2.0056333333333334,
"grad_norm": 0.2894775867462158,
"learning_rate": 0.00029992876471324057,
"loss": 1.8695192337036133,
"step": 2570
},
{
"epoch": 2.0058,
"grad_norm": 0.2997623085975647,
"learning_rate": 0.00029992623904133154,
"loss": 1.8780364990234375,
"step": 2580
},
{
"epoch": 2.0059666666666667,
"grad_norm": 0.33627018332481384,
"learning_rate": 0.00029992366938272114,
"loss": 1.8802318572998047,
"step": 2590
},
{
"epoch": 2.0061333333333335,
"grad_norm": 0.305471271276474,
"learning_rate": 0.00029992105573816336,
"loss": 1.8689495086669923,
"step": 2600
},
{
"epoch": 2.0063,
"grad_norm": 0.3067426085472107,
"learning_rate": 0.000299918398108425,
"loss": 1.8797239303588866,
"step": 2610
},
{
"epoch": 2.006466666666667,
"grad_norm": 0.30758461356163025,
"learning_rate": 0.00029991569649428574,
"loss": 1.8528533935546876,
"step": 2620
},
{
"epoch": 2.0066333333333333,
"grad_norm": 0.39458268880844116,
"learning_rate": 0.00029991295089653827,
"loss": 1.8724189758300782,
"step": 2630
},
{
"epoch": 2.0068,
"grad_norm": 0.33424311876296997,
"learning_rate": 0.000299910161315988,
"loss": 1.8637022018432616,
"step": 2640
},
{
"epoch": 2.0069666666666666,
"grad_norm": 0.3854370415210724,
"learning_rate": 0.0002999073277534534,
"loss": 1.8546772003173828,
"step": 2650
},
{
"epoch": 2.0071333333333334,
"grad_norm": 0.3321525752544403,
"learning_rate": 0.00029990445020976593,
"loss": 1.8813508987426757,
"step": 2660
},
{
"epoch": 2.0073,
"grad_norm": 0.5437219142913818,
"learning_rate": 0.00029990152868576974,
"loss": 1.8557924270629882,
"step": 2670
},
{
"epoch": 2.0074666666666667,
"grad_norm": 0.29385554790496826,
"learning_rate": 0.00029989856318232195,
"loss": 1.8538352966308593,
"step": 2680
},
{
"epoch": 2.007633333333333,
"grad_norm": 0.28902414441108704,
"learning_rate": 0.0002998955537002926,
"loss": 1.867183303833008,
"step": 2690
},
{
"epoch": 2.0078,
"grad_norm": 0.3079817593097687,
"learning_rate": 0.0002998925002405647,
"loss": 1.8617700576782226,
"step": 2700
},
{
"epoch": 2.0079666666666665,
"grad_norm": 0.31161582469940186,
"learning_rate": 0.00029988940280403407,
"loss": 1.850856399536133,
"step": 2710
},
{
"epoch": 2.0081333333333333,
"grad_norm": 0.2734602689743042,
"learning_rate": 0.00029988626139160944,
"loss": 1.8329235076904298,
"step": 2720
},
{
"epoch": 2.0083,
"grad_norm": 0.29510024189949036,
"learning_rate": 0.00029988307600421245,
"loss": 1.8493413925170898,
"step": 2730
},
{
"epoch": 2.0084666666666666,
"grad_norm": 0.3101499676704407,
"learning_rate": 0.00029987984664277777,
"loss": 1.837864875793457,
"step": 2740
},
{
"epoch": 2.0086333333333335,
"grad_norm": 0.29377278685569763,
"learning_rate": 0.0002998765733082528,
"loss": 1.8344387054443358,
"step": 2750
},
{
"epoch": 2.0088,
"grad_norm": 0.367495596408844,
"learning_rate": 0.0002998732560015978,
"loss": 1.8256048202514648,
"step": 2760
},
{
"epoch": 2.008966666666667,
"grad_norm": 0.8747866749763489,
"learning_rate": 0.00029986989472378613,
"loss": 1.8315084457397461,
"step": 2770
},
{
"epoch": 2.009133333333333,
"grad_norm": 0.3131991922855377,
"learning_rate": 0.000299866489475804,
"loss": 1.8437740325927734,
"step": 2780
},
{
"epoch": 2.0093,
"grad_norm": 0.30495911836624146,
"learning_rate": 0.00029986304025865035,
"loss": 1.8268943786621095,
"step": 2790
},
{
"epoch": 2.0094666666666665,
"grad_norm": 0.2781303822994232,
"learning_rate": 0.00029985954707333724,
"loss": 1.8243549346923829,
"step": 2800
},
{
"epoch": 2.0096333333333334,
"grad_norm": 0.31482452154159546,
"learning_rate": 0.00029985600992088945,
"loss": 1.8155588150024413,
"step": 2810
},
{
"epoch": 2.0098,
"grad_norm": 0.3138728141784668,
"learning_rate": 0.00029985242880234484,
"loss": 1.811925506591797,
"step": 2820
},
{
"epoch": 2.0099666666666667,
"grad_norm": 0.2919290065765381,
"learning_rate": 0.00029984880371875395,
"loss": 1.8293731689453125,
"step": 2830
},
{
"epoch": 2.0101333333333335,
"grad_norm": 0.2963739335536957,
"learning_rate": 0.00029984513467118043,
"loss": 1.8097396850585938,
"step": 2840
},
{
"epoch": 2.0103,
"grad_norm": 0.2968748211860657,
"learning_rate": 0.00029984142166070073,
"loss": 1.8181087493896484,
"step": 2850
},
{
"epoch": 2.010466666666667,
"grad_norm": 0.32753726840019226,
"learning_rate": 0.0002998376646884042,
"loss": 1.8085901260375976,
"step": 2860
},
{
"epoch": 2.0106333333333333,
"grad_norm": 0.332154244184494,
"learning_rate": 0.00029983386375539306,
"loss": 1.8173376083374024,
"step": 2870
},
{
"epoch": 2.0108,
"grad_norm": 0.30764803290367126,
"learning_rate": 0.0002998300188627825,
"loss": 1.8258855819702149,
"step": 2880
},
{
"epoch": 2.0109666666666666,
"grad_norm": 0.2808578312397003,
"learning_rate": 0.0002998261300117005,
"loss": 1.824087905883789,
"step": 2890
},
{
"epoch": 2.0111333333333334,
"grad_norm": 0.2978729009628296,
"learning_rate": 0.00029982219720328814,
"loss": 1.7921815872192384,
"step": 2900
},
{
"epoch": 2.0113,
"grad_norm": 0.2905280292034149,
"learning_rate": 0.0002998182204386991,
"loss": 1.8095476150512695,
"step": 2910
},
{
"epoch": 2.0114666666666667,
"grad_norm": 0.2959212064743042,
"learning_rate": 0.0002998141997191003,
"loss": 1.8007658004760743,
"step": 2920
},
{
"epoch": 2.011633333333333,
"grad_norm": 0.29560765624046326,
"learning_rate": 0.0002998101350456712,
"loss": 1.8038867950439452,
"step": 2930
},
{
"epoch": 2.0118,
"grad_norm": 0.35846570134162903,
"learning_rate": 0.0002998060264196044,
"loss": 1.8145381927490234,
"step": 2940
},
{
"epoch": 2.0119666666666665,
"grad_norm": 0.2926178276538849,
"learning_rate": 0.00029980187384210543,
"loss": 1.7917072296142578,
"step": 2950
},
{
"epoch": 2.0121333333333333,
"grad_norm": 0.3068349063396454,
"learning_rate": 0.00029979767731439243,
"loss": 1.7924629211425782,
"step": 2960
},
{
"epoch": 2.0123,
"grad_norm": 0.2997657358646393,
"learning_rate": 0.0002997934368376967,
"loss": 1.8075037002563477,
"step": 2970
},
{
"epoch": 2.0124666666666666,
"grad_norm": 0.30741429328918457,
"learning_rate": 0.0002997891524132623,
"loss": 1.7943035125732423,
"step": 2980
},
{
"epoch": 2.0126333333333335,
"grad_norm": 0.2987091541290283,
"learning_rate": 0.0002997848240423464,
"loss": 1.8019412994384765,
"step": 2990
},
{
"epoch": 2.0128,
"grad_norm": 0.30597877502441406,
"learning_rate": 0.0002997804517262187,
"loss": 1.7804391860961915,
"step": 3000
},
{
"epoch": 2.012966666666667,
"grad_norm": 0.30425113439559937,
"learning_rate": 0.00029977603546616204,
"loss": 1.7919233322143555,
"step": 3010
},
{
"epoch": 2.013133333333333,
"grad_norm": 0.29537034034729004,
"learning_rate": 0.0002997715752634722,
"loss": 1.7906463623046875,
"step": 3020
},
{
"epoch": 2.0133,
"grad_norm": 0.31160587072372437,
"learning_rate": 0.00029976707111945765,
"loss": 1.8006792068481445,
"step": 3030
},
{
"epoch": 2.0134666666666665,
"grad_norm": 0.2768838107585907,
"learning_rate": 0.00029976252303543985,
"loss": 1.7734039306640625,
"step": 3040
},
{
"epoch": 2.0136333333333334,
"grad_norm": 0.34434473514556885,
"learning_rate": 0.0002997579310127532,
"loss": 1.790645217895508,
"step": 3050
},
{
"epoch": 2.0138,
"grad_norm": 0.3175096809864044,
"learning_rate": 0.000299753295052745,
"loss": 1.776620101928711,
"step": 3060
},
{
"epoch": 2.0139666666666667,
"grad_norm": 0.27720019221305847,
"learning_rate": 0.00029974861515677525,
"loss": 1.7714349746704101,
"step": 3070
},
{
"epoch": 2.0141333333333336,
"grad_norm": 0.3595098853111267,
"learning_rate": 0.00029974389132621715,
"loss": 1.7710906982421875,
"step": 3080
},
{
"epoch": 2.0143,
"grad_norm": 0.33949705958366394,
"learning_rate": 0.0002997391235624565,
"loss": 1.7787233352661134,
"step": 3090
},
{
"epoch": 2.014466666666667,
"grad_norm": 0.29317399859428406,
"learning_rate": 0.0002997343118668921,
"loss": 1.7712892532348632,
"step": 3100
},
{
"epoch": 2.0146333333333333,
"grad_norm": 0.29205620288848877,
"learning_rate": 0.0002997294562409357,
"loss": 1.7849128723144532,
"step": 3110
},
{
"epoch": 2.0148,
"grad_norm": 0.3042508065700531,
"learning_rate": 0.00029972455668601187,
"loss": 1.7632179260253906,
"step": 3120
},
{
"epoch": 2.0149666666666666,
"grad_norm": 0.2817091941833496,
"learning_rate": 0.0002997196132035581,
"loss": 1.7586166381835937,
"step": 3130
},
{
"epoch": 2.0151333333333334,
"grad_norm": 0.2994356155395508,
"learning_rate": 0.00029971462579502477,
"loss": 1.765203094482422,
"step": 3140
},
{
"epoch": 2.0153,
"grad_norm": 0.34546980261802673,
"learning_rate": 0.00029970959446187507,
"loss": 1.7686321258544921,
"step": 3150
},
{
"epoch": 2.0154666666666667,
"grad_norm": 0.29304182529449463,
"learning_rate": 0.0002997045192055852,
"loss": 1.7579254150390624,
"step": 3160
},
{
"epoch": 2.015633333333333,
"grad_norm": 0.2991744577884674,
"learning_rate": 0.00029969940002764415,
"loss": 1.7774200439453125,
"step": 3170
},
{
"epoch": 2.0158,
"grad_norm": 0.2959384024143219,
"learning_rate": 0.0002996942369295538,
"loss": 1.7614059448242188,
"step": 3180
},
{
"epoch": 2.0159666666666665,
"grad_norm": 0.27773720026016235,
"learning_rate": 0.000299689029912829,
"loss": 1.7697029113769531,
"step": 3190
},
{
"epoch": 2.0161333333333333,
"grad_norm": 0.32048192620277405,
"learning_rate": 0.0002996837789789975,
"loss": 1.7673730850219727,
"step": 3200
},
{
"epoch": 2.0163,
"grad_norm": 0.29490071535110474,
"learning_rate": 0.0002996784841295997,
"loss": 1.754742431640625,
"step": 3210
},
{
"epoch": 2.0164666666666666,
"grad_norm": 0.30989086627960205,
"learning_rate": 0.0002996731453661891,
"loss": 1.7523395538330078,
"step": 3220
},
{
"epoch": 2.0166333333333335,
"grad_norm": 0.28182804584503174,
"learning_rate": 0.0002996677626903321,
"loss": 1.761356735229492,
"step": 3230
},
{
"epoch": 2.0168,
"grad_norm": 0.3071010112762451,
"learning_rate": 0.0002996623361036079,
"loss": 1.7489625930786132,
"step": 3240
},
{
"epoch": 2.016966666666667,
"grad_norm": 0.3243575096130371,
"learning_rate": 0.0002996568656076085,
"loss": 1.7530878067016602,
"step": 3250
},
{
"epoch": 2.0171333333333332,
"grad_norm": 0.30851274728775024,
"learning_rate": 0.0002996513512039391,
"loss": 1.7365777969360352,
"step": 3260
},
{
"epoch": 2.0173,
"grad_norm": 0.31781646609306335,
"learning_rate": 0.0002996457928942173,
"loss": 1.7379327774047852,
"step": 3270
},
{
"epoch": 2.0174666666666665,
"grad_norm": 0.30550727248191833,
"learning_rate": 0.0002996401906800741,
"loss": 1.748966598510742,
"step": 3280
},
{
"epoch": 2.0176333333333334,
"grad_norm": 0.30173051357269287,
"learning_rate": 0.0002996345445631529,
"loss": 1.7401952743530273,
"step": 3290
},
{
"epoch": 2.0178,
"grad_norm": 0.29951369762420654,
"learning_rate": 0.0002996288545451103,
"loss": 1.7343709945678711,
"step": 3300
},
{
"epoch": 2.0179666666666667,
"grad_norm": 0.27360084652900696,
"learning_rate": 0.0002996231206276158,
"loss": 1.7397294998168946,
"step": 3310
},
{
"epoch": 2.018133333333333,
"grad_norm": 0.30762919783592224,
"learning_rate": 0.00029961734281235155,
"loss": 1.7346086502075195,
"step": 3320
},
{
"epoch": 2.0183,
"grad_norm": 0.30437207221984863,
"learning_rate": 0.0002996115211010127,
"loss": 1.7656745910644531,
"step": 3330
},
{
"epoch": 2.018466666666667,
"grad_norm": 0.2910079061985016,
"learning_rate": 0.0002996056554953073,
"loss": 1.7637361526489257,
"step": 3340
},
{
"epoch": 3.0000333333333336,
"grad_norm": 0.5841907858848572,
"learning_rate": 0.00029959974599695616,
"loss": 1.8916559219360352,
"step": 3350
},
{
"epoch": 3.0002,
"grad_norm": 0.30715465545654297,
"learning_rate": 0.00029959379260769325,
"loss": 1.734269905090332,
"step": 3360
},
{
"epoch": 3.000366666666667,
"grad_norm": 0.2890932559967041,
"learning_rate": 0.00029958779532926504,
"loss": 1.737888717651367,
"step": 3370
},
{
"epoch": 3.0005333333333333,
"grad_norm": 0.2667240500450134,
"learning_rate": 0.00029958175416343124,
"loss": 1.7341463088989257,
"step": 3380
},
{
"epoch": 3.0007,
"grad_norm": 0.28347086906433105,
"learning_rate": 0.00029957566911196414,
"loss": 1.7401607513427735,
"step": 3390
},
{
"epoch": 3.0008666666666666,
"grad_norm": 0.29408538341522217,
"learning_rate": 0.00029956954017664903,
"loss": 1.7225614547729493,
"step": 3400
},
{
"epoch": 3.0010333333333334,
"grad_norm": 0.30668047070503235,
"learning_rate": 0.0002995633673592841,
"loss": 1.7230432510375977,
"step": 3410
},
{
"epoch": 3.0012,
"grad_norm": 0.2996319830417633,
"learning_rate": 0.00029955715066168044,
"loss": 1.7335132598876952,
"step": 3420
},
{
"epoch": 3.0013666666666667,
"grad_norm": 0.2857902944087982,
"learning_rate": 0.00029955089008566185,
"loss": 1.7325157165527343,
"step": 3430
},
{
"epoch": 3.001533333333333,
"grad_norm": 0.3037016987800598,
"learning_rate": 0.0002995445856330652,
"loss": 1.7197406768798829,
"step": 3440
},
{
"epoch": 3.0017,
"grad_norm": 0.2963092029094696,
"learning_rate": 0.0002995382373057401,
"loss": 1.722641372680664,
"step": 3450
},
{
"epoch": 3.0018666666666665,
"grad_norm": 0.3075854182243347,
"learning_rate": 0.0002995318451055492,
"loss": 1.7070884704589844,
"step": 3460
},
{
"epoch": 3.0020333333333333,
"grad_norm": 0.334443062543869,
"learning_rate": 0.0002995254090343677,
"loss": 1.7077157974243165,
"step": 3470
},
{
"epoch": 3.0022,
"grad_norm": 0.3198912441730499,
"learning_rate": 0.0002995189290940839,
"loss": 1.730832290649414,
"step": 3480
},
{
"epoch": 3.0023666666666666,
"grad_norm": 0.29788824915885925,
"learning_rate": 0.00029951240528659914,
"loss": 1.717129898071289,
"step": 3490
},
{
"epoch": 3.0025333333333335,
"grad_norm": 0.31315430998802185,
"learning_rate": 0.0002995058376138273,
"loss": 1.7042694091796875,
"step": 3500
},
{
"epoch": 3.0027,
"grad_norm": 0.2997714579105377,
"learning_rate": 0.00029949922607769525,
"loss": 1.6981151580810547,
"step": 3510
},
{
"epoch": 3.002866666666667,
"grad_norm": 0.49318060278892517,
"learning_rate": 0.00029949257068014273,
"loss": 1.6965030670166015,
"step": 3520
},
{
"epoch": 3.003033333333333,
"grad_norm": 0.302224338054657,
"learning_rate": 0.0002994858714231224,
"loss": 1.716214942932129,
"step": 3530
},
{
"epoch": 3.0032,
"grad_norm": 0.33403024077415466,
"learning_rate": 0.00029947912830859976,
"loss": 1.7219301223754884,
"step": 3540
},
{
"epoch": 3.0033666666666665,
"grad_norm": 0.3228297233581543,
"learning_rate": 0.0002994723413385531,
"loss": 1.7075923919677733,
"step": 3550
},
{
"epoch": 3.0035333333333334,
"grad_norm": 0.2840413749217987,
"learning_rate": 0.0002994655105149737,
"loss": 1.7017856597900392,
"step": 3560
},
{
"epoch": 3.0037,
"grad_norm": 0.2929494380950928,
"learning_rate": 0.00029945863583986563,
"loss": 1.7047229766845704,
"step": 3570
},
{
"epoch": 3.0038666666666667,
"grad_norm": 0.2888146638870239,
"learning_rate": 0.0002994517173152459,
"loss": 1.696831512451172,
"step": 3580
},
{
"epoch": 3.004033333333333,
"grad_norm": 0.3097553849220276,
"learning_rate": 0.00029944475494314424,
"loss": 1.6922567367553711,
"step": 3590
},
{
"epoch": 3.0042,
"grad_norm": 0.2964254915714264,
"learning_rate": 0.0002994377487256034,
"loss": 1.7038848876953125,
"step": 3600
},
{
"epoch": 3.004366666666667,
"grad_norm": 0.33456939458847046,
"learning_rate": 0.00029943069866467884,
"loss": 1.716048240661621,
"step": 3610
},
{
"epoch": 3.0045333333333333,
"grad_norm": 0.315708190202713,
"learning_rate": 0.00029942360476243907,
"loss": 1.699909782409668,
"step": 3620
},
{
"epoch": 3.0047,
"grad_norm": 0.31560301780700684,
"learning_rate": 0.0002994164670209653,
"loss": 1.6968250274658203,
"step": 3630
},
{
"epoch": 3.0048666666666666,
"grad_norm": 0.30578115582466125,
"learning_rate": 0.0002994092854423517,
"loss": 1.6915258407592773,
"step": 3640
},
{
"epoch": 3.0050333333333334,
"grad_norm": 0.295392781496048,
"learning_rate": 0.0002994020600287052,
"loss": 1.6869081497192382,
"step": 3650
},
{
"epoch": 0.00016666666666666666,
"grad_norm": 1.5778170824050903,
"learning_rate": 0.00029849904372022663,
"loss": 3.774449920654297,
"step": 3660
},
{
"epoch": 0.0003333333333333333,
"grad_norm": 0.7220685482025146,
"learning_rate": 0.000298487751905002,
"loss": 3.307727813720703,
"step": 3670
},
{
"epoch": 0.0005,
"grad_norm": 0.6823899149894714,
"learning_rate": 0.00029847641798936566,
"loss": 3.308191680908203,
"step": 3680
},
{
"epoch": 0.0006666666666666666,
"grad_norm": 0.7152085304260254,
"learning_rate": 0.00029846504197653096,
"loss": 3.309762191772461,
"step": 3690
},
{
"epoch": 0.0008333333333333334,
"grad_norm": 0.6293660998344421,
"learning_rate": 0.0002984536238697233,
"loss": 3.3758075714111326,
"step": 3700
},
{
"epoch": 0.001,
"grad_norm": 0.7295067310333252,
"learning_rate": 0.0002984421636721801,
"loss": 3.3281707763671875,
"step": 3710
},
{
"epoch": 0.0011666666666666668,
"grad_norm": 0.6338008642196655,
"learning_rate": 0.00029843066138715064,
"loss": 3.3392311096191407,
"step": 3720
},
{
"epoch": 0.0013333333333333333,
"grad_norm": 0.6514250636100769,
"learning_rate": 0.0002984191170178961,
"loss": 3.232216644287109,
"step": 3730
},
{
"epoch": 0.0015,
"grad_norm": 0.6614907383918762,
"learning_rate": 0.00029840753056768965,
"loss": 3.2421695709228517,
"step": 3740
},
{
"epoch": 0.0016666666666666668,
"grad_norm": 0.639617919921875,
"learning_rate": 0.00029839590203981645,
"loss": 3.2931827545166015,
"step": 3750
},
{
"epoch": 0.0018333333333333333,
"grad_norm": 0.5634158253669739,
"learning_rate": 0.0002983842314375733,
"loss": 3.185129737854004,
"step": 3760
},
{
"epoch": 0.002,
"grad_norm": 0.6283559799194336,
"learning_rate": 0.00029837251876426937,
"loss": 3.244803237915039,
"step": 3770
},
{
"epoch": 0.0021666666666666666,
"grad_norm": 0.5802392959594727,
"learning_rate": 0.00029836076402322545,
"loss": 3.0983781814575195,
"step": 3780
},
{
"epoch": 0.0023333333333333335,
"grad_norm": 0.5623877644538879,
"learning_rate": 0.0002983489672177743,
"loss": 2.968458557128906,
"step": 3790
},
{
"epoch": 0.0025,
"grad_norm": 0.547167181968689,
"learning_rate": 0.00029833712835126064,
"loss": 2.9178205490112306,
"step": 3800
},
{
"epoch": 0.0026666666666666666,
"grad_norm": 0.5496246218681335,
"learning_rate": 0.0002983252474270411,
"loss": 3.0116304397583007,
"step": 3810
},
{
"epoch": 0.0028333333333333335,
"grad_norm": 0.6299962997436523,
"learning_rate": 0.0002983133244484844,
"loss": 3.1483575820922853,
"step": 3820
},
{
"epoch": 0.003,
"grad_norm": 0.6428859233856201,
"learning_rate": 0.0002983013594189709,
"loss": 3.208842086791992,
"step": 3830
},
{
"epoch": 0.0031666666666666666,
"grad_norm": 0.5592418909072876,
"learning_rate": 0.00029828935234189294,
"loss": 3.186692810058594,
"step": 3840
},
{
"epoch": 0.0033333333333333335,
"grad_norm": 0.6330075860023499,
"learning_rate": 0.0002982773032206551,
"loss": 3.142811393737793,
"step": 3850
},
{
"epoch": 0.0035,
"grad_norm": 0.5640964508056641,
"learning_rate": 0.00029826521205867344,
"loss": 3.191600036621094,
"step": 3860
},
{
"epoch": 0.0036666666666666666,
"grad_norm": 0.5621790885925293,
"learning_rate": 0.00029825307885937623,
"loss": 3.1665826797485352,
"step": 3870
},
{
"epoch": 0.003833333333333333,
"grad_norm": 0.555362343788147,
"learning_rate": 0.00029824090362620356,
"loss": 3.2408042907714845,
"step": 3880
},
{
"epoch": 0.004,
"grad_norm": 0.5904632210731506,
"learning_rate": 0.0002982286863626075,
"loss": 3.3447166442871095,
"step": 3890
},
{
"epoch": 0.004166666666666667,
"grad_norm": 0.5641190409660339,
"learning_rate": 0.00029821642707205184,
"loss": 3.256772994995117,
"step": 3900
},
{
"epoch": 0.004333333333333333,
"grad_norm": 0.57473224401474,
"learning_rate": 0.00029820412575801256,
"loss": 3.270028305053711,
"step": 3910
},
{
"epoch": 0.0045,
"grad_norm": 0.5857067108154297,
"learning_rate": 0.00029819178242397734,
"loss": 3.238531494140625,
"step": 3920
},
{
"epoch": 0.004666666666666667,
"grad_norm": 0.5126656293869019,
"learning_rate": 0.00029817939707344593,
"loss": 3.300303268432617,
"step": 3930
},
{
"epoch": 0.004833333333333334,
"grad_norm": 0.5652568340301514,
"learning_rate": 0.00029816696970992986,
"loss": 3.2070068359375,
"step": 3940
},
{
"epoch": 0.005,
"grad_norm": 0.4956953227519989,
"learning_rate": 0.0002981545003369527,
"loss": 3.2531665802001952,
"step": 3950
},
{
"epoch": 0.005166666666666667,
"grad_norm": 0.5084554553031921,
"learning_rate": 0.0002981419889580498,
"loss": 3.066339874267578,
"step": 3960
},
{
"epoch": 0.005333333333333333,
"grad_norm": 0.5247703790664673,
"learning_rate": 0.00029812943557676856,
"loss": 3.1590555191040037,
"step": 3970
},
{
"epoch": 0.0055,
"grad_norm": 0.5014616250991821,
"learning_rate": 0.0002981168401966681,
"loss": 3.192496490478516,
"step": 3980
},
{
"epoch": 0.005666666666666667,
"grad_norm": 0.5336611866950989,
"learning_rate": 0.0002981042028213197,
"loss": 3.323842239379883,
"step": 3990
},
{
"epoch": 0.005833333333333334,
"grad_norm": 0.5619737505912781,
"learning_rate": 0.00029809152345430627,
"loss": 3.190663719177246,
"step": 4000
},
{
"epoch": 0.006,
"grad_norm": 0.5566272139549255,
"learning_rate": 0.00029807880209922283,
"loss": 3.083289909362793,
"step": 4010
},
{
"epoch": 0.006166666666666667,
"grad_norm": 0.5660613179206848,
"learning_rate": 0.0002980660387596763,
"loss": 3.2430679321289064,
"step": 4020
},
{
"epoch": 0.006333333333333333,
"grad_norm": 0.5177736282348633,
"learning_rate": 0.0002980532334392853,
"loss": 3.178599548339844,
"step": 4030
},
{
"epoch": 0.0065,
"grad_norm": 0.5329192280769348,
"learning_rate": 0.0002980403861416806,
"loss": 3.1674598693847655,
"step": 4040
},
{
"epoch": 0.006666666666666667,
"grad_norm": 0.6663591265678406,
"learning_rate": 0.0002980274968705048,
"loss": 3.0155174255371096,
"step": 4050
},
{
"epoch": 0.006833333333333334,
"grad_norm": 0.4993612766265869,
"learning_rate": 0.00029801456562941227,
"loss": 3.066207695007324,
"step": 4060
},
{
"epoch": 0.007,
"grad_norm": 0.5428812503814697,
"learning_rate": 0.00029800159242206935,
"loss": 3.10704345703125,
"step": 4070
},
{
"epoch": 0.007166666666666667,
"grad_norm": 0.513583242893219,
"learning_rate": 0.00029798857725215445,
"loss": 3.184256172180176,
"step": 4080
},
{
"epoch": 0.007333333333333333,
"grad_norm": 0.5102922320365906,
"learning_rate": 0.0002979755201233576,
"loss": 3.0215587615966797,
"step": 4090
},
{
"epoch": 0.0075,
"grad_norm": 0.521461009979248,
"learning_rate": 0.00029796242103938096,
"loss": 3.1003379821777344,
"step": 4100
},
{
"epoch": 0.007666666666666666,
"grad_norm": 0.4812868535518646,
"learning_rate": 0.00029794928000393843,
"loss": 3.1397796630859376,
"step": 4110
},
{
"epoch": 0.007833333333333333,
"grad_norm": 0.5282142758369446,
"learning_rate": 0.0002979360970207558,
"loss": 3.193585968017578,
"step": 4120
},
{
"epoch": 0.008,
"grad_norm": 0.5009388327598572,
"learning_rate": 0.00029792287209357097,
"loss": 3.1340686798095705,
"step": 4130
},
{
"epoch": 0.008166666666666666,
"grad_norm": 0.6340370774269104,
"learning_rate": 0.00029790960522613343,
"loss": 3.0806493759155273,
"step": 4140
},
{
"epoch": 0.008333333333333333,
"grad_norm": 0.5030133128166199,
"learning_rate": 0.0002978962964222048,
"loss": 3.170300102233887,
"step": 4150
},
{
"epoch": 0.0085,
"grad_norm": 0.5144831538200378,
"learning_rate": 0.0002978829456855584,
"loss": 3.3535289764404297,
"step": 4160
},
{
"epoch": 0.008666666666666666,
"grad_norm": 0.5370882153511047,
"learning_rate": 0.0002978695530199796,
"loss": 3.2686225891113283,
"step": 4170
},
{
"epoch": 0.008833333333333334,
"grad_norm": 0.5093417167663574,
"learning_rate": 0.0002978561184292656,
"loss": 3.142299270629883,
"step": 4180
},
{
"epoch": 0.009,
"grad_norm": 0.5327890515327454,
"learning_rate": 0.0002978426419172255,
"loss": 3.1478483200073244,
"step": 4190
},
{
"epoch": 0.009166666666666667,
"grad_norm": 0.5170514583587646,
"learning_rate": 0.0002978291234876802,
"loss": 3.2556007385253904,
"step": 4200
},
{
"epoch": 0.009333333333333334,
"grad_norm": 0.5124508142471313,
"learning_rate": 0.00029781556314446264,
"loss": 3.3029640197753904,
"step": 4210
},
{
"epoch": 0.0095,
"grad_norm": 0.577273428440094,
"learning_rate": 0.0002978019608914175,
"loss": 3.2595043182373047,
"step": 4220
},
{
"epoch": 0.009666666666666667,
"grad_norm": 0.5103987455368042,
"learning_rate": 0.00029778831673240127,
"loss": 3.243117904663086,
"step": 4230
},
{
"epoch": 0.009833333333333333,
"grad_norm": 0.5025808215141296,
"learning_rate": 0.00029777463067128267,
"loss": 3.060438537597656,
"step": 4240
},
{
"epoch": 0.01,
"grad_norm": 0.44690072536468506,
"learning_rate": 0.000297760902711942,
"loss": 3.0471775054931642,
"step": 4250
},
{
"epoch": 0.010166666666666666,
"grad_norm": 0.467395544052124,
"learning_rate": 0.00029774713285827143,
"loss": 2.98464298248291,
"step": 4260
},
{
"epoch": 0.010333333333333333,
"grad_norm": 0.5547831058502197,
"learning_rate": 0.00029773332111417524,
"loss": 3.1703718185424803,
"step": 4270
},
{
"epoch": 0.0105,
"grad_norm": 0.5768072009086609,
"learning_rate": 0.0002977194674835693,
"loss": 3.301234817504883,
"step": 4280
},
{
"epoch": 0.010666666666666666,
"grad_norm": 0.45032358169555664,
"learning_rate": 0.00029770557197038164,
"loss": 3.2695812225341796,
"step": 4290
},
{
"epoch": 0.010833333333333334,
"grad_norm": 0.46786898374557495,
"learning_rate": 0.0002976916345785519,
"loss": 3.2581401824951173,
"step": 4300
},
{
"epoch": 0.011,
"grad_norm": 0.4445962905883789,
"learning_rate": 0.0002976776553120319,
"loss": 3.285322570800781,
"step": 4310
},
{
"epoch": 0.011166666666666667,
"grad_norm": 0.47308477759361267,
"learning_rate": 0.00029766363417478494,
"loss": 3.2954906463623046,
"step": 4320
},
{
"epoch": 0.011333333333333334,
"grad_norm": 0.48444363474845886,
"learning_rate": 0.0002976495711707865,
"loss": 3.3107620239257813,
"step": 4330
},
{
"epoch": 0.0115,
"grad_norm": 0.5089991092681885,
"learning_rate": 0.00029763546630402386,
"loss": 3.2996601104736327,
"step": 4340
},
{
"epoch": 0.011666666666666667,
"grad_norm": 0.46392160654067993,
"learning_rate": 0.000297621319578496,
"loss": 3.358951950073242,
"step": 4350
},
{
"epoch": 0.011833333333333333,
"grad_norm": 0.47319114208221436,
"learning_rate": 0.00029760713099821415,
"loss": 3.215884780883789,
"step": 4360
},
{
"epoch": 0.012,
"grad_norm": 0.4464090168476105,
"learning_rate": 0.00029759290056720095,
"loss": 2.9921100616455076,
"step": 4370
},
{
"epoch": 0.012166666666666666,
"grad_norm": 0.4325127601623535,
"learning_rate": 0.00029757862828949124,
"loss": 2.7973331451416015,
"step": 4380
},
{
"epoch": 0.012333333333333333,
"grad_norm": 0.46863001585006714,
"learning_rate": 0.00029756431416913157,
"loss": 2.923106384277344,
"step": 4390
},
{
"epoch": 0.0125,
"grad_norm": 0.4626036286354065,
"learning_rate": 0.00029754995821018045,
"loss": 3.0310813903808596,
"step": 4400
},
{
"epoch": 0.012666666666666666,
"grad_norm": 0.4916419982910156,
"learning_rate": 0.0002975355604167081,
"loss": 3.093164825439453,
"step": 4410
},
{
"epoch": 0.012833333333333334,
"grad_norm": 0.4526589810848236,
"learning_rate": 0.0002975211207927967,
"loss": 3.295928955078125,
"step": 4420
},
{
"epoch": 0.013,
"grad_norm": 0.4669049084186554,
"learning_rate": 0.00029750663934254034,
"loss": 3.2381587982177735,
"step": 4430
},
{
"epoch": 0.013166666666666667,
"grad_norm": 0.46921107172966003,
"learning_rate": 0.0002974921160700449,
"loss": 3.1719486236572267,
"step": 4440
},
{
"epoch": 0.013333333333333334,
"grad_norm": 0.5220564007759094,
"learning_rate": 0.0002974775509794282,
"loss": 3.2720565795898438,
"step": 4450
},
{
"epoch": 0.0135,
"grad_norm": 0.4780034124851227,
"learning_rate": 0.0002974629440748197,
"loss": 3.291085433959961,
"step": 4460
},
{
"epoch": 0.013666666666666667,
"grad_norm": 0.4605162739753723,
"learning_rate": 0.00029744829536036097,
"loss": 3.2416168212890626,
"step": 4470
},
{
"epoch": 0.013833333333333333,
"grad_norm": 0.4649753272533417,
"learning_rate": 0.0002974336048402053,
"loss": 3.183604049682617,
"step": 4480
},
{
"epoch": 0.014,
"grad_norm": 0.444002240896225,
"learning_rate": 0.00029741887251851786,
"loss": 3.1085399627685546,
"step": 4490
},
{
"epoch": 0.014166666666666666,
"grad_norm": 0.4448355436325073,
"learning_rate": 0.00029740409839947566,
"loss": 3.116347885131836,
"step": 4500
},
{
"epoch": 0.014333333333333333,
"grad_norm": 0.4390920102596283,
"learning_rate": 0.00029738928248726764,
"loss": 3.1324329376220703,
"step": 4510
},
{
"epoch": 0.0145,
"grad_norm": 0.4476589858531952,
"learning_rate": 0.0002973744247860944,
"loss": 3.1119213104248047,
"step": 4520
},
{
"epoch": 0.014666666666666666,
"grad_norm": 0.4517284035682678,
"learning_rate": 0.0002973595253001687,
"loss": 3.0000232696533202,
"step": 4530
},
{
"epoch": 0.014833333333333334,
"grad_norm": 0.4266926646232605,
"learning_rate": 0.00029734458403371473,
"loss": 3.0543354034423826,
"step": 4540
},
{
"epoch": 0.015,
"grad_norm": 0.465181440114975,
"learning_rate": 0.00029732960099096894,
"loss": 3.1297534942626952,
"step": 4550
},
{
"epoch": 0.015166666666666667,
"grad_norm": 0.44289475679397583,
"learning_rate": 0.0002973145761761793,
"loss": 3.1308570861816407,
"step": 4560
},
{
"epoch": 0.015333333333333332,
"grad_norm": 0.45259231328964233,
"learning_rate": 0.00029729950959360587,
"loss": 3.113242340087891,
"step": 4570
},
{
"epoch": 0.0155,
"grad_norm": 0.49212995171546936,
"learning_rate": 0.00029728440124752043,
"loss": 3.1158754348754885,
"step": 4580
},
{
"epoch": 0.015666666666666666,
"grad_norm": 0.44125884771347046,
"learning_rate": 0.00029726925114220655,
"loss": 3.074172782897949,
"step": 4590
},
{
"epoch": 0.015833333333333335,
"grad_norm": 0.445905864238739,
"learning_rate": 0.0002972540592819598,
"loss": 3.08502140045166,
"step": 4600
},
{
"epoch": 0.016,
"grad_norm": 0.4353269934654236,
"learning_rate": 0.00029723882567108745,
"loss": 2.9679975509643555,
"step": 4610
},
{
"epoch": 0.016166666666666666,
"grad_norm": 0.4166252315044403,
"learning_rate": 0.0002972235503139086,
"loss": 2.9368864059448243,
"step": 4620
},
{
"epoch": 0.01633333333333333,
"grad_norm": 0.4455665946006775,
"learning_rate": 0.0002972082332147543,
"loss": 3.0976829528808594,
"step": 4630
},
{
"epoch": 0.0165,
"grad_norm": 0.4223819673061371,
"learning_rate": 0.0002971928743779674,
"loss": 3.026397132873535,
"step": 4640
},
{
"epoch": 0.016666666666666666,
"grad_norm": 0.441989541053772,
"learning_rate": 0.0002971774738079025,
"loss": 3.0403167724609377,
"step": 4650
},
{
"epoch": 0.016833333333333332,
"grad_norm": 0.435830295085907,
"learning_rate": 0.0002971620315089261,
"loss": 3.1183338165283203,
"step": 4660
},
{
"epoch": 0.017,
"grad_norm": 0.4655296802520752,
"learning_rate": 0.00029714654748541657,
"loss": 3.1077341079711913,
"step": 4670
},
{
"epoch": 0.017166666666666667,
"grad_norm": 0.4390181601047516,
"learning_rate": 0.000297131021741764,
"loss": 3.0585168838500976,
"step": 4680
},
{
"epoch": 0.017333333333333333,
"grad_norm": 0.46241506934165955,
"learning_rate": 0.0002971154542823704,
"loss": 3.0429901123046874,
"step": 4690
},
{
"epoch": 0.0175,
"grad_norm": 0.42871007323265076,
"learning_rate": 0.00029709984511164955,
"loss": 3.0659711837768553,
"step": 4700
},
{
"epoch": 0.017666666666666667,
"grad_norm": 0.4105594754219055,
"learning_rate": 0.00029708419423402717,
"loss": 3.0605178833007813,
"step": 4710
},
{
"epoch": 0.017833333333333333,
"grad_norm": 0.45519882440567017,
"learning_rate": 0.0002970685016539406,
"loss": 3.048724365234375,
"step": 4720
},
{
"epoch": 0.018,
"grad_norm": 0.42550894618034363,
"learning_rate": 0.0002970527673758392,
"loss": 2.9582677841186524,
"step": 4730
},
{
"epoch": 0.018166666666666668,
"grad_norm": 0.4230113923549652,
"learning_rate": 0.00029703699140418404,
"loss": 3.0614328384399414,
"step": 4740
},
{
"epoch": 0.018333333333333333,
"grad_norm": 0.474998414516449,
"learning_rate": 0.0002970211737434481,
"loss": 3.1223560333251954,
"step": 4750
},
{
"epoch": 0.0185,
"grad_norm": 0.41748204827308655,
"learning_rate": 0.00029700531439811603,
"loss": 3.1135513305664064,
"step": 4760
},
{
"epoch": 0.018666666666666668,
"grad_norm": 0.48395001888275146,
"learning_rate": 0.0002969894133726845,
"loss": 2.9970415115356444,
"step": 4770
},
{
"epoch": 0.018833333333333334,
"grad_norm": 0.45481327176094055,
"learning_rate": 0.0002969734706716618,
"loss": 3.071116828918457,
"step": 4780
},
{
"epoch": 0.019,
"grad_norm": 0.4932529926300049,
"learning_rate": 0.0002969574862995683,
"loss": 2.951759147644043,
"step": 4790
},
{
"epoch": 0.019166666666666665,
"grad_norm": 0.45772960782051086,
"learning_rate": 0.0002969414602609358,
"loss": 2.9374309539794923,
"step": 4800
},
{
"epoch": 0.019333333333333334,
"grad_norm": 0.40841713547706604,
"learning_rate": 0.0002969253925603083,
"loss": 2.9139503479003905,
"step": 4810
},
{
"epoch": 0.0195,
"grad_norm": 0.422498494386673,
"learning_rate": 0.00029690928320224127,
"loss": 3.0036170959472654,
"step": 4820
},
{
"epoch": 0.019666666666666666,
"grad_norm": 0.41859570145606995,
"learning_rate": 0.0002968931321913023,
"loss": 3.030325698852539,
"step": 4830
},
{
"epoch": 0.019833333333333335,
"grad_norm": 0.4252321720123291,
"learning_rate": 0.0002968769395320706,
"loss": 2.9996585845947266,
"step": 4840
},
{
"epoch": 0.02,
"grad_norm": 0.39273467659950256,
"learning_rate": 0.00029686070522913727,
"loss": 3.0428844451904298,
"step": 4850
},
{
"epoch": 0.020166666666666666,
"grad_norm": 0.4008473753929138,
"learning_rate": 0.0002968444292871051,
"loss": 3.038602828979492,
"step": 4860
},
{
"epoch": 0.02033333333333333,
"grad_norm": 0.39325961470603943,
"learning_rate": 0.00029682811171058887,
"loss": 3.0508377075195314,
"step": 4870
},
{
"epoch": 0.0205,
"grad_norm": 0.42926836013793945,
"learning_rate": 0.0002968117525042151,
"loss": 2.9267642974853514,
"step": 4880
},
{
"epoch": 0.020666666666666667,
"grad_norm": 0.3997902572154999,
"learning_rate": 0.00029679535167262194,
"loss": 2.908608627319336,
"step": 4890
},
{
"epoch": 0.020833333333333332,
"grad_norm": 0.39283305406570435,
"learning_rate": 0.00029677890922045954,
"loss": 2.8062005996704102,
"step": 4900
},
{
"epoch": 0.021,
"grad_norm": 0.5050291419029236,
"learning_rate": 0.00029676242515238986,
"loss": 2.977495574951172,
"step": 4910
},
{
"epoch": 0.021166666666666667,
"grad_norm": 0.4664459228515625,
"learning_rate": 0.0002967458994730865,
"loss": 3.0423885345458985,
"step": 4920
},
{
"epoch": 0.021333333333333333,
"grad_norm": 0.4809158742427826,
"learning_rate": 0.000296729332187235,
"loss": 2.9984725952148437,
"step": 4930
},
{
"epoch": 0.0215,
"grad_norm": 0.4519208073616028,
"learning_rate": 0.00029671272329953266,
"loss": 2.9846240997314455,
"step": 4940
},
{
"epoch": 0.021666666666666667,
"grad_norm": 0.4372696578502655,
"learning_rate": 0.0002966960728146885,
"loss": 3.0425092697143556,
"step": 4950
},
{
"epoch": 0.021833333333333333,
"grad_norm": 0.42301109433174133,
"learning_rate": 0.00029667938073742346,
"loss": 2.9889686584472654,
"step": 4960
},
{
"epoch": 0.022,
"grad_norm": 0.3952590525150299,
"learning_rate": 0.0002966626470724702,
"loss": 2.9601165771484377,
"step": 4970
},
{
"epoch": 0.022166666666666668,
"grad_norm": 0.4400894343852997,
"learning_rate": 0.0002966458718245732,
"loss": 2.9297361373901367,
"step": 4980
},
{
"epoch": 0.022333333333333334,
"grad_norm": 0.3968198001384735,
"learning_rate": 0.0002966290549984886,
"loss": 2.923467445373535,
"step": 4990
},
{
"epoch": 0.0225,
"grad_norm": 0.4230905771255493,
"learning_rate": 0.0002966121965989845,
"loss": 2.8356529235839845,
"step": 5000
},
{
"epoch": 0.02266666666666667,
"grad_norm": 0.4638538658618927,
"learning_rate": 0.0002965952966308408,
"loss": 2.751129913330078,
"step": 5010
},
{
"epoch": 0.022833333333333334,
"grad_norm": 0.4058930277824402,
"learning_rate": 0.000296578355098849,
"loss": 2.8753490447998047,
"step": 5020
},
{
"epoch": 0.023,
"grad_norm": 0.4356415271759033,
"learning_rate": 0.0002965613720078126,
"loss": 2.9448657989501954,
"step": 5030
},
{
"epoch": 0.023166666666666665,
"grad_norm": 0.4432661533355713,
"learning_rate": 0.0002965443473625467,
"loss": 3.0600040435791014,
"step": 5040
},
{
"epoch": 0.023333333333333334,
"grad_norm": 0.40705952048301697,
"learning_rate": 0.0002965272811678783,
"loss": 3.039891815185547,
"step": 5050
},
{
"epoch": 0.0235,
"grad_norm": 0.4108118712902069,
"learning_rate": 0.0002965101734286461,
"loss": 3.0408308029174806,
"step": 5060
},
{
"epoch": 0.023666666666666666,
"grad_norm": 0.41265869140625,
"learning_rate": 0.0002964930241497007,
"loss": 3.060531806945801,
"step": 5070
},
{
"epoch": 0.023833333333333335,
"grad_norm": 0.3892955780029297,
"learning_rate": 0.0002964758333359043,
"loss": 2.961796188354492,
"step": 5080
},
{
"epoch": 0.024,
"grad_norm": 0.38490405678749084,
"learning_rate": 0.000296458600992131,
"loss": 3.079538917541504,
"step": 5090
},
{
"epoch": 0.024166666666666666,
"grad_norm": 0.39841511845588684,
"learning_rate": 0.0002964413271232667,
"loss": 2.9802776336669923,
"step": 5100
},
{
"epoch": 0.024333333333333332,
"grad_norm": 0.4207797944545746,
"learning_rate": 0.000296424011734209,
"loss": 2.8793426513671876,
"step": 5110
},
{
"epoch": 0.0245,
"grad_norm": 0.4052133858203888,
"learning_rate": 0.0002964066548298673,
"loss": 2.856357765197754,
"step": 5120
},
{
"epoch": 0.024666666666666667,
"grad_norm": 0.3816324472427368,
"learning_rate": 0.0002963892564151627,
"loss": 2.9858179092407227,
"step": 5130
},
{
"epoch": 0.024833333333333332,
"grad_norm": 0.47515869140625,
"learning_rate": 0.0002963718164950282,
"loss": 3.1763587951660157,
"step": 5140
},
{
"epoch": 0.025,
"grad_norm": 0.40806320309638977,
"learning_rate": 0.0002963543350744085,
"loss": 3.151714324951172,
"step": 5150
},
{
"epoch": 0.025166666666666667,
"grad_norm": 0.5163785219192505,
"learning_rate": 0.00029633681215826004,
"loss": 2.945247459411621,
"step": 5160
},
{
"epoch": 0.025333333333333333,
"grad_norm": 0.4207831919193268,
"learning_rate": 0.0002963192477515511,
"loss": 3.0415407180786134,
"step": 5170
},
{
"epoch": 0.0255,
"grad_norm": 0.40855222940444946,
"learning_rate": 0.00029630164185926166,
"loss": 3.1059539794921873,
"step": 5180
},
{
"epoch": 0.025666666666666667,
"grad_norm": 0.3957916498184204,
"learning_rate": 0.0002962839944863835,
"loss": 3.0001821517944336,
"step": 5190
},
{
"epoch": 0.025833333333333333,
"grad_norm": 0.39638176560401917,
"learning_rate": 0.0002962663056379201,
"loss": 3.1186132431030273,
"step": 5200
},
{
"epoch": 0.026,
"grad_norm": 0.3970320224761963,
"learning_rate": 0.0002962485753188867,
"loss": 3.1292917251586916,
"step": 5210
},
{
"epoch": 0.026166666666666668,
"grad_norm": 0.46836334466934204,
"learning_rate": 0.00029623080353431046,
"loss": 3.1594337463378905,
"step": 5220
},
{
"epoch": 0.026333333333333334,
"grad_norm": 0.41316238045692444,
"learning_rate": 0.0002962129902892301,
"loss": 3.108985710144043,
"step": 5230
},
{
"epoch": 0.0265,
"grad_norm": 0.38777822256088257,
"learning_rate": 0.0002961951355886961,
"loss": 3.050784873962402,
"step": 5240
},
{
"epoch": 0.02666666666666667,
"grad_norm": 0.39757364988327026,
"learning_rate": 0.00029617723943777094,
"loss": 3.0273033142089845,
"step": 5250
},
{
"epoch": 0.026833333333333334,
"grad_norm": 0.3906317949295044,
"learning_rate": 0.00029615930184152855,
"loss": 3.077456474304199,
"step": 5260
},
{
"epoch": 0.027,
"grad_norm": 0.4051954746246338,
"learning_rate": 0.00029614132280505475,
"loss": 3.0868051528930662,
"step": 5270
},
{
"epoch": 0.027166666666666665,
"grad_norm": 0.3984355032444,
"learning_rate": 0.00029612330233344715,
"loss": 3.0292882919311523,
"step": 5280
},
{
"epoch": 0.027333333333333334,
"grad_norm": 0.46807315945625305,
"learning_rate": 0.00029610524043181504,
"loss": 3.0543338775634767,
"step": 5290
},
{
"epoch": 0.0275,
"grad_norm": 0.4327753782272339,
"learning_rate": 0.00029608713710527944,
"loss": 3.0852005004882814,
"step": 5300
},
{
"epoch": 0.027666666666666666,
"grad_norm": 0.4260406792163849,
"learning_rate": 0.0002960689923589732,
"loss": 3.109157180786133,
"step": 5310
},
{
"epoch": 0.027833333333333335,
"grad_norm": 0.41041651368141174,
"learning_rate": 0.00029605080619804074,
"loss": 3.025878143310547,
"step": 5320
},
{
"epoch": 0.028,
"grad_norm": 0.41694915294647217,
"learning_rate": 0.0002960325786276385,
"loss": 3.0681831359863283,
"step": 5330
},
{
"epoch": 0.028166666666666666,
"grad_norm": 0.3778274655342102,
"learning_rate": 0.0002960143096529344,
"loss": 3.064166259765625,
"step": 5340
},
{
"epoch": 0.028333333333333332,
"grad_norm": 0.3917562961578369,
"learning_rate": 0.00029599599927910826,
"loss": 3.0182376861572267,
"step": 5350
},
{
"epoch": 0.0285,
"grad_norm": 0.42189955711364746,
"learning_rate": 0.0002959776475113515,
"loss": 3.016231155395508,
"step": 5360
},
{
"epoch": 0.028666666666666667,
"grad_norm": 0.4121429920196533,
"learning_rate": 0.00029595925435486745,
"loss": 3.0514553070068358,
"step": 5370
},
{
"epoch": 0.028833333333333332,
"grad_norm": 0.42146554589271545,
"learning_rate": 0.000295940819814871,
"loss": 3.052465629577637,
"step": 5380
},
{
"epoch": 0.029,
"grad_norm": 0.377998948097229,
"learning_rate": 0.000295922343896589,
"loss": 2.8454496383666994,
"step": 5390
},
{
"epoch": 0.029166666666666667,
"grad_norm": 0.39422616362571716,
"learning_rate": 0.0002959038266052597,
"loss": 2.6665836334228517,
"step": 5400
},
{
"epoch": 0.029333333333333333,
"grad_norm": 0.3714645802974701,
"learning_rate": 0.00029588526794613334,
"loss": 2.6556703567504885,
"step": 5410
},
{
"epoch": 0.0295,
"grad_norm": 0.39717552065849304,
"learning_rate": 0.00029586666792447185,
"loss": 2.736180305480957,
"step": 5420
},
{
"epoch": 0.029666666666666668,
"grad_norm": 0.4036571979522705,
"learning_rate": 0.0002958480265455489,
"loss": 2.7086135864257814,
"step": 5430
},
{
"epoch": 0.029833333333333333,
"grad_norm": 0.3743681013584137,
"learning_rate": 0.0002958293438146497,
"loss": 2.941759490966797,
"step": 5440
},
{
"epoch": 0.03,
"grad_norm": 0.40706613659858704,
"learning_rate": 0.0002958106197370714,
"loss": 2.948502540588379,
"step": 5450
},
{
"epoch": 0.030166666666666668,
"grad_norm": 0.4117063879966736,
"learning_rate": 0.00029579185431812286,
"loss": 2.9798656463623048,
"step": 5460
},
{
"epoch": 0.030333333333333334,
"grad_norm": 0.4454329311847687,
"learning_rate": 0.0002957730475631245,
"loss": 2.9249732971191404,
"step": 5470
},
{
"epoch": 0.0305,
"grad_norm": 0.39523670077323914,
"learning_rate": 0.0002957541994774086,
"loss": 2.8878499984741213,
"step": 5480
},
{
"epoch": 0.030666666666666665,
"grad_norm": 0.36399638652801514,
"learning_rate": 0.00029573531006631907,
"loss": 2.9448997497558596,
"step": 5490
},
{
"epoch": 0.030833333333333334,
"grad_norm": 0.4440824091434479,
"learning_rate": 0.00029571637933521164,
"loss": 2.878627395629883,
"step": 5500
},
{
"epoch": 0.031,
"grad_norm": 0.4278319180011749,
"learning_rate": 0.0002956974072894537,
"loss": 2.9515048980712892,
"step": 5510
},
{
"epoch": 0.031166666666666665,
"grad_norm": 0.40986528992652893,
"learning_rate": 0.00029567839393442437,
"loss": 2.9613771438598633,
"step": 5520
},
{
"epoch": 0.03133333333333333,
"grad_norm": 0.3902529776096344,
"learning_rate": 0.00029565933927551435,
"loss": 2.923776054382324,
"step": 5530
},
{
"epoch": 0.0315,
"grad_norm": 0.41012078523635864,
"learning_rate": 0.0002956402433181263,
"loss": 2.975874328613281,
"step": 5540
},
{
"epoch": 0.03166666666666667,
"grad_norm": 0.40504106879234314,
"learning_rate": 0.0002956211060676744,
"loss": 2.909282112121582,
"step": 5550
},
{
"epoch": 0.03183333333333333,
"grad_norm": 0.4037550091743469,
"learning_rate": 0.0002956019275295846,
"loss": 2.9982988357543947,
"step": 5560
},
{
"epoch": 0.032,
"grad_norm": 0.3706510663032532,
"learning_rate": 0.00029558270770929456,
"loss": 2.942987060546875,
"step": 5570
},
{
"epoch": 0.03216666666666667,
"grad_norm": 0.3897784650325775,
"learning_rate": 0.00029556344661225357,
"loss": 2.9039384841918947,
"step": 5580
},
{
"epoch": 0.03233333333333333,
"grad_norm": 0.4270058870315552,
"learning_rate": 0.0002955441442439228,
"loss": 2.9499792098999023,
"step": 5590
},
{
"epoch": 0.0325,
"grad_norm": 0.39148110151290894,
"learning_rate": 0.0002955248006097749,
"loss": 3.0189350128173826,
"step": 5600
},
{
"epoch": 0.03266666666666666,
"grad_norm": 0.3739214241504669,
"learning_rate": 0.00029550541571529443,
"loss": 2.86805419921875,
"step": 5610
},
{
"epoch": 0.03283333333333333,
"grad_norm": 0.37678641080856323,
"learning_rate": 0.00029548598956597745,
"loss": 2.8048625946044923,
"step": 5620
},
{
"epoch": 0.033,
"grad_norm": 0.38853731751441956,
"learning_rate": 0.00029546652216733187,
"loss": 2.921887969970703,
"step": 5630
},
{
"epoch": 0.033166666666666664,
"grad_norm": 0.40962421894073486,
"learning_rate": 0.0002954470135248772,
"loss": 2.859710121154785,
"step": 5640
},
{
"epoch": 0.03333333333333333,
"grad_norm": 0.4202129542827606,
"learning_rate": 0.0002954274636441448,
"loss": 2.8912075042724608,
"step": 5650
},
{
"epoch": 0.0335,
"grad_norm": 0.3784216642379761,
"learning_rate": 0.00029540787253067746,
"loss": 2.8085119247436525,
"step": 5660
},
{
"epoch": 0.033666666666666664,
"grad_norm": 0.3924359977245331,
"learning_rate": 0.0002953882401900298,
"loss": 2.913351821899414,
"step": 5670
},
{
"epoch": 0.03383333333333333,
"grad_norm": 0.40623074769973755,
"learning_rate": 0.00029536856662776826,
"loss": 2.944149398803711,
"step": 5680
},
{
"epoch": 0.034,
"grad_norm": 0.4099932014942169,
"learning_rate": 0.00029534885184947076,
"loss": 2.875970649719238,
"step": 5690
},
{
"epoch": 0.034166666666666665,
"grad_norm": 0.36651095747947693,
"learning_rate": 0.00029532909586072706,
"loss": 2.841335105895996,
"step": 5700
},
{
"epoch": 0.034333333333333334,
"grad_norm": 0.3954033851623535,
"learning_rate": 0.00029530929866713844,
"loss": 2.87349910736084,
"step": 5710
},
{
"epoch": 0.0345,
"grad_norm": 0.3759227395057678,
"learning_rate": 0.00029528946027431797,
"loss": 2.8565431594848634,
"step": 5720
},
{
"epoch": 0.034666666666666665,
"grad_norm": 0.35877352952957153,
"learning_rate": 0.0002952695806878905,
"loss": 2.806620407104492,
"step": 5730
},
{
"epoch": 0.034833333333333334,
"grad_norm": 0.3754509389400482,
"learning_rate": 0.00029524965991349226,
"loss": 2.7679475784301757,
"step": 5740
},
{
"epoch": 0.035,
"grad_norm": 0.34031248092651367,
"learning_rate": 0.00029522969795677147,
"loss": 2.670439910888672,
"step": 5750
},
{
"epoch": 0.035166666666666666,
"grad_norm": 0.36299699544906616,
"learning_rate": 0.0002952096948233879,
"loss": 2.76367073059082,
"step": 5760
},
{
"epoch": 0.035333333333333335,
"grad_norm": 0.3920454680919647,
"learning_rate": 0.00029518965051901296,
"loss": 2.814274215698242,
"step": 5770
},
{
"epoch": 0.0355,
"grad_norm": 0.36294087767601013,
"learning_rate": 0.0002951695650493298,
"loss": 2.7482378005981447,
"step": 5780
},
{
"epoch": 0.035666666666666666,
"grad_norm": 0.36339011788368225,
"learning_rate": 0.00029514943842003316,
"loss": 2.7880197525024415,
"step": 5790
},
{
"epoch": 0.035833333333333335,
"grad_norm": 0.3664824962615967,
"learning_rate": 0.0002951292706368295,
"loss": 2.74920539855957,
"step": 5800
},
{
"epoch": 0.036,
"grad_norm": 0.37298399209976196,
"learning_rate": 0.0002951090617054371,
"loss": 2.7620262145996093,
"step": 5810
},
{
"epoch": 0.036166666666666666,
"grad_norm": 0.5309566259384155,
"learning_rate": 0.0002950888116315855,
"loss": 2.880209732055664,
"step": 5820
},
{
"epoch": 0.036333333333333336,
"grad_norm": 0.3781473636627197,
"learning_rate": 0.00029506852042101634,
"loss": 2.832257080078125,
"step": 5830
},
{
"epoch": 0.0365,
"grad_norm": 0.3755476474761963,
"learning_rate": 0.0002950481880794827,
"loss": 2.72965145111084,
"step": 5840
},
{
"epoch": 0.03666666666666667,
"grad_norm": 0.3585830628871918,
"learning_rate": 0.0002950278146127493,
"loss": 2.7756679534912108,
"step": 5850
},
{
"epoch": 0.036833333333333336,
"grad_norm": 0.378136545419693,
"learning_rate": 0.0002950074000265927,
"loss": 2.8998336791992188,
"step": 5860
},
{
"epoch": 0.037,
"grad_norm": 0.3947715759277344,
"learning_rate": 0.0002949869443268009,
"loss": 2.9380889892578126,
"step": 5870
},
{
"epoch": 0.03716666666666667,
"grad_norm": 0.40435487031936646,
"learning_rate": 0.00029496644751917376,
"loss": 2.7399545669555665,
"step": 5880
},
{
"epoch": 0.037333333333333336,
"grad_norm": 0.37711283564567566,
"learning_rate": 0.00029494590960952265,
"loss": 2.588311195373535,
"step": 5890
},
{
"epoch": 0.0375,
"grad_norm": 0.4344159960746765,
"learning_rate": 0.0002949253306036706,
"loss": 2.574771499633789,
"step": 5900
},
{
"epoch": 0.03766666666666667,
"grad_norm": 0.4346453547477722,
"learning_rate": 0.0002949047105074524,
"loss": 2.50732364654541,
"step": 5910
},
{
"epoch": 0.03783333333333333,
"grad_norm": 0.37476930022239685,
"learning_rate": 0.00029488404932671435,
"loss": 2.601269340515137,
"step": 5920
},
{
"epoch": 0.038,
"grad_norm": 0.41381752490997314,
"learning_rate": 0.0002948633470673145,
"loss": 2.5921453475952148,
"step": 5930
},
{
"epoch": 0.03816666666666667,
"grad_norm": 0.39000943303108215,
"learning_rate": 0.0002948426037351225,
"loss": 2.6637712478637696,
"step": 5940
},
{
"epoch": 0.03833333333333333,
"grad_norm": 0.37929767370224,
"learning_rate": 0.00029482181933601973,
"loss": 2.811085319519043,
"step": 5950
},
{
"epoch": 0.0385,
"grad_norm": 0.3917810618877411,
"learning_rate": 0.00029480099387589907,
"loss": 2.6634618759155275,
"step": 5960
},
{
"epoch": 0.03866666666666667,
"grad_norm": 0.3915526866912842,
"learning_rate": 0.00029478012736066517,
"loss": 2.778007698059082,
"step": 5970
},
{
"epoch": 0.03883333333333333,
"grad_norm": 0.369268000125885,
"learning_rate": 0.00029475921979623423,
"loss": 2.696705627441406,
"step": 5980
},
{
"epoch": 0.039,
"grad_norm": 0.40467938780784607,
"learning_rate": 0.00029473827118853415,
"loss": 2.8099590301513673,
"step": 5990
},
{
"epoch": 0.03916666666666667,
"grad_norm": 0.3687494099140167,
"learning_rate": 0.00029471728154350444,
"loss": 2.881623649597168,
"step": 6000
},
{
"epoch": 0.03933333333333333,
"grad_norm": 0.3854578137397766,
"learning_rate": 0.00029469625086709625,
"loss": 2.7410490036010744,
"step": 6010
},
{
"epoch": 0.0395,
"grad_norm": 0.383655309677124,
"learning_rate": 0.00029467517916527235,
"loss": 2.7792194366455076,
"step": 6020
},
{
"epoch": 0.03966666666666667,
"grad_norm": 0.3862553834915161,
"learning_rate": 0.00029465406644400713,
"loss": 2.7575822830200196,
"step": 6030
},
{
"epoch": 0.03983333333333333,
"grad_norm": 0.39918553829193115,
"learning_rate": 0.00029463291270928675,
"loss": 2.9260843276977537,
"step": 6040
},
{
"epoch": 0.04,
"grad_norm": 0.38666027784347534,
"learning_rate": 0.0002946117179671087,
"loss": 2.838565635681152,
"step": 6050
},
{
"epoch": 0.04016666666666667,
"grad_norm": 0.3723886013031006,
"learning_rate": 0.0002945904822234824,
"loss": 2.836383819580078,
"step": 6060
},
{
"epoch": 0.04033333333333333,
"grad_norm": 0.4081844985485077,
"learning_rate": 0.0002945692054844288,
"loss": 2.949822425842285,
"step": 6070
},
{
"epoch": 0.0405,
"grad_norm": 0.3790690302848816,
"learning_rate": 0.00029454788775598037,
"loss": 3.035497856140137,
"step": 6080
},
{
"epoch": 0.04066666666666666,
"grad_norm": 0.37471655011177063,
"learning_rate": 0.00029452652904418127,
"loss": 3.0849964141845705,
"step": 6090
},
{
"epoch": 0.04083333333333333,
"grad_norm": 0.39325064420700073,
"learning_rate": 0.0002945051293550874,
"loss": 3.193227767944336,
"step": 6100
},
{
"epoch": 0.041,
"grad_norm": 0.42698314785957336,
"learning_rate": 0.00029448368869476604,
"loss": 3.1598060607910154,
"step": 6110
},
{
"epoch": 0.041166666666666664,
"grad_norm": 0.40960320830345154,
"learning_rate": 0.0002944622070692963,
"loss": 3.2183509826660157,
"step": 6120
},
{
"epoch": 0.04133333333333333,
"grad_norm": 0.3762412965297699,
"learning_rate": 0.0002944406844847688,
"loss": 3.1716684341430663,
"step": 6130
},
{
"epoch": 0.0415,
"grad_norm": 0.4189164340496063,
"learning_rate": 0.00029441912094728574,
"loss": 3.1513088226318358,
"step": 6140
},
{
"epoch": 0.041666666666666664,
"grad_norm": 0.4057857394218445,
"learning_rate": 0.00029439751646296106,
"loss": 3.0799839019775392,
"step": 6150
},
{
"epoch": 0.041833333333333333,
"grad_norm": 0.4074974060058594,
"learning_rate": 0.00029437587103792016,
"loss": 2.9888477325439453,
"step": 6160
},
{
"epoch": 0.042,
"grad_norm": 0.371817409992218,
"learning_rate": 0.0002943541846783002,
"loss": 2.948713684082031,
"step": 6170
},
{
"epoch": 0.042166666666666665,
"grad_norm": 0.37995588779449463,
"learning_rate": 0.0002943324573902498,
"loss": 2.8891929626464843,
"step": 6180
},
{
"epoch": 0.042333333333333334,
"grad_norm": 0.3674244284629822,
"learning_rate": 0.0002943106891799293,
"loss": 2.796030807495117,
"step": 6190
},
{
"epoch": 0.0425,
"grad_norm": 0.36154231429100037,
"learning_rate": 0.0002942888800535105,
"loss": 2.850292778015137,
"step": 6200
},
{
"epoch": 0.042666666666666665,
"grad_norm": 0.38896098732948303,
"learning_rate": 0.0002942670300171771,
"loss": 2.7989007949829103,
"step": 6210
},
{
"epoch": 0.042833333333333334,
"grad_norm": 0.3838213384151459,
"learning_rate": 0.00029424513907712395,
"loss": 2.896153450012207,
"step": 6220
},
{
"epoch": 0.043,
"grad_norm": 0.40118804574012756,
"learning_rate": 0.0002942232072395579,
"loss": 3.0006587982177733,
"step": 6230
},
{
"epoch": 0.043166666666666666,
"grad_norm": 0.38531655073165894,
"learning_rate": 0.0002942012345106971,
"loss": 2.9570644378662108,
"step": 6240
},
{
"epoch": 0.043333333333333335,
"grad_norm": 0.38946714997291565,
"learning_rate": 0.0002941792208967716,
"loss": 2.946304702758789,
"step": 6250
},
{
"epoch": 0.0435,
"grad_norm": 0.39669328927993774,
"learning_rate": 0.00029415716640402275,
"loss": 2.962474822998047,
"step": 6260
},
{
"epoch": 0.043666666666666666,
"grad_norm": 0.3736763298511505,
"learning_rate": 0.0002941350710387037,
"loss": 3.041091728210449,
"step": 6270
},
{
"epoch": 0.043833333333333335,
"grad_norm": 0.37087109684944153,
"learning_rate": 0.000294112934807079,
"loss": 2.9812034606933593,
"step": 6280
},
{
"epoch": 0.044,
"grad_norm": 0.3676629066467285,
"learning_rate": 0.00029409075771542496,
"loss": 2.827647590637207,
"step": 6290
},
{
"epoch": 0.04416666666666667,
"grad_norm": 0.3785516619682312,
"learning_rate": 0.0002940685397700294,
"loss": 2.8037031173706053,
"step": 6300
},
{
"epoch": 0.044333333333333336,
"grad_norm": 0.3679490089416504,
"learning_rate": 0.00029404628097719166,
"loss": 2.806118965148926,
"step": 6310
},
{
"epoch": 0.0445,
"grad_norm": 0.37308770418167114,
"learning_rate": 0.0002940239813432228,
"loss": 2.797303581237793,
"step": 6320
},
{
"epoch": 0.04466666666666667,
"grad_norm": 0.3598901033401489,
"learning_rate": 0.00029400164087444537,
"loss": 2.756656455993652,
"step": 6330
},
{
"epoch": 0.044833333333333336,
"grad_norm": 0.3724973797798157,
"learning_rate": 0.0002939792595771935,
"loss": 2.9482675552368165,
"step": 6340
},
{
"epoch": 0.045,
"grad_norm": 0.4032357931137085,
"learning_rate": 0.0002939568374578129,
"loss": 2.929281997680664,
"step": 6350
},
{
"epoch": 0.04516666666666667,
"grad_norm": 0.3482721447944641,
"learning_rate": 0.00029393437452266097,
"loss": 2.8269603729248045,
"step": 6360
},
{
"epoch": 0.04533333333333334,
"grad_norm": 0.36250752210617065,
"learning_rate": 0.0002939118707781064,
"loss": 2.826327323913574,
"step": 6370
},
{
"epoch": 0.0455,
"grad_norm": 0.38788485527038574,
"learning_rate": 0.00029388932623052976,
"loss": 2.940120315551758,
"step": 6380
},
{
"epoch": 0.04566666666666667,
"grad_norm": 0.34600749611854553,
"learning_rate": 0.000293866740886323,
"loss": 2.942264747619629,
"step": 6390
},
{
"epoch": 0.04583333333333333,
"grad_norm": 0.4335802495479584,
"learning_rate": 0.0002938441147518897,
"loss": 2.9643169403076173,
"step": 6400
},
{
"epoch": 0.046,
"grad_norm": 0.38085460662841797,
"learning_rate": 0.00029382144783364505,
"loss": 2.8335092544555662,
"step": 6410
},
{
"epoch": 0.04616666666666667,
"grad_norm": 0.3866496682167053,
"learning_rate": 0.0002937987401380157,
"loss": 2.8184886932373048,
"step": 6420
},
{
"epoch": 0.04633333333333333,
"grad_norm": 0.3690461814403534,
"learning_rate": 0.0002937759916714399,
"loss": 2.7712963104248045,
"step": 6430
},
{
"epoch": 0.0465,
"grad_norm": 0.3848920464515686,
"learning_rate": 0.00029375320244036753,
"loss": 2.613561248779297,
"step": 6440
},
{
"epoch": 0.04666666666666667,
"grad_norm": 0.3725181221961975,
"learning_rate": 0.00029373037245125996,
"loss": 2.7794801712036135,
"step": 6450
},
{
"epoch": 0.04683333333333333,
"grad_norm": 0.38816165924072266,
"learning_rate": 0.00029370750171059005,
"loss": 2.70468692779541,
"step": 6460
},
{
"epoch": 0.047,
"grad_norm": 0.36018455028533936,
"learning_rate": 0.0002936845902248424,
"loss": 2.8430145263671873,
"step": 6470
},
{
"epoch": 0.04716666666666667,
"grad_norm": 0.3817792236804962,
"learning_rate": 0.00029366163800051295,
"loss": 2.9502981185913084,
"step": 6480
},
{
"epoch": 0.04733333333333333,
"grad_norm": 0.3806685209274292,
"learning_rate": 0.0002936386450441094,
"loss": 3.0032901763916016,
"step": 6490
},
{
"epoch": 0.0475,
"grad_norm": 0.3631237745285034,
"learning_rate": 0.00029361561136215085,
"loss": 3.043329429626465,
"step": 6500
},
{
"epoch": 0.04766666666666667,
"grad_norm": 0.34963342547416687,
"learning_rate": 0.00029359253696116793,
"loss": 2.730146026611328,
"step": 6510
},
{
"epoch": 0.04783333333333333,
"grad_norm": 0.3734063506126404,
"learning_rate": 0.00029356942184770296,
"loss": 2.919230079650879,
"step": 6520
},
{
"epoch": 0.048,
"grad_norm": 0.3652487099170685,
"learning_rate": 0.00029354626602830973,
"loss": 2.7738105773925783,
"step": 6530
},
{
"epoch": 0.04816666666666667,
"grad_norm": 0.3984633684158325,
"learning_rate": 0.00029352306950955346,
"loss": 2.832376480102539,
"step": 6540
},
{
"epoch": 0.04833333333333333,
"grad_norm": 0.40588605403900146,
"learning_rate": 0.00029349983229801107,
"loss": 3.0197357177734374,
"step": 6550
},
{
"epoch": 0.0485,
"grad_norm": 0.37554314732551575,
"learning_rate": 0.00029347655440027095,
"loss": 2.992153549194336,
"step": 6560
},
{
"epoch": 0.048666666666666664,
"grad_norm": 0.36801284551620483,
"learning_rate": 0.00029345323582293306,
"loss": 2.919198989868164,
"step": 6570
},
{
"epoch": 0.04883333333333333,
"grad_norm": 0.3883112072944641,
"learning_rate": 0.0002934298765726088,
"loss": 2.9609262466430666,
"step": 6580
},
{
"epoch": 0.049,
"grad_norm": 0.42965978384017944,
"learning_rate": 0.00029340647665592124,
"loss": 3.070623779296875,
"step": 6590
},
{
"epoch": 0.049166666666666664,
"grad_norm": 0.3925585448741913,
"learning_rate": 0.00029338303607950487,
"loss": 3.0677051544189453,
"step": 6600
},
{
"epoch": 0.04933333333333333,
"grad_norm": 0.4007953107357025,
"learning_rate": 0.00029335955485000577,
"loss": 3.0510555267333985,
"step": 6610
},
{
"epoch": 0.0495,
"grad_norm": 0.38611555099487305,
"learning_rate": 0.00029333603297408147,
"loss": 2.9069192886352537,
"step": 6620
},
{
"epoch": 0.049666666666666665,
"grad_norm": 0.5704911351203918,
"learning_rate": 0.0002933124704584011,
"loss": 3.010939598083496,
"step": 6630
},
{
"epoch": 0.049833333333333334,
"grad_norm": 0.5911468863487244,
"learning_rate": 0.00029328886730964533,
"loss": 2.9140695571899413,
"step": 6640
},
{
"epoch": 0.05,
"grad_norm": 0.387665331363678,
"learning_rate": 0.00029326522353450625,
"loss": 2.7545188903808593,
"step": 6650
},
{
"epoch": 0.050166666666666665,
"grad_norm": 0.398221492767334,
"learning_rate": 0.00029324153913968756,
"loss": 2.9847917556762695,
"step": 6660
},
{
"epoch": 0.050333333333333334,
"grad_norm": 0.38730916380882263,
"learning_rate": 0.00029321781413190444,
"loss": 3.0818609237670898,
"step": 6670
},
{
"epoch": 0.0505,
"grad_norm": 0.39305347204208374,
"learning_rate": 0.00029319404851788365,
"loss": 3.169163703918457,
"step": 6680
},
{
"epoch": 0.050666666666666665,
"grad_norm": 0.40305784344673157,
"learning_rate": 0.0002931702423043633,
"loss": 3.0836387634277345,
"step": 6690
},
{
"epoch": 0.050833333333333335,
"grad_norm": 0.4043393135070801,
"learning_rate": 0.00029314639549809314,
"loss": 3.086305046081543,
"step": 6700
},
{
"epoch": 0.051,
"grad_norm": 0.40028905868530273,
"learning_rate": 0.00029312250810583447,
"loss": 3.1011959075927735,
"step": 6710
},
{
"epoch": 0.051166666666666666,
"grad_norm": 0.3988712728023529,
"learning_rate": 0.0002930985801343599,
"loss": 3.0316585540771483,
"step": 6720
},
{
"epoch": 0.051333333333333335,
"grad_norm": 0.3803875744342804,
"learning_rate": 0.0002930746115904539,
"loss": 2.7931013107299805,
"step": 6730
},
{
"epoch": 0.0515,
"grad_norm": 0.3882600963115692,
"learning_rate": 0.00029305060248091194,
"loss": 2.8900781631469727,
"step": 6740
},
{
"epoch": 0.051666666666666666,
"grad_norm": 0.3673243820667267,
"learning_rate": 0.0002930265528125415,
"loss": 2.9202960968017577,
"step": 6750
},
{
"epoch": 0.051833333333333335,
"grad_norm": 0.3509467542171478,
"learning_rate": 0.00029300246259216124,
"loss": 2.9142375946044923,
"step": 6760
},
{
"epoch": 0.052,
"grad_norm": 0.37516164779663086,
"learning_rate": 0.0002929783318266014,
"loss": 2.9687660217285154,
"step": 6770
},
{
"epoch": 0.05216666666666667,
"grad_norm": 0.3723934590816498,
"learning_rate": 0.0002929541605227037,
"loss": 2.9943012237548827,
"step": 6780
},
{
"epoch": 0.052333333333333336,
"grad_norm": 0.4237174093723297,
"learning_rate": 0.00029292994868732145,
"loss": 3.1001874923706056,
"step": 6790
},
{
"epoch": 0.0525,
"grad_norm": 0.4308694303035736,
"learning_rate": 0.0002929056963273193,
"loss": 3.090090751647949,
"step": 6800
},
{
"epoch": 0.05266666666666667,
"grad_norm": 0.3867776095867157,
"learning_rate": 0.0002928814034495736,
"loss": 3.0016979217529296,
"step": 6810
},
{
"epoch": 0.052833333333333336,
"grad_norm": 0.39471495151519775,
"learning_rate": 0.0002928570700609719,
"loss": 3.146613883972168,
"step": 6820
},
{
"epoch": 0.053,
"grad_norm": 0.3749244213104248,
"learning_rate": 0.0002928326961684134,
"loss": 3.1620513916015627,
"step": 6830
},
{
"epoch": 0.05316666666666667,
"grad_norm": 0.39891645312309265,
"learning_rate": 0.000292808281778809,
"loss": 3.103597640991211,
"step": 6840
},
{
"epoch": 0.05333333333333334,
"grad_norm": 0.3882020115852356,
"learning_rate": 0.00029278382689908053,
"loss": 3.1575523376464845,
"step": 6850
},
{
"epoch": 0.0535,
"grad_norm": 0.405156672000885,
"learning_rate": 0.0002927593315361619,
"loss": 3.105808067321777,
"step": 6860
},
{
"epoch": 0.05366666666666667,
"grad_norm": 0.3829409182071686,
"learning_rate": 0.0002927347956969981,
"loss": 3.0567110061645506,
"step": 6870
},
{
"epoch": 0.05383333333333333,
"grad_norm": 0.38465431332588196,
"learning_rate": 0.0002927102193885457,
"loss": 3.0914487838745117,
"step": 6880
},
{
"epoch": 0.054,
"grad_norm": 0.401638925075531,
"learning_rate": 0.0002926856026177729,
"loss": 3.0777496337890624,
"step": 6890
},
{
"epoch": 0.05416666666666667,
"grad_norm": 0.3893527388572693,
"learning_rate": 0.0002926609453916591,
"loss": 3.020836067199707,
"step": 6900
},
{
"epoch": 0.05433333333333333,
"grad_norm": 0.3911438286304474,
"learning_rate": 0.00029263624771719537,
"loss": 2.996641731262207,
"step": 6910
},
{
"epoch": 0.0545,
"grad_norm": 0.40074771642684937,
"learning_rate": 0.00029261150960138417,
"loss": 3.094496726989746,
"step": 6920
},
{
"epoch": 0.05466666666666667,
"grad_norm": 0.3768022954463959,
"learning_rate": 0.0002925867310512395,
"loss": 3.0974607467651367,
"step": 6930
},
{
"epoch": 0.05483333333333333,
"grad_norm": 1.0672612190246582,
"learning_rate": 0.0002925619120737867,
"loss": 2.986092758178711,
"step": 6940
},
{
"epoch": 0.055,
"grad_norm": 0.39106905460357666,
"learning_rate": 0.00029253705267606267,
"loss": 3.122268867492676,
"step": 6950
},
{
"epoch": 0.05516666666666667,
"grad_norm": 0.3796605169773102,
"learning_rate": 0.00029251215286511573,
"loss": 3.091052436828613,
"step": 6960
},
{
"epoch": 0.05533333333333333,
"grad_norm": 0.3792901337146759,
"learning_rate": 0.00029248721264800567,
"loss": 3.083469200134277,
"step": 6970
},
{
"epoch": 0.0555,
"grad_norm": 0.40256309509277344,
"learning_rate": 0.00029246223203180377,
"loss": 3.1180984497070314,
"step": 6980
},
{
"epoch": 0.05566666666666667,
"grad_norm": 0.4001685082912445,
"learning_rate": 0.00029243721102359274,
"loss": 3.1026607513427735,
"step": 6990
},
{
"epoch": 0.05583333333333333,
"grad_norm": 0.40601831674575806,
"learning_rate": 0.00029241214963046663,
"loss": 3.1589757919311525,
"step": 7000
},
{
"epoch": 0.056,
"grad_norm": 0.3928051292896271,
"learning_rate": 0.00029238704785953113,
"loss": 3.149326705932617,
"step": 7010
},
{
"epoch": 0.05616666666666666,
"grad_norm": 0.4036010205745697,
"learning_rate": 0.0002923619057179033,
"loss": 3.137180137634277,
"step": 7020
},
{
"epoch": 0.05633333333333333,
"grad_norm": 0.41541367769241333,
"learning_rate": 0.0002923367232127116,
"loss": 3.155481147766113,
"step": 7030
},
{
"epoch": 0.0565,
"grad_norm": 0.3809373378753662,
"learning_rate": 0.00029231150035109596,
"loss": 3.114410400390625,
"step": 7040
},
{
"epoch": 0.056666666666666664,
"grad_norm": 0.3731016218662262,
"learning_rate": 0.0002922862371402078,
"loss": 3.105120849609375,
"step": 7050
},
{
"epoch": 0.05683333333333333,
"grad_norm": 0.38785654306411743,
"learning_rate": 0.0002922609335872099,
"loss": 3.043816566467285,
"step": 7060
},
{
"epoch": 0.057,
"grad_norm": 0.4262470602989197,
"learning_rate": 0.00029223558969927656,
"loss": 3.1006845474243163,
"step": 7070
},
{
"epoch": 0.057166666666666664,
"grad_norm": 0.38110196590423584,
"learning_rate": 0.00029221020548359346,
"loss": 3.0751932144165037,
"step": 7080
},
{
"epoch": 0.05733333333333333,
"grad_norm": 0.3852882385253906,
"learning_rate": 0.0002921847809473578,
"loss": 3.1745590209960937,
"step": 7090
},
{
"epoch": 0.0575,
"grad_norm": 0.3707679212093353,
"learning_rate": 0.000292159316097778,
"loss": 3.1158437728881836,
"step": 7100
},
{
"epoch": 0.057666666666666665,
"grad_norm": 0.3930973410606384,
"learning_rate": 0.00029213381094207416,
"loss": 3.1524255752563475,
"step": 7110
},
{
"epoch": 0.057833333333333334,
"grad_norm": 0.3957115113735199,
"learning_rate": 0.0002921082654874777,
"loss": 3.17779541015625,
"step": 7120
},
{
"epoch": 0.058,
"grad_norm": 0.3818974792957306,
"learning_rate": 0.00029208267974123144,
"loss": 3.180965614318848,
"step": 7130
},
{
"epoch": 0.058166666666666665,
"grad_norm": 0.4084106981754303,
"learning_rate": 0.00029205705371058966,
"loss": 3.189291763305664,
"step": 7140
},
{
"epoch": 0.058333333333333334,
"grad_norm": 0.37610405683517456,
"learning_rate": 0.000292031387402818,
"loss": 2.9906883239746094,
"step": 7150
},
{
"epoch": 0.0585,
"grad_norm": 0.36395132541656494,
"learning_rate": 0.00029200568082519366,
"loss": 2.816435432434082,
"step": 7160
},
{
"epoch": 0.058666666666666666,
"grad_norm": 0.3990066349506378,
"learning_rate": 0.00029197993398500516,
"loss": 2.733071136474609,
"step": 7170
},
{
"epoch": 0.058833333333333335,
"grad_norm": 0.37727782130241394,
"learning_rate": 0.0002919541468895524,
"loss": 2.7273191452026366,
"step": 7180
},
{
"epoch": 0.059,
"grad_norm": 0.40415671467781067,
"learning_rate": 0.0002919283195461467,
"loss": 2.8836151123046876,
"step": 7190
},
{
"epoch": 0.059166666666666666,
"grad_norm": 0.37808772921562195,
"learning_rate": 0.000291902451962111,
"loss": 2.766579246520996,
"step": 7200
},
{
"epoch": 0.059333333333333335,
"grad_norm": 0.3718058168888092,
"learning_rate": 0.0002918765441447793,
"loss": 2.7563850402832033,
"step": 7210
},
{
"epoch": 0.0595,
"grad_norm": 0.365247517824173,
"learning_rate": 0.0002918505961014973,
"loss": 2.736806869506836,
"step": 7220
},
{
"epoch": 0.059666666666666666,
"grad_norm": 0.34523555636405945,
"learning_rate": 0.0002918246078396219,
"loss": 2.7504671096801756,
"step": 7230
},
{
"epoch": 0.059833333333333336,
"grad_norm": 0.37109723687171936,
"learning_rate": 0.00029179857936652157,
"loss": 2.695194625854492,
"step": 7240
},
{
"epoch": 0.06,
"grad_norm": 0.3737955391407013,
"learning_rate": 0.00029177251068957606,
"loss": 2.621052932739258,
"step": 7250
},
{
"epoch": 0.06016666666666667,
"grad_norm": 0.3929753303527832,
"learning_rate": 0.00029174640181617664,
"loss": 2.6446352005004883,
"step": 7260
},
{
"epoch": 0.060333333333333336,
"grad_norm": 0.3471451699733734,
"learning_rate": 0.0002917202527537258,
"loss": 2.620621109008789,
"step": 7270
},
{
"epoch": 0.0605,
"grad_norm": 0.42746540904045105,
"learning_rate": 0.0002916940635096376,
"loss": 2.6797019958496096,
"step": 7280
},
{
"epoch": 0.06066666666666667,
"grad_norm": 0.35947850346565247,
"learning_rate": 0.0002916678340913374,
"loss": 2.633715057373047,
"step": 7290
},
{
"epoch": 0.060833333333333336,
"grad_norm": 0.36535149812698364,
"learning_rate": 0.000291641564506262,
"loss": 2.5058975219726562,
"step": 7300
},
{
"epoch": 0.061,
"grad_norm": 0.38358670473098755,
"learning_rate": 0.00029161525476185945,
"loss": 2.5962581634521484,
"step": 7310
},
{
"epoch": 0.06116666666666667,
"grad_norm": 0.3580729365348816,
"learning_rate": 0.0002915889048655894,
"loss": 2.473897171020508,
"step": 7320
},
{
"epoch": 0.06133333333333333,
"grad_norm": 0.363400936126709,
"learning_rate": 0.0002915625148249228,
"loss": 2.6062271118164064,
"step": 7330
},
{
"epoch": 0.0615,
"grad_norm": 0.3609282672405243,
"learning_rate": 0.0002915360846473419,
"loss": 2.629804229736328,
"step": 7340
},
{
"epoch": 0.06166666666666667,
"grad_norm": 0.3657326102256775,
"learning_rate": 0.0002915096143403404,
"loss": 2.5113271713256835,
"step": 7350
},
{
"epoch": 0.06183333333333333,
"grad_norm": 0.358372300863266,
"learning_rate": 0.00029148310391142334,
"loss": 2.599112892150879,
"step": 7360
},
{
"epoch": 0.062,
"grad_norm": 0.35465332865715027,
"learning_rate": 0.0002914565533681072,
"loss": 2.658061408996582,
"step": 7370
},
{
"epoch": 0.06216666666666667,
"grad_norm": 0.3702649474143982,
"learning_rate": 0.0002914299627179198,
"loss": 2.5538434982299805,
"step": 7380
},
{
"epoch": 0.06233333333333333,
"grad_norm": 0.3724445700645447,
"learning_rate": 0.00029140333196840033,
"loss": 2.6205028533935546,
"step": 7390
},
{
"epoch": 0.0625,
"grad_norm": 0.3595244586467743,
"learning_rate": 0.00029137666112709934,
"loss": 2.5793956756591796,
"step": 7400
},
{
"epoch": 0.06266666666666666,
"grad_norm": 0.34365132451057434,
"learning_rate": 0.0002913499502015788,
"loss": 2.4857330322265625,
"step": 7410
},
{
"epoch": 0.06283333333333334,
"grad_norm": 0.3451862335205078,
"learning_rate": 0.0002913231991994119,
"loss": 2.47800235748291,
"step": 7420
},
{
"epoch": 0.063,
"grad_norm": 0.3589513301849365,
"learning_rate": 0.0002912964081281834,
"loss": 2.502494239807129,
"step": 7430
},
{
"epoch": 0.06316666666666666,
"grad_norm": 0.36998748779296875,
"learning_rate": 0.0002912695769954893,
"loss": 2.4787002563476563,
"step": 7440
},
{
"epoch": 0.06333333333333334,
"grad_norm": 0.32939860224723816,
"learning_rate": 0.0002912427058089369,
"loss": 2.658931922912598,
"step": 7450
},
{
"epoch": 0.0635,
"grad_norm": 0.38151815533638,
"learning_rate": 0.00029121579457614495,
"loss": 2.903098297119141,
"step": 7460
},
{
"epoch": 0.06366666666666666,
"grad_norm": 0.4199788570404053,
"learning_rate": 0.0002911888433047436,
"loss": 2.873810958862305,
"step": 7470
},
{
"epoch": 0.06383333333333334,
"grad_norm": 0.3544920086860657,
"learning_rate": 0.0002911618520023742,
"loss": 2.917632293701172,
"step": 7480
},
{
"epoch": 0.064,
"grad_norm": 0.39268478751182556,
"learning_rate": 0.0002911348206766896,
"loss": 2.9814647674560546,
"step": 7490
},
{
"epoch": 0.06416666666666666,
"grad_norm": 0.3877812325954437,
"learning_rate": 0.00029110774933535394,
"loss": 2.9182886123657226,
"step": 7500
},
{
"epoch": 0.06433333333333334,
"grad_norm": 0.39261719584465027,
"learning_rate": 0.0002910806379860426,
"loss": 2.9275138854980467,
"step": 7510
},
{
"epoch": 0.0645,
"grad_norm": 0.3577132821083069,
"learning_rate": 0.00029105348663644256,
"loss": 2.992527198791504,
"step": 7520
},
{
"epoch": 0.06466666666666666,
"grad_norm": 0.3782998025417328,
"learning_rate": 0.00029102629529425183,
"loss": 2.9435182571411134,
"step": 7530
},
{
"epoch": 0.06483333333333334,
"grad_norm": 0.36852407455444336,
"learning_rate": 0.00029099906396718003,
"loss": 2.949845886230469,
"step": 7540
},
{
"epoch": 0.065,
"grad_norm": 0.3805658519268036,
"learning_rate": 0.0002909717926629479,
"loss": 2.9669191360473635,
"step": 7550
},
{
"epoch": 0.06516666666666666,
"grad_norm": 0.3757810592651367,
"learning_rate": 0.0002909444813892877,
"loss": 2.9397300720214843,
"step": 7560
},
{
"epoch": 0.06533333333333333,
"grad_norm": 0.3829989433288574,
"learning_rate": 0.00029091713015394293,
"loss": 2.986714553833008,
"step": 7570
},
{
"epoch": 0.0655,
"grad_norm": 0.36800798773765564,
"learning_rate": 0.0002908897389646683,
"loss": 2.959121513366699,
"step": 7580
},
{
"epoch": 0.06566666666666666,
"grad_norm": 0.38914063572883606,
"learning_rate": 0.0002908623078292301,
"loss": 2.9379350662231447,
"step": 7590
},
{
"epoch": 0.06583333333333333,
"grad_norm": 0.3821718990802765,
"learning_rate": 0.00029083483675540586,
"loss": 2.9452192306518556,
"step": 7600
},
{
"epoch": 0.066,
"grad_norm": 0.3927645981311798,
"learning_rate": 0.00029080732575098426,
"loss": 2.966671371459961,
"step": 7610
},
{
"epoch": 0.06616666666666667,
"grad_norm": 0.38456544280052185,
"learning_rate": 0.00029077977482376555,
"loss": 2.9977581024169924,
"step": 7620
},
{
"epoch": 0.06633333333333333,
"grad_norm": 0.40700915455818176,
"learning_rate": 0.0002907521839815611,
"loss": 3.005060005187988,
"step": 7630
},
{
"epoch": 0.0665,
"grad_norm": 0.4053742289543152,
"learning_rate": 0.0002907245532321937,
"loss": 2.953268623352051,
"step": 7640
},
{
"epoch": 0.06666666666666667,
"grad_norm": 0.3769732713699341,
"learning_rate": 0.00029069688258349745,
"loss": 2.970975875854492,
"step": 7650
},
{
"epoch": 0.06683333333333333,
"grad_norm": 0.37044721841812134,
"learning_rate": 0.00029066917204331776,
"loss": 2.976058006286621,
"step": 7660
},
{
"epoch": 0.067,
"grad_norm": 0.42825615406036377,
"learning_rate": 0.0002906414216195114,
"loss": 2.9494274139404295,
"step": 7670
},
{
"epoch": 0.06716666666666667,
"grad_norm": 1.7334225177764893,
"learning_rate": 0.0002906136313199463,
"loss": 3.01751766204834,
"step": 7680
},
{
"epoch": 0.06733333333333333,
"grad_norm": 0.3732779622077942,
"learning_rate": 0.00029058580115250176,
"loss": 2.976676368713379,
"step": 7690
},
{
"epoch": 0.0675,
"grad_norm": 0.40125882625579834,
"learning_rate": 0.0002905579311250685,
"loss": 3.057603454589844,
"step": 7700
},
{
"epoch": 0.06766666666666667,
"grad_norm": 0.38171663880348206,
"learning_rate": 0.00029053002124554834,
"loss": 2.762685012817383,
"step": 7710
},
{
"epoch": 0.06783333333333333,
"grad_norm": 0.391777366399765,
"learning_rate": 0.0002905020715218546,
"loss": 2.91061954498291,
"step": 7720
},
{
"epoch": 0.068,
"grad_norm": 0.3986228108406067,
"learning_rate": 0.0002904740819619118,
"loss": 2.997187042236328,
"step": 7730
},
{
"epoch": 0.06816666666666667,
"grad_norm": 0.36958804726600647,
"learning_rate": 0.0002904460525736557,
"loss": 2.9954734802246095,
"step": 7740
},
{
"epoch": 0.06833333333333333,
"grad_norm": 0.3979329466819763,
"learning_rate": 0.00029041798336503345,
"loss": 2.985688018798828,
"step": 7750
},
{
"epoch": 0.0685,
"grad_norm": 0.39086639881134033,
"learning_rate": 0.00029038987434400345,
"loss": 3.0486474990844727,
"step": 7760
},
{
"epoch": 0.06866666666666667,
"grad_norm": 0.37941011786460876,
"learning_rate": 0.0002903617255185354,
"loss": 3.009590721130371,
"step": 7770
},
{
"epoch": 0.06883333333333333,
"grad_norm": 0.3874540627002716,
"learning_rate": 0.0002903335368966102,
"loss": 3.0302640914916994,
"step": 7780
},
{
"epoch": 0.069,
"grad_norm": 0.3942844867706299,
"learning_rate": 0.00029030530848622027,
"loss": 3.0470159530639647,
"step": 7790
},
{
"epoch": 0.06916666666666667,
"grad_norm": 0.372801274061203,
"learning_rate": 0.000290277040295369,
"loss": 3.06998348236084,
"step": 7800
},
{
"epoch": 0.06933333333333333,
"grad_norm": 0.3805873990058899,
"learning_rate": 0.0002902487323320713,
"loss": 3.0450016021728517,
"step": 7810
},
{
"epoch": 0.0695,
"grad_norm": 0.373600035905838,
"learning_rate": 0.0002902203846043532,
"loss": 3.0399938583374024,
"step": 7820
},
{
"epoch": 0.06966666666666667,
"grad_norm": 0.3881121873855591,
"learning_rate": 0.0002901919971202521,
"loss": 2.9438343048095703,
"step": 7830
},
{
"epoch": 0.06983333333333333,
"grad_norm": 0.384845495223999,
"learning_rate": 0.0002901635698878166,
"loss": 3.0112476348876953,
"step": 7840
},
{
"epoch": 0.07,
"grad_norm": 0.374401718378067,
"learning_rate": 0.0002901351029151067,
"loss": 3.082077407836914,
"step": 7850
},
{
"epoch": 0.07016666666666667,
"grad_norm": 0.3732111155986786,
"learning_rate": 0.0002901065962101935,
"loss": 2.8397762298583986,
"step": 7860
},
{
"epoch": 0.07033333333333333,
"grad_norm": 0.4078359603881836,
"learning_rate": 0.00029007804978115954,
"loss": 2.6799802780151367,
"step": 7870
},
{
"epoch": 0.0705,
"grad_norm": 0.36895552277565,
"learning_rate": 0.0002900494636360984,
"loss": 2.631447601318359,
"step": 7880
},
{
"epoch": 0.07066666666666667,
"grad_norm": 0.3986772298812866,
"learning_rate": 0.0002900208377831151,
"loss": 2.9338111877441406,
"step": 7890
},
{
"epoch": 0.07083333333333333,
"grad_norm": 0.39151084423065186,
"learning_rate": 0.0002899921722303259,
"loss": 3.042695236206055,
"step": 7900
},
{
"epoch": 0.071,
"grad_norm": 0.43503689765930176,
"learning_rate": 0.0002899634669858583,
"loss": 3.0772659301757814,
"step": 7910
},
{
"epoch": 0.07116666666666667,
"grad_norm": 0.3629150092601776,
"learning_rate": 0.00028993472205785095,
"loss": 3.0347219467163087,
"step": 7920
},
{
"epoch": 0.07133333333333333,
"grad_norm": 0.3640083372592926,
"learning_rate": 0.0002899059374544539,
"loss": 2.899766540527344,
"step": 7930
},
{
"epoch": 0.0715,
"grad_norm": 0.3656698763370514,
"learning_rate": 0.0002898771131838283,
"loss": 2.696305847167969,
"step": 7940
},
{
"epoch": 0.07166666666666667,
"grad_norm": 0.37310102581977844,
"learning_rate": 0.0002898482492541468,
"loss": 2.769809341430664,
"step": 7950
},
{
"epoch": 0.07183333333333333,
"grad_norm": 0.39096155762672424,
"learning_rate": 0.000289819345673593,
"loss": 2.7517889022827147,
"step": 7960
},
{
"epoch": 0.072,
"grad_norm": 0.34597668051719666,
"learning_rate": 0.0002897904024503619,
"loss": 2.7326591491699217,
"step": 7970
},
{
"epoch": 0.07216666666666667,
"grad_norm": 0.38390180468559265,
"learning_rate": 0.0002897614195926597,
"loss": 2.694135284423828,
"step": 7980
},
{
"epoch": 0.07233333333333333,
"grad_norm": 0.37960708141326904,
"learning_rate": 0.00028973239710870384,
"loss": 2.812735176086426,
"step": 7990
},
{
"epoch": 0.0725,
"grad_norm": 0.36439424753189087,
"learning_rate": 0.00028970333500672303,
"loss": 2.8109577178955076,
"step": 8000
},
{
"epoch": 0.07266666666666667,
"grad_norm": 0.3453996777534485,
"learning_rate": 0.0002896742332949572,
"loss": 2.7494396209716796,
"step": 8010
},
{
"epoch": 0.07283333333333333,
"grad_norm": 0.3709613084793091,
"learning_rate": 0.0002896450919816574,
"loss": 2.832318115234375,
"step": 8020
},
{
"epoch": 0.073,
"grad_norm": 0.38604649901390076,
"learning_rate": 0.0002896159110750862,
"loss": 2.8173288345336913,
"step": 8030
},
{
"epoch": 0.07316666666666667,
"grad_norm": 0.37968260049819946,
"learning_rate": 0.000289586690583517,
"loss": 2.829819107055664,
"step": 8040
},
{
"epoch": 0.07333333333333333,
"grad_norm": 0.35359862446784973,
"learning_rate": 0.00028955743051523465,
"loss": 2.7823715209960938,
"step": 8050
},
{
"epoch": 0.0735,
"grad_norm": 0.3639524579048157,
"learning_rate": 0.00028952813087853533,
"loss": 2.760794258117676,
"step": 8060
},
{
"epoch": 0.07366666666666667,
"grad_norm": 0.3654758930206299,
"learning_rate": 0.00028949879168172616,
"loss": 2.736991310119629,
"step": 8070
},
{
"epoch": 0.07383333333333333,
"grad_norm": 0.36181625723838806,
"learning_rate": 0.00028946941293312567,
"loss": 2.816946792602539,
"step": 8080
},
{
"epoch": 0.074,
"grad_norm": 0.3788537085056305,
"learning_rate": 0.0002894399946410636,
"loss": 2.811870002746582,
"step": 8090
},
{
"epoch": 0.07416666666666667,
"grad_norm": 0.3393183946609497,
"learning_rate": 0.0002894105368138807,
"loss": 2.723903274536133,
"step": 8100
},
{
"epoch": 0.07433333333333333,
"grad_norm": 0.3352717161178589,
"learning_rate": 0.00028938103945992926,
"loss": 2.6978361129760744,
"step": 8110
},
{
"epoch": 0.0745,
"grad_norm": 0.38219866156578064,
"learning_rate": 0.0002893515025875726,
"loss": 2.7439762115478517,
"step": 8120
},
{
"epoch": 0.07466666666666667,
"grad_norm": 0.35783448815345764,
"learning_rate": 0.00028932192620518513,
"loss": 2.7886289596557616,
"step": 8130
},
{
"epoch": 0.07483333333333334,
"grad_norm": 0.3538830578327179,
"learning_rate": 0.0002892923103211526,
"loss": 2.8963045120239257,
"step": 8140
},
{
"epoch": 0.075,
"grad_norm": 0.37107858061790466,
"learning_rate": 0.00028926265494387196,
"loss": 2.8870670318603517,
"step": 8150
},
{
"epoch": 0.07516666666666667,
"grad_norm": 0.36251598596572876,
"learning_rate": 0.00028923296008175135,
"loss": 2.8525896072387695,
"step": 8160
},
{
"epoch": 0.07533333333333334,
"grad_norm": 0.3944455087184906,
"learning_rate": 0.0002892032257432101,
"loss": 2.865979766845703,
"step": 8170
},
{
"epoch": 0.0755,
"grad_norm": 0.3710351288318634,
"learning_rate": 0.0002891734519366787,
"loss": 2.8153043746948243,
"step": 8180
},
{
"epoch": 0.07566666666666666,
"grad_norm": 0.36971551179885864,
"learning_rate": 0.0002891436386705989,
"loss": 2.8204229354858397,
"step": 8190
},
{
"epoch": 0.07583333333333334,
"grad_norm": 0.3832435607910156,
"learning_rate": 0.00028911378595342346,
"loss": 2.8466213226318358,
"step": 8200
},
{
"epoch": 0.076,
"grad_norm": 0.35473373532295227,
"learning_rate": 0.0002890838937936166,
"loss": 2.8302003860473635,
"step": 8210
},
{
"epoch": 0.07616666666666666,
"grad_norm": 0.36936044692993164,
"learning_rate": 0.0002890539621996535,
"loss": 2.7736061096191404,
"step": 8220
},
{
"epoch": 0.07633333333333334,
"grad_norm": 0.3513256013393402,
"learning_rate": 0.00028902399118002067,
"loss": 2.5801765441894533,
"step": 8230
},
{
"epoch": 0.0765,
"grad_norm": 0.35978972911834717,
"learning_rate": 0.0002889939807432157,
"loss": 2.6658184051513674,
"step": 8240
},
{
"epoch": 0.07666666666666666,
"grad_norm": 0.38274580240249634,
"learning_rate": 0.0002889639308977473,
"loss": 2.744871711730957,
"step": 8250
},
{
"epoch": 0.07683333333333334,
"grad_norm": 0.38770100474357605,
"learning_rate": 0.00028893384165213547,
"loss": 2.7592889785766603,
"step": 8260
},
{
"epoch": 0.077,
"grad_norm": 0.3790663182735443,
"learning_rate": 0.00028890371301491146,
"loss": 2.889255905151367,
"step": 8270
},
{
"epoch": 0.07716666666666666,
"grad_norm": 0.36016857624053955,
"learning_rate": 0.00028887354499461745,
"loss": 2.8479888916015623,
"step": 8280
},
{
"epoch": 0.07733333333333334,
"grad_norm": 0.380307137966156,
"learning_rate": 0.000288843337599807,
"loss": 2.846491813659668,
"step": 8290
},
{
"epoch": 0.0775,
"grad_norm": 0.36424508690834045,
"learning_rate": 0.0002888130908390447,
"loss": 2.878053665161133,
"step": 8300
},
{
"epoch": 0.07766666666666666,
"grad_norm": 0.38090968132019043,
"learning_rate": 0.0002887828047209064,
"loss": 2.855295944213867,
"step": 8310
},
{
"epoch": 0.07783333333333334,
"grad_norm": 0.35746878385543823,
"learning_rate": 0.000288752479253979,
"loss": 2.8940433502197265,
"step": 8320
},
{
"epoch": 0.078,
"grad_norm": 0.35671961307525635,
"learning_rate": 0.0002887221144468606,
"loss": 2.9748987197875976,
"step": 8330
},
{
"epoch": 0.07816666666666666,
"grad_norm": 0.37154173851013184,
"learning_rate": 0.00028869171030816053,
"loss": 2.998274040222168,
"step": 8340
},
{
"epoch": 0.07833333333333334,
"grad_norm": 0.3724062740802765,
"learning_rate": 0.00028866126684649917,
"loss": 2.8773033142089846,
"step": 8350
},
{
"epoch": 0.0785,
"grad_norm": 0.35358142852783203,
"learning_rate": 0.00028863078407050807,
"loss": 2.927072525024414,
"step": 8360
},
{
"epoch": 0.07866666666666666,
"grad_norm": 0.36544308066368103,
"learning_rate": 0.00028860026198883007,
"loss": 2.9056814193725584,
"step": 8370
},
{
"epoch": 0.07883333333333334,
"grad_norm": 0.37079834938049316,
"learning_rate": 0.0002885697006101188,
"loss": 2.8973163604736327,
"step": 8380
},
{
"epoch": 0.079,
"grad_norm": 0.35769256949424744,
"learning_rate": 0.0002885390999430395,
"loss": 2.81085147857666,
"step": 8390
},
{
"epoch": 0.07916666666666666,
"grad_norm": 0.3707377314567566,
"learning_rate": 0.0002885084599962682,
"loss": 2.793642044067383,
"step": 8400
},
{
"epoch": 0.07933333333333334,
"grad_norm": 0.40529802441596985,
"learning_rate": 0.00028847778077849214,
"loss": 2.9512815475463867,
"step": 8410
},
{
"epoch": 0.0795,
"grad_norm": 0.3493574857711792,
"learning_rate": 0.00028844706229840986,
"loss": 2.918813133239746,
"step": 8420
},
{
"epoch": 0.07966666666666666,
"grad_norm": 0.3552611768245697,
"learning_rate": 0.00028841630456473075,
"loss": 2.780997085571289,
"step": 8430
},
{
"epoch": 0.07983333333333334,
"grad_norm": 0.3614233434200287,
"learning_rate": 0.00028838550758617556,
"loss": 2.8519285202026365,
"step": 8440
},
{
"epoch": 0.08,
"grad_norm": 0.39881542325019836,
"learning_rate": 0.00028835467137147615,
"loss": 2.8958999633789064,
"step": 8450
},
{
"epoch": 0.08016666666666666,
"grad_norm": 0.3612383008003235,
"learning_rate": 0.0002883237959293753,
"loss": 2.8186050415039063,
"step": 8460
},
{
"epoch": 0.08033333333333334,
"grad_norm": 0.3497442901134491,
"learning_rate": 0.00028829288126862724,
"loss": 2.739505386352539,
"step": 8470
},
{
"epoch": 0.0805,
"grad_norm": 0.3586975336074829,
"learning_rate": 0.00028826192739799694,
"loss": 2.7719682693481444,
"step": 8480
},
{
"epoch": 0.08066666666666666,
"grad_norm": 0.3747289478778839,
"learning_rate": 0.00028823093432626083,
"loss": 2.873129463195801,
"step": 8490
},
{
"epoch": 0.08083333333333333,
"grad_norm": 0.34539350867271423,
"learning_rate": 0.0002881999020622063,
"loss": 2.7382030487060547,
"step": 8500
},
{
"epoch": 0.081,
"grad_norm": 0.4155365824699402,
"learning_rate": 0.00028816883061463176,
"loss": 2.7552820205688477,
"step": 8510
},
{
"epoch": 0.08116666666666666,
"grad_norm": 0.40032505989074707,
"learning_rate": 0.0002881377199923469,
"loss": 2.8610322952270506,
"step": 8520
},
{
"epoch": 0.08133333333333333,
"grad_norm": 0.3721928894519806,
"learning_rate": 0.0002881065702041724,
"loss": 2.8690778732299806,
"step": 8530
},
{
"epoch": 0.0815,
"grad_norm": 0.3590529263019562,
"learning_rate": 0.0002880753812589402,
"loss": 2.8733280181884764,
"step": 8540
},
{
"epoch": 0.08166666666666667,
"grad_norm": 0.3880694508552551,
"learning_rate": 0.00028804415316549314,
"loss": 2.819232940673828,
"step": 8550
},
{
"epoch": 0.08183333333333333,
"grad_norm": 0.361520379781723,
"learning_rate": 0.00028801288593268527,
"loss": 2.919606590270996,
"step": 8560
},
{
"epoch": 0.082,
"grad_norm": 0.3785449266433716,
"learning_rate": 0.0002879815795693818,
"loss": 3.00650691986084,
"step": 8570
},
{
"epoch": 0.08216666666666667,
"grad_norm": 0.3418520390987396,
"learning_rate": 0.00028795023408445877,
"loss": 2.9630847930908204,
"step": 8580
},
{
"epoch": 0.08233333333333333,
"grad_norm": 0.35394683480262756,
"learning_rate": 0.0002879188494868037,
"loss": 2.8360586166381836,
"step": 8590
},
{
"epoch": 0.0825,
"grad_norm": 0.38963237404823303,
"learning_rate": 0.0002878874257853149,
"loss": 2.954873275756836,
"step": 8600
},
{
"epoch": 0.08266666666666667,
"grad_norm": 0.37688371539115906,
"learning_rate": 0.0002878559629889019,
"loss": 3.0085628509521483,
"step": 8610
},
{
"epoch": 0.08283333333333333,
"grad_norm": 0.37673714756965637,
"learning_rate": 0.0002878244611064852,
"loss": 3.001415824890137,
"step": 8620
},
{
"epoch": 0.083,
"grad_norm": 0.3783765733242035,
"learning_rate": 0.0002877929201469965,
"loss": 2.924319839477539,
"step": 8630
},
{
"epoch": 0.08316666666666667,
"grad_norm": 0.3794272541999817,
"learning_rate": 0.0002877613401193786,
"loss": 2.8281463623046874,
"step": 8640
},
{
"epoch": 0.08333333333333333,
"grad_norm": 0.3879368007183075,
"learning_rate": 0.0002877297210325853,
"loss": 2.8229066848754885,
"step": 8650
},
{
"epoch": 0.0835,
"grad_norm": 0.3800705373287201,
"learning_rate": 0.00028769806289558145,
"loss": 2.8100061416625977,
"step": 8660
},
{
"epoch": 0.08366666666666667,
"grad_norm": 0.3919481039047241,
"learning_rate": 0.00028766636571734297,
"loss": 2.933970069885254,
"step": 8670
},
{
"epoch": 0.08383333333333333,
"grad_norm": 0.3753172755241394,
"learning_rate": 0.000287634629506857,
"loss": 2.963550567626953,
"step": 8680
},
{
"epoch": 0.084,
"grad_norm": 0.374881386756897,
"learning_rate": 0.0002876028542731216,
"loss": 3.0050731658935548,
"step": 8690
},
{
"epoch": 0.08416666666666667,
"grad_norm": 0.3827640414237976,
"learning_rate": 0.0002875710400251459,
"loss": 2.993809127807617,
"step": 8700
},
{
"epoch": 0.08433333333333333,
"grad_norm": 0.38827770948410034,
"learning_rate": 0.00028753918677195013,
"loss": 2.966595458984375,
"step": 8710
},
{
"epoch": 0.0845,
"grad_norm": 0.3805679380893707,
"learning_rate": 0.0002875072945225656,
"loss": 2.9449575424194334,
"step": 8720
},
{
"epoch": 0.08466666666666667,
"grad_norm": 0.401265949010849,
"learning_rate": 0.0002874753632860347,
"loss": 3.0216648101806642,
"step": 8730
},
{
"epoch": 0.08483333333333333,
"grad_norm": 0.4089195728302002,
"learning_rate": 0.00028744339307141067,
"loss": 2.949349021911621,
"step": 8740
},
{
"epoch": 0.085,
"grad_norm": 0.3903751075267792,
"learning_rate": 0.0002874113838877581,
"loss": 2.9601430892944336,
"step": 8750
},
{
"epoch": 0.08516666666666667,
"grad_norm": 0.3800072968006134,
"learning_rate": 0.00028737933574415246,
"loss": 2.9771102905273437,
"step": 8760
},
{
"epoch": 0.08533333333333333,
"grad_norm": 0.35385075211524963,
"learning_rate": 0.00028734724864968024,
"loss": 2.8619287490844725,
"step": 8770
},
{
"epoch": 0.0855,
"grad_norm": 0.3094714879989624,
"learning_rate": 0.00028731512261343905,
"loss": 2.551932716369629,
"step": 8780
},
{
"epoch": 0.08566666666666667,
"grad_norm": 0.3456581234931946,
"learning_rate": 0.0002872829576445376,
"loss": 2.550779914855957,
"step": 8790
},
{
"epoch": 0.08583333333333333,
"grad_norm": 0.33465033769607544,
"learning_rate": 0.00028725075375209537,
"loss": 2.7116863250732424,
"step": 8800
},
{
"epoch": 0.086,
"grad_norm": 0.3668154180049896,
"learning_rate": 0.0002872185109452432,
"loss": 2.7546573638916017,
"step": 8810
},
{
"epoch": 0.08616666666666667,
"grad_norm": 0.40015819668769836,
"learning_rate": 0.00028718622923312276,
"loss": 2.815192985534668,
"step": 8820
},
{
"epoch": 0.08633333333333333,
"grad_norm": 0.4568469226360321,
"learning_rate": 0.0002871539086248869,
"loss": 2.9397647857666014,
"step": 8830
},
{
"epoch": 0.0865,
"grad_norm": 0.3752466142177582,
"learning_rate": 0.00028712154912969933,
"loss": 2.997811126708984,
"step": 8840
},
{
"epoch": 0.08666666666666667,
"grad_norm": 0.3966951072216034,
"learning_rate": 0.00028708915075673487,
"loss": 2.9600738525390624,
"step": 8850
},
{
"epoch": 0.08683333333333333,
"grad_norm": 0.385616660118103,
"learning_rate": 0.0002870567135151794,
"loss": 2.995475959777832,
"step": 8860
},
{
"epoch": 0.087,
"grad_norm": 0.41171568632125854,
"learning_rate": 0.00028702423741422975,
"loss": 2.9510320663452148,
"step": 8870
},
{
"epoch": 0.08716666666666667,
"grad_norm": 0.37604814767837524,
"learning_rate": 0.00028699172246309386,
"loss": 2.942887878417969,
"step": 8880
},
{
"epoch": 0.08733333333333333,
"grad_norm": 0.359893262386322,
"learning_rate": 0.0002869591686709905,
"loss": 2.897919845581055,
"step": 8890
},
{
"epoch": 0.0875,
"grad_norm": 0.3566887676715851,
"learning_rate": 0.0002869265760471497,
"loss": 2.8465831756591795,
"step": 8900
},
{
"epoch": 0.08766666666666667,
"grad_norm": 0.365549236536026,
"learning_rate": 0.0002868939446008123,
"loss": 2.8258132934570312,
"step": 8910
},
{
"epoch": 0.08783333333333333,
"grad_norm": 0.38654187321662903,
"learning_rate": 0.0002868612743412303,
"loss": 2.869220161437988,
"step": 8920
},
{
"epoch": 0.088,
"grad_norm": 0.34111154079437256,
"learning_rate": 0.00028682856527766657,
"loss": 2.8037746429443358,
"step": 8930
},
{
"epoch": 0.08816666666666667,
"grad_norm": 0.35901686549186707,
"learning_rate": 0.000286795817419395,
"loss": 2.9024696350097656,
"step": 8940
},
{
"epoch": 0.08833333333333333,
"grad_norm": 0.3486897945404053,
"learning_rate": 0.0002867630307757006,
"loss": 2.8580015182495115,
"step": 8950
},
{
"epoch": 0.0885,
"grad_norm": 0.3644869923591614,
"learning_rate": 0.0002867302053558793,
"loss": 2.7919416427612305,
"step": 8960
},
{
"epoch": 0.08866666666666667,
"grad_norm": 0.36419951915740967,
"learning_rate": 0.0002866973411692379,
"loss": 2.818129539489746,
"step": 8970
},
{
"epoch": 0.08883333333333333,
"grad_norm": 0.37151747941970825,
"learning_rate": 0.0002866644382250945,
"loss": 2.8000688552856445,
"step": 8980
},
{
"epoch": 0.089,
"grad_norm": 0.41001400351524353,
"learning_rate": 0.0002866314965327778,
"loss": 2.8964866638183593,
"step": 8990
},
{
"epoch": 0.08916666666666667,
"grad_norm": 0.3449036777019501,
"learning_rate": 0.00028659851610162785,
"loss": 2.769412803649902,
"step": 9000
},
{
"epoch": 0.08933333333333333,
"grad_norm": 0.3284320533275604,
"learning_rate": 0.0002865654969409954,
"loss": 2.8089309692382813,
"step": 9010
},
{
"epoch": 0.0895,
"grad_norm": 0.3335931599140167,
"learning_rate": 0.00028653243906024247,
"loss": 2.808209228515625,
"step": 9020
},
{
"epoch": 0.08966666666666667,
"grad_norm": 0.3487749993801117,
"learning_rate": 0.0002864993424687417,
"loss": 2.732996940612793,
"step": 9030
},
{
"epoch": 0.08983333333333333,
"grad_norm": 0.3709432780742645,
"learning_rate": 0.000286466207175877,
"loss": 2.707015609741211,
"step": 9040
},
{
"epoch": 0.09,
"grad_norm": 0.3400644063949585,
"learning_rate": 0.0002864330331910431,
"loss": 2.7739015579223634,
"step": 9050
},
{
"epoch": 0.09016666666666667,
"grad_norm": 0.3754271864891052,
"learning_rate": 0.0002863998205236458,
"loss": 2.756894111633301,
"step": 9060
},
{
"epoch": 0.09033333333333333,
"grad_norm": 0.36973458528518677,
"learning_rate": 0.0002863665691831017,
"loss": 2.7984287261962892,
"step": 9070
},
{
"epoch": 0.0905,
"grad_norm": 0.34491243958473206,
"learning_rate": 0.0002863332791788387,
"loss": 2.8282186508178713,
"step": 9080
},
{
"epoch": 0.09066666666666667,
"grad_norm": 0.36020711064338684,
"learning_rate": 0.00028629995052029524,
"loss": 2.831917953491211,
"step": 9090
},
{
"epoch": 0.09083333333333334,
"grad_norm": 0.37985268235206604,
"learning_rate": 0.00028626658321692096,
"loss": 2.8649354934692384,
"step": 9100
},
{
"epoch": 0.091,
"grad_norm": 0.39229467511177063,
"learning_rate": 0.00028623317727817645,
"loss": 2.8219844818115236,
"step": 9110
},
{
"epoch": 0.09116666666666666,
"grad_norm": 0.3532887399196625,
"learning_rate": 0.0002861997327135333,
"loss": 2.7614973068237303,
"step": 9120
},
{
"epoch": 0.09133333333333334,
"grad_norm": 0.3597084581851959,
"learning_rate": 0.0002861662495324738,
"loss": 2.870098686218262,
"step": 9130
},
{
"epoch": 0.0915,
"grad_norm": 0.3700224459171295,
"learning_rate": 0.00028613272774449154,
"loss": 2.8357120513916017,
"step": 9140
},
{
"epoch": 0.09166666666666666,
"grad_norm": 0.3505774438381195,
"learning_rate": 0.0002860991673590908,
"loss": 2.754099464416504,
"step": 9150
},
{
"epoch": 0.09183333333333334,
"grad_norm": 0.34579479694366455,
"learning_rate": 0.00028606556838578685,
"loss": 2.7998725891113283,
"step": 9160
},
{
"epoch": 0.092,
"grad_norm": 0.36511072516441345,
"learning_rate": 0.000286031930834106,
"loss": 2.835207939147949,
"step": 9170
},
{
"epoch": 0.09216666666666666,
"grad_norm": 0.3592240810394287,
"learning_rate": 0.0002859982547135854,
"loss": 2.8685771942138674,
"step": 9180
},
{
"epoch": 0.09233333333333334,
"grad_norm": 0.3856920897960663,
"learning_rate": 0.00028596454003377317,
"loss": 2.8370105743408205,
"step": 9190
},
{
"epoch": 0.0925,
"grad_norm": 0.35312730073928833,
"learning_rate": 0.00028593078680422837,
"loss": 2.8010177612304688,
"step": 9200
},
{
"epoch": 0.09266666666666666,
"grad_norm": 0.3775421679019928,
"learning_rate": 0.0002858969950345209,
"loss": 2.7878562927246096,
"step": 9210
},
{
"epoch": 0.09283333333333334,
"grad_norm": 0.38095957040786743,
"learning_rate": 0.00028586316473423187,
"loss": 2.8107866287231444,
"step": 9220
},
{
"epoch": 0.093,
"grad_norm": 0.3698684573173523,
"learning_rate": 0.0002858292959129529,
"loss": 2.7675500869750977,
"step": 9230
},
{
"epoch": 0.09316666666666666,
"grad_norm": 0.36145222187042236,
"learning_rate": 0.00028579538858028685,
"loss": 2.8425624847412108,
"step": 9240
},
{
"epoch": 0.09333333333333334,
"grad_norm": 0.3630043864250183,
"learning_rate": 0.00028576144274584735,
"loss": 2.744532585144043,
"step": 9250
},
{
"epoch": 0.0935,
"grad_norm": 0.35888129472732544,
"learning_rate": 0.00028572745841925904,
"loss": 2.755132865905762,
"step": 9260
},
{
"epoch": 0.09366666666666666,
"grad_norm": 0.3507837653160095,
"learning_rate": 0.0002856934356101574,
"loss": 2.8252931594848634,
"step": 9270
},
{
"epoch": 0.09383333333333334,
"grad_norm": 0.3669086694717407,
"learning_rate": 0.0002856593743281888,
"loss": 2.8739065170288085,
"step": 9280
},
{
"epoch": 0.094,
"grad_norm": 0.3655420243740082,
"learning_rate": 0.0002856252745830106,
"loss": 2.866586112976074,
"step": 9290
},
{
"epoch": 0.09416666666666666,
"grad_norm": 0.35320961475372314,
"learning_rate": 0.00028559113638429104,
"loss": 2.806113433837891,
"step": 9300
},
{
"epoch": 0.09433333333333334,
"grad_norm": 0.3701521158218384,
"learning_rate": 0.00028555695974170924,
"loss": 2.7944141387939454,
"step": 9310
},
{
"epoch": 0.0945,
"grad_norm": 0.3411415219306946,
"learning_rate": 0.0002855227446649552,
"loss": 2.693042755126953,
"step": 9320
},
{
"epoch": 0.09466666666666666,
"grad_norm": 0.34341827034950256,
"learning_rate": 0.0002854884911637299,
"loss": 2.6667823791503906,
"step": 9330
},
{
"epoch": 0.09483333333333334,
"grad_norm": 0.3616132140159607,
"learning_rate": 0.00028545419924774513,
"loss": 2.6700407028198243,
"step": 9340
},
{
"epoch": 0.095,
"grad_norm": 0.3750063180923462,
"learning_rate": 0.00028541986892672357,
"loss": 2.753375244140625,
"step": 9350
},
{
"epoch": 0.09516666666666666,
"grad_norm": 0.36249396204948425,
"learning_rate": 0.00028538550021039885,
"loss": 2.8885286331176756,
"step": 9360
},
{
"epoch": 0.09533333333333334,
"grad_norm": 0.3946261405944824,
"learning_rate": 0.0002853510931085155,
"loss": 2.873586082458496,
"step": 9370
},
{
"epoch": 0.0955,
"grad_norm": 0.3485543131828308,
"learning_rate": 0.0002853166476308288,
"loss": 2.8844079971313477,
"step": 9380
},
{
"epoch": 0.09566666666666666,
"grad_norm": 0.36728721857070923,
"learning_rate": 0.00028528216378710517,
"loss": 2.9377586364746096,
"step": 9390
},
{
"epoch": 0.09583333333333334,
"grad_norm": 0.3543992340564728,
"learning_rate": 0.00028524764158712157,
"loss": 2.8414134979248047,
"step": 9400
},
{
"epoch": 0.096,
"grad_norm": 0.35999006032943726,
"learning_rate": 0.000285213081040666,
"loss": 2.8607666015625,
"step": 9410
},
{
"epoch": 0.09616666666666666,
"grad_norm": 0.354253351688385,
"learning_rate": 0.0002851784821575375,
"loss": 2.9069902420043947,
"step": 9420
},
{
"epoch": 0.09633333333333334,
"grad_norm": 0.35411810874938965,
"learning_rate": 0.00028514384494754565,
"loss": 2.7570217132568358,
"step": 9430
},
{
"epoch": 0.0965,
"grad_norm": 0.3394506871700287,
"learning_rate": 0.0002851091694205111,
"loss": 2.7525148391723633,
"step": 9440
},
{
"epoch": 0.09666666666666666,
"grad_norm": 0.3472767770290375,
"learning_rate": 0.00028507445558626545,
"loss": 2.5929914474487306,
"step": 9450
},
{
"epoch": 0.09683333333333333,
"grad_norm": 0.3445834517478943,
"learning_rate": 0.0002850397034546509,
"loss": 2.6706295013427734,
"step": 9460
},
{
"epoch": 0.097,
"grad_norm": 0.3816157281398773,
"learning_rate": 0.00028500491303552067,
"loss": 2.8304374694824217,
"step": 9470
},
{
"epoch": 0.09716666666666667,
"grad_norm": 0.3813958168029785,
"learning_rate": 0.00028497008433873885,
"loss": 2.9113664627075195,
"step": 9480
},
{
"epoch": 0.09733333333333333,
"grad_norm": 0.3773977756500244,
"learning_rate": 0.00028493521737418034,
"loss": 2.907037544250488,
"step": 9490
},
{
"epoch": 0.0975,
"grad_norm": 0.3632221519947052,
"learning_rate": 0.0002849003121517309,
"loss": 2.8818357467651365,
"step": 9500
},
{
"epoch": 0.09766666666666667,
"grad_norm": 0.3970240652561188,
"learning_rate": 0.0002848653686812871,
"loss": 2.9164527893066405,
"step": 9510
},
{
"epoch": 0.09783333333333333,
"grad_norm": 0.3500790297985077,
"learning_rate": 0.0002848303869727564,
"loss": 2.8345727920532227,
"step": 9520
},
{
"epoch": 0.098,
"grad_norm": 0.3632773160934448,
"learning_rate": 0.0002847953670360571,
"loss": 2.873233604431152,
"step": 9530
},
{
"epoch": 0.09816666666666667,
"grad_norm": 0.376605749130249,
"learning_rate": 0.0002847603088811183,
"loss": 2.85976619720459,
"step": 9540
},
{
"epoch": 0.09833333333333333,
"grad_norm": 0.3669801950454712,
"learning_rate": 0.00028472521251787997,
"loss": 2.720789337158203,
"step": 9550
},
{
"epoch": 0.0985,
"grad_norm": 0.36518895626068115,
"learning_rate": 0.00028469007795629294,
"loss": 2.7442270278930665,
"step": 9560
},
{
"epoch": 0.09866666666666667,
"grad_norm": 0.3775388300418854,
"learning_rate": 0.0002846549052063189,
"loss": 2.7367034912109376,
"step": 9570
},
{
"epoch": 0.09883333333333333,
"grad_norm": 0.406002402305603,
"learning_rate": 0.0002846196942779301,
"loss": 2.8679609298706055,
"step": 9580
},
{
"epoch": 0.099,
"grad_norm": 0.39087504148483276,
"learning_rate": 0.00028458444518110996,
"loss": 2.963069725036621,
"step": 9590
},
{
"epoch": 0.09916666666666667,
"grad_norm": 0.3501756191253662,
"learning_rate": 0.0002845491579258526,
"loss": 2.8137041091918946,
"step": 9600
},
{
"epoch": 0.09933333333333333,
"grad_norm": 0.34010085463523865,
"learning_rate": 0.0002845138325221628,
"loss": 2.802777862548828,
"step": 9610
},
{
"epoch": 0.0995,
"grad_norm": 0.35873836278915405,
"learning_rate": 0.0002844784689800565,
"loss": 2.8310117721557617,
"step": 9620
},
{
"epoch": 0.09966666666666667,
"grad_norm": 0.3960883319377899,
"learning_rate": 0.00028444306730956016,
"loss": 2.8962934494018553,
"step": 9630
},
{
"epoch": 0.09983333333333333,
"grad_norm": 0.3697907626628876,
"learning_rate": 0.00028440762752071104,
"loss": 2.8383338928222654,
"step": 9640
},
{
"epoch": 0.1,
"grad_norm": 0.38671207427978516,
"learning_rate": 0.0002843721496235574,
"loss": 2.874836540222168,
"step": 9650
}
],
"logging_steps": 10,
"max_steps": 60000,
"num_input_tokens_seen": 0,
"num_train_epochs": 9223372036854775807,
"save_steps": 50,
"stateful_callbacks": {
"TrainerControl": {
"args": {
"should_epoch_stop": false,
"should_evaluate": false,
"should_log": false,
"should_save": true,
"should_training_stop": false
},
"attributes": {}
}
},
"total_flos": 3.363846410289021e+18,
"train_batch_size": 4,
"trial_name": null,
"trial_params": null
}