qdocpeft / checkpoint-1200 /trainer_state.json
ugaoo's picture
Upload folder using huggingface_hub
c3d42c2 verified
{
"best_metric": null,
"best_model_checkpoint": null,
"epoch": 1.0,
"eval_steps": 500,
"global_step": 1200,
"is_hyper_param_search": false,
"is_local_process_zero": true,
"is_world_process_zero": true,
"log_history": [
{
"epoch": 0.0008333333333333334,
"grad_norm": 1.4100404977798462,
"learning_rate": 5.0000000000000004e-08,
"loss": 1.0637,
"step": 1
},
{
"epoch": 0.0016666666666666668,
"grad_norm": 1.3641573190689087,
"learning_rate": 1.0000000000000001e-07,
"loss": 1.0565,
"step": 2
},
{
"epoch": 0.0025,
"grad_norm": 1.366743564605713,
"learning_rate": 1.5000000000000002e-07,
"loss": 1.0545,
"step": 3
},
{
"epoch": 0.0033333333333333335,
"grad_norm": 1.3015836477279663,
"learning_rate": 2.0000000000000002e-07,
"loss": 1.0469,
"step": 4
},
{
"epoch": 0.004166666666666667,
"grad_norm": 1.3047188520431519,
"learning_rate": 2.5000000000000004e-07,
"loss": 1.0484,
"step": 5
},
{
"epoch": 0.005,
"grad_norm": 1.3143898248672485,
"learning_rate": 3.0000000000000004e-07,
"loss": 1.0373,
"step": 6
},
{
"epoch": 0.005833333333333334,
"grad_norm": 1.3029078245162964,
"learning_rate": 3.5000000000000004e-07,
"loss": 1.0421,
"step": 7
},
{
"epoch": 0.006666666666666667,
"grad_norm": 1.326572299003601,
"learning_rate": 4.0000000000000003e-07,
"loss": 1.0509,
"step": 8
},
{
"epoch": 0.0075,
"grad_norm": 1.329242467880249,
"learning_rate": 4.5000000000000003e-07,
"loss": 1.0474,
"step": 9
},
{
"epoch": 0.008333333333333333,
"grad_norm": 1.268184781074524,
"learning_rate": 5.000000000000001e-07,
"loss": 1.0415,
"step": 10
},
{
"epoch": 0.009166666666666667,
"grad_norm": 1.3835687637329102,
"learning_rate": 5.5e-07,
"loss": 1.0718,
"step": 11
},
{
"epoch": 0.01,
"grad_norm": 1.3036370277404785,
"learning_rate": 6.000000000000001e-07,
"loss": 1.044,
"step": 12
},
{
"epoch": 0.010833333333333334,
"grad_norm": 1.2718889713287354,
"learning_rate": 6.5e-07,
"loss": 1.02,
"step": 13
},
{
"epoch": 0.011666666666666667,
"grad_norm": 1.2253961563110352,
"learning_rate": 7.000000000000001e-07,
"loss": 1.0153,
"step": 14
},
{
"epoch": 0.0125,
"grad_norm": 1.230002999305725,
"learning_rate": 7.5e-07,
"loss": 1.0349,
"step": 15
},
{
"epoch": 0.013333333333333334,
"grad_norm": 1.218577265739441,
"learning_rate": 8.000000000000001e-07,
"loss": 1.0274,
"step": 16
},
{
"epoch": 0.014166666666666666,
"grad_norm": 1.2099354267120361,
"learning_rate": 8.500000000000001e-07,
"loss": 1.052,
"step": 17
},
{
"epoch": 0.015,
"grad_norm": 1.1288594007492065,
"learning_rate": 9.000000000000001e-07,
"loss": 1.0296,
"step": 18
},
{
"epoch": 0.015833333333333335,
"grad_norm": 1.0674114227294922,
"learning_rate": 9.500000000000001e-07,
"loss": 1.0316,
"step": 19
},
{
"epoch": 0.016666666666666666,
"grad_norm": 1.0220268964767456,
"learning_rate": 1.0000000000000002e-06,
"loss": 1.0331,
"step": 20
},
{
"epoch": 0.0175,
"grad_norm": 1.0226874351501465,
"learning_rate": 1.0500000000000001e-06,
"loss": 1.0134,
"step": 21
},
{
"epoch": 0.018333333333333333,
"grad_norm": 0.960559070110321,
"learning_rate": 1.1e-06,
"loss": 1.0047,
"step": 22
},
{
"epoch": 0.019166666666666665,
"grad_norm": 0.9319172501564026,
"learning_rate": 1.1500000000000002e-06,
"loss": 1.0074,
"step": 23
},
{
"epoch": 0.02,
"grad_norm": 0.8969493508338928,
"learning_rate": 1.2000000000000002e-06,
"loss": 0.9932,
"step": 24
},
{
"epoch": 0.020833333333333332,
"grad_norm": 0.8810667991638184,
"learning_rate": 1.25e-06,
"loss": 0.959,
"step": 25
},
{
"epoch": 0.021666666666666667,
"grad_norm": 0.8658521175384521,
"learning_rate": 1.3e-06,
"loss": 0.9808,
"step": 26
},
{
"epoch": 0.0225,
"grad_norm": 0.8283625841140747,
"learning_rate": 1.3500000000000002e-06,
"loss": 0.9857,
"step": 27
},
{
"epoch": 0.023333333333333334,
"grad_norm": 0.7852944135665894,
"learning_rate": 1.4000000000000001e-06,
"loss": 0.9626,
"step": 28
},
{
"epoch": 0.024166666666666666,
"grad_norm": 0.7574114799499512,
"learning_rate": 1.45e-06,
"loss": 0.961,
"step": 29
},
{
"epoch": 0.025,
"grad_norm": 0.6753239631652832,
"learning_rate": 1.5e-06,
"loss": 0.9559,
"step": 30
},
{
"epoch": 0.025833333333333333,
"grad_norm": 0.7140569090843201,
"learning_rate": 1.5500000000000002e-06,
"loss": 0.9888,
"step": 31
},
{
"epoch": 0.02666666666666667,
"grad_norm": 0.6629248261451721,
"learning_rate": 1.6000000000000001e-06,
"loss": 0.9743,
"step": 32
},
{
"epoch": 0.0275,
"grad_norm": 0.6247519850730896,
"learning_rate": 1.6500000000000003e-06,
"loss": 0.9632,
"step": 33
},
{
"epoch": 0.028333333333333332,
"grad_norm": 0.6117823719978333,
"learning_rate": 1.7000000000000002e-06,
"loss": 0.9748,
"step": 34
},
{
"epoch": 0.029166666666666667,
"grad_norm": 0.588638961315155,
"learning_rate": 1.75e-06,
"loss": 0.925,
"step": 35
},
{
"epoch": 0.03,
"grad_norm": 0.5774214863777161,
"learning_rate": 1.8000000000000001e-06,
"loss": 0.9525,
"step": 36
},
{
"epoch": 0.030833333333333334,
"grad_norm": 0.5576947331428528,
"learning_rate": 1.85e-06,
"loss": 0.9276,
"step": 37
},
{
"epoch": 0.03166666666666667,
"grad_norm": 0.5530500411987305,
"learning_rate": 1.9000000000000002e-06,
"loss": 0.9336,
"step": 38
},
{
"epoch": 0.0325,
"grad_norm": 0.526444673538208,
"learning_rate": 1.9500000000000004e-06,
"loss": 0.9472,
"step": 39
},
{
"epoch": 0.03333333333333333,
"grad_norm": 0.522305428981781,
"learning_rate": 2.0000000000000003e-06,
"loss": 0.9391,
"step": 40
},
{
"epoch": 0.034166666666666665,
"grad_norm": 0.5324348211288452,
"learning_rate": 2.05e-06,
"loss": 0.932,
"step": 41
},
{
"epoch": 0.035,
"grad_norm": 0.5140389800071716,
"learning_rate": 2.1000000000000002e-06,
"loss": 0.936,
"step": 42
},
{
"epoch": 0.035833333333333335,
"grad_norm": 0.4937451183795929,
"learning_rate": 2.15e-06,
"loss": 0.9156,
"step": 43
},
{
"epoch": 0.03666666666666667,
"grad_norm": 0.4914454221725464,
"learning_rate": 2.2e-06,
"loss": 0.9017,
"step": 44
},
{
"epoch": 0.0375,
"grad_norm": 0.463674396276474,
"learning_rate": 2.25e-06,
"loss": 0.919,
"step": 45
},
{
"epoch": 0.03833333333333333,
"grad_norm": 0.47291600704193115,
"learning_rate": 2.3000000000000004e-06,
"loss": 0.9055,
"step": 46
},
{
"epoch": 0.03916666666666667,
"grad_norm": 0.4750823974609375,
"learning_rate": 2.35e-06,
"loss": 0.9014,
"step": 47
},
{
"epoch": 0.04,
"grad_norm": 0.46855229139328003,
"learning_rate": 2.4000000000000003e-06,
"loss": 0.913,
"step": 48
},
{
"epoch": 0.04083333333333333,
"grad_norm": 0.44282588362693787,
"learning_rate": 2.4500000000000003e-06,
"loss": 0.8786,
"step": 49
},
{
"epoch": 0.041666666666666664,
"grad_norm": 0.44580671191215515,
"learning_rate": 2.5e-06,
"loss": 0.8723,
"step": 50
},
{
"epoch": 0.0425,
"grad_norm": 0.4055674076080322,
"learning_rate": 2.55e-06,
"loss": 0.8608,
"step": 51
},
{
"epoch": 0.043333333333333335,
"grad_norm": 0.4235178530216217,
"learning_rate": 2.6e-06,
"loss": 0.8634,
"step": 52
},
{
"epoch": 0.04416666666666667,
"grad_norm": 0.40961897373199463,
"learning_rate": 2.6500000000000005e-06,
"loss": 0.8787,
"step": 53
},
{
"epoch": 0.045,
"grad_norm": 0.4077180325984955,
"learning_rate": 2.7000000000000004e-06,
"loss": 0.8812,
"step": 54
},
{
"epoch": 0.04583333333333333,
"grad_norm": 0.3950030207633972,
"learning_rate": 2.7500000000000004e-06,
"loss": 0.9077,
"step": 55
},
{
"epoch": 0.04666666666666667,
"grad_norm": 0.39791586995124817,
"learning_rate": 2.8000000000000003e-06,
"loss": 0.8598,
"step": 56
},
{
"epoch": 0.0475,
"grad_norm": 0.3972901999950409,
"learning_rate": 2.85e-06,
"loss": 0.895,
"step": 57
},
{
"epoch": 0.04833333333333333,
"grad_norm": 0.3858731687068939,
"learning_rate": 2.9e-06,
"loss": 0.8546,
"step": 58
},
{
"epoch": 0.049166666666666664,
"grad_norm": 0.3872743248939514,
"learning_rate": 2.95e-06,
"loss": 0.8564,
"step": 59
},
{
"epoch": 0.05,
"grad_norm": 0.39333608746528625,
"learning_rate": 3e-06,
"loss": 0.8712,
"step": 60
},
{
"epoch": 0.050833333333333335,
"grad_norm": 0.3825393319129944,
"learning_rate": 3.05e-06,
"loss": 0.8393,
"step": 61
},
{
"epoch": 0.051666666666666666,
"grad_norm": 0.37787196040153503,
"learning_rate": 3.1000000000000004e-06,
"loss": 0.8615,
"step": 62
},
{
"epoch": 0.0525,
"grad_norm": 0.3709644675254822,
"learning_rate": 3.1500000000000003e-06,
"loss": 0.8514,
"step": 63
},
{
"epoch": 0.05333333333333334,
"grad_norm": 0.37211689352989197,
"learning_rate": 3.2000000000000003e-06,
"loss": 0.8692,
"step": 64
},
{
"epoch": 0.05416666666666667,
"grad_norm": 0.368915319442749,
"learning_rate": 3.2500000000000002e-06,
"loss": 0.8569,
"step": 65
},
{
"epoch": 0.055,
"grad_norm": 0.37553271651268005,
"learning_rate": 3.3000000000000006e-06,
"loss": 0.8795,
"step": 66
},
{
"epoch": 0.05583333333333333,
"grad_norm": 0.352721631526947,
"learning_rate": 3.3500000000000005e-06,
"loss": 0.8358,
"step": 67
},
{
"epoch": 0.056666666666666664,
"grad_norm": 0.36005082726478577,
"learning_rate": 3.4000000000000005e-06,
"loss": 0.8384,
"step": 68
},
{
"epoch": 0.0575,
"grad_norm": 0.3655393421649933,
"learning_rate": 3.45e-06,
"loss": 0.8483,
"step": 69
},
{
"epoch": 0.058333333333333334,
"grad_norm": 0.36913320422172546,
"learning_rate": 3.5e-06,
"loss": 0.8355,
"step": 70
},
{
"epoch": 0.059166666666666666,
"grad_norm": 0.35906630754470825,
"learning_rate": 3.5500000000000003e-06,
"loss": 0.8362,
"step": 71
},
{
"epoch": 0.06,
"grad_norm": 0.35950616002082825,
"learning_rate": 3.6000000000000003e-06,
"loss": 0.8419,
"step": 72
},
{
"epoch": 0.060833333333333336,
"grad_norm": 0.35736384987831116,
"learning_rate": 3.65e-06,
"loss": 0.8039,
"step": 73
},
{
"epoch": 0.06166666666666667,
"grad_norm": 0.34134334325790405,
"learning_rate": 3.7e-06,
"loss": 0.8325,
"step": 74
},
{
"epoch": 0.0625,
"grad_norm": 0.35043129324913025,
"learning_rate": 3.7500000000000005e-06,
"loss": 0.8374,
"step": 75
},
{
"epoch": 0.06333333333333334,
"grad_norm": 0.3583405017852783,
"learning_rate": 3.8000000000000005e-06,
"loss": 0.8379,
"step": 76
},
{
"epoch": 0.06416666666666666,
"grad_norm": 0.3533692955970764,
"learning_rate": 3.85e-06,
"loss": 0.8408,
"step": 77
},
{
"epoch": 0.065,
"grad_norm": 0.33973240852355957,
"learning_rate": 3.900000000000001e-06,
"loss": 0.8432,
"step": 78
},
{
"epoch": 0.06583333333333333,
"grad_norm": 0.35633859038352966,
"learning_rate": 3.95e-06,
"loss": 0.8436,
"step": 79
},
{
"epoch": 0.06666666666666667,
"grad_norm": 0.3565576374530792,
"learning_rate": 4.000000000000001e-06,
"loss": 0.8369,
"step": 80
},
{
"epoch": 0.0675,
"grad_norm": 0.3609810173511505,
"learning_rate": 4.05e-06,
"loss": 0.8073,
"step": 81
},
{
"epoch": 0.06833333333333333,
"grad_norm": 0.35566118359565735,
"learning_rate": 4.1e-06,
"loss": 0.8445,
"step": 82
},
{
"epoch": 0.06916666666666667,
"grad_norm": 0.35150593519210815,
"learning_rate": 4.15e-06,
"loss": 0.8718,
"step": 83
},
{
"epoch": 0.07,
"grad_norm": 0.35017678141593933,
"learning_rate": 4.2000000000000004e-06,
"loss": 0.8618,
"step": 84
},
{
"epoch": 0.07083333333333333,
"grad_norm": 0.3438548743724823,
"learning_rate": 4.25e-06,
"loss": 0.8255,
"step": 85
},
{
"epoch": 0.07166666666666667,
"grad_norm": 0.3373638391494751,
"learning_rate": 4.3e-06,
"loss": 0.8342,
"step": 86
},
{
"epoch": 0.0725,
"grad_norm": 0.3417414128780365,
"learning_rate": 4.350000000000001e-06,
"loss": 0.8243,
"step": 87
},
{
"epoch": 0.07333333333333333,
"grad_norm": 0.3668825030326843,
"learning_rate": 4.4e-06,
"loss": 0.8324,
"step": 88
},
{
"epoch": 0.07416666666666667,
"grad_norm": 0.3487826883792877,
"learning_rate": 4.450000000000001e-06,
"loss": 0.8071,
"step": 89
},
{
"epoch": 0.075,
"grad_norm": 0.3577321767807007,
"learning_rate": 4.5e-06,
"loss": 0.8272,
"step": 90
},
{
"epoch": 0.07583333333333334,
"grad_norm": 0.3431159555912018,
"learning_rate": 4.5500000000000005e-06,
"loss": 0.8146,
"step": 91
},
{
"epoch": 0.07666666666666666,
"grad_norm": 0.3591880798339844,
"learning_rate": 4.600000000000001e-06,
"loss": 0.8378,
"step": 92
},
{
"epoch": 0.0775,
"grad_norm": 0.33692434430122375,
"learning_rate": 4.65e-06,
"loss": 0.8226,
"step": 93
},
{
"epoch": 0.07833333333333334,
"grad_norm": 0.3472079932689667,
"learning_rate": 4.7e-06,
"loss": 0.8159,
"step": 94
},
{
"epoch": 0.07916666666666666,
"grad_norm": 0.3522193133831024,
"learning_rate": 4.75e-06,
"loss": 0.8244,
"step": 95
},
{
"epoch": 0.08,
"grad_norm": 0.3516963720321655,
"learning_rate": 4.800000000000001e-06,
"loss": 0.8287,
"step": 96
},
{
"epoch": 0.08083333333333333,
"grad_norm": 0.335097074508667,
"learning_rate": 4.85e-06,
"loss": 0.8287,
"step": 97
},
{
"epoch": 0.08166666666666667,
"grad_norm": 0.3417796194553375,
"learning_rate": 4.9000000000000005e-06,
"loss": 0.797,
"step": 98
},
{
"epoch": 0.0825,
"grad_norm": 0.33278194069862366,
"learning_rate": 4.95e-06,
"loss": 0.8085,
"step": 99
},
{
"epoch": 0.08333333333333333,
"grad_norm": 0.3478794991970062,
"learning_rate": 5e-06,
"loss": 0.8104,
"step": 100
},
{
"epoch": 0.08416666666666667,
"grad_norm": 0.3505585789680481,
"learning_rate": 4.9999997552667074e-06,
"loss": 0.8152,
"step": 101
},
{
"epoch": 0.085,
"grad_norm": 0.3526367247104645,
"learning_rate": 4.999999021066877e-06,
"loss": 0.8219,
"step": 102
},
{
"epoch": 0.08583333333333333,
"grad_norm": 0.37416499853134155,
"learning_rate": 4.999997797400651e-06,
"loss": 0.8043,
"step": 103
},
{
"epoch": 0.08666666666666667,
"grad_norm": 0.35329508781433105,
"learning_rate": 4.999996084268271e-06,
"loss": 0.8313,
"step": 104
},
{
"epoch": 0.0875,
"grad_norm": 0.347540944814682,
"learning_rate": 4.999993881670071e-06,
"loss": 0.8266,
"step": 105
},
{
"epoch": 0.08833333333333333,
"grad_norm": 0.33843380212783813,
"learning_rate": 4.999991189606484e-06,
"loss": 0.8019,
"step": 106
},
{
"epoch": 0.08916666666666667,
"grad_norm": 0.34694716334342957,
"learning_rate": 4.999988008078035e-06,
"loss": 0.7936,
"step": 107
},
{
"epoch": 0.09,
"grad_norm": 0.36330705881118774,
"learning_rate": 4.9999843370853485e-06,
"loss": 0.8258,
"step": 108
},
{
"epoch": 0.09083333333333334,
"grad_norm": 0.35987865924835205,
"learning_rate": 4.999980176629142e-06,
"loss": 0.7897,
"step": 109
},
{
"epoch": 0.09166666666666666,
"grad_norm": 0.3725634813308716,
"learning_rate": 4.99997552671023e-06,
"loss": 0.7987,
"step": 110
},
{
"epoch": 0.0925,
"grad_norm": 0.3425033390522003,
"learning_rate": 4.999970387329525e-06,
"loss": 0.7963,
"step": 111
},
{
"epoch": 0.09333333333333334,
"grad_norm": 0.3447592258453369,
"learning_rate": 4.999964758488031e-06,
"loss": 0.7929,
"step": 112
},
{
"epoch": 0.09416666666666666,
"grad_norm": 0.3550160229206085,
"learning_rate": 4.9999586401868515e-06,
"loss": 0.81,
"step": 113
},
{
"epoch": 0.095,
"grad_norm": 0.35416096448898315,
"learning_rate": 4.999952032427183e-06,
"loss": 0.8218,
"step": 114
},
{
"epoch": 0.09583333333333334,
"grad_norm": 0.3488410711288452,
"learning_rate": 4.99994493521032e-06,
"loss": 0.7769,
"step": 115
},
{
"epoch": 0.09666666666666666,
"grad_norm": 0.3451888859272003,
"learning_rate": 4.999937348537652e-06,
"loss": 0.8145,
"step": 116
},
{
"epoch": 0.0975,
"grad_norm": 0.3621158003807068,
"learning_rate": 4.999929272410665e-06,
"loss": 0.8121,
"step": 117
},
{
"epoch": 0.09833333333333333,
"grad_norm": 0.35885924100875854,
"learning_rate": 4.999920706830939e-06,
"loss": 0.8155,
"step": 118
},
{
"epoch": 0.09916666666666667,
"grad_norm": 0.339515745639801,
"learning_rate": 4.999911651800151e-06,
"loss": 0.7966,
"step": 119
},
{
"epoch": 0.1,
"grad_norm": 0.35636720061302185,
"learning_rate": 4.9999021073200754e-06,
"loss": 0.8152,
"step": 120
},
{
"epoch": 0.10083333333333333,
"grad_norm": 0.37600013613700867,
"learning_rate": 4.999892073392579e-06,
"loss": 0.8198,
"step": 121
},
{
"epoch": 0.10166666666666667,
"grad_norm": 0.3581588864326477,
"learning_rate": 4.999881550019628e-06,
"loss": 0.8118,
"step": 122
},
{
"epoch": 0.1025,
"grad_norm": 0.38209372758865356,
"learning_rate": 4.9998705372032815e-06,
"loss": 0.8029,
"step": 123
},
{
"epoch": 0.10333333333333333,
"grad_norm": 0.3533329367637634,
"learning_rate": 4.999859034945696e-06,
"loss": 0.8257,
"step": 124
},
{
"epoch": 0.10416666666666667,
"grad_norm": 0.3652520179748535,
"learning_rate": 4.999847043249124e-06,
"loss": 0.8253,
"step": 125
},
{
"epoch": 0.105,
"grad_norm": 0.3446200489997864,
"learning_rate": 4.999834562115912e-06,
"loss": 0.7962,
"step": 126
},
{
"epoch": 0.10583333333333333,
"grad_norm": 0.3734533488750458,
"learning_rate": 4.9998215915485055e-06,
"loss": 0.7822,
"step": 127
},
{
"epoch": 0.10666666666666667,
"grad_norm": 0.36829882860183716,
"learning_rate": 4.999808131549443e-06,
"loss": 0.7825,
"step": 128
},
{
"epoch": 0.1075,
"grad_norm": 0.34977245330810547,
"learning_rate": 4.999794182121359e-06,
"loss": 0.7878,
"step": 129
},
{
"epoch": 0.10833333333333334,
"grad_norm": 0.34649035334587097,
"learning_rate": 4.9997797432669855e-06,
"loss": 0.7917,
"step": 130
},
{
"epoch": 0.10916666666666666,
"grad_norm": 0.36581557989120483,
"learning_rate": 4.9997648149891494e-06,
"loss": 0.7879,
"step": 131
},
{
"epoch": 0.11,
"grad_norm": 0.35695648193359375,
"learning_rate": 4.999749397290774e-06,
"loss": 0.8084,
"step": 132
},
{
"epoch": 0.11083333333333334,
"grad_norm": 0.35371989011764526,
"learning_rate": 4.999733490174877e-06,
"loss": 0.7914,
"step": 133
},
{
"epoch": 0.11166666666666666,
"grad_norm": 0.3545876741409302,
"learning_rate": 4.999717093644572e-06,
"loss": 0.7989,
"step": 134
},
{
"epoch": 0.1125,
"grad_norm": 0.36388111114501953,
"learning_rate": 4.999700207703072e-06,
"loss": 0.8097,
"step": 135
},
{
"epoch": 0.11333333333333333,
"grad_norm": 0.36010992527008057,
"learning_rate": 4.9996828323536805e-06,
"loss": 0.7973,
"step": 136
},
{
"epoch": 0.11416666666666667,
"grad_norm": 0.34787869453430176,
"learning_rate": 4.9996649675997995e-06,
"loss": 0.789,
"step": 137
},
{
"epoch": 0.115,
"grad_norm": 0.36334118247032166,
"learning_rate": 4.9996466134449286e-06,
"loss": 0.7868,
"step": 138
},
{
"epoch": 0.11583333333333333,
"grad_norm": 0.34462034702301025,
"learning_rate": 4.999627769892659e-06,
"loss": 0.8011,
"step": 139
},
{
"epoch": 0.11666666666666667,
"grad_norm": 0.3529531955718994,
"learning_rate": 4.999608436946682e-06,
"loss": 0.806,
"step": 140
},
{
"epoch": 0.1175,
"grad_norm": 0.3514865040779114,
"learning_rate": 4.999588614610781e-06,
"loss": 0.7768,
"step": 141
},
{
"epoch": 0.11833333333333333,
"grad_norm": 0.36210018396377563,
"learning_rate": 4.999568302888839e-06,
"loss": 0.7725,
"step": 142
},
{
"epoch": 0.11916666666666667,
"grad_norm": 0.356653094291687,
"learning_rate": 4.999547501784831e-06,
"loss": 0.7524,
"step": 143
},
{
"epoch": 0.12,
"grad_norm": 0.3627665042877197,
"learning_rate": 4.999526211302828e-06,
"loss": 0.789,
"step": 144
},
{
"epoch": 0.12083333333333333,
"grad_norm": 0.3673461675643921,
"learning_rate": 4.999504431447003e-06,
"loss": 0.7918,
"step": 145
},
{
"epoch": 0.12166666666666667,
"grad_norm": 0.3700329661369324,
"learning_rate": 4.999482162221617e-06,
"loss": 0.7974,
"step": 146
},
{
"epoch": 0.1225,
"grad_norm": 0.3536025583744049,
"learning_rate": 4.9994594036310315e-06,
"loss": 0.7861,
"step": 147
},
{
"epoch": 0.12333333333333334,
"grad_norm": 0.3679131269454956,
"learning_rate": 4.9994361556797e-06,
"loss": 0.7763,
"step": 148
},
{
"epoch": 0.12416666666666666,
"grad_norm": 0.36771222949028015,
"learning_rate": 4.999412418372177e-06,
"loss": 0.7711,
"step": 149
},
{
"epoch": 0.125,
"grad_norm": 0.3634738624095917,
"learning_rate": 4.9993881917131086e-06,
"loss": 0.7912,
"step": 150
},
{
"epoch": 0.12583333333333332,
"grad_norm": 0.3649067282676697,
"learning_rate": 4.999363475707237e-06,
"loss": 0.7627,
"step": 151
},
{
"epoch": 0.12666666666666668,
"grad_norm": 0.35532045364379883,
"learning_rate": 4.999338270359403e-06,
"loss": 0.7926,
"step": 152
},
{
"epoch": 0.1275,
"grad_norm": 0.35826247930526733,
"learning_rate": 4.999312575674541e-06,
"loss": 0.7931,
"step": 153
},
{
"epoch": 0.12833333333333333,
"grad_norm": 0.36087995767593384,
"learning_rate": 4.9992863916576804e-06,
"loss": 0.8066,
"step": 154
},
{
"epoch": 0.12916666666666668,
"grad_norm": 0.35800597071647644,
"learning_rate": 4.9992597183139506e-06,
"loss": 0.7628,
"step": 155
},
{
"epoch": 0.13,
"grad_norm": 0.36373597383499146,
"learning_rate": 4.9992325556485705e-06,
"loss": 0.7708,
"step": 156
},
{
"epoch": 0.13083333333333333,
"grad_norm": 0.3661397099494934,
"learning_rate": 4.99920490366686e-06,
"loss": 0.7743,
"step": 157
},
{
"epoch": 0.13166666666666665,
"grad_norm": 0.37233859300613403,
"learning_rate": 4.999176762374234e-06,
"loss": 0.7974,
"step": 158
},
{
"epoch": 0.1325,
"grad_norm": 0.35442104935646057,
"learning_rate": 4.999148131776199e-06,
"loss": 0.7652,
"step": 159
},
{
"epoch": 0.13333333333333333,
"grad_norm": 0.3924972414970398,
"learning_rate": 4.999119011878364e-06,
"loss": 0.7978,
"step": 160
},
{
"epoch": 0.13416666666666666,
"grad_norm": 0.4362795650959015,
"learning_rate": 4.9990894026864275e-06,
"loss": 0.7947,
"step": 161
},
{
"epoch": 0.135,
"grad_norm": 0.3709726333618164,
"learning_rate": 4.999059304206189e-06,
"loss": 0.7908,
"step": 162
},
{
"epoch": 0.13583333333333333,
"grad_norm": 0.35826730728149414,
"learning_rate": 4.999028716443539e-06,
"loss": 0.7814,
"step": 163
},
{
"epoch": 0.13666666666666666,
"grad_norm": 0.38429173827171326,
"learning_rate": 4.998997639404468e-06,
"loss": 0.7678,
"step": 164
},
{
"epoch": 0.1375,
"grad_norm": 0.376558393239975,
"learning_rate": 4.99896607309506e-06,
"loss": 0.7593,
"step": 165
},
{
"epoch": 0.13833333333333334,
"grad_norm": 0.3639720678329468,
"learning_rate": 4.998934017521495e-06,
"loss": 0.7769,
"step": 166
},
{
"epoch": 0.13916666666666666,
"grad_norm": 0.38841623067855835,
"learning_rate": 4.998901472690049e-06,
"loss": 0.7728,
"step": 167
},
{
"epoch": 0.14,
"grad_norm": 0.36425021290779114,
"learning_rate": 4.998868438607094e-06,
"loss": 0.7702,
"step": 168
},
{
"epoch": 0.14083333333333334,
"grad_norm": 0.376455157995224,
"learning_rate": 4.998834915279097e-06,
"loss": 0.7645,
"step": 169
},
{
"epoch": 0.14166666666666666,
"grad_norm": 0.3707723319530487,
"learning_rate": 4.998800902712623e-06,
"loss": 0.7711,
"step": 170
},
{
"epoch": 0.1425,
"grad_norm": 0.3775656223297119,
"learning_rate": 4.998766400914329e-06,
"loss": 0.7659,
"step": 171
},
{
"epoch": 0.14333333333333334,
"grad_norm": 0.3919985294342041,
"learning_rate": 4.998731409890972e-06,
"loss": 0.7811,
"step": 172
},
{
"epoch": 0.14416666666666667,
"grad_norm": 0.39199399948120117,
"learning_rate": 4.9986959296494016e-06,
"loss": 0.7704,
"step": 173
},
{
"epoch": 0.145,
"grad_norm": 0.39340391755104065,
"learning_rate": 4.9986599601965656e-06,
"loss": 0.7732,
"step": 174
},
{
"epoch": 0.14583333333333334,
"grad_norm": 0.37447303533554077,
"learning_rate": 4.998623501539504e-06,
"loss": 0.7541,
"step": 175
},
{
"epoch": 0.14666666666666667,
"grad_norm": 0.3860747814178467,
"learning_rate": 4.998586553685359e-06,
"loss": 0.7935,
"step": 176
},
{
"epoch": 0.1475,
"grad_norm": 0.3735111653804779,
"learning_rate": 4.998549116641359e-06,
"loss": 0.785,
"step": 177
},
{
"epoch": 0.14833333333333334,
"grad_norm": 0.3839254379272461,
"learning_rate": 4.9985111904148384e-06,
"loss": 0.7578,
"step": 178
},
{
"epoch": 0.14916666666666667,
"grad_norm": 0.38898995518684387,
"learning_rate": 4.99847277501322e-06,
"loss": 0.7866,
"step": 179
},
{
"epoch": 0.15,
"grad_norm": 0.3699515163898468,
"learning_rate": 4.998433870444026e-06,
"loss": 0.7663,
"step": 180
},
{
"epoch": 0.15083333333333335,
"grad_norm": 0.3879365622997284,
"learning_rate": 4.998394476714874e-06,
"loss": 0.7429,
"step": 181
},
{
"epoch": 0.15166666666666667,
"grad_norm": 0.3695140779018402,
"learning_rate": 4.9983545938334756e-06,
"loss": 0.7968,
"step": 182
},
{
"epoch": 0.1525,
"grad_norm": 0.3635151982307434,
"learning_rate": 4.998314221807638e-06,
"loss": 0.7682,
"step": 183
},
{
"epoch": 0.15333333333333332,
"grad_norm": 0.35855668783187866,
"learning_rate": 4.99827336064527e-06,
"loss": 0.7543,
"step": 184
},
{
"epoch": 0.15416666666666667,
"grad_norm": 0.37712377309799194,
"learning_rate": 4.998232010354367e-06,
"loss": 0.7869,
"step": 185
},
{
"epoch": 0.155,
"grad_norm": 0.37327340245246887,
"learning_rate": 4.998190170943028e-06,
"loss": 0.7617,
"step": 186
},
{
"epoch": 0.15583333333333332,
"grad_norm": 0.38740837574005127,
"learning_rate": 4.998147842419442e-06,
"loss": 0.7932,
"step": 187
},
{
"epoch": 0.15666666666666668,
"grad_norm": 0.3772065341472626,
"learning_rate": 4.998105024791898e-06,
"loss": 0.7672,
"step": 188
},
{
"epoch": 0.1575,
"grad_norm": 0.38418206572532654,
"learning_rate": 4.99806171806878e-06,
"loss": 0.762,
"step": 189
},
{
"epoch": 0.15833333333333333,
"grad_norm": 0.38887330889701843,
"learning_rate": 4.998017922258564e-06,
"loss": 0.7764,
"step": 190
},
{
"epoch": 0.15916666666666668,
"grad_norm": 0.36791321635246277,
"learning_rate": 4.997973637369828e-06,
"loss": 0.766,
"step": 191
},
{
"epoch": 0.16,
"grad_norm": 0.3709692060947418,
"learning_rate": 4.99792886341124e-06,
"loss": 0.7609,
"step": 192
},
{
"epoch": 0.16083333333333333,
"grad_norm": 0.3846558630466461,
"learning_rate": 4.997883600391567e-06,
"loss": 0.7509,
"step": 193
},
{
"epoch": 0.16166666666666665,
"grad_norm": 0.3780789077281952,
"learning_rate": 4.99783784831967e-06,
"loss": 0.7634,
"step": 194
},
{
"epoch": 0.1625,
"grad_norm": 0.36646682024002075,
"learning_rate": 4.997791607204509e-06,
"loss": 0.7804,
"step": 195
},
{
"epoch": 0.16333333333333333,
"grad_norm": 0.37776893377304077,
"learning_rate": 4.997744877055134e-06,
"loss": 0.7636,
"step": 196
},
{
"epoch": 0.16416666666666666,
"grad_norm": 0.3815717101097107,
"learning_rate": 4.9976976578806965e-06,
"loss": 0.751,
"step": 197
},
{
"epoch": 0.165,
"grad_norm": 0.39156651496887207,
"learning_rate": 4.997649949690442e-06,
"loss": 0.7613,
"step": 198
},
{
"epoch": 0.16583333333333333,
"grad_norm": 0.36160358786582947,
"learning_rate": 4.997601752493709e-06,
"loss": 0.7679,
"step": 199
},
{
"epoch": 0.16666666666666666,
"grad_norm": 0.3756240904331207,
"learning_rate": 4.997553066299934e-06,
"loss": 0.7573,
"step": 200
},
{
"epoch": 0.1675,
"grad_norm": 0.3761761486530304,
"learning_rate": 4.997503891118651e-06,
"loss": 0.7628,
"step": 201
},
{
"epoch": 0.16833333333333333,
"grad_norm": 0.3864724338054657,
"learning_rate": 4.9974542269594865e-06,
"loss": 0.7392,
"step": 202
},
{
"epoch": 0.16916666666666666,
"grad_norm": 0.3820183277130127,
"learning_rate": 4.997404073832165e-06,
"loss": 0.7653,
"step": 203
},
{
"epoch": 0.17,
"grad_norm": 0.3783702552318573,
"learning_rate": 4.997353431746504e-06,
"loss": 0.7336,
"step": 204
},
{
"epoch": 0.17083333333333334,
"grad_norm": 0.3944641947746277,
"learning_rate": 4.99730230071242e-06,
"loss": 0.7692,
"step": 205
},
{
"epoch": 0.17166666666666666,
"grad_norm": 0.39105913043022156,
"learning_rate": 4.997250680739923e-06,
"loss": 0.7691,
"step": 206
},
{
"epoch": 0.1725,
"grad_norm": 0.4006231725215912,
"learning_rate": 4.997198571839121e-06,
"loss": 0.755,
"step": 207
},
{
"epoch": 0.17333333333333334,
"grad_norm": 0.3811741769313812,
"learning_rate": 4.9971459740202145e-06,
"loss": 0.7718,
"step": 208
},
{
"epoch": 0.17416666666666666,
"grad_norm": 0.3822275400161743,
"learning_rate": 4.997092887293503e-06,
"loss": 0.7544,
"step": 209
},
{
"epoch": 0.175,
"grad_norm": 0.401355504989624,
"learning_rate": 4.9970393116693785e-06,
"loss": 0.7595,
"step": 210
},
{
"epoch": 0.17583333333333334,
"grad_norm": 0.39196428656578064,
"learning_rate": 4.996985247158331e-06,
"loss": 0.765,
"step": 211
},
{
"epoch": 0.17666666666666667,
"grad_norm": 0.4076025187969208,
"learning_rate": 4.996930693770947e-06,
"loss": 0.752,
"step": 212
},
{
"epoch": 0.1775,
"grad_norm": 0.3844936490058899,
"learning_rate": 4.996875651517905e-06,
"loss": 0.7242,
"step": 213
},
{
"epoch": 0.17833333333333334,
"grad_norm": 0.37500861287117004,
"learning_rate": 4.996820120409983e-06,
"loss": 0.7525,
"step": 214
},
{
"epoch": 0.17916666666666667,
"grad_norm": 0.3904462158679962,
"learning_rate": 4.996764100458053e-06,
"loss": 0.7521,
"step": 215
},
{
"epoch": 0.18,
"grad_norm": 0.37583500146865845,
"learning_rate": 4.996707591673084e-06,
"loss": 0.7814,
"step": 216
},
{
"epoch": 0.18083333333333335,
"grad_norm": 0.3917851448059082,
"learning_rate": 4.996650594066137e-06,
"loss": 0.7557,
"step": 217
},
{
"epoch": 0.18166666666666667,
"grad_norm": 0.40137824416160583,
"learning_rate": 4.9965931076483735e-06,
"loss": 0.7534,
"step": 218
},
{
"epoch": 0.1825,
"grad_norm": 0.40111401677131653,
"learning_rate": 4.996535132431048e-06,
"loss": 0.7738,
"step": 219
},
{
"epoch": 0.18333333333333332,
"grad_norm": 0.39719894528388977,
"learning_rate": 4.99647666842551e-06,
"loss": 0.7726,
"step": 220
},
{
"epoch": 0.18416666666666667,
"grad_norm": 0.39689141511917114,
"learning_rate": 4.996417715643209e-06,
"loss": 0.7541,
"step": 221
},
{
"epoch": 0.185,
"grad_norm": 0.39099663496017456,
"learning_rate": 4.996358274095684e-06,
"loss": 0.7547,
"step": 222
},
{
"epoch": 0.18583333333333332,
"grad_norm": 0.39196664094924927,
"learning_rate": 4.996298343794576e-06,
"loss": 0.7644,
"step": 223
},
{
"epoch": 0.18666666666666668,
"grad_norm": 0.3910345733165741,
"learning_rate": 4.996237924751616e-06,
"loss": 0.7396,
"step": 224
},
{
"epoch": 0.1875,
"grad_norm": 0.3950398564338684,
"learning_rate": 4.996177016978633e-06,
"loss": 0.7432,
"step": 225
},
{
"epoch": 0.18833333333333332,
"grad_norm": 0.39441680908203125,
"learning_rate": 4.996115620487554e-06,
"loss": 0.7692,
"step": 226
},
{
"epoch": 0.18916666666666668,
"grad_norm": 0.3933153450489044,
"learning_rate": 4.996053735290398e-06,
"loss": 0.7589,
"step": 227
},
{
"epoch": 0.19,
"grad_norm": 0.3911586403846741,
"learning_rate": 4.9959913613992824e-06,
"loss": 0.7373,
"step": 228
},
{
"epoch": 0.19083333333333333,
"grad_norm": 0.40785402059555054,
"learning_rate": 4.995928498826419e-06,
"loss": 0.7658,
"step": 229
},
{
"epoch": 0.19166666666666668,
"grad_norm": 0.3948311507701874,
"learning_rate": 4.9958651475841145e-06,
"loss": 0.7809,
"step": 230
},
{
"epoch": 0.1925,
"grad_norm": 0.3839765191078186,
"learning_rate": 4.995801307684773e-06,
"loss": 0.7771,
"step": 231
},
{
"epoch": 0.19333333333333333,
"grad_norm": 0.39128726720809937,
"learning_rate": 4.995736979140894e-06,
"loss": 0.7322,
"step": 232
},
{
"epoch": 0.19416666666666665,
"grad_norm": 0.3875157833099365,
"learning_rate": 4.995672161965071e-06,
"loss": 0.7712,
"step": 233
},
{
"epoch": 0.195,
"grad_norm": 0.39921367168426514,
"learning_rate": 4.995606856169995e-06,
"loss": 0.7687,
"step": 234
},
{
"epoch": 0.19583333333333333,
"grad_norm": 0.3909481167793274,
"learning_rate": 4.995541061768451e-06,
"loss": 0.7435,
"step": 235
},
{
"epoch": 0.19666666666666666,
"grad_norm": 0.4150286912918091,
"learning_rate": 4.995474778773322e-06,
"loss": 0.8013,
"step": 236
},
{
"epoch": 0.1975,
"grad_norm": 0.3832659423351288,
"learning_rate": 4.995408007197585e-06,
"loss": 0.7769,
"step": 237
},
{
"epoch": 0.19833333333333333,
"grad_norm": 0.3956066370010376,
"learning_rate": 4.9953407470543126e-06,
"loss": 0.7424,
"step": 238
},
{
"epoch": 0.19916666666666666,
"grad_norm": 0.4045463800430298,
"learning_rate": 4.995272998356674e-06,
"loss": 0.7529,
"step": 239
},
{
"epoch": 0.2,
"grad_norm": 0.41016334295272827,
"learning_rate": 4.995204761117933e-06,
"loss": 0.783,
"step": 240
},
{
"epoch": 0.20083333333333334,
"grad_norm": 0.39553338289260864,
"learning_rate": 4.9951360353514494e-06,
"loss": 0.7452,
"step": 241
},
{
"epoch": 0.20166666666666666,
"grad_norm": 0.40888774394989014,
"learning_rate": 4.9950668210706795e-06,
"loss": 0.7444,
"step": 242
},
{
"epoch": 0.2025,
"grad_norm": 0.40222835540771484,
"learning_rate": 4.994997118289174e-06,
"loss": 0.764,
"step": 243
},
{
"epoch": 0.20333333333333334,
"grad_norm": 0.4101916253566742,
"learning_rate": 4.994926927020579e-06,
"loss": 0.7444,
"step": 244
},
{
"epoch": 0.20416666666666666,
"grad_norm": 0.3984578847885132,
"learning_rate": 4.994856247278639e-06,
"loss": 0.7623,
"step": 245
},
{
"epoch": 0.205,
"grad_norm": 0.404247522354126,
"learning_rate": 4.994785079077192e-06,
"loss": 0.7791,
"step": 246
},
{
"epoch": 0.20583333333333334,
"grad_norm": 0.40907022356987,
"learning_rate": 4.994713422430169e-06,
"loss": 0.7534,
"step": 247
},
{
"epoch": 0.20666666666666667,
"grad_norm": 0.3909395933151245,
"learning_rate": 4.994641277351601e-06,
"loss": 0.7506,
"step": 248
},
{
"epoch": 0.2075,
"grad_norm": 0.3906393349170685,
"learning_rate": 4.994568643855614e-06,
"loss": 0.7391,
"step": 249
},
{
"epoch": 0.20833333333333334,
"grad_norm": 0.4059241712093353,
"learning_rate": 4.9944955219564285e-06,
"loss": 0.7648,
"step": 250
},
{
"epoch": 0.20916666666666667,
"grad_norm": 0.4067172706127167,
"learning_rate": 4.994421911668359e-06,
"loss": 0.74,
"step": 251
},
{
"epoch": 0.21,
"grad_norm": 0.39897552132606506,
"learning_rate": 4.9943478130058194e-06,
"loss": 0.7678,
"step": 252
},
{
"epoch": 0.21083333333333334,
"grad_norm": 0.39684775471687317,
"learning_rate": 4.994273225983317e-06,
"loss": 0.776,
"step": 253
},
{
"epoch": 0.21166666666666667,
"grad_norm": 0.4042363166809082,
"learning_rate": 4.994198150615454e-06,
"loss": 0.7596,
"step": 254
},
{
"epoch": 0.2125,
"grad_norm": 0.40387728810310364,
"learning_rate": 4.994122586916928e-06,
"loss": 0.754,
"step": 255
},
{
"epoch": 0.21333333333333335,
"grad_norm": 0.419778972864151,
"learning_rate": 4.994046534902537e-06,
"loss": 0.7358,
"step": 256
},
{
"epoch": 0.21416666666666667,
"grad_norm": 0.40244922041893005,
"learning_rate": 4.9939699945871685e-06,
"loss": 0.7718,
"step": 257
},
{
"epoch": 0.215,
"grad_norm": 0.4182301163673401,
"learning_rate": 4.993892965985808e-06,
"loss": 0.7385,
"step": 258
},
{
"epoch": 0.21583333333333332,
"grad_norm": 0.41493624448776245,
"learning_rate": 4.993815449113537e-06,
"loss": 0.7551,
"step": 259
},
{
"epoch": 0.21666666666666667,
"grad_norm": 0.40071433782577515,
"learning_rate": 4.9937374439855336e-06,
"loss": 0.7604,
"step": 260
},
{
"epoch": 0.2175,
"grad_norm": 0.4069051146507263,
"learning_rate": 4.993658950617067e-06,
"loss": 0.7527,
"step": 261
},
{
"epoch": 0.21833333333333332,
"grad_norm": 0.4501640796661377,
"learning_rate": 4.993579969023509e-06,
"loss": 0.7632,
"step": 262
},
{
"epoch": 0.21916666666666668,
"grad_norm": 0.3968100845813751,
"learning_rate": 4.993500499220321e-06,
"loss": 0.7507,
"step": 263
},
{
"epoch": 0.22,
"grad_norm": 0.40784579515457153,
"learning_rate": 4.99342054122306e-06,
"loss": 0.7467,
"step": 264
},
{
"epoch": 0.22083333333333333,
"grad_norm": 0.4129437208175659,
"learning_rate": 4.993340095047387e-06,
"loss": 0.7645,
"step": 265
},
{
"epoch": 0.22166666666666668,
"grad_norm": 0.40144386887550354,
"learning_rate": 4.9932591607090456e-06,
"loss": 0.7491,
"step": 266
},
{
"epoch": 0.2225,
"grad_norm": 0.4076482951641083,
"learning_rate": 4.993177738223885e-06,
"loss": 0.741,
"step": 267
},
{
"epoch": 0.22333333333333333,
"grad_norm": 0.4115305542945862,
"learning_rate": 4.993095827607846e-06,
"loss": 0.7351,
"step": 268
},
{
"epoch": 0.22416666666666665,
"grad_norm": 0.419331818819046,
"learning_rate": 4.993013428876966e-06,
"loss": 0.7459,
"step": 269
},
{
"epoch": 0.225,
"grad_norm": 0.39884573221206665,
"learning_rate": 4.992930542047377e-06,
"loss": 0.7704,
"step": 270
},
{
"epoch": 0.22583333333333333,
"grad_norm": 0.40413135290145874,
"learning_rate": 4.992847167135308e-06,
"loss": 0.7608,
"step": 271
},
{
"epoch": 0.22666666666666666,
"grad_norm": 0.3927971422672272,
"learning_rate": 4.992763304157081e-06,
"loss": 0.7541,
"step": 272
},
{
"epoch": 0.2275,
"grad_norm": 0.411477655172348,
"learning_rate": 4.992678953129117e-06,
"loss": 0.7539,
"step": 273
},
{
"epoch": 0.22833333333333333,
"grad_norm": 0.4042636752128601,
"learning_rate": 4.99259411406793e-06,
"loss": 0.7293,
"step": 274
},
{
"epoch": 0.22916666666666666,
"grad_norm": 0.4152175784111023,
"learning_rate": 4.992508786990131e-06,
"loss": 0.751,
"step": 275
},
{
"epoch": 0.23,
"grad_norm": 0.4228000342845917,
"learning_rate": 4.992422971912425e-06,
"loss": 0.7747,
"step": 276
},
{
"epoch": 0.23083333333333333,
"grad_norm": 0.42432528734207153,
"learning_rate": 4.992336668851614e-06,
"loss": 0.7465,
"step": 277
},
{
"epoch": 0.23166666666666666,
"grad_norm": 0.40531831979751587,
"learning_rate": 4.992249877824594e-06,
"loss": 0.7411,
"step": 278
},
{
"epoch": 0.2325,
"grad_norm": 0.4052167236804962,
"learning_rate": 4.992162598848359e-06,
"loss": 0.7544,
"step": 279
},
{
"epoch": 0.23333333333333334,
"grad_norm": 0.40429621934890747,
"learning_rate": 4.992074831939997e-06,
"loss": 0.7673,
"step": 280
},
{
"epoch": 0.23416666666666666,
"grad_norm": 0.41028928756713867,
"learning_rate": 4.9919865771166895e-06,
"loss": 0.7408,
"step": 281
},
{
"epoch": 0.235,
"grad_norm": 0.413400799036026,
"learning_rate": 4.991897834395718e-06,
"loss": 0.7352,
"step": 282
},
{
"epoch": 0.23583333333333334,
"grad_norm": 0.4166741371154785,
"learning_rate": 4.991808603794457e-06,
"loss": 0.7348,
"step": 283
},
{
"epoch": 0.23666666666666666,
"grad_norm": 0.39821478724479675,
"learning_rate": 4.991718885330375e-06,
"loss": 0.7426,
"step": 284
},
{
"epoch": 0.2375,
"grad_norm": 0.41993921995162964,
"learning_rate": 4.991628679021038e-06,
"loss": 0.7349,
"step": 285
},
{
"epoch": 0.23833333333333334,
"grad_norm": 0.4206007719039917,
"learning_rate": 4.9915379848841086e-06,
"loss": 0.7275,
"step": 286
},
{
"epoch": 0.23916666666666667,
"grad_norm": 0.426255464553833,
"learning_rate": 4.991446802937342e-06,
"loss": 0.7696,
"step": 287
},
{
"epoch": 0.24,
"grad_norm": 0.4184487760066986,
"learning_rate": 4.991355133198592e-06,
"loss": 0.7385,
"step": 288
},
{
"epoch": 0.24083333333333334,
"grad_norm": 0.41202300786972046,
"learning_rate": 4.9912629756858045e-06,
"loss": 0.7284,
"step": 289
},
{
"epoch": 0.24166666666666667,
"grad_norm": 0.39601144194602966,
"learning_rate": 4.991170330417024e-06,
"loss": 0.7339,
"step": 290
},
{
"epoch": 0.2425,
"grad_norm": 0.4065456688404083,
"learning_rate": 4.991077197410389e-06,
"loss": 0.7457,
"step": 291
},
{
"epoch": 0.24333333333333335,
"grad_norm": 0.40557557344436646,
"learning_rate": 4.990983576684133e-06,
"loss": 0.7233,
"step": 292
},
{
"epoch": 0.24416666666666667,
"grad_norm": 0.4060608744621277,
"learning_rate": 4.990889468256587e-06,
"loss": 0.7252,
"step": 293
},
{
"epoch": 0.245,
"grad_norm": 0.39837005734443665,
"learning_rate": 4.990794872146175e-06,
"loss": 0.7382,
"step": 294
},
{
"epoch": 0.24583333333333332,
"grad_norm": 0.4049685001373291,
"learning_rate": 4.990699788371417e-06,
"loss": 0.7675,
"step": 295
},
{
"epoch": 0.24666666666666667,
"grad_norm": 0.4153214395046234,
"learning_rate": 4.990604216950932e-06,
"loss": 0.7576,
"step": 296
},
{
"epoch": 0.2475,
"grad_norm": 0.41540607810020447,
"learning_rate": 4.990508157903427e-06,
"loss": 0.7442,
"step": 297
},
{
"epoch": 0.24833333333333332,
"grad_norm": 0.40810921788215637,
"learning_rate": 4.990411611247714e-06,
"loss": 0.7267,
"step": 298
},
{
"epoch": 0.24916666666666668,
"grad_norm": 0.4171510636806488,
"learning_rate": 4.990314577002694e-06,
"loss": 0.743,
"step": 299
},
{
"epoch": 0.25,
"grad_norm": 0.41149425506591797,
"learning_rate": 4.990217055187363e-06,
"loss": 0.7324,
"step": 300
},
{
"epoch": 0.25083333333333335,
"grad_norm": 0.44357189536094666,
"learning_rate": 4.990119045820816e-06,
"loss": 0.7585,
"step": 301
},
{
"epoch": 0.25166666666666665,
"grad_norm": 0.42975008487701416,
"learning_rate": 4.990020548922241e-06,
"loss": 0.7256,
"step": 302
},
{
"epoch": 0.2525,
"grad_norm": 0.42218875885009766,
"learning_rate": 4.9899215645109245e-06,
"loss": 0.7547,
"step": 303
},
{
"epoch": 0.25333333333333335,
"grad_norm": 0.41412419080734253,
"learning_rate": 4.9898220926062445e-06,
"loss": 0.7367,
"step": 304
},
{
"epoch": 0.25416666666666665,
"grad_norm": 0.4209183156490326,
"learning_rate": 4.989722133227677e-06,
"loss": 0.7125,
"step": 305
},
{
"epoch": 0.255,
"grad_norm": 0.4184161424636841,
"learning_rate": 4.989621686394792e-06,
"loss": 0.7559,
"step": 306
},
{
"epoch": 0.25583333333333336,
"grad_norm": 0.4240727722644806,
"learning_rate": 4.989520752127256e-06,
"loss": 0.7465,
"step": 307
},
{
"epoch": 0.25666666666666665,
"grad_norm": 0.41498860716819763,
"learning_rate": 4.989419330444831e-06,
"loss": 0.7606,
"step": 308
},
{
"epoch": 0.2575,
"grad_norm": 0.426451712846756,
"learning_rate": 4.989317421367374e-06,
"loss": 0.7243,
"step": 309
},
{
"epoch": 0.25833333333333336,
"grad_norm": 0.43363121151924133,
"learning_rate": 4.989215024914836e-06,
"loss": 0.7308,
"step": 310
},
{
"epoch": 0.25916666666666666,
"grad_norm": 0.40274131298065186,
"learning_rate": 4.989112141107267e-06,
"loss": 0.7425,
"step": 311
},
{
"epoch": 0.26,
"grad_norm": 0.4230787754058838,
"learning_rate": 4.989008769964809e-06,
"loss": 0.7659,
"step": 312
},
{
"epoch": 0.2608333333333333,
"grad_norm": 0.41552403569221497,
"learning_rate": 4.9889049115077e-06,
"loss": 0.7617,
"step": 313
},
{
"epoch": 0.26166666666666666,
"grad_norm": 0.4259801506996155,
"learning_rate": 4.9888005657562766e-06,
"loss": 0.7787,
"step": 314
},
{
"epoch": 0.2625,
"grad_norm": 0.4154621660709381,
"learning_rate": 4.988695732730966e-06,
"loss": 0.7475,
"step": 315
},
{
"epoch": 0.2633333333333333,
"grad_norm": 0.41139304637908936,
"learning_rate": 4.988590412452293e-06,
"loss": 0.7332,
"step": 316
},
{
"epoch": 0.26416666666666666,
"grad_norm": 0.42044857144355774,
"learning_rate": 4.98848460494088e-06,
"loss": 0.7548,
"step": 317
},
{
"epoch": 0.265,
"grad_norm": 0.4254603683948517,
"learning_rate": 4.988378310217441e-06,
"loss": 0.7367,
"step": 318
},
{
"epoch": 0.2658333333333333,
"grad_norm": 0.4228353202342987,
"learning_rate": 4.988271528302788e-06,
"loss": 0.7319,
"step": 319
},
{
"epoch": 0.26666666666666666,
"grad_norm": 0.4186948239803314,
"learning_rate": 4.988164259217827e-06,
"loss": 0.7259,
"step": 320
},
{
"epoch": 0.2675,
"grad_norm": 0.4253525137901306,
"learning_rate": 4.988056502983559e-06,
"loss": 0.7363,
"step": 321
},
{
"epoch": 0.2683333333333333,
"grad_norm": 0.4164015054702759,
"learning_rate": 4.987948259621083e-06,
"loss": 0.7432,
"step": 322
},
{
"epoch": 0.26916666666666667,
"grad_norm": 0.4166833460330963,
"learning_rate": 4.9878395291515906e-06,
"loss": 0.7058,
"step": 323
},
{
"epoch": 0.27,
"grad_norm": 0.4276393949985504,
"learning_rate": 4.987730311596369e-06,
"loss": 0.7675,
"step": 324
},
{
"epoch": 0.2708333333333333,
"grad_norm": 0.427462637424469,
"learning_rate": 4.9876206069768025e-06,
"loss": 0.7257,
"step": 325
},
{
"epoch": 0.27166666666666667,
"grad_norm": 0.41950249671936035,
"learning_rate": 4.987510415314371e-06,
"loss": 0.7477,
"step": 326
},
{
"epoch": 0.2725,
"grad_norm": 0.43789610266685486,
"learning_rate": 4.987399736630646e-06,
"loss": 0.7304,
"step": 327
},
{
"epoch": 0.2733333333333333,
"grad_norm": 0.4318910241127014,
"learning_rate": 4.987288570947298e-06,
"loss": 0.7414,
"step": 328
},
{
"epoch": 0.27416666666666667,
"grad_norm": 0.42547401785850525,
"learning_rate": 4.987176918286093e-06,
"loss": 0.7404,
"step": 329
},
{
"epoch": 0.275,
"grad_norm": 0.45188772678375244,
"learning_rate": 4.987064778668888e-06,
"loss": 0.7131,
"step": 330
},
{
"epoch": 0.2758333333333333,
"grad_norm": 0.42341092228889465,
"learning_rate": 4.986952152117643e-06,
"loss": 0.7417,
"step": 331
},
{
"epoch": 0.27666666666666667,
"grad_norm": 0.42618414759635925,
"learning_rate": 4.986839038654406e-06,
"loss": 0.7151,
"step": 332
},
{
"epoch": 0.2775,
"grad_norm": 0.4244473874568939,
"learning_rate": 4.986725438301321e-06,
"loss": 0.7551,
"step": 333
},
{
"epoch": 0.2783333333333333,
"grad_norm": 0.430927038192749,
"learning_rate": 4.986611351080633e-06,
"loss": 0.7088,
"step": 334
},
{
"epoch": 0.2791666666666667,
"grad_norm": 0.4299659729003906,
"learning_rate": 4.986496777014678e-06,
"loss": 0.7035,
"step": 335
},
{
"epoch": 0.28,
"grad_norm": 0.42113977670669556,
"learning_rate": 4.986381716125887e-06,
"loss": 0.7203,
"step": 336
},
{
"epoch": 0.2808333333333333,
"grad_norm": 0.4511653780937195,
"learning_rate": 4.986266168436789e-06,
"loss": 0.7496,
"step": 337
},
{
"epoch": 0.2816666666666667,
"grad_norm": 0.44857802987098694,
"learning_rate": 4.986150133970004e-06,
"loss": 0.6979,
"step": 338
},
{
"epoch": 0.2825,
"grad_norm": 0.4449015259742737,
"learning_rate": 4.986033612748253e-06,
"loss": 0.7465,
"step": 339
},
{
"epoch": 0.2833333333333333,
"grad_norm": 0.4319685399532318,
"learning_rate": 4.985916604794348e-06,
"loss": 0.7442,
"step": 340
},
{
"epoch": 0.2841666666666667,
"grad_norm": 0.4102455675601959,
"learning_rate": 4.985799110131197e-06,
"loss": 0.7365,
"step": 341
},
{
"epoch": 0.285,
"grad_norm": 0.4212186336517334,
"learning_rate": 4.985681128781804e-06,
"loss": 0.7375,
"step": 342
},
{
"epoch": 0.28583333333333333,
"grad_norm": 0.42774149775505066,
"learning_rate": 4.98556266076927e-06,
"loss": 0.7442,
"step": 343
},
{
"epoch": 0.2866666666666667,
"grad_norm": 0.4243312478065491,
"learning_rate": 4.985443706116787e-06,
"loss": 0.7381,
"step": 344
},
{
"epoch": 0.2875,
"grad_norm": 0.44701287150382996,
"learning_rate": 4.9853242648476465e-06,
"loss": 0.7158,
"step": 345
},
{
"epoch": 0.28833333333333333,
"grad_norm": 0.43794766068458557,
"learning_rate": 4.985204336985232e-06,
"loss": 0.7455,
"step": 346
},
{
"epoch": 0.2891666666666667,
"grad_norm": 0.4464855492115021,
"learning_rate": 4.985083922553024e-06,
"loss": 0.7648,
"step": 347
},
{
"epoch": 0.29,
"grad_norm": 0.42439213395118713,
"learning_rate": 4.9849630215746e-06,
"loss": 0.7446,
"step": 348
},
{
"epoch": 0.29083333333333333,
"grad_norm": 0.4272073209285736,
"learning_rate": 4.9848416340736285e-06,
"loss": 0.7241,
"step": 349
},
{
"epoch": 0.2916666666666667,
"grad_norm": 0.4212620258331299,
"learning_rate": 4.984719760073877e-06,
"loss": 0.7222,
"step": 350
},
{
"epoch": 0.2925,
"grad_norm": 0.42391151189804077,
"learning_rate": 4.984597399599206e-06,
"loss": 0.7232,
"step": 351
},
{
"epoch": 0.29333333333333333,
"grad_norm": 0.4544355273246765,
"learning_rate": 4.984474552673573e-06,
"loss": 0.7315,
"step": 352
},
{
"epoch": 0.2941666666666667,
"grad_norm": 0.42181697487831116,
"learning_rate": 4.984351219321028e-06,
"loss": 0.7313,
"step": 353
},
{
"epoch": 0.295,
"grad_norm": 0.43560174107551575,
"learning_rate": 4.984227399565719e-06,
"loss": 0.7301,
"step": 354
},
{
"epoch": 0.29583333333333334,
"grad_norm": 0.4335043430328369,
"learning_rate": 4.98410309343189e-06,
"loss": 0.7273,
"step": 355
},
{
"epoch": 0.2966666666666667,
"grad_norm": 0.44462448358535767,
"learning_rate": 4.983978300943876e-06,
"loss": 0.749,
"step": 356
},
{
"epoch": 0.2975,
"grad_norm": 0.44785431027412415,
"learning_rate": 4.9838530221261095e-06,
"loss": 0.7462,
"step": 357
},
{
"epoch": 0.29833333333333334,
"grad_norm": 0.45324379205703735,
"learning_rate": 4.98372725700312e-06,
"loss": 0.7573,
"step": 358
},
{
"epoch": 0.2991666666666667,
"grad_norm": 0.43796685338020325,
"learning_rate": 4.98360100559953e-06,
"loss": 0.7513,
"step": 359
},
{
"epoch": 0.3,
"grad_norm": 0.4299045205116272,
"learning_rate": 4.983474267940059e-06,
"loss": 0.7169,
"step": 360
},
{
"epoch": 0.30083333333333334,
"grad_norm": 0.42903605103492737,
"learning_rate": 4.983347044049519e-06,
"loss": 0.7471,
"step": 361
},
{
"epoch": 0.3016666666666667,
"grad_norm": 0.45894020795822144,
"learning_rate": 4.983219333952819e-06,
"loss": 0.7188,
"step": 362
},
{
"epoch": 0.3025,
"grad_norm": 0.4472663700580597,
"learning_rate": 4.9830911376749626e-06,
"loss": 0.7493,
"step": 363
},
{
"epoch": 0.30333333333333334,
"grad_norm": 0.4302862286567688,
"learning_rate": 4.98296245524105e-06,
"loss": 0.7253,
"step": 364
},
{
"epoch": 0.30416666666666664,
"grad_norm": 0.4276480972766876,
"learning_rate": 4.982833286676274e-06,
"loss": 0.7233,
"step": 365
},
{
"epoch": 0.305,
"grad_norm": 0.4444246292114258,
"learning_rate": 4.982703632005926e-06,
"loss": 0.7318,
"step": 366
},
{
"epoch": 0.30583333333333335,
"grad_norm": 0.42736467719078064,
"learning_rate": 4.98257349125539e-06,
"loss": 0.7292,
"step": 367
},
{
"epoch": 0.30666666666666664,
"grad_norm": 0.457657128572464,
"learning_rate": 4.982442864450145e-06,
"loss": 0.7342,
"step": 368
},
{
"epoch": 0.3075,
"grad_norm": 0.4388102889060974,
"learning_rate": 4.982311751615766e-06,
"loss": 0.7367,
"step": 369
},
{
"epoch": 0.30833333333333335,
"grad_norm": 0.42860573530197144,
"learning_rate": 4.982180152777925e-06,
"loss": 0.7267,
"step": 370
},
{
"epoch": 0.30916666666666665,
"grad_norm": 0.43819475173950195,
"learning_rate": 4.982048067962384e-06,
"loss": 0.7399,
"step": 371
},
{
"epoch": 0.31,
"grad_norm": 0.4660872220993042,
"learning_rate": 4.981915497195007e-06,
"loss": 0.7032,
"step": 372
},
{
"epoch": 0.31083333333333335,
"grad_norm": 0.4358060956001282,
"learning_rate": 4.981782440501748e-06,
"loss": 0.7213,
"step": 373
},
{
"epoch": 0.31166666666666665,
"grad_norm": 0.4425748288631439,
"learning_rate": 4.981648897908656e-06,
"loss": 0.7309,
"step": 374
},
{
"epoch": 0.3125,
"grad_norm": 0.4365919530391693,
"learning_rate": 4.98151486944188e-06,
"loss": 0.746,
"step": 375
},
{
"epoch": 0.31333333333333335,
"grad_norm": 0.4414806067943573,
"learning_rate": 4.981380355127658e-06,
"loss": 0.7462,
"step": 376
},
{
"epoch": 0.31416666666666665,
"grad_norm": 0.44274869561195374,
"learning_rate": 4.981245354992329e-06,
"loss": 0.732,
"step": 377
},
{
"epoch": 0.315,
"grad_norm": 0.45117679238319397,
"learning_rate": 4.981109869062323e-06,
"loss": 0.747,
"step": 378
},
{
"epoch": 0.31583333333333335,
"grad_norm": 0.4164119064807892,
"learning_rate": 4.980973897364166e-06,
"loss": 0.7163,
"step": 379
},
{
"epoch": 0.31666666666666665,
"grad_norm": 0.44350653886795044,
"learning_rate": 4.980837439924479e-06,
"loss": 0.7339,
"step": 380
},
{
"epoch": 0.3175,
"grad_norm": 0.4421967566013336,
"learning_rate": 4.980700496769979e-06,
"loss": 0.7397,
"step": 381
},
{
"epoch": 0.31833333333333336,
"grad_norm": 0.4458411931991577,
"learning_rate": 4.980563067927478e-06,
"loss": 0.7079,
"step": 382
},
{
"epoch": 0.31916666666666665,
"grad_norm": 0.44256216287612915,
"learning_rate": 4.980425153423883e-06,
"loss": 0.756,
"step": 383
},
{
"epoch": 0.32,
"grad_norm": 0.42830541729927063,
"learning_rate": 4.980286753286196e-06,
"loss": 0.7219,
"step": 384
},
{
"epoch": 0.32083333333333336,
"grad_norm": 0.4483656585216522,
"learning_rate": 4.980147867541512e-06,
"loss": 0.7362,
"step": 385
},
{
"epoch": 0.32166666666666666,
"grad_norm": 0.42397555708885193,
"learning_rate": 4.9800084962170235e-06,
"loss": 0.7318,
"step": 386
},
{
"epoch": 0.3225,
"grad_norm": 0.41890963912010193,
"learning_rate": 4.97986863934002e-06,
"loss": 0.7137,
"step": 387
},
{
"epoch": 0.3233333333333333,
"grad_norm": 0.4360620081424713,
"learning_rate": 4.97972829693788e-06,
"loss": 0.7364,
"step": 388
},
{
"epoch": 0.32416666666666666,
"grad_norm": 0.4450368881225586,
"learning_rate": 4.979587469038084e-06,
"loss": 0.7188,
"step": 389
},
{
"epoch": 0.325,
"grad_norm": 0.4503145217895508,
"learning_rate": 4.979446155668202e-06,
"loss": 0.7524,
"step": 390
},
{
"epoch": 0.3258333333333333,
"grad_norm": 0.43446269631385803,
"learning_rate": 4.979304356855902e-06,
"loss": 0.7477,
"step": 391
},
{
"epoch": 0.32666666666666666,
"grad_norm": 0.430242657661438,
"learning_rate": 4.979162072628947e-06,
"loss": 0.7324,
"step": 392
},
{
"epoch": 0.3275,
"grad_norm": 0.44269561767578125,
"learning_rate": 4.979019303015194e-06,
"loss": 0.7389,
"step": 393
},
{
"epoch": 0.3283333333333333,
"grad_norm": 0.44329893589019775,
"learning_rate": 4.978876048042593e-06,
"loss": 0.7286,
"step": 394
},
{
"epoch": 0.32916666666666666,
"grad_norm": 0.43951505422592163,
"learning_rate": 4.978732307739196e-06,
"loss": 0.7286,
"step": 395
},
{
"epoch": 0.33,
"grad_norm": 0.43779468536376953,
"learning_rate": 4.9785880821331415e-06,
"loss": 0.7514,
"step": 396
},
{
"epoch": 0.3308333333333333,
"grad_norm": 0.44083550572395325,
"learning_rate": 4.978443371252668e-06,
"loss": 0.7169,
"step": 397
},
{
"epoch": 0.33166666666666667,
"grad_norm": 0.4317465126514435,
"learning_rate": 4.97829817512611e-06,
"loss": 0.7137,
"step": 398
},
{
"epoch": 0.3325,
"grad_norm": 0.44962823390960693,
"learning_rate": 4.9781524937818914e-06,
"loss": 0.7285,
"step": 399
},
{
"epoch": 0.3333333333333333,
"grad_norm": 0.4581443667411804,
"learning_rate": 4.978006327248537e-06,
"loss": 0.7255,
"step": 400
},
{
"epoch": 0.33416666666666667,
"grad_norm": 0.44889774918556213,
"learning_rate": 4.977859675554664e-06,
"loss": 0.7178,
"step": 401
},
{
"epoch": 0.335,
"grad_norm": 0.4475254714488983,
"learning_rate": 4.977712538728985e-06,
"loss": 0.7347,
"step": 402
},
{
"epoch": 0.3358333333333333,
"grad_norm": 0.47498849034309387,
"learning_rate": 4.977564916800306e-06,
"loss": 0.7435,
"step": 403
},
{
"epoch": 0.33666666666666667,
"grad_norm": 0.4499281346797943,
"learning_rate": 4.977416809797531e-06,
"loss": 0.7195,
"step": 404
},
{
"epoch": 0.3375,
"grad_norm": 0.44963398575782776,
"learning_rate": 4.977268217749656e-06,
"loss": 0.7317,
"step": 405
},
{
"epoch": 0.3383333333333333,
"grad_norm": 0.465316504240036,
"learning_rate": 4.977119140685775e-06,
"loss": 0.7312,
"step": 406
},
{
"epoch": 0.33916666666666667,
"grad_norm": 0.44482365250587463,
"learning_rate": 4.976969578635075e-06,
"loss": 0.7204,
"step": 407
},
{
"epoch": 0.34,
"grad_norm": 0.43372973799705505,
"learning_rate": 4.976819531626838e-06,
"loss": 0.7307,
"step": 408
},
{
"epoch": 0.3408333333333333,
"grad_norm": 0.44234418869018555,
"learning_rate": 4.9766689996904394e-06,
"loss": 0.7325,
"step": 409
},
{
"epoch": 0.3416666666666667,
"grad_norm": 0.452543169260025,
"learning_rate": 4.976517982855353e-06,
"loss": 0.7089,
"step": 410
},
{
"epoch": 0.3425,
"grad_norm": 0.45068028569221497,
"learning_rate": 4.976366481151147e-06,
"loss": 0.7492,
"step": 411
},
{
"epoch": 0.3433333333333333,
"grad_norm": 0.4673871397972107,
"learning_rate": 4.976214494607481e-06,
"loss": 0.7212,
"step": 412
},
{
"epoch": 0.3441666666666667,
"grad_norm": 0.44686195254325867,
"learning_rate": 4.976062023254114e-06,
"loss": 0.7237,
"step": 413
},
{
"epoch": 0.345,
"grad_norm": 0.4662364721298218,
"learning_rate": 4.975909067120895e-06,
"loss": 0.7392,
"step": 414
},
{
"epoch": 0.3458333333333333,
"grad_norm": 0.4416569173336029,
"learning_rate": 4.9757556262377745e-06,
"loss": 0.7324,
"step": 415
},
{
"epoch": 0.3466666666666667,
"grad_norm": 0.45594707131385803,
"learning_rate": 4.975601700634791e-06,
"loss": 0.7398,
"step": 416
},
{
"epoch": 0.3475,
"grad_norm": 0.4480917751789093,
"learning_rate": 4.975447290342084e-06,
"loss": 0.7396,
"step": 417
},
{
"epoch": 0.34833333333333333,
"grad_norm": 0.46372804045677185,
"learning_rate": 4.9752923953898826e-06,
"loss": 0.7279,
"step": 418
},
{
"epoch": 0.3491666666666667,
"grad_norm": 0.4589317739009857,
"learning_rate": 4.975137015808513e-06,
"loss": 0.7266,
"step": 419
},
{
"epoch": 0.35,
"grad_norm": 0.4607466459274292,
"learning_rate": 4.974981151628398e-06,
"loss": 0.7377,
"step": 420
},
{
"epoch": 0.35083333333333333,
"grad_norm": 0.4491315484046936,
"learning_rate": 4.974824802880054e-06,
"loss": 0.7101,
"step": 421
},
{
"epoch": 0.3516666666666667,
"grad_norm": 0.4505137801170349,
"learning_rate": 4.9746679695940904e-06,
"loss": 0.7199,
"step": 422
},
{
"epoch": 0.3525,
"grad_norm": 0.4504340887069702,
"learning_rate": 4.9745106518012146e-06,
"loss": 0.7233,
"step": 423
},
{
"epoch": 0.35333333333333333,
"grad_norm": 0.47033044695854187,
"learning_rate": 4.974352849532226e-06,
"loss": 0.7016,
"step": 424
},
{
"epoch": 0.3541666666666667,
"grad_norm": 0.4403928518295288,
"learning_rate": 4.97419456281802e-06,
"loss": 0.7023,
"step": 425
},
{
"epoch": 0.355,
"grad_norm": 0.4770509898662567,
"learning_rate": 4.974035791689588e-06,
"loss": 0.7207,
"step": 426
},
{
"epoch": 0.35583333333333333,
"grad_norm": 0.4648571312427521,
"learning_rate": 4.973876536178015e-06,
"loss": 0.7255,
"step": 427
},
{
"epoch": 0.3566666666666667,
"grad_norm": 0.4399651885032654,
"learning_rate": 4.973716796314482e-06,
"loss": 0.7315,
"step": 428
},
{
"epoch": 0.3575,
"grad_norm": 0.468749463558197,
"learning_rate": 4.9735565721302615e-06,
"loss": 0.7215,
"step": 429
},
{
"epoch": 0.35833333333333334,
"grad_norm": 0.4581863582134247,
"learning_rate": 4.973395863656726e-06,
"loss": 0.7283,
"step": 430
},
{
"epoch": 0.3591666666666667,
"grad_norm": 0.4445386826992035,
"learning_rate": 4.973234670925338e-06,
"loss": 0.6994,
"step": 431
},
{
"epoch": 0.36,
"grad_norm": 0.45476222038269043,
"learning_rate": 4.973072993967658e-06,
"loss": 0.7208,
"step": 432
},
{
"epoch": 0.36083333333333334,
"grad_norm": 0.45746493339538574,
"learning_rate": 4.97291083281534e-06,
"loss": 0.7231,
"step": 433
},
{
"epoch": 0.3616666666666667,
"grad_norm": 0.4445231854915619,
"learning_rate": 4.9727481875001326e-06,
"loss": 0.7316,
"step": 434
},
{
"epoch": 0.3625,
"grad_norm": 0.46907079219818115,
"learning_rate": 4.972585058053879e-06,
"loss": 0.7311,
"step": 435
},
{
"epoch": 0.36333333333333334,
"grad_norm": 0.47230264544487,
"learning_rate": 4.972421444508521e-06,
"loss": 0.7352,
"step": 436
},
{
"epoch": 0.3641666666666667,
"grad_norm": 0.44319337606430054,
"learning_rate": 4.972257346896088e-06,
"loss": 0.7219,
"step": 437
},
{
"epoch": 0.365,
"grad_norm": 0.46985113620758057,
"learning_rate": 4.972092765248709e-06,
"loss": 0.733,
"step": 438
},
{
"epoch": 0.36583333333333334,
"grad_norm": 0.4737989604473114,
"learning_rate": 4.971927699598609e-06,
"loss": 0.7217,
"step": 439
},
{
"epoch": 0.36666666666666664,
"grad_norm": 0.44317662715911865,
"learning_rate": 4.971762149978103e-06,
"loss": 0.7001,
"step": 440
},
{
"epoch": 0.3675,
"grad_norm": 0.46036818623542786,
"learning_rate": 4.971596116419606e-06,
"loss": 0.7159,
"step": 441
},
{
"epoch": 0.36833333333333335,
"grad_norm": 0.47075971961021423,
"learning_rate": 4.971429598955623e-06,
"loss": 0.711,
"step": 442
},
{
"epoch": 0.36916666666666664,
"grad_norm": 0.45767584443092346,
"learning_rate": 4.971262597618756e-06,
"loss": 0.7232,
"step": 443
},
{
"epoch": 0.37,
"grad_norm": 0.48424965143203735,
"learning_rate": 4.971095112441703e-06,
"loss": 0.7182,
"step": 444
},
{
"epoch": 0.37083333333333335,
"grad_norm": 0.4523642659187317,
"learning_rate": 4.970927143457255e-06,
"loss": 0.7455,
"step": 445
},
{
"epoch": 0.37166666666666665,
"grad_norm": 0.44370710849761963,
"learning_rate": 4.970758690698297e-06,
"loss": 0.7195,
"step": 446
},
{
"epoch": 0.3725,
"grad_norm": 0.48020926117897034,
"learning_rate": 4.970589754197811e-06,
"loss": 0.7396,
"step": 447
},
{
"epoch": 0.37333333333333335,
"grad_norm": 0.477601557970047,
"learning_rate": 4.970420333988873e-06,
"loss": 0.7159,
"step": 448
},
{
"epoch": 0.37416666666666665,
"grad_norm": 0.47169166803359985,
"learning_rate": 4.9702504301046505e-06,
"loss": 0.7265,
"step": 449
},
{
"epoch": 0.375,
"grad_norm": 0.47068580985069275,
"learning_rate": 4.97008004257841e-06,
"loss": 0.705,
"step": 450
},
{
"epoch": 0.37583333333333335,
"grad_norm": 0.45133304595947266,
"learning_rate": 4.969909171443512e-06,
"loss": 0.73,
"step": 451
},
{
"epoch": 0.37666666666666665,
"grad_norm": 0.4500066637992859,
"learning_rate": 4.969737816733411e-06,
"loss": 0.7277,
"step": 452
},
{
"epoch": 0.3775,
"grad_norm": 0.475951611995697,
"learning_rate": 4.969565978481654e-06,
"loss": 0.6951,
"step": 453
},
{
"epoch": 0.37833333333333335,
"grad_norm": 0.44676122069358826,
"learning_rate": 4.969393656721886e-06,
"loss": 0.7306,
"step": 454
},
{
"epoch": 0.37916666666666665,
"grad_norm": 0.4901207685470581,
"learning_rate": 4.9692208514878445e-06,
"loss": 0.7209,
"step": 455
},
{
"epoch": 0.38,
"grad_norm": 0.459177166223526,
"learning_rate": 4.969047562813363e-06,
"loss": 0.7301,
"step": 456
},
{
"epoch": 0.38083333333333336,
"grad_norm": 0.4697854816913605,
"learning_rate": 4.96887379073237e-06,
"loss": 0.7512,
"step": 457
},
{
"epoch": 0.38166666666666665,
"grad_norm": 0.4652157127857208,
"learning_rate": 4.968699535278886e-06,
"loss": 0.7559,
"step": 458
},
{
"epoch": 0.3825,
"grad_norm": 0.4756168723106384,
"learning_rate": 4.968524796487028e-06,
"loss": 0.7294,
"step": 459
},
{
"epoch": 0.38333333333333336,
"grad_norm": 0.4670083820819855,
"learning_rate": 4.968349574391009e-06,
"loss": 0.7335,
"step": 460
},
{
"epoch": 0.38416666666666666,
"grad_norm": 0.46000048518180847,
"learning_rate": 4.968173869025134e-06,
"loss": 0.6845,
"step": 461
},
{
"epoch": 0.385,
"grad_norm": 0.464958131313324,
"learning_rate": 4.967997680423804e-06,
"loss": 0.7077,
"step": 462
},
{
"epoch": 0.3858333333333333,
"grad_norm": 0.46760886907577515,
"learning_rate": 4.967821008621515e-06,
"loss": 0.7256,
"step": 463
},
{
"epoch": 0.38666666666666666,
"grad_norm": 0.4775695502758026,
"learning_rate": 4.967643853652856e-06,
"loss": 0.7247,
"step": 464
},
{
"epoch": 0.3875,
"grad_norm": 0.4554520547389984,
"learning_rate": 4.967466215552511e-06,
"loss": 0.719,
"step": 465
},
{
"epoch": 0.3883333333333333,
"grad_norm": 0.46731194853782654,
"learning_rate": 4.967288094355262e-06,
"loss": 0.7196,
"step": 466
},
{
"epoch": 0.38916666666666666,
"grad_norm": 0.46212297677993774,
"learning_rate": 4.9671094900959804e-06,
"loss": 0.7253,
"step": 467
},
{
"epoch": 0.39,
"grad_norm": 0.481896311044693,
"learning_rate": 4.9669304028096345e-06,
"loss": 0.7356,
"step": 468
},
{
"epoch": 0.3908333333333333,
"grad_norm": 0.4651428461074829,
"learning_rate": 4.966750832531288e-06,
"loss": 0.7347,
"step": 469
},
{
"epoch": 0.39166666666666666,
"grad_norm": 0.46207377314567566,
"learning_rate": 4.966570779296098e-06,
"loss": 0.6938,
"step": 470
},
{
"epoch": 0.3925,
"grad_norm": 0.45925164222717285,
"learning_rate": 4.9663902431393165e-06,
"loss": 0.7241,
"step": 471
},
{
"epoch": 0.3933333333333333,
"grad_norm": 0.46172574162483215,
"learning_rate": 4.96620922409629e-06,
"loss": 0.739,
"step": 472
},
{
"epoch": 0.39416666666666667,
"grad_norm": 0.4509231746196747,
"learning_rate": 4.96602772220246e-06,
"loss": 0.7043,
"step": 473
},
{
"epoch": 0.395,
"grad_norm": 0.4675430357456207,
"learning_rate": 4.965845737493363e-06,
"loss": 0.7062,
"step": 474
},
{
"epoch": 0.3958333333333333,
"grad_norm": 0.4617745876312256,
"learning_rate": 4.965663270004627e-06,
"loss": 0.7084,
"step": 475
},
{
"epoch": 0.39666666666666667,
"grad_norm": 0.4648987054824829,
"learning_rate": 4.965480319771978e-06,
"loss": 0.7355,
"step": 476
},
{
"epoch": 0.3975,
"grad_norm": 0.48100748658180237,
"learning_rate": 4.9652968868312346e-06,
"loss": 0.7131,
"step": 477
},
{
"epoch": 0.3983333333333333,
"grad_norm": 0.46484121680259705,
"learning_rate": 4.9651129712183116e-06,
"loss": 0.7103,
"step": 478
},
{
"epoch": 0.39916666666666667,
"grad_norm": 0.46905842423439026,
"learning_rate": 4.964928572969216e-06,
"loss": 0.72,
"step": 479
},
{
"epoch": 0.4,
"grad_norm": 0.4665108621120453,
"learning_rate": 4.9647436921200514e-06,
"loss": 0.7293,
"step": 480
},
{
"epoch": 0.4008333333333333,
"grad_norm": 0.47185784578323364,
"learning_rate": 4.9645583287070145e-06,
"loss": 0.7181,
"step": 481
},
{
"epoch": 0.40166666666666667,
"grad_norm": 0.48065367341041565,
"learning_rate": 4.964372482766397e-06,
"loss": 0.7192,
"step": 482
},
{
"epoch": 0.4025,
"grad_norm": 0.4816732704639435,
"learning_rate": 4.964186154334586e-06,
"loss": 0.7361,
"step": 483
},
{
"epoch": 0.4033333333333333,
"grad_norm": 0.4730132520198822,
"learning_rate": 4.96399934344806e-06,
"loss": 0.7365,
"step": 484
},
{
"epoch": 0.4041666666666667,
"grad_norm": 0.4708881676197052,
"learning_rate": 4.963812050143398e-06,
"loss": 0.7244,
"step": 485
},
{
"epoch": 0.405,
"grad_norm": 0.4635087847709656,
"learning_rate": 4.963624274457264e-06,
"loss": 0.7189,
"step": 486
},
{
"epoch": 0.4058333333333333,
"grad_norm": 0.4617489278316498,
"learning_rate": 4.963436016426426e-06,
"loss": 0.7164,
"step": 487
},
{
"epoch": 0.4066666666666667,
"grad_norm": 0.4764353334903717,
"learning_rate": 4.963247276087742e-06,
"loss": 0.7196,
"step": 488
},
{
"epoch": 0.4075,
"grad_norm": 0.45897895097732544,
"learning_rate": 4.963058053478162e-06,
"loss": 0.7278,
"step": 489
},
{
"epoch": 0.4083333333333333,
"grad_norm": 0.46642646193504333,
"learning_rate": 4.962868348634737e-06,
"loss": 0.7164,
"step": 490
},
{
"epoch": 0.4091666666666667,
"grad_norm": 0.47697651386260986,
"learning_rate": 4.962678161594608e-06,
"loss": 0.7411,
"step": 491
},
{
"epoch": 0.41,
"grad_norm": 0.47984251379966736,
"learning_rate": 4.962487492395008e-06,
"loss": 0.7393,
"step": 492
},
{
"epoch": 0.41083333333333333,
"grad_norm": 0.46771949529647827,
"learning_rate": 4.96229634107327e-06,
"loss": 0.7354,
"step": 493
},
{
"epoch": 0.4116666666666667,
"grad_norm": 0.46159738302230835,
"learning_rate": 4.96210470766682e-06,
"loss": 0.7254,
"step": 494
},
{
"epoch": 0.4125,
"grad_norm": 0.473518967628479,
"learning_rate": 4.961912592213174e-06,
"loss": 0.7249,
"step": 495
},
{
"epoch": 0.41333333333333333,
"grad_norm": 0.4579017460346222,
"learning_rate": 4.961719994749948e-06,
"loss": 0.7088,
"step": 496
},
{
"epoch": 0.4141666666666667,
"grad_norm": 0.4698212742805481,
"learning_rate": 4.96152691531485e-06,
"loss": 0.7222,
"step": 497
},
{
"epoch": 0.415,
"grad_norm": 0.4671380817890167,
"learning_rate": 4.9613333539456805e-06,
"loss": 0.7188,
"step": 498
},
{
"epoch": 0.41583333333333333,
"grad_norm": 0.46331900358200073,
"learning_rate": 4.961139310680339e-06,
"loss": 0.7003,
"step": 499
},
{
"epoch": 0.4166666666666667,
"grad_norm": 0.4642249047756195,
"learning_rate": 4.960944785556814e-06,
"loss": 0.7121,
"step": 500
},
{
"epoch": 0.4175,
"grad_norm": 0.44827917218208313,
"learning_rate": 4.960749778613193e-06,
"loss": 0.7223,
"step": 501
},
{
"epoch": 0.41833333333333333,
"grad_norm": 0.47208625078201294,
"learning_rate": 4.960554289887653e-06,
"loss": 0.7422,
"step": 502
},
{
"epoch": 0.4191666666666667,
"grad_norm": 0.4699961841106415,
"learning_rate": 4.960358319418472e-06,
"loss": 0.7467,
"step": 503
},
{
"epoch": 0.42,
"grad_norm": 0.47173166275024414,
"learning_rate": 4.960161867244015e-06,
"loss": 0.7302,
"step": 504
},
{
"epoch": 0.42083333333333334,
"grad_norm": 0.4668010175228119,
"learning_rate": 4.959964933402746e-06,
"loss": 0.7074,
"step": 505
},
{
"epoch": 0.4216666666666667,
"grad_norm": 0.46306827664375305,
"learning_rate": 4.959767517933222e-06,
"loss": 0.738,
"step": 506
},
{
"epoch": 0.4225,
"grad_norm": 0.4671972692012787,
"learning_rate": 4.959569620874094e-06,
"loss": 0.7097,
"step": 507
},
{
"epoch": 0.42333333333333334,
"grad_norm": 0.47125792503356934,
"learning_rate": 4.959371242264109e-06,
"loss": 0.7166,
"step": 508
},
{
"epoch": 0.4241666666666667,
"grad_norm": 0.46299198269844055,
"learning_rate": 4.959172382142105e-06,
"loss": 0.7488,
"step": 509
},
{
"epoch": 0.425,
"grad_norm": 0.4751565456390381,
"learning_rate": 4.958973040547016e-06,
"loss": 0.72,
"step": 510
},
{
"epoch": 0.42583333333333334,
"grad_norm": 0.46424582600593567,
"learning_rate": 4.958773217517873e-06,
"loss": 0.745,
"step": 511
},
{
"epoch": 0.4266666666666667,
"grad_norm": 0.45838502049446106,
"learning_rate": 4.958572913093795e-06,
"loss": 0.7209,
"step": 512
},
{
"epoch": 0.4275,
"grad_norm": 0.47205454111099243,
"learning_rate": 4.958372127314003e-06,
"loss": 0.7313,
"step": 513
},
{
"epoch": 0.42833333333333334,
"grad_norm": 0.46480584144592285,
"learning_rate": 4.958170860217804e-06,
"loss": 0.7014,
"step": 514
},
{
"epoch": 0.42916666666666664,
"grad_norm": 0.4785641133785248,
"learning_rate": 4.957969111844607e-06,
"loss": 0.7039,
"step": 515
},
{
"epoch": 0.43,
"grad_norm": 0.48162949085235596,
"learning_rate": 4.95776688223391e-06,
"loss": 0.7166,
"step": 516
},
{
"epoch": 0.43083333333333335,
"grad_norm": 0.4745679795742035,
"learning_rate": 4.957564171425307e-06,
"loss": 0.7142,
"step": 517
},
{
"epoch": 0.43166666666666664,
"grad_norm": 0.4671272337436676,
"learning_rate": 4.9573609794584856e-06,
"loss": 0.6994,
"step": 518
},
{
"epoch": 0.4325,
"grad_norm": 0.4763210713863373,
"learning_rate": 4.9571573063732295e-06,
"loss": 0.7264,
"step": 519
},
{
"epoch": 0.43333333333333335,
"grad_norm": 0.47782424092292786,
"learning_rate": 4.956953152209412e-06,
"loss": 0.6988,
"step": 520
},
{
"epoch": 0.43416666666666665,
"grad_norm": 0.46321046352386475,
"learning_rate": 4.956748517007008e-06,
"loss": 0.7131,
"step": 521
},
{
"epoch": 0.435,
"grad_norm": 0.4767902195453644,
"learning_rate": 4.9565434008060795e-06,
"loss": 0.7127,
"step": 522
},
{
"epoch": 0.43583333333333335,
"grad_norm": 0.4774905741214752,
"learning_rate": 4.956337803646787e-06,
"loss": 0.7114,
"step": 523
},
{
"epoch": 0.43666666666666665,
"grad_norm": 0.4685854911804199,
"learning_rate": 4.956131725569382e-06,
"loss": 0.7448,
"step": 524
},
{
"epoch": 0.4375,
"grad_norm": 0.47481775283813477,
"learning_rate": 4.9559251666142135e-06,
"loss": 0.7348,
"step": 525
},
{
"epoch": 0.43833333333333335,
"grad_norm": 0.4648106098175049,
"learning_rate": 4.9557181268217225e-06,
"loss": 0.6891,
"step": 526
},
{
"epoch": 0.43916666666666665,
"grad_norm": 0.45128193497657776,
"learning_rate": 4.955510606232444e-06,
"loss": 0.7326,
"step": 527
},
{
"epoch": 0.44,
"grad_norm": 0.46679434180259705,
"learning_rate": 4.955302604887008e-06,
"loss": 0.6952,
"step": 528
},
{
"epoch": 0.44083333333333335,
"grad_norm": 0.4732985496520996,
"learning_rate": 4.955094122826138e-06,
"loss": 0.6818,
"step": 529
},
{
"epoch": 0.44166666666666665,
"grad_norm": 0.4654479920864105,
"learning_rate": 4.954885160090653e-06,
"loss": 0.7348,
"step": 530
},
{
"epoch": 0.4425,
"grad_norm": 0.4805556833744049,
"learning_rate": 4.954675716721465e-06,
"loss": 0.722,
"step": 531
},
{
"epoch": 0.44333333333333336,
"grad_norm": 0.4614372253417969,
"learning_rate": 4.95446579275958e-06,
"loss": 0.7129,
"step": 532
},
{
"epoch": 0.44416666666666665,
"grad_norm": 0.483749657869339,
"learning_rate": 4.954255388246098e-06,
"loss": 0.7222,
"step": 533
},
{
"epoch": 0.445,
"grad_norm": 0.4642612934112549,
"learning_rate": 4.954044503222214e-06,
"loss": 0.7115,
"step": 534
},
{
"epoch": 0.44583333333333336,
"grad_norm": 0.469172865152359,
"learning_rate": 4.953833137729216e-06,
"loss": 0.7219,
"step": 535
},
{
"epoch": 0.44666666666666666,
"grad_norm": 0.4773421287536621,
"learning_rate": 4.953621291808486e-06,
"loss": 0.7061,
"step": 536
},
{
"epoch": 0.4475,
"grad_norm": 0.45834067463874817,
"learning_rate": 4.953408965501502e-06,
"loss": 0.7319,
"step": 537
},
{
"epoch": 0.4483333333333333,
"grad_norm": 0.49582624435424805,
"learning_rate": 4.9531961588498325e-06,
"loss": 0.7175,
"step": 538
},
{
"epoch": 0.44916666666666666,
"grad_norm": 0.47507691383361816,
"learning_rate": 4.9529828718951445e-06,
"loss": 0.7108,
"step": 539
},
{
"epoch": 0.45,
"grad_norm": 0.49403703212738037,
"learning_rate": 4.952769104679195e-06,
"loss": 0.7099,
"step": 540
},
{
"epoch": 0.4508333333333333,
"grad_norm": 0.4854276478290558,
"learning_rate": 4.952554857243839e-06,
"loss": 0.7008,
"step": 541
},
{
"epoch": 0.45166666666666666,
"grad_norm": 0.49015265703201294,
"learning_rate": 4.95234012963102e-06,
"loss": 0.7213,
"step": 542
},
{
"epoch": 0.4525,
"grad_norm": 0.4704878330230713,
"learning_rate": 4.952124921882782e-06,
"loss": 0.7202,
"step": 543
},
{
"epoch": 0.4533333333333333,
"grad_norm": 0.47394639253616333,
"learning_rate": 4.9519092340412575e-06,
"loss": 0.719,
"step": 544
},
{
"epoch": 0.45416666666666666,
"grad_norm": 0.49865660071372986,
"learning_rate": 4.951693066148678e-06,
"loss": 0.7021,
"step": 545
},
{
"epoch": 0.455,
"grad_norm": 0.4725435972213745,
"learning_rate": 4.951476418247362e-06,
"loss": 0.7171,
"step": 546
},
{
"epoch": 0.4558333333333333,
"grad_norm": 0.4926277697086334,
"learning_rate": 4.95125929037973e-06,
"loss": 0.7246,
"step": 547
},
{
"epoch": 0.45666666666666667,
"grad_norm": 0.47587206959724426,
"learning_rate": 4.951041682588291e-06,
"loss": 0.7076,
"step": 548
},
{
"epoch": 0.4575,
"grad_norm": 0.49358779191970825,
"learning_rate": 4.950823594915651e-06,
"loss": 0.6869,
"step": 549
},
{
"epoch": 0.4583333333333333,
"grad_norm": 0.4723842442035675,
"learning_rate": 4.9506050274045076e-06,
"loss": 0.728,
"step": 550
},
{
"epoch": 0.45916666666666667,
"grad_norm": 0.4840109050273895,
"learning_rate": 4.950385980097653e-06,
"loss": 0.7164,
"step": 551
},
{
"epoch": 0.46,
"grad_norm": 0.4879574775695801,
"learning_rate": 4.950166453037976e-06,
"loss": 0.7026,
"step": 552
},
{
"epoch": 0.4608333333333333,
"grad_norm": 0.4803706407546997,
"learning_rate": 4.9499464462684535e-06,
"loss": 0.7362,
"step": 553
},
{
"epoch": 0.46166666666666667,
"grad_norm": 0.48380714654922485,
"learning_rate": 4.9497259598321625e-06,
"loss": 0.7061,
"step": 554
},
{
"epoch": 0.4625,
"grad_norm": 0.4886619746685028,
"learning_rate": 4.949504993772271e-06,
"loss": 0.7227,
"step": 555
},
{
"epoch": 0.4633333333333333,
"grad_norm": 0.4812595844268799,
"learning_rate": 4.949283548132041e-06,
"loss": 0.725,
"step": 556
},
{
"epoch": 0.46416666666666667,
"grad_norm": 0.49524056911468506,
"learning_rate": 4.949061622954828e-06,
"loss": 0.722,
"step": 557
},
{
"epoch": 0.465,
"grad_norm": 0.47137996554374695,
"learning_rate": 4.948839218284082e-06,
"loss": 0.6922,
"step": 558
},
{
"epoch": 0.4658333333333333,
"grad_norm": 0.4778903126716614,
"learning_rate": 4.9486163341633474e-06,
"loss": 0.6906,
"step": 559
},
{
"epoch": 0.4666666666666667,
"grad_norm": 0.4881589710712433,
"learning_rate": 4.948392970636262e-06,
"loss": 0.7277,
"step": 560
},
{
"epoch": 0.4675,
"grad_norm": 0.48768582940101624,
"learning_rate": 4.948169127746558e-06,
"loss": 0.7292,
"step": 561
},
{
"epoch": 0.4683333333333333,
"grad_norm": 0.4845133423805237,
"learning_rate": 4.947944805538059e-06,
"loss": 0.7328,
"step": 562
},
{
"epoch": 0.4691666666666667,
"grad_norm": 0.4743124842643738,
"learning_rate": 4.9477200040546855e-06,
"loss": 0.7167,
"step": 563
},
{
"epoch": 0.47,
"grad_norm": 0.470243901014328,
"learning_rate": 4.947494723340451e-06,
"loss": 0.7275,
"step": 564
},
{
"epoch": 0.4708333333333333,
"grad_norm": 0.4756235182285309,
"learning_rate": 4.947268963439461e-06,
"loss": 0.7004,
"step": 565
},
{
"epoch": 0.4716666666666667,
"grad_norm": 0.47655385732650757,
"learning_rate": 4.947042724395918e-06,
"loss": 0.7204,
"step": 566
},
{
"epoch": 0.4725,
"grad_norm": 0.48011791706085205,
"learning_rate": 4.9468160062541154e-06,
"loss": 0.7189,
"step": 567
},
{
"epoch": 0.47333333333333333,
"grad_norm": 0.47994154691696167,
"learning_rate": 4.9465888090584425e-06,
"loss": 0.7111,
"step": 568
},
{
"epoch": 0.4741666666666667,
"grad_norm": 0.4681757986545563,
"learning_rate": 4.94636113285338e-06,
"loss": 0.7033,
"step": 569
},
{
"epoch": 0.475,
"grad_norm": 0.47301357984542847,
"learning_rate": 4.946132977683505e-06,
"loss": 0.7051,
"step": 570
},
{
"epoch": 0.47583333333333333,
"grad_norm": 0.4891713261604309,
"learning_rate": 4.945904343593487e-06,
"loss": 0.7174,
"step": 571
},
{
"epoch": 0.4766666666666667,
"grad_norm": 0.5102998614311218,
"learning_rate": 4.945675230628089e-06,
"loss": 0.7265,
"step": 572
},
{
"epoch": 0.4775,
"grad_norm": 0.5052884221076965,
"learning_rate": 4.94544563883217e-06,
"loss": 0.7089,
"step": 573
},
{
"epoch": 0.47833333333333333,
"grad_norm": 0.499349981546402,
"learning_rate": 4.94521556825068e-06,
"loss": 0.7214,
"step": 574
},
{
"epoch": 0.4791666666666667,
"grad_norm": 0.4990192949771881,
"learning_rate": 4.944985018928662e-06,
"loss": 0.7302,
"step": 575
},
{
"epoch": 0.48,
"grad_norm": 0.4947417080402374,
"learning_rate": 4.944753990911257e-06,
"loss": 0.6959,
"step": 576
},
{
"epoch": 0.48083333333333333,
"grad_norm": 0.46811023354530334,
"learning_rate": 4.944522484243696e-06,
"loss": 0.734,
"step": 577
},
{
"epoch": 0.4816666666666667,
"grad_norm": 0.48916953802108765,
"learning_rate": 4.944290498971305e-06,
"loss": 0.7044,
"step": 578
},
{
"epoch": 0.4825,
"grad_norm": 0.4881554841995239,
"learning_rate": 4.944058035139504e-06,
"loss": 0.7165,
"step": 579
},
{
"epoch": 0.48333333333333334,
"grad_norm": 0.49451276659965515,
"learning_rate": 4.943825092793806e-06,
"loss": 0.7201,
"step": 580
},
{
"epoch": 0.4841666666666667,
"grad_norm": 0.4869428277015686,
"learning_rate": 4.943591671979817e-06,
"loss": 0.6992,
"step": 581
},
{
"epoch": 0.485,
"grad_norm": 0.4971383512020111,
"learning_rate": 4.94335777274324e-06,
"loss": 0.7133,
"step": 582
},
{
"epoch": 0.48583333333333334,
"grad_norm": 0.5005112886428833,
"learning_rate": 4.9431233951298675e-06,
"loss": 0.6998,
"step": 583
},
{
"epoch": 0.4866666666666667,
"grad_norm": 0.465410053730011,
"learning_rate": 4.942888539185587e-06,
"loss": 0.7306,
"step": 584
},
{
"epoch": 0.4875,
"grad_norm": 0.5041592121124268,
"learning_rate": 4.942653204956383e-06,
"loss": 0.7266,
"step": 585
},
{
"epoch": 0.48833333333333334,
"grad_norm": 0.47696638107299805,
"learning_rate": 4.942417392488329e-06,
"loss": 0.7062,
"step": 586
},
{
"epoch": 0.4891666666666667,
"grad_norm": 0.4918696880340576,
"learning_rate": 4.9421811018275925e-06,
"loss": 0.7203,
"step": 587
},
{
"epoch": 0.49,
"grad_norm": 0.47475212812423706,
"learning_rate": 4.941944333020438e-06,
"loss": 0.7011,
"step": 588
},
{
"epoch": 0.49083333333333334,
"grad_norm": 0.4766216576099396,
"learning_rate": 4.941707086113221e-06,
"loss": 0.7105,
"step": 589
},
{
"epoch": 0.49166666666666664,
"grad_norm": 0.493965744972229,
"learning_rate": 4.941469361152392e-06,
"loss": 0.7094,
"step": 590
},
{
"epoch": 0.4925,
"grad_norm": 0.4940367639064789,
"learning_rate": 4.941231158184494e-06,
"loss": 0.7115,
"step": 591
},
{
"epoch": 0.49333333333333335,
"grad_norm": 0.4859408438205719,
"learning_rate": 4.940992477256163e-06,
"loss": 0.6983,
"step": 592
},
{
"epoch": 0.49416666666666664,
"grad_norm": 0.49589014053344727,
"learning_rate": 4.94075331841413e-06,
"loss": 0.6963,
"step": 593
},
{
"epoch": 0.495,
"grad_norm": 0.5000094771385193,
"learning_rate": 4.9405136817052205e-06,
"loss": 0.7082,
"step": 594
},
{
"epoch": 0.49583333333333335,
"grad_norm": 0.5032265186309814,
"learning_rate": 4.94027356717635e-06,
"loss": 0.7093,
"step": 595
},
{
"epoch": 0.49666666666666665,
"grad_norm": 0.5027580261230469,
"learning_rate": 4.9400329748745316e-06,
"loss": 0.7371,
"step": 596
},
{
"epoch": 0.4975,
"grad_norm": 0.476223886013031,
"learning_rate": 4.939791904846869e-06,
"loss": 0.7186,
"step": 597
},
{
"epoch": 0.49833333333333335,
"grad_norm": 0.48328179121017456,
"learning_rate": 4.93955035714056e-06,
"loss": 0.6914,
"step": 598
},
{
"epoch": 0.49916666666666665,
"grad_norm": 0.5076419711112976,
"learning_rate": 4.9393083318028984e-06,
"loss": 0.7268,
"step": 599
},
{
"epoch": 0.5,
"grad_norm": 0.4889422357082367,
"learning_rate": 4.9390658288812675e-06,
"loss": 0.7083,
"step": 600
},
{
"epoch": 0.5008333333333334,
"grad_norm": 0.4899008572101593,
"learning_rate": 4.938822848423147e-06,
"loss": 0.7132,
"step": 601
},
{
"epoch": 0.5016666666666667,
"grad_norm": 0.4912792146205902,
"learning_rate": 4.938579390476109e-06,
"loss": 0.718,
"step": 602
},
{
"epoch": 0.5025,
"grad_norm": 0.4838503897190094,
"learning_rate": 4.93833545508782e-06,
"loss": 0.7215,
"step": 603
},
{
"epoch": 0.5033333333333333,
"grad_norm": 0.4929048418998718,
"learning_rate": 4.938091042306038e-06,
"loss": 0.7015,
"step": 604
},
{
"epoch": 0.5041666666666667,
"grad_norm": 0.49849268794059753,
"learning_rate": 4.9378461521786165e-06,
"loss": 0.7154,
"step": 605
},
{
"epoch": 0.505,
"grad_norm": 0.4948844015598297,
"learning_rate": 4.937600784753502e-06,
"loss": 0.7311,
"step": 606
},
{
"epoch": 0.5058333333333334,
"grad_norm": 0.48736852407455444,
"learning_rate": 4.937354940078733e-06,
"loss": 0.6813,
"step": 607
},
{
"epoch": 0.5066666666666667,
"grad_norm": 0.49282482266426086,
"learning_rate": 4.9371086182024445e-06,
"loss": 0.7193,
"step": 608
},
{
"epoch": 0.5075,
"grad_norm": 0.48460039496421814,
"learning_rate": 4.936861819172861e-06,
"loss": 0.7199,
"step": 609
},
{
"epoch": 0.5083333333333333,
"grad_norm": 0.484996497631073,
"learning_rate": 4.936614543038305e-06,
"loss": 0.7247,
"step": 610
},
{
"epoch": 0.5091666666666667,
"grad_norm": 0.5049502849578857,
"learning_rate": 4.936366789847187e-06,
"loss": 0.7281,
"step": 611
},
{
"epoch": 0.51,
"grad_norm": 0.500078558921814,
"learning_rate": 4.936118559648015e-06,
"loss": 0.7334,
"step": 612
},
{
"epoch": 0.5108333333333334,
"grad_norm": 0.4830380380153656,
"learning_rate": 4.93586985248939e-06,
"loss": 0.7233,
"step": 613
},
{
"epoch": 0.5116666666666667,
"grad_norm": 0.48667341470718384,
"learning_rate": 4.9356206684200045e-06,
"loss": 0.6953,
"step": 614
},
{
"epoch": 0.5125,
"grad_norm": 0.46916696429252625,
"learning_rate": 4.9353710074886454e-06,
"loss": 0.6844,
"step": 615
},
{
"epoch": 0.5133333333333333,
"grad_norm": 0.48398151993751526,
"learning_rate": 4.935120869744194e-06,
"loss": 0.7127,
"step": 616
},
{
"epoch": 0.5141666666666667,
"grad_norm": 0.499497652053833,
"learning_rate": 4.934870255235622e-06,
"loss": 0.6896,
"step": 617
},
{
"epoch": 0.515,
"grad_norm": 0.48984643816947937,
"learning_rate": 4.934619164011998e-06,
"loss": 0.7299,
"step": 618
},
{
"epoch": 0.5158333333333334,
"grad_norm": 0.5016290545463562,
"learning_rate": 4.934367596122482e-06,
"loss": 0.7174,
"step": 619
},
{
"epoch": 0.5166666666666667,
"grad_norm": 0.4891358017921448,
"learning_rate": 4.9341155516163275e-06,
"loss": 0.6922,
"step": 620
},
{
"epoch": 0.5175,
"grad_norm": 0.5024811029434204,
"learning_rate": 4.9338630305428815e-06,
"loss": 0.7393,
"step": 621
},
{
"epoch": 0.5183333333333333,
"grad_norm": 0.4832116961479187,
"learning_rate": 4.9336100329515835e-06,
"loss": 0.6903,
"step": 622
},
{
"epoch": 0.5191666666666667,
"grad_norm": 0.48036712408065796,
"learning_rate": 4.933356558891968e-06,
"loss": 0.7136,
"step": 623
},
{
"epoch": 0.52,
"grad_norm": 0.48273342847824097,
"learning_rate": 4.933102608413662e-06,
"loss": 0.6828,
"step": 624
},
{
"epoch": 0.5208333333333334,
"grad_norm": 0.4953583776950836,
"learning_rate": 4.9328481815663845e-06,
"loss": 0.7203,
"step": 625
},
{
"epoch": 0.5216666666666666,
"grad_norm": 0.5053473711013794,
"learning_rate": 4.93259327839995e-06,
"loss": 0.7141,
"step": 626
},
{
"epoch": 0.5225,
"grad_norm": 0.4935609996318817,
"learning_rate": 4.932337898964264e-06,
"loss": 0.7097,
"step": 627
},
{
"epoch": 0.5233333333333333,
"grad_norm": 0.5030904412269592,
"learning_rate": 4.932082043309328e-06,
"loss": 0.7261,
"step": 628
},
{
"epoch": 0.5241666666666667,
"grad_norm": 0.48916617035865784,
"learning_rate": 4.9318257114852336e-06,
"loss": 0.7203,
"step": 629
},
{
"epoch": 0.525,
"grad_norm": 0.49389857053756714,
"learning_rate": 4.931568903542168e-06,
"loss": 0.7149,
"step": 630
},
{
"epoch": 0.5258333333333334,
"grad_norm": 0.49069395661354065,
"learning_rate": 4.93131161953041e-06,
"loss": 0.7314,
"step": 631
},
{
"epoch": 0.5266666666666666,
"grad_norm": 0.50567626953125,
"learning_rate": 4.931053859500334e-06,
"loss": 0.7185,
"step": 632
},
{
"epoch": 0.5275,
"grad_norm": 0.49401047825813293,
"learning_rate": 4.9307956235024025e-06,
"loss": 0.701,
"step": 633
},
{
"epoch": 0.5283333333333333,
"grad_norm": 0.5027605891227722,
"learning_rate": 4.930536911587179e-06,
"loss": 0.7029,
"step": 634
},
{
"epoch": 0.5291666666666667,
"grad_norm": 0.48128971457481384,
"learning_rate": 4.930277723805313e-06,
"loss": 0.7098,
"step": 635
},
{
"epoch": 0.53,
"grad_norm": 0.4842052161693573,
"learning_rate": 4.930018060207551e-06,
"loss": 0.7053,
"step": 636
},
{
"epoch": 0.5308333333333334,
"grad_norm": 0.5151858925819397,
"learning_rate": 4.929757920844731e-06,
"loss": 0.6984,
"step": 637
},
{
"epoch": 0.5316666666666666,
"grad_norm": 0.48803043365478516,
"learning_rate": 4.929497305767786e-06,
"loss": 0.7087,
"step": 638
},
{
"epoch": 0.5325,
"grad_norm": 0.49492281675338745,
"learning_rate": 4.92923621502774e-06,
"loss": 0.726,
"step": 639
},
{
"epoch": 0.5333333333333333,
"grad_norm": 0.5118134617805481,
"learning_rate": 4.928974648675711e-06,
"loss": 0.6862,
"step": 640
},
{
"epoch": 0.5341666666666667,
"grad_norm": 0.5026904344558716,
"learning_rate": 4.928712606762911e-06,
"loss": 0.7116,
"step": 641
},
{
"epoch": 0.535,
"grad_norm": 0.5102514028549194,
"learning_rate": 4.928450089340644e-06,
"loss": 0.7135,
"step": 642
},
{
"epoch": 0.5358333333333334,
"grad_norm": 0.4974600672721863,
"learning_rate": 4.928187096460306e-06,
"loss": 0.7186,
"step": 643
},
{
"epoch": 0.5366666666666666,
"grad_norm": 0.49446332454681396,
"learning_rate": 4.92792362817339e-06,
"loss": 0.7229,
"step": 644
},
{
"epoch": 0.5375,
"grad_norm": 0.49716511368751526,
"learning_rate": 4.927659684531477e-06,
"loss": 0.7164,
"step": 645
},
{
"epoch": 0.5383333333333333,
"grad_norm": 0.5083909034729004,
"learning_rate": 4.927395265586246e-06,
"loss": 0.7209,
"step": 646
},
{
"epoch": 0.5391666666666667,
"grad_norm": 0.49926912784576416,
"learning_rate": 4.927130371389465e-06,
"loss": 0.7043,
"step": 647
},
{
"epoch": 0.54,
"grad_norm": 0.4805012047290802,
"learning_rate": 4.926865001992998e-06,
"loss": 0.6756,
"step": 648
},
{
"epoch": 0.5408333333333334,
"grad_norm": 0.4931069612503052,
"learning_rate": 4.926599157448799e-06,
"loss": 0.6855,
"step": 649
},
{
"epoch": 0.5416666666666666,
"grad_norm": 0.4891999065876007,
"learning_rate": 4.926332837808918e-06,
"loss": 0.7248,
"step": 650
},
{
"epoch": 0.5425,
"grad_norm": 0.4911347031593323,
"learning_rate": 4.926066043125498e-06,
"loss": 0.6852,
"step": 651
},
{
"epoch": 0.5433333333333333,
"grad_norm": 0.5025411248207092,
"learning_rate": 4.9257987734507715e-06,
"loss": 0.695,
"step": 652
},
{
"epoch": 0.5441666666666667,
"grad_norm": 0.5224595069885254,
"learning_rate": 4.9255310288370685e-06,
"loss": 0.7078,
"step": 653
},
{
"epoch": 0.545,
"grad_norm": 0.5079106092453003,
"learning_rate": 4.925262809336808e-06,
"loss": 0.7028,
"step": 654
},
{
"epoch": 0.5458333333333333,
"grad_norm": 0.49983689188957214,
"learning_rate": 4.924994115002504e-06,
"loss": 0.6802,
"step": 655
},
{
"epoch": 0.5466666666666666,
"grad_norm": 0.48790889978408813,
"learning_rate": 4.9247249458867645e-06,
"loss": 0.6909,
"step": 656
},
{
"epoch": 0.5475,
"grad_norm": 0.5053600072860718,
"learning_rate": 4.924455302042289e-06,
"loss": 0.686,
"step": 657
},
{
"epoch": 0.5483333333333333,
"grad_norm": 0.48766225576400757,
"learning_rate": 4.924185183521868e-06,
"loss": 0.715,
"step": 658
},
{
"epoch": 0.5491666666666667,
"grad_norm": 0.4844707250595093,
"learning_rate": 4.92391459037839e-06,
"loss": 0.686,
"step": 659
},
{
"epoch": 0.55,
"grad_norm": 0.5116406083106995,
"learning_rate": 4.923643522664833e-06,
"loss": 0.7119,
"step": 660
},
{
"epoch": 0.5508333333333333,
"grad_norm": 0.5154091715812683,
"learning_rate": 4.923371980434266e-06,
"loss": 0.7185,
"step": 661
},
{
"epoch": 0.5516666666666666,
"grad_norm": 0.5236364006996155,
"learning_rate": 4.923099963739856e-06,
"loss": 0.7253,
"step": 662
},
{
"epoch": 0.5525,
"grad_norm": 0.5012351870536804,
"learning_rate": 4.922827472634859e-06,
"loss": 0.693,
"step": 663
},
{
"epoch": 0.5533333333333333,
"grad_norm": 0.49236923456192017,
"learning_rate": 4.922554507172626e-06,
"loss": 0.7268,
"step": 664
},
{
"epoch": 0.5541666666666667,
"grad_norm": 0.49417221546173096,
"learning_rate": 4.922281067406598e-06,
"loss": 0.7305,
"step": 665
},
{
"epoch": 0.555,
"grad_norm": 0.5097923874855042,
"learning_rate": 4.922007153390313e-06,
"loss": 0.6999,
"step": 666
},
{
"epoch": 0.5558333333333333,
"grad_norm": 0.499994158744812,
"learning_rate": 4.921732765177399e-06,
"loss": 0.7233,
"step": 667
},
{
"epoch": 0.5566666666666666,
"grad_norm": 0.511122465133667,
"learning_rate": 4.921457902821578e-06,
"loss": 0.7006,
"step": 668
},
{
"epoch": 0.5575,
"grad_norm": 0.5105845332145691,
"learning_rate": 4.921182566376663e-06,
"loss": 0.7038,
"step": 669
},
{
"epoch": 0.5583333333333333,
"grad_norm": 0.5096433162689209,
"learning_rate": 4.920906755896563e-06,
"loss": 0.7363,
"step": 670
},
{
"epoch": 0.5591666666666667,
"grad_norm": 0.49480730295181274,
"learning_rate": 4.920630471435277e-06,
"loss": 0.6972,
"step": 671
},
{
"epoch": 0.56,
"grad_norm": 0.505930483341217,
"learning_rate": 4.920353713046897e-06,
"loss": 0.699,
"step": 672
},
{
"epoch": 0.5608333333333333,
"grad_norm": 0.4985577464103699,
"learning_rate": 4.92007648078561e-06,
"loss": 0.7055,
"step": 673
},
{
"epoch": 0.5616666666666666,
"grad_norm": 0.4965658187866211,
"learning_rate": 4.919798774705694e-06,
"loss": 0.7258,
"step": 674
},
{
"epoch": 0.5625,
"grad_norm": 0.5078153014183044,
"learning_rate": 4.91952059486152e-06,
"loss": 0.7277,
"step": 675
},
{
"epoch": 0.5633333333333334,
"grad_norm": 0.4960659444332123,
"learning_rate": 4.919241941307551e-06,
"loss": 0.7215,
"step": 676
},
{
"epoch": 0.5641666666666667,
"grad_norm": 0.5092875361442566,
"learning_rate": 4.9189628140983454e-06,
"loss": 0.6959,
"step": 677
},
{
"epoch": 0.565,
"grad_norm": 0.505517840385437,
"learning_rate": 4.918683213288551e-06,
"loss": 0.6918,
"step": 678
},
{
"epoch": 0.5658333333333333,
"grad_norm": 0.4938601851463318,
"learning_rate": 4.9184031389329114e-06,
"loss": 0.7288,
"step": 679
},
{
"epoch": 0.5666666666666667,
"grad_norm": 0.5383937954902649,
"learning_rate": 4.91812259108626e-06,
"loss": 0.7165,
"step": 680
},
{
"epoch": 0.5675,
"grad_norm": 0.501088559627533,
"learning_rate": 4.917841569803525e-06,
"loss": 0.7036,
"step": 681
},
{
"epoch": 0.5683333333333334,
"grad_norm": 0.512438178062439,
"learning_rate": 4.917560075139727e-06,
"loss": 0.741,
"step": 682
},
{
"epoch": 0.5691666666666667,
"grad_norm": 0.5291407108306885,
"learning_rate": 4.917278107149978e-06,
"loss": 0.691,
"step": 683
},
{
"epoch": 0.57,
"grad_norm": 0.5237842202186584,
"learning_rate": 4.916995665889485e-06,
"loss": 0.7238,
"step": 684
},
{
"epoch": 0.5708333333333333,
"grad_norm": 0.5278199911117554,
"learning_rate": 4.9167127514135436e-06,
"loss": 0.7362,
"step": 685
},
{
"epoch": 0.5716666666666667,
"grad_norm": 0.5081051588058472,
"learning_rate": 4.916429363777547e-06,
"loss": 0.7275,
"step": 686
},
{
"epoch": 0.5725,
"grad_norm": 0.4862457513809204,
"learning_rate": 4.916145503036978e-06,
"loss": 0.6797,
"step": 687
},
{
"epoch": 0.5733333333333334,
"grad_norm": 0.5127841830253601,
"learning_rate": 4.915861169247413e-06,
"loss": 0.7076,
"step": 688
},
{
"epoch": 0.5741666666666667,
"grad_norm": 0.4955374002456665,
"learning_rate": 4.91557636246452e-06,
"loss": 0.7151,
"step": 689
},
{
"epoch": 0.575,
"grad_norm": 0.5174440145492554,
"learning_rate": 4.9152910827440615e-06,
"loss": 0.7042,
"step": 690
},
{
"epoch": 0.5758333333333333,
"grad_norm": 0.5315648317337036,
"learning_rate": 4.91500533014189e-06,
"loss": 0.6797,
"step": 691
},
{
"epoch": 0.5766666666666667,
"grad_norm": 0.5086205005645752,
"learning_rate": 4.9147191047139535e-06,
"loss": 0.7123,
"step": 692
},
{
"epoch": 0.5775,
"grad_norm": 0.5061271786689758,
"learning_rate": 4.91443240651629e-06,
"loss": 0.7099,
"step": 693
},
{
"epoch": 0.5783333333333334,
"grad_norm": 0.5256630778312683,
"learning_rate": 4.914145235605032e-06,
"loss": 0.727,
"step": 694
},
{
"epoch": 0.5791666666666667,
"grad_norm": 0.5153964757919312,
"learning_rate": 4.913857592036403e-06,
"loss": 0.7091,
"step": 695
},
{
"epoch": 0.58,
"grad_norm": 0.5042173862457275,
"learning_rate": 4.913569475866721e-06,
"loss": 0.6992,
"step": 696
},
{
"epoch": 0.5808333333333333,
"grad_norm": 0.5220386385917664,
"learning_rate": 4.913280887152394e-06,
"loss": 0.6889,
"step": 697
},
{
"epoch": 0.5816666666666667,
"grad_norm": 0.49453794956207275,
"learning_rate": 4.912991825949923e-06,
"loss": 0.7045,
"step": 698
},
{
"epoch": 0.5825,
"grad_norm": 0.541048526763916,
"learning_rate": 4.912702292315905e-06,
"loss": 0.717,
"step": 699
},
{
"epoch": 0.5833333333333334,
"grad_norm": 0.5255627632141113,
"learning_rate": 4.912412286307025e-06,
"loss": 0.6917,
"step": 700
},
{
"epoch": 0.5841666666666666,
"grad_norm": 0.5208636522293091,
"learning_rate": 4.912121807980063e-06,
"loss": 0.6966,
"step": 701
},
{
"epoch": 0.585,
"grad_norm": 0.5166336894035339,
"learning_rate": 4.9118308573918905e-06,
"loss": 0.6893,
"step": 702
},
{
"epoch": 0.5858333333333333,
"grad_norm": 0.5058565735816956,
"learning_rate": 4.911539434599471e-06,
"loss": 0.6801,
"step": 703
},
{
"epoch": 0.5866666666666667,
"grad_norm": 0.4997437000274658,
"learning_rate": 4.911247539659863e-06,
"loss": 0.6935,
"step": 704
},
{
"epoch": 0.5875,
"grad_norm": 0.49939316511154175,
"learning_rate": 4.9109551726302125e-06,
"loss": 0.7179,
"step": 705
},
{
"epoch": 0.5883333333333334,
"grad_norm": 0.5002568960189819,
"learning_rate": 4.910662333567765e-06,
"loss": 0.7015,
"step": 706
},
{
"epoch": 0.5891666666666666,
"grad_norm": 0.5086607336997986,
"learning_rate": 4.910369022529851e-06,
"loss": 0.732,
"step": 707
},
{
"epoch": 0.59,
"grad_norm": 0.518061637878418,
"learning_rate": 4.9100752395739e-06,
"loss": 0.69,
"step": 708
},
{
"epoch": 0.5908333333333333,
"grad_norm": 0.5153642296791077,
"learning_rate": 4.909780984757428e-06,
"loss": 0.7203,
"step": 709
},
{
"epoch": 0.5916666666666667,
"grad_norm": 0.5164903998374939,
"learning_rate": 4.909486258138048e-06,
"loss": 0.7081,
"step": 710
},
{
"epoch": 0.5925,
"grad_norm": 0.5227023959159851,
"learning_rate": 4.9091910597734624e-06,
"loss": 0.6969,
"step": 711
},
{
"epoch": 0.5933333333333334,
"grad_norm": 0.531080424785614,
"learning_rate": 4.908895389721469e-06,
"loss": 0.7138,
"step": 712
},
{
"epoch": 0.5941666666666666,
"grad_norm": 0.5179861783981323,
"learning_rate": 4.9085992480399526e-06,
"loss": 0.7082,
"step": 713
},
{
"epoch": 0.595,
"grad_norm": 0.49200907349586487,
"learning_rate": 4.908302634786897e-06,
"loss": 0.6779,
"step": 714
},
{
"epoch": 0.5958333333333333,
"grad_norm": 0.5001080632209778,
"learning_rate": 4.908005550020374e-06,
"loss": 0.7186,
"step": 715
},
{
"epoch": 0.5966666666666667,
"grad_norm": 0.5192794799804688,
"learning_rate": 4.907707993798548e-06,
"loss": 0.6823,
"step": 716
},
{
"epoch": 0.5975,
"grad_norm": 0.5092243552207947,
"learning_rate": 4.9074099661796775e-06,
"loss": 0.6951,
"step": 717
},
{
"epoch": 0.5983333333333334,
"grad_norm": 0.5013896226882935,
"learning_rate": 4.907111467222112e-06,
"loss": 0.7003,
"step": 718
},
{
"epoch": 0.5991666666666666,
"grad_norm": 0.5117473006248474,
"learning_rate": 4.906812496984294e-06,
"loss": 0.6876,
"step": 719
},
{
"epoch": 0.6,
"grad_norm": 0.5007987022399902,
"learning_rate": 4.906513055524757e-06,
"loss": 0.7177,
"step": 720
},
{
"epoch": 0.6008333333333333,
"grad_norm": 0.512077808380127,
"learning_rate": 4.90621314290213e-06,
"loss": 0.7262,
"step": 721
},
{
"epoch": 0.6016666666666667,
"grad_norm": 0.5171950459480286,
"learning_rate": 4.9059127591751284e-06,
"loss": 0.7142,
"step": 722
},
{
"epoch": 0.6025,
"grad_norm": 0.5047792792320251,
"learning_rate": 4.905611904402566e-06,
"loss": 0.7035,
"step": 723
},
{
"epoch": 0.6033333333333334,
"grad_norm": 0.5052487850189209,
"learning_rate": 4.905310578643344e-06,
"loss": 0.7148,
"step": 724
},
{
"epoch": 0.6041666666666666,
"grad_norm": 0.5292346477508545,
"learning_rate": 4.90500878195646e-06,
"loss": 0.7156,
"step": 725
},
{
"epoch": 0.605,
"grad_norm": 0.5053814649581909,
"learning_rate": 4.904706514401001e-06,
"loss": 0.7299,
"step": 726
},
{
"epoch": 0.6058333333333333,
"grad_norm": 0.5022679567337036,
"learning_rate": 4.9044037760361464e-06,
"loss": 0.7007,
"step": 727
},
{
"epoch": 0.6066666666666667,
"grad_norm": 0.5067057013511658,
"learning_rate": 4.9041005669211686e-06,
"loss": 0.6975,
"step": 728
},
{
"epoch": 0.6075,
"grad_norm": 0.5200228095054626,
"learning_rate": 4.903796887115433e-06,
"loss": 0.6953,
"step": 729
},
{
"epoch": 0.6083333333333333,
"grad_norm": 0.5037333369255066,
"learning_rate": 4.903492736678393e-06,
"loss": 0.6907,
"step": 730
},
{
"epoch": 0.6091666666666666,
"grad_norm": 0.519079327583313,
"learning_rate": 4.903188115669602e-06,
"loss": 0.6959,
"step": 731
},
{
"epoch": 0.61,
"grad_norm": 0.525310754776001,
"learning_rate": 4.902883024148696e-06,
"loss": 0.6889,
"step": 732
},
{
"epoch": 0.6108333333333333,
"grad_norm": 0.5057506561279297,
"learning_rate": 4.90257746217541e-06,
"loss": 0.6485,
"step": 733
},
{
"epoch": 0.6116666666666667,
"grad_norm": 0.5262610912322998,
"learning_rate": 4.90227142980957e-06,
"loss": 0.6897,
"step": 734
},
{
"epoch": 0.6125,
"grad_norm": 0.5470754504203796,
"learning_rate": 4.901964927111091e-06,
"loss": 0.6965,
"step": 735
},
{
"epoch": 0.6133333333333333,
"grad_norm": 0.5268189311027527,
"learning_rate": 4.901657954139983e-06,
"loss": 0.694,
"step": 736
},
{
"epoch": 0.6141666666666666,
"grad_norm": 0.5172377824783325,
"learning_rate": 4.901350510956347e-06,
"loss": 0.6912,
"step": 737
},
{
"epoch": 0.615,
"grad_norm": 0.512689471244812,
"learning_rate": 4.9010425976203775e-06,
"loss": 0.7014,
"step": 738
},
{
"epoch": 0.6158333333333333,
"grad_norm": 0.5084899663925171,
"learning_rate": 4.900734214192358e-06,
"loss": 0.7167,
"step": 739
},
{
"epoch": 0.6166666666666667,
"grad_norm": 0.5255918502807617,
"learning_rate": 4.900425360732667e-06,
"loss": 0.7238,
"step": 740
},
{
"epoch": 0.6175,
"grad_norm": 0.5194475650787354,
"learning_rate": 4.900116037301773e-06,
"loss": 0.6933,
"step": 741
},
{
"epoch": 0.6183333333333333,
"grad_norm": 0.5156967639923096,
"learning_rate": 4.899806243960238e-06,
"loss": 0.7113,
"step": 742
},
{
"epoch": 0.6191666666666666,
"grad_norm": 0.5053946375846863,
"learning_rate": 4.899495980768715e-06,
"loss": 0.7265,
"step": 743
},
{
"epoch": 0.62,
"grad_norm": 0.5088186860084534,
"learning_rate": 4.899185247787951e-06,
"loss": 0.6802,
"step": 744
},
{
"epoch": 0.6208333333333333,
"grad_norm": 0.5136875510215759,
"learning_rate": 4.89887404507878e-06,
"loss": 0.701,
"step": 745
},
{
"epoch": 0.6216666666666667,
"grad_norm": 0.5318417549133301,
"learning_rate": 4.898562372702135e-06,
"loss": 0.6949,
"step": 746
},
{
"epoch": 0.6225,
"grad_norm": 0.5200463533401489,
"learning_rate": 4.898250230719035e-06,
"loss": 0.6897,
"step": 747
},
{
"epoch": 0.6233333333333333,
"grad_norm": 0.5077635645866394,
"learning_rate": 4.897937619190594e-06,
"loss": 0.7199,
"step": 748
},
{
"epoch": 0.6241666666666666,
"grad_norm": 0.5357377529144287,
"learning_rate": 4.897624538178016e-06,
"loss": 0.6934,
"step": 749
},
{
"epoch": 0.625,
"grad_norm": 0.5099722743034363,
"learning_rate": 4.8973109877426e-06,
"loss": 0.7035,
"step": 750
},
{
"epoch": 0.6258333333333334,
"grad_norm": 0.5247126817703247,
"learning_rate": 4.8969969679457356e-06,
"loss": 0.6929,
"step": 751
},
{
"epoch": 0.6266666666666667,
"grad_norm": 0.5198376178741455,
"learning_rate": 4.8966824788489e-06,
"loss": 0.672,
"step": 752
},
{
"epoch": 0.6275,
"grad_norm": 0.5000905394554138,
"learning_rate": 4.896367520513669e-06,
"loss": 0.6997,
"step": 753
},
{
"epoch": 0.6283333333333333,
"grad_norm": 0.5157536268234253,
"learning_rate": 4.896052093001706e-06,
"loss": 0.6991,
"step": 754
},
{
"epoch": 0.6291666666666667,
"grad_norm": 0.515041172504425,
"learning_rate": 4.895736196374769e-06,
"loss": 0.7068,
"step": 755
},
{
"epoch": 0.63,
"grad_norm": 0.5365301966667175,
"learning_rate": 4.895419830694704e-06,
"loss": 0.6737,
"step": 756
},
{
"epoch": 0.6308333333333334,
"grad_norm": 0.5136700868606567,
"learning_rate": 4.895102996023453e-06,
"loss": 0.6918,
"step": 757
},
{
"epoch": 0.6316666666666667,
"grad_norm": 0.5233005881309509,
"learning_rate": 4.894785692423047e-06,
"loss": 0.6965,
"step": 758
},
{
"epoch": 0.6325,
"grad_norm": 0.5384533405303955,
"learning_rate": 4.89446791995561e-06,
"loss": 0.7077,
"step": 759
},
{
"epoch": 0.6333333333333333,
"grad_norm": 0.563629686832428,
"learning_rate": 4.8941496786833585e-06,
"loss": 0.6964,
"step": 760
},
{
"epoch": 0.6341666666666667,
"grad_norm": 0.534803569316864,
"learning_rate": 4.893830968668598e-06,
"loss": 0.6948,
"step": 761
},
{
"epoch": 0.635,
"grad_norm": 0.5261678099632263,
"learning_rate": 4.89351178997373e-06,
"loss": 0.7119,
"step": 762
},
{
"epoch": 0.6358333333333334,
"grad_norm": 0.5127663016319275,
"learning_rate": 4.8931921426612436e-06,
"loss": 0.678,
"step": 763
},
{
"epoch": 0.6366666666666667,
"grad_norm": 0.5464842915534973,
"learning_rate": 4.8928720267937225e-06,
"loss": 0.7248,
"step": 764
},
{
"epoch": 0.6375,
"grad_norm": 0.524034321308136,
"learning_rate": 4.89255144243384e-06,
"loss": 0.7226,
"step": 765
},
{
"epoch": 0.6383333333333333,
"grad_norm": 0.5386018753051758,
"learning_rate": 4.892230389644364e-06,
"loss": 0.7075,
"step": 766
},
{
"epoch": 0.6391666666666667,
"grad_norm": 0.508327066898346,
"learning_rate": 4.89190886848815e-06,
"loss": 0.6874,
"step": 767
},
{
"epoch": 0.64,
"grad_norm": 0.5330120921134949,
"learning_rate": 4.89158687902815e-06,
"loss": 0.7053,
"step": 768
},
{
"epoch": 0.6408333333333334,
"grad_norm": 0.523970901966095,
"learning_rate": 4.891264421327404e-06,
"loss": 0.6953,
"step": 769
},
{
"epoch": 0.6416666666666667,
"grad_norm": 0.5083604454994202,
"learning_rate": 4.890941495449045e-06,
"loss": 0.7051,
"step": 770
},
{
"epoch": 0.6425,
"grad_norm": 0.518703818321228,
"learning_rate": 4.890618101456297e-06,
"loss": 0.6998,
"step": 771
},
{
"epoch": 0.6433333333333333,
"grad_norm": 0.5182946920394897,
"learning_rate": 4.890294239412477e-06,
"loss": 0.6861,
"step": 772
},
{
"epoch": 0.6441666666666667,
"grad_norm": 0.5185273885726929,
"learning_rate": 4.889969909380993e-06,
"loss": 0.6932,
"step": 773
},
{
"epoch": 0.645,
"grad_norm": 0.518583357334137,
"learning_rate": 4.889645111425343e-06,
"loss": 0.7127,
"step": 774
},
{
"epoch": 0.6458333333333334,
"grad_norm": 0.5055477023124695,
"learning_rate": 4.889319845609121e-06,
"loss": 0.6848,
"step": 775
},
{
"epoch": 0.6466666666666666,
"grad_norm": 0.5145213007926941,
"learning_rate": 4.888994111996007e-06,
"loss": 0.675,
"step": 776
},
{
"epoch": 0.6475,
"grad_norm": 0.5357155203819275,
"learning_rate": 4.888667910649776e-06,
"loss": 0.6852,
"step": 777
},
{
"epoch": 0.6483333333333333,
"grad_norm": 0.5249659419059753,
"learning_rate": 4.888341241634294e-06,
"loss": 0.6758,
"step": 778
},
{
"epoch": 0.6491666666666667,
"grad_norm": 0.5111972689628601,
"learning_rate": 4.888014105013519e-06,
"loss": 0.7135,
"step": 779
},
{
"epoch": 0.65,
"grad_norm": 0.5049281716346741,
"learning_rate": 4.887686500851499e-06,
"loss": 0.7005,
"step": 780
},
{
"epoch": 0.6508333333333334,
"grad_norm": 0.5292990207672119,
"learning_rate": 4.887358429212376e-06,
"loss": 0.693,
"step": 781
},
{
"epoch": 0.6516666666666666,
"grad_norm": 0.5458861589431763,
"learning_rate": 4.8870298901603795e-06,
"loss": 0.6847,
"step": 782
},
{
"epoch": 0.6525,
"grad_norm": 0.4995274543762207,
"learning_rate": 4.886700883759835e-06,
"loss": 0.6937,
"step": 783
},
{
"epoch": 0.6533333333333333,
"grad_norm": 0.5324481129646301,
"learning_rate": 4.886371410075158e-06,
"loss": 0.6893,
"step": 784
},
{
"epoch": 0.6541666666666667,
"grad_norm": 0.5349828600883484,
"learning_rate": 4.886041469170853e-06,
"loss": 0.7125,
"step": 785
},
{
"epoch": 0.655,
"grad_norm": 0.5064926743507385,
"learning_rate": 4.885711061111521e-06,
"loss": 0.6848,
"step": 786
},
{
"epoch": 0.6558333333333334,
"grad_norm": 0.5255186557769775,
"learning_rate": 4.8853801859618485e-06,
"loss": 0.7015,
"step": 787
},
{
"epoch": 0.6566666666666666,
"grad_norm": 0.5162312388420105,
"learning_rate": 4.8850488437866175e-06,
"loss": 0.6814,
"step": 788
},
{
"epoch": 0.6575,
"grad_norm": 0.5064243078231812,
"learning_rate": 4.8847170346507015e-06,
"loss": 0.7018,
"step": 789
},
{
"epoch": 0.6583333333333333,
"grad_norm": 0.5234450697898865,
"learning_rate": 4.884384758619062e-06,
"loss": 0.7105,
"step": 790
},
{
"epoch": 0.6591666666666667,
"grad_norm": 0.5111430883407593,
"learning_rate": 4.884052015756756e-06,
"loss": 0.6954,
"step": 791
},
{
"epoch": 0.66,
"grad_norm": 0.5288181900978088,
"learning_rate": 4.88371880612893e-06,
"loss": 0.6786,
"step": 792
},
{
"epoch": 0.6608333333333334,
"grad_norm": 0.5146850347518921,
"learning_rate": 4.883385129800821e-06,
"loss": 0.7104,
"step": 793
},
{
"epoch": 0.6616666666666666,
"grad_norm": 0.5834770798683167,
"learning_rate": 4.883050986837759e-06,
"loss": 0.6993,
"step": 794
},
{
"epoch": 0.6625,
"grad_norm": 0.5055618286132812,
"learning_rate": 4.882716377305165e-06,
"loss": 0.7007,
"step": 795
},
{
"epoch": 0.6633333333333333,
"grad_norm": 0.5314000844955444,
"learning_rate": 4.882381301268551e-06,
"loss": 0.7126,
"step": 796
},
{
"epoch": 0.6641666666666667,
"grad_norm": 0.5144740343093872,
"learning_rate": 4.882045758793519e-06,
"loss": 0.701,
"step": 797
},
{
"epoch": 0.665,
"grad_norm": 0.5358453392982483,
"learning_rate": 4.881709749945766e-06,
"loss": 0.6765,
"step": 798
},
{
"epoch": 0.6658333333333334,
"grad_norm": 0.5019009709358215,
"learning_rate": 4.881373274791077e-06,
"loss": 0.6888,
"step": 799
},
{
"epoch": 0.6666666666666666,
"grad_norm": 0.504955530166626,
"learning_rate": 4.881036333395329e-06,
"loss": 0.6985,
"step": 800
},
{
"epoch": 0.6675,
"grad_norm": 0.5426459908485413,
"learning_rate": 4.880698925824491e-06,
"loss": 0.7185,
"step": 801
},
{
"epoch": 0.6683333333333333,
"grad_norm": 0.5174799561500549,
"learning_rate": 4.880361052144622e-06,
"loss": 0.6948,
"step": 802
},
{
"epoch": 0.6691666666666667,
"grad_norm": 0.5137911438941956,
"learning_rate": 4.880022712421875e-06,
"loss": 0.7224,
"step": 803
},
{
"epoch": 0.67,
"grad_norm": 0.5264410972595215,
"learning_rate": 4.879683906722491e-06,
"loss": 0.7044,
"step": 804
},
{
"epoch": 0.6708333333333333,
"grad_norm": 0.5121612548828125,
"learning_rate": 4.879344635112804e-06,
"loss": 0.7228,
"step": 805
},
{
"epoch": 0.6716666666666666,
"grad_norm": 0.5080540180206299,
"learning_rate": 4.879004897659239e-06,
"loss": 0.6855,
"step": 806
},
{
"epoch": 0.6725,
"grad_norm": 0.5224771499633789,
"learning_rate": 4.878664694428311e-06,
"loss": 0.7008,
"step": 807
},
{
"epoch": 0.6733333333333333,
"grad_norm": 0.5215049386024475,
"learning_rate": 4.878324025486629e-06,
"loss": 0.7121,
"step": 808
},
{
"epoch": 0.6741666666666667,
"grad_norm": 0.5437601208686829,
"learning_rate": 4.87798289090089e-06,
"loss": 0.6709,
"step": 809
},
{
"epoch": 0.675,
"grad_norm": 0.5079526901245117,
"learning_rate": 4.8776412907378845e-06,
"loss": 0.6944,
"step": 810
},
{
"epoch": 0.6758333333333333,
"grad_norm": 0.5485474467277527,
"learning_rate": 4.877299225064492e-06,
"loss": 0.7243,
"step": 811
},
{
"epoch": 0.6766666666666666,
"grad_norm": 0.5193931460380554,
"learning_rate": 4.876956693947686e-06,
"loss": 0.7031,
"step": 812
},
{
"epoch": 0.6775,
"grad_norm": 0.5287131667137146,
"learning_rate": 4.87661369745453e-06,
"loss": 0.6992,
"step": 813
},
{
"epoch": 0.6783333333333333,
"grad_norm": 0.5193741321563721,
"learning_rate": 4.8762702356521755e-06,
"loss": 0.7001,
"step": 814
},
{
"epoch": 0.6791666666666667,
"grad_norm": 0.5219745635986328,
"learning_rate": 4.875926308607869e-06,
"loss": 0.688,
"step": 815
},
{
"epoch": 0.68,
"grad_norm": 0.5148146152496338,
"learning_rate": 4.875581916388947e-06,
"loss": 0.7017,
"step": 816
},
{
"epoch": 0.6808333333333333,
"grad_norm": 0.5096646547317505,
"learning_rate": 4.875237059062837e-06,
"loss": 0.6998,
"step": 817
},
{
"epoch": 0.6816666666666666,
"grad_norm": 0.5043613910675049,
"learning_rate": 4.8748917366970575e-06,
"loss": 0.7139,
"step": 818
},
{
"epoch": 0.6825,
"grad_norm": 0.5209697484970093,
"learning_rate": 4.874545949359218e-06,
"loss": 0.7058,
"step": 819
},
{
"epoch": 0.6833333333333333,
"grad_norm": 0.510082483291626,
"learning_rate": 4.874199697117019e-06,
"loss": 0.7101,
"step": 820
},
{
"epoch": 0.6841666666666667,
"grad_norm": 0.5097037553787231,
"learning_rate": 4.873852980038251e-06,
"loss": 0.6997,
"step": 821
},
{
"epoch": 0.685,
"grad_norm": 0.5249111652374268,
"learning_rate": 4.8735057981907985e-06,
"loss": 0.6966,
"step": 822
},
{
"epoch": 0.6858333333333333,
"grad_norm": 0.5364351868629456,
"learning_rate": 4.873158151642633e-06,
"loss": 0.7089,
"step": 823
},
{
"epoch": 0.6866666666666666,
"grad_norm": 0.5414480566978455,
"learning_rate": 4.87281004046182e-06,
"loss": 0.7027,
"step": 824
},
{
"epoch": 0.6875,
"grad_norm": 0.5269333720207214,
"learning_rate": 4.8724614647165165e-06,
"loss": 0.6871,
"step": 825
},
{
"epoch": 0.6883333333333334,
"grad_norm": 0.5062053799629211,
"learning_rate": 4.8721124244749675e-06,
"loss": 0.7059,
"step": 826
},
{
"epoch": 0.6891666666666667,
"grad_norm": 0.5331844687461853,
"learning_rate": 4.871762919805509e-06,
"loss": 0.6924,
"step": 827
},
{
"epoch": 0.69,
"grad_norm": 0.5113570094108582,
"learning_rate": 4.871412950776572e-06,
"loss": 0.7176,
"step": 828
},
{
"epoch": 0.6908333333333333,
"grad_norm": 0.5091599822044373,
"learning_rate": 4.8710625174566746e-06,
"loss": 0.7009,
"step": 829
},
{
"epoch": 0.6916666666666667,
"grad_norm": 0.5157275795936584,
"learning_rate": 4.870711619914427e-06,
"loss": 0.6823,
"step": 830
},
{
"epoch": 0.6925,
"grad_norm": 0.5111780762672424,
"learning_rate": 4.870360258218529e-06,
"loss": 0.7126,
"step": 831
},
{
"epoch": 0.6933333333333334,
"grad_norm": 0.5205333232879639,
"learning_rate": 4.870008432437775e-06,
"loss": 0.6862,
"step": 832
},
{
"epoch": 0.6941666666666667,
"grad_norm": 0.5357934832572937,
"learning_rate": 4.869656142641046e-06,
"loss": 0.6843,
"step": 833
},
{
"epoch": 0.695,
"grad_norm": 0.5192294716835022,
"learning_rate": 4.869303388897316e-06,
"loss": 0.7239,
"step": 834
},
{
"epoch": 0.6958333333333333,
"grad_norm": 0.5110365748405457,
"learning_rate": 4.86895017127565e-06,
"loss": 0.6775,
"step": 835
},
{
"epoch": 0.6966666666666667,
"grad_norm": 0.5330725312232971,
"learning_rate": 4.868596489845202e-06,
"loss": 0.6859,
"step": 836
},
{
"epoch": 0.6975,
"grad_norm": 0.5269964337348938,
"learning_rate": 4.8682423446752205e-06,
"loss": 0.68,
"step": 837
},
{
"epoch": 0.6983333333333334,
"grad_norm": 0.5197260975837708,
"learning_rate": 4.8678877358350395e-06,
"loss": 0.7141,
"step": 838
},
{
"epoch": 0.6991666666666667,
"grad_norm": 0.5159953832626343,
"learning_rate": 4.867532663394089e-06,
"loss": 0.7068,
"step": 839
},
{
"epoch": 0.7,
"grad_norm": 0.5161412358283997,
"learning_rate": 4.867177127421886e-06,
"loss": 0.6867,
"step": 840
},
{
"epoch": 0.7008333333333333,
"grad_norm": 0.5148288607597351,
"learning_rate": 4.866821127988041e-06,
"loss": 0.6788,
"step": 841
},
{
"epoch": 0.7016666666666667,
"grad_norm": 0.5343820452690125,
"learning_rate": 4.8664646651622525e-06,
"loss": 0.6934,
"step": 842
},
{
"epoch": 0.7025,
"grad_norm": 0.5303324460983276,
"learning_rate": 4.8661077390143116e-06,
"loss": 0.7257,
"step": 843
},
{
"epoch": 0.7033333333333334,
"grad_norm": 0.5165217518806458,
"learning_rate": 4.8657503496141e-06,
"loss": 0.7094,
"step": 844
},
{
"epoch": 0.7041666666666667,
"grad_norm": 0.5399205088615417,
"learning_rate": 4.86539249703159e-06,
"loss": 0.6867,
"step": 845
},
{
"epoch": 0.705,
"grad_norm": 0.5127713084220886,
"learning_rate": 4.865034181336843e-06,
"loss": 0.7245,
"step": 846
},
{
"epoch": 0.7058333333333333,
"grad_norm": 0.5517030358314514,
"learning_rate": 4.864675402600014e-06,
"loss": 0.7152,
"step": 847
},
{
"epoch": 0.7066666666666667,
"grad_norm": 0.5316351652145386,
"learning_rate": 4.864316160891347e-06,
"loss": 0.6969,
"step": 848
},
{
"epoch": 0.7075,
"grad_norm": 0.5376459956169128,
"learning_rate": 4.863956456281176e-06,
"loss": 0.6885,
"step": 849
},
{
"epoch": 0.7083333333333334,
"grad_norm": 0.5351783633232117,
"learning_rate": 4.863596288839926e-06,
"loss": 0.6858,
"step": 850
},
{
"epoch": 0.7091666666666666,
"grad_norm": 0.5073575973510742,
"learning_rate": 4.863235658638114e-06,
"loss": 0.6926,
"step": 851
},
{
"epoch": 0.71,
"grad_norm": 0.5288323760032654,
"learning_rate": 4.862874565746346e-06,
"loss": 0.6655,
"step": 852
},
{
"epoch": 0.7108333333333333,
"grad_norm": 0.5252835750579834,
"learning_rate": 4.862513010235319e-06,
"loss": 0.6828,
"step": 853
},
{
"epoch": 0.7116666666666667,
"grad_norm": 0.5355015993118286,
"learning_rate": 4.862150992175821e-06,
"loss": 0.6983,
"step": 854
},
{
"epoch": 0.7125,
"grad_norm": 0.5402361750602722,
"learning_rate": 4.861788511638731e-06,
"loss": 0.6796,
"step": 855
},
{
"epoch": 0.7133333333333334,
"grad_norm": 0.555108904838562,
"learning_rate": 4.861425568695016e-06,
"loss": 0.6692,
"step": 856
},
{
"epoch": 0.7141666666666666,
"grad_norm": 0.5432515740394592,
"learning_rate": 4.861062163415737e-06,
"loss": 0.6953,
"step": 857
},
{
"epoch": 0.715,
"grad_norm": 0.5291070938110352,
"learning_rate": 4.860698295872044e-06,
"loss": 0.6832,
"step": 858
},
{
"epoch": 0.7158333333333333,
"grad_norm": 0.5087788701057434,
"learning_rate": 4.860333966135177e-06,
"loss": 0.6802,
"step": 859
},
{
"epoch": 0.7166666666666667,
"grad_norm": 0.5214117765426636,
"learning_rate": 4.859969174276465e-06,
"loss": 0.6958,
"step": 860
},
{
"epoch": 0.7175,
"grad_norm": 0.5283812284469604,
"learning_rate": 4.859603920367333e-06,
"loss": 0.6857,
"step": 861
},
{
"epoch": 0.7183333333333334,
"grad_norm": 0.5406526327133179,
"learning_rate": 4.85923820447929e-06,
"loss": 0.7026,
"step": 862
},
{
"epoch": 0.7191666666666666,
"grad_norm": 0.5307414531707764,
"learning_rate": 4.8588720266839394e-06,
"loss": 0.7016,
"step": 863
},
{
"epoch": 0.72,
"grad_norm": 0.5175375938415527,
"learning_rate": 4.858505387052974e-06,
"loss": 0.7003,
"step": 864
},
{
"epoch": 0.7208333333333333,
"grad_norm": 0.5153360366821289,
"learning_rate": 4.858138285658176e-06,
"loss": 0.6846,
"step": 865
},
{
"epoch": 0.7216666666666667,
"grad_norm": 0.5288724899291992,
"learning_rate": 4.85777072257142e-06,
"loss": 0.6662,
"step": 866
},
{
"epoch": 0.7225,
"grad_norm": 0.5373950004577637,
"learning_rate": 4.857402697864669e-06,
"loss": 0.6913,
"step": 867
},
{
"epoch": 0.7233333333333334,
"grad_norm": 0.540603518486023,
"learning_rate": 4.857034211609979e-06,
"loss": 0.677,
"step": 868
},
{
"epoch": 0.7241666666666666,
"grad_norm": 0.5345202088356018,
"learning_rate": 4.856665263879492e-06,
"loss": 0.6824,
"step": 869
},
{
"epoch": 0.725,
"grad_norm": 0.5688567161560059,
"learning_rate": 4.856295854745446e-06,
"loss": 0.7228,
"step": 870
},
{
"epoch": 0.7258333333333333,
"grad_norm": 0.5296337604522705,
"learning_rate": 4.855925984280164e-06,
"loss": 0.6924,
"step": 871
},
{
"epoch": 0.7266666666666667,
"grad_norm": 0.5505181550979614,
"learning_rate": 4.855555652556063e-06,
"loss": 0.7014,
"step": 872
},
{
"epoch": 0.7275,
"grad_norm": 0.5318360328674316,
"learning_rate": 4.855184859645648e-06,
"loss": 0.7082,
"step": 873
},
{
"epoch": 0.7283333333333334,
"grad_norm": 0.533689558506012,
"learning_rate": 4.854813605621518e-06,
"loss": 0.7105,
"step": 874
},
{
"epoch": 0.7291666666666666,
"grad_norm": 0.5644373893737793,
"learning_rate": 4.8544418905563556e-06,
"loss": 0.6798,
"step": 875
},
{
"epoch": 0.73,
"grad_norm": 0.5328598618507385,
"learning_rate": 4.85406971452294e-06,
"loss": 0.6585,
"step": 876
},
{
"epoch": 0.7308333333333333,
"grad_norm": 0.5422435402870178,
"learning_rate": 4.853697077594139e-06,
"loss": 0.6833,
"step": 877
},
{
"epoch": 0.7316666666666667,
"grad_norm": 0.5485203266143799,
"learning_rate": 4.853323979842907e-06,
"loss": 0.7094,
"step": 878
},
{
"epoch": 0.7325,
"grad_norm": 0.5323787927627563,
"learning_rate": 4.852950421342294e-06,
"loss": 0.69,
"step": 879
},
{
"epoch": 0.7333333333333333,
"grad_norm": 0.5386905074119568,
"learning_rate": 4.852576402165436e-06,
"loss": 0.6926,
"step": 880
},
{
"epoch": 0.7341666666666666,
"grad_norm": 0.5184804797172546,
"learning_rate": 4.852201922385564e-06,
"loss": 0.7036,
"step": 881
},
{
"epoch": 0.735,
"grad_norm": 0.5275572538375854,
"learning_rate": 4.851826982075993e-06,
"loss": 0.6837,
"step": 882
},
{
"epoch": 0.7358333333333333,
"grad_norm": 0.5331025123596191,
"learning_rate": 4.851451581310134e-06,
"loss": 0.6822,
"step": 883
},
{
"epoch": 0.7366666666666667,
"grad_norm": 0.5557110905647278,
"learning_rate": 4.851075720161482e-06,
"loss": 0.7043,
"step": 884
},
{
"epoch": 0.7375,
"grad_norm": 0.5354774594306946,
"learning_rate": 4.850699398703629e-06,
"loss": 0.6986,
"step": 885
},
{
"epoch": 0.7383333333333333,
"grad_norm": 0.5475578904151917,
"learning_rate": 4.850322617010251e-06,
"loss": 0.7064,
"step": 886
},
{
"epoch": 0.7391666666666666,
"grad_norm": 0.5287150144577026,
"learning_rate": 4.849945375155119e-06,
"loss": 0.6898,
"step": 887
},
{
"epoch": 0.74,
"grad_norm": 0.5327820777893066,
"learning_rate": 4.84956767321209e-06,
"loss": 0.7019,
"step": 888
},
{
"epoch": 0.7408333333333333,
"grad_norm": 0.5362345576286316,
"learning_rate": 4.849189511255115e-06,
"loss": 0.6977,
"step": 889
},
{
"epoch": 0.7416666666666667,
"grad_norm": 0.512047290802002,
"learning_rate": 4.848810889358232e-06,
"loss": 0.6945,
"step": 890
},
{
"epoch": 0.7425,
"grad_norm": 0.5216673612594604,
"learning_rate": 4.848431807595569e-06,
"loss": 0.6769,
"step": 891
},
{
"epoch": 0.7433333333333333,
"grad_norm": 0.5360478758811951,
"learning_rate": 4.8480522660413476e-06,
"loss": 0.6755,
"step": 892
},
{
"epoch": 0.7441666666666666,
"grad_norm": 0.5182502865791321,
"learning_rate": 4.8476722647698745e-06,
"loss": 0.7005,
"step": 893
},
{
"epoch": 0.745,
"grad_norm": 0.5161767601966858,
"learning_rate": 4.847291803855551e-06,
"loss": 0.7003,
"step": 894
},
{
"epoch": 0.7458333333333333,
"grad_norm": 0.5291750431060791,
"learning_rate": 4.8469108833728655e-06,
"loss": 0.6688,
"step": 895
},
{
"epoch": 0.7466666666666667,
"grad_norm": 0.5470592379570007,
"learning_rate": 4.846529503396395e-06,
"loss": 0.7092,
"step": 896
},
{
"epoch": 0.7475,
"grad_norm": 0.5536440014839172,
"learning_rate": 4.8461476640008125e-06,
"loss": 0.7177,
"step": 897
},
{
"epoch": 0.7483333333333333,
"grad_norm": 0.5416380167007446,
"learning_rate": 4.845765365260874e-06,
"loss": 0.6917,
"step": 898
},
{
"epoch": 0.7491666666666666,
"grad_norm": 0.5404486656188965,
"learning_rate": 4.84538260725143e-06,
"loss": 0.7035,
"step": 899
},
{
"epoch": 0.75,
"grad_norm": 0.5136855840682983,
"learning_rate": 4.844999390047419e-06,
"loss": 0.7087,
"step": 900
},
{
"epoch": 0.7508333333333334,
"grad_norm": 0.5188578367233276,
"learning_rate": 4.84461571372387e-06,
"loss": 0.6981,
"step": 901
},
{
"epoch": 0.7516666666666667,
"grad_norm": 0.5364389419555664,
"learning_rate": 4.8442315783559005e-06,
"loss": 0.6794,
"step": 902
},
{
"epoch": 0.7525,
"grad_norm": 0.5432283878326416,
"learning_rate": 4.8438469840187206e-06,
"loss": 0.6994,
"step": 903
},
{
"epoch": 0.7533333333333333,
"grad_norm": 0.5308606028556824,
"learning_rate": 4.843461930787629e-06,
"loss": 0.7245,
"step": 904
},
{
"epoch": 0.7541666666666667,
"grad_norm": 0.5469908714294434,
"learning_rate": 4.843076418738012e-06,
"loss": 0.694,
"step": 905
},
{
"epoch": 0.755,
"grad_norm": 0.5533103346824646,
"learning_rate": 4.842690447945349e-06,
"loss": 0.6934,
"step": 906
},
{
"epoch": 0.7558333333333334,
"grad_norm": 0.5339813232421875,
"learning_rate": 4.842304018485208e-06,
"loss": 0.675,
"step": 907
},
{
"epoch": 0.7566666666666667,
"grad_norm": 0.5356221795082092,
"learning_rate": 4.841917130433246e-06,
"loss": 0.7119,
"step": 908
},
{
"epoch": 0.7575,
"grad_norm": 0.5247910022735596,
"learning_rate": 4.8415297838652106e-06,
"loss": 0.6911,
"step": 909
},
{
"epoch": 0.7583333333333333,
"grad_norm": 0.5224043726921082,
"learning_rate": 4.84114197885694e-06,
"loss": 0.6747,
"step": 910
},
{
"epoch": 0.7591666666666667,
"grad_norm": 0.5057650208473206,
"learning_rate": 4.840753715484362e-06,
"loss": 0.6923,
"step": 911
},
{
"epoch": 0.76,
"grad_norm": 0.5337413549423218,
"learning_rate": 4.84036499382349e-06,
"loss": 0.6881,
"step": 912
},
{
"epoch": 0.7608333333333334,
"grad_norm": 0.5334152579307556,
"learning_rate": 4.839975813950434e-06,
"loss": 0.6769,
"step": 913
},
{
"epoch": 0.7616666666666667,
"grad_norm": 0.526846170425415,
"learning_rate": 4.839586175941389e-06,
"loss": 0.6973,
"step": 914
},
{
"epoch": 0.7625,
"grad_norm": 0.542777419090271,
"learning_rate": 4.83919607987264e-06,
"loss": 0.6995,
"step": 915
},
{
"epoch": 0.7633333333333333,
"grad_norm": 0.5465850830078125,
"learning_rate": 4.838805525820563e-06,
"loss": 0.6937,
"step": 916
},
{
"epoch": 0.7641666666666667,
"grad_norm": 0.5348052382469177,
"learning_rate": 4.838414513861624e-06,
"loss": 0.6572,
"step": 917
},
{
"epoch": 0.765,
"grad_norm": 0.524090051651001,
"learning_rate": 4.8380230440723775e-06,
"loss": 0.6837,
"step": 918
},
{
"epoch": 0.7658333333333334,
"grad_norm": 0.5454646348953247,
"learning_rate": 4.837631116529468e-06,
"loss": 0.6876,
"step": 919
},
{
"epoch": 0.7666666666666667,
"grad_norm": 0.5396842360496521,
"learning_rate": 4.83723873130963e-06,
"loss": 0.6788,
"step": 920
},
{
"epoch": 0.7675,
"grad_norm": 0.5233221054077148,
"learning_rate": 4.836845888489687e-06,
"loss": 0.7025,
"step": 921
},
{
"epoch": 0.7683333333333333,
"grad_norm": 0.54860520362854,
"learning_rate": 4.836452588146552e-06,
"loss": 0.6757,
"step": 922
},
{
"epoch": 0.7691666666666667,
"grad_norm": 0.5379807353019714,
"learning_rate": 4.836058830357229e-06,
"loss": 0.7022,
"step": 923
},
{
"epoch": 0.77,
"grad_norm": 0.5269885063171387,
"learning_rate": 4.835664615198808e-06,
"loss": 0.7005,
"step": 924
},
{
"epoch": 0.7708333333333334,
"grad_norm": 0.5360590815544128,
"learning_rate": 4.835269942748475e-06,
"loss": 0.6788,
"step": 925
},
{
"epoch": 0.7716666666666666,
"grad_norm": 0.5308401584625244,
"learning_rate": 4.834874813083499e-06,
"loss": 0.6915,
"step": 926
},
{
"epoch": 0.7725,
"grad_norm": 0.525095522403717,
"learning_rate": 4.834479226281241e-06,
"loss": 0.7025,
"step": 927
},
{
"epoch": 0.7733333333333333,
"grad_norm": 0.5442466139793396,
"learning_rate": 4.834083182419153e-06,
"loss": 0.6862,
"step": 928
},
{
"epoch": 0.7741666666666667,
"grad_norm": 0.5249763131141663,
"learning_rate": 4.833686681574774e-06,
"loss": 0.7004,
"step": 929
},
{
"epoch": 0.775,
"grad_norm": 0.558108925819397,
"learning_rate": 4.8332897238257335e-06,
"loss": 0.6897,
"step": 930
},
{
"epoch": 0.7758333333333334,
"grad_norm": 0.5417056083679199,
"learning_rate": 4.832892309249751e-06,
"loss": 0.689,
"step": 931
},
{
"epoch": 0.7766666666666666,
"grad_norm": 0.549426257610321,
"learning_rate": 4.8324944379246355e-06,
"loss": 0.687,
"step": 932
},
{
"epoch": 0.7775,
"grad_norm": 0.5361883044242859,
"learning_rate": 4.832096109928284e-06,
"loss": 0.6948,
"step": 933
},
{
"epoch": 0.7783333333333333,
"grad_norm": 0.5358255505561829,
"learning_rate": 4.831697325338684e-06,
"loss": 0.7043,
"step": 934
},
{
"epoch": 0.7791666666666667,
"grad_norm": 0.5400095582008362,
"learning_rate": 4.831298084233912e-06,
"loss": 0.6859,
"step": 935
},
{
"epoch": 0.78,
"grad_norm": 0.5766608715057373,
"learning_rate": 4.830898386692133e-06,
"loss": 0.6808,
"step": 936
},
{
"epoch": 0.7808333333333334,
"grad_norm": 0.5335484147071838,
"learning_rate": 4.830498232791606e-06,
"loss": 0.708,
"step": 937
},
{
"epoch": 0.7816666666666666,
"grad_norm": 0.5256344079971313,
"learning_rate": 4.830097622610672e-06,
"loss": 0.6801,
"step": 938
},
{
"epoch": 0.7825,
"grad_norm": 0.5297211408615112,
"learning_rate": 4.8296965562277675e-06,
"loss": 0.7031,
"step": 939
},
{
"epoch": 0.7833333333333333,
"grad_norm": 0.5368627905845642,
"learning_rate": 4.829295033721415e-06,
"loss": 0.7011,
"step": 940
},
{
"epoch": 0.7841666666666667,
"grad_norm": 0.5508820414543152,
"learning_rate": 4.828893055170228e-06,
"loss": 0.6943,
"step": 941
},
{
"epoch": 0.785,
"grad_norm": 0.536708652973175,
"learning_rate": 4.8284906206529056e-06,
"loss": 0.6958,
"step": 942
},
{
"epoch": 0.7858333333333334,
"grad_norm": 0.5180797576904297,
"learning_rate": 4.828087730248243e-06,
"loss": 0.6938,
"step": 943
},
{
"epoch": 0.7866666666666666,
"grad_norm": 0.5381445288658142,
"learning_rate": 4.827684384035119e-06,
"loss": 0.7108,
"step": 944
},
{
"epoch": 0.7875,
"grad_norm": 0.5434241890907288,
"learning_rate": 4.827280582092503e-06,
"loss": 0.7045,
"step": 945
},
{
"epoch": 0.7883333333333333,
"grad_norm": 0.5350834727287292,
"learning_rate": 4.826876324499455e-06,
"loss": 0.6886,
"step": 946
},
{
"epoch": 0.7891666666666667,
"grad_norm": 0.5226648449897766,
"learning_rate": 4.8264716113351226e-06,
"loss": 0.6708,
"step": 947
},
{
"epoch": 0.79,
"grad_norm": 0.5469403266906738,
"learning_rate": 4.826066442678744e-06,
"loss": 0.7029,
"step": 948
},
{
"epoch": 0.7908333333333334,
"grad_norm": 0.5216239094734192,
"learning_rate": 4.8256608186096445e-06,
"loss": 0.7043,
"step": 949
},
{
"epoch": 0.7916666666666666,
"grad_norm": 0.5428479909896851,
"learning_rate": 4.8252547392072415e-06,
"loss": 0.6977,
"step": 950
},
{
"epoch": 0.7925,
"grad_norm": 0.5288153886795044,
"learning_rate": 4.824848204551037e-06,
"loss": 0.688,
"step": 951
},
{
"epoch": 0.7933333333333333,
"grad_norm": 0.5270776748657227,
"learning_rate": 4.824441214720629e-06,
"loss": 0.6809,
"step": 952
},
{
"epoch": 0.7941666666666667,
"grad_norm": 0.5376223921775818,
"learning_rate": 4.8240337697956976e-06,
"loss": 0.6683,
"step": 953
},
{
"epoch": 0.795,
"grad_norm": 0.5337541699409485,
"learning_rate": 4.823625869856017e-06,
"loss": 0.6995,
"step": 954
},
{
"epoch": 0.7958333333333333,
"grad_norm": 0.5436489582061768,
"learning_rate": 4.823217514981447e-06,
"loss": 0.6672,
"step": 955
},
{
"epoch": 0.7966666666666666,
"grad_norm": 0.5323599576950073,
"learning_rate": 4.822808705251939e-06,
"loss": 0.7188,
"step": 956
},
{
"epoch": 0.7975,
"grad_norm": 0.5533539652824402,
"learning_rate": 4.822399440747533e-06,
"loss": 0.6981,
"step": 957
},
{
"epoch": 0.7983333333333333,
"grad_norm": 0.5329532027244568,
"learning_rate": 4.821989721548356e-06,
"loss": 0.6736,
"step": 958
},
{
"epoch": 0.7991666666666667,
"grad_norm": 0.5280501246452332,
"learning_rate": 4.821579547734626e-06,
"loss": 0.6857,
"step": 959
},
{
"epoch": 0.8,
"grad_norm": 0.5292397141456604,
"learning_rate": 4.82116891938665e-06,
"loss": 0.7014,
"step": 960
},
{
"epoch": 0.8008333333333333,
"grad_norm": 0.5427101254463196,
"learning_rate": 4.820757836584824e-06,
"loss": 0.6781,
"step": 961
},
{
"epoch": 0.8016666666666666,
"grad_norm": 0.5340928435325623,
"learning_rate": 4.820346299409632e-06,
"loss": 0.6682,
"step": 962
},
{
"epoch": 0.8025,
"grad_norm": 0.5200477838516235,
"learning_rate": 4.819934307941647e-06,
"loss": 0.7215,
"step": 963
},
{
"epoch": 0.8033333333333333,
"grad_norm": 0.5545709133148193,
"learning_rate": 4.819521862261532e-06,
"loss": 0.7024,
"step": 964
},
{
"epoch": 0.8041666666666667,
"grad_norm": 0.5368270874023438,
"learning_rate": 4.819108962450037e-06,
"loss": 0.6959,
"step": 965
},
{
"epoch": 0.805,
"grad_norm": 0.5460261702537537,
"learning_rate": 4.818695608588005e-06,
"loss": 0.6836,
"step": 966
},
{
"epoch": 0.8058333333333333,
"grad_norm": 0.5270740985870361,
"learning_rate": 4.8182818007563625e-06,
"loss": 0.7292,
"step": 967
},
{
"epoch": 0.8066666666666666,
"grad_norm": 0.5230692625045776,
"learning_rate": 4.8178675390361295e-06,
"loss": 0.683,
"step": 968
},
{
"epoch": 0.8075,
"grad_norm": 0.5471054315567017,
"learning_rate": 4.817452823508412e-06,
"loss": 0.684,
"step": 969
},
{
"epoch": 0.8083333333333333,
"grad_norm": 0.5346125960350037,
"learning_rate": 4.817037654254405e-06,
"loss": 0.6845,
"step": 970
},
{
"epoch": 0.8091666666666667,
"grad_norm": 0.5467856526374817,
"learning_rate": 4.8166220313553944e-06,
"loss": 0.7051,
"step": 971
},
{
"epoch": 0.81,
"grad_norm": 0.5343219041824341,
"learning_rate": 4.816205954892753e-06,
"loss": 0.7122,
"step": 972
},
{
"epoch": 0.8108333333333333,
"grad_norm": 0.5341103672981262,
"learning_rate": 4.815789424947943e-06,
"loss": 0.6817,
"step": 973
},
{
"epoch": 0.8116666666666666,
"grad_norm": 0.5252223610877991,
"learning_rate": 4.815372441602516e-06,
"loss": 0.7046,
"step": 974
},
{
"epoch": 0.8125,
"grad_norm": 0.5397008061408997,
"learning_rate": 4.814955004938111e-06,
"loss": 0.7016,
"step": 975
},
{
"epoch": 0.8133333333333334,
"grad_norm": 0.5315702557563782,
"learning_rate": 4.814537115036457e-06,
"loss": 0.6579,
"step": 976
},
{
"epoch": 0.8141666666666667,
"grad_norm": 0.5206130146980286,
"learning_rate": 4.814118771979371e-06,
"loss": 0.6899,
"step": 977
},
{
"epoch": 0.815,
"grad_norm": 0.5563502907752991,
"learning_rate": 4.813699975848758e-06,
"loss": 0.7034,
"step": 978
},
{
"epoch": 0.8158333333333333,
"grad_norm": 0.5461870431900024,
"learning_rate": 4.813280726726615e-06,
"loss": 0.6722,
"step": 979
},
{
"epoch": 0.8166666666666667,
"grad_norm": 0.5501440167427063,
"learning_rate": 4.812861024695024e-06,
"loss": 0.7042,
"step": 980
},
{
"epoch": 0.8175,
"grad_norm": 0.5670163631439209,
"learning_rate": 4.812440869836157e-06,
"loss": 0.6947,
"step": 981
},
{
"epoch": 0.8183333333333334,
"grad_norm": 0.5279183387756348,
"learning_rate": 4.812020262232274e-06,
"loss": 0.6468,
"step": 982
},
{
"epoch": 0.8191666666666667,
"grad_norm": 0.5182305574417114,
"learning_rate": 4.811599201965727e-06,
"loss": 0.6933,
"step": 983
},
{
"epoch": 0.82,
"grad_norm": 0.5424363017082214,
"learning_rate": 4.81117768911895e-06,
"loss": 0.6863,
"step": 984
},
{
"epoch": 0.8208333333333333,
"grad_norm": 0.5456661581993103,
"learning_rate": 4.810755723774473e-06,
"loss": 0.6852,
"step": 985
},
{
"epoch": 0.8216666666666667,
"grad_norm": 0.5676931738853455,
"learning_rate": 4.81033330601491e-06,
"loss": 0.6857,
"step": 986
},
{
"epoch": 0.8225,
"grad_norm": 0.5600205659866333,
"learning_rate": 4.8099104359229645e-06,
"loss": 0.6913,
"step": 987
},
{
"epoch": 0.8233333333333334,
"grad_norm": 0.5599549412727356,
"learning_rate": 4.809487113581428e-06,
"loss": 0.6858,
"step": 988
},
{
"epoch": 0.8241666666666667,
"grad_norm": 0.5413509607315063,
"learning_rate": 4.809063339073184e-06,
"loss": 0.6813,
"step": 989
},
{
"epoch": 0.825,
"grad_norm": 0.5218127369880676,
"learning_rate": 4.808639112481199e-06,
"loss": 0.6726,
"step": 990
},
{
"epoch": 0.8258333333333333,
"grad_norm": 0.5233421921730042,
"learning_rate": 4.808214433888533e-06,
"loss": 0.6965,
"step": 991
},
{
"epoch": 0.8266666666666667,
"grad_norm": 0.5167056918144226,
"learning_rate": 4.807789303378331e-06,
"loss": 0.7156,
"step": 992
},
{
"epoch": 0.8275,
"grad_norm": 0.5601177215576172,
"learning_rate": 4.807363721033829e-06,
"loss": 0.6911,
"step": 993
},
{
"epoch": 0.8283333333333334,
"grad_norm": 0.5393472909927368,
"learning_rate": 4.806937686938349e-06,
"loss": 0.6867,
"step": 994
},
{
"epoch": 0.8291666666666667,
"grad_norm": 0.5309321880340576,
"learning_rate": 4.8065112011753036e-06,
"loss": 0.711,
"step": 995
},
{
"epoch": 0.83,
"grad_norm": 0.560248613357544,
"learning_rate": 4.806084263828193e-06,
"loss": 0.6886,
"step": 996
},
{
"epoch": 0.8308333333333333,
"grad_norm": 0.5477662682533264,
"learning_rate": 4.805656874980606e-06,
"loss": 0.6665,
"step": 997
},
{
"epoch": 0.8316666666666667,
"grad_norm": 0.5480148196220398,
"learning_rate": 4.805229034716219e-06,
"loss": 0.7082,
"step": 998
},
{
"epoch": 0.8325,
"grad_norm": 0.5657473206520081,
"learning_rate": 4.804800743118798e-06,
"loss": 0.6772,
"step": 999
},
{
"epoch": 0.8333333333333334,
"grad_norm": 0.5312777757644653,
"learning_rate": 4.804372000272196e-06,
"loss": 0.6848,
"step": 1000
},
{
"epoch": 0.8341666666666666,
"grad_norm": 0.5284767746925354,
"learning_rate": 4.803942806260356e-06,
"loss": 0.6664,
"step": 1001
},
{
"epoch": 0.835,
"grad_norm": 0.5451256632804871,
"learning_rate": 4.803513161167309e-06,
"loss": 0.6726,
"step": 1002
},
{
"epoch": 0.8358333333333333,
"grad_norm": 0.5377514958381653,
"learning_rate": 4.803083065077172e-06,
"loss": 0.6862,
"step": 1003
},
{
"epoch": 0.8366666666666667,
"grad_norm": 0.538153350353241,
"learning_rate": 4.802652518074153e-06,
"loss": 0.6755,
"step": 1004
},
{
"epoch": 0.8375,
"grad_norm": 0.5532846450805664,
"learning_rate": 4.802221520242547e-06,
"loss": 0.699,
"step": 1005
},
{
"epoch": 0.8383333333333334,
"grad_norm": 0.5389847755432129,
"learning_rate": 4.801790071666739e-06,
"loss": 0.689,
"step": 1006
},
{
"epoch": 0.8391666666666666,
"grad_norm": 0.5523820519447327,
"learning_rate": 4.801358172431199e-06,
"loss": 0.7009,
"step": 1007
},
{
"epoch": 0.84,
"grad_norm": 0.545132040977478,
"learning_rate": 4.800925822620487e-06,
"loss": 0.6931,
"step": 1008
},
{
"epoch": 0.8408333333333333,
"grad_norm": 0.5307531952857971,
"learning_rate": 4.800493022319254e-06,
"loss": 0.6799,
"step": 1009
},
{
"epoch": 0.8416666666666667,
"grad_norm": 0.5223236083984375,
"learning_rate": 4.800059771612234e-06,
"loss": 0.703,
"step": 1010
},
{
"epoch": 0.8425,
"grad_norm": 0.544477105140686,
"learning_rate": 4.799626070584252e-06,
"loss": 0.6481,
"step": 1011
},
{
"epoch": 0.8433333333333334,
"grad_norm": 0.5555903911590576,
"learning_rate": 4.799191919320221e-06,
"loss": 0.6984,
"step": 1012
},
{
"epoch": 0.8441666666666666,
"grad_norm": 0.5147600173950195,
"learning_rate": 4.7987573179051426e-06,
"loss": 0.7008,
"step": 1013
},
{
"epoch": 0.845,
"grad_norm": 0.5319939255714417,
"learning_rate": 4.7983222664241055e-06,
"loss": 0.6767,
"step": 1014
},
{
"epoch": 0.8458333333333333,
"grad_norm": 0.5582086443901062,
"learning_rate": 4.797886764962289e-06,
"loss": 0.6767,
"step": 1015
},
{
"epoch": 0.8466666666666667,
"grad_norm": 0.5470446348190308,
"learning_rate": 4.797450813604954e-06,
"loss": 0.7031,
"step": 1016
},
{
"epoch": 0.8475,
"grad_norm": 0.5527660250663757,
"learning_rate": 4.797014412437457e-06,
"loss": 0.6734,
"step": 1017
},
{
"epoch": 0.8483333333333334,
"grad_norm": 0.5340491533279419,
"learning_rate": 4.7965775615452395e-06,
"loss": 0.6721,
"step": 1018
},
{
"epoch": 0.8491666666666666,
"grad_norm": 0.5458944439888,
"learning_rate": 4.796140261013831e-06,
"loss": 0.6899,
"step": 1019
},
{
"epoch": 0.85,
"grad_norm": 0.5495284199714661,
"learning_rate": 4.795702510928848e-06,
"loss": 0.6759,
"step": 1020
},
{
"epoch": 0.8508333333333333,
"grad_norm": 0.544189453125,
"learning_rate": 4.795264311375997e-06,
"loss": 0.6689,
"step": 1021
},
{
"epoch": 0.8516666666666667,
"grad_norm": 0.5305647253990173,
"learning_rate": 4.794825662441072e-06,
"loss": 0.7005,
"step": 1022
},
{
"epoch": 0.8525,
"grad_norm": 0.5430959463119507,
"learning_rate": 4.794386564209953e-06,
"loss": 0.6753,
"step": 1023
},
{
"epoch": 0.8533333333333334,
"grad_norm": 0.5616235136985779,
"learning_rate": 4.7939470167686115e-06,
"loss": 0.6846,
"step": 1024
},
{
"epoch": 0.8541666666666666,
"grad_norm": 0.5440129041671753,
"learning_rate": 4.793507020203104e-06,
"loss": 0.6906,
"step": 1025
},
{
"epoch": 0.855,
"grad_norm": 0.5231167674064636,
"learning_rate": 4.793066574599576e-06,
"loss": 0.6926,
"step": 1026
},
{
"epoch": 0.8558333333333333,
"grad_norm": 0.5591561198234558,
"learning_rate": 4.79262568004426e-06,
"loss": 0.7114,
"step": 1027
},
{
"epoch": 0.8566666666666667,
"grad_norm": 0.5525199174880981,
"learning_rate": 4.7921843366234785e-06,
"loss": 0.6815,
"step": 1028
},
{
"epoch": 0.8575,
"grad_norm": 0.5386251211166382,
"learning_rate": 4.791742544423641e-06,
"loss": 0.6891,
"step": 1029
},
{
"epoch": 0.8583333333333333,
"grad_norm": 0.5424612164497375,
"learning_rate": 4.791300303531243e-06,
"loss": 0.6991,
"step": 1030
},
{
"epoch": 0.8591666666666666,
"grad_norm": 0.532472550868988,
"learning_rate": 4.790857614032871e-06,
"loss": 0.6762,
"step": 1031
},
{
"epoch": 0.86,
"grad_norm": 0.5242069959640503,
"learning_rate": 4.790414476015196e-06,
"loss": 0.6828,
"step": 1032
},
{
"epoch": 0.8608333333333333,
"grad_norm": 0.5251231789588928,
"learning_rate": 4.78997088956498e-06,
"loss": 0.6996,
"step": 1033
},
{
"epoch": 0.8616666666666667,
"grad_norm": 0.5173211693763733,
"learning_rate": 4.78952685476907e-06,
"loss": 0.7218,
"step": 1034
},
{
"epoch": 0.8625,
"grad_norm": 0.5456705689430237,
"learning_rate": 4.789082371714404e-06,
"loss": 0.666,
"step": 1035
},
{
"epoch": 0.8633333333333333,
"grad_norm": 0.537186324596405,
"learning_rate": 4.788637440488003e-06,
"loss": 0.6982,
"step": 1036
},
{
"epoch": 0.8641666666666666,
"grad_norm": 0.5428951978683472,
"learning_rate": 4.788192061176982e-06,
"loss": 0.6766,
"step": 1037
},
{
"epoch": 0.865,
"grad_norm": 0.548636257648468,
"learning_rate": 4.787746233868537e-06,
"loss": 0.6615,
"step": 1038
},
{
"epoch": 0.8658333333333333,
"grad_norm": 0.5503275394439697,
"learning_rate": 4.787299958649957e-06,
"loss": 0.7208,
"step": 1039
},
{
"epoch": 0.8666666666666667,
"grad_norm": 0.5472001433372498,
"learning_rate": 4.786853235608616e-06,
"loss": 0.6888,
"step": 1040
},
{
"epoch": 0.8675,
"grad_norm": 0.5650719404220581,
"learning_rate": 4.7864060648319765e-06,
"loss": 0.6656,
"step": 1041
},
{
"epoch": 0.8683333333333333,
"grad_norm": 0.5397439002990723,
"learning_rate": 4.7859584464075895e-06,
"loss": 0.6753,
"step": 1042
},
{
"epoch": 0.8691666666666666,
"grad_norm": 0.5307998061180115,
"learning_rate": 4.785510380423091e-06,
"loss": 0.705,
"step": 1043
},
{
"epoch": 0.87,
"grad_norm": 0.5306239128112793,
"learning_rate": 4.785061866966208e-06,
"loss": 0.6923,
"step": 1044
},
{
"epoch": 0.8708333333333333,
"grad_norm": 0.5280582904815674,
"learning_rate": 4.784612906124752e-06,
"loss": 0.6686,
"step": 1045
},
{
"epoch": 0.8716666666666667,
"grad_norm": 0.5160478353500366,
"learning_rate": 4.784163497986625e-06,
"loss": 0.6797,
"step": 1046
},
{
"epoch": 0.8725,
"grad_norm": 0.5494632720947266,
"learning_rate": 4.783713642639814e-06,
"loss": 0.7221,
"step": 1047
},
{
"epoch": 0.8733333333333333,
"grad_norm": 0.5483080148696899,
"learning_rate": 4.783263340172394e-06,
"loss": 0.6929,
"step": 1048
},
{
"epoch": 0.8741666666666666,
"grad_norm": 0.5433019399642944,
"learning_rate": 4.78281259067253e-06,
"loss": 0.689,
"step": 1049
},
{
"epoch": 0.875,
"grad_norm": 0.5325921177864075,
"learning_rate": 4.7823613942284716e-06,
"loss": 0.6757,
"step": 1050
},
{
"epoch": 0.8758333333333334,
"grad_norm": 0.5252819657325745,
"learning_rate": 4.781909750928558e-06,
"loss": 0.6934,
"step": 1051
},
{
"epoch": 0.8766666666666667,
"grad_norm": 0.5434681177139282,
"learning_rate": 4.781457660861214e-06,
"loss": 0.6739,
"step": 1052
},
{
"epoch": 0.8775,
"grad_norm": 0.5192910432815552,
"learning_rate": 4.781005124114953e-06,
"loss": 0.6974,
"step": 1053
},
{
"epoch": 0.8783333333333333,
"grad_norm": 0.5509209036827087,
"learning_rate": 4.780552140778376e-06,
"loss": 0.6786,
"step": 1054
},
{
"epoch": 0.8791666666666667,
"grad_norm": 0.5670494437217712,
"learning_rate": 4.78009871094017e-06,
"loss": 0.6971,
"step": 1055
},
{
"epoch": 0.88,
"grad_norm": 0.5494702458381653,
"learning_rate": 4.779644834689112e-06,
"loss": 0.6719,
"step": 1056
},
{
"epoch": 0.8808333333333334,
"grad_norm": 0.5554876327514648,
"learning_rate": 4.779190512114063e-06,
"loss": 0.6744,
"step": 1057
},
{
"epoch": 0.8816666666666667,
"grad_norm": 0.5288978219032288,
"learning_rate": 4.778735743303976e-06,
"loss": 0.6982,
"step": 1058
},
{
"epoch": 0.8825,
"grad_norm": 0.5391525030136108,
"learning_rate": 4.778280528347887e-06,
"loss": 0.6771,
"step": 1059
},
{
"epoch": 0.8833333333333333,
"grad_norm": 0.5409436821937561,
"learning_rate": 4.77782486733492e-06,
"loss": 0.679,
"step": 1060
},
{
"epoch": 0.8841666666666667,
"grad_norm": 0.5622888803482056,
"learning_rate": 4.77736876035429e-06,
"loss": 0.6948,
"step": 1061
},
{
"epoch": 0.885,
"grad_norm": 0.5387107133865356,
"learning_rate": 4.776912207495294e-06,
"loss": 0.687,
"step": 1062
},
{
"epoch": 0.8858333333333334,
"grad_norm": 0.5317919254302979,
"learning_rate": 4.77645520884732e-06,
"loss": 0.6855,
"step": 1063
},
{
"epoch": 0.8866666666666667,
"grad_norm": 0.533784031867981,
"learning_rate": 4.775997764499843e-06,
"loss": 0.6989,
"step": 1064
},
{
"epoch": 0.8875,
"grad_norm": 0.5367893576622009,
"learning_rate": 4.775539874542423e-06,
"loss": 0.6715,
"step": 1065
},
{
"epoch": 0.8883333333333333,
"grad_norm": 0.5293227434158325,
"learning_rate": 4.77508153906471e-06,
"loss": 0.7038,
"step": 1066
},
{
"epoch": 0.8891666666666667,
"grad_norm": 0.5636188387870789,
"learning_rate": 4.77462275815644e-06,
"loss": 0.6986,
"step": 1067
},
{
"epoch": 0.89,
"grad_norm": 0.5615501999855042,
"learning_rate": 4.774163531907436e-06,
"loss": 0.6874,
"step": 1068
},
{
"epoch": 0.8908333333333334,
"grad_norm": 0.5406633615493774,
"learning_rate": 4.7737038604076055e-06,
"loss": 0.6495,
"step": 1069
},
{
"epoch": 0.8916666666666667,
"grad_norm": 0.5543058514595032,
"learning_rate": 4.77324374374695e-06,
"loss": 0.6881,
"step": 1070
},
{
"epoch": 0.8925,
"grad_norm": 0.5436853766441345,
"learning_rate": 4.772783182015554e-06,
"loss": 0.6962,
"step": 1071
},
{
"epoch": 0.8933333333333333,
"grad_norm": 0.5333845019340515,
"learning_rate": 4.7723221753035865e-06,
"loss": 0.6855,
"step": 1072
},
{
"epoch": 0.8941666666666667,
"grad_norm": 0.5417557954788208,
"learning_rate": 4.7718607237013085e-06,
"loss": 0.6698,
"step": 1073
},
{
"epoch": 0.895,
"grad_norm": 0.5388748645782471,
"learning_rate": 4.771398827299065e-06,
"loss": 0.6807,
"step": 1074
},
{
"epoch": 0.8958333333333334,
"grad_norm": 0.5663542747497559,
"learning_rate": 4.770936486187291e-06,
"loss": 0.6815,
"step": 1075
},
{
"epoch": 0.8966666666666666,
"grad_norm": 0.5452628135681152,
"learning_rate": 4.770473700456505e-06,
"loss": 0.6999,
"step": 1076
},
{
"epoch": 0.8975,
"grad_norm": 0.541050374507904,
"learning_rate": 4.770010470197314e-06,
"loss": 0.6719,
"step": 1077
},
{
"epoch": 0.8983333333333333,
"grad_norm": 0.5387743711471558,
"learning_rate": 4.769546795500414e-06,
"loss": 0.6736,
"step": 1078
},
{
"epoch": 0.8991666666666667,
"grad_norm": 0.5280100107192993,
"learning_rate": 4.769082676456585e-06,
"loss": 0.6858,
"step": 1079
},
{
"epoch": 0.9,
"grad_norm": 0.535346269607544,
"learning_rate": 4.768618113156695e-06,
"loss": 0.689,
"step": 1080
},
{
"epoch": 0.9008333333333334,
"grad_norm": 0.5523096323013306,
"learning_rate": 4.7681531056917e-06,
"loss": 0.6826,
"step": 1081
},
{
"epoch": 0.9016666666666666,
"grad_norm": 0.5523461699485779,
"learning_rate": 4.767687654152642e-06,
"loss": 0.6838,
"step": 1082
},
{
"epoch": 0.9025,
"grad_norm": 0.5431815981864929,
"learning_rate": 4.767221758630651e-06,
"loss": 0.6921,
"step": 1083
},
{
"epoch": 0.9033333333333333,
"grad_norm": 0.5458906292915344,
"learning_rate": 4.766755419216942e-06,
"loss": 0.6931,
"step": 1084
},
{
"epoch": 0.9041666666666667,
"grad_norm": 0.5406618714332581,
"learning_rate": 4.766288636002818e-06,
"loss": 0.7017,
"step": 1085
},
{
"epoch": 0.905,
"grad_norm": 0.5302971601486206,
"learning_rate": 4.7658214090796705e-06,
"loss": 0.6681,
"step": 1086
},
{
"epoch": 0.9058333333333334,
"grad_norm": 0.5316381454467773,
"learning_rate": 4.7653537385389745e-06,
"loss": 0.6941,
"step": 1087
},
{
"epoch": 0.9066666666666666,
"grad_norm": 0.5475829243659973,
"learning_rate": 4.764885624472295e-06,
"loss": 0.7189,
"step": 1088
},
{
"epoch": 0.9075,
"grad_norm": 0.5711652040481567,
"learning_rate": 4.764417066971281e-06,
"loss": 0.6873,
"step": 1089
},
{
"epoch": 0.9083333333333333,
"grad_norm": 0.5479061603546143,
"learning_rate": 4.763948066127671e-06,
"loss": 0.6662,
"step": 1090
},
{
"epoch": 0.9091666666666667,
"grad_norm": 0.5251897573471069,
"learning_rate": 4.763478622033288e-06,
"loss": 0.6786,
"step": 1091
},
{
"epoch": 0.91,
"grad_norm": 0.5401804447174072,
"learning_rate": 4.763008734780044e-06,
"loss": 0.6851,
"step": 1092
},
{
"epoch": 0.9108333333333334,
"grad_norm": 0.5489534139633179,
"learning_rate": 4.762538404459937e-06,
"loss": 0.7017,
"step": 1093
},
{
"epoch": 0.9116666666666666,
"grad_norm": 0.5508617758750916,
"learning_rate": 4.762067631165049e-06,
"loss": 0.6776,
"step": 1094
},
{
"epoch": 0.9125,
"grad_norm": 0.5428087115287781,
"learning_rate": 4.761596414987553e-06,
"loss": 0.6748,
"step": 1095
},
{
"epoch": 0.9133333333333333,
"grad_norm": 0.54740309715271,
"learning_rate": 4.761124756019708e-06,
"loss": 0.6824,
"step": 1096
},
{
"epoch": 0.9141666666666667,
"grad_norm": 0.5550034046173096,
"learning_rate": 4.760652654353856e-06,
"loss": 0.7002,
"step": 1097
},
{
"epoch": 0.915,
"grad_norm": 0.5526885986328125,
"learning_rate": 4.76018011008243e-06,
"loss": 0.6636,
"step": 1098
},
{
"epoch": 0.9158333333333334,
"grad_norm": 0.5593960285186768,
"learning_rate": 4.7597071232979456e-06,
"loss": 0.6753,
"step": 1099
},
{
"epoch": 0.9166666666666666,
"grad_norm": 0.5551512241363525,
"learning_rate": 4.75923369409301e-06,
"loss": 0.6875,
"step": 1100
},
{
"epoch": 0.9175,
"grad_norm": 0.5616668462753296,
"learning_rate": 4.7587598225603125e-06,
"loss": 0.6963,
"step": 1101
},
{
"epoch": 0.9183333333333333,
"grad_norm": 0.5372278690338135,
"learning_rate": 4.7582855087926325e-06,
"loss": 0.6988,
"step": 1102
},
{
"epoch": 0.9191666666666667,
"grad_norm": 0.5442941784858704,
"learning_rate": 4.757810752882832e-06,
"loss": 0.6405,
"step": 1103
},
{
"epoch": 0.92,
"grad_norm": 0.5227256417274475,
"learning_rate": 4.757335554923863e-06,
"loss": 0.6523,
"step": 1104
},
{
"epoch": 0.9208333333333333,
"grad_norm": 0.5390055775642395,
"learning_rate": 4.756859915008765e-06,
"loss": 0.6956,
"step": 1105
},
{
"epoch": 0.9216666666666666,
"grad_norm": 0.5312950015068054,
"learning_rate": 4.756383833230658e-06,
"loss": 0.6756,
"step": 1106
},
{
"epoch": 0.9225,
"grad_norm": 0.5549653768539429,
"learning_rate": 4.755907309682755e-06,
"loss": 0.6726,
"step": 1107
},
{
"epoch": 0.9233333333333333,
"grad_norm": 0.5344476103782654,
"learning_rate": 4.755430344458352e-06,
"loss": 0.6857,
"step": 1108
},
{
"epoch": 0.9241666666666667,
"grad_norm": 0.5309156179428101,
"learning_rate": 4.754952937650833e-06,
"loss": 0.698,
"step": 1109
},
{
"epoch": 0.925,
"grad_norm": 0.5390446782112122,
"learning_rate": 4.754475089353667e-06,
"loss": 0.685,
"step": 1110
},
{
"epoch": 0.9258333333333333,
"grad_norm": 0.5390679836273193,
"learning_rate": 4.753996799660412e-06,
"loss": 0.6838,
"step": 1111
},
{
"epoch": 0.9266666666666666,
"grad_norm": 0.5447319746017456,
"learning_rate": 4.7535180686647085e-06,
"loss": 0.6996,
"step": 1112
},
{
"epoch": 0.9275,
"grad_norm": 0.5378071069717407,
"learning_rate": 4.753038896460288e-06,
"loss": 0.6873,
"step": 1113
},
{
"epoch": 0.9283333333333333,
"grad_norm": 0.5611705183982849,
"learning_rate": 4.752559283140964e-06,
"loss": 0.6803,
"step": 1114
},
{
"epoch": 0.9291666666666667,
"grad_norm": 0.5532156229019165,
"learning_rate": 4.752079228800639e-06,
"loss": 0.6772,
"step": 1115
},
{
"epoch": 0.93,
"grad_norm": 0.5641983151435852,
"learning_rate": 4.751598733533302e-06,
"loss": 0.6821,
"step": 1116
},
{
"epoch": 0.9308333333333333,
"grad_norm": 0.5632778406143188,
"learning_rate": 4.751117797433027e-06,
"loss": 0.6781,
"step": 1117
},
{
"epoch": 0.9316666666666666,
"grad_norm": 0.5254220962524414,
"learning_rate": 4.7506364205939745e-06,
"loss": 0.674,
"step": 1118
},
{
"epoch": 0.9325,
"grad_norm": 0.547807514667511,
"learning_rate": 4.750154603110392e-06,
"loss": 0.6891,
"step": 1119
},
{
"epoch": 0.9333333333333333,
"grad_norm": 0.5461582541465759,
"learning_rate": 4.749672345076613e-06,
"loss": 0.7057,
"step": 1120
},
{
"epoch": 0.9341666666666667,
"grad_norm": 0.5285746455192566,
"learning_rate": 4.749189646587057e-06,
"loss": 0.6602,
"step": 1121
},
{
"epoch": 0.935,
"grad_norm": 0.5460460782051086,
"learning_rate": 4.748706507736229e-06,
"loss": 0.6683,
"step": 1122
},
{
"epoch": 0.9358333333333333,
"grad_norm": 0.5611393451690674,
"learning_rate": 4.7482229286187236e-06,
"loss": 0.677,
"step": 1123
},
{
"epoch": 0.9366666666666666,
"grad_norm": 0.5334330201148987,
"learning_rate": 4.747738909329216e-06,
"loss": 0.6835,
"step": 1124
},
{
"epoch": 0.9375,
"grad_norm": 0.5364940166473389,
"learning_rate": 4.747254449962474e-06,
"loss": 0.6797,
"step": 1125
},
{
"epoch": 0.9383333333333334,
"grad_norm": 0.5399084091186523,
"learning_rate": 4.746769550613346e-06,
"loss": 0.7012,
"step": 1126
},
{
"epoch": 0.9391666666666667,
"grad_norm": 0.5443120002746582,
"learning_rate": 4.746284211376769e-06,
"loss": 0.6521,
"step": 1127
},
{
"epoch": 0.94,
"grad_norm": 0.5568748712539673,
"learning_rate": 4.745798432347767e-06,
"loss": 0.7101,
"step": 1128
},
{
"epoch": 0.9408333333333333,
"grad_norm": 0.5697879195213318,
"learning_rate": 4.745312213621447e-06,
"loss": 0.706,
"step": 1129
},
{
"epoch": 0.9416666666666667,
"grad_norm": 0.556804358959198,
"learning_rate": 4.744825555293007e-06,
"loss": 0.6791,
"step": 1130
},
{
"epoch": 0.9425,
"grad_norm": 0.5465302467346191,
"learning_rate": 4.744338457457727e-06,
"loss": 0.6892,
"step": 1131
},
{
"epoch": 0.9433333333333334,
"grad_norm": 0.5576493144035339,
"learning_rate": 4.7438509202109725e-06,
"loss": 0.6663,
"step": 1132
},
{
"epoch": 0.9441666666666667,
"grad_norm": 0.5397078990936279,
"learning_rate": 4.743362943648199e-06,
"loss": 0.671,
"step": 1133
},
{
"epoch": 0.945,
"grad_norm": 0.5395886898040771,
"learning_rate": 4.7428745278649455e-06,
"loss": 0.6778,
"step": 1134
},
{
"epoch": 0.9458333333333333,
"grad_norm": 0.5800783634185791,
"learning_rate": 4.742385672956837e-06,
"loss": 0.6976,
"step": 1135
},
{
"epoch": 0.9466666666666667,
"grad_norm": 0.5482068061828613,
"learning_rate": 4.7418963790195825e-06,
"loss": 0.6797,
"step": 1136
},
{
"epoch": 0.9475,
"grad_norm": 0.5531644225120544,
"learning_rate": 4.7414066461489836e-06,
"loss": 0.6806,
"step": 1137
},
{
"epoch": 0.9483333333333334,
"grad_norm": 0.5455755591392517,
"learning_rate": 4.74091647444092e-06,
"loss": 0.6927,
"step": 1138
},
{
"epoch": 0.9491666666666667,
"grad_norm": 0.5663310885429382,
"learning_rate": 4.740425863991362e-06,
"loss": 0.6799,
"step": 1139
},
{
"epoch": 0.95,
"grad_norm": 0.5616320967674255,
"learning_rate": 4.7399348148963646e-06,
"loss": 0.6852,
"step": 1140
},
{
"epoch": 0.9508333333333333,
"grad_norm": 0.5891749262809753,
"learning_rate": 4.7394433272520686e-06,
"loss": 0.6737,
"step": 1141
},
{
"epoch": 0.9516666666666667,
"grad_norm": 0.555493950843811,
"learning_rate": 4.7389514011547e-06,
"loss": 0.6773,
"step": 1142
},
{
"epoch": 0.9525,
"grad_norm": 0.5803748369216919,
"learning_rate": 4.738459036700573e-06,
"loss": 0.7122,
"step": 1143
},
{
"epoch": 0.9533333333333334,
"grad_norm": 0.5740647315979004,
"learning_rate": 4.7379662339860844e-06,
"loss": 0.7011,
"step": 1144
},
{
"epoch": 0.9541666666666667,
"grad_norm": 0.5698148608207703,
"learning_rate": 4.7374729931077194e-06,
"loss": 0.6641,
"step": 1145
},
{
"epoch": 0.955,
"grad_norm": 0.5703817009925842,
"learning_rate": 4.7369793141620466e-06,
"loss": 0.6793,
"step": 1146
},
{
"epoch": 0.9558333333333333,
"grad_norm": 0.5403212308883667,
"learning_rate": 4.736485197245723e-06,
"loss": 0.685,
"step": 1147
},
{
"epoch": 0.9566666666666667,
"grad_norm": 0.5556619167327881,
"learning_rate": 4.73599064245549e-06,
"loss": 0.6775,
"step": 1148
},
{
"epoch": 0.9575,
"grad_norm": 0.5645613670349121,
"learning_rate": 4.735495649888175e-06,
"loss": 0.6778,
"step": 1149
},
{
"epoch": 0.9583333333333334,
"grad_norm": 0.5446354150772095,
"learning_rate": 4.735000219640689e-06,
"loss": 0.6932,
"step": 1150
},
{
"epoch": 0.9591666666666666,
"grad_norm": 0.5600216388702393,
"learning_rate": 4.734504351810034e-06,
"loss": 0.6897,
"step": 1151
},
{
"epoch": 0.96,
"grad_norm": 0.5426549911499023,
"learning_rate": 4.734008046493291e-06,
"loss": 0.6467,
"step": 1152
},
{
"epoch": 0.9608333333333333,
"grad_norm": 0.5596107840538025,
"learning_rate": 4.733511303787633e-06,
"loss": 0.6803,
"step": 1153
},
{
"epoch": 0.9616666666666667,
"grad_norm": 0.556390106678009,
"learning_rate": 4.733014123790312e-06,
"loss": 0.6782,
"step": 1154
},
{
"epoch": 0.9625,
"grad_norm": 0.5332323312759399,
"learning_rate": 4.732516506598672e-06,
"loss": 0.698,
"step": 1155
},
{
"epoch": 0.9633333333333334,
"grad_norm": 0.545379638671875,
"learning_rate": 4.732018452310139e-06,
"loss": 0.6935,
"step": 1156
},
{
"epoch": 0.9641666666666666,
"grad_norm": 0.5710763931274414,
"learning_rate": 4.731519961022225e-06,
"loss": 0.6834,
"step": 1157
},
{
"epoch": 0.965,
"grad_norm": 0.5500915050506592,
"learning_rate": 4.7310210328325285e-06,
"loss": 0.6871,
"step": 1158
},
{
"epoch": 0.9658333333333333,
"grad_norm": 0.5522690415382385,
"learning_rate": 4.730521667838733e-06,
"loss": 0.6716,
"step": 1159
},
{
"epoch": 0.9666666666666667,
"grad_norm": 0.5778139233589172,
"learning_rate": 4.730021866138607e-06,
"loss": 0.7024,
"step": 1160
},
{
"epoch": 0.9675,
"grad_norm": 0.5582888722419739,
"learning_rate": 4.729521627830005e-06,
"loss": 0.7,
"step": 1161
},
{
"epoch": 0.9683333333333334,
"grad_norm": 0.5494309663772583,
"learning_rate": 4.729020953010867e-06,
"loss": 0.6887,
"step": 1162
},
{
"epoch": 0.9691666666666666,
"grad_norm": 0.5512510538101196,
"learning_rate": 4.728519841779219e-06,
"loss": 0.6736,
"step": 1163
},
{
"epoch": 0.97,
"grad_norm": 0.5724416971206665,
"learning_rate": 4.728018294233171e-06,
"loss": 0.6886,
"step": 1164
},
{
"epoch": 0.9708333333333333,
"grad_norm": 0.5454419851303101,
"learning_rate": 4.72751631047092e-06,
"loss": 0.6774,
"step": 1165
},
{
"epoch": 0.9716666666666667,
"grad_norm": 0.5404846668243408,
"learning_rate": 4.727013890590748e-06,
"loss": 0.7012,
"step": 1166
},
{
"epoch": 0.9725,
"grad_norm": 0.5304462313652039,
"learning_rate": 4.726511034691021e-06,
"loss": 0.6678,
"step": 1167
},
{
"epoch": 0.9733333333333334,
"grad_norm": 0.5502594113349915,
"learning_rate": 4.726007742870192e-06,
"loss": 0.6653,
"step": 1168
},
{
"epoch": 0.9741666666666666,
"grad_norm": 0.5499830842018127,
"learning_rate": 4.7255040152268e-06,
"loss": 0.7064,
"step": 1169
},
{
"epoch": 0.975,
"grad_norm": 0.5555225014686584,
"learning_rate": 4.724999851859465e-06,
"loss": 0.7001,
"step": 1170
},
{
"epoch": 0.9758333333333333,
"grad_norm": 0.5441496968269348,
"learning_rate": 4.724495252866899e-06,
"loss": 0.6817,
"step": 1171
},
{
"epoch": 0.9766666666666667,
"grad_norm": 0.5462631583213806,
"learning_rate": 4.723990218347893e-06,
"loss": 0.6888,
"step": 1172
},
{
"epoch": 0.9775,
"grad_norm": 0.5420259833335876,
"learning_rate": 4.723484748401329e-06,
"loss": 0.6811,
"step": 1173
},
{
"epoch": 0.9783333333333334,
"grad_norm": 0.5751280784606934,
"learning_rate": 4.722978843126168e-06,
"loss": 0.6722,
"step": 1174
},
{
"epoch": 0.9791666666666666,
"grad_norm": 0.5355557799339294,
"learning_rate": 4.722472502621462e-06,
"loss": 0.7011,
"step": 1175
},
{
"epoch": 0.98,
"grad_norm": 0.5431925654411316,
"learning_rate": 4.721965726986344e-06,
"loss": 0.6804,
"step": 1176
},
{
"epoch": 0.9808333333333333,
"grad_norm": 0.5622472167015076,
"learning_rate": 4.721458516320035e-06,
"loss": 0.6837,
"step": 1177
},
{
"epoch": 0.9816666666666667,
"grad_norm": 0.5559244155883789,
"learning_rate": 4.720950870721839e-06,
"loss": 0.6703,
"step": 1178
},
{
"epoch": 0.9825,
"grad_norm": 0.590329110622406,
"learning_rate": 4.720442790291147e-06,
"loss": 0.656,
"step": 1179
},
{
"epoch": 0.9833333333333333,
"grad_norm": 0.5614374279975891,
"learning_rate": 4.719934275127435e-06,
"loss": 0.6825,
"step": 1180
},
{
"epoch": 0.9841666666666666,
"grad_norm": 0.5458409786224365,
"learning_rate": 4.719425325330261e-06,
"loss": 0.6808,
"step": 1181
},
{
"epoch": 0.985,
"grad_norm": 0.5773490071296692,
"learning_rate": 4.718915940999274e-06,
"loss": 0.7012,
"step": 1182
},
{
"epoch": 0.9858333333333333,
"grad_norm": 0.5712911486625671,
"learning_rate": 4.7184061222342025e-06,
"loss": 0.6956,
"step": 1183
},
{
"epoch": 0.9866666666666667,
"grad_norm": 0.5503310561180115,
"learning_rate": 4.717895869134862e-06,
"loss": 0.6927,
"step": 1184
},
{
"epoch": 0.9875,
"grad_norm": 0.5725301504135132,
"learning_rate": 4.717385181801154e-06,
"loss": 0.6736,
"step": 1185
},
{
"epoch": 0.9883333333333333,
"grad_norm": 0.5685477256774902,
"learning_rate": 4.716874060333064e-06,
"loss": 0.6731,
"step": 1186
},
{
"epoch": 0.9891666666666666,
"grad_norm": 0.5521795749664307,
"learning_rate": 4.716362504830664e-06,
"loss": 0.7048,
"step": 1187
},
{
"epoch": 0.99,
"grad_norm": 0.5841538310050964,
"learning_rate": 4.715850515394108e-06,
"loss": 0.6782,
"step": 1188
},
{
"epoch": 0.9908333333333333,
"grad_norm": 0.563755989074707,
"learning_rate": 4.715338092123636e-06,
"loss": 0.6917,
"step": 1189
},
{
"epoch": 0.9916666666666667,
"grad_norm": 0.546774685382843,
"learning_rate": 4.714825235119576e-06,
"loss": 0.684,
"step": 1190
},
{
"epoch": 0.9925,
"grad_norm": 0.5788719654083252,
"learning_rate": 4.714311944482337e-06,
"loss": 0.6882,
"step": 1191
},
{
"epoch": 0.9933333333333333,
"grad_norm": 0.5720913410186768,
"learning_rate": 4.713798220312416e-06,
"loss": 0.7028,
"step": 1192
},
{
"epoch": 0.9941666666666666,
"grad_norm": 0.556336522102356,
"learning_rate": 4.713284062710391e-06,
"loss": 0.6831,
"step": 1193
},
{
"epoch": 0.995,
"grad_norm": 0.5456176996231079,
"learning_rate": 4.712769471776929e-06,
"loss": 0.7123,
"step": 1194
},
{
"epoch": 0.9958333333333333,
"grad_norm": 0.5574368834495544,
"learning_rate": 4.712254447612779e-06,
"loss": 0.7003,
"step": 1195
},
{
"epoch": 0.9966666666666667,
"grad_norm": 0.5731207132339478,
"learning_rate": 4.711738990318776e-06,
"loss": 0.6608,
"step": 1196
},
{
"epoch": 0.9975,
"grad_norm": 0.5490906834602356,
"learning_rate": 4.7112230999958405e-06,
"loss": 0.6543,
"step": 1197
},
{
"epoch": 0.9983333333333333,
"grad_norm": 0.5476967096328735,
"learning_rate": 4.710706776744976e-06,
"loss": 0.686,
"step": 1198
},
{
"epoch": 0.9991666666666666,
"grad_norm": 0.5661789774894714,
"learning_rate": 4.710190020667272e-06,
"loss": 0.682,
"step": 1199
},
{
"epoch": 1.0,
"grad_norm": 0.5539546608924866,
"learning_rate": 4.709672831863903e-06,
"loss": 0.6406,
"step": 1200
}
],
"logging_steps": 1,
"max_steps": 7200,
"num_input_tokens_seen": 0,
"num_train_epochs": 6,
"save_steps": 1200,
"stateful_callbacks": {
"TrainerControl": {
"args": {
"should_epoch_stop": false,
"should_evaluate": false,
"should_log": false,
"should_save": true,
"should_training_stop": false
},
"attributes": {}
}
},
"total_flos": 2.6881716048101376e+18,
"train_batch_size": 6,
"trial_name": null,
"trial_params": null
}