Limopro-model / trainer_state.json
apoorva2311's picture
Upload fine-tuned TML LIMOPro model (checkpoint 705)
0c1e147 verified
{
"best_global_step": null,
"best_metric": null,
"best_model_checkpoint": null,
"epoch": 3.0,
"eval_steps": 500,
"global_step": 705,
"is_hyper_param_search": false,
"is_local_process_zero": true,
"is_world_process_zero": true,
"log_history": [
{
"epoch": 0.004266666666666667,
"grad_norm": 4.362146377563477,
"learning_rate": 0.0,
"loss": 0.9789,
"step": 1
},
{
"epoch": 0.008533333333333334,
"grad_norm": 4.282586574554443,
"learning_rate": 1.3888888888888888e-07,
"loss": 0.9679,
"step": 2
},
{
"epoch": 0.0128,
"grad_norm": 4.4176812171936035,
"learning_rate": 2.7777777777777776e-07,
"loss": 0.9775,
"step": 3
},
{
"epoch": 0.017066666666666667,
"grad_norm": 4.650586128234863,
"learning_rate": 4.1666666666666667e-07,
"loss": 0.9649,
"step": 4
},
{
"epoch": 0.021333333333333333,
"grad_norm": 4.638489723205566,
"learning_rate": 5.555555555555555e-07,
"loss": 1.014,
"step": 5
},
{
"epoch": 0.0256,
"grad_norm": 4.192325592041016,
"learning_rate": 6.944444444444446e-07,
"loss": 0.956,
"step": 6
},
{
"epoch": 0.029866666666666666,
"grad_norm": 4.542601585388184,
"learning_rate": 8.333333333333333e-07,
"loss": 0.9553,
"step": 7
},
{
"epoch": 0.034133333333333335,
"grad_norm": 4.178647518157959,
"learning_rate": 9.722222222222224e-07,
"loss": 0.942,
"step": 8
},
{
"epoch": 0.0384,
"grad_norm": 3.826584815979004,
"learning_rate": 1.111111111111111e-06,
"loss": 0.9361,
"step": 9
},
{
"epoch": 0.042666666666666665,
"grad_norm": 3.841879367828369,
"learning_rate": 1.25e-06,
"loss": 0.956,
"step": 10
},
{
"epoch": 0.046933333333333334,
"grad_norm": 3.7646379470825195,
"learning_rate": 1.3888888888888892e-06,
"loss": 0.9161,
"step": 11
},
{
"epoch": 0.0512,
"grad_norm": 3.145012855529785,
"learning_rate": 1.527777777777778e-06,
"loss": 0.9237,
"step": 12
},
{
"epoch": 0.055466666666666664,
"grad_norm": 2.0433948040008545,
"learning_rate": 1.6666666666666667e-06,
"loss": 0.9213,
"step": 13
},
{
"epoch": 0.05973333333333333,
"grad_norm": 1.9841437339782715,
"learning_rate": 1.8055555555555557e-06,
"loss": 0.8836,
"step": 14
},
{
"epoch": 0.064,
"grad_norm": 1.850753903388977,
"learning_rate": 1.944444444444445e-06,
"loss": 0.927,
"step": 15
},
{
"epoch": 0.06826666666666667,
"grad_norm": 1.7173751592636108,
"learning_rate": 2.0833333333333334e-06,
"loss": 0.8718,
"step": 16
},
{
"epoch": 0.07253333333333334,
"grad_norm": 2.0940911769866943,
"learning_rate": 2.222222222222222e-06,
"loss": 0.9329,
"step": 17
},
{
"epoch": 0.0768,
"grad_norm": 2.0196115970611572,
"learning_rate": 2.361111111111111e-06,
"loss": 0.8768,
"step": 18
},
{
"epoch": 0.08106666666666666,
"grad_norm": 2.069068431854248,
"learning_rate": 2.5e-06,
"loss": 0.8899,
"step": 19
},
{
"epoch": 0.08533333333333333,
"grad_norm": 1.9134008884429932,
"learning_rate": 2.6388888888888893e-06,
"loss": 0.906,
"step": 20
},
{
"epoch": 0.0896,
"grad_norm": 1.7790288925170898,
"learning_rate": 2.7777777777777783e-06,
"loss": 0.8698,
"step": 21
},
{
"epoch": 0.09386666666666667,
"grad_norm": 1.5685698986053467,
"learning_rate": 2.916666666666667e-06,
"loss": 0.8693,
"step": 22
},
{
"epoch": 0.09813333333333334,
"grad_norm": 1.2142629623413086,
"learning_rate": 3.055555555555556e-06,
"loss": 0.85,
"step": 23
},
{
"epoch": 0.1024,
"grad_norm": 1.2168952226638794,
"learning_rate": 3.1944444444444443e-06,
"loss": 0.8585,
"step": 24
},
{
"epoch": 0.10666666666666667,
"grad_norm": 1.0702353715896606,
"learning_rate": 3.3333333333333333e-06,
"loss": 0.849,
"step": 25
},
{
"epoch": 0.11093333333333333,
"grad_norm": 1.049211025238037,
"learning_rate": 3.4722222222222224e-06,
"loss": 0.8689,
"step": 26
},
{
"epoch": 0.1152,
"grad_norm": 0.8866307139396667,
"learning_rate": 3.6111111111111115e-06,
"loss": 0.818,
"step": 27
},
{
"epoch": 0.11946666666666667,
"grad_norm": 0.7809798717498779,
"learning_rate": 3.7500000000000005e-06,
"loss": 0.8354,
"step": 28
},
{
"epoch": 0.12373333333333333,
"grad_norm": 0.6708624958992004,
"learning_rate": 3.88888888888889e-06,
"loss": 0.7881,
"step": 29
},
{
"epoch": 0.128,
"grad_norm": 0.6296146512031555,
"learning_rate": 4.027777777777779e-06,
"loss": 0.8044,
"step": 30
},
{
"epoch": 0.13226666666666667,
"grad_norm": 0.6943596601486206,
"learning_rate": 4.166666666666667e-06,
"loss": 0.7343,
"step": 31
},
{
"epoch": 0.13653333333333334,
"grad_norm": 0.7787662744522095,
"learning_rate": 4.305555555555556e-06,
"loss": 0.8084,
"step": 32
},
{
"epoch": 0.1408,
"grad_norm": 0.7602130174636841,
"learning_rate": 4.444444444444444e-06,
"loss": 0.8048,
"step": 33
},
{
"epoch": 0.14506666666666668,
"grad_norm": 0.6979145407676697,
"learning_rate": 4.583333333333333e-06,
"loss": 0.7773,
"step": 34
},
{
"epoch": 0.14933333333333335,
"grad_norm": 0.6033741235733032,
"learning_rate": 4.722222222222222e-06,
"loss": 0.7654,
"step": 35
},
{
"epoch": 0.1536,
"grad_norm": 0.5684896111488342,
"learning_rate": 4.861111111111111e-06,
"loss": 0.769,
"step": 36
},
{
"epoch": 0.15786666666666666,
"grad_norm": 0.5608508586883545,
"learning_rate": 5e-06,
"loss": 0.7525,
"step": 37
},
{
"epoch": 0.16213333333333332,
"grad_norm": 0.567663848400116,
"learning_rate": 4.999972435080738e-06,
"loss": 0.7425,
"step": 38
},
{
"epoch": 0.1664,
"grad_norm": 0.627487063407898,
"learning_rate": 4.99988974093081e-06,
"loss": 0.7469,
"step": 39
},
{
"epoch": 0.17066666666666666,
"grad_norm": 0.5669575929641724,
"learning_rate": 4.999751919373782e-06,
"loss": 0.7667,
"step": 40
},
{
"epoch": 0.17493333333333333,
"grad_norm": 0.5957594513893127,
"learning_rate": 4.999558973448887e-06,
"loss": 0.7762,
"step": 41
},
{
"epoch": 0.1792,
"grad_norm": 0.4995954632759094,
"learning_rate": 4.999310907410957e-06,
"loss": 0.7593,
"step": 42
},
{
"epoch": 0.18346666666666667,
"grad_norm": 0.47803279757499695,
"learning_rate": 4.9990077267303256e-06,
"loss": 0.6961,
"step": 43
},
{
"epoch": 0.18773333333333334,
"grad_norm": 0.43306031823158264,
"learning_rate": 4.998649438092715e-06,
"loss": 0.703,
"step": 44
},
{
"epoch": 0.192,
"grad_norm": 0.46962299942970276,
"learning_rate": 4.998236049399084e-06,
"loss": 0.7681,
"step": 45
},
{
"epoch": 0.19626666666666667,
"grad_norm": 0.47601673007011414,
"learning_rate": 4.997767569765452e-06,
"loss": 0.7059,
"step": 46
},
{
"epoch": 0.20053333333333334,
"grad_norm": 0.508930504322052,
"learning_rate": 4.997244009522702e-06,
"loss": 0.7048,
"step": 47
},
{
"epoch": 0.2048,
"grad_norm": 0.4726659059524536,
"learning_rate": 4.996665380216351e-06,
"loss": 0.7263,
"step": 48
},
{
"epoch": 0.20906666666666668,
"grad_norm": 0.4572336971759796,
"learning_rate": 4.996031694606294e-06,
"loss": 0.7386,
"step": 49
},
{
"epoch": 0.21333333333333335,
"grad_norm": 0.4237333834171295,
"learning_rate": 4.995342966666527e-06,
"loss": 0.7183,
"step": 50
},
{
"epoch": 0.2176,
"grad_norm": 0.388201504945755,
"learning_rate": 4.994599211584833e-06,
"loss": 0.7179,
"step": 51
},
{
"epoch": 0.22186666666666666,
"grad_norm": 0.39760446548461914,
"learning_rate": 4.993800445762451e-06,
"loss": 0.7079,
"step": 52
},
{
"epoch": 0.22613333333333333,
"grad_norm": 0.4210253953933716,
"learning_rate": 4.9929466868137135e-06,
"loss": 0.7296,
"step": 53
},
{
"epoch": 0.2304,
"grad_norm": 0.40208855271339417,
"learning_rate": 4.992037953565657e-06,
"loss": 0.7173,
"step": 54
},
{
"epoch": 0.23466666666666666,
"grad_norm": 0.38060909509658813,
"learning_rate": 4.991074266057609e-06,
"loss": 0.7283,
"step": 55
},
{
"epoch": 0.23893333333333333,
"grad_norm": 0.43215471506118774,
"learning_rate": 4.990055645540745e-06,
"loss": 0.7748,
"step": 56
},
{
"epoch": 0.2432,
"grad_norm": 0.38835158944129944,
"learning_rate": 4.988982114477617e-06,
"loss": 0.7106,
"step": 57
},
{
"epoch": 0.24746666666666667,
"grad_norm": 0.3765578866004944,
"learning_rate": 4.987853696541664e-06,
"loss": 0.7278,
"step": 58
},
{
"epoch": 0.2517333333333333,
"grad_norm": 0.42565688490867615,
"learning_rate": 4.986670416616684e-06,
"loss": 0.7233,
"step": 59
},
{
"epoch": 0.256,
"grad_norm": 0.4181171655654907,
"learning_rate": 4.985432300796292e-06,
"loss": 0.7318,
"step": 60
},
{
"epoch": 0.26026666666666665,
"grad_norm": 0.3972390294075012,
"learning_rate": 4.984139376383337e-06,
"loss": 0.7145,
"step": 61
},
{
"epoch": 0.26453333333333334,
"grad_norm": 0.3961975872516632,
"learning_rate": 4.982791671889302e-06,
"loss": 0.7363,
"step": 62
},
{
"epoch": 0.2688,
"grad_norm": 0.3924165666103363,
"learning_rate": 4.981389217033684e-06,
"loss": 0.7304,
"step": 63
},
{
"epoch": 0.2730666666666667,
"grad_norm": 0.38246816396713257,
"learning_rate": 4.979932042743324e-06,
"loss": 0.6888,
"step": 64
},
{
"epoch": 0.2773333333333333,
"grad_norm": 0.3791496753692627,
"learning_rate": 4.9784201811517365e-06,
"loss": 0.6999,
"step": 65
},
{
"epoch": 0.2816,
"grad_norm": 0.3851902484893799,
"learning_rate": 4.976853665598394e-06,
"loss": 0.7891,
"step": 66
},
{
"epoch": 0.28586666666666666,
"grad_norm": 0.35090020298957825,
"learning_rate": 4.975232530627998e-06,
"loss": 0.6972,
"step": 67
},
{
"epoch": 0.29013333333333335,
"grad_norm": 0.44051802158355713,
"learning_rate": 4.973556811989712e-06,
"loss": 0.6897,
"step": 68
},
{
"epoch": 0.2944,
"grad_norm": 0.35761162638664246,
"learning_rate": 4.971826546636374e-06,
"loss": 0.6779,
"step": 69
},
{
"epoch": 0.2986666666666667,
"grad_norm": 0.3964172601699829,
"learning_rate": 4.970041772723685e-06,
"loss": 0.7144,
"step": 70
},
{
"epoch": 0.30293333333333333,
"grad_norm": 0.38685816526412964,
"learning_rate": 4.968202529609364e-06,
"loss": 0.7446,
"step": 71
},
{
"epoch": 0.3072,
"grad_norm": 0.41402679681777954,
"learning_rate": 4.966308857852281e-06,
"loss": 0.6844,
"step": 72
},
{
"epoch": 0.31146666666666667,
"grad_norm": 0.39126983284950256,
"learning_rate": 4.964360799211563e-06,
"loss": 0.7103,
"step": 73
},
{
"epoch": 0.3157333333333333,
"grad_norm": 0.3830004632472992,
"learning_rate": 4.962358396645673e-06,
"loss": 0.7091,
"step": 74
},
{
"epoch": 0.32,
"grad_norm": 0.37684130668640137,
"learning_rate": 4.960301694311464e-06,
"loss": 0.6844,
"step": 75
},
{
"epoch": 0.32426666666666665,
"grad_norm": 0.3762841820716858,
"learning_rate": 4.958190737563203e-06,
"loss": 0.6978,
"step": 76
},
{
"epoch": 0.32853333333333334,
"grad_norm": 0.3554311990737915,
"learning_rate": 4.9560255729515726e-06,
"loss": 0.6813,
"step": 77
},
{
"epoch": 0.3328,
"grad_norm": 0.3811330497264862,
"learning_rate": 4.95380624822264e-06,
"loss": 0.6942,
"step": 78
},
{
"epoch": 0.3370666666666667,
"grad_norm": 0.3794249892234802,
"learning_rate": 4.951532812316814e-06,
"loss": 0.6822,
"step": 79
},
{
"epoch": 0.3413333333333333,
"grad_norm": 0.3942255675792694,
"learning_rate": 4.9492053153677545e-06,
"loss": 0.6943,
"step": 80
},
{
"epoch": 0.3456,
"grad_norm": 0.36585119366645813,
"learning_rate": 4.9468238087012744e-06,
"loss": 0.7032,
"step": 81
},
{
"epoch": 0.34986666666666666,
"grad_norm": 0.3868674635887146,
"learning_rate": 4.944388344834205e-06,
"loss": 0.7056,
"step": 82
},
{
"epoch": 0.35413333333333336,
"grad_norm": 0.3917011618614197,
"learning_rate": 4.941898977473238e-06,
"loss": 0.6837,
"step": 83
},
{
"epoch": 0.3584,
"grad_norm": 0.38477852940559387,
"learning_rate": 4.939355761513742e-06,
"loss": 0.6794,
"step": 84
},
{
"epoch": 0.3626666666666667,
"grad_norm": 0.3847743272781372,
"learning_rate": 4.936758753038551e-06,
"loss": 0.7318,
"step": 85
},
{
"epoch": 0.36693333333333333,
"grad_norm": 0.37328410148620605,
"learning_rate": 4.934108009316728e-06,
"loss": 0.6933,
"step": 86
},
{
"epoch": 0.3712,
"grad_norm": 0.40673941373825073,
"learning_rate": 4.931403588802302e-06,
"loss": 0.7338,
"step": 87
},
{
"epoch": 0.37546666666666667,
"grad_norm": 0.3592469394207001,
"learning_rate": 4.92864555113298e-06,
"loss": 0.6865,
"step": 88
},
{
"epoch": 0.3797333333333333,
"grad_norm": 0.36004796624183655,
"learning_rate": 4.925833957128831e-06,
"loss": 0.6748,
"step": 89
},
{
"epoch": 0.384,
"grad_norm": 0.37560826539993286,
"learning_rate": 4.922968868790943e-06,
"loss": 0.6512,
"step": 90
},
{
"epoch": 0.38826666666666665,
"grad_norm": 0.37589576840400696,
"learning_rate": 4.92005034930006e-06,
"loss": 0.686,
"step": 91
},
{
"epoch": 0.39253333333333335,
"grad_norm": 0.39273473620414734,
"learning_rate": 4.917078463015184e-06,
"loss": 0.6901,
"step": 92
},
{
"epoch": 0.3968,
"grad_norm": 0.3746315836906433,
"learning_rate": 4.914053275472162e-06,
"loss": 0.7052,
"step": 93
},
{
"epoch": 0.4010666666666667,
"grad_norm": 0.34910982847213745,
"learning_rate": 4.9109748533822315e-06,
"loss": 0.6893,
"step": 94
},
{
"epoch": 0.4053333333333333,
"grad_norm": 0.3954693078994751,
"learning_rate": 4.907843264630559e-06,
"loss": 0.7373,
"step": 95
},
{
"epoch": 0.4096,
"grad_norm": 0.3721007704734802,
"learning_rate": 4.904658578274738e-06,
"loss": 0.6679,
"step": 96
},
{
"epoch": 0.41386666666666666,
"grad_norm": 0.3675512373447418,
"learning_rate": 4.901420864543265e-06,
"loss": 0.6379,
"step": 97
},
{
"epoch": 0.41813333333333336,
"grad_norm": 0.3632946014404297,
"learning_rate": 4.898130194833995e-06,
"loss": 0.6712,
"step": 98
},
{
"epoch": 0.4224,
"grad_norm": 0.3786664307117462,
"learning_rate": 4.894786641712563e-06,
"loss": 0.6835,
"step": 99
},
{
"epoch": 0.4266666666666667,
"grad_norm": 0.3775879740715027,
"learning_rate": 4.891390278910788e-06,
"loss": 0.6935,
"step": 100
},
{
"epoch": 0.43093333333333333,
"grad_norm": 0.38075289130210876,
"learning_rate": 4.887941181325042e-06,
"loss": 0.7171,
"step": 101
},
{
"epoch": 0.4352,
"grad_norm": 0.34902146458625793,
"learning_rate": 4.884439425014601e-06,
"loss": 0.6797,
"step": 102
},
{
"epoch": 0.43946666666666667,
"grad_norm": 0.3705016076564789,
"learning_rate": 4.880885087199972e-06,
"loss": 0.6755,
"step": 103
},
{
"epoch": 0.4437333333333333,
"grad_norm": 0.40034019947052,
"learning_rate": 4.877278246261179e-06,
"loss": 0.665,
"step": 104
},
{
"epoch": 0.448,
"grad_norm": 0.3905963599681854,
"learning_rate": 4.873618981736049e-06,
"loss": 0.6693,
"step": 105
},
{
"epoch": 0.45226666666666665,
"grad_norm": 0.342978298664093,
"learning_rate": 4.869907374318446e-06,
"loss": 0.6694,
"step": 106
},
{
"epoch": 0.45653333333333335,
"grad_norm": 0.3976461887359619,
"learning_rate": 4.866143505856496e-06,
"loss": 0.6652,
"step": 107
},
{
"epoch": 0.4608,
"grad_norm": 0.40244609117507935,
"learning_rate": 4.862327459350784e-06,
"loss": 0.7008,
"step": 108
},
{
"epoch": 0.4650666666666667,
"grad_norm": 0.36506327986717224,
"learning_rate": 4.858459318952521e-06,
"loss": 0.7103,
"step": 109
},
{
"epoch": 0.4693333333333333,
"grad_norm": 0.3845788836479187,
"learning_rate": 4.854539169961688e-06,
"loss": 0.6873,
"step": 110
},
{
"epoch": 0.4736,
"grad_norm": 0.3704811632633209,
"learning_rate": 4.85056709882516e-06,
"loss": 0.7118,
"step": 111
},
{
"epoch": 0.47786666666666666,
"grad_norm": 0.3637083172798157,
"learning_rate": 4.8465431931347904e-06,
"loss": 0.6857,
"step": 112
},
{
"epoch": 0.48213333333333336,
"grad_norm": 0.4030190706253052,
"learning_rate": 4.8424675416254895e-06,
"loss": 0.6575,
"step": 113
},
{
"epoch": 0.4864,
"grad_norm": 0.39205852150917053,
"learning_rate": 4.8383402341732605e-06,
"loss": 0.6864,
"step": 114
},
{
"epoch": 0.49066666666666664,
"grad_norm": 0.3978751003742218,
"learning_rate": 4.83416136179322e-06,
"loss": 0.6958,
"step": 115
},
{
"epoch": 0.49493333333333334,
"grad_norm": 0.35517552495002747,
"learning_rate": 4.829931016637594e-06,
"loss": 0.6565,
"step": 116
},
{
"epoch": 0.4992,
"grad_norm": 0.3978227972984314,
"learning_rate": 4.825649291993677e-06,
"loss": 0.6888,
"step": 117
},
{
"epoch": 0.5034666666666666,
"grad_norm": 0.3767167329788208,
"learning_rate": 4.821316282281788e-06,
"loss": 0.6617,
"step": 118
},
{
"epoch": 0.5077333333333334,
"grad_norm": 0.3927992582321167,
"learning_rate": 4.816932083053175e-06,
"loss": 0.6328,
"step": 119
},
{
"epoch": 0.512,
"grad_norm": 0.38048994541168213,
"learning_rate": 4.812496790987917e-06,
"loss": 0.6838,
"step": 120
},
{
"epoch": 0.5162666666666667,
"grad_norm": 0.3565223515033722,
"learning_rate": 4.808010503892788e-06,
"loss": 0.6674,
"step": 121
},
{
"epoch": 0.5205333333333333,
"grad_norm": 0.37428316473960876,
"learning_rate": 4.803473320699102e-06,
"loss": 0.665,
"step": 122
},
{
"epoch": 0.5248,
"grad_norm": 0.39371275901794434,
"learning_rate": 4.7988853414605276e-06,
"loss": 0.7722,
"step": 123
},
{
"epoch": 0.5290666666666667,
"grad_norm": 0.37246188521385193,
"learning_rate": 4.794246667350889e-06,
"loss": 0.666,
"step": 124
},
{
"epoch": 0.5333333333333333,
"grad_norm": 0.36160096526145935,
"learning_rate": 4.789557400661927e-06,
"loss": 0.6518,
"step": 125
},
{
"epoch": 0.5376,
"grad_norm": 0.3860783576965332,
"learning_rate": 4.784817644801049e-06,
"loss": 0.6837,
"step": 126
},
{
"epoch": 0.5418666666666667,
"grad_norm": 0.37812525033950806,
"learning_rate": 4.780027504289043e-06,
"loss": 0.6526,
"step": 127
},
{
"epoch": 0.5461333333333334,
"grad_norm": 0.3702966570854187,
"learning_rate": 4.775187084757778e-06,
"loss": 0.6913,
"step": 128
},
{
"epoch": 0.5504,
"grad_norm": 0.39008045196533203,
"learning_rate": 4.770296492947876e-06,
"loss": 0.6669,
"step": 129
},
{
"epoch": 0.5546666666666666,
"grad_norm": 0.3917200565338135,
"learning_rate": 4.765355836706349e-06,
"loss": 0.6431,
"step": 130
},
{
"epoch": 0.5589333333333333,
"grad_norm": 0.3988916873931885,
"learning_rate": 4.7603652249842305e-06,
"loss": 0.6682,
"step": 131
},
{
"epoch": 0.5632,
"grad_norm": 0.3633989095687866,
"learning_rate": 4.755324767834166e-06,
"loss": 0.6717,
"step": 132
},
{
"epoch": 0.5674666666666667,
"grad_norm": 0.3956949710845947,
"learning_rate": 4.750234576407994e-06,
"loss": 0.6764,
"step": 133
},
{
"epoch": 0.5717333333333333,
"grad_norm": 0.3971360921859741,
"learning_rate": 4.745094762954285e-06,
"loss": 0.6843,
"step": 134
},
{
"epoch": 0.576,
"grad_norm": 0.3699060082435608,
"learning_rate": 4.7399054408158735e-06,
"loss": 0.6826,
"step": 135
},
{
"epoch": 0.5802666666666667,
"grad_norm": 0.3734731674194336,
"learning_rate": 4.734666724427357e-06,
"loss": 0.636,
"step": 136
},
{
"epoch": 0.5845333333333333,
"grad_norm": 0.37412676215171814,
"learning_rate": 4.729378729312569e-06,
"loss": 0.6573,
"step": 137
},
{
"epoch": 0.5888,
"grad_norm": 0.43301528692245483,
"learning_rate": 4.724041572082039e-06,
"loss": 0.696,
"step": 138
},
{
"epoch": 0.5930666666666666,
"grad_norm": 0.38765257596969604,
"learning_rate": 4.718655370430411e-06,
"loss": 0.6704,
"step": 139
},
{
"epoch": 0.5973333333333334,
"grad_norm": 0.3996504843235016,
"learning_rate": 4.713220243133858e-06,
"loss": 0.6618,
"step": 140
},
{
"epoch": 0.6016,
"grad_norm": 0.37452489137649536,
"learning_rate": 4.707736310047455e-06,
"loss": 0.689,
"step": 141
},
{
"epoch": 0.6058666666666667,
"grad_norm": 0.34926989674568176,
"learning_rate": 4.702203692102539e-06,
"loss": 0.6527,
"step": 142
},
{
"epoch": 0.6101333333333333,
"grad_norm": 0.3961327373981476,
"learning_rate": 4.696622511304046e-06,
"loss": 0.6381,
"step": 143
},
{
"epoch": 0.6144,
"grad_norm": 0.3921031951904297,
"learning_rate": 4.690992890727813e-06,
"loss": 0.6767,
"step": 144
},
{
"epoch": 0.6186666666666667,
"grad_norm": 0.4456472098827362,
"learning_rate": 4.68531495451787e-06,
"loss": 0.6715,
"step": 145
},
{
"epoch": 0.6229333333333333,
"grad_norm": 0.38145363330841064,
"learning_rate": 4.679588827883699e-06,
"loss": 0.6509,
"step": 146
},
{
"epoch": 0.6272,
"grad_norm": 0.3857404887676239,
"learning_rate": 4.6738146370974745e-06,
"loss": 0.6786,
"step": 147
},
{
"epoch": 0.6314666666666666,
"grad_norm": 0.36696499586105347,
"learning_rate": 4.66799250949128e-06,
"loss": 0.6503,
"step": 148
},
{
"epoch": 0.6357333333333334,
"grad_norm": 0.36986419558525085,
"learning_rate": 4.662122573454296e-06,
"loss": 0.6577,
"step": 149
},
{
"epoch": 0.64,
"grad_norm": 0.39298486709594727,
"learning_rate": 4.656204958429974e-06,
"loss": 0.6491,
"step": 150
},
{
"epoch": 0.6442666666666667,
"grad_norm": 0.43070754408836365,
"learning_rate": 4.650239794913177e-06,
"loss": 0.687,
"step": 151
},
{
"epoch": 0.6485333333333333,
"grad_norm": 0.3805888295173645,
"learning_rate": 4.644227214447308e-06,
"loss": 0.6269,
"step": 152
},
{
"epoch": 0.6528,
"grad_norm": 0.39261743426322937,
"learning_rate": 4.638167349621399e-06,
"loss": 0.6504,
"step": 153
},
{
"epoch": 0.6570666666666667,
"grad_norm": 0.378801167011261,
"learning_rate": 4.632060334067202e-06,
"loss": 0.676,
"step": 154
},
{
"epoch": 0.6613333333333333,
"grad_norm": 0.41917920112609863,
"learning_rate": 4.625906302456227e-06,
"loss": 0.688,
"step": 155
},
{
"epoch": 0.6656,
"grad_norm": 0.41115954518318176,
"learning_rate": 4.6197053904967826e-06,
"loss": 0.6729,
"step": 156
},
{
"epoch": 0.6698666666666667,
"grad_norm": 0.3718389570713043,
"learning_rate": 4.613457734930978e-06,
"loss": 0.6531,
"step": 157
},
{
"epoch": 0.6741333333333334,
"grad_norm": 0.3660692274570465,
"learning_rate": 4.607163473531712e-06,
"loss": 0.6544,
"step": 158
},
{
"epoch": 0.6784,
"grad_norm": 0.3884277045726776,
"learning_rate": 4.600822745099628e-06,
"loss": 0.6614,
"step": 159
},
{
"epoch": 0.6826666666666666,
"grad_norm": 0.37769001722335815,
"learning_rate": 4.5944356894600615e-06,
"loss": 0.6787,
"step": 160
},
{
"epoch": 0.6869333333333333,
"grad_norm": 0.3687920570373535,
"learning_rate": 4.58800244745995e-06,
"loss": 0.6471,
"step": 161
},
{
"epoch": 0.6912,
"grad_norm": 0.3945862650871277,
"learning_rate": 4.581523160964731e-06,
"loss": 0.681,
"step": 162
},
{
"epoch": 0.6954666666666667,
"grad_norm": 0.355354905128479,
"learning_rate": 4.574997972855212e-06,
"loss": 0.6548,
"step": 163
},
{
"epoch": 0.6997333333333333,
"grad_norm": 0.3718619644641876,
"learning_rate": 4.568427027024419e-06,
"loss": 0.6948,
"step": 164
},
{
"epoch": 0.704,
"grad_norm": 0.37492382526397705,
"learning_rate": 4.561810468374427e-06,
"loss": 0.6459,
"step": 165
},
{
"epoch": 0.7082666666666667,
"grad_norm": 0.3851492404937744,
"learning_rate": 4.5551484428131575e-06,
"loss": 0.662,
"step": 166
},
{
"epoch": 0.7125333333333334,
"grad_norm": 0.3845251202583313,
"learning_rate": 4.548441097251168e-06,
"loss": 0.6353,
"step": 167
},
{
"epoch": 0.7168,
"grad_norm": 0.34392473101615906,
"learning_rate": 4.541688579598412e-06,
"loss": 0.6474,
"step": 168
},
{
"epoch": 0.7210666666666666,
"grad_norm": 0.3728064000606537,
"learning_rate": 4.534891038760971e-06,
"loss": 0.6745,
"step": 169
},
{
"epoch": 0.7253333333333334,
"grad_norm": 0.39107459783554077,
"learning_rate": 4.528048624637777e-06,
"loss": 0.6655,
"step": 170
},
{
"epoch": 0.7296,
"grad_norm": 0.3549425005912781,
"learning_rate": 4.521161488117303e-06,
"loss": 0.658,
"step": 171
},
{
"epoch": 0.7338666666666667,
"grad_norm": 0.3642064929008484,
"learning_rate": 4.514229781074239e-06,
"loss": 0.6767,
"step": 172
},
{
"epoch": 0.7381333333333333,
"grad_norm": 0.40543392300605774,
"learning_rate": 4.507253656366143e-06,
"loss": 0.67,
"step": 173
},
{
"epoch": 0.7424,
"grad_norm": 0.36321622133255005,
"learning_rate": 4.5002332678300645e-06,
"loss": 0.6385,
"step": 174
},
{
"epoch": 0.7466666666666667,
"grad_norm": 0.34730178117752075,
"learning_rate": 4.49316877027916e-06,
"loss": 0.6533,
"step": 175
},
{
"epoch": 0.7509333333333333,
"grad_norm": 0.3694966733455658,
"learning_rate": 4.48606031949927e-06,
"loss": 0.6599,
"step": 176
},
{
"epoch": 0.7552,
"grad_norm": 0.3944104313850403,
"learning_rate": 4.478908072245495e-06,
"loss": 0.6508,
"step": 177
},
{
"epoch": 0.7594666666666666,
"grad_norm": 0.3709719479084015,
"learning_rate": 4.471712186238728e-06,
"loss": 0.6851,
"step": 178
},
{
"epoch": 0.7637333333333334,
"grad_norm": 0.3659399151802063,
"learning_rate": 4.4644728201621825e-06,
"loss": 0.7066,
"step": 179
},
{
"epoch": 0.768,
"grad_norm": 0.3750763535499573,
"learning_rate": 4.457190133657891e-06,
"loss": 0.6541,
"step": 180
},
{
"epoch": 0.7722666666666667,
"grad_norm": 0.39184752106666565,
"learning_rate": 4.449864287323188e-06,
"loss": 0.6534,
"step": 181
},
{
"epoch": 0.7765333333333333,
"grad_norm": 0.3683447539806366,
"learning_rate": 4.442495442707163e-06,
"loss": 0.652,
"step": 182
},
{
"epoch": 0.7808,
"grad_norm": 0.3437025547027588,
"learning_rate": 4.4350837623071006e-06,
"loss": 0.643,
"step": 183
},
{
"epoch": 0.7850666666666667,
"grad_norm": 0.37833109498023987,
"learning_rate": 4.427629409564898e-06,
"loss": 0.6409,
"step": 184
},
{
"epoch": 0.7893333333333333,
"grad_norm": 0.36276975274086,
"learning_rate": 4.420132548863461e-06,
"loss": 0.6427,
"step": 185
},
{
"epoch": 0.7936,
"grad_norm": 0.37990450859069824,
"learning_rate": 4.412593345523078e-06,
"loss": 0.6786,
"step": 186
},
{
"epoch": 0.7978666666666666,
"grad_norm": 0.3818235695362091,
"learning_rate": 4.405011965797775e-06,
"loss": 0.712,
"step": 187
},
{
"epoch": 0.8021333333333334,
"grad_norm": 0.3498851954936981,
"learning_rate": 4.397388576871645e-06,
"loss": 0.6168,
"step": 188
},
{
"epoch": 0.8064,
"grad_norm": 0.3553500473499298,
"learning_rate": 4.389723346855171e-06,
"loss": 0.6641,
"step": 189
},
{
"epoch": 0.8106666666666666,
"grad_norm": 0.37713390588760376,
"learning_rate": 4.382016444781509e-06,
"loss": 0.6767,
"step": 190
},
{
"epoch": 0.8149333333333333,
"grad_norm": 0.3694016933441162,
"learning_rate": 4.3742680406027655e-06,
"loss": 0.6749,
"step": 191
},
{
"epoch": 0.8192,
"grad_norm": 0.3673281967639923,
"learning_rate": 4.36647830518625e-06,
"loss": 0.6099,
"step": 192
},
{
"epoch": 0.8234666666666667,
"grad_norm": 0.3572637736797333,
"learning_rate": 4.3586474103107034e-06,
"loss": 0.6097,
"step": 193
},
{
"epoch": 0.8277333333333333,
"grad_norm": 0.3356681168079376,
"learning_rate": 4.350775528662515e-06,
"loss": 0.6665,
"step": 194
},
{
"epoch": 0.832,
"grad_norm": 0.3750758171081543,
"learning_rate": 4.34286283383191e-06,
"loss": 0.6755,
"step": 195
},
{
"epoch": 0.8362666666666667,
"grad_norm": 0.38012009859085083,
"learning_rate": 4.334909500309124e-06,
"loss": 0.618,
"step": 196
},
{
"epoch": 0.8405333333333334,
"grad_norm": 0.3598080277442932,
"learning_rate": 4.326915703480552e-06,
"loss": 0.6504,
"step": 197
},
{
"epoch": 0.8448,
"grad_norm": 0.36224260926246643,
"learning_rate": 4.318881619624889e-06,
"loss": 0.6395,
"step": 198
},
{
"epoch": 0.8490666666666666,
"grad_norm": 0.3769308626651764,
"learning_rate": 4.310807425909231e-06,
"loss": 0.6375,
"step": 199
},
{
"epoch": 0.8533333333333334,
"grad_norm": 0.37255364656448364,
"learning_rate": 4.3026933003851765e-06,
"loss": 0.6274,
"step": 200
},
{
"epoch": 0.8576,
"grad_norm": 0.3720489740371704,
"learning_rate": 4.294539421984898e-06,
"loss": 0.6391,
"step": 201
},
{
"epoch": 0.8618666666666667,
"grad_norm": 0.36343514919281006,
"learning_rate": 4.286345970517195e-06,
"loss": 0.6234,
"step": 202
},
{
"epoch": 0.8661333333333333,
"grad_norm": 0.373117059469223,
"learning_rate": 4.278113126663529e-06,
"loss": 0.6824,
"step": 203
},
{
"epoch": 0.8704,
"grad_norm": 0.3645020127296448,
"learning_rate": 4.269841071974044e-06,
"loss": 0.6088,
"step": 204
},
{
"epoch": 0.8746666666666667,
"grad_norm": 0.3923603892326355,
"learning_rate": 4.261529988863552e-06,
"loss": 0.6868,
"step": 205
},
{
"epoch": 0.8789333333333333,
"grad_norm": 0.36643365025520325,
"learning_rate": 4.253180060607523e-06,
"loss": 0.6371,
"step": 206
},
{
"epoch": 0.8832,
"grad_norm": 0.388554185628891,
"learning_rate": 4.244791471338035e-06,
"loss": 0.6544,
"step": 207
},
{
"epoch": 0.8874666666666666,
"grad_norm": 0.39180922508239746,
"learning_rate": 4.236364406039718e-06,
"loss": 0.7012,
"step": 208
},
{
"epoch": 0.8917333333333334,
"grad_norm": 0.3649655878543854,
"learning_rate": 4.22789905054567e-06,
"loss": 0.6327,
"step": 209
},
{
"epoch": 0.896,
"grad_norm": 0.3761747479438782,
"learning_rate": 4.219395591533364e-06,
"loss": 0.6746,
"step": 210
},
{
"epoch": 0.9002666666666667,
"grad_norm": 0.3713630437850952,
"learning_rate": 4.210854216520529e-06,
"loss": 0.642,
"step": 211
},
{
"epoch": 0.9045333333333333,
"grad_norm": 0.3751310408115387,
"learning_rate": 4.202275113861015e-06,
"loss": 0.6649,
"step": 212
},
{
"epoch": 0.9088,
"grad_norm": 0.35876309871673584,
"learning_rate": 4.193658472740641e-06,
"loss": 0.6464,
"step": 213
},
{
"epoch": 0.9130666666666667,
"grad_norm": 0.3813459873199463,
"learning_rate": 4.185004483173018e-06,
"loss": 0.6887,
"step": 214
},
{
"epoch": 0.9173333333333333,
"grad_norm": 0.40369632840156555,
"learning_rate": 4.176313335995368e-06,
"loss": 0.6606,
"step": 215
},
{
"epoch": 0.9216,
"grad_norm": 0.41807031631469727,
"learning_rate": 4.1675852228643045e-06,
"loss": 0.6546,
"step": 216
},
{
"epoch": 0.9258666666666666,
"grad_norm": 0.3831678628921509,
"learning_rate": 4.158820336251615e-06,
"loss": 0.6822,
"step": 217
},
{
"epoch": 0.9301333333333334,
"grad_norm": 0.38871535658836365,
"learning_rate": 4.150018869440015e-06,
"loss": 0.6188,
"step": 218
},
{
"epoch": 0.9344,
"grad_norm": 0.39522799849510193,
"learning_rate": 4.14118101651888e-06,
"loss": 0.6384,
"step": 219
},
{
"epoch": 0.9386666666666666,
"grad_norm": 0.38515716791152954,
"learning_rate": 4.132306972379971e-06,
"loss": 0.6556,
"step": 220
},
{
"epoch": 0.9429333333333333,
"grad_norm": 0.4171655476093292,
"learning_rate": 4.1233969327131396e-06,
"loss": 0.6408,
"step": 221
},
{
"epoch": 0.9472,
"grad_norm": 0.3901931941509247,
"learning_rate": 4.114451094002002e-06,
"loss": 0.667,
"step": 222
},
{
"epoch": 0.9514666666666667,
"grad_norm": 0.39424633979797363,
"learning_rate": 4.105469653519617e-06,
"loss": 0.6607,
"step": 223
},
{
"epoch": 0.9557333333333333,
"grad_norm": 0.37425708770751953,
"learning_rate": 4.09645280932413e-06,
"loss": 0.639,
"step": 224
},
{
"epoch": 0.96,
"grad_norm": 0.3967532813549042,
"learning_rate": 4.087400760254407e-06,
"loss": 0.6662,
"step": 225
},
{
"epoch": 0.9642666666666667,
"grad_norm": 0.3847205340862274,
"learning_rate": 4.078313705925647e-06,
"loss": 0.6457,
"step": 226
},
{
"epoch": 0.9685333333333334,
"grad_norm": 0.3996621370315552,
"learning_rate": 4.069191846724989e-06,
"loss": 0.6503,
"step": 227
},
{
"epoch": 0.9728,
"grad_norm": 0.36623647809028625,
"learning_rate": 4.06003538380708e-06,
"loss": 0.6525,
"step": 228
},
{
"epoch": 0.9770666666666666,
"grad_norm": 0.38129106163978577,
"learning_rate": 4.0508445190896505e-06,
"loss": 0.6671,
"step": 229
},
{
"epoch": 0.9813333333333333,
"grad_norm": 0.4016317129135132,
"learning_rate": 4.041619455249054e-06,
"loss": 0.676,
"step": 230
},
{
"epoch": 0.9856,
"grad_norm": 0.3796759247779846,
"learning_rate": 4.032360395715804e-06,
"loss": 0.6497,
"step": 231
},
{
"epoch": 0.9898666666666667,
"grad_norm": 0.37460625171661377,
"learning_rate": 4.023067544670082e-06,
"loss": 0.6318,
"step": 232
},
{
"epoch": 0.9941333333333333,
"grad_norm": 0.36790499091148376,
"learning_rate": 4.013741107037241e-06,
"loss": 0.6176,
"step": 233
},
{
"epoch": 0.9984,
"grad_norm": 0.3725135326385498,
"learning_rate": 4.004381288483279e-06,
"loss": 0.6173,
"step": 234
},
{
"epoch": 1.0,
"grad_norm": 0.5435260534286499,
"learning_rate": 3.9949882954103115e-06,
"loss": 0.6306,
"step": 235
},
{
"epoch": 1.0042666666666666,
"grad_norm": 0.36948561668395996,
"learning_rate": 3.985562334952015e-06,
"loss": 0.6645,
"step": 236
},
{
"epoch": 1.0085333333333333,
"grad_norm": 0.410770446062088,
"learning_rate": 3.97610361496906e-06,
"loss": 0.6288,
"step": 237
},
{
"epoch": 1.0128,
"grad_norm": 0.3914359211921692,
"learning_rate": 3.9666123440445295e-06,
"loss": 0.6418,
"step": 238
},
{
"epoch": 1.0170666666666666,
"grad_norm": 0.3786895275115967,
"learning_rate": 3.957088731479316e-06,
"loss": 0.6244,
"step": 239
},
{
"epoch": 1.0213333333333334,
"grad_norm": 0.3769228458404541,
"learning_rate": 3.947532987287509e-06,
"loss": 0.6288,
"step": 240
},
{
"epoch": 1.0256,
"grad_norm": 0.4023935794830322,
"learning_rate": 3.937945322191763e-06,
"loss": 0.6277,
"step": 241
},
{
"epoch": 1.0298666666666667,
"grad_norm": 0.38678252696990967,
"learning_rate": 3.928325947618649e-06,
"loss": 0.6202,
"step": 242
},
{
"epoch": 1.0341333333333333,
"grad_norm": 0.38373494148254395,
"learning_rate": 3.9186750756939925e-06,
"loss": 0.6458,
"step": 243
},
{
"epoch": 1.0384,
"grad_norm": 0.411771684885025,
"learning_rate": 3.9089929192382e-06,
"loss": 0.6443,
"step": 244
},
{
"epoch": 1.0426666666666666,
"grad_norm": 0.3979637920856476,
"learning_rate": 3.899279691761558e-06,
"loss": 0.6271,
"step": 245
},
{
"epoch": 1.0469333333333333,
"grad_norm": 0.37983348965644836,
"learning_rate": 3.889535607459534e-06,
"loss": 0.6626,
"step": 246
},
{
"epoch": 1.0512,
"grad_norm": 0.4087248742580414,
"learning_rate": 3.879760881208043e-06,
"loss": 0.6602,
"step": 247
},
{
"epoch": 1.0554666666666668,
"grad_norm": 0.3652113378047943,
"learning_rate": 3.869955728558719e-06,
"loss": 0.6425,
"step": 248
},
{
"epoch": 1.0597333333333334,
"grad_norm": 0.3603936433792114,
"learning_rate": 3.860120365734154e-06,
"loss": 0.6331,
"step": 249
},
{
"epoch": 1.064,
"grad_norm": 0.4053269624710083,
"learning_rate": 3.8502550096231325e-06,
"loss": 0.6956,
"step": 250
},
{
"epoch": 1.0682666666666667,
"grad_norm": 0.4000628888607025,
"learning_rate": 3.840359877775853e-06,
"loss": 0.6321,
"step": 251
},
{
"epoch": 1.0725333333333333,
"grad_norm": 0.3704379200935364,
"learning_rate": 3.830435188399123e-06,
"loss": 0.6227,
"step": 252
},
{
"epoch": 1.0768,
"grad_norm": 0.3613002300262451,
"learning_rate": 3.82048116035155e-06,
"loss": 0.6464,
"step": 253
},
{
"epoch": 1.0810666666666666,
"grad_norm": 0.37688636779785156,
"learning_rate": 3.810498013138719e-06,
"loss": 0.6121,
"step": 254
},
{
"epoch": 1.0853333333333333,
"grad_norm": 0.41339555382728577,
"learning_rate": 3.8004859669083475e-06,
"loss": 0.6386,
"step": 255
},
{
"epoch": 1.0896,
"grad_norm": 0.3702141344547272,
"learning_rate": 3.790445242445432e-06,
"loss": 0.6094,
"step": 256
},
{
"epoch": 1.0938666666666668,
"grad_norm": 0.37923765182495117,
"learning_rate": 3.780376061167379e-06,
"loss": 0.6252,
"step": 257
},
{
"epoch": 1.0981333333333334,
"grad_norm": 0.38305890560150146,
"learning_rate": 3.7702786451191255e-06,
"loss": 0.6404,
"step": 258
},
{
"epoch": 1.1024,
"grad_norm": 0.3678419589996338,
"learning_rate": 3.7601532169682363e-06,
"loss": 0.6251,
"step": 259
},
{
"epoch": 1.1066666666666667,
"grad_norm": 0.38134104013442993,
"learning_rate": 3.7500000000000005e-06,
"loss": 0.6412,
"step": 260
},
{
"epoch": 1.1109333333333333,
"grad_norm": 0.37436601519584656,
"learning_rate": 3.7398192181125014e-06,
"loss": 0.6244,
"step": 261
},
{
"epoch": 1.1152,
"grad_norm": 0.3732365667819977,
"learning_rate": 3.7296110958116845e-06,
"loss": 0.5944,
"step": 262
},
{
"epoch": 1.1194666666666666,
"grad_norm": 0.38658225536346436,
"learning_rate": 3.719375858206403e-06,
"loss": 0.6135,
"step": 263
},
{
"epoch": 1.1237333333333333,
"grad_norm": 0.38506805896759033,
"learning_rate": 3.7091137310034565e-06,
"loss": 0.6318,
"step": 264
},
{
"epoch": 1.1280000000000001,
"grad_norm": 0.36155635118484497,
"learning_rate": 3.69882494050261e-06,
"loss": 0.6097,
"step": 265
},
{
"epoch": 1.1322666666666668,
"grad_norm": 0.366577684879303,
"learning_rate": 3.6885097135916067e-06,
"loss": 0.6103,
"step": 266
},
{
"epoch": 1.1365333333333334,
"grad_norm": 0.37110307812690735,
"learning_rate": 3.6781682777411663e-06,
"loss": 0.6421,
"step": 267
},
{
"epoch": 1.1408,
"grad_norm": 0.38045334815979004,
"learning_rate": 3.6678008609999618e-06,
"loss": 0.6392,
"step": 268
},
{
"epoch": 1.1450666666666667,
"grad_norm": 0.38193008303642273,
"learning_rate": 3.657407691989599e-06,
"loss": 0.636,
"step": 269
},
{
"epoch": 1.1493333333333333,
"grad_norm": 0.3796103000640869,
"learning_rate": 3.64698899989957e-06,
"loss": 0.6597,
"step": 270
},
{
"epoch": 1.1536,
"grad_norm": 0.38126182556152344,
"learning_rate": 3.636545014482198e-06,
"loss": 0.6194,
"step": 271
},
{
"epoch": 1.1578666666666666,
"grad_norm": 0.37700942158699036,
"learning_rate": 3.6260759660475767e-06,
"loss": 0.6472,
"step": 272
},
{
"epoch": 1.1621333333333332,
"grad_norm": 0.3943956196308136,
"learning_rate": 3.615582085458485e-06,
"loss": 0.6142,
"step": 273
},
{
"epoch": 1.1663999999999999,
"grad_norm": 0.37596529722213745,
"learning_rate": 3.6050636041252996e-06,
"loss": 0.6617,
"step": 274
},
{
"epoch": 1.1706666666666667,
"grad_norm": 0.38903918862342834,
"learning_rate": 3.594520754000893e-06,
"loss": 0.6215,
"step": 275
},
{
"epoch": 1.1749333333333334,
"grad_norm": 0.3797720670700073,
"learning_rate": 3.5839537675755136e-06,
"loss": 0.6393,
"step": 276
},
{
"epoch": 1.1792,
"grad_norm": 0.33679234981536865,
"learning_rate": 3.5733628778716645e-06,
"loss": 0.6029,
"step": 277
},
{
"epoch": 1.1834666666666667,
"grad_norm": 0.3872799277305603,
"learning_rate": 3.562748318438961e-06,
"loss": 0.6323,
"step": 278
},
{
"epoch": 1.1877333333333333,
"grad_norm": 0.38341936469078064,
"learning_rate": 3.552110323348981e-06,
"loss": 0.6964,
"step": 279
},
{
"epoch": 1.192,
"grad_norm": 0.3867659568786621,
"learning_rate": 3.5414491271901073e-06,
"loss": 0.6376,
"step": 280
},
{
"epoch": 1.1962666666666666,
"grad_norm": 0.3914010226726532,
"learning_rate": 3.5307649650623476e-06,
"loss": 0.6143,
"step": 281
},
{
"epoch": 1.2005333333333335,
"grad_norm": 0.36839964985847473,
"learning_rate": 3.5200580725721554e-06,
"loss": 0.6702,
"step": 282
},
{
"epoch": 1.2048,
"grad_norm": 0.37717902660369873,
"learning_rate": 3.5093286858272325e-06,
"loss": 0.6148,
"step": 283
},
{
"epoch": 1.2090666666666667,
"grad_norm": 0.3799995183944702,
"learning_rate": 3.4985770414313218e-06,
"loss": 0.6284,
"step": 284
},
{
"epoch": 1.2133333333333334,
"grad_norm": 0.3792381286621094,
"learning_rate": 3.487803376478992e-06,
"loss": 0.5911,
"step": 285
},
{
"epoch": 1.2176,
"grad_norm": 0.3653464615345001,
"learning_rate": 3.4770079285504053e-06,
"loss": 0.6178,
"step": 286
},
{
"epoch": 1.2218666666666667,
"grad_norm": 0.3645116090774536,
"learning_rate": 3.4661909357060835e-06,
"loss": 0.644,
"step": 287
},
{
"epoch": 1.2261333333333333,
"grad_norm": 0.37026965618133545,
"learning_rate": 3.4553526364816535e-06,
"loss": 0.6191,
"step": 288
},
{
"epoch": 1.2304,
"grad_norm": 0.40830501914024353,
"learning_rate": 3.4444932698825904e-06,
"loss": 0.6319,
"step": 289
},
{
"epoch": 1.2346666666666666,
"grad_norm": 0.35780298709869385,
"learning_rate": 3.4336130753789445e-06,
"loss": 0.66,
"step": 290
},
{
"epoch": 1.2389333333333332,
"grad_norm": 0.39104047417640686,
"learning_rate": 3.422712292900062e-06,
"loss": 0.6276,
"step": 291
},
{
"epoch": 1.2432,
"grad_norm": 0.38032180070877075,
"learning_rate": 3.4117911628292944e-06,
"loss": 0.6201,
"step": 292
},
{
"epoch": 1.2474666666666667,
"grad_norm": 0.3887733817100525,
"learning_rate": 3.400849925998697e-06,
"loss": 0.6148,
"step": 293
},
{
"epoch": 1.2517333333333334,
"grad_norm": 0.37434589862823486,
"learning_rate": 3.3898888236837167e-06,
"loss": 0.649,
"step": 294
},
{
"epoch": 1.256,
"grad_norm": 0.36425620317459106,
"learning_rate": 3.378908097597875e-06,
"loss": 0.6313,
"step": 295
},
{
"epoch": 1.2602666666666666,
"grad_norm": 0.3721037805080414,
"learning_rate": 3.3679079898874327e-06,
"loss": 0.6699,
"step": 296
},
{
"epoch": 1.2645333333333333,
"grad_norm": 0.35984450578689575,
"learning_rate": 3.3568887431260566e-06,
"loss": 0.6005,
"step": 297
},
{
"epoch": 1.2688,
"grad_norm": 0.3606344759464264,
"learning_rate": 3.3458506003094626e-06,
"loss": 0.6569,
"step": 298
},
{
"epoch": 1.2730666666666668,
"grad_norm": 0.3679051697254181,
"learning_rate": 3.3347938048500643e-06,
"loss": 0.5853,
"step": 299
},
{
"epoch": 1.2773333333333334,
"grad_norm": 0.35892370343208313,
"learning_rate": 3.3237186005716005e-06,
"loss": 0.613,
"step": 300
},
{
"epoch": 1.2816,
"grad_norm": 0.3816829323768616,
"learning_rate": 3.3126252317037616e-06,
"loss": 0.6021,
"step": 301
},
{
"epoch": 1.2858666666666667,
"grad_norm": 0.3961769938468933,
"learning_rate": 3.3015139428767994e-06,
"loss": 0.667,
"step": 302
},
{
"epoch": 1.2901333333333334,
"grad_norm": 0.34190869331359863,
"learning_rate": 3.2903849791161398e-06,
"loss": 0.6147,
"step": 303
},
{
"epoch": 1.2944,
"grad_norm": 0.3746764659881592,
"learning_rate": 3.2792385858369706e-06,
"loss": 0.609,
"step": 304
},
{
"epoch": 1.2986666666666666,
"grad_norm": 0.3749980628490448,
"learning_rate": 3.2680750088388376e-06,
"loss": 0.6378,
"step": 305
},
{
"epoch": 1.3029333333333333,
"grad_norm": 0.35247915983200073,
"learning_rate": 3.2568944943002205e-06,
"loss": 0.6476,
"step": 306
},
{
"epoch": 1.3072,
"grad_norm": 0.366487979888916,
"learning_rate": 3.245697288773102e-06,
"loss": 0.6239,
"step": 307
},
{
"epoch": 1.3114666666666666,
"grad_norm": 0.37208351492881775,
"learning_rate": 3.2344836391775357e-06,
"loss": 0.6621,
"step": 308
},
{
"epoch": 1.3157333333333332,
"grad_norm": 0.38878902792930603,
"learning_rate": 3.2232537927961993e-06,
"loss": 0.6533,
"step": 309
},
{
"epoch": 1.32,
"grad_norm": 0.3752239942550659,
"learning_rate": 3.2120079972689385e-06,
"loss": 0.6528,
"step": 310
},
{
"epoch": 1.3242666666666667,
"grad_norm": 0.33627378940582275,
"learning_rate": 3.2007465005873104e-06,
"loss": 0.6337,
"step": 311
},
{
"epoch": 1.3285333333333333,
"grad_norm": 0.36405107378959656,
"learning_rate": 3.189469551089113e-06,
"loss": 0.646,
"step": 312
},
{
"epoch": 1.3328,
"grad_norm": 0.34430474042892456,
"learning_rate": 3.1781773974529072e-06,
"loss": 0.6324,
"step": 313
},
{
"epoch": 1.3370666666666666,
"grad_norm": 0.370339572429657,
"learning_rate": 3.1668702886925366e-06,
"loss": 0.6594,
"step": 314
},
{
"epoch": 1.3413333333333333,
"grad_norm": 0.3622921109199524,
"learning_rate": 3.1555484741516324e-06,
"loss": 0.6463,
"step": 315
},
{
"epoch": 1.3456000000000001,
"grad_norm": 0.37744611501693726,
"learning_rate": 3.1442122034981187e-06,
"loss": 0.6284,
"step": 316
},
{
"epoch": 1.3498666666666668,
"grad_norm": 0.36469364166259766,
"learning_rate": 3.1328617267187023e-06,
"loss": 0.6014,
"step": 317
},
{
"epoch": 1.3541333333333334,
"grad_norm": 0.36354753375053406,
"learning_rate": 3.1214972941133654e-06,
"loss": 0.621,
"step": 318
},
{
"epoch": 1.3584,
"grad_norm": 0.35719966888427734,
"learning_rate": 3.110119156289841e-06,
"loss": 0.6319,
"step": 319
},
{
"epoch": 1.3626666666666667,
"grad_norm": 0.37629184126853943,
"learning_rate": 3.0987275641580887e-06,
"loss": 0.6248,
"step": 320
},
{
"epoch": 1.3669333333333333,
"grad_norm": 0.39341020584106445,
"learning_rate": 3.087322768924765e-06,
"loss": 0.6678,
"step": 321
},
{
"epoch": 1.3712,
"grad_norm": 0.39847707748413086,
"learning_rate": 3.075905022087675e-06,
"loss": 0.6345,
"step": 322
},
{
"epoch": 1.3754666666666666,
"grad_norm": 0.3695352375507355,
"learning_rate": 3.064474575430236e-06,
"loss": 0.6254,
"step": 323
},
{
"epoch": 1.3797333333333333,
"grad_norm": 0.3770747482776642,
"learning_rate": 3.053031681015919e-06,
"loss": 0.6331,
"step": 324
},
{
"epoch": 1.384,
"grad_norm": 0.35522177815437317,
"learning_rate": 3.0415765911826916e-06,
"loss": 0.6243,
"step": 325
},
{
"epoch": 1.3882666666666665,
"grad_norm": 0.3473767936229706,
"learning_rate": 3.030109558537457e-06,
"loss": 0.6546,
"step": 326
},
{
"epoch": 1.3925333333333334,
"grad_norm": 0.3723127841949463,
"learning_rate": 3.0186308359504768e-06,
"loss": 0.6376,
"step": 327
},
{
"epoch": 1.3968,
"grad_norm": 0.34262001514434814,
"learning_rate": 3.0071406765498003e-06,
"loss": 0.5835,
"step": 328
},
{
"epoch": 1.4010666666666667,
"grad_norm": 0.40056103467941284,
"learning_rate": 2.995639333715681e-06,
"loss": 0.6558,
"step": 329
},
{
"epoch": 1.4053333333333333,
"grad_norm": 0.3862249255180359,
"learning_rate": 2.984127061074987e-06,
"loss": 0.6368,
"step": 330
},
{
"epoch": 1.4096,
"grad_norm": 0.3410535156726837,
"learning_rate": 2.9726041124956128e-06,
"loss": 0.5971,
"step": 331
},
{
"epoch": 1.4138666666666666,
"grad_norm": 0.36755862832069397,
"learning_rate": 2.9610707420808754e-06,
"loss": 0.6154,
"step": 332
},
{
"epoch": 1.4181333333333335,
"grad_norm": 0.36731356382369995,
"learning_rate": 2.9495272041639143e-06,
"loss": 0.6269,
"step": 333
},
{
"epoch": 1.4224,
"grad_norm": 0.35700151324272156,
"learning_rate": 2.9379737533020812e-06,
"loss": 0.6226,
"step": 334
},
{
"epoch": 1.4266666666666667,
"grad_norm": 0.3792375922203064,
"learning_rate": 2.9264106442713293e-06,
"loss": 0.6546,
"step": 335
},
{
"epoch": 1.4309333333333334,
"grad_norm": 0.37135738134384155,
"learning_rate": 2.914838132060592e-06,
"loss": 0.6582,
"step": 336
},
{
"epoch": 1.4352,
"grad_norm": 0.3696453869342804,
"learning_rate": 2.9032564718661606e-06,
"loss": 0.6349,
"step": 337
},
{
"epoch": 1.4394666666666667,
"grad_norm": 0.3558184802532196,
"learning_rate": 2.891665919086058e-06,
"loss": 0.636,
"step": 338
},
{
"epoch": 1.4437333333333333,
"grad_norm": 0.36788755655288696,
"learning_rate": 2.8800667293144047e-06,
"loss": 0.6256,
"step": 339
},
{
"epoch": 1.448,
"grad_norm": 0.3636646568775177,
"learning_rate": 2.8684591583357863e-06,
"loss": 0.6737,
"step": 340
},
{
"epoch": 1.4522666666666666,
"grad_norm": 0.35329827666282654,
"learning_rate": 2.8568434621196055e-06,
"loss": 0.6449,
"step": 341
},
{
"epoch": 1.4565333333333332,
"grad_norm": 0.3763044476509094,
"learning_rate": 2.845219896814448e-06,
"loss": 0.6034,
"step": 342
},
{
"epoch": 1.4607999999999999,
"grad_norm": 0.3717707097530365,
"learning_rate": 2.8335887187424225e-06,
"loss": 0.6195,
"step": 343
},
{
"epoch": 1.4650666666666667,
"grad_norm": 0.3806118965148926,
"learning_rate": 2.8219501843935183e-06,
"loss": 0.6065,
"step": 344
},
{
"epoch": 1.4693333333333334,
"grad_norm": 0.35683637857437134,
"learning_rate": 2.8103045504199435e-06,
"loss": 0.6336,
"step": 345
},
{
"epoch": 1.4736,
"grad_norm": 0.3510432243347168,
"learning_rate": 2.7986520736304632e-06,
"loss": 0.656,
"step": 346
},
{
"epoch": 1.4778666666666667,
"grad_norm": 0.3614979386329651,
"learning_rate": 2.786993010984747e-06,
"loss": 0.5899,
"step": 347
},
{
"epoch": 1.4821333333333333,
"grad_norm": 0.34515616297721863,
"learning_rate": 2.7753276195876887e-06,
"loss": 0.6528,
"step": 348
},
{
"epoch": 1.4864,
"grad_norm": 0.35917502641677856,
"learning_rate": 2.7636561566837463e-06,
"loss": 0.6501,
"step": 349
},
{
"epoch": 1.4906666666666666,
"grad_norm": 0.3679303228855133,
"learning_rate": 2.751978879651267e-06,
"loss": 0.6186,
"step": 350
},
{
"epoch": 1.4949333333333334,
"grad_norm": 0.341778963804245,
"learning_rate": 2.740296045996808e-06,
"loss": 0.6206,
"step": 351
},
{
"epoch": 1.4992,
"grad_norm": 0.3657280206680298,
"learning_rate": 2.728607913349464e-06,
"loss": 0.6201,
"step": 352
},
{
"epoch": 1.5034666666666667,
"grad_norm": 0.37184861302375793,
"learning_rate": 2.716914739455181e-06,
"loss": 0.6382,
"step": 353
},
{
"epoch": 1.5077333333333334,
"grad_norm": 0.35181599855422974,
"learning_rate": 2.7052167821710728e-06,
"loss": 0.6181,
"step": 354
},
{
"epoch": 1.512,
"grad_norm": 0.33952847123146057,
"learning_rate": 2.6935142994597407e-06,
"loss": 0.582,
"step": 355
},
{
"epoch": 1.5162666666666667,
"grad_norm": 0.3619312047958374,
"learning_rate": 2.6818075493835747e-06,
"loss": 0.6453,
"step": 356
},
{
"epoch": 1.5205333333333333,
"grad_norm": 0.353040486574173,
"learning_rate": 2.6700967900990733e-06,
"loss": 0.6468,
"step": 357
},
{
"epoch": 1.5248,
"grad_norm": 0.3691389262676239,
"learning_rate": 2.6583822798511428e-06,
"loss": 0.6226,
"step": 358
},
{
"epoch": 1.5290666666666666,
"grad_norm": 0.3559889793395996,
"learning_rate": 2.6466642769674065e-06,
"loss": 0.6407,
"step": 359
},
{
"epoch": 1.5333333333333332,
"grad_norm": 0.3588290810585022,
"learning_rate": 2.634943039852509e-06,
"loss": 0.6327,
"step": 360
},
{
"epoch": 1.5375999999999999,
"grad_norm": 0.35324448347091675,
"learning_rate": 2.623218826982411e-06,
"loss": 0.6525,
"step": 361
},
{
"epoch": 1.5418666666666667,
"grad_norm": 0.3669818043708801,
"learning_rate": 2.6114918968987e-06,
"loss": 0.6379,
"step": 362
},
{
"epoch": 1.5461333333333334,
"grad_norm": 0.3631032407283783,
"learning_rate": 2.59976250820288e-06,
"loss": 0.6324,
"step": 363
},
{
"epoch": 1.5504,
"grad_norm": 0.3435375988483429,
"learning_rate": 2.5880309195506714e-06,
"loss": 0.638,
"step": 364
},
{
"epoch": 1.5546666666666666,
"grad_norm": 0.3883386552333832,
"learning_rate": 2.5762973896463124e-06,
"loss": 0.662,
"step": 365
},
{
"epoch": 1.5589333333333333,
"grad_norm": 0.3442463278770447,
"learning_rate": 2.564562177236844e-06,
"loss": 0.5799,
"step": 366
},
{
"epoch": 1.5632000000000001,
"grad_norm": 0.3552541434764862,
"learning_rate": 2.552825541106414e-06,
"loss": 0.5965,
"step": 367
},
{
"epoch": 1.5674666666666668,
"grad_norm": 0.364967405796051,
"learning_rate": 2.541087740070563e-06,
"loss": 0.6378,
"step": 368
},
{
"epoch": 1.5717333333333334,
"grad_norm": 0.37892046570777893,
"learning_rate": 2.5293490329705215e-06,
"loss": 0.6359,
"step": 369
},
{
"epoch": 1.576,
"grad_norm": 0.36757996678352356,
"learning_rate": 2.517609678667501e-06,
"loss": 0.643,
"step": 370
},
{
"epoch": 1.5802666666666667,
"grad_norm": 0.349754273891449,
"learning_rate": 2.5058699360369842e-06,
"loss": 0.6362,
"step": 371
},
{
"epoch": 1.5845333333333333,
"grad_norm": 0.3402039706707001,
"learning_rate": 2.494130063963016e-06,
"loss": 0.623,
"step": 372
},
{
"epoch": 1.5888,
"grad_norm": 0.3724100887775421,
"learning_rate": 2.4823903213324995e-06,
"loss": 0.6774,
"step": 373
},
{
"epoch": 1.5930666666666666,
"grad_norm": 0.35909926891326904,
"learning_rate": 2.4706509670294793e-06,
"loss": 0.6353,
"step": 374
},
{
"epoch": 1.5973333333333333,
"grad_norm": 0.3708135783672333,
"learning_rate": 2.458912259929438e-06,
"loss": 0.6386,
"step": 375
},
{
"epoch": 1.6016,
"grad_norm": 0.3670898377895355,
"learning_rate": 2.447174458893587e-06,
"loss": 0.6226,
"step": 376
},
{
"epoch": 1.6058666666666666,
"grad_norm": 0.3384304344654083,
"learning_rate": 2.4354378227631566e-06,
"loss": 0.6095,
"step": 377
},
{
"epoch": 1.6101333333333332,
"grad_norm": 0.3360144793987274,
"learning_rate": 2.423702610353689e-06,
"loss": 0.5713,
"step": 378
},
{
"epoch": 1.6143999999999998,
"grad_norm": 0.36030176281929016,
"learning_rate": 2.4119690804493285e-06,
"loss": 0.6171,
"step": 379
},
{
"epoch": 1.6186666666666667,
"grad_norm": 0.3754883110523224,
"learning_rate": 2.400237491797121e-06,
"loss": 0.6334,
"step": 380
},
{
"epoch": 1.6229333333333333,
"grad_norm": 0.37145912647247314,
"learning_rate": 2.3885081031013013e-06,
"loss": 0.6313,
"step": 381
},
{
"epoch": 1.6272,
"grad_norm": 0.3442709743976593,
"learning_rate": 2.376781173017589e-06,
"loss": 0.616,
"step": 382
},
{
"epoch": 1.6314666666666666,
"grad_norm": 0.36108705401420593,
"learning_rate": 2.365056960147492e-06,
"loss": 0.6034,
"step": 383
},
{
"epoch": 1.6357333333333335,
"grad_norm": 0.3905346989631653,
"learning_rate": 2.353335723032594e-06,
"loss": 0.6408,
"step": 384
},
{
"epoch": 1.6400000000000001,
"grad_norm": 0.3625428378582001,
"learning_rate": 2.3416177201488585e-06,
"loss": 0.6241,
"step": 385
},
{
"epoch": 1.6442666666666668,
"grad_norm": 0.3429667353630066,
"learning_rate": 2.3299032099009276e-06,
"loss": 0.6253,
"step": 386
},
{
"epoch": 1.6485333333333334,
"grad_norm": 0.3611001968383789,
"learning_rate": 2.318192450616426e-06,
"loss": 0.596,
"step": 387
},
{
"epoch": 1.6528,
"grad_norm": 0.3439117968082428,
"learning_rate": 2.3064857005402606e-06,
"loss": 0.615,
"step": 388
},
{
"epoch": 1.6570666666666667,
"grad_norm": 0.3314322829246521,
"learning_rate": 2.294783217828927e-06,
"loss": 0.5785,
"step": 389
},
{
"epoch": 1.6613333333333333,
"grad_norm": 0.3500496745109558,
"learning_rate": 2.2830852605448197e-06,
"loss": 0.6063,
"step": 390
},
{
"epoch": 1.6656,
"grad_norm": 0.34801536798477173,
"learning_rate": 2.2713920866505364e-06,
"loss": 0.6257,
"step": 391
},
{
"epoch": 1.6698666666666666,
"grad_norm": 0.36531272530555725,
"learning_rate": 2.259703954003192e-06,
"loss": 0.5923,
"step": 392
},
{
"epoch": 1.6741333333333333,
"grad_norm": 0.3721877634525299,
"learning_rate": 2.2480211203487335e-06,
"loss": 0.6449,
"step": 393
},
{
"epoch": 1.6784,
"grad_norm": 0.3649953305721283,
"learning_rate": 2.236343843316254e-06,
"loss": 0.6161,
"step": 394
},
{
"epoch": 1.6826666666666665,
"grad_norm": 0.36439573764801025,
"learning_rate": 2.2246723804123126e-06,
"loss": 0.6068,
"step": 395
},
{
"epoch": 1.6869333333333332,
"grad_norm": 0.3658572733402252,
"learning_rate": 2.213006989015254e-06,
"loss": 0.5915,
"step": 396
},
{
"epoch": 1.6912,
"grad_norm": 0.3674871027469635,
"learning_rate": 2.201347926369537e-06,
"loss": 0.6394,
"step": 397
},
{
"epoch": 1.6954666666666667,
"grad_norm": 0.3523310124874115,
"learning_rate": 2.189695449580058e-06,
"loss": 0.6258,
"step": 398
},
{
"epoch": 1.6997333333333333,
"grad_norm": 0.35189226269721985,
"learning_rate": 2.178049815606482e-06,
"loss": 0.6281,
"step": 399
},
{
"epoch": 1.704,
"grad_norm": 0.36279675364494324,
"learning_rate": 2.166411281257578e-06,
"loss": 0.6225,
"step": 400
},
{
"epoch": 1.7082666666666668,
"grad_norm": 0.3660772442817688,
"learning_rate": 2.154780103185553e-06,
"loss": 0.5899,
"step": 401
},
{
"epoch": 1.7125333333333335,
"grad_norm": 0.3713538944721222,
"learning_rate": 2.1431565378803953e-06,
"loss": 0.6673,
"step": 402
},
{
"epoch": 1.7168,
"grad_norm": 0.34312623739242554,
"learning_rate": 2.1315408416642145e-06,
"loss": 0.6076,
"step": 403
},
{
"epoch": 1.7210666666666667,
"grad_norm": 0.361995667219162,
"learning_rate": 2.119933270685596e-06,
"loss": 0.6847,
"step": 404
},
{
"epoch": 1.7253333333333334,
"grad_norm": 0.3452853262424469,
"learning_rate": 2.1083340809139436e-06,
"loss": 0.622,
"step": 405
},
{
"epoch": 1.7296,
"grad_norm": 0.3667498826980591,
"learning_rate": 2.09674352813384e-06,
"loss": 0.626,
"step": 406
},
{
"epoch": 1.7338666666666667,
"grad_norm": 0.3574604392051697,
"learning_rate": 2.085161867939409e-06,
"loss": 0.643,
"step": 407
},
{
"epoch": 1.7381333333333333,
"grad_norm": 0.34958869218826294,
"learning_rate": 2.0735893557286715e-06,
"loss": 0.6257,
"step": 408
},
{
"epoch": 1.7424,
"grad_norm": 0.34016844630241394,
"learning_rate": 2.062026246697919e-06,
"loss": 0.6227,
"step": 409
},
{
"epoch": 1.7466666666666666,
"grad_norm": 0.333670973777771,
"learning_rate": 2.0504727958360865e-06,
"loss": 0.6102,
"step": 410
},
{
"epoch": 1.7509333333333332,
"grad_norm": 0.33881455659866333,
"learning_rate": 2.038929257919125e-06,
"loss": 0.6216,
"step": 411
},
{
"epoch": 1.7551999999999999,
"grad_norm": 0.3591978847980499,
"learning_rate": 2.0273958875043877e-06,
"loss": 0.5926,
"step": 412
},
{
"epoch": 1.7594666666666665,
"grad_norm": 0.3602572977542877,
"learning_rate": 2.015872938925013e-06,
"loss": 0.65,
"step": 413
},
{
"epoch": 1.7637333333333334,
"grad_norm": 0.35508790612220764,
"learning_rate": 2.0043606662843194e-06,
"loss": 0.6307,
"step": 414
},
{
"epoch": 1.768,
"grad_norm": 0.3617687225341797,
"learning_rate": 1.992859323450201e-06,
"loss": 0.5987,
"step": 415
},
{
"epoch": 1.7722666666666667,
"grad_norm": 0.37263643741607666,
"learning_rate": 1.9813691640495236e-06,
"loss": 0.6138,
"step": 416
},
{
"epoch": 1.7765333333333333,
"grad_norm": 0.373625248670578,
"learning_rate": 1.9698904414625443e-06,
"loss": 0.6368,
"step": 417
},
{
"epoch": 1.7808000000000002,
"grad_norm": 0.3303409814834595,
"learning_rate": 1.958423408817309e-06,
"loss": 0.6153,
"step": 418
},
{
"epoch": 1.7850666666666668,
"grad_norm": 0.3457784056663513,
"learning_rate": 1.9469683189840823e-06,
"loss": 0.6036,
"step": 419
},
{
"epoch": 1.7893333333333334,
"grad_norm": 0.36308011412620544,
"learning_rate": 1.935525424569765e-06,
"loss": 0.615,
"step": 420
},
{
"epoch": 1.7936,
"grad_norm": 0.34869521856307983,
"learning_rate": 1.924094977912326e-06,
"loss": 0.6337,
"step": 421
},
{
"epoch": 1.7978666666666667,
"grad_norm": 0.3418169915676117,
"learning_rate": 1.912677231075236e-06,
"loss": 0.6089,
"step": 422
},
{
"epoch": 1.8021333333333334,
"grad_norm": 0.37303951382637024,
"learning_rate": 1.901272435841911e-06,
"loss": 0.6467,
"step": 423
},
{
"epoch": 1.8064,
"grad_norm": 0.33986544609069824,
"learning_rate": 1.8898808437101598e-06,
"loss": 0.6276,
"step": 424
},
{
"epoch": 1.8106666666666666,
"grad_norm": 0.36087459325790405,
"learning_rate": 1.8785027058866358e-06,
"loss": 0.6157,
"step": 425
},
{
"epoch": 1.8149333333333333,
"grad_norm": 0.3607085943222046,
"learning_rate": 1.8671382732812976e-06,
"loss": 0.6463,
"step": 426
},
{
"epoch": 1.8192,
"grad_norm": 0.3519996702671051,
"learning_rate": 1.8557877965018817e-06,
"loss": 0.5965,
"step": 427
},
{
"epoch": 1.8234666666666666,
"grad_norm": 0.3577191233634949,
"learning_rate": 1.8444515258483684e-06,
"loss": 0.6493,
"step": 428
},
{
"epoch": 1.8277333333333332,
"grad_norm": 0.34583061933517456,
"learning_rate": 1.8331297113074647e-06,
"loss": 0.6166,
"step": 429
},
{
"epoch": 1.8319999999999999,
"grad_norm": 0.3553761839866638,
"learning_rate": 1.8218226025470934e-06,
"loss": 0.6197,
"step": 430
},
{
"epoch": 1.8362666666666667,
"grad_norm": 0.36136338114738464,
"learning_rate": 1.810530448910888e-06,
"loss": 0.6486,
"step": 431
},
{
"epoch": 1.8405333333333334,
"grad_norm": 0.3319532871246338,
"learning_rate": 1.7992534994126904e-06,
"loss": 0.5983,
"step": 432
},
{
"epoch": 1.8448,
"grad_norm": 0.3669814169406891,
"learning_rate": 1.7879920027310621e-06,
"loss": 0.6314,
"step": 433
},
{
"epoch": 1.8490666666666666,
"grad_norm": 0.34887489676475525,
"learning_rate": 1.7767462072038017e-06,
"loss": 0.5914,
"step": 434
},
{
"epoch": 1.8533333333333335,
"grad_norm": 0.3559891879558563,
"learning_rate": 1.7655163608224649e-06,
"loss": 0.6388,
"step": 435
},
{
"epoch": 1.8576000000000001,
"grad_norm": 0.3565674126148224,
"learning_rate": 1.7543027112268994e-06,
"loss": 0.654,
"step": 436
},
{
"epoch": 1.8618666666666668,
"grad_norm": 0.34790274500846863,
"learning_rate": 1.7431055056997803e-06,
"loss": 0.6008,
"step": 437
},
{
"epoch": 1.8661333333333334,
"grad_norm": 0.3522760272026062,
"learning_rate": 1.731924991161163e-06,
"loss": 0.6389,
"step": 438
},
{
"epoch": 1.8704,
"grad_norm": 0.3217763602733612,
"learning_rate": 1.7207614141630304e-06,
"loss": 0.6068,
"step": 439
},
{
"epoch": 1.8746666666666667,
"grad_norm": 0.3468863070011139,
"learning_rate": 1.7096150208838613e-06,
"loss": 0.6374,
"step": 440
},
{
"epoch": 1.8789333333333333,
"grad_norm": 0.343654066324234,
"learning_rate": 1.698486057123201e-06,
"loss": 0.6164,
"step": 441
},
{
"epoch": 1.8832,
"grad_norm": 0.35105621814727783,
"learning_rate": 1.6873747682962393e-06,
"loss": 0.6569,
"step": 442
},
{
"epoch": 1.8874666666666666,
"grad_norm": 0.3443906307220459,
"learning_rate": 1.6762813994283993e-06,
"loss": 0.6269,
"step": 443
},
{
"epoch": 1.8917333333333333,
"grad_norm": 0.33432722091674805,
"learning_rate": 1.665206195149936e-06,
"loss": 0.6265,
"step": 444
},
{
"epoch": 1.896,
"grad_norm": 0.33422231674194336,
"learning_rate": 1.6541493996905378e-06,
"loss": 0.6022,
"step": 445
},
{
"epoch": 1.9002666666666665,
"grad_norm": 0.32642269134521484,
"learning_rate": 1.6431112568739448e-06,
"loss": 0.5939,
"step": 446
},
{
"epoch": 1.9045333333333332,
"grad_norm": 0.3520292639732361,
"learning_rate": 1.6320920101125673e-06,
"loss": 0.6236,
"step": 447
},
{
"epoch": 1.9088,
"grad_norm": 0.3316883146762848,
"learning_rate": 1.6210919024021258e-06,
"loss": 0.6398,
"step": 448
},
{
"epoch": 1.9130666666666667,
"grad_norm": 0.34300458431243896,
"learning_rate": 1.6101111763162842e-06,
"loss": 0.6361,
"step": 449
},
{
"epoch": 1.9173333333333333,
"grad_norm": 0.3536739945411682,
"learning_rate": 1.5991500740013032e-06,
"loss": 0.6325,
"step": 450
},
{
"epoch": 1.9216,
"grad_norm": 0.3418213427066803,
"learning_rate": 1.588208837170706e-06,
"loss": 0.6248,
"step": 451
},
{
"epoch": 1.9258666666666666,
"grad_norm": 0.35811057686805725,
"learning_rate": 1.5772877070999388e-06,
"loss": 0.66,
"step": 452
},
{
"epoch": 1.9301333333333335,
"grad_norm": 0.3446464538574219,
"learning_rate": 1.5663869246210568e-06,
"loss": 0.6601,
"step": 453
},
{
"epoch": 1.9344000000000001,
"grad_norm": 0.352630078792572,
"learning_rate": 1.55550673011741e-06,
"loss": 0.6057,
"step": 454
},
{
"epoch": 1.9386666666666668,
"grad_norm": 0.3361312747001648,
"learning_rate": 1.5446473635183469e-06,
"loss": 0.6151,
"step": 455
},
{
"epoch": 1.9429333333333334,
"grad_norm": 0.34577980637550354,
"learning_rate": 1.5338090642939171e-06,
"loss": 0.5807,
"step": 456
},
{
"epoch": 1.9472,
"grad_norm": 0.3399719297885895,
"learning_rate": 1.522992071449595e-06,
"loss": 0.646,
"step": 457
},
{
"epoch": 1.9514666666666667,
"grad_norm": 0.33490023016929626,
"learning_rate": 1.512196623521009e-06,
"loss": 0.618,
"step": 458
},
{
"epoch": 1.9557333333333333,
"grad_norm": 0.36129286885261536,
"learning_rate": 1.501422958568679e-06,
"loss": 0.6313,
"step": 459
},
{
"epoch": 1.96,
"grad_norm": 0.3402632176876068,
"learning_rate": 1.4906713141727677e-06,
"loss": 0.5889,
"step": 460
},
{
"epoch": 1.9642666666666666,
"grad_norm": 0.36346685886383057,
"learning_rate": 1.4799419274278454e-06,
"loss": 0.6268,
"step": 461
},
{
"epoch": 1.9685333333333332,
"grad_norm": 0.36655858159065247,
"learning_rate": 1.469235034937653e-06,
"loss": 0.6135,
"step": 462
},
{
"epoch": 1.9727999999999999,
"grad_norm": 0.3634871542453766,
"learning_rate": 1.4585508728098935e-06,
"loss": 0.6415,
"step": 463
},
{
"epoch": 1.9770666666666665,
"grad_norm": 0.3393765091896057,
"learning_rate": 1.4478896766510187e-06,
"loss": 0.5915,
"step": 464
},
{
"epoch": 1.9813333333333332,
"grad_norm": 0.35128340125083923,
"learning_rate": 1.4372516815610405e-06,
"loss": 0.6186,
"step": 465
},
{
"epoch": 1.9856,
"grad_norm": 0.33152270317077637,
"learning_rate": 1.4266371221283367e-06,
"loss": 0.5733,
"step": 466
},
{
"epoch": 1.9898666666666667,
"grad_norm": 0.36451447010040283,
"learning_rate": 1.4160462324244864e-06,
"loss": 0.6342,
"step": 467
},
{
"epoch": 1.9941333333333333,
"grad_norm": 0.34968507289886475,
"learning_rate": 1.4054792459991073e-06,
"loss": 0.6182,
"step": 468
},
{
"epoch": 1.9984,
"grad_norm": 0.33991050720214844,
"learning_rate": 1.3949363958747004e-06,
"loss": 0.612,
"step": 469
},
{
"epoch": 2.0,
"grad_norm": 0.5291548371315002,
"learning_rate": 1.3844179145415158e-06,
"loss": 0.6129,
"step": 470
},
{
"epoch": 2.0042666666666666,
"grad_norm": 0.3454642593860626,
"learning_rate": 1.373924033952424e-06,
"loss": 0.6203,
"step": 471
},
{
"epoch": 2.0085333333333333,
"grad_norm": 0.3359213173389435,
"learning_rate": 1.363454985517803e-06,
"loss": 0.5775,
"step": 472
},
{
"epoch": 2.0128,
"grad_norm": 0.3395461142063141,
"learning_rate": 1.3530110001004315e-06,
"loss": 0.6245,
"step": 473
},
{
"epoch": 2.0170666666666666,
"grad_norm": 0.33210253715515137,
"learning_rate": 1.3425923080104008e-06,
"loss": 0.655,
"step": 474
},
{
"epoch": 2.021333333333333,
"grad_norm": 0.3711182773113251,
"learning_rate": 1.3321991390000382e-06,
"loss": 0.6177,
"step": 475
},
{
"epoch": 2.0256,
"grad_norm": 0.37890559434890747,
"learning_rate": 1.3218317222588356e-06,
"loss": 0.5875,
"step": 476
},
{
"epoch": 2.0298666666666665,
"grad_norm": 0.34380125999450684,
"learning_rate": 1.3114902864083937e-06,
"loss": 0.5857,
"step": 477
},
{
"epoch": 2.034133333333333,
"grad_norm": 0.34623777866363525,
"learning_rate": 1.301175059497391e-06,
"loss": 0.6143,
"step": 478
},
{
"epoch": 2.0384,
"grad_norm": 0.3658795952796936,
"learning_rate": 1.2908862689965446e-06,
"loss": 0.6113,
"step": 479
},
{
"epoch": 2.042666666666667,
"grad_norm": 0.35803937911987305,
"learning_rate": 1.2806241417935975e-06,
"loss": 0.6164,
"step": 480
},
{
"epoch": 2.0469333333333335,
"grad_norm": 0.3726085126399994,
"learning_rate": 1.270388904188316e-06,
"loss": 0.6031,
"step": 481
},
{
"epoch": 2.0512,
"grad_norm": 0.3445771634578705,
"learning_rate": 1.2601807818874994e-06,
"loss": 0.6445,
"step": 482
},
{
"epoch": 2.0554666666666668,
"grad_norm": 0.3538333475589752,
"learning_rate": 1.2500000000000007e-06,
"loss": 0.6456,
"step": 483
},
{
"epoch": 2.0597333333333334,
"grad_norm": 0.3596368134021759,
"learning_rate": 1.2398467830317635e-06,
"loss": 0.628,
"step": 484
},
{
"epoch": 2.064,
"grad_norm": 0.3321940004825592,
"learning_rate": 1.229721354880875e-06,
"loss": 0.6237,
"step": 485
},
{
"epoch": 2.0682666666666667,
"grad_norm": 0.3428746163845062,
"learning_rate": 1.219623938832622e-06,
"loss": 0.6196,
"step": 486
},
{
"epoch": 2.0725333333333333,
"grad_norm": 0.34215423464775085,
"learning_rate": 1.2095547575545685e-06,
"loss": 0.5942,
"step": 487
},
{
"epoch": 2.0768,
"grad_norm": 0.35768529772758484,
"learning_rate": 1.199514033091653e-06,
"loss": 0.6276,
"step": 488
},
{
"epoch": 2.0810666666666666,
"grad_norm": 0.3465723991394043,
"learning_rate": 1.1895019868612815e-06,
"loss": 0.6087,
"step": 489
},
{
"epoch": 2.0853333333333333,
"grad_norm": 0.3426065146923065,
"learning_rate": 1.1795188396484505e-06,
"loss": 0.5751,
"step": 490
},
{
"epoch": 2.0896,
"grad_norm": 0.3264654278755188,
"learning_rate": 1.1695648116008781e-06,
"loss": 0.5953,
"step": 491
},
{
"epoch": 2.0938666666666665,
"grad_norm": 0.33921313285827637,
"learning_rate": 1.1596401222241473e-06,
"loss": 0.6169,
"step": 492
},
{
"epoch": 2.098133333333333,
"grad_norm": 0.3380139470100403,
"learning_rate": 1.149744990376868e-06,
"loss": 0.5793,
"step": 493
},
{
"epoch": 2.1024,
"grad_norm": 0.33891841769218445,
"learning_rate": 1.139879634265847e-06,
"loss": 0.6119,
"step": 494
},
{
"epoch": 2.1066666666666665,
"grad_norm": 0.33831652998924255,
"learning_rate": 1.1300442714412819e-06,
"loss": 0.6114,
"step": 495
},
{
"epoch": 2.1109333333333336,
"grad_norm": 0.3383654057979584,
"learning_rate": 1.1202391187919575e-06,
"loss": 0.61,
"step": 496
},
{
"epoch": 2.1152,
"grad_norm": 0.32236188650131226,
"learning_rate": 1.1104643925404678e-06,
"loss": 0.5775,
"step": 497
},
{
"epoch": 2.119466666666667,
"grad_norm": 0.359540194272995,
"learning_rate": 1.1007203082384424e-06,
"loss": 0.5865,
"step": 498
},
{
"epoch": 2.1237333333333335,
"grad_norm": 0.3443056344985962,
"learning_rate": 1.0910070807618012e-06,
"loss": 0.5759,
"step": 499
},
{
"epoch": 2.128,
"grad_norm": 0.35354653000831604,
"learning_rate": 1.0813249243060081e-06,
"loss": 0.5905,
"step": 500
},
{
"epoch": 2.1322666666666668,
"grad_norm": 0.3386101722717285,
"learning_rate": 1.0716740523813524e-06,
"loss": 0.6143,
"step": 501
},
{
"epoch": 2.1365333333333334,
"grad_norm": 0.3504805564880371,
"learning_rate": 1.062054677808238e-06,
"loss": 0.6194,
"step": 502
},
{
"epoch": 2.1408,
"grad_norm": 0.35748982429504395,
"learning_rate": 1.0524670127124918e-06,
"loss": 0.6312,
"step": 503
},
{
"epoch": 2.1450666666666667,
"grad_norm": 0.3584182560443878,
"learning_rate": 1.0429112685206843e-06,
"loss": 0.622,
"step": 504
},
{
"epoch": 2.1493333333333333,
"grad_norm": 0.34925296902656555,
"learning_rate": 1.033387655955471e-06,
"loss": 0.6289,
"step": 505
},
{
"epoch": 2.1536,
"grad_norm": 0.3288041353225708,
"learning_rate": 1.0238963850309406e-06,
"loss": 0.5748,
"step": 506
},
{
"epoch": 2.1578666666666666,
"grad_norm": 0.355558305978775,
"learning_rate": 1.0144376650479867e-06,
"loss": 0.6296,
"step": 507
},
{
"epoch": 2.1621333333333332,
"grad_norm": 0.36249178647994995,
"learning_rate": 1.0050117045896889e-06,
"loss": 0.6366,
"step": 508
},
{
"epoch": 2.1664,
"grad_norm": 0.3458845615386963,
"learning_rate": 9.956187115167215e-07,
"loss": 0.6318,
"step": 509
},
{
"epoch": 2.1706666666666665,
"grad_norm": 0.34122511744499207,
"learning_rate": 9.8625889296276e-07,
"loss": 0.5991,
"step": 510
},
{
"epoch": 2.174933333333333,
"grad_norm": 0.3294980525970459,
"learning_rate": 9.769324553299174e-07,
"loss": 0.6074,
"step": 511
},
{
"epoch": 2.1792,
"grad_norm": 0.35011374950408936,
"learning_rate": 9.67639604284197e-07,
"loss": 0.6041,
"step": 512
},
{
"epoch": 2.183466666666667,
"grad_norm": 0.3691865801811218,
"learning_rate": 9.58380544750947e-07,
"loss": 0.6238,
"step": 513
},
{
"epoch": 2.1877333333333335,
"grad_norm": 0.35375744104385376,
"learning_rate": 9.491554809103509e-07,
"loss": 0.6299,
"step": 514
},
{
"epoch": 2.192,
"grad_norm": 0.34152060747146606,
"learning_rate": 9.399646161929202e-07,
"loss": 0.6286,
"step": 515
},
{
"epoch": 2.196266666666667,
"grad_norm": 0.36606308817863464,
"learning_rate": 9.308081532750116e-07,
"loss": 0.612,
"step": 516
},
{
"epoch": 2.2005333333333335,
"grad_norm": 0.34242525696754456,
"learning_rate": 9.216862940743529e-07,
"loss": 0.641,
"step": 517
},
{
"epoch": 2.2048,
"grad_norm": 0.33378395438194275,
"learning_rate": 9.125992397455943e-07,
"loss": 0.5533,
"step": 518
},
{
"epoch": 2.2090666666666667,
"grad_norm": 0.3290783166885376,
"learning_rate": 9.035471906758705e-07,
"loss": 0.5853,
"step": 519
},
{
"epoch": 2.2133333333333334,
"grad_norm": 0.35453036427497864,
"learning_rate": 8.945303464803833e-07,
"loss": 0.645,
"step": 520
},
{
"epoch": 2.2176,
"grad_norm": 0.35501500964164734,
"learning_rate": 8.855489059979977e-07,
"loss": 0.6475,
"step": 521
},
{
"epoch": 2.2218666666666667,
"grad_norm": 0.33805051445961,
"learning_rate": 8.766030672868614e-07,
"loss": 0.595,
"step": 522
},
{
"epoch": 2.2261333333333333,
"grad_norm": 0.3185022175312042,
"learning_rate": 8.676930276200294e-07,
"loss": 0.5749,
"step": 523
},
{
"epoch": 2.2304,
"grad_norm": 0.35385066270828247,
"learning_rate": 8.588189834811217e-07,
"loss": 0.6604,
"step": 524
},
{
"epoch": 2.2346666666666666,
"grad_norm": 0.34080225229263306,
"learning_rate": 8.499811305599858e-07,
"loss": 0.6281,
"step": 525
},
{
"epoch": 2.238933333333333,
"grad_norm": 0.32432180643081665,
"learning_rate": 8.411796637483852e-07,
"loss": 0.6241,
"step": 526
},
{
"epoch": 2.2432,
"grad_norm": 0.3203832507133484,
"learning_rate": 8.324147771356964e-07,
"loss": 0.6222,
"step": 527
},
{
"epoch": 2.2474666666666665,
"grad_norm": 0.32758456468582153,
"learning_rate": 8.236866640046329e-07,
"loss": 0.6351,
"step": 528
},
{
"epoch": 2.251733333333333,
"grad_norm": 0.3457350730895996,
"learning_rate": 8.149955168269822e-07,
"loss": 0.6175,
"step": 529
},
{
"epoch": 2.2560000000000002,
"grad_norm": 0.34189313650131226,
"learning_rate": 8.0634152725936e-07,
"loss": 0.6246,
"step": 530
},
{
"epoch": 2.2602666666666664,
"grad_norm": 0.35133737325668335,
"learning_rate": 7.977248861389853e-07,
"loss": 0.6176,
"step": 531
},
{
"epoch": 2.2645333333333335,
"grad_norm": 0.3272813856601715,
"learning_rate": 7.891457834794711e-07,
"loss": 0.5574,
"step": 532
},
{
"epoch": 2.2688,
"grad_norm": 0.3326052725315094,
"learning_rate": 7.80604408466637e-07,
"loss": 0.5754,
"step": 533
},
{
"epoch": 2.273066666666667,
"grad_norm": 0.3340674340724945,
"learning_rate": 7.721009494543314e-07,
"loss": 0.603,
"step": 534
},
{
"epoch": 2.2773333333333334,
"grad_norm": 0.3468780517578125,
"learning_rate": 7.636355939602824e-07,
"loss": 0.6316,
"step": 535
},
{
"epoch": 2.2816,
"grad_norm": 0.3622860312461853,
"learning_rate": 7.55208528661965e-07,
"loss": 0.5903,
"step": 536
},
{
"epoch": 2.2858666666666667,
"grad_norm": 0.33696678280830383,
"learning_rate": 7.468199393924775e-07,
"loss": 0.6157,
"step": 537
},
{
"epoch": 2.2901333333333334,
"grad_norm": 0.34255290031433105,
"learning_rate": 7.384700111364487e-07,
"loss": 0.6159,
"step": 538
},
{
"epoch": 2.2944,
"grad_norm": 0.34535640478134155,
"learning_rate": 7.301589280259572e-07,
"loss": 0.6059,
"step": 539
},
{
"epoch": 2.2986666666666666,
"grad_norm": 0.3281169533729553,
"learning_rate": 7.218868733364712e-07,
"loss": 0.5943,
"step": 540
},
{
"epoch": 2.3029333333333333,
"grad_norm": 0.34532874822616577,
"learning_rate": 7.136540294828062e-07,
"loss": 0.5923,
"step": 541
},
{
"epoch": 2.3072,
"grad_norm": 0.3486146926879883,
"learning_rate": 7.054605780151022e-07,
"loss": 0.6401,
"step": 542
},
{
"epoch": 2.3114666666666666,
"grad_norm": 0.33802080154418945,
"learning_rate": 6.973066996148245e-07,
"loss": 0.5979,
"step": 543
},
{
"epoch": 2.315733333333333,
"grad_norm": 0.33193105459213257,
"learning_rate": 6.891925740907701e-07,
"loss": 0.6044,
"step": 544
},
{
"epoch": 2.32,
"grad_norm": 0.3354455828666687,
"learning_rate": 6.811183803751112e-07,
"loss": 0.5764,
"step": 545
},
{
"epoch": 2.3242666666666665,
"grad_norm": 0.32878172397613525,
"learning_rate": 6.730842965194479e-07,
"loss": 0.5584,
"step": 546
},
{
"epoch": 2.3285333333333336,
"grad_norm": 0.33991891145706177,
"learning_rate": 6.650904996908772e-07,
"loss": 0.6111,
"step": 547
},
{
"epoch": 2.3327999999999998,
"grad_norm": 0.32996976375579834,
"learning_rate": 6.571371661680909e-07,
"loss": 0.5858,
"step": 548
},
{
"epoch": 2.337066666666667,
"grad_norm": 0.3353066146373749,
"learning_rate": 6.492244713374857e-07,
"loss": 0.6115,
"step": 549
},
{
"epoch": 2.3413333333333335,
"grad_norm": 0.31983545422554016,
"learning_rate": 6.413525896892972e-07,
"loss": 0.6009,
"step": 550
},
{
"epoch": 2.3456,
"grad_norm": 0.33389580249786377,
"learning_rate": 6.335216948137513e-07,
"loss": 0.5975,
"step": 551
},
{
"epoch": 2.3498666666666668,
"grad_norm": 0.34626585245132446,
"learning_rate": 6.257319593972347e-07,
"loss": 0.5625,
"step": 552
},
{
"epoch": 2.3541333333333334,
"grad_norm": 0.3237454891204834,
"learning_rate": 6.179835552184924e-07,
"loss": 0.6048,
"step": 553
},
{
"epoch": 2.3584,
"grad_norm": 0.3444509208202362,
"learning_rate": 6.1027665314483e-07,
"loss": 0.5843,
"step": 554
},
{
"epoch": 2.3626666666666667,
"grad_norm": 0.3375681936740875,
"learning_rate": 6.02611423128355e-07,
"loss": 0.6234,
"step": 555
},
{
"epoch": 2.3669333333333333,
"grad_norm": 0.35530391335487366,
"learning_rate": 5.949880342022258e-07,
"loss": 0.6244,
"step": 556
},
{
"epoch": 2.3712,
"grad_norm": 0.35115307569503784,
"learning_rate": 5.874066544769217e-07,
"loss": 0.616,
"step": 557
},
{
"epoch": 2.3754666666666666,
"grad_norm": 0.31733638048171997,
"learning_rate": 5.79867451136539e-07,
"loss": 0.6113,
"step": 558
},
{
"epoch": 2.3797333333333333,
"grad_norm": 0.3279070556163788,
"learning_rate": 5.723705904351027e-07,
"loss": 0.6109,
"step": 559
},
{
"epoch": 2.384,
"grad_norm": 0.3417271673679352,
"learning_rate": 5.649162376929004e-07,
"loss": 0.5966,
"step": 560
},
{
"epoch": 2.3882666666666665,
"grad_norm": 0.3424253463745117,
"learning_rate": 5.575045572928378e-07,
"loss": 0.583,
"step": 561
},
{
"epoch": 2.392533333333333,
"grad_norm": 0.3309208154678345,
"learning_rate": 5.501357126768117e-07,
"loss": 0.6015,
"step": 562
},
{
"epoch": 2.3968,
"grad_norm": 0.34883973002433777,
"learning_rate": 5.428098663421086e-07,
"loss": 0.6008,
"step": 563
},
{
"epoch": 2.401066666666667,
"grad_norm": 0.34529733657836914,
"learning_rate": 5.355271798378189e-07,
"loss": 0.6182,
"step": 564
},
{
"epoch": 2.405333333333333,
"grad_norm": 0.34527671337127686,
"learning_rate": 5.282878137612738e-07,
"loss": 0.6188,
"step": 565
},
{
"epoch": 2.4096,
"grad_norm": 0.3241617977619171,
"learning_rate": 5.210919277545059e-07,
"loss": 0.6145,
"step": 566
},
{
"epoch": 2.413866666666667,
"grad_norm": 0.3428850769996643,
"learning_rate": 5.139396805007307e-07,
"loss": 0.6524,
"step": 567
},
{
"epoch": 2.4181333333333335,
"grad_norm": 0.3443160653114319,
"learning_rate": 5.068312297208414e-07,
"loss": 0.618,
"step": 568
},
{
"epoch": 2.4224,
"grad_norm": 0.34759387373924255,
"learning_rate": 4.99766732169936e-07,
"loss": 0.6638,
"step": 569
},
{
"epoch": 2.4266666666666667,
"grad_norm": 0.3494528830051422,
"learning_rate": 4.927463436338578e-07,
"loss": 0.6362,
"step": 570
},
{
"epoch": 2.4309333333333334,
"grad_norm": 0.33158278465270996,
"learning_rate": 4.857702189257613e-07,
"loss": 0.6511,
"step": 571
},
{
"epoch": 2.4352,
"grad_norm": 0.33719706535339355,
"learning_rate": 4.788385118826977e-07,
"loss": 0.6401,
"step": 572
},
{
"epoch": 2.4394666666666667,
"grad_norm": 0.34365832805633545,
"learning_rate": 4.71951375362224e-07,
"loss": 0.5674,
"step": 573
},
{
"epoch": 2.4437333333333333,
"grad_norm": 0.36191850900650024,
"learning_rate": 4.6510896123903027e-07,
"loss": 0.6556,
"step": 574
},
{
"epoch": 2.448,
"grad_norm": 0.32959699630737305,
"learning_rate": 4.58311420401589e-07,
"loss": 0.6102,
"step": 575
},
{
"epoch": 2.4522666666666666,
"grad_norm": 0.3538116216659546,
"learning_rate": 4.515589027488318e-07,
"loss": 0.6435,
"step": 576
},
{
"epoch": 2.4565333333333332,
"grad_norm": 0.32300877571105957,
"learning_rate": 4.4485155718684334e-07,
"loss": 0.5984,
"step": 577
},
{
"epoch": 2.4608,
"grad_norm": 0.3273656666278839,
"learning_rate": 4.381895316255741e-07,
"loss": 0.5789,
"step": 578
},
{
"epoch": 2.4650666666666665,
"grad_norm": 0.34395623207092285,
"learning_rate": 4.31572972975581e-07,
"loss": 0.6221,
"step": 579
},
{
"epoch": 2.469333333333333,
"grad_norm": 0.3349197208881378,
"learning_rate": 4.2500202714478853e-07,
"loss": 0.6468,
"step": 580
},
{
"epoch": 2.4736000000000002,
"grad_norm": 0.34170135855674744,
"learning_rate": 4.1847683903526976e-07,
"loss": 0.6236,
"step": 581
},
{
"epoch": 2.4778666666666664,
"grad_norm": 0.34563860297203064,
"learning_rate": 4.1199755254005105e-07,
"loss": 0.644,
"step": 582
},
{
"epoch": 2.4821333333333335,
"grad_norm": 0.3555491268634796,
"learning_rate": 4.05564310539939e-07,
"loss": 0.6249,
"step": 583
},
{
"epoch": 2.4864,
"grad_norm": 0.36919161677360535,
"learning_rate": 3.991772549003725e-07,
"loss": 0.6316,
"step": 584
},
{
"epoch": 2.490666666666667,
"grad_norm": 0.3386523723602295,
"learning_rate": 3.9283652646828927e-07,
"loss": 0.6206,
"step": 585
},
{
"epoch": 2.4949333333333334,
"grad_norm": 0.3346911370754242,
"learning_rate": 3.8654226506902204e-07,
"loss": 0.5803,
"step": 586
},
{
"epoch": 2.4992,
"grad_norm": 0.3344287872314453,
"learning_rate": 3.8029460950321784e-07,
"loss": 0.6229,
"step": 587
},
{
"epoch": 2.5034666666666667,
"grad_norm": 0.3264784812927246,
"learning_rate": 3.740936975437734e-07,
"loss": 0.6047,
"step": 588
},
{
"epoch": 2.5077333333333334,
"grad_norm": 0.33765143156051636,
"learning_rate": 3.679396659327986e-07,
"loss": 0.6114,
"step": 589
},
{
"epoch": 2.512,
"grad_norm": 0.3362836539745331,
"learning_rate": 3.6183265037860126e-07,
"loss": 0.6251,
"step": 590
},
{
"epoch": 2.5162666666666667,
"grad_norm": 0.3675728738307953,
"learning_rate": 3.557727855526935e-07,
"loss": 0.6128,
"step": 591
},
{
"epoch": 2.5205333333333333,
"grad_norm": 0.3262024223804474,
"learning_rate": 3.4976020508682345e-07,
"loss": 0.6194,
"step": 592
},
{
"epoch": 2.5248,
"grad_norm": 0.3431658148765564,
"learning_rate": 3.437950415700264e-07,
"loss": 0.6542,
"step": 593
},
{
"epoch": 2.5290666666666666,
"grad_norm": 0.3347388207912445,
"learning_rate": 3.378774265457041e-07,
"loss": 0.6032,
"step": 594
},
{
"epoch": 2.533333333333333,
"grad_norm": 0.33215099573135376,
"learning_rate": 3.320074905087212e-07,
"loss": 0.6248,
"step": 595
},
{
"epoch": 2.5376,
"grad_norm": 0.3271443247795105,
"learning_rate": 3.261853629025258e-07,
"loss": 0.5753,
"step": 596
},
{
"epoch": 2.5418666666666665,
"grad_norm": 0.3376429080963135,
"learning_rate": 3.2041117211630166e-07,
"loss": 0.6269,
"step": 597
},
{
"epoch": 2.5461333333333336,
"grad_norm": 0.35204386711120605,
"learning_rate": 3.14685045482131e-07,
"loss": 0.6039,
"step": 598
},
{
"epoch": 2.5504,
"grad_norm": 0.32474127411842346,
"learning_rate": 3.090071092721877e-07,
"loss": 0.5955,
"step": 599
},
{
"epoch": 2.554666666666667,
"grad_norm": 0.3389427065849304,
"learning_rate": 3.033774886959548e-07,
"loss": 0.6076,
"step": 600
},
{
"epoch": 2.558933333333333,
"grad_norm": 0.3408302664756775,
"learning_rate": 2.977963078974616e-07,
"loss": 0.6078,
"step": 601
},
{
"epoch": 2.5632,
"grad_norm": 0.3243234157562256,
"learning_rate": 2.922636899525466e-07,
"loss": 0.6008,
"step": 602
},
{
"epoch": 2.567466666666667,
"grad_norm": 0.3424961566925049,
"learning_rate": 2.8677975686614264e-07,
"loss": 0.6593,
"step": 603
},
{
"epoch": 2.5717333333333334,
"grad_norm": 0.3413273096084595,
"learning_rate": 2.813446295695893e-07,
"loss": 0.5957,
"step": 604
},
{
"epoch": 2.576,
"grad_norm": 0.34058678150177,
"learning_rate": 2.759584279179617e-07,
"loss": 0.6134,
"step": 605
},
{
"epoch": 2.5802666666666667,
"grad_norm": 0.3428144156932831,
"learning_rate": 2.7062127068743116e-07,
"loss": 0.6109,
"step": 606
},
{
"epoch": 2.5845333333333333,
"grad_norm": 0.33080190420150757,
"learning_rate": 2.65333275572644e-07,
"loss": 0.5882,
"step": 607
},
{
"epoch": 2.5888,
"grad_norm": 0.35210663080215454,
"learning_rate": 2.6009455918412724e-07,
"loss": 0.6054,
"step": 608
},
{
"epoch": 2.5930666666666666,
"grad_norm": 0.3406427800655365,
"learning_rate": 2.5490523704571583e-07,
"loss": 0.6164,
"step": 609
},
{
"epoch": 2.5973333333333333,
"grad_norm": 0.3491783142089844,
"learning_rate": 2.4976542359200664e-07,
"loss": 0.5984,
"step": 610
},
{
"epoch": 2.6016,
"grad_norm": 0.33281442523002625,
"learning_rate": 2.4467523216583413e-07,
"loss": 0.6001,
"step": 611
},
{
"epoch": 2.6058666666666666,
"grad_norm": 0.35289639234542847,
"learning_rate": 2.396347750157707e-07,
"loss": 0.6258,
"step": 612
},
{
"epoch": 2.610133333333333,
"grad_norm": 0.3332329988479614,
"learning_rate": 2.3464416329365137e-07,
"loss": 0.6031,
"step": 613
},
{
"epoch": 2.6144,
"grad_norm": 0.34444907307624817,
"learning_rate": 2.297035070521242e-07,
"loss": 0.598,
"step": 614
},
{
"epoch": 2.618666666666667,
"grad_norm": 0.35094860196113586,
"learning_rate": 2.2481291524222154e-07,
"loss": 0.6277,
"step": 615
},
{
"epoch": 2.622933333333333,
"grad_norm": 0.34441515803337097,
"learning_rate": 2.1997249571095835e-07,
"loss": 0.5922,
"step": 616
},
{
"epoch": 2.6272,
"grad_norm": 0.3234129846096039,
"learning_rate": 2.151823551989518e-07,
"loss": 0.6095,
"step": 617
},
{
"epoch": 2.6314666666666664,
"grad_norm": 0.3194693326950073,
"learning_rate": 2.1044259933807293e-07,
"loss": 0.576,
"step": 618
},
{
"epoch": 2.6357333333333335,
"grad_norm": 0.3412642776966095,
"learning_rate": 2.0575333264911125e-07,
"loss": 0.6096,
"step": 619
},
{
"epoch": 2.64,
"grad_norm": 0.3499319851398468,
"learning_rate": 2.0111465853947215e-07,
"loss": 0.6403,
"step": 620
},
{
"epoch": 2.6442666666666668,
"grad_norm": 0.33573850989341736,
"learning_rate": 1.9652667930089908e-07,
"loss": 0.5974,
"step": 621
},
{
"epoch": 2.6485333333333334,
"grad_norm": 0.34437811374664307,
"learning_rate": 1.9198949610721273e-07,
"loss": 0.6193,
"step": 622
},
{
"epoch": 2.6528,
"grad_norm": 0.3286372125148773,
"learning_rate": 1.8750320901208345e-07,
"loss": 0.6061,
"step": 623
},
{
"epoch": 2.6570666666666667,
"grad_norm": 0.3341968357563019,
"learning_rate": 1.8306791694682552e-07,
"loss": 0.6014,
"step": 624
},
{
"epoch": 2.6613333333333333,
"grad_norm": 0.34197428822517395,
"learning_rate": 1.786837177182127e-07,
"loss": 0.5892,
"step": 625
},
{
"epoch": 2.6656,
"grad_norm": 0.35125383734703064,
"learning_rate": 1.7435070800632336e-07,
"loss": 0.6188,
"step": 626
},
{
"epoch": 2.6698666666666666,
"grad_norm": 0.3228970766067505,
"learning_rate": 1.7006898336240723e-07,
"loss": 0.5889,
"step": 627
},
{
"epoch": 2.6741333333333333,
"grad_norm": 0.32253357768058777,
"learning_rate": 1.6583863820678032e-07,
"loss": 0.6036,
"step": 628
},
{
"epoch": 2.6784,
"grad_norm": 0.3427412211894989,
"learning_rate": 1.616597658267402e-07,
"loss": 0.6298,
"step": 629
},
{
"epoch": 2.6826666666666665,
"grad_norm": 0.34148457646369934,
"learning_rate": 1.5753245837451054e-07,
"loss": 0.5882,
"step": 630
},
{
"epoch": 2.686933333333333,
"grad_norm": 0.33803874254226685,
"learning_rate": 1.534568068652101e-07,
"loss": 0.6303,
"step": 631
},
{
"epoch": 2.6912000000000003,
"grad_norm": 0.3265403211116791,
"learning_rate": 1.4943290117484104e-07,
"loss": 0.5489,
"step": 632
},
{
"epoch": 2.6954666666666665,
"grad_norm": 0.33894577622413635,
"learning_rate": 1.4546083003831201e-07,
"loss": 0.6069,
"step": 633
},
{
"epoch": 2.6997333333333335,
"grad_norm": 0.33138516545295715,
"learning_rate": 1.4154068104747981e-07,
"loss": 0.6033,
"step": 634
},
{
"epoch": 2.7039999999999997,
"grad_norm": 0.32515788078308105,
"learning_rate": 1.376725406492166e-07,
"loss": 0.5931,
"step": 635
},
{
"epoch": 2.708266666666667,
"grad_norm": 0.340743750333786,
"learning_rate": 1.3385649414350442e-07,
"loss": 0.6482,
"step": 636
},
{
"epoch": 2.7125333333333335,
"grad_norm": 0.348867267370224,
"learning_rate": 1.3009262568155462e-07,
"loss": 0.5972,
"step": 637
},
{
"epoch": 2.7168,
"grad_norm": 0.32340556383132935,
"learning_rate": 1.2638101826395104e-07,
"loss": 0.584,
"step": 638
},
{
"epoch": 2.7210666666666667,
"grad_norm": 0.3204813003540039,
"learning_rate": 1.227217537388209e-07,
"loss": 0.6476,
"step": 639
},
{
"epoch": 2.7253333333333334,
"grad_norm": 0.3281926214694977,
"learning_rate": 1.1911491280002907e-07,
"loss": 0.5966,
"step": 640
},
{
"epoch": 2.7296,
"grad_norm": 0.3434792757034302,
"learning_rate": 1.1556057498539913e-07,
"loss": 0.5946,
"step": 641
},
{
"epoch": 2.7338666666666667,
"grad_norm": 0.3499756455421448,
"learning_rate": 1.120588186749591e-07,
"loss": 0.6589,
"step": 642
},
{
"epoch": 2.7381333333333333,
"grad_norm": 0.32970553636550903,
"learning_rate": 1.0860972108921258e-07,
"loss": 0.6073,
"step": 643
},
{
"epoch": 2.7424,
"grad_norm": 0.3311205506324768,
"learning_rate": 1.0521335828743678e-07,
"loss": 0.5906,
"step": 644
},
{
"epoch": 2.7466666666666666,
"grad_norm": 0.34418705105781555,
"learning_rate": 1.0186980516600525e-07,
"loss": 0.6233,
"step": 645
},
{
"epoch": 2.7509333333333332,
"grad_norm": 0.32787424325942993,
"learning_rate": 9.857913545673503e-08,
"loss": 0.6237,
"step": 646
},
{
"epoch": 2.7552,
"grad_norm": 0.31942757964134216,
"learning_rate": 9.534142172526239e-08,
"loss": 0.6018,
"step": 647
},
{
"epoch": 2.7594666666666665,
"grad_norm": 0.3224412500858307,
"learning_rate": 9.215673536944108e-08,
"loss": 0.6439,
"step": 648
},
{
"epoch": 2.7637333333333336,
"grad_norm": 0.331991583108902,
"learning_rate": 8.902514661776885e-08,
"loss": 0.5759,
"step": 649
},
{
"epoch": 2.768,
"grad_norm": 0.32098379731178284,
"learning_rate": 8.594672452783892e-08,
"loss": 0.6009,
"step": 650
},
{
"epoch": 2.772266666666667,
"grad_norm": 0.33318814635276794,
"learning_rate": 8.292153698481631e-08,
"loss": 0.6401,
"step": 651
},
{
"epoch": 2.776533333333333,
"grad_norm": 0.3261711895465851,
"learning_rate": 7.994965069994143e-08,
"loss": 0.6193,
"step": 652
},
{
"epoch": 2.7808,
"grad_norm": 0.32475578784942627,
"learning_rate": 7.703113120905825e-08,
"loss": 0.6092,
"step": 653
},
{
"epoch": 2.785066666666667,
"grad_norm": 0.3446325957775116,
"learning_rate": 7.416604287117018e-08,
"loss": 0.5965,
"step": 654
},
{
"epoch": 2.7893333333333334,
"grad_norm": 0.3262110948562622,
"learning_rate": 7.135444886702064e-08,
"loss": 0.5995,
"step": 655
},
{
"epoch": 2.7936,
"grad_norm": 0.3156624734401703,
"learning_rate": 6.859641119769861e-08,
"loss": 0.6088,
"step": 656
},
{
"epoch": 2.7978666666666667,
"grad_norm": 0.33477863669395447,
"learning_rate": 6.58919906832728e-08,
"loss": 0.6326,
"step": 657
},
{
"epoch": 2.8021333333333334,
"grad_norm": 0.32477566599845886,
"learning_rate": 6.324124696144962e-08,
"loss": 0.5886,
"step": 658
},
{
"epoch": 2.8064,
"grad_norm": 0.31346455216407776,
"learning_rate": 6.064423848625822e-08,
"loss": 0.6223,
"step": 659
},
{
"epoch": 2.8106666666666666,
"grad_norm": 0.3541554808616638,
"learning_rate": 5.810102252676225e-08,
"loss": 0.6283,
"step": 660
},
{
"epoch": 2.8149333333333333,
"grad_norm": 0.31597334146499634,
"learning_rate": 5.5611655165795365e-08,
"loss": 0.6229,
"step": 661
},
{
"epoch": 2.8192,
"grad_norm": 0.325488418340683,
"learning_rate": 5.3176191298726085e-08,
"loss": 0.611,
"step": 662
},
{
"epoch": 2.8234666666666666,
"grad_norm": 0.34377193450927734,
"learning_rate": 5.0794684632246294e-08,
"loss": 0.6153,
"step": 663
},
{
"epoch": 2.827733333333333,
"grad_norm": 0.3318426311016083,
"learning_rate": 4.846718768318659e-08,
"loss": 0.5911,
"step": 664
},
{
"epoch": 2.832,
"grad_norm": 0.33121493458747864,
"learning_rate": 4.619375177736002e-08,
"loss": 0.5897,
"step": 665
},
{
"epoch": 2.836266666666667,
"grad_norm": 0.3531855642795563,
"learning_rate": 4.397442704842825e-08,
"loss": 0.6235,
"step": 666
},
{
"epoch": 2.840533333333333,
"grad_norm": 0.33835938572883606,
"learning_rate": 4.1809262436796896e-08,
"loss": 0.6011,
"step": 667
},
{
"epoch": 2.8448,
"grad_norm": 0.33475086092948914,
"learning_rate": 3.9698305688535835e-08,
"loss": 0.6189,
"step": 668
},
{
"epoch": 2.8490666666666664,
"grad_norm": 0.341691792011261,
"learning_rate": 3.764160335432726e-08,
"loss": 0.6417,
"step": 669
},
{
"epoch": 2.8533333333333335,
"grad_norm": 0.3405057489871979,
"learning_rate": 3.563920078843791e-08,
"loss": 0.6067,
"step": 670
},
{
"epoch": 2.8576,
"grad_norm": 0.3475085198879242,
"learning_rate": 3.369114214771957e-08,
"loss": 0.634,
"step": 671
},
{
"epoch": 2.861866666666667,
"grad_norm": 0.3283518850803375,
"learning_rate": 3.179747039063652e-08,
"loss": 0.5701,
"step": 672
},
{
"epoch": 2.8661333333333334,
"grad_norm": 0.31825271248817444,
"learning_rate": 2.99582272763152e-08,
"loss": 0.5646,
"step": 673
},
{
"epoch": 2.8704,
"grad_norm": 0.32577526569366455,
"learning_rate": 2.8173453363626313e-08,
"loss": 0.6118,
"step": 674
},
{
"epoch": 2.8746666666666667,
"grad_norm": 0.32733026146888733,
"learning_rate": 2.6443188010288612e-08,
"loss": 0.6049,
"step": 675
},
{
"epoch": 2.8789333333333333,
"grad_norm": 0.30781808495521545,
"learning_rate": 2.4767469372002362e-08,
"loss": 0.5807,
"step": 676
},
{
"epoch": 2.8832,
"grad_norm": 0.33830124139785767,
"learning_rate": 2.3146334401606406e-08,
"loss": 0.6324,
"step": 677
},
{
"epoch": 2.8874666666666666,
"grad_norm": 0.3217734694480896,
"learning_rate": 2.1579818848264656e-08,
"loss": 0.622,
"step": 678
},
{
"epoch": 2.8917333333333333,
"grad_norm": 0.3331310749053955,
"learning_rate": 2.0067957256676428e-08,
"loss": 0.6071,
"step": 679
},
{
"epoch": 2.896,
"grad_norm": 0.3501247465610504,
"learning_rate": 1.861078296631652e-08,
"loss": 0.6558,
"step": 680
},
{
"epoch": 2.9002666666666665,
"grad_norm": 0.3323565423488617,
"learning_rate": 1.7208328110697726e-08,
"loss": 0.6192,
"step": 681
},
{
"epoch": 2.904533333333333,
"grad_norm": 0.34517747163772583,
"learning_rate": 1.5860623616664183e-08,
"loss": 0.5974,
"step": 682
},
{
"epoch": 2.9088000000000003,
"grad_norm": 0.33607083559036255,
"learning_rate": 1.4567699203708597e-08,
"loss": 0.6046,
"step": 683
},
{
"epoch": 2.9130666666666665,
"grad_norm": 0.3128437101840973,
"learning_rate": 1.332958338331608e-08,
"loss": 0.585,
"step": 684
},
{
"epoch": 2.9173333333333336,
"grad_norm": 0.31413301825523376,
"learning_rate": 1.2146303458337172e-08,
"loss": 0.5879,
"step": 685
},
{
"epoch": 2.9215999999999998,
"grad_norm": 0.33694204688072205,
"learning_rate": 1.1017885522383864e-08,
"loss": 0.5916,
"step": 686
},
{
"epoch": 2.925866666666667,
"grad_norm": 0.3271304666996002,
"learning_rate": 9.944354459256178e-09,
"loss": 0.5807,
"step": 687
},
{
"epoch": 2.9301333333333335,
"grad_norm": 0.32571712136268616,
"learning_rate": 8.92573394239149e-09,
"loss": 0.5992,
"step": 688
},
{
"epoch": 2.9344,
"grad_norm": 0.32543250918388367,
"learning_rate": 7.962046434343562e-09,
"loss": 0.6143,
"step": 689
},
{
"epoch": 2.9386666666666668,
"grad_norm": 0.338191419839859,
"learning_rate": 7.0533131862873804e-09,
"loss": 0.6197,
"step": 690
},
{
"epoch": 2.9429333333333334,
"grad_norm": 0.32142868638038635,
"learning_rate": 6.1995542375495325e-09,
"loss": 0.5715,
"step": 691
},
{
"epoch": 2.9472,
"grad_norm": 0.31995338201522827,
"learning_rate": 5.400788415167168e-09,
"loss": 0.6164,
"step": 692
},
{
"epoch": 2.9514666666666667,
"grad_norm": 0.32262685894966125,
"learning_rate": 4.657033333472782e-09,
"loss": 0.5794,
"step": 693
},
{
"epoch": 2.9557333333333333,
"grad_norm": 0.3404903709888458,
"learning_rate": 3.96830539370563e-09,
"loss": 0.6333,
"step": 694
},
{
"epoch": 2.96,
"grad_norm": 0.330427348613739,
"learning_rate": 3.33461978364924e-09,
"loss": 0.6157,
"step": 695
},
{
"epoch": 2.9642666666666666,
"grad_norm": 0.32176586985588074,
"learning_rate": 2.755990477298076e-09,
"loss": 0.6469,
"step": 696
},
{
"epoch": 2.9685333333333332,
"grad_norm": 0.3283085823059082,
"learning_rate": 2.2324302345483327e-09,
"loss": 0.6124,
"step": 697
},
{
"epoch": 2.9728,
"grad_norm": 0.3386090397834778,
"learning_rate": 1.7639506009162199e-09,
"loss": 0.5898,
"step": 698
},
{
"epoch": 2.9770666666666665,
"grad_norm": 0.3304394781589508,
"learning_rate": 1.3505619072848309e-09,
"loss": 0.6167,
"step": 699
},
{
"epoch": 2.981333333333333,
"grad_norm": 0.3292512893676758,
"learning_rate": 9.922732696748816e-10,
"loss": 0.6138,
"step": 700
},
{
"epoch": 2.9856,
"grad_norm": 0.32595470547676086,
"learning_rate": 6.890925890437605e-10,
"loss": 0.6257,
"step": 701
},
{
"epoch": 2.989866666666667,
"grad_norm": 0.32718536257743835,
"learning_rate": 4.410265511128886e-10,
"loss": 0.6169,
"step": 702
},
{
"epoch": 2.994133333333333,
"grad_norm": 0.3314308822154999,
"learning_rate": 2.480806262181168e-10,
"loss": 0.6169,
"step": 703
},
{
"epoch": 2.9984,
"grad_norm": 0.3245869576931,
"learning_rate": 1.1025906919065465e-10,
"loss": 0.5867,
"step": 704
},
{
"epoch": 3.0,
"grad_norm": 0.579947292804718,
"learning_rate": 2.756491926270144e-11,
"loss": 0.6911,
"step": 705
},
{
"epoch": 3.0,
"step": 705,
"total_flos": 385665514733568.0,
"train_loss": 0.6493097235970463,
"train_runtime": 29533.3855,
"train_samples_per_second": 1.524,
"train_steps_per_second": 0.024
}
],
"logging_steps": 1,
"max_steps": 705,
"num_input_tokens_seen": 0,
"num_train_epochs": 3,
"save_steps": 1000,
"stateful_callbacks": {
"TrainerControl": {
"args": {
"should_epoch_stop": false,
"should_evaluate": false,
"should_log": false,
"should_save": true,
"should_training_stop": true
},
"attributes": {}
}
},
"total_flos": 385665514733568.0,
"train_batch_size": 1,
"trial_name": null,
"trial_params": null
}