PEFT
Safetensors
100K-Unbiased / trainer_state.json
rohaan1611's picture
Upload 11 files
a80a5a2 verified
{
"best_metric": null,
"best_model_checkpoint": null,
"epoch": 0.04173333333333333,
"eval_steps": 10,
"global_step": 313,
"is_hyper_param_search": false,
"is_local_process_zero": true,
"is_world_process_zero": true,
"log_history": [
{
"epoch": 0.00013333333333333334,
"grad_norm": 0.6006143689155579,
"learning_rate": 9.677419354838709e-06,
"loss": 0.4607,
"step": 1
},
{
"epoch": 0.0002666666666666667,
"grad_norm": 0.6198822855949402,
"learning_rate": 1.9354838709677417e-05,
"loss": 0.4716,
"step": 2
},
{
"epoch": 0.0004,
"grad_norm": 0.6413291692733765,
"learning_rate": 2.9032258064516126e-05,
"loss": 0.4842,
"step": 3
},
{
"epoch": 0.0005333333333333334,
"grad_norm": 0.5715949535369873,
"learning_rate": 3.8709677419354835e-05,
"loss": 0.4241,
"step": 4
},
{
"epoch": 0.0006666666666666666,
"grad_norm": 0.5637168884277344,
"learning_rate": 4.838709677419354e-05,
"loss": 0.4313,
"step": 5
},
{
"epoch": 0.0008,
"grad_norm": 0.5333985686302185,
"learning_rate": 5.806451612903225e-05,
"loss": 0.4227,
"step": 6
},
{
"epoch": 0.0009333333333333333,
"grad_norm": 0.6348873972892761,
"learning_rate": 6.774193548387096e-05,
"loss": 0.4592,
"step": 7
},
{
"epoch": 0.0010666666666666667,
"grad_norm": 0.6035286784172058,
"learning_rate": 7.741935483870967e-05,
"loss": 0.456,
"step": 8
},
{
"epoch": 0.0012,
"grad_norm": 0.5955594778060913,
"learning_rate": 8.709677419354839e-05,
"loss": 0.3988,
"step": 9
},
{
"epoch": 0.0013333333333333333,
"grad_norm": 0.5835692882537842,
"learning_rate": 9.677419354838708e-05,
"loss": 0.4007,
"step": 10
},
{
"epoch": 0.0013333333333333333,
"eval_loss": 0.47229835391044617,
"eval_runtime": 141.6234,
"eval_samples_per_second": 7.061,
"eval_steps_per_second": 0.883,
"step": 10
},
{
"epoch": 0.0014666666666666667,
"grad_norm": 0.66339111328125,
"learning_rate": 0.0001064516129032258,
"loss": 0.4279,
"step": 11
},
{
"epoch": 0.0016,
"grad_norm": 0.6043490171432495,
"learning_rate": 0.0001161290322580645,
"loss": 0.3994,
"step": 12
},
{
"epoch": 0.0017333333333333333,
"grad_norm": 0.6265777349472046,
"learning_rate": 0.00012580645161290322,
"loss": 0.3822,
"step": 13
},
{
"epoch": 0.0018666666666666666,
"grad_norm": 0.6240831613540649,
"learning_rate": 0.00013548387096774193,
"loss": 0.3926,
"step": 14
},
{
"epoch": 0.002,
"grad_norm": 0.5534247159957886,
"learning_rate": 0.00014516129032258063,
"loss": 0.389,
"step": 15
},
{
"epoch": 0.0021333333333333334,
"grad_norm": 0.6261595487594604,
"learning_rate": 0.00015483870967741934,
"loss": 0.3942,
"step": 16
},
{
"epoch": 0.002266666666666667,
"grad_norm": 0.6165563464164734,
"learning_rate": 0.00016451612903225804,
"loss": 0.4171,
"step": 17
},
{
"epoch": 0.0024,
"grad_norm": 0.6791590452194214,
"learning_rate": 0.00017419354838709678,
"loss": 0.3791,
"step": 18
},
{
"epoch": 0.002533333333333333,
"grad_norm": 0.6328005194664001,
"learning_rate": 0.00018387096774193548,
"loss": 0.4013,
"step": 19
},
{
"epoch": 0.0026666666666666666,
"grad_norm": 0.6946194767951965,
"learning_rate": 0.00019354838709677416,
"loss": 0.4058,
"step": 20
},
{
"epoch": 0.0026666666666666666,
"eval_loss": 0.48361876606941223,
"eval_runtime": 141.2736,
"eval_samples_per_second": 7.078,
"eval_steps_per_second": 0.885,
"step": 20
},
{
"epoch": 0.0028,
"grad_norm": 0.6082856059074402,
"learning_rate": 0.00020322580645161287,
"loss": 0.358,
"step": 21
},
{
"epoch": 0.0029333333333333334,
"grad_norm": 0.6534790396690369,
"learning_rate": 0.0002129032258064516,
"loss": 0.3906,
"step": 22
},
{
"epoch": 0.0030666666666666668,
"grad_norm": 0.8171995878219604,
"learning_rate": 0.0002225806451612903,
"loss": 0.4281,
"step": 23
},
{
"epoch": 0.0032,
"grad_norm": 0.705727219581604,
"learning_rate": 0.000232258064516129,
"loss": 0.3834,
"step": 24
},
{
"epoch": 0.0033333333333333335,
"grad_norm": 0.6787409782409668,
"learning_rate": 0.00024193548387096771,
"loss": 0.406,
"step": 25
},
{
"epoch": 0.0034666666666666665,
"grad_norm": 0.7279700636863708,
"learning_rate": 0.00025161290322580645,
"loss": 0.3765,
"step": 26
},
{
"epoch": 0.0036,
"grad_norm": 0.7276140451431274,
"learning_rate": 0.00026129032258064515,
"loss": 0.4069,
"step": 27
},
{
"epoch": 0.0037333333333333333,
"grad_norm": 0.7698902487754822,
"learning_rate": 0.00027096774193548386,
"loss": 0.3608,
"step": 28
},
{
"epoch": 0.0038666666666666667,
"grad_norm": 0.8046945929527283,
"learning_rate": 0.00028064516129032256,
"loss": 0.4095,
"step": 29
},
{
"epoch": 0.004,
"grad_norm": 0.7282766699790955,
"learning_rate": 0.00029032258064516127,
"loss": 0.3621,
"step": 30
},
{
"epoch": 0.004,
"eval_loss": 0.5078598856925964,
"eval_runtime": 141.2069,
"eval_samples_per_second": 7.082,
"eval_steps_per_second": 0.885,
"step": 30
},
{
"epoch": 0.0041333333333333335,
"grad_norm": 0.782006025314331,
"learning_rate": 0.0003,
"loss": 0.3693,
"step": 31
},
{
"epoch": 0.004266666666666667,
"grad_norm": 0.778492271900177,
"learning_rate": 0.00029893617021276595,
"loss": 0.4193,
"step": 32
},
{
"epoch": 0.0044,
"grad_norm": 0.828450620174408,
"learning_rate": 0.00029787234042553186,
"loss": 0.4269,
"step": 33
},
{
"epoch": 0.004533333333333334,
"grad_norm": 0.7799476981163025,
"learning_rate": 0.00029680851063829784,
"loss": 0.4009,
"step": 34
},
{
"epoch": 0.004666666666666667,
"grad_norm": 0.8566656708717346,
"learning_rate": 0.0002957446808510638,
"loss": 0.4134,
"step": 35
},
{
"epoch": 0.0048,
"grad_norm": 0.800376832485199,
"learning_rate": 0.0002946808510638298,
"loss": 0.4704,
"step": 36
},
{
"epoch": 0.004933333333333333,
"grad_norm": 0.8391082286834717,
"learning_rate": 0.0002936170212765957,
"loss": 0.4259,
"step": 37
},
{
"epoch": 0.005066666666666666,
"grad_norm": 0.8332396149635315,
"learning_rate": 0.00029255319148936167,
"loss": 0.3887,
"step": 38
},
{
"epoch": 0.0052,
"grad_norm": 0.8512689471244812,
"learning_rate": 0.00029148936170212764,
"loss": 0.3764,
"step": 39
},
{
"epoch": 0.005333333333333333,
"grad_norm": 0.943605899810791,
"learning_rate": 0.0002904255319148936,
"loss": 0.3861,
"step": 40
},
{
"epoch": 0.005333333333333333,
"eval_loss": 0.5343772172927856,
"eval_runtime": 141.0057,
"eval_samples_per_second": 7.092,
"eval_steps_per_second": 0.886,
"step": 40
},
{
"epoch": 0.0054666666666666665,
"grad_norm": 0.9403368830680847,
"learning_rate": 0.00028936170212765953,
"loss": 0.4365,
"step": 41
},
{
"epoch": 0.0056,
"grad_norm": 0.8685303926467896,
"learning_rate": 0.0002882978723404255,
"loss": 0.363,
"step": 42
},
{
"epoch": 0.005733333333333333,
"grad_norm": 0.8405827879905701,
"learning_rate": 0.0002872340425531915,
"loss": 0.3834,
"step": 43
},
{
"epoch": 0.005866666666666667,
"grad_norm": 0.865339994430542,
"learning_rate": 0.0002861702127659574,
"loss": 0.3519,
"step": 44
},
{
"epoch": 0.006,
"grad_norm": 1.0442298650741577,
"learning_rate": 0.00028510638297872336,
"loss": 0.4145,
"step": 45
},
{
"epoch": 0.0061333333333333335,
"grad_norm": 1.03372323513031,
"learning_rate": 0.00028404255319148934,
"loss": 0.416,
"step": 46
},
{
"epoch": 0.006266666666666667,
"grad_norm": 0.9197443723678589,
"learning_rate": 0.0002829787234042553,
"loss": 0.4074,
"step": 47
},
{
"epoch": 0.0064,
"grad_norm": 0.8739194869995117,
"learning_rate": 0.0002819148936170212,
"loss": 0.409,
"step": 48
},
{
"epoch": 0.006533333333333334,
"grad_norm": 0.9163395166397095,
"learning_rate": 0.0002808510638297872,
"loss": 0.4061,
"step": 49
},
{
"epoch": 0.006666666666666667,
"grad_norm": 0.9468728303909302,
"learning_rate": 0.00027978723404255317,
"loss": 0.3975,
"step": 50
},
{
"epoch": 0.006666666666666667,
"eval_loss": 0.5526700615882874,
"eval_runtime": 141.3662,
"eval_samples_per_second": 7.074,
"eval_steps_per_second": 0.884,
"step": 50
},
{
"epoch": 0.0068,
"grad_norm": 0.9674628973007202,
"learning_rate": 0.00027872340425531914,
"loss": 0.345,
"step": 51
},
{
"epoch": 0.006933333333333333,
"grad_norm": 1.1130850315093994,
"learning_rate": 0.00027765957446808506,
"loss": 0.4025,
"step": 52
},
{
"epoch": 0.007066666666666666,
"grad_norm": 0.9379608035087585,
"learning_rate": 0.00027659574468085103,
"loss": 0.3685,
"step": 53
},
{
"epoch": 0.0072,
"grad_norm": 0.8657750487327576,
"learning_rate": 0.000275531914893617,
"loss": 0.4105,
"step": 54
},
{
"epoch": 0.007333333333333333,
"grad_norm": 0.8662859201431274,
"learning_rate": 0.000274468085106383,
"loss": 0.3943,
"step": 55
},
{
"epoch": 0.007466666666666667,
"grad_norm": 0.9244629144668579,
"learning_rate": 0.00027340425531914895,
"loss": 0.398,
"step": 56
},
{
"epoch": 0.0076,
"grad_norm": 0.9753397703170776,
"learning_rate": 0.00027234042553191487,
"loss": 0.3954,
"step": 57
},
{
"epoch": 0.007733333333333333,
"grad_norm": 0.8762659430503845,
"learning_rate": 0.00027127659574468084,
"loss": 0.4014,
"step": 58
},
{
"epoch": 0.007866666666666666,
"grad_norm": 0.9331676363945007,
"learning_rate": 0.00027021276595744675,
"loss": 0.4185,
"step": 59
},
{
"epoch": 0.008,
"grad_norm": 0.9720389246940613,
"learning_rate": 0.0002691489361702127,
"loss": 0.3999,
"step": 60
},
{
"epoch": 0.008,
"eval_loss": 0.5621427297592163,
"eval_runtime": 141.3125,
"eval_samples_per_second": 7.077,
"eval_steps_per_second": 0.885,
"step": 60
},
{
"epoch": 0.008133333333333333,
"grad_norm": 0.927922785282135,
"learning_rate": 0.0002680851063829787,
"loss": 0.3929,
"step": 61
},
{
"epoch": 0.008266666666666667,
"grad_norm": 1.0025831460952759,
"learning_rate": 0.00026702127659574467,
"loss": 0.4546,
"step": 62
},
{
"epoch": 0.0084,
"grad_norm": 0.8520203232765198,
"learning_rate": 0.0002659574468085106,
"loss": 0.3829,
"step": 63
},
{
"epoch": 0.008533333333333334,
"grad_norm": 0.8721809387207031,
"learning_rate": 0.00026489361702127656,
"loss": 0.4053,
"step": 64
},
{
"epoch": 0.008666666666666666,
"grad_norm": 0.9921732544898987,
"learning_rate": 0.00026382978723404253,
"loss": 0.4129,
"step": 65
},
{
"epoch": 0.0088,
"grad_norm": 1.103983759880066,
"learning_rate": 0.0002627659574468085,
"loss": 0.4075,
"step": 66
},
{
"epoch": 0.008933333333333333,
"grad_norm": 1.0018322467803955,
"learning_rate": 0.0002617021276595745,
"loss": 0.3939,
"step": 67
},
{
"epoch": 0.009066666666666667,
"grad_norm": 0.9683962464332581,
"learning_rate": 0.0002606382978723404,
"loss": 0.4202,
"step": 68
},
{
"epoch": 0.0092,
"grad_norm": 0.8750381469726562,
"learning_rate": 0.00025957446808510637,
"loss": 0.4148,
"step": 69
},
{
"epoch": 0.009333333333333334,
"grad_norm": 0.9058277606964111,
"learning_rate": 0.0002585106382978723,
"loss": 0.366,
"step": 70
},
{
"epoch": 0.009333333333333334,
"eval_loss": 0.5732277631759644,
"eval_runtime": 141.1543,
"eval_samples_per_second": 7.084,
"eval_steps_per_second": 0.886,
"step": 70
},
{
"epoch": 0.009466666666666667,
"grad_norm": 1.110137939453125,
"learning_rate": 0.00025744680851063826,
"loss": 0.4412,
"step": 71
},
{
"epoch": 0.0096,
"grad_norm": 0.9088068008422852,
"learning_rate": 0.00025638297872340423,
"loss": 0.3958,
"step": 72
},
{
"epoch": 0.009733333333333333,
"grad_norm": 0.9388840794563293,
"learning_rate": 0.0002553191489361702,
"loss": 0.4404,
"step": 73
},
{
"epoch": 0.009866666666666666,
"grad_norm": 0.9287758469581604,
"learning_rate": 0.0002542553191489361,
"loss": 0.407,
"step": 74
},
{
"epoch": 0.01,
"grad_norm": 0.958987295627594,
"learning_rate": 0.0002531914893617021,
"loss": 0.4078,
"step": 75
},
{
"epoch": 0.010133333333333333,
"grad_norm": 0.9800777435302734,
"learning_rate": 0.00025212765957446806,
"loss": 0.4293,
"step": 76
},
{
"epoch": 0.010266666666666667,
"grad_norm": 0.9334179759025574,
"learning_rate": 0.00025106382978723403,
"loss": 0.3995,
"step": 77
},
{
"epoch": 0.0104,
"grad_norm": 0.9035418629646301,
"learning_rate": 0.00025,
"loss": 0.3887,
"step": 78
},
{
"epoch": 0.010533333333333334,
"grad_norm": 0.8683505654335022,
"learning_rate": 0.0002489361702127659,
"loss": 0.4115,
"step": 79
},
{
"epoch": 0.010666666666666666,
"grad_norm": 0.9107844829559326,
"learning_rate": 0.0002478723404255319,
"loss": 0.4051,
"step": 80
},
{
"epoch": 0.010666666666666666,
"eval_loss": 0.5675532221794128,
"eval_runtime": 141.2008,
"eval_samples_per_second": 7.082,
"eval_steps_per_second": 0.885,
"step": 80
},
{
"epoch": 0.0108,
"grad_norm": 0.9836252331733704,
"learning_rate": 0.00024680851063829787,
"loss": 0.3727,
"step": 81
},
{
"epoch": 0.010933333333333333,
"grad_norm": 0.942230224609375,
"learning_rate": 0.00024574468085106384,
"loss": 0.425,
"step": 82
},
{
"epoch": 0.011066666666666667,
"grad_norm": 0.8973767161369324,
"learning_rate": 0.00024468085106382976,
"loss": 0.3894,
"step": 83
},
{
"epoch": 0.0112,
"grad_norm": 0.9255136847496033,
"learning_rate": 0.00024361702127659573,
"loss": 0.3967,
"step": 84
},
{
"epoch": 0.011333333333333334,
"grad_norm": 0.9200630187988281,
"learning_rate": 0.00024255319148936167,
"loss": 0.4053,
"step": 85
},
{
"epoch": 0.011466666666666667,
"grad_norm": 0.9372026324272156,
"learning_rate": 0.00024148936170212765,
"loss": 0.4982,
"step": 86
},
{
"epoch": 0.0116,
"grad_norm": 0.8858762383460999,
"learning_rate": 0.00024042553191489362,
"loss": 0.412,
"step": 87
},
{
"epoch": 0.011733333333333333,
"grad_norm": 0.8913676142692566,
"learning_rate": 0.00023936170212765956,
"loss": 0.3919,
"step": 88
},
{
"epoch": 0.011866666666666666,
"grad_norm": 0.8229121565818787,
"learning_rate": 0.00023829787234042553,
"loss": 0.3629,
"step": 89
},
{
"epoch": 0.012,
"grad_norm": 0.9196010231971741,
"learning_rate": 0.00023723404255319145,
"loss": 0.4116,
"step": 90
},
{
"epoch": 0.012,
"eval_loss": 0.5661309361457825,
"eval_runtime": 141.154,
"eval_samples_per_second": 7.084,
"eval_steps_per_second": 0.886,
"step": 90
},
{
"epoch": 0.012133333333333333,
"grad_norm": 0.9197968244552612,
"learning_rate": 0.00023617021276595742,
"loss": 0.4206,
"step": 91
},
{
"epoch": 0.012266666666666667,
"grad_norm": 0.9500861763954163,
"learning_rate": 0.00023510638297872337,
"loss": 0.3939,
"step": 92
},
{
"epoch": 0.0124,
"grad_norm": 0.9442178606987,
"learning_rate": 0.00023404255319148934,
"loss": 0.4302,
"step": 93
},
{
"epoch": 0.012533333333333334,
"grad_norm": 0.9234870076179504,
"learning_rate": 0.00023297872340425529,
"loss": 0.4138,
"step": 94
},
{
"epoch": 0.012666666666666666,
"grad_norm": 0.8167098164558411,
"learning_rate": 0.00023191489361702126,
"loss": 0.4212,
"step": 95
},
{
"epoch": 0.0128,
"grad_norm": 0.8442054390907288,
"learning_rate": 0.0002308510638297872,
"loss": 0.4052,
"step": 96
},
{
"epoch": 0.012933333333333333,
"grad_norm": 0.9380055069923401,
"learning_rate": 0.00022978723404255317,
"loss": 0.411,
"step": 97
},
{
"epoch": 0.013066666666666667,
"grad_norm": 0.9059054255485535,
"learning_rate": 0.00022872340425531915,
"loss": 0.3607,
"step": 98
},
{
"epoch": 0.0132,
"grad_norm": 1.0604918003082275,
"learning_rate": 0.0002276595744680851,
"loss": 0.4224,
"step": 99
},
{
"epoch": 0.013333333333333334,
"grad_norm": 0.9452946186065674,
"learning_rate": 0.00022659574468085106,
"loss": 0.3924,
"step": 100
},
{
"epoch": 0.013333333333333334,
"eval_loss": 0.5585871338844299,
"eval_runtime": 141.3184,
"eval_samples_per_second": 7.076,
"eval_steps_per_second": 0.885,
"step": 100
},
{
"epoch": 0.013466666666666667,
"grad_norm": 0.93110191822052,
"learning_rate": 0.00022553191489361698,
"loss": 0.432,
"step": 101
},
{
"epoch": 0.0136,
"grad_norm": 0.9097228050231934,
"learning_rate": 0.00022446808510638298,
"loss": 0.4191,
"step": 102
},
{
"epoch": 0.013733333333333334,
"grad_norm": 0.9027892351150513,
"learning_rate": 0.0002234042553191489,
"loss": 0.4459,
"step": 103
},
{
"epoch": 0.013866666666666666,
"grad_norm": 0.7606397867202759,
"learning_rate": 0.00022234042553191487,
"loss": 0.4774,
"step": 104
},
{
"epoch": 0.014,
"grad_norm": 1.2175432443618774,
"learning_rate": 0.00022127659574468081,
"loss": 0.4321,
"step": 105
},
{
"epoch": 0.014133333333333333,
"grad_norm": 0.8743529915809631,
"learning_rate": 0.00022021276595744679,
"loss": 0.3783,
"step": 106
},
{
"epoch": 0.014266666666666667,
"grad_norm": 0.8516521453857422,
"learning_rate": 0.00021914893617021276,
"loss": 0.4041,
"step": 107
},
{
"epoch": 0.0144,
"grad_norm": 0.9458008408546448,
"learning_rate": 0.0002180851063829787,
"loss": 0.3486,
"step": 108
},
{
"epoch": 0.014533333333333334,
"grad_norm": 0.9315433502197266,
"learning_rate": 0.00021702127659574468,
"loss": 0.3847,
"step": 109
},
{
"epoch": 0.014666666666666666,
"grad_norm": 0.8763704299926758,
"learning_rate": 0.00021595744680851062,
"loss": 0.3985,
"step": 110
},
{
"epoch": 0.014666666666666666,
"eval_loss": 0.5546203255653381,
"eval_runtime": 141.4121,
"eval_samples_per_second": 7.072,
"eval_steps_per_second": 0.884,
"step": 110
},
{
"epoch": 0.0148,
"grad_norm": 0.8259232640266418,
"learning_rate": 0.0002148936170212766,
"loss": 0.4004,
"step": 111
},
{
"epoch": 0.014933333333333333,
"grad_norm": 0.8948522210121155,
"learning_rate": 0.00021382978723404254,
"loss": 0.4032,
"step": 112
},
{
"epoch": 0.015066666666666667,
"grad_norm": 0.8777422904968262,
"learning_rate": 0.0002127659574468085,
"loss": 0.4078,
"step": 113
},
{
"epoch": 0.0152,
"grad_norm": 0.8337422013282776,
"learning_rate": 0.00021170212765957443,
"loss": 0.3761,
"step": 114
},
{
"epoch": 0.015333333333333332,
"grad_norm": 0.8740651607513428,
"learning_rate": 0.0002106382978723404,
"loss": 0.416,
"step": 115
},
{
"epoch": 0.015466666666666667,
"grad_norm": 0.9091439843177795,
"learning_rate": 0.00020957446808510634,
"loss": 0.4197,
"step": 116
},
{
"epoch": 0.0156,
"grad_norm": 0.9028266072273254,
"learning_rate": 0.00020851063829787232,
"loss": 0.4151,
"step": 117
},
{
"epoch": 0.015733333333333332,
"grad_norm": 0.8935419321060181,
"learning_rate": 0.0002074468085106383,
"loss": 0.4108,
"step": 118
},
{
"epoch": 0.015866666666666668,
"grad_norm": 0.8912088871002197,
"learning_rate": 0.00020638297872340423,
"loss": 0.4114,
"step": 119
},
{
"epoch": 0.016,
"grad_norm": 0.8851146101951599,
"learning_rate": 0.0002053191489361702,
"loss": 0.404,
"step": 120
},
{
"epoch": 0.016,
"eval_loss": 0.5506999492645264,
"eval_runtime": 141.1929,
"eval_samples_per_second": 7.083,
"eval_steps_per_second": 0.885,
"step": 120
},
{
"epoch": 0.016133333333333333,
"grad_norm": 0.8932808637619019,
"learning_rate": 0.00020425531914893615,
"loss": 0.4222,
"step": 121
},
{
"epoch": 0.016266666666666665,
"grad_norm": 0.8968888521194458,
"learning_rate": 0.00020319148936170212,
"loss": 0.4527,
"step": 122
},
{
"epoch": 0.0164,
"grad_norm": 0.8441635966300964,
"learning_rate": 0.00020212765957446807,
"loss": 0.4008,
"step": 123
},
{
"epoch": 0.016533333333333334,
"grad_norm": 0.8323643803596497,
"learning_rate": 0.00020106382978723404,
"loss": 0.3668,
"step": 124
},
{
"epoch": 0.016666666666666666,
"grad_norm": 0.9084455966949463,
"learning_rate": 0.00019999999999999998,
"loss": 0.41,
"step": 125
},
{
"epoch": 0.0168,
"grad_norm": 0.8844165802001953,
"learning_rate": 0.00019893617021276595,
"loss": 0.3878,
"step": 126
},
{
"epoch": 0.016933333333333335,
"grad_norm": 0.8128172755241394,
"learning_rate": 0.00019787234042553187,
"loss": 0.3901,
"step": 127
},
{
"epoch": 0.017066666666666667,
"grad_norm": 0.8739519715309143,
"learning_rate": 0.00019680851063829784,
"loss": 0.4114,
"step": 128
},
{
"epoch": 0.0172,
"grad_norm": 0.8356694579124451,
"learning_rate": 0.00019574468085106382,
"loss": 0.4248,
"step": 129
},
{
"epoch": 0.017333333333333333,
"grad_norm": 0.8383334279060364,
"learning_rate": 0.00019468085106382976,
"loss": 0.409,
"step": 130
},
{
"epoch": 0.017333333333333333,
"eval_loss": 0.5454820990562439,
"eval_runtime": 141.222,
"eval_samples_per_second": 7.081,
"eval_steps_per_second": 0.885,
"step": 130
},
{
"epoch": 0.017466666666666665,
"grad_norm": 0.8132391571998596,
"learning_rate": 0.00019361702127659573,
"loss": 0.389,
"step": 131
},
{
"epoch": 0.0176,
"grad_norm": 0.8483821749687195,
"learning_rate": 0.00019255319148936168,
"loss": 0.4032,
"step": 132
},
{
"epoch": 0.017733333333333334,
"grad_norm": 0.8645078539848328,
"learning_rate": 0.00019148936170212765,
"loss": 0.3775,
"step": 133
},
{
"epoch": 0.017866666666666666,
"grad_norm": 0.8843973278999329,
"learning_rate": 0.0001904255319148936,
"loss": 0.4026,
"step": 134
},
{
"epoch": 0.018,
"grad_norm": 0.8225902915000916,
"learning_rate": 0.00018936170212765957,
"loss": 0.3515,
"step": 135
},
{
"epoch": 0.018133333333333335,
"grad_norm": 0.8457032442092896,
"learning_rate": 0.0001882978723404255,
"loss": 0.4158,
"step": 136
},
{
"epoch": 0.018266666666666667,
"grad_norm": 0.7120801210403442,
"learning_rate": 0.00018723404255319148,
"loss": 0.3842,
"step": 137
},
{
"epoch": 0.0184,
"grad_norm": 0.8226205706596375,
"learning_rate": 0.00018617021276595743,
"loss": 0.4017,
"step": 138
},
{
"epoch": 0.018533333333333332,
"grad_norm": 0.8248230218887329,
"learning_rate": 0.0001851063829787234,
"loss": 0.3892,
"step": 139
},
{
"epoch": 0.018666666666666668,
"grad_norm": 0.7935346364974976,
"learning_rate": 0.00018404255319148937,
"loss": 0.382,
"step": 140
},
{
"epoch": 0.018666666666666668,
"eval_loss": 0.5466542840003967,
"eval_runtime": 141.4111,
"eval_samples_per_second": 7.072,
"eval_steps_per_second": 0.884,
"step": 140
},
{
"epoch": 0.0188,
"grad_norm": 0.801705539226532,
"learning_rate": 0.0001829787234042553,
"loss": 0.4107,
"step": 141
},
{
"epoch": 0.018933333333333333,
"grad_norm": 0.8205410838127136,
"learning_rate": 0.00018191489361702126,
"loss": 0.3764,
"step": 142
},
{
"epoch": 0.019066666666666666,
"grad_norm": 0.8503196239471436,
"learning_rate": 0.0001808510638297872,
"loss": 0.367,
"step": 143
},
{
"epoch": 0.0192,
"grad_norm": 0.8816925883293152,
"learning_rate": 0.00017978723404255318,
"loss": 0.4256,
"step": 144
},
{
"epoch": 0.019333333333333334,
"grad_norm": 0.8757478594779968,
"learning_rate": 0.00017872340425531912,
"loss": 0.4198,
"step": 145
},
{
"epoch": 0.019466666666666667,
"grad_norm": 0.779212236404419,
"learning_rate": 0.0001776595744680851,
"loss": 0.3922,
"step": 146
},
{
"epoch": 0.0196,
"grad_norm": 0.8254271745681763,
"learning_rate": 0.00017659574468085104,
"loss": 0.3816,
"step": 147
},
{
"epoch": 0.019733333333333332,
"grad_norm": 0.799547553062439,
"learning_rate": 0.000175531914893617,
"loss": 0.4173,
"step": 148
},
{
"epoch": 0.019866666666666668,
"grad_norm": 0.8124542236328125,
"learning_rate": 0.00017446808510638296,
"loss": 0.4354,
"step": 149
},
{
"epoch": 0.02,
"grad_norm": 0.8514212369918823,
"learning_rate": 0.00017340425531914893,
"loss": 0.3907,
"step": 150
},
{
"epoch": 0.02,
"eval_loss": 0.5364201664924622,
"eval_runtime": 141.3883,
"eval_samples_per_second": 7.073,
"eval_steps_per_second": 0.884,
"step": 150
},
{
"epoch": 0.020133333333333333,
"grad_norm": 0.8387048244476318,
"learning_rate": 0.0001723404255319149,
"loss": 0.4026,
"step": 151
},
{
"epoch": 0.020266666666666665,
"grad_norm": 0.8056347370147705,
"learning_rate": 0.00017127659574468085,
"loss": 0.38,
"step": 152
},
{
"epoch": 0.0204,
"grad_norm": 0.816634476184845,
"learning_rate": 0.00017021276595744682,
"loss": 0.4146,
"step": 153
},
{
"epoch": 0.020533333333333334,
"grad_norm": 0.8422130942344666,
"learning_rate": 0.00016914893617021274,
"loss": 0.3812,
"step": 154
},
{
"epoch": 0.020666666666666667,
"grad_norm": 0.8215208053588867,
"learning_rate": 0.0001680851063829787,
"loss": 0.3872,
"step": 155
},
{
"epoch": 0.0208,
"grad_norm": 0.8078241944313049,
"learning_rate": 0.00016702127659574465,
"loss": 0.4068,
"step": 156
},
{
"epoch": 0.020933333333333335,
"grad_norm": 0.7864189743995667,
"learning_rate": 0.00016595744680851062,
"loss": 0.4189,
"step": 157
},
{
"epoch": 0.021066666666666668,
"grad_norm": 0.7402704358100891,
"learning_rate": 0.00016489361702127657,
"loss": 0.3894,
"step": 158
},
{
"epoch": 0.0212,
"grad_norm": 0.7902686595916748,
"learning_rate": 0.00016382978723404254,
"loss": 0.4247,
"step": 159
},
{
"epoch": 0.021333333333333333,
"grad_norm": 0.7915481328964233,
"learning_rate": 0.00016276595744680849,
"loss": 0.414,
"step": 160
},
{
"epoch": 0.021333333333333333,
"eval_loss": 0.5295315384864807,
"eval_runtime": 141.3596,
"eval_samples_per_second": 7.074,
"eval_steps_per_second": 0.884,
"step": 160
},
{
"epoch": 0.021466666666666665,
"grad_norm": 0.7913756966590881,
"learning_rate": 0.00016170212765957446,
"loss": 0.434,
"step": 161
},
{
"epoch": 0.0216,
"grad_norm": 0.8419508934020996,
"learning_rate": 0.00016063829787234043,
"loss": 0.4085,
"step": 162
},
{
"epoch": 0.021733333333333334,
"grad_norm": 0.8285740613937378,
"learning_rate": 0.00015957446808510637,
"loss": 0.429,
"step": 163
},
{
"epoch": 0.021866666666666666,
"grad_norm": 0.7917773723602295,
"learning_rate": 0.00015851063829787235,
"loss": 0.3991,
"step": 164
},
{
"epoch": 0.022,
"grad_norm": 0.7547069787979126,
"learning_rate": 0.0001574468085106383,
"loss": 0.3922,
"step": 165
},
{
"epoch": 0.022133333333333335,
"grad_norm": 0.7833614349365234,
"learning_rate": 0.00015638297872340426,
"loss": 0.4045,
"step": 166
},
{
"epoch": 0.022266666666666667,
"grad_norm": 0.7098473310470581,
"learning_rate": 0.00015531914893617018,
"loss": 0.3612,
"step": 167
},
{
"epoch": 0.0224,
"grad_norm": 0.8009598851203918,
"learning_rate": 0.00015425531914893615,
"loss": 0.3941,
"step": 168
},
{
"epoch": 0.022533333333333332,
"grad_norm": 0.7647989392280579,
"learning_rate": 0.0001531914893617021,
"loss": 0.428,
"step": 169
},
{
"epoch": 0.02266666666666667,
"grad_norm": 0.7413218021392822,
"learning_rate": 0.00015212765957446807,
"loss": 0.4004,
"step": 170
},
{
"epoch": 0.02266666666666667,
"eval_loss": 0.5258446335792542,
"eval_runtime": 141.6498,
"eval_samples_per_second": 7.06,
"eval_steps_per_second": 0.882,
"step": 170
},
{
"epoch": 0.0228,
"grad_norm": 0.8982724547386169,
"learning_rate": 0.00015106382978723401,
"loss": 0.3904,
"step": 171
},
{
"epoch": 0.022933333333333333,
"grad_norm": 0.7986995577812195,
"learning_rate": 0.00015,
"loss": 0.395,
"step": 172
},
{
"epoch": 0.023066666666666666,
"grad_norm": 0.8277859687805176,
"learning_rate": 0.00014893617021276593,
"loss": 0.4046,
"step": 173
},
{
"epoch": 0.0232,
"grad_norm": 0.7860122323036194,
"learning_rate": 0.0001478723404255319,
"loss": 0.4062,
"step": 174
},
{
"epoch": 0.023333333333333334,
"grad_norm": 0.7145754098892212,
"learning_rate": 0.00014680851063829785,
"loss": 0.3646,
"step": 175
},
{
"epoch": 0.023466666666666667,
"grad_norm": 0.7535431385040283,
"learning_rate": 0.00014574468085106382,
"loss": 0.4218,
"step": 176
},
{
"epoch": 0.0236,
"grad_norm": 0.7451829314231873,
"learning_rate": 0.00014468085106382977,
"loss": 0.4317,
"step": 177
},
{
"epoch": 0.023733333333333332,
"grad_norm": 0.7648677229881287,
"learning_rate": 0.00014361702127659574,
"loss": 0.402,
"step": 178
},
{
"epoch": 0.023866666666666668,
"grad_norm": 0.7619218230247498,
"learning_rate": 0.00014255319148936168,
"loss": 0.3876,
"step": 179
},
{
"epoch": 0.024,
"grad_norm": 0.7667227983474731,
"learning_rate": 0.00014148936170212765,
"loss": 0.4272,
"step": 180
},
{
"epoch": 0.024,
"eval_loss": 0.5196744203567505,
"eval_runtime": 141.2097,
"eval_samples_per_second": 7.082,
"eval_steps_per_second": 0.885,
"step": 180
},
{
"epoch": 0.024133333333333333,
"grad_norm": 0.762640655040741,
"learning_rate": 0.0001404255319148936,
"loss": 0.3832,
"step": 181
},
{
"epoch": 0.024266666666666666,
"grad_norm": 0.7354644536972046,
"learning_rate": 0.00013936170212765957,
"loss": 0.3842,
"step": 182
},
{
"epoch": 0.0244,
"grad_norm": 0.7519205212593079,
"learning_rate": 0.00013829787234042552,
"loss": 0.3891,
"step": 183
},
{
"epoch": 0.024533333333333334,
"grad_norm": 0.7645637392997742,
"learning_rate": 0.0001372340425531915,
"loss": 0.4175,
"step": 184
},
{
"epoch": 0.024666666666666667,
"grad_norm": 0.7095506191253662,
"learning_rate": 0.00013617021276595743,
"loss": 0.3842,
"step": 185
},
{
"epoch": 0.0248,
"grad_norm": 0.7318341732025146,
"learning_rate": 0.00013510638297872338,
"loss": 0.403,
"step": 186
},
{
"epoch": 0.02493333333333333,
"grad_norm": 0.7447018623352051,
"learning_rate": 0.00013404255319148935,
"loss": 0.4024,
"step": 187
},
{
"epoch": 0.025066666666666668,
"grad_norm": 0.7415079474449158,
"learning_rate": 0.0001329787234042553,
"loss": 0.3893,
"step": 188
},
{
"epoch": 0.0252,
"grad_norm": 0.8024099469184875,
"learning_rate": 0.00013191489361702127,
"loss": 0.3919,
"step": 189
},
{
"epoch": 0.025333333333333333,
"grad_norm": 0.7455788254737854,
"learning_rate": 0.00013085106382978724,
"loss": 0.4039,
"step": 190
},
{
"epoch": 0.025333333333333333,
"eval_loss": 0.5126989483833313,
"eval_runtime": 141.4808,
"eval_samples_per_second": 7.068,
"eval_steps_per_second": 0.884,
"step": 190
},
{
"epoch": 0.025466666666666665,
"grad_norm": 0.7716648578643799,
"learning_rate": 0.00012978723404255318,
"loss": 0.4094,
"step": 191
},
{
"epoch": 0.0256,
"grad_norm": 0.7623326182365417,
"learning_rate": 0.00012872340425531913,
"loss": 0.4072,
"step": 192
},
{
"epoch": 0.025733333333333334,
"grad_norm": 0.7241936922073364,
"learning_rate": 0.0001276595744680851,
"loss": 0.4341,
"step": 193
},
{
"epoch": 0.025866666666666666,
"grad_norm": 0.7537694573402405,
"learning_rate": 0.00012659574468085104,
"loss": 0.4064,
"step": 194
},
{
"epoch": 0.026,
"grad_norm": 0.7874061465263367,
"learning_rate": 0.00012553191489361702,
"loss": 0.4092,
"step": 195
},
{
"epoch": 0.026133333333333335,
"grad_norm": 0.7491751909255981,
"learning_rate": 0.00012446808510638296,
"loss": 0.389,
"step": 196
},
{
"epoch": 0.026266666666666667,
"grad_norm": 0.709567666053772,
"learning_rate": 0.00012340425531914893,
"loss": 0.3829,
"step": 197
},
{
"epoch": 0.0264,
"grad_norm": 0.7054778933525085,
"learning_rate": 0.00012234042553191488,
"loss": 0.4149,
"step": 198
},
{
"epoch": 0.026533333333333332,
"grad_norm": 0.6678067445755005,
"learning_rate": 0.00012127659574468084,
"loss": 0.383,
"step": 199
},
{
"epoch": 0.02666666666666667,
"grad_norm": 0.7279874086380005,
"learning_rate": 0.00012021276595744681,
"loss": 0.4076,
"step": 200
},
{
"epoch": 0.02666666666666667,
"eval_loss": 0.5089948177337646,
"eval_runtime": 141.5313,
"eval_samples_per_second": 7.066,
"eval_steps_per_second": 0.883,
"step": 200
},
{
"epoch": 0.0268,
"grad_norm": 0.7242472171783447,
"learning_rate": 0.00011914893617021277,
"loss": 0.3952,
"step": 201
},
{
"epoch": 0.026933333333333333,
"grad_norm": 0.7404840588569641,
"learning_rate": 0.00011808510638297871,
"loss": 0.367,
"step": 202
},
{
"epoch": 0.027066666666666666,
"grad_norm": 0.6994010806083679,
"learning_rate": 0.00011702127659574467,
"loss": 0.3815,
"step": 203
},
{
"epoch": 0.0272,
"grad_norm": 0.6849843859672546,
"learning_rate": 0.00011595744680851063,
"loss": 0.363,
"step": 204
},
{
"epoch": 0.027333333333333334,
"grad_norm": 0.7548534274101257,
"learning_rate": 0.00011489361702127659,
"loss": 0.375,
"step": 205
},
{
"epoch": 0.027466666666666667,
"grad_norm": 0.7027921080589294,
"learning_rate": 0.00011382978723404255,
"loss": 0.3717,
"step": 206
},
{
"epoch": 0.0276,
"grad_norm": 0.7290288209915161,
"learning_rate": 0.00011276595744680849,
"loss": 0.4277,
"step": 207
},
{
"epoch": 0.027733333333333332,
"grad_norm": 0.7112368941307068,
"learning_rate": 0.00011170212765957445,
"loss": 0.3642,
"step": 208
},
{
"epoch": 0.027866666666666668,
"grad_norm": 0.7195504903793335,
"learning_rate": 0.00011063829787234041,
"loss": 0.4139,
"step": 209
},
{
"epoch": 0.028,
"grad_norm": 0.6694400310516357,
"learning_rate": 0.00010957446808510638,
"loss": 0.3889,
"step": 210
},
{
"epoch": 0.028,
"eval_loss": 0.5049722194671631,
"eval_runtime": 141.3107,
"eval_samples_per_second": 7.077,
"eval_steps_per_second": 0.885,
"step": 210
},
{
"epoch": 0.028133333333333333,
"grad_norm": 0.6607633233070374,
"learning_rate": 0.00010851063829787234,
"loss": 0.3657,
"step": 211
},
{
"epoch": 0.028266666666666666,
"grad_norm": 0.6796385645866394,
"learning_rate": 0.0001074468085106383,
"loss": 0.3956,
"step": 212
},
{
"epoch": 0.0284,
"grad_norm": 0.7247062921524048,
"learning_rate": 0.00010638297872340425,
"loss": 0.4537,
"step": 213
},
{
"epoch": 0.028533333333333334,
"grad_norm": 0.689423143863678,
"learning_rate": 0.0001053191489361702,
"loss": 0.3886,
"step": 214
},
{
"epoch": 0.028666666666666667,
"grad_norm": 0.7083090543746948,
"learning_rate": 0.00010425531914893616,
"loss": 0.4199,
"step": 215
},
{
"epoch": 0.0288,
"grad_norm": 0.6640324592590332,
"learning_rate": 0.00010319148936170212,
"loss": 0.3593,
"step": 216
},
{
"epoch": 0.028933333333333332,
"grad_norm": 0.6480628848075867,
"learning_rate": 0.00010212765957446807,
"loss": 0.4187,
"step": 217
},
{
"epoch": 0.029066666666666668,
"grad_norm": 0.6782264709472656,
"learning_rate": 0.00010106382978723403,
"loss": 0.3837,
"step": 218
},
{
"epoch": 0.0292,
"grad_norm": 0.6657284498214722,
"learning_rate": 9.999999999999999e-05,
"loss": 0.3868,
"step": 219
},
{
"epoch": 0.029333333333333333,
"grad_norm": 0.6578888893127441,
"learning_rate": 9.893617021276594e-05,
"loss": 0.4006,
"step": 220
},
{
"epoch": 0.029333333333333333,
"eval_loss": 0.5006869435310364,
"eval_runtime": 141.649,
"eval_samples_per_second": 7.06,
"eval_steps_per_second": 0.882,
"step": 220
},
{
"epoch": 0.029466666666666665,
"grad_norm": 0.6612751483917236,
"learning_rate": 9.787234042553191e-05,
"loss": 0.3903,
"step": 221
},
{
"epoch": 0.0296,
"grad_norm": 0.7227184176445007,
"learning_rate": 9.680851063829787e-05,
"loss": 0.3962,
"step": 222
},
{
"epoch": 0.029733333333333334,
"grad_norm": 0.6638945937156677,
"learning_rate": 9.574468085106382e-05,
"loss": 0.3968,
"step": 223
},
{
"epoch": 0.029866666666666666,
"grad_norm": 0.6724333167076111,
"learning_rate": 9.468085106382978e-05,
"loss": 0.3697,
"step": 224
},
{
"epoch": 0.03,
"grad_norm": 0.7041984796524048,
"learning_rate": 9.361702127659574e-05,
"loss": 0.4536,
"step": 225
},
{
"epoch": 0.030133333333333335,
"grad_norm": 0.6924453973770142,
"learning_rate": 9.25531914893617e-05,
"loss": 0.4517,
"step": 226
},
{
"epoch": 0.030266666666666667,
"grad_norm": 0.6449741125106812,
"learning_rate": 9.148936170212764e-05,
"loss": 0.3798,
"step": 227
},
{
"epoch": 0.0304,
"grad_norm": 0.6753547191619873,
"learning_rate": 9.04255319148936e-05,
"loss": 0.3996,
"step": 228
},
{
"epoch": 0.030533333333333332,
"grad_norm": 0.6793354153633118,
"learning_rate": 8.936170212765956e-05,
"loss": 0.3933,
"step": 229
},
{
"epoch": 0.030666666666666665,
"grad_norm": 0.6322203278541565,
"learning_rate": 8.829787234042552e-05,
"loss": 0.3866,
"step": 230
},
{
"epoch": 0.030666666666666665,
"eval_loss": 0.49291712045669556,
"eval_runtime": 141.463,
"eval_samples_per_second": 7.069,
"eval_steps_per_second": 0.884,
"step": 230
},
{
"epoch": 0.0308,
"grad_norm": 0.7175498008728027,
"learning_rate": 8.723404255319148e-05,
"loss": 0.4711,
"step": 231
},
{
"epoch": 0.030933333333333334,
"grad_norm": 0.6373987793922424,
"learning_rate": 8.617021276595745e-05,
"loss": 0.3951,
"step": 232
},
{
"epoch": 0.031066666666666666,
"grad_norm": 0.7253538966178894,
"learning_rate": 8.510638297872341e-05,
"loss": 0.4169,
"step": 233
},
{
"epoch": 0.0312,
"grad_norm": 0.6647905111312866,
"learning_rate": 8.404255319148935e-05,
"loss": 0.4409,
"step": 234
},
{
"epoch": 0.03133333333333333,
"grad_norm": 0.6949893832206726,
"learning_rate": 8.297872340425531e-05,
"loss": 0.4269,
"step": 235
},
{
"epoch": 0.031466666666666664,
"grad_norm": 0.7183098196983337,
"learning_rate": 8.191489361702127e-05,
"loss": 0.3793,
"step": 236
},
{
"epoch": 0.0316,
"grad_norm": 0.6919881105422974,
"learning_rate": 8.085106382978723e-05,
"loss": 0.3937,
"step": 237
},
{
"epoch": 0.031733333333333336,
"grad_norm": 0.6800768375396729,
"learning_rate": 7.978723404255319e-05,
"loss": 0.4026,
"step": 238
},
{
"epoch": 0.03186666666666667,
"grad_norm": 0.5793167352676392,
"learning_rate": 7.872340425531915e-05,
"loss": 0.374,
"step": 239
},
{
"epoch": 0.032,
"grad_norm": 0.6842488050460815,
"learning_rate": 7.765957446808509e-05,
"loss": 0.4289,
"step": 240
},
{
"epoch": 0.032,
"eval_loss": 0.4894670844078064,
"eval_runtime": 141.1428,
"eval_samples_per_second": 7.085,
"eval_steps_per_second": 0.886,
"step": 240
},
{
"epoch": 0.03213333333333333,
"grad_norm": 0.6346961855888367,
"learning_rate": 7.659574468085105e-05,
"loss": 0.4015,
"step": 241
},
{
"epoch": 0.032266666666666666,
"grad_norm": 0.6182055473327637,
"learning_rate": 7.553191489361701e-05,
"loss": 0.4137,
"step": 242
},
{
"epoch": 0.0324,
"grad_norm": 0.6297070384025574,
"learning_rate": 7.446808510638297e-05,
"loss": 0.3865,
"step": 243
},
{
"epoch": 0.03253333333333333,
"grad_norm": 0.6168206930160522,
"learning_rate": 7.340425531914892e-05,
"loss": 0.4146,
"step": 244
},
{
"epoch": 0.03266666666666666,
"grad_norm": 0.64501953125,
"learning_rate": 7.234042553191488e-05,
"loss": 0.3888,
"step": 245
},
{
"epoch": 0.0328,
"grad_norm": 0.6902901530265808,
"learning_rate": 7.127659574468084e-05,
"loss": 0.4126,
"step": 246
},
{
"epoch": 0.032933333333333335,
"grad_norm": 0.6351602077484131,
"learning_rate": 7.02127659574468e-05,
"loss": 0.3936,
"step": 247
},
{
"epoch": 0.03306666666666667,
"grad_norm": 0.6310396194458008,
"learning_rate": 6.914893617021276e-05,
"loss": 0.4001,
"step": 248
},
{
"epoch": 0.0332,
"grad_norm": 0.6404752135276794,
"learning_rate": 6.808510638297872e-05,
"loss": 0.4104,
"step": 249
},
{
"epoch": 0.03333333333333333,
"grad_norm": 0.6261141896247864,
"learning_rate": 6.702127659574467e-05,
"loss": 0.3674,
"step": 250
},
{
"epoch": 0.03333333333333333,
"eval_loss": 0.48603081703186035,
"eval_runtime": 141.1873,
"eval_samples_per_second": 7.083,
"eval_steps_per_second": 0.885,
"step": 250
},
{
"epoch": 0.033466666666666665,
"grad_norm": 0.6511746048927307,
"learning_rate": 6.595744680851063e-05,
"loss": 0.4128,
"step": 251
},
{
"epoch": 0.0336,
"grad_norm": 0.6165076494216919,
"learning_rate": 6.489361702127659e-05,
"loss": 0.3904,
"step": 252
},
{
"epoch": 0.03373333333333333,
"grad_norm": 0.6632899045944214,
"learning_rate": 6.382978723404255e-05,
"loss": 0.3914,
"step": 253
},
{
"epoch": 0.03386666666666667,
"grad_norm": 0.5832062363624573,
"learning_rate": 6.276595744680851e-05,
"loss": 0.3785,
"step": 254
},
{
"epoch": 0.034,
"grad_norm": 0.6393153071403503,
"learning_rate": 6.170212765957447e-05,
"loss": 0.3972,
"step": 255
},
{
"epoch": 0.034133333333333335,
"grad_norm": 0.6468214392662048,
"learning_rate": 6.063829787234042e-05,
"loss": 0.3942,
"step": 256
},
{
"epoch": 0.03426666666666667,
"grad_norm": 0.6431373953819275,
"learning_rate": 5.9574468085106384e-05,
"loss": 0.3949,
"step": 257
},
{
"epoch": 0.0344,
"grad_norm": 0.6360663771629333,
"learning_rate": 5.8510638297872335e-05,
"loss": 0.3923,
"step": 258
},
{
"epoch": 0.03453333333333333,
"grad_norm": 0.6813873648643494,
"learning_rate": 5.7446808510638294e-05,
"loss": 0.4474,
"step": 259
},
{
"epoch": 0.034666666666666665,
"grad_norm": 0.6415489912033081,
"learning_rate": 5.6382978723404245e-05,
"loss": 0.3644,
"step": 260
},
{
"epoch": 0.034666666666666665,
"eval_loss": 0.4838036298751831,
"eval_runtime": 141.3865,
"eval_samples_per_second": 7.073,
"eval_steps_per_second": 0.884,
"step": 260
},
{
"epoch": 0.0348,
"grad_norm": 0.6562638282775879,
"learning_rate": 5.5319148936170204e-05,
"loss": 0.4254,
"step": 261
},
{
"epoch": 0.03493333333333333,
"grad_norm": 0.6409335136413574,
"learning_rate": 5.425531914893617e-05,
"loss": 0.4295,
"step": 262
},
{
"epoch": 0.03506666666666667,
"grad_norm": 0.6701998710632324,
"learning_rate": 5.319148936170213e-05,
"loss": 0.4103,
"step": 263
},
{
"epoch": 0.0352,
"grad_norm": 0.6443625688552856,
"learning_rate": 5.212765957446808e-05,
"loss": 0.4208,
"step": 264
},
{
"epoch": 0.035333333333333335,
"grad_norm": 0.6580439209938049,
"learning_rate": 5.106382978723404e-05,
"loss": 0.3926,
"step": 265
},
{
"epoch": 0.03546666666666667,
"grad_norm": 0.6513085961341858,
"learning_rate": 4.9999999999999996e-05,
"loss": 0.3753,
"step": 266
},
{
"epoch": 0.0356,
"grad_norm": 0.61977618932724,
"learning_rate": 4.8936170212765954e-05,
"loss": 0.356,
"step": 267
},
{
"epoch": 0.03573333333333333,
"grad_norm": 0.6972789168357849,
"learning_rate": 4.787234042553191e-05,
"loss": 0.4154,
"step": 268
},
{
"epoch": 0.035866666666666665,
"grad_norm": 0.6055701375007629,
"learning_rate": 4.680851063829787e-05,
"loss": 0.3962,
"step": 269
},
{
"epoch": 0.036,
"grad_norm": 0.6328206062316895,
"learning_rate": 4.574468085106382e-05,
"loss": 0.3887,
"step": 270
},
{
"epoch": 0.036,
"eval_loss": 0.4804232716560364,
"eval_runtime": 141.7017,
"eval_samples_per_second": 7.057,
"eval_steps_per_second": 0.882,
"step": 270
},
{
"epoch": 0.03613333333333334,
"grad_norm": 0.61911541223526,
"learning_rate": 4.468085106382978e-05,
"loss": 0.4025,
"step": 271
},
{
"epoch": 0.03626666666666667,
"grad_norm": 0.6735214591026306,
"learning_rate": 4.361702127659574e-05,
"loss": 0.3854,
"step": 272
},
{
"epoch": 0.0364,
"grad_norm": 0.7260206341743469,
"learning_rate": 4.2553191489361704e-05,
"loss": 0.5178,
"step": 273
},
{
"epoch": 0.036533333333333334,
"grad_norm": 0.641946017742157,
"learning_rate": 4.1489361702127656e-05,
"loss": 0.394,
"step": 274
},
{
"epoch": 0.03666666666666667,
"grad_norm": 0.6131489872932434,
"learning_rate": 4.0425531914893614e-05,
"loss": 0.4938,
"step": 275
},
{
"epoch": 0.0368,
"grad_norm": 0.6072583198547363,
"learning_rate": 3.936170212765957e-05,
"loss": 0.3852,
"step": 276
},
{
"epoch": 0.03693333333333333,
"grad_norm": 0.5903816819190979,
"learning_rate": 3.8297872340425525e-05,
"loss": 0.383,
"step": 277
},
{
"epoch": 0.037066666666666664,
"grad_norm": 0.6206436157226562,
"learning_rate": 3.723404255319148e-05,
"loss": 0.3758,
"step": 278
},
{
"epoch": 0.0372,
"grad_norm": 0.6025145649909973,
"learning_rate": 3.617021276595744e-05,
"loss": 0.3832,
"step": 279
},
{
"epoch": 0.037333333333333336,
"grad_norm": 0.6661312580108643,
"learning_rate": 3.51063829787234e-05,
"loss": 0.4168,
"step": 280
},
{
"epoch": 0.037333333333333336,
"eval_loss": 0.4782504141330719,
"eval_runtime": 141.7096,
"eval_samples_per_second": 7.057,
"eval_steps_per_second": 0.882,
"step": 280
},
{
"epoch": 0.03746666666666667,
"grad_norm": 0.6313883066177368,
"learning_rate": 3.404255319148936e-05,
"loss": 0.4176,
"step": 281
},
{
"epoch": 0.0376,
"grad_norm": 0.5728066563606262,
"learning_rate": 3.2978723404255317e-05,
"loss": 0.3487,
"step": 282
},
{
"epoch": 0.037733333333333334,
"grad_norm": 0.6167532205581665,
"learning_rate": 3.1914893617021275e-05,
"loss": 0.398,
"step": 283
},
{
"epoch": 0.037866666666666667,
"grad_norm": 0.6028872728347778,
"learning_rate": 3.085106382978723e-05,
"loss": 0.3588,
"step": 284
},
{
"epoch": 0.038,
"grad_norm": 0.6013098955154419,
"learning_rate": 2.9787234042553192e-05,
"loss": 0.4009,
"step": 285
},
{
"epoch": 0.03813333333333333,
"grad_norm": 0.6228728294372559,
"learning_rate": 2.8723404255319147e-05,
"loss": 0.3984,
"step": 286
},
{
"epoch": 0.038266666666666664,
"grad_norm": 0.6401664018630981,
"learning_rate": 2.7659574468085102e-05,
"loss": 0.429,
"step": 287
},
{
"epoch": 0.0384,
"grad_norm": 0.6373335719108582,
"learning_rate": 2.6595744680851064e-05,
"loss": 0.384,
"step": 288
},
{
"epoch": 0.038533333333333336,
"grad_norm": 0.6099696755409241,
"learning_rate": 2.553191489361702e-05,
"loss": 0.4116,
"step": 289
},
{
"epoch": 0.03866666666666667,
"grad_norm": 0.6114339828491211,
"learning_rate": 2.4468085106382977e-05,
"loss": 0.3991,
"step": 290
},
{
"epoch": 0.03866666666666667,
"eval_loss": 0.47486981749534607,
"eval_runtime": 141.6625,
"eval_samples_per_second": 7.059,
"eval_steps_per_second": 0.882,
"step": 290
},
{
"epoch": 0.0388,
"grad_norm": 0.6080420017242432,
"learning_rate": 2.3404255319148935e-05,
"loss": 0.377,
"step": 291
},
{
"epoch": 0.038933333333333334,
"grad_norm": 0.5992590188980103,
"learning_rate": 2.234042553191489e-05,
"loss": 0.3683,
"step": 292
},
{
"epoch": 0.039066666666666666,
"grad_norm": 0.6151382327079773,
"learning_rate": 2.1276595744680852e-05,
"loss": 0.3638,
"step": 293
},
{
"epoch": 0.0392,
"grad_norm": 0.5946884751319885,
"learning_rate": 2.0212765957446807e-05,
"loss": 0.3723,
"step": 294
},
{
"epoch": 0.03933333333333333,
"grad_norm": 0.6242040991783142,
"learning_rate": 1.9148936170212762e-05,
"loss": 0.4251,
"step": 295
},
{
"epoch": 0.039466666666666664,
"grad_norm": 0.6351944804191589,
"learning_rate": 1.808510638297872e-05,
"loss": 0.3701,
"step": 296
},
{
"epoch": 0.0396,
"grad_norm": 0.6054936051368713,
"learning_rate": 1.702127659574468e-05,
"loss": 0.3834,
"step": 297
},
{
"epoch": 0.039733333333333336,
"grad_norm": 0.6164801716804504,
"learning_rate": 1.5957446808510637e-05,
"loss": 0.3664,
"step": 298
},
{
"epoch": 0.03986666666666667,
"grad_norm": 0.5850508809089661,
"learning_rate": 1.4893617021276596e-05,
"loss": 0.3863,
"step": 299
},
{
"epoch": 0.04,
"grad_norm": 0.6170298457145691,
"learning_rate": 1.3829787234042551e-05,
"loss": 0.4288,
"step": 300
},
{
"epoch": 0.04,
"eval_loss": 0.47352975606918335,
"eval_runtime": 141.5274,
"eval_samples_per_second": 7.066,
"eval_steps_per_second": 0.883,
"step": 300
},
{
"epoch": 0.04013333333333333,
"grad_norm": 0.6291190981864929,
"learning_rate": 1.276595744680851e-05,
"loss": 0.4353,
"step": 301
},
{
"epoch": 0.040266666666666666,
"grad_norm": 0.6266964077949524,
"learning_rate": 1.1702127659574468e-05,
"loss": 0.3897,
"step": 302
},
{
"epoch": 0.0404,
"grad_norm": 0.552639901638031,
"learning_rate": 1.0638297872340426e-05,
"loss": 0.3519,
"step": 303
},
{
"epoch": 0.04053333333333333,
"grad_norm": 0.6493646502494812,
"learning_rate": 9.574468085106381e-06,
"loss": 0.3921,
"step": 304
},
{
"epoch": 0.04066666666666666,
"grad_norm": 0.6215342879295349,
"learning_rate": 8.51063829787234e-06,
"loss": 0.3865,
"step": 305
},
{
"epoch": 0.0408,
"grad_norm": 0.6077576875686646,
"learning_rate": 7.446808510638298e-06,
"loss": 0.3867,
"step": 306
},
{
"epoch": 0.040933333333333335,
"grad_norm": 0.6194751262664795,
"learning_rate": 6.382978723404255e-06,
"loss": 0.3794,
"step": 307
},
{
"epoch": 0.04106666666666667,
"grad_norm": 0.6333131790161133,
"learning_rate": 5.319148936170213e-06,
"loss": 0.4333,
"step": 308
},
{
"epoch": 0.0412,
"grad_norm": 0.6461464762687683,
"learning_rate": 4.25531914893617e-06,
"loss": 0.3933,
"step": 309
},
{
"epoch": 0.04133333333333333,
"grad_norm": 0.6700551509857178,
"learning_rate": 3.1914893617021273e-06,
"loss": 0.3856,
"step": 310
},
{
"epoch": 0.04133333333333333,
"eval_loss": 0.47274792194366455,
"eval_runtime": 141.5862,
"eval_samples_per_second": 7.063,
"eval_steps_per_second": 0.883,
"step": 310
},
{
"epoch": 0.041466666666666666,
"grad_norm": 0.5907768607139587,
"learning_rate": 2.127659574468085e-06,
"loss": 0.4333,
"step": 311
},
{
"epoch": 0.0416,
"grad_norm": 0.5912094116210938,
"learning_rate": 1.0638297872340424e-06,
"loss": 0.3698,
"step": 312
},
{
"epoch": 0.04173333333333333,
"grad_norm": 0.5533092021942139,
"learning_rate": 0.0,
"loss": 0.355,
"step": 313
}
],
"logging_steps": 1,
"max_steps": 313,
"num_input_tokens_seen": 0,
"num_train_epochs": 1,
"save_steps": 50,
"stateful_callbacks": {
"TrainerControl": {
"args": {
"should_epoch_stop": false,
"should_evaluate": false,
"should_log": false,
"should_save": true,
"should_training_stop": true
},
"attributes": {}
}
},
"total_flos": 7.623999156799734e+17,
"train_batch_size": 12,
"trial_name": null,
"trial_params": null
}