100K-Unbiased / trainer_state.json

Upload 11 files

a80a5a2 verified over 1 year ago

60.5 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.04173333333333333,
	"eval_steps": 10,
	"global_step": 313,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.00013333333333333334,
	"grad_norm": 0.6006143689155579,
	"learning_rate": 9.677419354838709e-06,
	"loss": 0.4607,
	"step": 1
	},
	{
	"epoch": 0.0002666666666666667,
	"grad_norm": 0.6198822855949402,
	"learning_rate": 1.9354838709677417e-05,
	"loss": 0.4716,
	"step": 2
	},
	{
	"epoch": 0.0004,
	"grad_norm": 0.6413291692733765,
	"learning_rate": 2.9032258064516126e-05,
	"loss": 0.4842,
	"step": 3
	},
	{
	"epoch": 0.0005333333333333334,
	"grad_norm": 0.5715949535369873,
	"learning_rate": 3.8709677419354835e-05,
	"loss": 0.4241,
	"step": 4
	},
	{
	"epoch": 0.0006666666666666666,
	"grad_norm": 0.5637168884277344,
	"learning_rate": 4.838709677419354e-05,
	"loss": 0.4313,
	"step": 5
	},
	{
	"epoch": 0.0008,
	"grad_norm": 0.5333985686302185,
	"learning_rate": 5.806451612903225e-05,
	"loss": 0.4227,
	"step": 6
	},
	{
	"epoch": 0.0009333333333333333,
	"grad_norm": 0.6348873972892761,
	"learning_rate": 6.774193548387096e-05,
	"loss": 0.4592,
	"step": 7
	},
	{
	"epoch": 0.0010666666666666667,
	"grad_norm": 0.6035286784172058,
	"learning_rate": 7.741935483870967e-05,
	"loss": 0.456,
	"step": 8
	},
	{
	"epoch": 0.0012,
	"grad_norm": 0.5955594778060913,
	"learning_rate": 8.709677419354839e-05,
	"loss": 0.3988,
	"step": 9
	},
	{
	"epoch": 0.0013333333333333333,
	"grad_norm": 0.5835692882537842,
	"learning_rate": 9.677419354838708e-05,
	"loss": 0.4007,
	"step": 10
	},
	{
	"epoch": 0.0013333333333333333,
	"eval_loss": 0.47229835391044617,
	"eval_runtime": 141.6234,
	"eval_samples_per_second": 7.061,
	"eval_steps_per_second": 0.883,
	"step": 10
	},
	{
	"epoch": 0.0014666666666666667,
	"grad_norm": 0.66339111328125,
	"learning_rate": 0.0001064516129032258,
	"loss": 0.4279,
	"step": 11
	},
	{
	"epoch": 0.0016,
	"grad_norm": 0.6043490171432495,
	"learning_rate": 0.0001161290322580645,
	"loss": 0.3994,
	"step": 12
	},
	{
	"epoch": 0.0017333333333333333,
	"grad_norm": 0.6265777349472046,
	"learning_rate": 0.00012580645161290322,
	"loss": 0.3822,
	"step": 13
	},
	{
	"epoch": 0.0018666666666666666,
	"grad_norm": 0.6240831613540649,
	"learning_rate": 0.00013548387096774193,
	"loss": 0.3926,
	"step": 14
	},
	{
	"epoch": 0.002,
	"grad_norm": 0.5534247159957886,
	"learning_rate": 0.00014516129032258063,
	"loss": 0.389,
	"step": 15
	},
	{
	"epoch": 0.0021333333333333334,
	"grad_norm": 0.6261595487594604,
	"learning_rate": 0.00015483870967741934,
	"loss": 0.3942,
	"step": 16
	},
	{
	"epoch": 0.002266666666666667,
	"grad_norm": 0.6165563464164734,
	"learning_rate": 0.00016451612903225804,
	"loss": 0.4171,
	"step": 17
	},
	{
	"epoch": 0.0024,
	"grad_norm": 0.6791590452194214,
	"learning_rate": 0.00017419354838709678,
	"loss": 0.3791,
	"step": 18
	},
	{
	"epoch": 0.002533333333333333,
	"grad_norm": 0.6328005194664001,
	"learning_rate": 0.00018387096774193548,
	"loss": 0.4013,
	"step": 19
	},
	{
	"epoch": 0.0026666666666666666,
	"grad_norm": 0.6946194767951965,
	"learning_rate": 0.00019354838709677416,
	"loss": 0.4058,
	"step": 20
	},
	{
	"epoch": 0.0026666666666666666,
	"eval_loss": 0.48361876606941223,
	"eval_runtime": 141.2736,
	"eval_samples_per_second": 7.078,
	"eval_steps_per_second": 0.885,
	"step": 20
	},
	{
	"epoch": 0.0028,
	"grad_norm": 0.6082856059074402,
	"learning_rate": 0.00020322580645161287,
	"loss": 0.358,
	"step": 21
	},
	{
	"epoch": 0.0029333333333333334,
	"grad_norm": 0.6534790396690369,
	"learning_rate": 0.0002129032258064516,
	"loss": 0.3906,
	"step": 22
	},
	{
	"epoch": 0.0030666666666666668,
	"grad_norm": 0.8171995878219604,
	"learning_rate": 0.0002225806451612903,
	"loss": 0.4281,
	"step": 23
	},
	{
	"epoch": 0.0032,
	"grad_norm": 0.705727219581604,
	"learning_rate": 0.000232258064516129,
	"loss": 0.3834,
	"step": 24
	},
	{
	"epoch": 0.0033333333333333335,
	"grad_norm": 0.6787409782409668,
	"learning_rate": 0.00024193548387096771,
	"loss": 0.406,
	"step": 25
	},
	{
	"epoch": 0.0034666666666666665,
	"grad_norm": 0.7279700636863708,
	"learning_rate": 0.00025161290322580645,
	"loss": 0.3765,
	"step": 26
	},
	{
	"epoch": 0.0036,
	"grad_norm": 0.7276140451431274,
	"learning_rate": 0.00026129032258064515,
	"loss": 0.4069,
	"step": 27
	},
	{
	"epoch": 0.0037333333333333333,
	"grad_norm": 0.7698902487754822,
	"learning_rate": 0.00027096774193548386,
	"loss": 0.3608,
	"step": 28
	},
	{
	"epoch": 0.0038666666666666667,
	"grad_norm": 0.8046945929527283,
	"learning_rate": 0.00028064516129032256,
	"loss": 0.4095,
	"step": 29
	},
	{
	"epoch": 0.004,
	"grad_norm": 0.7282766699790955,
	"learning_rate": 0.00029032258064516127,
	"loss": 0.3621,
	"step": 30
	},
	{
	"epoch": 0.004,
	"eval_loss": 0.5078598856925964,
	"eval_runtime": 141.2069,
	"eval_samples_per_second": 7.082,
	"eval_steps_per_second": 0.885,
	"step": 30
	},
	{
	"epoch": 0.0041333333333333335,
	"grad_norm": 0.782006025314331,
	"learning_rate": 0.0003,
	"loss": 0.3693,
	"step": 31
	},
	{
	"epoch": 0.004266666666666667,
	"grad_norm": 0.778492271900177,
	"learning_rate": 0.00029893617021276595,
	"loss": 0.4193,
	"step": 32
	},
	{
	"epoch": 0.0044,
	"grad_norm": 0.828450620174408,
	"learning_rate": 0.00029787234042553186,
	"loss": 0.4269,
	"step": 33
	},
	{
	"epoch": 0.004533333333333334,
	"grad_norm": 0.7799476981163025,
	"learning_rate": 0.00029680851063829784,
	"loss": 0.4009,
	"step": 34
	},
	{
	"epoch": 0.004666666666666667,
	"grad_norm": 0.8566656708717346,
	"learning_rate": 0.0002957446808510638,
	"loss": 0.4134,
	"step": 35
	},
	{
	"epoch": 0.0048,
	"grad_norm": 0.800376832485199,
	"learning_rate": 0.0002946808510638298,
	"loss": 0.4704,
	"step": 36
	},
	{
	"epoch": 0.004933333333333333,
	"grad_norm": 0.8391082286834717,
	"learning_rate": 0.0002936170212765957,
	"loss": 0.4259,
	"step": 37
	},
	{
	"epoch": 0.005066666666666666,
	"grad_norm": 0.8332396149635315,
	"learning_rate": 0.00029255319148936167,
	"loss": 0.3887,
	"step": 38
	},
	{
	"epoch": 0.0052,
	"grad_norm": 0.8512689471244812,
	"learning_rate": 0.00029148936170212764,
	"loss": 0.3764,
	"step": 39
	},
	{
	"epoch": 0.005333333333333333,
	"grad_norm": 0.943605899810791,
	"learning_rate": 0.0002904255319148936,
	"loss": 0.3861,
	"step": 40
	},
	{
	"epoch": 0.005333333333333333,
	"eval_loss": 0.5343772172927856,
	"eval_runtime": 141.0057,
	"eval_samples_per_second": 7.092,
	"eval_steps_per_second": 0.886,
	"step": 40
	},
	{
	"epoch": 0.0054666666666666665,
	"grad_norm": 0.9403368830680847,
	"learning_rate": 0.00028936170212765953,
	"loss": 0.4365,
	"step": 41
	},
	{
	"epoch": 0.0056,
	"grad_norm": 0.8685303926467896,
	"learning_rate": 0.0002882978723404255,
	"loss": 0.363,
	"step": 42
	},
	{
	"epoch": 0.005733333333333333,
	"grad_norm": 0.8405827879905701,
	"learning_rate": 0.0002872340425531915,
	"loss": 0.3834,
	"step": 43
	},
	{
	"epoch": 0.005866666666666667,
	"grad_norm": 0.865339994430542,
	"learning_rate": 0.0002861702127659574,
	"loss": 0.3519,
	"step": 44
	},
	{
	"epoch": 0.006,
	"grad_norm": 1.0442298650741577,
	"learning_rate": 0.00028510638297872336,
	"loss": 0.4145,
	"step": 45
	},
	{
	"epoch": 0.0061333333333333335,
	"grad_norm": 1.03372323513031,
	"learning_rate": 0.00028404255319148934,
	"loss": 0.416,
	"step": 46
	},
	{
	"epoch": 0.006266666666666667,
	"grad_norm": 0.9197443723678589,
	"learning_rate": 0.0002829787234042553,
	"loss": 0.4074,
	"step": 47
	},
	{
	"epoch": 0.0064,
	"grad_norm": 0.8739194869995117,
	"learning_rate": 0.0002819148936170212,
	"loss": 0.409,
	"step": 48
	},
	{
	"epoch": 0.006533333333333334,
	"grad_norm": 0.9163395166397095,
	"learning_rate": 0.0002808510638297872,
	"loss": 0.4061,
	"step": 49
	},
	{
	"epoch": 0.006666666666666667,
	"grad_norm": 0.9468728303909302,
	"learning_rate": 0.00027978723404255317,
	"loss": 0.3975,
	"step": 50
	},
	{
	"epoch": 0.006666666666666667,
	"eval_loss": 0.5526700615882874,
	"eval_runtime": 141.3662,
	"eval_samples_per_second": 7.074,
	"eval_steps_per_second": 0.884,
	"step": 50
	},
	{
	"epoch": 0.0068,
	"grad_norm": 0.9674628973007202,
	"learning_rate": 0.00027872340425531914,
	"loss": 0.345,
	"step": 51
	},
	{
	"epoch": 0.006933333333333333,
	"grad_norm": 1.1130850315093994,
	"learning_rate": 0.00027765957446808506,
	"loss": 0.4025,
	"step": 52
	},
	{
	"epoch": 0.007066666666666666,
	"grad_norm": 0.9379608035087585,
	"learning_rate": 0.00027659574468085103,
	"loss": 0.3685,
	"step": 53
	},
	{
	"epoch": 0.0072,
	"grad_norm": 0.8657750487327576,
	"learning_rate": 0.000275531914893617,
	"loss": 0.4105,
	"step": 54
	},
	{
	"epoch": 0.007333333333333333,
	"grad_norm": 0.8662859201431274,
	"learning_rate": 0.000274468085106383,
	"loss": 0.3943,
	"step": 55
	},
	{
	"epoch": 0.007466666666666667,
	"grad_norm": 0.9244629144668579,
	"learning_rate": 0.00027340425531914895,
	"loss": 0.398,
	"step": 56
	},
	{
	"epoch": 0.0076,
	"grad_norm": 0.9753397703170776,
	"learning_rate": 0.00027234042553191487,
	"loss": 0.3954,
	"step": 57
	},
	{
	"epoch": 0.007733333333333333,
	"grad_norm": 0.8762659430503845,
	"learning_rate": 0.00027127659574468084,
	"loss": 0.4014,
	"step": 58
	},
	{
	"epoch": 0.007866666666666666,
	"grad_norm": 0.9331676363945007,
	"learning_rate": 0.00027021276595744675,
	"loss": 0.4185,
	"step": 59
	},
	{
	"epoch": 0.008,
	"grad_norm": 0.9720389246940613,
	"learning_rate": 0.0002691489361702127,
	"loss": 0.3999,
	"step": 60
	},
	{
	"epoch": 0.008,
	"eval_loss": 0.5621427297592163,
	"eval_runtime": 141.3125,
	"eval_samples_per_second": 7.077,
	"eval_steps_per_second": 0.885,
	"step": 60
	},
	{
	"epoch": 0.008133333333333333,
	"grad_norm": 0.927922785282135,
	"learning_rate": 0.0002680851063829787,
	"loss": 0.3929,
	"step": 61
	},
	{
	"epoch": 0.008266666666666667,
	"grad_norm": 1.0025831460952759,
	"learning_rate": 0.00026702127659574467,
	"loss": 0.4546,
	"step": 62
	},
	{
	"epoch": 0.0084,
	"grad_norm": 0.8520203232765198,
	"learning_rate": 0.0002659574468085106,
	"loss": 0.3829,
	"step": 63
	},
	{
	"epoch": 0.008533333333333334,
	"grad_norm": 0.8721809387207031,
	"learning_rate": 0.00026489361702127656,
	"loss": 0.4053,
	"step": 64
	},
	{
	"epoch": 0.008666666666666666,
	"grad_norm": 0.9921732544898987,
	"learning_rate": 0.00026382978723404253,
	"loss": 0.4129,
	"step": 65
	},
	{
	"epoch": 0.0088,
	"grad_norm": 1.103983759880066,
	"learning_rate": 0.0002627659574468085,
	"loss": 0.4075,
	"step": 66
	},
	{
	"epoch": 0.008933333333333333,
	"grad_norm": 1.0018322467803955,
	"learning_rate": 0.0002617021276595745,
	"loss": 0.3939,
	"step": 67
	},
	{
	"epoch": 0.009066666666666667,
	"grad_norm": 0.9683962464332581,
	"learning_rate": 0.0002606382978723404,
	"loss": 0.4202,
	"step": 68
	},
	{
	"epoch": 0.0092,
	"grad_norm": 0.8750381469726562,
	"learning_rate": 0.00025957446808510637,
	"loss": 0.4148,
	"step": 69
	},
	{
	"epoch": 0.009333333333333334,
	"grad_norm": 0.9058277606964111,
	"learning_rate": 0.0002585106382978723,
	"loss": 0.366,
	"step": 70
	},
	{
	"epoch": 0.009333333333333334,
	"eval_loss": 0.5732277631759644,
	"eval_runtime": 141.1543,
	"eval_samples_per_second": 7.084,
	"eval_steps_per_second": 0.886,
	"step": 70
	},
	{
	"epoch": 0.009466666666666667,
	"grad_norm": 1.110137939453125,
	"learning_rate": 0.00025744680851063826,
	"loss": 0.4412,
	"step": 71
	},
	{
	"epoch": 0.0096,
	"grad_norm": 0.9088068008422852,
	"learning_rate": 0.00025638297872340423,
	"loss": 0.3958,
	"step": 72
	},
	{
	"epoch": 0.009733333333333333,
	"grad_norm": 0.9388840794563293,
	"learning_rate": 0.0002553191489361702,
	"loss": 0.4404,
	"step": 73
	},
	{
	"epoch": 0.009866666666666666,
	"grad_norm": 0.9287758469581604,
	"learning_rate": 0.0002542553191489361,
	"loss": 0.407,
	"step": 74
	},
	{
	"epoch": 0.01,
	"grad_norm": 0.958987295627594,
	"learning_rate": 0.0002531914893617021,
	"loss": 0.4078,
	"step": 75
	},
	{
	"epoch": 0.010133333333333333,
	"grad_norm": 0.9800777435302734,
	"learning_rate": 0.00025212765957446806,
	"loss": 0.4293,
	"step": 76
	},
	{
	"epoch": 0.010266666666666667,
	"grad_norm": 0.9334179759025574,
	"learning_rate": 0.00025106382978723403,
	"loss": 0.3995,
	"step": 77
	},
	{
	"epoch": 0.0104,
	"grad_norm": 0.9035418629646301,
	"learning_rate": 0.00025,
	"loss": 0.3887,
	"step": 78
	},
	{
	"epoch": 0.010533333333333334,
	"grad_norm": 0.8683505654335022,
	"learning_rate": 0.0002489361702127659,
	"loss": 0.4115,
	"step": 79
	},
	{
	"epoch": 0.010666666666666666,
	"grad_norm": 0.9107844829559326,
	"learning_rate": 0.0002478723404255319,
	"loss": 0.4051,
	"step": 80
	},
	{
	"epoch": 0.010666666666666666,
	"eval_loss": 0.5675532221794128,
	"eval_runtime": 141.2008,
	"eval_samples_per_second": 7.082,
	"eval_steps_per_second": 0.885,
	"step": 80
	},
	{
	"epoch": 0.0108,
	"grad_norm": 0.9836252331733704,
	"learning_rate": 0.00024680851063829787,
	"loss": 0.3727,
	"step": 81
	},
	{
	"epoch": 0.010933333333333333,
	"grad_norm": 0.942230224609375,
	"learning_rate": 0.00024574468085106384,
	"loss": 0.425,
	"step": 82
	},
	{
	"epoch": 0.011066666666666667,
	"grad_norm": 0.8973767161369324,
	"learning_rate": 0.00024468085106382976,
	"loss": 0.3894,
	"step": 83
	},
	{
	"epoch": 0.0112,
	"grad_norm": 0.9255136847496033,
	"learning_rate": 0.00024361702127659573,
	"loss": 0.3967,
	"step": 84
	},
	{
	"epoch": 0.011333333333333334,
	"grad_norm": 0.9200630187988281,
	"learning_rate": 0.00024255319148936167,
	"loss": 0.4053,
	"step": 85
	},
	{
	"epoch": 0.011466666666666667,
	"grad_norm": 0.9372026324272156,
	"learning_rate": 0.00024148936170212765,
	"loss": 0.4982,
	"step": 86
	},
	{
	"epoch": 0.0116,
	"grad_norm": 0.8858762383460999,
	"learning_rate": 0.00024042553191489362,
	"loss": 0.412,
	"step": 87
	},
	{
	"epoch": 0.011733333333333333,
	"grad_norm": 0.8913676142692566,
	"learning_rate": 0.00023936170212765956,
	"loss": 0.3919,
	"step": 88
	},
	{
	"epoch": 0.011866666666666666,
	"grad_norm": 0.8229121565818787,
	"learning_rate": 0.00023829787234042553,
	"loss": 0.3629,
	"step": 89
	},
	{
	"epoch": 0.012,
	"grad_norm": 0.9196010231971741,
	"learning_rate": 0.00023723404255319145,
	"loss": 0.4116,
	"step": 90
	},
	{
	"epoch": 0.012,
	"eval_loss": 0.5661309361457825,
	"eval_runtime": 141.154,
	"eval_samples_per_second": 7.084,
	"eval_steps_per_second": 0.886,
	"step": 90
	},
	{
	"epoch": 0.012133333333333333,
	"grad_norm": 0.9197968244552612,
	"learning_rate": 0.00023617021276595742,
	"loss": 0.4206,
	"step": 91
	},
	{
	"epoch": 0.012266666666666667,
	"grad_norm": 0.9500861763954163,
	"learning_rate": 0.00023510638297872337,
	"loss": 0.3939,
	"step": 92
	},
	{
	"epoch": 0.0124,
	"grad_norm": 0.9442178606987,
	"learning_rate": 0.00023404255319148934,
	"loss": 0.4302,
	"step": 93
	},
	{
	"epoch": 0.012533333333333334,
	"grad_norm": 0.9234870076179504,
	"learning_rate": 0.00023297872340425529,
	"loss": 0.4138,
	"step": 94
	},
	{
	"epoch": 0.012666666666666666,
	"grad_norm": 0.8167098164558411,
	"learning_rate": 0.00023191489361702126,
	"loss": 0.4212,
	"step": 95
	},
	{
	"epoch": 0.0128,
	"grad_norm": 0.8442054390907288,
	"learning_rate": 0.0002308510638297872,
	"loss": 0.4052,
	"step": 96
	},
	{
	"epoch": 0.012933333333333333,
	"grad_norm": 0.9380055069923401,
	"learning_rate": 0.00022978723404255317,
	"loss": 0.411,
	"step": 97
	},
	{
	"epoch": 0.013066666666666667,
	"grad_norm": 0.9059054255485535,
	"learning_rate": 0.00022872340425531915,
	"loss": 0.3607,
	"step": 98
	},
	{
	"epoch": 0.0132,
	"grad_norm": 1.0604918003082275,
	"learning_rate": 0.0002276595744680851,
	"loss": 0.4224,
	"step": 99
	},
	{
	"epoch": 0.013333333333333334,
	"grad_norm": 0.9452946186065674,
	"learning_rate": 0.00022659574468085106,
	"loss": 0.3924,
	"step": 100
	},
	{
	"epoch": 0.013333333333333334,
	"eval_loss": 0.5585871338844299,
	"eval_runtime": 141.3184,
	"eval_samples_per_second": 7.076,
	"eval_steps_per_second": 0.885,
	"step": 100
	},
	{
	"epoch": 0.013466666666666667,
	"grad_norm": 0.93110191822052,
	"learning_rate": 0.00022553191489361698,
	"loss": 0.432,
	"step": 101
	},
	{
	"epoch": 0.0136,
	"grad_norm": 0.9097228050231934,
	"learning_rate": 0.00022446808510638298,
	"loss": 0.4191,
	"step": 102
	},
	{
	"epoch": 0.013733333333333334,
	"grad_norm": 0.9027892351150513,
	"learning_rate": 0.0002234042553191489,
	"loss": 0.4459,
	"step": 103
	},
	{
	"epoch": 0.013866666666666666,
	"grad_norm": 0.7606397867202759,
	"learning_rate": 0.00022234042553191487,
	"loss": 0.4774,
	"step": 104
	},
	{
	"epoch": 0.014,
	"grad_norm": 1.2175432443618774,
	"learning_rate": 0.00022127659574468081,
	"loss": 0.4321,
	"step": 105
	},
	{
	"epoch": 0.014133333333333333,
	"grad_norm": 0.8743529915809631,
	"learning_rate": 0.00022021276595744679,
	"loss": 0.3783,
	"step": 106
	},
	{
	"epoch": 0.014266666666666667,
	"grad_norm": 0.8516521453857422,
	"learning_rate": 0.00021914893617021276,
	"loss": 0.4041,
	"step": 107
	},
	{
	"epoch": 0.0144,
	"grad_norm": 0.9458008408546448,
	"learning_rate": 0.0002180851063829787,
	"loss": 0.3486,
	"step": 108
	},
	{
	"epoch": 0.014533333333333334,
	"grad_norm": 0.9315433502197266,
	"learning_rate": 0.00021702127659574468,
	"loss": 0.3847,
	"step": 109
	},
	{
	"epoch": 0.014666666666666666,
	"grad_norm": 0.8763704299926758,
	"learning_rate": 0.00021595744680851062,
	"loss": 0.3985,
	"step": 110
	},
	{
	"epoch": 0.014666666666666666,
	"eval_loss": 0.5546203255653381,
	"eval_runtime": 141.4121,
	"eval_samples_per_second": 7.072,
	"eval_steps_per_second": 0.884,
	"step": 110
	},
	{
	"epoch": 0.0148,
	"grad_norm": 0.8259232640266418,
	"learning_rate": 0.0002148936170212766,
	"loss": 0.4004,
	"step": 111
	},
	{
	"epoch": 0.014933333333333333,
	"grad_norm": 0.8948522210121155,
	"learning_rate": 0.00021382978723404254,
	"loss": 0.4032,
	"step": 112
	},
	{
	"epoch": 0.015066666666666667,
	"grad_norm": 0.8777422904968262,
	"learning_rate": 0.0002127659574468085,
	"loss": 0.4078,
	"step": 113
	},
	{
	"epoch": 0.0152,
	"grad_norm": 0.8337422013282776,
	"learning_rate": 0.00021170212765957443,
	"loss": 0.3761,
	"step": 114
	},
	{
	"epoch": 0.015333333333333332,
	"grad_norm": 0.8740651607513428,
	"learning_rate": 0.0002106382978723404,
	"loss": 0.416,
	"step": 115
	},
	{
	"epoch": 0.015466666666666667,
	"grad_norm": 0.9091439843177795,
	"learning_rate": 0.00020957446808510634,
	"loss": 0.4197,
	"step": 116
	},
	{
	"epoch": 0.0156,
	"grad_norm": 0.9028266072273254,
	"learning_rate": 0.00020851063829787232,
	"loss": 0.4151,
	"step": 117
	},
	{
	"epoch": 0.015733333333333332,
	"grad_norm": 0.8935419321060181,
	"learning_rate": 0.0002074468085106383,
	"loss": 0.4108,
	"step": 118
	},
	{
	"epoch": 0.015866666666666668,
	"grad_norm": 0.8912088871002197,
	"learning_rate": 0.00020638297872340423,
	"loss": 0.4114,
	"step": 119
	},
	{
	"epoch": 0.016,
	"grad_norm": 0.8851146101951599,
	"learning_rate": 0.0002053191489361702,
	"loss": 0.404,
	"step": 120
	},
	{
	"epoch": 0.016,
	"eval_loss": 0.5506999492645264,
	"eval_runtime": 141.1929,
	"eval_samples_per_second": 7.083,
	"eval_steps_per_second": 0.885,
	"step": 120
	},
	{
	"epoch": 0.016133333333333333,
	"grad_norm": 0.8932808637619019,
	"learning_rate": 0.00020425531914893615,
	"loss": 0.4222,
	"step": 121
	},
	{
	"epoch": 0.016266666666666665,
	"grad_norm": 0.8968888521194458,
	"learning_rate": 0.00020319148936170212,
	"loss": 0.4527,
	"step": 122
	},
	{
	"epoch": 0.0164,
	"grad_norm": 0.8441635966300964,
	"learning_rate": 0.00020212765957446807,
	"loss": 0.4008,
	"step": 123
	},
	{
	"epoch": 0.016533333333333334,
	"grad_norm": 0.8323643803596497,
	"learning_rate": 0.00020106382978723404,
	"loss": 0.3668,
	"step": 124
	},
	{
	"epoch": 0.016666666666666666,
	"grad_norm": 0.9084455966949463,
	"learning_rate": 0.00019999999999999998,
	"loss": 0.41,
	"step": 125
	},
	{
	"epoch": 0.0168,
	"grad_norm": 0.8844165802001953,
	"learning_rate": 0.00019893617021276595,
	"loss": 0.3878,
	"step": 126
	},
	{
	"epoch": 0.016933333333333335,
	"grad_norm": 0.8128172755241394,
	"learning_rate": 0.00019787234042553187,
	"loss": 0.3901,
	"step": 127
	},
	{
	"epoch": 0.017066666666666667,
	"grad_norm": 0.8739519715309143,
	"learning_rate": 0.00019680851063829784,
	"loss": 0.4114,
	"step": 128
	},
	{
	"epoch": 0.0172,
	"grad_norm": 0.8356694579124451,
	"learning_rate": 0.00019574468085106382,
	"loss": 0.4248,
	"step": 129
	},
	{
	"epoch": 0.017333333333333333,
	"grad_norm": 0.8383334279060364,
	"learning_rate": 0.00019468085106382976,
	"loss": 0.409,
	"step": 130
	},
	{
	"epoch": 0.017333333333333333,
	"eval_loss": 0.5454820990562439,
	"eval_runtime": 141.222,
	"eval_samples_per_second": 7.081,
	"eval_steps_per_second": 0.885,
	"step": 130
	},
	{
	"epoch": 0.017466666666666665,
	"grad_norm": 0.8132391571998596,
	"learning_rate": 0.00019361702127659573,
	"loss": 0.389,
	"step": 131
	},
	{
	"epoch": 0.0176,
	"grad_norm": 0.8483821749687195,
	"learning_rate": 0.00019255319148936168,
	"loss": 0.4032,
	"step": 132
	},
	{
	"epoch": 0.017733333333333334,
	"grad_norm": 0.8645078539848328,
	"learning_rate": 0.00019148936170212765,
	"loss": 0.3775,
	"step": 133
	},
	{
	"epoch": 0.017866666666666666,
	"grad_norm": 0.8843973278999329,
	"learning_rate": 0.0001904255319148936,
	"loss": 0.4026,
	"step": 134
	},
	{
	"epoch": 0.018,
	"grad_norm": 0.8225902915000916,
	"learning_rate": 0.00018936170212765957,
	"loss": 0.3515,
	"step": 135
	},
	{
	"epoch": 0.018133333333333335,
	"grad_norm": 0.8457032442092896,
	"learning_rate": 0.0001882978723404255,
	"loss": 0.4158,
	"step": 136
	},
	{
	"epoch": 0.018266666666666667,
	"grad_norm": 0.7120801210403442,
	"learning_rate": 0.00018723404255319148,
	"loss": 0.3842,
	"step": 137
	},
	{
	"epoch": 0.0184,
	"grad_norm": 0.8226205706596375,
	"learning_rate": 0.00018617021276595743,
	"loss": 0.4017,
	"step": 138
	},
	{
	"epoch": 0.018533333333333332,
	"grad_norm": 0.8248230218887329,
	"learning_rate": 0.0001851063829787234,
	"loss": 0.3892,
	"step": 139
	},
	{
	"epoch": 0.018666666666666668,
	"grad_norm": 0.7935346364974976,
	"learning_rate": 0.00018404255319148937,
	"loss": 0.382,
	"step": 140
	},
	{
	"epoch": 0.018666666666666668,
	"eval_loss": 0.5466542840003967,
	"eval_runtime": 141.4111,
	"eval_samples_per_second": 7.072,
	"eval_steps_per_second": 0.884,
	"step": 140
	},
	{
	"epoch": 0.0188,
	"grad_norm": 0.801705539226532,
	"learning_rate": 0.0001829787234042553,
	"loss": 0.4107,
	"step": 141
	},
	{
	"epoch": 0.018933333333333333,
	"grad_norm": 0.8205410838127136,
	"learning_rate": 0.00018191489361702126,
	"loss": 0.3764,
	"step": 142
	},
	{
	"epoch": 0.019066666666666666,
	"grad_norm": 0.8503196239471436,
	"learning_rate": 0.0001808510638297872,
	"loss": 0.367,
	"step": 143
	},
	{
	"epoch": 0.0192,
	"grad_norm": 0.8816925883293152,
	"learning_rate": 0.00017978723404255318,
	"loss": 0.4256,
	"step": 144
	},
	{
	"epoch": 0.019333333333333334,
	"grad_norm": 0.8757478594779968,
	"learning_rate": 0.00017872340425531912,
	"loss": 0.4198,
	"step": 145
	},
	{
	"epoch": 0.019466666666666667,
	"grad_norm": 0.779212236404419,
	"learning_rate": 0.0001776595744680851,
	"loss": 0.3922,
	"step": 146
	},
	{
	"epoch": 0.0196,
	"grad_norm": 0.8254271745681763,
	"learning_rate": 0.00017659574468085104,
	"loss": 0.3816,
	"step": 147
	},
	{
	"epoch": 0.019733333333333332,
	"grad_norm": 0.799547553062439,
	"learning_rate": 0.000175531914893617,
	"loss": 0.4173,
	"step": 148
	},
	{
	"epoch": 0.019866666666666668,
	"grad_norm": 0.8124542236328125,
	"learning_rate": 0.00017446808510638296,
	"loss": 0.4354,
	"step": 149
	},
	{
	"epoch": 0.02,
	"grad_norm": 0.8514212369918823,
	"learning_rate": 0.00017340425531914893,
	"loss": 0.3907,
	"step": 150
	},
	{
	"epoch": 0.02,
	"eval_loss": 0.5364201664924622,
	"eval_runtime": 141.3883,
	"eval_samples_per_second": 7.073,
	"eval_steps_per_second": 0.884,
	"step": 150
	},
	{
	"epoch": 0.020133333333333333,
	"grad_norm": 0.8387048244476318,
	"learning_rate": 0.0001723404255319149,
	"loss": 0.4026,
	"step": 151
	},
	{
	"epoch": 0.020266666666666665,
	"grad_norm": 0.8056347370147705,
	"learning_rate": 0.00017127659574468085,
	"loss": 0.38,
	"step": 152
	},
	{
	"epoch": 0.0204,
	"grad_norm": 0.816634476184845,
	"learning_rate": 0.00017021276595744682,
	"loss": 0.4146,
	"step": 153
	},
	{
	"epoch": 0.020533333333333334,
	"grad_norm": 0.8422130942344666,
	"learning_rate": 0.00016914893617021274,
	"loss": 0.3812,
	"step": 154
	},
	{
	"epoch": 0.020666666666666667,
	"grad_norm": 0.8215208053588867,
	"learning_rate": 0.0001680851063829787,
	"loss": 0.3872,
	"step": 155
	},
	{
	"epoch": 0.0208,
	"grad_norm": 0.8078241944313049,
	"learning_rate": 0.00016702127659574465,
	"loss": 0.4068,
	"step": 156
	},
	{
	"epoch": 0.020933333333333335,
	"grad_norm": 0.7864189743995667,
	"learning_rate": 0.00016595744680851062,
	"loss": 0.4189,
	"step": 157
	},
	{
	"epoch": 0.021066666666666668,
	"grad_norm": 0.7402704358100891,
	"learning_rate": 0.00016489361702127657,
	"loss": 0.3894,
	"step": 158
	},
	{
	"epoch": 0.0212,
	"grad_norm": 0.7902686595916748,
	"learning_rate": 0.00016382978723404254,
	"loss": 0.4247,
	"step": 159
	},
	{
	"epoch": 0.021333333333333333,
	"grad_norm": 0.7915481328964233,
	"learning_rate": 0.00016276595744680849,
	"loss": 0.414,
	"step": 160
	},
	{
	"epoch": 0.021333333333333333,
	"eval_loss": 0.5295315384864807,
	"eval_runtime": 141.3596,
	"eval_samples_per_second": 7.074,
	"eval_steps_per_second": 0.884,
	"step": 160
	},
	{
	"epoch": 0.021466666666666665,
	"grad_norm": 0.7913756966590881,
	"learning_rate": 0.00016170212765957446,
	"loss": 0.434,
	"step": 161
	},
	{
	"epoch": 0.0216,
	"grad_norm": 0.8419508934020996,
	"learning_rate": 0.00016063829787234043,
	"loss": 0.4085,
	"step": 162
	},
	{
	"epoch": 0.021733333333333334,
	"grad_norm": 0.8285740613937378,
	"learning_rate": 0.00015957446808510637,
	"loss": 0.429,
	"step": 163
	},
	{
	"epoch": 0.021866666666666666,
	"grad_norm": 0.7917773723602295,
	"learning_rate": 0.00015851063829787235,
	"loss": 0.3991,
	"step": 164
	},
	{
	"epoch": 0.022,
	"grad_norm": 0.7547069787979126,
	"learning_rate": 0.0001574468085106383,
	"loss": 0.3922,
	"step": 165
	},
	{
	"epoch": 0.022133333333333335,
	"grad_norm": 0.7833614349365234,
	"learning_rate": 0.00015638297872340426,
	"loss": 0.4045,
	"step": 166
	},
	{
	"epoch": 0.022266666666666667,
	"grad_norm": 0.7098473310470581,
	"learning_rate": 0.00015531914893617018,
	"loss": 0.3612,
	"step": 167
	},
	{
	"epoch": 0.0224,
	"grad_norm": 0.8009598851203918,
	"learning_rate": 0.00015425531914893615,
	"loss": 0.3941,
	"step": 168
	},
	{
	"epoch": 0.022533333333333332,
	"grad_norm": 0.7647989392280579,
	"learning_rate": 0.0001531914893617021,
	"loss": 0.428,
	"step": 169
	},
	{
	"epoch": 0.02266666666666667,
	"grad_norm": 0.7413218021392822,
	"learning_rate": 0.00015212765957446807,
	"loss": 0.4004,
	"step": 170
	},
	{
	"epoch": 0.02266666666666667,
	"eval_loss": 0.5258446335792542,
	"eval_runtime": 141.6498,
	"eval_samples_per_second": 7.06,
	"eval_steps_per_second": 0.882,
	"step": 170
	},
	{
	"epoch": 0.0228,
	"grad_norm": 0.8982724547386169,
	"learning_rate": 0.00015106382978723401,
	"loss": 0.3904,
	"step": 171
	},
	{
	"epoch": 0.022933333333333333,
	"grad_norm": 0.7986995577812195,
	"learning_rate": 0.00015,
	"loss": 0.395,
	"step": 172
	},
	{
	"epoch": 0.023066666666666666,
	"grad_norm": 0.8277859687805176,
	"learning_rate": 0.00014893617021276593,
	"loss": 0.4046,
	"step": 173
	},
	{
	"epoch": 0.0232,
	"grad_norm": 0.7860122323036194,
	"learning_rate": 0.0001478723404255319,
	"loss": 0.4062,
	"step": 174
	},
	{
	"epoch": 0.023333333333333334,
	"grad_norm": 0.7145754098892212,
	"learning_rate": 0.00014680851063829785,
	"loss": 0.3646,
	"step": 175
	},
	{
	"epoch": 0.023466666666666667,
	"grad_norm": 0.7535431385040283,
	"learning_rate": 0.00014574468085106382,
	"loss": 0.4218,
	"step": 176
	},
	{
	"epoch": 0.0236,
	"grad_norm": 0.7451829314231873,
	"learning_rate": 0.00014468085106382977,
	"loss": 0.4317,
	"step": 177
	},
	{
	"epoch": 0.023733333333333332,
	"grad_norm": 0.7648677229881287,
	"learning_rate": 0.00014361702127659574,
	"loss": 0.402,
	"step": 178
	},
	{
	"epoch": 0.023866666666666668,
	"grad_norm": 0.7619218230247498,
	"learning_rate": 0.00014255319148936168,
	"loss": 0.3876,
	"step": 179
	},
	{
	"epoch": 0.024,
	"grad_norm": 0.7667227983474731,
	"learning_rate": 0.00014148936170212765,
	"loss": 0.4272,
	"step": 180
	},
	{
	"epoch": 0.024,
	"eval_loss": 0.5196744203567505,
	"eval_runtime": 141.2097,
	"eval_samples_per_second": 7.082,
	"eval_steps_per_second": 0.885,
	"step": 180
	},
	{
	"epoch": 0.024133333333333333,
	"grad_norm": 0.762640655040741,
	"learning_rate": 0.0001404255319148936,
	"loss": 0.3832,
	"step": 181
	},
	{
	"epoch": 0.024266666666666666,
	"grad_norm": 0.7354644536972046,
	"learning_rate": 0.00013936170212765957,
	"loss": 0.3842,
	"step": 182
	},
	{
	"epoch": 0.0244,
	"grad_norm": 0.7519205212593079,
	"learning_rate": 0.00013829787234042552,
	"loss": 0.3891,
	"step": 183
	},
	{
	"epoch": 0.024533333333333334,
	"grad_norm": 0.7645637392997742,
	"learning_rate": 0.0001372340425531915,
	"loss": 0.4175,
	"step": 184
	},
	{
	"epoch": 0.024666666666666667,
	"grad_norm": 0.7095506191253662,
	"learning_rate": 0.00013617021276595743,
	"loss": 0.3842,
	"step": 185
	},
	{
	"epoch": 0.0248,
	"grad_norm": 0.7318341732025146,
	"learning_rate": 0.00013510638297872338,
	"loss": 0.403,
	"step": 186
	},
	{
	"epoch": 0.02493333333333333,
	"grad_norm": 0.7447018623352051,
	"learning_rate": 0.00013404255319148935,
	"loss": 0.4024,
	"step": 187
	},
	{
	"epoch": 0.025066666666666668,
	"grad_norm": 0.7415079474449158,
	"learning_rate": 0.0001329787234042553,
	"loss": 0.3893,
	"step": 188
	},
	{
	"epoch": 0.0252,
	"grad_norm": 0.8024099469184875,
	"learning_rate": 0.00013191489361702127,
	"loss": 0.3919,
	"step": 189
	},
	{
	"epoch": 0.025333333333333333,
	"grad_norm": 0.7455788254737854,
	"learning_rate": 0.00013085106382978724,
	"loss": 0.4039,
	"step": 190
	},
	{
	"epoch": 0.025333333333333333,
	"eval_loss": 0.5126989483833313,
	"eval_runtime": 141.4808,
	"eval_samples_per_second": 7.068,
	"eval_steps_per_second": 0.884,
	"step": 190
	},
	{
	"epoch": 0.025466666666666665,
	"grad_norm": 0.7716648578643799,
	"learning_rate": 0.00012978723404255318,
	"loss": 0.4094,
	"step": 191
	},
	{
	"epoch": 0.0256,
	"grad_norm": 0.7623326182365417,
	"learning_rate": 0.00012872340425531913,
	"loss": 0.4072,
	"step": 192
	},
	{
	"epoch": 0.025733333333333334,
	"grad_norm": 0.7241936922073364,
	"learning_rate": 0.0001276595744680851,
	"loss": 0.4341,
	"step": 193
	},
	{
	"epoch": 0.025866666666666666,
	"grad_norm": 0.7537694573402405,
	"learning_rate": 0.00012659574468085104,
	"loss": 0.4064,
	"step": 194
	},
	{
	"epoch": 0.026,
	"grad_norm": 0.7874061465263367,
	"learning_rate": 0.00012553191489361702,
	"loss": 0.4092,
	"step": 195
	},
	{
	"epoch": 0.026133333333333335,
	"grad_norm": 0.7491751909255981,
	"learning_rate": 0.00012446808510638296,
	"loss": 0.389,
	"step": 196
	},
	{
	"epoch": 0.026266666666666667,
	"grad_norm": 0.709567666053772,
	"learning_rate": 0.00012340425531914893,
	"loss": 0.3829,
	"step": 197
	},
	{
	"epoch": 0.0264,
	"grad_norm": 0.7054778933525085,
	"learning_rate": 0.00012234042553191488,
	"loss": 0.4149,
	"step": 198
	},
	{
	"epoch": 0.026533333333333332,
	"grad_norm": 0.6678067445755005,
	"learning_rate": 0.00012127659574468084,
	"loss": 0.383,
	"step": 199
	},
	{
	"epoch": 0.02666666666666667,
	"grad_norm": 0.7279874086380005,
	"learning_rate": 0.00012021276595744681,
	"loss": 0.4076,
	"step": 200
	},
	{
	"epoch": 0.02666666666666667,
	"eval_loss": 0.5089948177337646,
	"eval_runtime": 141.5313,
	"eval_samples_per_second": 7.066,
	"eval_steps_per_second": 0.883,
	"step": 200
	},
	{
	"epoch": 0.0268,
	"grad_norm": 0.7242472171783447,
	"learning_rate": 0.00011914893617021277,
	"loss": 0.3952,
	"step": 201
	},
	{
	"epoch": 0.026933333333333333,
	"grad_norm": 0.7404840588569641,
	"learning_rate": 0.00011808510638297871,
	"loss": 0.367,
	"step": 202
	},
	{
	"epoch": 0.027066666666666666,
	"grad_norm": 0.6994010806083679,
	"learning_rate": 0.00011702127659574467,
	"loss": 0.3815,
	"step": 203
	},
	{
	"epoch": 0.0272,
	"grad_norm": 0.6849843859672546,
	"learning_rate": 0.00011595744680851063,
	"loss": 0.363,
	"step": 204
	},
	{
	"epoch": 0.027333333333333334,
	"grad_norm": 0.7548534274101257,
	"learning_rate": 0.00011489361702127659,
	"loss": 0.375,
	"step": 205
	},
	{
	"epoch": 0.027466666666666667,
	"grad_norm": 0.7027921080589294,
	"learning_rate": 0.00011382978723404255,
	"loss": 0.3717,
	"step": 206
	},
	{
	"epoch": 0.0276,
	"grad_norm": 0.7290288209915161,
	"learning_rate": 0.00011276595744680849,
	"loss": 0.4277,
	"step": 207
	},
	{
	"epoch": 0.027733333333333332,
	"grad_norm": 0.7112368941307068,
	"learning_rate": 0.00011170212765957445,
	"loss": 0.3642,
	"step": 208
	},
	{
	"epoch": 0.027866666666666668,
	"grad_norm": 0.7195504903793335,
	"learning_rate": 0.00011063829787234041,
	"loss": 0.4139,
	"step": 209
	},
	{
	"epoch": 0.028,
	"grad_norm": 0.6694400310516357,
	"learning_rate": 0.00010957446808510638,
	"loss": 0.3889,
	"step": 210
	},
	{
	"epoch": 0.028,
	"eval_loss": 0.5049722194671631,
	"eval_runtime": 141.3107,
	"eval_samples_per_second": 7.077,
	"eval_steps_per_second": 0.885,
	"step": 210
	},
	{
	"epoch": 0.028133333333333333,
	"grad_norm": 0.6607633233070374,
	"learning_rate": 0.00010851063829787234,
	"loss": 0.3657,
	"step": 211
	},
	{
	"epoch": 0.028266666666666666,
	"grad_norm": 0.6796385645866394,
	"learning_rate": 0.0001074468085106383,
	"loss": 0.3956,
	"step": 212
	},
	{
	"epoch": 0.0284,
	"grad_norm": 0.7247062921524048,
	"learning_rate": 0.00010638297872340425,
	"loss": 0.4537,
	"step": 213
	},
	{
	"epoch": 0.028533333333333334,
	"grad_norm": 0.689423143863678,
	"learning_rate": 0.0001053191489361702,
	"loss": 0.3886,
	"step": 214
	},
	{
	"epoch": 0.028666666666666667,
	"grad_norm": 0.7083090543746948,
	"learning_rate": 0.00010425531914893616,
	"loss": 0.4199,
	"step": 215
	},
	{
	"epoch": 0.0288,
	"grad_norm": 0.6640324592590332,
	"learning_rate": 0.00010319148936170212,
	"loss": 0.3593,
	"step": 216
	},
	{
	"epoch": 0.028933333333333332,
	"grad_norm": 0.6480628848075867,
	"learning_rate": 0.00010212765957446807,
	"loss": 0.4187,
	"step": 217
	},
	{
	"epoch": 0.029066666666666668,
	"grad_norm": 0.6782264709472656,
	"learning_rate": 0.00010106382978723403,
	"loss": 0.3837,
	"step": 218
	},
	{
	"epoch": 0.0292,
	"grad_norm": 0.6657284498214722,
	"learning_rate": 9.999999999999999e-05,
	"loss": 0.3868,
	"step": 219
	},
	{
	"epoch": 0.029333333333333333,
	"grad_norm": 0.6578888893127441,
	"learning_rate": 9.893617021276594e-05,
	"loss": 0.4006,
	"step": 220
	},
	{
	"epoch": 0.029333333333333333,
	"eval_loss": 0.5006869435310364,
	"eval_runtime": 141.649,
	"eval_samples_per_second": 7.06,
	"eval_steps_per_second": 0.882,
	"step": 220
	},
	{
	"epoch": 0.029466666666666665,
	"grad_norm": 0.6612751483917236,
	"learning_rate": 9.787234042553191e-05,
	"loss": 0.3903,
	"step": 221
	},
	{
	"epoch": 0.0296,
	"grad_norm": 0.7227184176445007,
	"learning_rate": 9.680851063829787e-05,
	"loss": 0.3962,
	"step": 222
	},
	{
	"epoch": 0.029733333333333334,
	"grad_norm": 0.6638945937156677,
	"learning_rate": 9.574468085106382e-05,
	"loss": 0.3968,
	"step": 223
	},
	{
	"epoch": 0.029866666666666666,
	"grad_norm": 0.6724333167076111,
	"learning_rate": 9.468085106382978e-05,
	"loss": 0.3697,
	"step": 224
	},
	{
	"epoch": 0.03,
	"grad_norm": 0.7041984796524048,
	"learning_rate": 9.361702127659574e-05,
	"loss": 0.4536,
	"step": 225
	},
	{
	"epoch": 0.030133333333333335,
	"grad_norm": 0.6924453973770142,
	"learning_rate": 9.25531914893617e-05,
	"loss": 0.4517,
	"step": 226
	},
	{
	"epoch": 0.030266666666666667,
	"grad_norm": 0.6449741125106812,
	"learning_rate": 9.148936170212764e-05,
	"loss": 0.3798,
	"step": 227
	},
	{
	"epoch": 0.0304,
	"grad_norm": 0.6753547191619873,
	"learning_rate": 9.04255319148936e-05,
	"loss": 0.3996,
	"step": 228
	},
	{
	"epoch": 0.030533333333333332,
	"grad_norm": 0.6793354153633118,
	"learning_rate": 8.936170212765956e-05,
	"loss": 0.3933,
	"step": 229
	},
	{
	"epoch": 0.030666666666666665,
	"grad_norm": 0.6322203278541565,
	"learning_rate": 8.829787234042552e-05,
	"loss": 0.3866,
	"step": 230
	},
	{
	"epoch": 0.030666666666666665,
	"eval_loss": 0.49291712045669556,
	"eval_runtime": 141.463,
	"eval_samples_per_second": 7.069,
	"eval_steps_per_second": 0.884,
	"step": 230
	},
	{
	"epoch": 0.0308,
	"grad_norm": 0.7175498008728027,
	"learning_rate": 8.723404255319148e-05,
	"loss": 0.4711,
	"step": 231
	},
	{
	"epoch": 0.030933333333333334,
	"grad_norm": 0.6373987793922424,
	"learning_rate": 8.617021276595745e-05,
	"loss": 0.3951,
	"step": 232
	},
	{
	"epoch": 0.031066666666666666,
	"grad_norm": 0.7253538966178894,
	"learning_rate": 8.510638297872341e-05,
	"loss": 0.4169,
	"step": 233
	},
	{
	"epoch": 0.0312,
	"grad_norm": 0.6647905111312866,
	"learning_rate": 8.404255319148935e-05,
	"loss": 0.4409,
	"step": 234
	},
	{
	"epoch": 0.03133333333333333,
	"grad_norm": 0.6949893832206726,
	"learning_rate": 8.297872340425531e-05,
	"loss": 0.4269,
	"step": 235
	},
	{
	"epoch": 0.031466666666666664,
	"grad_norm": 0.7183098196983337,
	"learning_rate": 8.191489361702127e-05,
	"loss": 0.3793,
	"step": 236
	},
	{
	"epoch": 0.0316,
	"grad_norm": 0.6919881105422974,
	"learning_rate": 8.085106382978723e-05,
	"loss": 0.3937,
	"step": 237
	},
	{
	"epoch": 0.031733333333333336,
	"grad_norm": 0.6800768375396729,
	"learning_rate": 7.978723404255319e-05,
	"loss": 0.4026,
	"step": 238
	},
	{
	"epoch": 0.03186666666666667,
	"grad_norm": 0.5793167352676392,
	"learning_rate": 7.872340425531915e-05,
	"loss": 0.374,
	"step": 239
	},
	{
	"epoch": 0.032,
	"grad_norm": 0.6842488050460815,
	"learning_rate": 7.765957446808509e-05,
	"loss": 0.4289,
	"step": 240
	},
	{
	"epoch": 0.032,
	"eval_loss": 0.4894670844078064,
	"eval_runtime": 141.1428,
	"eval_samples_per_second": 7.085,
	"eval_steps_per_second": 0.886,
	"step": 240
	},
	{
	"epoch": 0.03213333333333333,
	"grad_norm": 0.6346961855888367,
	"learning_rate": 7.659574468085105e-05,
	"loss": 0.4015,
	"step": 241
	},
	{
	"epoch": 0.032266666666666666,
	"grad_norm": 0.6182055473327637,
	"learning_rate": 7.553191489361701e-05,
	"loss": 0.4137,
	"step": 242
	},
	{
	"epoch": 0.0324,
	"grad_norm": 0.6297070384025574,
	"learning_rate": 7.446808510638297e-05,
	"loss": 0.3865,
	"step": 243
	},
	{
	"epoch": 0.03253333333333333,
	"grad_norm": 0.6168206930160522,
	"learning_rate": 7.340425531914892e-05,
	"loss": 0.4146,
	"step": 244
	},
	{
	"epoch": 0.03266666666666666,
	"grad_norm": 0.64501953125,
	"learning_rate": 7.234042553191488e-05,
	"loss": 0.3888,
	"step": 245
	},
	{
	"epoch": 0.0328,
	"grad_norm": 0.6902901530265808,
	"learning_rate": 7.127659574468084e-05,
	"loss": 0.4126,
	"step": 246
	},
	{
	"epoch": 0.032933333333333335,
	"grad_norm": 0.6351602077484131,
	"learning_rate": 7.02127659574468e-05,
	"loss": 0.3936,
	"step": 247
	},
	{
	"epoch": 0.03306666666666667,
	"grad_norm": 0.6310396194458008,
	"learning_rate": 6.914893617021276e-05,
	"loss": 0.4001,
	"step": 248
	},
	{
	"epoch": 0.0332,
	"grad_norm": 0.6404752135276794,
	"learning_rate": 6.808510638297872e-05,
	"loss": 0.4104,
	"step": 249
	},
	{
	"epoch": 0.03333333333333333,
	"grad_norm": 0.6261141896247864,
	"learning_rate": 6.702127659574467e-05,
	"loss": 0.3674,
	"step": 250
	},
	{
	"epoch": 0.03333333333333333,
	"eval_loss": 0.48603081703186035,
	"eval_runtime": 141.1873,
	"eval_samples_per_second": 7.083,
	"eval_steps_per_second": 0.885,
	"step": 250
	},
	{
	"epoch": 0.033466666666666665,
	"grad_norm": 0.6511746048927307,
	"learning_rate": 6.595744680851063e-05,
	"loss": 0.4128,
	"step": 251
	},
	{
	"epoch": 0.0336,
	"grad_norm": 0.6165076494216919,
	"learning_rate": 6.489361702127659e-05,
	"loss": 0.3904,
	"step": 252
	},
	{
	"epoch": 0.03373333333333333,
	"grad_norm": 0.6632899045944214,
	"learning_rate": 6.382978723404255e-05,
	"loss": 0.3914,
	"step": 253
	},
	{
	"epoch": 0.03386666666666667,
	"grad_norm": 0.5832062363624573,
	"learning_rate": 6.276595744680851e-05,
	"loss": 0.3785,
	"step": 254
	},
	{
	"epoch": 0.034,
	"grad_norm": 0.6393153071403503,
	"learning_rate": 6.170212765957447e-05,
	"loss": 0.3972,
	"step": 255
	},
	{
	"epoch": 0.034133333333333335,
	"grad_norm": 0.6468214392662048,
	"learning_rate": 6.063829787234042e-05,
	"loss": 0.3942,
	"step": 256
	},
	{
	"epoch": 0.03426666666666667,
	"grad_norm": 0.6431373953819275,
	"learning_rate": 5.9574468085106384e-05,
	"loss": 0.3949,
	"step": 257
	},
	{
	"epoch": 0.0344,
	"grad_norm": 0.6360663771629333,
	"learning_rate": 5.8510638297872335e-05,
	"loss": 0.3923,
	"step": 258
	},
	{
	"epoch": 0.03453333333333333,
	"grad_norm": 0.6813873648643494,
	"learning_rate": 5.7446808510638294e-05,
	"loss": 0.4474,
	"step": 259
	},
	{
	"epoch": 0.034666666666666665,
	"grad_norm": 0.6415489912033081,
	"learning_rate": 5.6382978723404245e-05,
	"loss": 0.3644,
	"step": 260
	},
	{
	"epoch": 0.034666666666666665,
	"eval_loss": 0.4838036298751831,
	"eval_runtime": 141.3865,
	"eval_samples_per_second": 7.073,
	"eval_steps_per_second": 0.884,
	"step": 260
	},
	{
	"epoch": 0.0348,
	"grad_norm": 0.6562638282775879,
	"learning_rate": 5.5319148936170204e-05,
	"loss": 0.4254,
	"step": 261
	},
	{
	"epoch": 0.03493333333333333,
	"grad_norm": 0.6409335136413574,
	"learning_rate": 5.425531914893617e-05,
	"loss": 0.4295,
	"step": 262
	},
	{
	"epoch": 0.03506666666666667,
	"grad_norm": 0.6701998710632324,
	"learning_rate": 5.319148936170213e-05,
	"loss": 0.4103,
	"step": 263
	},
	{
	"epoch": 0.0352,
	"grad_norm": 0.6443625688552856,
	"learning_rate": 5.212765957446808e-05,
	"loss": 0.4208,
	"step": 264
	},
	{
	"epoch": 0.035333333333333335,
	"grad_norm": 0.6580439209938049,
	"learning_rate": 5.106382978723404e-05,
	"loss": 0.3926,
	"step": 265
	},
	{
	"epoch": 0.03546666666666667,
	"grad_norm": 0.6513085961341858,
	"learning_rate": 4.9999999999999996e-05,
	"loss": 0.3753,
	"step": 266
	},
	{
	"epoch": 0.0356,
	"grad_norm": 0.61977618932724,
	"learning_rate": 4.8936170212765954e-05,
	"loss": 0.356,
	"step": 267
	},
	{
	"epoch": 0.03573333333333333,
	"grad_norm": 0.6972789168357849,
	"learning_rate": 4.787234042553191e-05,
	"loss": 0.4154,
	"step": 268
	},
	{
	"epoch": 0.035866666666666665,
	"grad_norm": 0.6055701375007629,
	"learning_rate": 4.680851063829787e-05,
	"loss": 0.3962,
	"step": 269
	},
	{
	"epoch": 0.036,
	"grad_norm": 0.6328206062316895,
	"learning_rate": 4.574468085106382e-05,
	"loss": 0.3887,
	"step": 270
	},
	{
	"epoch": 0.036,
	"eval_loss": 0.4804232716560364,
	"eval_runtime": 141.7017,
	"eval_samples_per_second": 7.057,
	"eval_steps_per_second": 0.882,
	"step": 270
	},
	{
	"epoch": 0.03613333333333334,
	"grad_norm": 0.61911541223526,
	"learning_rate": 4.468085106382978e-05,
	"loss": 0.4025,
	"step": 271
	},
	{
	"epoch": 0.03626666666666667,
	"grad_norm": 0.6735214591026306,
	"learning_rate": 4.361702127659574e-05,
	"loss": 0.3854,
	"step": 272
	},
	{
	"epoch": 0.0364,
	"grad_norm": 0.7260206341743469,
	"learning_rate": 4.2553191489361704e-05,
	"loss": 0.5178,
	"step": 273
	},
	{
	"epoch": 0.036533333333333334,
	"grad_norm": 0.641946017742157,
	"learning_rate": 4.1489361702127656e-05,
	"loss": 0.394,
	"step": 274
	},
	{
	"epoch": 0.03666666666666667,
	"grad_norm": 0.6131489872932434,
	"learning_rate": 4.0425531914893614e-05,
	"loss": 0.4938,
	"step": 275
	},
	{
	"epoch": 0.0368,
	"grad_norm": 0.6072583198547363,
	"learning_rate": 3.936170212765957e-05,
	"loss": 0.3852,
	"step": 276
	},
	{
	"epoch": 0.03693333333333333,
	"grad_norm": 0.5903816819190979,
	"learning_rate": 3.8297872340425525e-05,
	"loss": 0.383,
	"step": 277
	},
	{
	"epoch": 0.037066666666666664,
	"grad_norm": 0.6206436157226562,
	"learning_rate": 3.723404255319148e-05,
	"loss": 0.3758,
	"step": 278
	},
	{
	"epoch": 0.0372,
	"grad_norm": 0.6025145649909973,
	"learning_rate": 3.617021276595744e-05,
	"loss": 0.3832,
	"step": 279
	},
	{
	"epoch": 0.037333333333333336,
	"grad_norm": 0.6661312580108643,
	"learning_rate": 3.51063829787234e-05,
	"loss": 0.4168,
	"step": 280
	},
	{
	"epoch": 0.037333333333333336,
	"eval_loss": 0.4782504141330719,
	"eval_runtime": 141.7096,
	"eval_samples_per_second": 7.057,
	"eval_steps_per_second": 0.882,
	"step": 280
	},
	{
	"epoch": 0.03746666666666667,
	"grad_norm": 0.6313883066177368,
	"learning_rate": 3.404255319148936e-05,
	"loss": 0.4176,
	"step": 281
	},
	{
	"epoch": 0.0376,
	"grad_norm": 0.5728066563606262,
	"learning_rate": 3.2978723404255317e-05,
	"loss": 0.3487,
	"step": 282
	},
	{
	"epoch": 0.037733333333333334,
	"grad_norm": 0.6167532205581665,
	"learning_rate": 3.1914893617021275e-05,
	"loss": 0.398,
	"step": 283
	},
	{
	"epoch": 0.037866666666666667,
	"grad_norm": 0.6028872728347778,
	"learning_rate": 3.085106382978723e-05,
	"loss": 0.3588,
	"step": 284
	},
	{
	"epoch": 0.038,
	"grad_norm": 0.6013098955154419,
	"learning_rate": 2.9787234042553192e-05,
	"loss": 0.4009,
	"step": 285
	},
	{
	"epoch": 0.03813333333333333,
	"grad_norm": 0.6228728294372559,
	"learning_rate": 2.8723404255319147e-05,
	"loss": 0.3984,
	"step": 286
	},
	{
	"epoch": 0.038266666666666664,
	"grad_norm": 0.6401664018630981,
	"learning_rate": 2.7659574468085102e-05,
	"loss": 0.429,
	"step": 287
	},
	{
	"epoch": 0.0384,
	"grad_norm": 0.6373335719108582,
	"learning_rate": 2.6595744680851064e-05,
	"loss": 0.384,
	"step": 288
	},
	{
	"epoch": 0.038533333333333336,
	"grad_norm": 0.6099696755409241,
	"learning_rate": 2.553191489361702e-05,
	"loss": 0.4116,
	"step": 289
	},
	{
	"epoch": 0.03866666666666667,
	"grad_norm": 0.6114339828491211,
	"learning_rate": 2.4468085106382977e-05,
	"loss": 0.3991,
	"step": 290
	},
	{
	"epoch": 0.03866666666666667,
	"eval_loss": 0.47486981749534607,
	"eval_runtime": 141.6625,
	"eval_samples_per_second": 7.059,
	"eval_steps_per_second": 0.882,
	"step": 290
	},
	{
	"epoch": 0.0388,
	"grad_norm": 0.6080420017242432,
	"learning_rate": 2.3404255319148935e-05,
	"loss": 0.377,
	"step": 291
	},
	{
	"epoch": 0.038933333333333334,
	"grad_norm": 0.5992590188980103,
	"learning_rate": 2.234042553191489e-05,
	"loss": 0.3683,
	"step": 292
	},
	{
	"epoch": 0.039066666666666666,
	"grad_norm": 0.6151382327079773,
	"learning_rate": 2.1276595744680852e-05,
	"loss": 0.3638,
	"step": 293
	},
	{
	"epoch": 0.0392,
	"grad_norm": 0.5946884751319885,
	"learning_rate": 2.0212765957446807e-05,
	"loss": 0.3723,
	"step": 294
	},
	{
	"epoch": 0.03933333333333333,
	"grad_norm": 0.6242040991783142,
	"learning_rate": 1.9148936170212762e-05,
	"loss": 0.4251,
	"step": 295
	},
	{
	"epoch": 0.039466666666666664,
	"grad_norm": 0.6351944804191589,
	"learning_rate": 1.808510638297872e-05,
	"loss": 0.3701,
	"step": 296
	},
	{
	"epoch": 0.0396,
	"grad_norm": 0.6054936051368713,
	"learning_rate": 1.702127659574468e-05,
	"loss": 0.3834,
	"step": 297
	},
	{
	"epoch": 0.039733333333333336,
	"grad_norm": 0.6164801716804504,
	"learning_rate": 1.5957446808510637e-05,
	"loss": 0.3664,
	"step": 298
	},
	{
	"epoch": 0.03986666666666667,
	"grad_norm": 0.5850508809089661,
	"learning_rate": 1.4893617021276596e-05,
	"loss": 0.3863,
	"step": 299
	},
	{
	"epoch": 0.04,
	"grad_norm": 0.6170298457145691,
	"learning_rate": 1.3829787234042551e-05,
	"loss": 0.4288,
	"step": 300
	},
	{
	"epoch": 0.04,
	"eval_loss": 0.47352975606918335,
	"eval_runtime": 141.5274,
	"eval_samples_per_second": 7.066,
	"eval_steps_per_second": 0.883,
	"step": 300
	},
	{
	"epoch": 0.04013333333333333,
	"grad_norm": 0.6291190981864929,
	"learning_rate": 1.276595744680851e-05,
	"loss": 0.4353,
	"step": 301
	},
	{
	"epoch": 0.040266666666666666,
	"grad_norm": 0.6266964077949524,
	"learning_rate": 1.1702127659574468e-05,
	"loss": 0.3897,
	"step": 302
	},
	{
	"epoch": 0.0404,
	"grad_norm": 0.552639901638031,
	"learning_rate": 1.0638297872340426e-05,
	"loss": 0.3519,
	"step": 303
	},
	{
	"epoch": 0.04053333333333333,
	"grad_norm": 0.6493646502494812,
	"learning_rate": 9.574468085106381e-06,
	"loss": 0.3921,
	"step": 304
	},
	{
	"epoch": 0.04066666666666666,
	"grad_norm": 0.6215342879295349,
	"learning_rate": 8.51063829787234e-06,
	"loss": 0.3865,
	"step": 305
	},
	{
	"epoch": 0.0408,
	"grad_norm": 0.6077576875686646,
	"learning_rate": 7.446808510638298e-06,
	"loss": 0.3867,
	"step": 306
	},
	{
	"epoch": 0.040933333333333335,
	"grad_norm": 0.6194751262664795,
	"learning_rate": 6.382978723404255e-06,
	"loss": 0.3794,
	"step": 307
	},
	{
	"epoch": 0.04106666666666667,
	"grad_norm": 0.6333131790161133,
	"learning_rate": 5.319148936170213e-06,
	"loss": 0.4333,
	"step": 308
	},
	{
	"epoch": 0.0412,
	"grad_norm": 0.6461464762687683,
	"learning_rate": 4.25531914893617e-06,
	"loss": 0.3933,
	"step": 309
	},
	{
	"epoch": 0.04133333333333333,
	"grad_norm": 0.6700551509857178,
	"learning_rate": 3.1914893617021273e-06,
	"loss": 0.3856,
	"step": 310
	},
	{
	"epoch": 0.04133333333333333,
	"eval_loss": 0.47274792194366455,
	"eval_runtime": 141.5862,
	"eval_samples_per_second": 7.063,
	"eval_steps_per_second": 0.883,
	"step": 310
	},
	{
	"epoch": 0.041466666666666666,
	"grad_norm": 0.5907768607139587,
	"learning_rate": 2.127659574468085e-06,
	"loss": 0.4333,
	"step": 311
	},
	{
	"epoch": 0.0416,
	"grad_norm": 0.5912094116210938,
	"learning_rate": 1.0638297872340424e-06,
	"loss": 0.3698,
	"step": 312
	},
	{
	"epoch": 0.04173333333333333,
	"grad_norm": 0.5533092021942139,
	"learning_rate": 0.0,
	"loss": 0.355,
	"step": 313
	}
	],
	"logging_steps": 1,
	"max_steps": 313,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 50,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 7.623999156799734e+17,
	"train_batch_size": 12,
	"trial_name": null,
	"trial_params": null
	}