tinystories_baseline / trainer_state.json

ptsv/olmo-7b-lora_tinystories_baseline

00b0a67 verified 11 months ago

31.5 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 3.0,
	"eval_steps": 400,
	"global_step": 375,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.016,
	"grad_norm": 0.5721463561058044,
	"learning_rate": 0.000997326203208556,
	"loss": 22.6723,
	"step": 2
	},
	{
	"epoch": 0.032,
	"grad_norm": 1.5221903324127197,
	"learning_rate": 0.0009919786096256684,
	"loss": 22.7502,
	"step": 4
	},
	{
	"epoch": 0.048,
	"grad_norm": 3.269012212753296,
	"learning_rate": 0.0009866310160427808,
	"loss": 22.2706,
	"step": 6
	},
	{
	"epoch": 0.064,
	"grad_norm": 4.567020416259766,
	"learning_rate": 0.0009812834224598931,
	"loss": 21.3625,
	"step": 8
	},
	{
	"epoch": 0.08,
	"grad_norm": 7.019204139709473,
	"learning_rate": 0.0009759358288770054,
	"loss": 20.7279,
	"step": 10
	},
	{
	"epoch": 0.096,
	"grad_norm": 8.498096466064453,
	"learning_rate": 0.0009705882352941176,
	"loss": 20.8221,
	"step": 12
	},
	{
	"epoch": 0.112,
	"grad_norm": 7.8151397705078125,
	"learning_rate": 0.00096524064171123,
	"loss": 20.4136,
	"step": 14
	},
	{
	"epoch": 0.128,
	"grad_norm": 8.028499603271484,
	"learning_rate": 0.0009598930481283422,
	"loss": 20.2719,
	"step": 16
	},
	{
	"epoch": 0.144,
	"grad_norm": 8.516434669494629,
	"learning_rate": 0.0009545454545454546,
	"loss": 20.1681,
	"step": 18
	},
	{
	"epoch": 0.16,
	"grad_norm": 8.52490520477295,
	"learning_rate": 0.0009491978609625669,
	"loss": 19.8895,
	"step": 20
	},
	{
	"epoch": 0.176,
	"grad_norm": 6.709629058837891,
	"learning_rate": 0.0009438502673796791,
	"loss": 19.93,
	"step": 22
	},
	{
	"epoch": 0.192,
	"grad_norm": 6.038687705993652,
	"learning_rate": 0.0009385026737967914,
	"loss": 19.6312,
	"step": 24
	},
	{
	"epoch": 0.208,
	"grad_norm": 5.785665512084961,
	"learning_rate": 0.0009331550802139037,
	"loss": 19.7683,
	"step": 26
	},
	{
	"epoch": 0.224,
	"grad_norm": 5.79067850112915,
	"learning_rate": 0.0009278074866310161,
	"loss": 19.6965,
	"step": 28
	},
	{
	"epoch": 0.24,
	"grad_norm": 5.166928291320801,
	"learning_rate": 0.0009224598930481284,
	"loss": 19.4005,
	"step": 30
	},
	{
	"epoch": 0.256,
	"grad_norm": 4.578023433685303,
	"learning_rate": 0.0009171122994652407,
	"loss": 19.3963,
	"step": 32
	},
	{
	"epoch": 0.272,
	"grad_norm": 4.7540693283081055,
	"learning_rate": 0.0009117647058823529,
	"loss": 19.4129,
	"step": 34
	},
	{
	"epoch": 0.288,
	"grad_norm": 5.394408226013184,
	"learning_rate": 0.0009064171122994653,
	"loss": 19.5821,
	"step": 36
	},
	{
	"epoch": 0.304,
	"grad_norm": 4.4902753829956055,
	"learning_rate": 0.0009010695187165776,
	"loss": 19.6562,
	"step": 38
	},
	{
	"epoch": 0.32,
	"grad_norm": 5.49019193649292,
	"learning_rate": 0.0008957219251336899,
	"loss": 19.3588,
	"step": 40
	},
	{
	"epoch": 0.336,
	"grad_norm": 4.184142589569092,
	"learning_rate": 0.0008903743315508022,
	"loss": 18.9032,
	"step": 42
	},
	{
	"epoch": 0.352,
	"grad_norm": 3.98618483543396,
	"learning_rate": 0.0008850267379679144,
	"loss": 19.1882,
	"step": 44
	},
	{
	"epoch": 0.368,
	"grad_norm": 4.851687908172607,
	"learning_rate": 0.0008796791443850267,
	"loss": 19.4565,
	"step": 46
	},
	{
	"epoch": 0.384,
	"grad_norm": 4.108444690704346,
	"learning_rate": 0.0008743315508021391,
	"loss": 19.6149,
	"step": 48
	},
	{
	"epoch": 0.4,
	"grad_norm": 3.7055838108062744,
	"learning_rate": 0.0008689839572192514,
	"loss": 18.9573,
	"step": 50
	},
	{
	"epoch": 0.416,
	"grad_norm": 4.930137634277344,
	"learning_rate": 0.0008636363636363636,
	"loss": 19.4389,
	"step": 52
	},
	{
	"epoch": 0.432,
	"grad_norm": 3.910098075866699,
	"learning_rate": 0.000858288770053476,
	"loss": 19.1465,
	"step": 54
	},
	{
	"epoch": 0.448,
	"grad_norm": 4.0127716064453125,
	"learning_rate": 0.0008529411764705882,
	"loss": 19.5038,
	"step": 56
	},
	{
	"epoch": 0.464,
	"grad_norm": 4.495028018951416,
	"learning_rate": 0.0008475935828877005,
	"loss": 19.3252,
	"step": 58
	},
	{
	"epoch": 0.48,
	"grad_norm": 3.7703821659088135,
	"learning_rate": 0.0008422459893048129,
	"loss": 19.0238,
	"step": 60
	},
	{
	"epoch": 0.496,
	"grad_norm": 3.6335291862487793,
	"learning_rate": 0.0008368983957219252,
	"loss": 19.1296,
	"step": 62
	},
	{
	"epoch": 0.512,
	"grad_norm": 3.819183588027954,
	"learning_rate": 0.0008315508021390374,
	"loss": 18.4946,
	"step": 64
	},
	{
	"epoch": 0.528,
	"grad_norm": 3.3171255588531494,
	"learning_rate": 0.0008262032085561497,
	"loss": 18.8054,
	"step": 66
	},
	{
	"epoch": 0.544,
	"grad_norm": 4.316566467285156,
	"learning_rate": 0.000820855614973262,
	"loss": 19.162,
	"step": 68
	},
	{
	"epoch": 0.56,
	"grad_norm": 3.39648175239563,
	"learning_rate": 0.0008155080213903744,
	"loss": 18.5671,
	"step": 70
	},
	{
	"epoch": 0.576,
	"grad_norm": 3.7200136184692383,
	"learning_rate": 0.0008101604278074867,
	"loss": 18.9179,
	"step": 72
	},
	{
	"epoch": 0.592,
	"grad_norm": 3.6730430126190186,
	"learning_rate": 0.0008048128342245989,
	"loss": 18.7162,
	"step": 74
	},
	{
	"epoch": 0.608,
	"grad_norm": 3.5580945014953613,
	"learning_rate": 0.0007994652406417113,
	"loss": 19.0574,
	"step": 76
	},
	{
	"epoch": 0.624,
	"grad_norm": 3.4793589115142822,
	"learning_rate": 0.0007941176470588235,
	"loss": 18.8649,
	"step": 78
	},
	{
	"epoch": 0.64,
	"grad_norm": 4.074679374694824,
	"learning_rate": 0.0007887700534759359,
	"loss": 18.5553,
	"step": 80
	},
	{
	"epoch": 0.656,
	"grad_norm": 3.315810441970825,
	"learning_rate": 0.0007834224598930482,
	"loss": 18.2136,
	"step": 82
	},
	{
	"epoch": 0.672,
	"grad_norm": 4.288172721862793,
	"learning_rate": 0.0007780748663101605,
	"loss": 18.6089,
	"step": 84
	},
	{
	"epoch": 0.688,
	"grad_norm": 3.5749149322509766,
	"learning_rate": 0.0007727272727272727,
	"loss": 18.8697,
	"step": 86
	},
	{
	"epoch": 0.704,
	"grad_norm": 3.608825206756592,
	"learning_rate": 0.000767379679144385,
	"loss": 18.4129,
	"step": 88
	},
	{
	"epoch": 0.72,
	"grad_norm": 3.5199592113494873,
	"learning_rate": 0.0007620320855614974,
	"loss": 18.1619,
	"step": 90
	},
	{
	"epoch": 0.736,
	"grad_norm": 3.5022549629211426,
	"learning_rate": 0.0007566844919786096,
	"loss": 18.7368,
	"step": 92
	},
	{
	"epoch": 0.752,
	"grad_norm": 3.6002230644226074,
	"learning_rate": 0.000751336898395722,
	"loss": 18.7792,
	"step": 94
	},
	{
	"epoch": 0.768,
	"grad_norm": 4.682362079620361,
	"learning_rate": 0.0007459893048128342,
	"loss": 18.5495,
	"step": 96
	},
	{
	"epoch": 0.784,
	"grad_norm": 3.6108767986297607,
	"learning_rate": 0.0007406417112299465,
	"loss": 18.7077,
	"step": 98
	},
	{
	"epoch": 0.8,
	"grad_norm": 3.4719815254211426,
	"learning_rate": 0.0007352941176470589,
	"loss": 18.3262,
	"step": 100
	},
	{
	"epoch": 0.816,
	"grad_norm": 4.4115986824035645,
	"learning_rate": 0.0007299465240641712,
	"loss": 18.3416,
	"step": 102
	},
	{
	"epoch": 0.832,
	"grad_norm": 3.324169158935547,
	"learning_rate": 0.0007245989304812834,
	"loss": 18.7297,
	"step": 104
	},
	{
	"epoch": 0.848,
	"grad_norm": 3.4287421703338623,
	"learning_rate": 0.0007192513368983958,
	"loss": 18.4499,
	"step": 106
	},
	{
	"epoch": 0.864,
	"grad_norm": 3.9451239109039307,
	"learning_rate": 0.000713903743315508,
	"loss": 18.2669,
	"step": 108
	},
	{
	"epoch": 0.88,
	"grad_norm": 3.5031988620758057,
	"learning_rate": 0.0007085561497326202,
	"loss": 18.8895,
	"step": 110
	},
	{
	"epoch": 0.896,
	"grad_norm": 3.5174903869628906,
	"learning_rate": 0.0007032085561497327,
	"loss": 18.2961,
	"step": 112
	},
	{
	"epoch": 0.912,
	"grad_norm": 4.080729961395264,
	"learning_rate": 0.0006978609625668449,
	"loss": 18.5613,
	"step": 114
	},
	{
	"epoch": 0.928,
	"grad_norm": 3.7523930072784424,
	"learning_rate": 0.0006925133689839572,
	"loss": 18.5538,
	"step": 116
	},
	{
	"epoch": 0.944,
	"grad_norm": 3.066669225692749,
	"learning_rate": 0.0006871657754010695,
	"loss": 18.6904,
	"step": 118
	},
	{
	"epoch": 0.96,
	"grad_norm": 4.274256706237793,
	"learning_rate": 0.0006818181818181818,
	"loss": 18.6147,
	"step": 120
	},
	{
	"epoch": 0.976,
	"grad_norm": 3.690139055252075,
	"learning_rate": 0.0006764705882352942,
	"loss": 18.1693,
	"step": 122
	},
	{
	"epoch": 0.992,
	"grad_norm": 3.6681807041168213,
	"learning_rate": 0.0006711229946524065,
	"loss": 18.2498,
	"step": 124
	},
	{
	"epoch": 1.008,
	"grad_norm": 3.5203354358673096,
	"learning_rate": 0.0006657754010695187,
	"loss": 18.4522,
	"step": 126
	},
	{
	"epoch": 1.024,
	"grad_norm": 4.650991439819336,
	"learning_rate": 0.000660427807486631,
	"loss": 18.2839,
	"step": 128
	},
	{
	"epoch": 1.04,
	"grad_norm": 3.7944228649139404,
	"learning_rate": 0.0006550802139037433,
	"loss": 18.051,
	"step": 130
	},
	{
	"epoch": 1.056,
	"grad_norm": 3.2437500953674316,
	"learning_rate": 0.0006497326203208556,
	"loss": 18.1842,
	"step": 132
	},
	{
	"epoch": 1.072,
	"grad_norm": 3.2863543033599854,
	"learning_rate": 0.000644385026737968,
	"loss": 18.2304,
	"step": 134
	},
	{
	"epoch": 1.088,
	"grad_norm": 3.553260326385498,
	"learning_rate": 0.0006390374331550802,
	"loss": 18.1385,
	"step": 136
	},
	{
	"epoch": 1.104,
	"grad_norm": 3.4277195930480957,
	"learning_rate": 0.0006336898395721925,
	"loss": 18.1337,
	"step": 138
	},
	{
	"epoch": 1.12,
	"grad_norm": 3.974073886871338,
	"learning_rate": 0.0006283422459893048,
	"loss": 18.0326,
	"step": 140
	},
	{
	"epoch": 1.1360000000000001,
	"grad_norm": 3.3450510501861572,
	"learning_rate": 0.0006229946524064172,
	"loss": 18.2695,
	"step": 142
	},
	{
	"epoch": 1.152,
	"grad_norm": 3.2181997299194336,
	"learning_rate": 0.0006176470588235294,
	"loss": 18.0315,
	"step": 144
	},
	{
	"epoch": 1.168,
	"grad_norm": 3.8346364498138428,
	"learning_rate": 0.0006122994652406418,
	"loss": 18.4272,
	"step": 146
	},
	{
	"epoch": 1.184,
	"grad_norm": 3.2085418701171875,
	"learning_rate": 0.000606951871657754,
	"loss": 18.1768,
	"step": 148
	},
	{
	"epoch": 1.2,
	"grad_norm": 3.462108850479126,
	"learning_rate": 0.0006016042780748662,
	"loss": 18.1731,
	"step": 150
	},
	{
	"epoch": 1.216,
	"grad_norm": 3.444965362548828,
	"learning_rate": 0.0005962566844919787,
	"loss": 18.3599,
	"step": 152
	},
	{
	"epoch": 1.232,
	"grad_norm": 3.3701171875,
	"learning_rate": 0.0005909090909090909,
	"loss": 18.1495,
	"step": 154
	},
	{
	"epoch": 1.248,
	"grad_norm": 3.5145843029022217,
	"learning_rate": 0.0005855614973262032,
	"loss": 18.0835,
	"step": 156
	},
	{
	"epoch": 1.264,
	"grad_norm": 3.4785313606262207,
	"learning_rate": 0.0005802139037433155,
	"loss": 17.8138,
	"step": 158
	},
	{
	"epoch": 1.28,
	"grad_norm": 3.9735538959503174,
	"learning_rate": 0.0005748663101604278,
	"loss": 18.0071,
	"step": 160
	},
	{
	"epoch": 1.296,
	"grad_norm": 3.650447368621826,
	"learning_rate": 0.00056951871657754,
	"loss": 18.0124,
	"step": 162
	},
	{
	"epoch": 1.312,
	"grad_norm": 3.6459813117980957,
	"learning_rate": 0.0005641711229946525,
	"loss": 18.0059,
	"step": 164
	},
	{
	"epoch": 1.328,
	"grad_norm": 3.2154831886291504,
	"learning_rate": 0.0005588235294117647,
	"loss": 17.9694,
	"step": 166
	},
	{
	"epoch": 1.3439999999999999,
	"grad_norm": 3.367403507232666,
	"learning_rate": 0.0005534759358288771,
	"loss": 17.6557,
	"step": 168
	},
	{
	"epoch": 1.3599999999999999,
	"grad_norm": 3.9948298931121826,
	"learning_rate": 0.0005481283422459893,
	"loss": 18.1942,
	"step": 170
	},
	{
	"epoch": 1.376,
	"grad_norm": 3.3495073318481445,
	"learning_rate": 0.0005427807486631015,
	"loss": 18.2016,
	"step": 172
	},
	{
	"epoch": 1.392,
	"grad_norm": 3.373162269592285,
	"learning_rate": 0.000537433155080214,
	"loss": 18.0422,
	"step": 174
	},
	{
	"epoch": 1.408,
	"grad_norm": 4.063633441925049,
	"learning_rate": 0.0005320855614973262,
	"loss": 18.0809,
	"step": 176
	},
	{
	"epoch": 1.424,
	"grad_norm": 3.4912514686584473,
	"learning_rate": 0.0005267379679144385,
	"loss": 18.0674,
	"step": 178
	},
	{
	"epoch": 1.44,
	"grad_norm": 3.5900015830993652,
	"learning_rate": 0.0005213903743315508,
	"loss": 17.9285,
	"step": 180
	},
	{
	"epoch": 1.456,
	"grad_norm": 4.066802024841309,
	"learning_rate": 0.0005160427807486631,
	"loss": 18.1551,
	"step": 182
	},
	{
	"epoch": 1.472,
	"grad_norm": 3.9782357215881348,
	"learning_rate": 0.0005106951871657754,
	"loss": 18.0509,
	"step": 184
	},
	{
	"epoch": 1.488,
	"grad_norm": 3.314682960510254,
	"learning_rate": 0.0005053475935828878,
	"loss": 17.7608,
	"step": 186
	},
	{
	"epoch": 1.504,
	"grad_norm": 3.3548595905303955,
	"learning_rate": 0.0005,
	"loss": 17.8103,
	"step": 188
	},
	{
	"epoch": 1.52,
	"grad_norm": 3.3475797176361084,
	"learning_rate": 0.0004946524064171123,
	"loss": 17.9465,
	"step": 190
	},
	{
	"epoch": 1.536,
	"grad_norm": 3.4256432056427,
	"learning_rate": 0.0004893048128342246,
	"loss": 17.6619,
	"step": 192
	},
	{
	"epoch": 1.552,
	"grad_norm": 3.390056848526001,
	"learning_rate": 0.0004839572192513369,
	"loss": 17.9681,
	"step": 194
	},
	{
	"epoch": 1.568,
	"grad_norm": 3.4441208839416504,
	"learning_rate": 0.00047860962566844924,
	"loss": 17.9407,
	"step": 196
	},
	{
	"epoch": 1.584,
	"grad_norm": 3.2374165058135986,
	"learning_rate": 0.0004732620320855615,
	"loss": 17.7235,
	"step": 198
	},
	{
	"epoch": 1.6,
	"grad_norm": 3.5628514289855957,
	"learning_rate": 0.0004679144385026738,
	"loss": 18.1743,
	"step": 200
	},
	{
	"epoch": 1.616,
	"grad_norm": 3.41139554977417,
	"learning_rate": 0.00046256684491978613,
	"loss": 17.8456,
	"step": 202
	},
	{
	"epoch": 1.6320000000000001,
	"grad_norm": 3.423110008239746,
	"learning_rate": 0.0004572192513368984,
	"loss": 17.6656,
	"step": 204
	},
	{
	"epoch": 1.6480000000000001,
	"grad_norm": 3.3344337940216064,
	"learning_rate": 0.00045187165775401067,
	"loss": 17.962,
	"step": 206
	},
	{
	"epoch": 1.6640000000000001,
	"grad_norm": 3.5036981105804443,
	"learning_rate": 0.000446524064171123,
	"loss": 18.0875,
	"step": 208
	},
	{
	"epoch": 1.6800000000000002,
	"grad_norm": 3.4953839778900146,
	"learning_rate": 0.0004411764705882353,
	"loss": 17.3435,
	"step": 210
	},
	{
	"epoch": 1.696,
	"grad_norm": 3.6864068508148193,
	"learning_rate": 0.0004358288770053476,
	"loss": 17.9087,
	"step": 212
	},
	{
	"epoch": 1.712,
	"grad_norm": 3.4755449295043945,
	"learning_rate": 0.0004304812834224599,
	"loss": 17.5076,
	"step": 214
	},
	{
	"epoch": 1.728,
	"grad_norm": 3.8116891384124756,
	"learning_rate": 0.0004251336898395722,
	"loss": 17.9272,
	"step": 216
	},
	{
	"epoch": 1.744,
	"grad_norm": 3.18284010887146,
	"learning_rate": 0.0004197860962566845,
	"loss": 17.7148,
	"step": 218
	},
	{
	"epoch": 1.76,
	"grad_norm": 3.2884979248046875,
	"learning_rate": 0.0004144385026737968,
	"loss": 17.8813,
	"step": 220
	},
	{
	"epoch": 1.776,
	"grad_norm": 3.3735768795013428,
	"learning_rate": 0.00040909090909090913,
	"loss": 18.0372,
	"step": 222
	},
	{
	"epoch": 1.792,
	"grad_norm": 3.2611794471740723,
	"learning_rate": 0.00040374331550802143,
	"loss": 17.3771,
	"step": 224
	},
	{
	"epoch": 1.808,
	"grad_norm": 3.3338570594787598,
	"learning_rate": 0.00039839572192513367,
	"loss": 18.4657,
	"step": 226
	},
	{
	"epoch": 1.8239999999999998,
	"grad_norm": 3.405127763748169,
	"learning_rate": 0.000393048128342246,
	"loss": 17.9076,
	"step": 228
	},
	{
	"epoch": 1.8399999999999999,
	"grad_norm": 3.561793565750122,
	"learning_rate": 0.0003877005347593583,
	"loss": 17.8996,
	"step": 230
	},
	{
	"epoch": 1.8559999999999999,
	"grad_norm": 3.5615479946136475,
	"learning_rate": 0.00038235294117647055,
	"loss": 17.6746,
	"step": 232
	},
	{
	"epoch": 1.8719999999999999,
	"grad_norm": 3.4306275844573975,
	"learning_rate": 0.0003770053475935829,
	"loss": 17.7182,
	"step": 234
	},
	{
	"epoch": 1.888,
	"grad_norm": 3.5057003498077393,
	"learning_rate": 0.0003716577540106952,
	"loss": 17.8058,
	"step": 236
	},
	{
	"epoch": 1.904,
	"grad_norm": 3.3117101192474365,
	"learning_rate": 0.0003663101604278075,
	"loss": 17.8643,
	"step": 238
	},
	{
	"epoch": 1.92,
	"grad_norm": 3.6897945404052734,
	"learning_rate": 0.0003609625668449198,
	"loss": 17.8266,
	"step": 240
	},
	{
	"epoch": 1.936,
	"grad_norm": 3.7577505111694336,
	"learning_rate": 0.0003556149732620321,
	"loss": 18.6381,
	"step": 242
	},
	{
	"epoch": 1.952,
	"grad_norm": 3.2401480674743652,
	"learning_rate": 0.0003502673796791444,
	"loss": 17.6933,
	"step": 244
	},
	{
	"epoch": 1.968,
	"grad_norm": 3.6619515419006348,
	"learning_rate": 0.0003449197860962567,
	"loss": 18.0547,
	"step": 246
	},
	{
	"epoch": 1.984,
	"grad_norm": 3.8387668132781982,
	"learning_rate": 0.000339572192513369,
	"loss": 17.7932,
	"step": 248
	},
	{
	"epoch": 2.0,
	"grad_norm": 3.390653371810913,
	"learning_rate": 0.0003342245989304813,
	"loss": 17.2655,
	"step": 250
	},
	{
	"epoch": 2.016,
	"grad_norm": 3.40058970451355,
	"learning_rate": 0.00032887700534759356,
	"loss": 17.703,
	"step": 252
	},
	{
	"epoch": 2.032,
	"grad_norm": 3.568702220916748,
	"learning_rate": 0.0003235294117647059,
	"loss": 17.2042,
	"step": 254
	},
	{
	"epoch": 2.048,
	"grad_norm": 3.529431104660034,
	"learning_rate": 0.0003181818181818182,
	"loss": 17.5732,
	"step": 256
	},
	{
	"epoch": 2.064,
	"grad_norm": 3.3919003009796143,
	"learning_rate": 0.00031283422459893044,
	"loss": 17.6191,
	"step": 258
	},
	{
	"epoch": 2.08,
	"grad_norm": 3.878042459487915,
	"learning_rate": 0.0003074866310160428,
	"loss": 17.4911,
	"step": 260
	},
	{
	"epoch": 2.096,
	"grad_norm": 3.772318124771118,
	"learning_rate": 0.0003021390374331551,
	"loss": 17.7258,
	"step": 262
	},
	{
	"epoch": 2.112,
	"grad_norm": 3.4453060626983643,
	"learning_rate": 0.0002967914438502674,
	"loss": 17.4906,
	"step": 264
	},
	{
	"epoch": 2.128,
	"grad_norm": 3.4957454204559326,
	"learning_rate": 0.0002914438502673797,
	"loss": 17.5716,
	"step": 266
	},
	{
	"epoch": 2.144,
	"grad_norm": 3.530831813812256,
	"learning_rate": 0.000286096256684492,
	"loss": 17.4089,
	"step": 268
	},
	{
	"epoch": 2.16,
	"grad_norm": 3.7524755001068115,
	"learning_rate": 0.0002807486631016043,
	"loss": 17.7712,
	"step": 270
	},
	{
	"epoch": 2.176,
	"grad_norm": 3.297961711883545,
	"learning_rate": 0.00027540106951871656,
	"loss": 17.4408,
	"step": 272
	},
	{
	"epoch": 2.192,
	"grad_norm": 3.3661088943481445,
	"learning_rate": 0.0002700534759358289,
	"loss": 17.6753,
	"step": 274
	},
	{
	"epoch": 2.208,
	"grad_norm": 3.646210193634033,
	"learning_rate": 0.0002647058823529412,
	"loss": 17.7821,
	"step": 276
	},
	{
	"epoch": 2.224,
	"grad_norm": 3.475140333175659,
	"learning_rate": 0.00025935828877005345,
	"loss": 17.6129,
	"step": 278
	},
	{
	"epoch": 2.24,
	"grad_norm": 3.4734578132629395,
	"learning_rate": 0.0002540106951871658,
	"loss": 17.6856,
	"step": 280
	},
	{
	"epoch": 2.2560000000000002,
	"grad_norm": 3.491572380065918,
	"learning_rate": 0.0002486631016042781,
	"loss": 17.6071,
	"step": 282
	},
	{
	"epoch": 2.2720000000000002,
	"grad_norm": 3.4102542400360107,
	"learning_rate": 0.0002433155080213904,
	"loss": 17.352,
	"step": 284
	},
	{
	"epoch": 2.288,
	"grad_norm": 3.393477439880371,
	"learning_rate": 0.00023796791443850268,
	"loss": 17.2612,
	"step": 286
	},
	{
	"epoch": 2.304,
	"grad_norm": 3.112462282180786,
	"learning_rate": 0.000232620320855615,
	"loss": 17.3272,
	"step": 288
	},
	{
	"epoch": 2.32,
	"grad_norm": 3.3398191928863525,
	"learning_rate": 0.00022727272727272727,
	"loss": 17.5815,
	"step": 290
	},
	{
	"epoch": 2.336,
	"grad_norm": 3.5039889812469482,
	"learning_rate": 0.00022192513368983957,
	"loss": 17.7557,
	"step": 292
	},
	{
	"epoch": 2.352,
	"grad_norm": 3.532892942428589,
	"learning_rate": 0.0002165775401069519,
	"loss": 18.0523,
	"step": 294
	},
	{
	"epoch": 2.368,
	"grad_norm": 3.2969062328338623,
	"learning_rate": 0.00021122994652406418,
	"loss": 17.7496,
	"step": 296
	},
	{
	"epoch": 2.384,
	"grad_norm": 3.262855291366577,
	"learning_rate": 0.00020588235294117645,
	"loss": 17.793,
	"step": 298
	},
	{
	"epoch": 2.4,
	"grad_norm": 3.459914445877075,
	"learning_rate": 0.00020053475935828877,
	"loss": 17.9245,
	"step": 300
	},
	{
	"epoch": 2.416,
	"grad_norm": 3.6749696731567383,
	"learning_rate": 0.00019518716577540107,
	"loss": 17.7125,
	"step": 302
	},
	{
	"epoch": 2.432,
	"grad_norm": 3.266754150390625,
	"learning_rate": 0.0001898395721925134,
	"loss": 17.5905,
	"step": 304
	},
	{
	"epoch": 2.448,
	"grad_norm": 3.1848971843719482,
	"learning_rate": 0.00018449197860962566,
	"loss": 17.523,
	"step": 306
	},
	{
	"epoch": 2.464,
	"grad_norm": 3.2962844371795654,
	"learning_rate": 0.00017914438502673795,
	"loss": 17.5297,
	"step": 308
	},
	{
	"epoch": 2.48,
	"grad_norm": 3.4688000679016113,
	"learning_rate": 0.00017379679144385028,
	"loss": 17.6315,
	"step": 310
	},
	{
	"epoch": 2.496,
	"grad_norm": 3.4146833419799805,
	"learning_rate": 0.00016844919786096257,
	"loss": 17.5776,
	"step": 312
	},
	{
	"epoch": 2.512,
	"grad_norm": 3.3122944831848145,
	"learning_rate": 0.0001631016042780749,
	"loss": 17.7264,
	"step": 314
	},
	{
	"epoch": 2.528,
	"grad_norm": 3.2939462661743164,
	"learning_rate": 0.00015775401069518716,
	"loss": 17.48,
	"step": 316
	},
	{
	"epoch": 2.544,
	"grad_norm": 3.8504631519317627,
	"learning_rate": 0.00015240641711229946,
	"loss": 17.3854,
	"step": 318
	},
	{
	"epoch": 2.56,
	"grad_norm": 4.062356948852539,
	"learning_rate": 0.00014705882352941178,
	"loss": 17.6811,
	"step": 320
	},
	{
	"epoch": 2.576,
	"grad_norm": 3.741989850997925,
	"learning_rate": 0.00014171122994652407,
	"loss": 17.4078,
	"step": 322
	},
	{
	"epoch": 2.592,
	"grad_norm": 3.7287967205047607,
	"learning_rate": 0.00013636363636363637,
	"loss": 17.3517,
	"step": 324
	},
	{
	"epoch": 2.608,
	"grad_norm": 3.6224465370178223,
	"learning_rate": 0.00013101604278074866,
	"loss": 17.254,
	"step": 326
	},
	{
	"epoch": 2.624,
	"grad_norm": 3.5674147605895996,
	"learning_rate": 0.00012566844919786096,
	"loss": 17.869,
	"step": 328
	},
	{
	"epoch": 2.64,
	"grad_norm": 3.722736358642578,
	"learning_rate": 0.00012032085561497325,
	"loss": 17.7399,
	"step": 330
	},
	{
	"epoch": 2.656,
	"grad_norm": 3.6463096141815186,
	"learning_rate": 0.00011497326203208556,
	"loss": 17.5016,
	"step": 332
	},
	{
	"epoch": 2.672,
	"grad_norm": 3.5358524322509766,
	"learning_rate": 0.00010962566844919786,
	"loss": 17.0355,
	"step": 334
	},
	{
	"epoch": 2.6879999999999997,
	"grad_norm": 3.5321309566497803,
	"learning_rate": 0.00010427807486631017,
	"loss": 17.5089,
	"step": 336
	},
	{
	"epoch": 2.7039999999999997,
	"grad_norm": 3.4019291400909424,
	"learning_rate": 9.893048128342247e-05,
	"loss": 17.3768,
	"step": 338
	},
	{
	"epoch": 2.7199999999999998,
	"grad_norm": 3.4486570358276367,
	"learning_rate": 9.358288770053476e-05,
	"loss": 17.488,
	"step": 340
	},
	{
	"epoch": 2.7359999999999998,
	"grad_norm": 3.7740256786346436,
	"learning_rate": 8.823529411764706e-05,
	"loss": 17.5768,
	"step": 342
	},
	{
	"epoch": 2.752,
	"grad_norm": 3.5659339427948,
	"learning_rate": 8.288770053475936e-05,
	"loss": 17.6865,
	"step": 344
	},
	{
	"epoch": 2.768,
	"grad_norm": 3.3678972721099854,
	"learning_rate": 7.754010695187167e-05,
	"loss": 17.4687,
	"step": 346
	},
	{
	"epoch": 2.784,
	"grad_norm": 3.585134506225586,
	"learning_rate": 7.219251336898395e-05,
	"loss": 17.536,
	"step": 348
	},
	{
	"epoch": 2.8,
	"grad_norm": 3.6471846103668213,
	"learning_rate": 6.684491978609626e-05,
	"loss": 17.6269,
	"step": 350
	},
	{
	"epoch": 2.816,
	"grad_norm": 3.533790111541748,
	"learning_rate": 6.149732620320857e-05,
	"loss": 17.5771,
	"step": 352
	},
	{
	"epoch": 2.832,
	"grad_norm": 3.7971367835998535,
	"learning_rate": 5.614973262032086e-05,
	"loss": 17.874,
	"step": 354
	},
	{
	"epoch": 2.848,
	"grad_norm": 3.391874074935913,
	"learning_rate": 5.080213903743316e-05,
	"loss": 17.2528,
	"step": 356
	},
	{
	"epoch": 2.864,
	"grad_norm": 3.069033145904541,
	"learning_rate": 4.545454545454546e-05,
	"loss": 17.6175,
	"step": 358
	},
	{
	"epoch": 2.88,
	"grad_norm": 3.780275821685791,
	"learning_rate": 4.0106951871657754e-05,
	"loss": 17.2663,
	"step": 360
	},
	{
	"epoch": 2.896,
	"grad_norm": 3.3377978801727295,
	"learning_rate": 3.4759358288770055e-05,
	"loss": 17.3711,
	"step": 362
	},
	{
	"epoch": 2.912,
	"grad_norm": 3.356203317642212,
	"learning_rate": 2.9411764705882354e-05,
	"loss": 17.6077,
	"step": 364
	},
	{
	"epoch": 2.928,
	"grad_norm": 3.302241563796997,
	"learning_rate": 2.4064171122994652e-05,
	"loss": 17.4777,
	"step": 366
	},
	{
	"epoch": 2.944,
	"grad_norm": 3.73811411857605,
	"learning_rate": 1.871657754010695e-05,
	"loss": 17.3149,
	"step": 368
	},
	{
	"epoch": 2.96,
	"grad_norm": 3.392902135848999,
	"learning_rate": 1.336898395721925e-05,
	"loss": 17.8118,
	"step": 370
	},
	{
	"epoch": 2.976,
	"grad_norm": 3.8080010414123535,
	"learning_rate": 8.021390374331552e-06,
	"loss": 17.1875,
	"step": 372
	},
	{
	"epoch": 2.992,
	"grad_norm": 3.5202646255493164,
	"learning_rate": 2.67379679144385e-06,
	"loss": 17.7556,
	"step": 374
	},
	{
	"epoch": 3.0,
	"step": 375,
	"total_flos": 2.6461914289864704e+17,
	"train_loss": 18.264725362141927,
	"train_runtime": 1944.3243,
	"train_samples_per_second": 24.687,
	"train_steps_per_second": 0.193
	},
	{
	"epoch": 3.0,
	"eval_loss": 2.2290163040161133,
	"eval_runtime": 83.3238,
	"eval_samples_per_second": 24.003,
	"eval_steps_per_second": 3.0,
	"step": 375
	},
	{
	"epoch": 3.0,
	"eval_loss": 2.226619243621826,
	"eval_runtime": 83.9815,
	"eval_samples_per_second": 23.815,
	"eval_steps_per_second": 2.977,
	"step": 375
	}
	],
	"logging_steps": 2,
	"max_steps": 375,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 2.6461914289864704e+17,
	"train_batch_size": 16,
	"trial_name": null,
	"trial_params": null
	}