NHSQLNL / trainer_state.json

init

7c0da7b 3 months ago

25.3 kB

	{
	"best_global_step": 1650,
	"best_metric": 0.006614842917770147,
	"best_model_checkpoint": "/content/NH-SQL-finetuned/checkpoint-1650",
	"epoch": 50.0,
	"eval_steps": 500,
	"global_step": 1650,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.030303030303030304,
	"grad_norm": 6.595283031463623,
	"learning_rate": 0.0,
	"loss": 1.9666,
	"step": 1
	},
	{
	"epoch": 0.6060606060606061,
	"grad_norm": 6.3463263511657715,
	"learning_rate": 5.757575757575758e-07,
	"loss": 1.8746,
	"step": 20
	},
	{
	"epoch": 1.0,
	"eval_loss": 1.7834347486495972,
	"eval_runtime": 0.9389,
	"eval_samples_per_second": 140.592,
	"eval_steps_per_second": 18.107,
	"step": 33
	},
	{
	"epoch": 1.2121212121212122,
	"grad_norm": 4.871561050415039,
	"learning_rate": 1.181818181818182e-06,
	"loss": 1.7412,
	"step": 40
	},
	{
	"epoch": 1.8181818181818183,
	"grad_norm": 3.2557735443115234,
	"learning_rate": 1.787878787878788e-06,
	"loss": 1.5522,
	"step": 60
	},
	{
	"epoch": 2.0,
	"eval_loss": 1.2882661819458008,
	"eval_runtime": 0.9475,
	"eval_samples_per_second": 139.315,
	"eval_steps_per_second": 17.942,
	"step": 66
	},
	{
	"epoch": 2.4242424242424243,
	"grad_norm": 1.9632468223571777,
	"learning_rate": 2.393939393939394e-06,
	"loss": 1.2669,
	"step": 80
	},
	{
	"epoch": 3.0,
	"eval_loss": 0.8929286003112793,
	"eval_runtime": 0.9528,
	"eval_samples_per_second": 138.545,
	"eval_steps_per_second": 17.843,
	"step": 99
	},
	{
	"epoch": 3.0303030303030303,
	"grad_norm": 1.6738139390945435,
	"learning_rate": 3e-06,
	"loss": 1.0527,
	"step": 100
	},
	{
	"epoch": 3.6363636363636362,
	"grad_norm": 1.4490736722946167,
	"learning_rate": 3.606060606060606e-06,
	"loss": 0.8491,
	"step": 120
	},
	{
	"epoch": 4.0,
	"eval_loss": 0.5932092070579529,
	"eval_runtime": 0.9509,
	"eval_samples_per_second": 138.815,
	"eval_steps_per_second": 17.878,
	"step": 132
	},
	{
	"epoch": 4.242424242424242,
	"grad_norm": 1.0791282653808594,
	"learning_rate": 4.212121212121212e-06,
	"loss": 0.6586,
	"step": 140
	},
	{
	"epoch": 4.848484848484849,
	"grad_norm": 0.8789141178131104,
	"learning_rate": 4.818181818181819e-06,
	"loss": 0.4801,
	"step": 160
	},
	{
	"epoch": 5.0,
	"eval_loss": 0.42336800694465637,
	"eval_runtime": 0.9459,
	"eval_samples_per_second": 139.555,
	"eval_steps_per_second": 17.973,
	"step": 165
	},
	{
	"epoch": 5.454545454545454,
	"grad_norm": 0.8390600085258484,
	"learning_rate": 4.9989035693310165e-06,
	"loss": 0.4134,
	"step": 180
	},
	{
	"epoch": 6.0,
	"eval_loss": 0.3166239559650421,
	"eval_runtime": 0.9402,
	"eval_samples_per_second": 140.394,
	"eval_steps_per_second": 18.081,
	"step": 198
	},
	{
	"epoch": 6.0606060606060606,
	"grad_norm": 0.908724308013916,
	"learning_rate": 4.993535611735464e-06,
	"loss": 0.33,
	"step": 200
	},
	{
	"epoch": 6.666666666666667,
	"grad_norm": 0.8689959645271301,
	"learning_rate": 4.983704338371375e-06,
	"loss": 0.2941,
	"step": 220
	},
	{
	"epoch": 7.0,
	"eval_loss": 0.246794193983078,
	"eval_runtime": 0.9539,
	"eval_samples_per_second": 138.381,
	"eval_steps_per_second": 17.822,
	"step": 231
	},
	{
	"epoch": 7.2727272727272725,
	"grad_norm": 0.806349515914917,
	"learning_rate": 4.969427346772643e-06,
	"loss": 0.2513,
	"step": 240
	},
	{
	"epoch": 7.878787878787879,
	"grad_norm": 0.8216381072998047,
	"learning_rate": 4.950730192107368e-06,
	"loss": 0.2244,
	"step": 260
	},
	{
	"epoch": 8.0,
	"eval_loss": 0.19389495253562927,
	"eval_runtime": 0.9398,
	"eval_samples_per_second": 140.46,
	"eval_steps_per_second": 18.09,
	"step": 264
	},
	{
	"epoch": 8.484848484848484,
	"grad_norm": 0.8309475183486938,
	"learning_rate": 4.927646341435276e-06,
	"loss": 0.1756,
	"step": 280
	},
	{
	"epoch": 9.0,
	"eval_loss": 0.1608426719903946,
	"eval_runtime": 0.9567,
	"eval_samples_per_second": 137.969,
	"eval_steps_per_second": 17.769,
	"step": 297
	},
	{
	"epoch": 9.090909090909092,
	"grad_norm": 0.807766854763031,
	"learning_rate": 4.900217113803193e-06,
	"loss": 0.1666,
	"step": 300
	},
	{
	"epoch": 9.696969696969697,
	"grad_norm": 0.638713538646698,
	"learning_rate": 4.868491606285823e-06,
	"loss": 0.1756,
	"step": 320
	},
	{
	"epoch": 10.0,
	"eval_loss": 0.13285745680332184,
	"eval_runtime": 0.9431,
	"eval_samples_per_second": 139.968,
	"eval_steps_per_second": 18.026,
	"step": 330
	},
	{
	"epoch": 10.303030303030303,
	"grad_norm": 0.6577040553092957,
	"learning_rate": 4.832526606104213e-06,
	"loss": 0.1407,
	"step": 340
	},
	{
	"epoch": 10.909090909090908,
	"grad_norm": 0.7107315063476562,
	"learning_rate": 4.792386488979193e-06,
	"loss": 0.1218,
	"step": 360
	},
	{
	"epoch": 11.0,
	"eval_loss": 0.1115950271487236,
	"eval_runtime": 0.9468,
	"eval_samples_per_second": 139.417,
	"eval_steps_per_second": 17.955,
	"step": 363
	},
	{
	"epoch": 11.515151515151516,
	"grad_norm": 0.7401019334793091,
	"learning_rate": 4.74814310390176e-06,
	"loss": 0.1362,
	"step": 380
	},
	{
	"epoch": 12.0,
	"eval_loss": 0.09207186847925186,
	"eval_runtime": 0.9332,
	"eval_samples_per_second": 141.446,
	"eval_steps_per_second": 18.216,
	"step": 396
	},
	{
	"epoch": 12.121212121212121,
	"grad_norm": 0.68468177318573,
	"learning_rate": 4.699875644526633e-06,
	"loss": 0.0987,
	"step": 400
	},
	{
	"epoch": 12.727272727272727,
	"grad_norm": 0.7722787857055664,
	"learning_rate": 4.647670507419206e-06,
	"loss": 0.0989,
	"step": 420
	},
	{
	"epoch": 13.0,
	"eval_loss": 0.0792744979262352,
	"eval_runtime": 0.935,
	"eval_samples_per_second": 141.172,
	"eval_steps_per_second": 18.181,
	"step": 429
	},
	{
	"epoch": 13.333333333333334,
	"grad_norm": 0.48431074619293213,
	"learning_rate": 4.591621137409602e-06,
	"loss": 0.0936,
	"step": 440
	},
	{
	"epoch": 13.93939393939394,
	"grad_norm": 0.555296778678894,
	"learning_rate": 4.53182786033067e-06,
	"loss": 0.0945,
	"step": 460
	},
	{
	"epoch": 14.0,
	"eval_loss": 0.07043830305337906,
	"eval_runtime": 0.9312,
	"eval_samples_per_second": 141.753,
	"eval_steps_per_second": 18.256,
	"step": 462
	},
	{
	"epoch": 14.545454545454545,
	"grad_norm": 0.5280194878578186,
	"learning_rate": 4.468397703439282e-06,
	"loss": 0.0811,
	"step": 480
	},
	{
	"epoch": 15.0,
	"eval_loss": 0.06017066538333893,
	"eval_runtime": 0.9305,
	"eval_samples_per_second": 141.866,
	"eval_steps_per_second": 18.271,
	"step": 495
	},
	{
	"epoch": 15.151515151515152,
	"grad_norm": 0.5912495851516724,
	"learning_rate": 4.401444203842396e-06,
	"loss": 0.0742,
	"step": 500
	},
	{
	"epoch": 15.757575757575758,
	"grad_norm": 1.0043439865112305,
	"learning_rate": 4.331087205270778e-06,
	"loss": 0.0778,
	"step": 520
	},
	{
	"epoch": 16.0,
	"eval_loss": 0.052856337279081345,
	"eval_runtime": 0.9363,
	"eval_samples_per_second": 140.988,
	"eval_steps_per_second": 18.158,
	"step": 528
	},
	{
	"epoch": 16.363636363636363,
	"grad_norm": 0.37315091490745544,
	"learning_rate": 4.257452643564155e-06,
	"loss": 0.0746,
	"step": 540
	},
	{
	"epoch": 16.96969696969697,
	"grad_norm": 0.5725280046463013,
	"learning_rate": 4.180672321251766e-06,
	"loss": 0.0651,
	"step": 560
	},
	{
	"epoch": 17.0,
	"eval_loss": 0.04653371125459671,
	"eval_runtime": 0.9263,
	"eval_samples_per_second": 142.504,
	"eval_steps_per_second": 18.353,
	"step": 561
	},
	{
	"epoch": 17.575757575757574,
	"grad_norm": 0.6575049161911011,
	"learning_rate": 4.100883671631806e-06,
	"loss": 0.0529,
	"step": 580
	},
	{
	"epoch": 18.0,
	"eval_loss": 0.04210372641682625,
	"eval_runtime": 0.9448,
	"eval_samples_per_second": 139.719,
	"eval_steps_per_second": 17.994,
	"step": 594
	},
	{
	"epoch": 18.181818181818183,
	"grad_norm": 0.7622207999229431,
	"learning_rate": 4.018229512772053e-06,
	"loss": 0.0644,
	"step": 600
	},
	{
	"epoch": 18.78787878787879,
	"grad_norm": 0.5367633700370789,
	"learning_rate": 3.9328577918719916e-06,
	"loss": 0.0551,
	"step": 620
	},
	{
	"epoch": 19.0,
	"eval_loss": 0.03950377553701401,
	"eval_runtime": 0.9419,
	"eval_samples_per_second": 140.144,
	"eval_steps_per_second": 18.049,
	"step": 627
	},
	{
	"epoch": 19.393939393939394,
	"grad_norm": 0.581658661365509,
	"learning_rate": 3.844921320444031e-06,
	"loss": 0.0566,
	"step": 640
	},
	{
	"epoch": 20.0,
	"grad_norm": 0.7774003148078918,
	"learning_rate": 3.754577500787828e-06,
	"loss": 0.0532,
	"step": 660
	},
	{
	"epoch": 20.0,
	"eval_loss": 0.0353802889585495,
	"eval_runtime": 0.9534,
	"eval_samples_per_second": 138.453,
	"eval_steps_per_second": 17.831,
	"step": 660
	},
	{
	"epoch": 20.606060606060606,
	"grad_norm": 0.6069843769073486,
	"learning_rate": 3.66198804424729e-06,
	"loss": 0.0436,
	"step": 680
	},
	{
	"epoch": 21.0,
	"eval_loss": 0.031004376709461212,
	"eval_runtime": 0.9391,
	"eval_samples_per_second": 140.556,
	"eval_steps_per_second": 18.102,
	"step": 693
	},
	{
	"epoch": 21.21212121212121,
	"grad_norm": 0.5869702696800232,
	"learning_rate": 3.5673186817546047e-06,
	"loss": 0.0487,
	"step": 700
	},
	{
	"epoch": 21.818181818181817,
	"grad_norm": 0.39276406168937683,
	"learning_rate": 3.4707388671793814e-06,
	"loss": 0.0459,
	"step": 720
	},
	{
	"epoch": 22.0,
	"eval_loss": 0.027377676218748093,
	"eval_runtime": 0.9405,
	"eval_samples_per_second": 140.352,
	"eval_steps_per_second": 18.076,
	"step": 726
	},
	{
	"epoch": 22.424242424242426,
	"grad_norm": 0.5247741937637329,
	"learning_rate": 3.3724214740138933e-06,
	"loss": 0.0461,
	"step": 740
	},
	{
	"epoch": 23.0,
	"eval_loss": 0.02525358274579048,
	"eval_runtime": 0.9593,
	"eval_samples_per_second": 137.596,
	"eval_steps_per_second": 17.721,
	"step": 759
	},
	{
	"epoch": 23.03030303030303,
	"grad_norm": 0.4420148730278015,
	"learning_rate": 3.272542485937369e-06,
	"loss": 0.0424,
	"step": 760
	},
	{
	"epoch": 23.636363636363637,
	"grad_norm": 0.4988000690937042,
	"learning_rate": 3.171280681813174e-06,
	"loss": 0.0443,
	"step": 780
	},
	{
	"epoch": 24.0,
	"eval_loss": 0.02300359681248665,
	"eval_runtime": 0.9498,
	"eval_samples_per_second": 138.973,
	"eval_steps_per_second": 17.898,
	"step": 792
	},
	{
	"epoch": 24.242424242424242,
	"grad_norm": 0.6696539521217346,
	"learning_rate": 3.0688173156827454e-06,
	"loss": 0.0346,
	"step": 800
	},
	{
	"epoch": 24.848484848484848,
	"grad_norm": 0.6659572720527649,
	"learning_rate": 2.9653357923290753e-06,
	"loss": 0.0394,
	"step": 820
	},
	{
	"epoch": 25.0,
	"eval_loss": 0.02064535580575466,
	"eval_runtime": 0.9419,
	"eval_samples_per_second": 140.14,
	"eval_steps_per_second": 18.048,
	"step": 825
	},
	{
	"epoch": 25.454545454545453,
	"grad_norm": 0.477318674325943,
	"learning_rate": 2.86102133899045e-06,
	"loss": 0.0354,
	"step": 840
	},
	{
	"epoch": 26.0,
	"eval_loss": 0.017997996881604195,
	"eval_runtime": 0.9337,
	"eval_samples_per_second": 141.375,
	"eval_steps_per_second": 18.207,
	"step": 858
	},
	{
	"epoch": 26.060606060606062,
	"grad_norm": 0.4188827574253082,
	"learning_rate": 2.7560606738120947e-06,
	"loss": 0.0379,
	"step": 860
	},
	{
	"epoch": 26.666666666666668,
	"grad_norm": 0.37732234597206116,
	"learning_rate": 2.6506416716291466e-06,
	"loss": 0.0369,
	"step": 880
	},
	{
	"epoch": 27.0,
	"eval_loss": 0.01666710339486599,
	"eval_runtime": 0.9423,
	"eval_samples_per_second": 140.084,
	"eval_steps_per_second": 18.041,
	"step": 891
	},
	{
	"epoch": 27.272727272727273,
	"grad_norm": 0.5058871507644653,
	"learning_rate": 2.544953027679216e-06,
	"loss": 0.0327,
	"step": 900
	},
	{
	"epoch": 27.87878787878788,
	"grad_norm": 0.5595805644989014,
	"learning_rate": 2.4391839198464613e-06,
	"loss": 0.0338,
	"step": 920
	},
	{
	"epoch": 28.0,
	"eval_loss": 0.015013493597507477,
	"eval_runtime": 0.93,
	"eval_samples_per_second": 141.934,
	"eval_steps_per_second": 18.279,
	"step": 924
	},
	{
	"epoch": 28.484848484848484,
	"grad_norm": 0.4609270393848419,
	"learning_rate": 2.3335236700417404e-06,
	"loss": 0.0306,
	"step": 940
	},
	{
	"epoch": 29.0,
	"eval_loss": 0.014108900912106037,
	"eval_runtime": 0.9248,
	"eval_samples_per_second": 142.737,
	"eval_steps_per_second": 18.383,
	"step": 957
	},
	{
	"epoch": 29.09090909090909,
	"grad_norm": 0.3746008276939392,
	"learning_rate": 2.2281614053249796e-06,
	"loss": 0.0307,
	"step": 960
	},
	{
	"epoch": 29.696969696969695,
	"grad_norm": 0.5330935716629028,
	"learning_rate": 2.1232857193762923e-06,
	"loss": 0.0298,
	"step": 980
	},
	{
	"epoch": 30.0,
	"eval_loss": 0.013387720100581646,
	"eval_runtime": 0.9587,
	"eval_samples_per_second": 137.688,
	"eval_steps_per_second": 17.733,
	"step": 990
	},
	{
	"epoch": 30.303030303030305,
	"grad_norm": 0.31854015588760376,
	"learning_rate": 2.019084334921849e-06,
	"loss": 0.028,
	"step": 1000
	},
	{
	"epoch": 30.90909090909091,
	"grad_norm": 0.38515424728393555,
	"learning_rate": 1.9157437677186903e-06,
	"loss": 0.031,
	"step": 1020
	},
	{
	"epoch": 31.0,
	"eval_loss": 0.012279902584850788,
	"eval_runtime": 0.9342,
	"eval_samples_per_second": 141.305,
	"eval_steps_per_second": 18.198,
	"step": 1023
	},
	{
	"epoch": 31.515151515151516,
	"grad_norm": 0.45346567034721375,
	"learning_rate": 1.8134489926999837e-06,
	"loss": 0.033,
	"step": 1040
	},
	{
	"epoch": 32.0,
	"eval_loss": 0.011261457577347755,
	"eval_runtime": 0.9421,
	"eval_samples_per_second": 140.119,
	"eval_steps_per_second": 18.046,
	"step": 1056
	},
	{
	"epoch": 32.121212121212125,
	"grad_norm": 0.44893690943717957,
	"learning_rate": 1.7123831128782686e-06,
	"loss": 0.0246,
	"step": 1060
	},
	{
	"epoch": 32.72727272727273,
	"grad_norm": 0.4021283984184265,
	"learning_rate": 1.612727031599356e-06,
	"loss": 0.03,
	"step": 1080
	},
	{
	"epoch": 33.0,
	"eval_loss": 0.010378457605838776,
	"eval_runtime": 0.9543,
	"eval_samples_per_second": 138.318,
	"eval_steps_per_second": 17.814,
	"step": 1089
	},
	{
	"epoch": 33.333333333333336,
	"grad_norm": 0.6586357951164246,
	"learning_rate": 1.5146591287335452e-06,
	"loss": 0.0266,
	"step": 1100
	},
	{
	"epoch": 33.93939393939394,
	"grad_norm": 0.4133249521255493,
	"learning_rate": 1.4183549413837288e-06,
	"loss": 0.026,
	"step": 1120
	},
	{
	"epoch": 34.0,
	"eval_loss": 0.009874224662780762,
	"eval_runtime": 0.9426,
	"eval_samples_per_second": 140.041,
	"eval_steps_per_second": 18.036,
	"step": 1122
	},
	{
	"epoch": 34.54545454545455,
	"grad_norm": 0.4618055522441864,
	"learning_rate": 1.3239868496819407e-06,
	"loss": 0.0278,
	"step": 1140
	},
	{
	"epoch": 35.0,
	"eval_loss": 0.009275372140109539,
	"eval_runtime": 0.9399,
	"eval_samples_per_second": 140.441,
	"eval_steps_per_second": 18.087,
	"step": 1155
	},
	{
	"epoch": 35.15151515151515,
	"grad_norm": 0.3481239676475525,
	"learning_rate": 1.2317237682367178e-06,
	"loss": 0.0253,
	"step": 1160
	},
	{
	"epoch": 35.75757575757576,
	"grad_norm": 0.42644399404525757,
	"learning_rate": 1.1417308437836181e-06,
	"loss": 0.0269,
	"step": 1180
	},
	{
	"epoch": 36.0,
	"eval_loss": 0.008818729780614376,
	"eval_runtime": 0.9417,
	"eval_samples_per_second": 140.172,
	"eval_steps_per_second": 18.052,
	"step": 1188
	},
	{
	"epoch": 36.36363636363637,
	"grad_norm": 0.5186192393302917,
	"learning_rate": 1.0541691595800338e-06,
	"loss": 0.0231,
	"step": 1200
	},
	{
	"epoch": 36.96969696969697,
	"grad_norm": 0.3892291784286499,
	"learning_rate": 9.691954470734692e-07,
	"loss": 0.0273,
	"step": 1220
	},
	{
	"epoch": 37.0,
	"eval_loss": 0.008245617151260376,
	"eval_runtime": 0.9541,
	"eval_samples_per_second": 138.353,
	"eval_steps_per_second": 17.818,
	"step": 1221
	},
	{
	"epoch": 37.57575757575758,
	"grad_norm": 0.5318649411201477,
	"learning_rate": 8.869618053593429e-07,
	"loss": 0.0251,
	"step": 1240
	},
	{
	"epoch": 38.0,
	"eval_loss": 0.007936290465295315,
	"eval_runtime": 0.9281,
	"eval_samples_per_second": 142.225,
	"eval_steps_per_second": 18.317,
	"step": 1254
	},
	{
	"epoch": 38.18181818181818,
	"grad_norm": 0.37824392318725586,
	"learning_rate": 8.076154289305019e-07,
	"loss": 0.0258,
	"step": 1260
	},
	{
	"epoch": 38.78787878787879,
	"grad_norm": 0.402786523103714,
	"learning_rate": 7.312983442057497e-07,
	"loss": 0.0263,
	"step": 1280
	},
	{
	"epoch": 39.0,
	"eval_loss": 0.007719958666712046,
	"eval_runtime": 0.9423,
	"eval_samples_per_second": 140.079,
	"eval_steps_per_second": 18.041,
	"step": 1287
	},
	{
	"epoch": 39.39393939393939,
	"grad_norm": 0.41106194257736206,
	"learning_rate": 6.581471553089874e-07,
	"loss": 0.0243,
	"step": 1300
	},
	{
	"epoch": 40.0,
	"grad_norm": 0.5733346939086914,
	"learning_rate": 5.882927995540266e-07,
	"loss": 0.0247,
	"step": 1320
	},
	{
	"epoch": 40.0,
	"eval_loss": 0.00738176517188549,
	"eval_runtime": 0.9247,
	"eval_samples_per_second": 142.756,
	"eval_steps_per_second": 18.385,
	"step": 1320
	},
	{
	"epoch": 40.60606060606061,
	"grad_norm": 0.3024619221687317,
	"learning_rate": 5.218603130727243e-07,
	"loss": 0.0243,
	"step": 1340
	},
	{
	"epoch": 41.0,
	"eval_loss": 0.007284797262400389,
	"eval_runtime": 0.9333,
	"eval_samples_per_second": 141.426,
	"eval_steps_per_second": 18.214,
	"step": 1353
	},
	{
	"epoch": 41.21212121212121,
	"grad_norm": 0.48434221744537354,
	"learning_rate": 4.589686070059762e-07,
	"loss": 0.0245,
	"step": 1360
	},
	{
	"epoch": 41.81818181818182,
	"grad_norm": 0.4191039204597473,
	"learning_rate": 3.997302546581597e-07,
	"loss": 0.0259,
	"step": 1380
	},
	{
	"epoch": 42.0,
	"eval_loss": 0.007058488205075264,
	"eval_runtime": 0.9549,
	"eval_samples_per_second": 138.232,
	"eval_steps_per_second": 17.803,
	"step": 1386
	},
	{
	"epoch": 42.42424242424242,
	"grad_norm": 0.3011131286621094,
	"learning_rate": 3.4425128999602265e-07,
	"loss": 0.0234,
	"step": 1400
	},
	{
	"epoch": 43.0,
	"eval_loss": 0.006919534411281347,
	"eval_runtime": 0.9466,
	"eval_samples_per_second": 139.447,
	"eval_steps_per_second": 17.959,
	"step": 1419
	},
	{
	"epoch": 43.03030303030303,
	"grad_norm": 0.49921727180480957,
	"learning_rate": 2.9263101785268253e-07,
	"loss": 0.0268,
	"step": 1420
	},
	{
	"epoch": 43.63636363636363,
	"grad_norm": 0.41327381134033203,
	"learning_rate": 2.449618361764788e-07,
	"loss": 0.0232,
	"step": 1440
	},
	{
	"epoch": 44.0,
	"eval_loss": 0.0067825643345713615,
	"eval_runtime": 0.9457,
	"eval_samples_per_second": 139.574,
	"eval_steps_per_second": 17.975,
	"step": 1452
	},
	{
	"epoch": 44.24242424242424,
	"grad_norm": 0.42085084319114685,
	"learning_rate": 2.0132907064282837e-07,
	"loss": 0.0222,
	"step": 1460
	},
	{
	"epoch": 44.84848484848485,
	"grad_norm": 0.4812968075275421,
	"learning_rate": 1.6181082192513352e-07,
	"loss": 0.0245,
	"step": 1480
	},
	{
	"epoch": 45.0,
	"eval_loss": 0.006708750035613775,
	"eval_runtime": 0.944,
	"eval_samples_per_second": 139.826,
	"eval_steps_per_second": 18.008,
	"step": 1485
	},
	{
	"epoch": 45.45454545454545,
	"grad_norm": 0.41410696506500244,
	"learning_rate": 1.264778258981178e-07,
	"loss": 0.0234,
	"step": 1500
	},
	{
	"epoch": 46.0,
	"eval_loss": 0.006636774633079767,
	"eval_runtime": 0.9246,
	"eval_samples_per_second": 142.77,
	"eval_steps_per_second": 18.387,
	"step": 1518
	},
	{
	"epoch": 46.06060606060606,
	"grad_norm": 0.36860212683677673,
	"learning_rate": 9.539332702381026e-08,
	"loss": 0.0264,
	"step": 1520
	},
	{
	"epoch": 46.666666666666664,
	"grad_norm": 0.3396029770374298,
	"learning_rate": 6.86129651468273e-08,
	"loss": 0.0229,
	"step": 1540
	},
	{
	"epoch": 47.0,
	"eval_loss": 0.00661947438493371,
	"eval_runtime": 0.9503,
	"eval_samples_per_second": 138.905,
	"eval_steps_per_second": 17.889,
	"step": 1551
	},
	{
	"epoch": 47.27272727272727,
	"grad_norm": 0.4342035949230194,
	"learning_rate": 4.618467590157133e-08,
	"loss": 0.0233,
	"step": 1560
	},
	{
	"epoch": 47.878787878787875,
	"grad_norm": 0.4722955822944641,
	"learning_rate": 2.814860490961607e-08,
	"loss": 0.0248,
	"step": 1580
	},
	{
	"epoch": 48.0,
	"eval_loss": 0.006618270184844732,
	"eval_runtime": 0.9496,
	"eval_samples_per_second": 139.011,
	"eval_steps_per_second": 17.903,
	"step": 1584
	},
	{
	"epoch": 48.484848484848484,
	"grad_norm": 0.22162474691867828,
	"learning_rate": 1.453703592086353e-08,
	"loss": 0.0239,
	"step": 1600
	},
	{
	"epoch": 49.0,
	"eval_loss": 0.006619932595640421,
	"eval_runtime": 0.947,
	"eval_samples_per_second": 139.389,
	"eval_steps_per_second": 17.952,
	"step": 1617
	},
	{
	"epoch": 49.09090909090909,
	"grad_norm": 0.4756720960140228,
	"learning_rate": 5.374333027093892e-09,
	"loss": 0.0236,
	"step": 1620
	},
	{
	"epoch": 49.696969696969695,
	"grad_norm": 0.42004162073135376,
	"learning_rate": 6.768970513457151e-10,
	"loss": 0.0228,
	"step": 1640
	},
	{
	"epoch": 50.0,
	"eval_loss": 0.006614842917770147,
	"eval_runtime": 0.9549,
	"eval_samples_per_second": 138.227,
	"eval_steps_per_second": 17.802,
	"step": 1650
	}
	],
	"logging_steps": 20,
	"max_steps": 1650,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 50,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 1.91340755288064e+16,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}