Checkpoint at step 8000

3d6706f verified about 2 months ago

30.1 kB

	{
	"best_global_step": 8000,
	"best_metric": 0.11738622933626175,
	"best_model_checkpoint": "./output/run_20260415_164722_truncate_hard/checkpoint-8000",
	"epoch": 0.4371584699453552,
	"eval_steps": 1600,
	"global_step": 8000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0,
	"eval_loss": 1.416967749595642,
	"eval_runtime": 2260.5945,
	"eval_samples_per_second": 54.537,
	"eval_steps_per_second": 3.409,
	"step": 0
	},
	{
	"epoch": 0.00273224043715847,
	"grad_norm": 38.5,
	"learning_rate": 1.2250000000000001e-06,
	"loss": 2.8207272338867186,
	"step": 50
	},
	{
	"epoch": 0.00546448087431694,
	"grad_norm": 32.25,
	"learning_rate": 2.475e-06,
	"loss": 2.6559625244140626,
	"step": 100
	},
	{
	"epoch": 0.00819672131147541,
	"grad_norm": 18.875,
	"learning_rate": 3.7250000000000003e-06,
	"loss": 2.1567892456054687,
	"step": 150
	},
	{
	"epoch": 0.01092896174863388,
	"grad_norm": 18.125,
	"learning_rate": 4.975000000000001e-06,
	"loss": 1.8427839660644532,
	"step": 200
	},
	{
	"epoch": 0.01366120218579235,
	"grad_norm": 18.625,
	"learning_rate": 6.225000000000001e-06,
	"loss": 1.6992501831054687,
	"step": 250
	},
	{
	"epoch": 0.01639344262295082,
	"grad_norm": 20.5,
	"learning_rate": 7.475000000000001e-06,
	"loss": 1.576735382080078,
	"step": 300
	},
	{
	"epoch": 0.01912568306010929,
	"grad_norm": 19.625,
	"learning_rate": 8.725000000000002e-06,
	"loss": 1.5175244140625,
	"step": 350
	},
	{
	"epoch": 0.02185792349726776,
	"grad_norm": 22.375,
	"learning_rate": 9.975000000000002e-06,
	"loss": 1.461768798828125,
	"step": 400
	},
	{
	"epoch": 0.02459016393442623,
	"grad_norm": 26.375,
	"learning_rate": 1.1225000000000002e-05,
	"loss": 1.3915757751464843,
	"step": 450
	},
	{
	"epoch": 0.0273224043715847,
	"grad_norm": 20.5,
	"learning_rate": 1.2475000000000002e-05,
	"loss": 1.3361874389648438,
	"step": 500
	},
	{
	"epoch": 0.030054644808743168,
	"grad_norm": 20.0,
	"learning_rate": 1.3725000000000002e-05,
	"loss": 1.2622003936767578,
	"step": 550
	},
	{
	"epoch": 0.03278688524590164,
	"grad_norm": 22.125,
	"learning_rate": 1.4975000000000001e-05,
	"loss": 1.2655531311035155,
	"step": 600
	},
	{
	"epoch": 0.03551912568306011,
	"grad_norm": 20.375,
	"learning_rate": 1.6225e-05,
	"loss": 1.182469024658203,
	"step": 650
	},
	{
	"epoch": 0.03825136612021858,
	"grad_norm": 20.875,
	"learning_rate": 1.7475e-05,
	"loss": 1.1610452270507812,
	"step": 700
	},
	{
	"epoch": 0.040983606557377046,
	"grad_norm": 28.625,
	"learning_rate": 1.8725e-05,
	"loss": 1.1653611755371094,
	"step": 750
	},
	{
	"epoch": 0.04371584699453552,
	"grad_norm": 20.375,
	"learning_rate": 1.9975e-05,
	"loss": 1.1153118896484375,
	"step": 800
	},
	{
	"epoch": 0.04644808743169399,
	"grad_norm": 19.25,
	"learning_rate": 1.9863888888888892e-05,
	"loss": 1.09112060546875,
	"step": 850
	},
	{
	"epoch": 0.04918032786885246,
	"grad_norm": 18.375,
	"learning_rate": 1.9725000000000002e-05,
	"loss": 1.0499742126464844,
	"step": 900
	},
	{
	"epoch": 0.05191256830601093,
	"grad_norm": 18.75,
	"learning_rate": 1.958611111111111e-05,
	"loss": 1.0255325317382813,
	"step": 950
	},
	{
	"epoch": 0.0546448087431694,
	"grad_norm": 17.625,
	"learning_rate": 1.9447222222222224e-05,
	"loss": 0.9900017547607421,
	"step": 1000
	},
	{
	"epoch": 0.05737704918032787,
	"grad_norm": 17.375,
	"learning_rate": 1.9308333333333336e-05,
	"loss": 0.9526313018798828,
	"step": 1050
	},
	{
	"epoch": 0.060109289617486336,
	"grad_norm": 23.875,
	"learning_rate": 1.9169444444444445e-05,
	"loss": 0.9093154907226563,
	"step": 1100
	},
	{
	"epoch": 0.06284153005464481,
	"grad_norm": 18.375,
	"learning_rate": 1.9030555555555558e-05,
	"loss": 0.90221923828125,
	"step": 1150
	},
	{
	"epoch": 0.06557377049180328,
	"grad_norm": 18.875,
	"learning_rate": 1.8891666666666667e-05,
	"loss": 0.8817276000976563,
	"step": 1200
	},
	{
	"epoch": 0.06830601092896176,
	"grad_norm": 18.125,
	"learning_rate": 1.875277777777778e-05,
	"loss": 0.8606462097167968,
	"step": 1250
	},
	{
	"epoch": 0.07103825136612021,
	"grad_norm": 25.125,
	"learning_rate": 1.8613888888888893e-05,
	"loss": 0.8436074829101563,
	"step": 1300
	},
	{
	"epoch": 0.07377049180327869,
	"grad_norm": 14.75,
	"learning_rate": 1.8475000000000002e-05,
	"loss": 0.8204904174804688,
	"step": 1350
	},
	{
	"epoch": 0.07650273224043716,
	"grad_norm": 18.75,
	"learning_rate": 1.833611111111111e-05,
	"loss": 0.8097339630126953,
	"step": 1400
	},
	{
	"epoch": 0.07923497267759563,
	"grad_norm": 18.0,
	"learning_rate": 1.8197222222222224e-05,
	"loss": 0.8396243286132813,
	"step": 1450
	},
	{
	"epoch": 0.08196721311475409,
	"grad_norm": 20.75,
	"learning_rate": 1.8058333333333336e-05,
	"loss": 0.8059647369384766,
	"step": 1500
	},
	{
	"epoch": 0.08469945355191257,
	"grad_norm": 20.25,
	"learning_rate": 1.7919444444444446e-05,
	"loss": 0.7802545166015625,
	"step": 1550
	},
	{
	"epoch": 0.08743169398907104,
	"grad_norm": 17.625,
	"learning_rate": 1.7780555555555555e-05,
	"loss": 0.8032011413574218,
	"step": 1600
	},
	{
	"epoch": 0.08743169398907104,
	"eval_loss": 0.20313987135887146,
	"eval_runtime": 1993.2601,
	"eval_samples_per_second": 61.851,
	"eval_steps_per_second": 3.866,
	"step": 1600
	},
	{
	"epoch": 0.09016393442622951,
	"grad_norm": 22.625,
	"learning_rate": 1.7641666666666667e-05,
	"loss": 0.7802546691894531,
	"step": 1650
	},
	{
	"epoch": 0.09289617486338798,
	"grad_norm": 19.125,
	"learning_rate": 1.750277777777778e-05,
	"loss": 0.7605763244628906,
	"step": 1700
	},
	{
	"epoch": 0.09562841530054644,
	"grad_norm": 17.125,
	"learning_rate": 1.7363888888888893e-05,
	"loss": 0.7257496643066407,
	"step": 1750
	},
	{
	"epoch": 0.09836065573770492,
	"grad_norm": 19.875,
	"learning_rate": 1.7225000000000002e-05,
	"loss": 0.7296395874023438,
	"step": 1800
	},
	{
	"epoch": 0.10109289617486339,
	"grad_norm": 21.5,
	"learning_rate": 1.708611111111111e-05,
	"loss": 0.7457513427734375,
	"step": 1850
	},
	{
	"epoch": 0.10382513661202186,
	"grad_norm": 21.25,
	"learning_rate": 1.6947222222222224e-05,
	"loss": 0.7263921356201172,
	"step": 1900
	},
	{
	"epoch": 0.10655737704918032,
	"grad_norm": 23.625,
	"learning_rate": 1.6808333333333336e-05,
	"loss": 0.7204135131835937,
	"step": 1950
	},
	{
	"epoch": 0.1092896174863388,
	"grad_norm": 21.0,
	"learning_rate": 1.6669444444444446e-05,
	"loss": 0.7349383544921875,
	"step": 2000
	},
	{
	"epoch": 0.11202185792349727,
	"grad_norm": 19.875,
	"learning_rate": 1.6530555555555555e-05,
	"loss": 0.7568646240234375,
	"step": 2050
	},
	{
	"epoch": 0.11475409836065574,
	"grad_norm": 23.125,
	"learning_rate": 1.6391666666666668e-05,
	"loss": 0.7186477661132813,
	"step": 2100
	},
	{
	"epoch": 0.11748633879781421,
	"grad_norm": 16.75,
	"learning_rate": 1.625277777777778e-05,
	"loss": 0.6933038330078125,
	"step": 2150
	},
	{
	"epoch": 0.12021857923497267,
	"grad_norm": 25.125,
	"learning_rate": 1.6113888888888893e-05,
	"loss": 0.7022312927246094,
	"step": 2200
	},
	{
	"epoch": 0.12295081967213115,
	"grad_norm": 19.875,
	"learning_rate": 1.5975000000000002e-05,
	"loss": 0.6835511016845703,
	"step": 2250
	},
	{
	"epoch": 0.12568306010928962,
	"grad_norm": 20.125,
	"learning_rate": 1.583611111111111e-05,
	"loss": 0.7262260437011718,
	"step": 2300
	},
	{
	"epoch": 0.1284153005464481,
	"grad_norm": 18.5,
	"learning_rate": 1.5697222222222224e-05,
	"loss": 0.6783106994628906,
	"step": 2350
	},
	{
	"epoch": 0.13114754098360656,
	"grad_norm": 22.0,
	"learning_rate": 1.5558333333333337e-05,
	"loss": 0.6687103271484375,
	"step": 2400
	},
	{
	"epoch": 0.13387978142076504,
	"grad_norm": 21.5,
	"learning_rate": 1.5419444444444446e-05,
	"loss": 0.6666416931152344,
	"step": 2450
	},
	{
	"epoch": 0.1366120218579235,
	"grad_norm": 18.0,
	"learning_rate": 1.5280555555555555e-05,
	"loss": 0.6612174987792969,
	"step": 2500
	},
	{
	"epoch": 0.13934426229508196,
	"grad_norm": 23.125,
	"learning_rate": 1.5141666666666668e-05,
	"loss": 0.6176729202270508,
	"step": 2550
	},
	{
	"epoch": 0.14207650273224043,
	"grad_norm": 20.5,
	"learning_rate": 1.5002777777777779e-05,
	"loss": 0.6544680786132813,
	"step": 2600
	},
	{
	"epoch": 0.1448087431693989,
	"grad_norm": 16.75,
	"learning_rate": 1.4863888888888891e-05,
	"loss": 0.6495597839355469,
	"step": 2650
	},
	{
	"epoch": 0.14754098360655737,
	"grad_norm": 20.625,
	"learning_rate": 1.4725e-05,
	"loss": 0.6269410705566406,
	"step": 2700
	},
	{
	"epoch": 0.15027322404371585,
	"grad_norm": 19.25,
	"learning_rate": 1.4586111111111111e-05,
	"loss": 0.6502537536621094,
	"step": 2750
	},
	{
	"epoch": 0.15300546448087432,
	"grad_norm": 25.75,
	"learning_rate": 1.4447222222222224e-05,
	"loss": 0.6356121826171875,
	"step": 2800
	},
	{
	"epoch": 0.1557377049180328,
	"grad_norm": 21.125,
	"learning_rate": 1.4308333333333335e-05,
	"loss": 0.6310220336914063,
	"step": 2850
	},
	{
	"epoch": 0.15846994535519127,
	"grad_norm": 18.75,
	"learning_rate": 1.4169444444444444e-05,
	"loss": 0.6256195449829102,
	"step": 2900
	},
	{
	"epoch": 0.16120218579234974,
	"grad_norm": 19.5,
	"learning_rate": 1.4030555555555557e-05,
	"loss": 0.6188963317871093,
	"step": 2950
	},
	{
	"epoch": 0.16393442622950818,
	"grad_norm": 20.125,
	"learning_rate": 1.3891666666666668e-05,
	"loss": 0.6223039245605468,
	"step": 3000
	},
	{
	"epoch": 0.16666666666666666,
	"grad_norm": 25.25,
	"learning_rate": 1.3752777777777779e-05,
	"loss": 0.6119123840332031,
	"step": 3050
	},
	{
	"epoch": 0.16939890710382513,
	"grad_norm": 18.375,
	"learning_rate": 1.3613888888888891e-05,
	"loss": 0.6270243835449218,
	"step": 3100
	},
	{
	"epoch": 0.1721311475409836,
	"grad_norm": 21.125,
	"learning_rate": 1.3475e-05,
	"loss": 0.6205867004394531,
	"step": 3150
	},
	{
	"epoch": 0.17486338797814208,
	"grad_norm": 19.375,
	"learning_rate": 1.3336111111111112e-05,
	"loss": 0.6450627136230469,
	"step": 3200
	},
	{
	"epoch": 0.17486338797814208,
	"eval_loss": 0.140077143907547,
	"eval_runtime": 1996.0971,
	"eval_samples_per_second": 61.763,
	"eval_steps_per_second": 3.861,
	"step": 3200
	},
	{
	"epoch": 0.17759562841530055,
	"grad_norm": 26.625,
	"learning_rate": 1.3197222222222224e-05,
	"loss": 0.6031318664550781,
	"step": 3250
	},
	{
	"epoch": 0.18032786885245902,
	"grad_norm": 23.5,
	"learning_rate": 1.3058333333333335e-05,
	"loss": 0.5786302947998047,
	"step": 3300
	},
	{
	"epoch": 0.1830601092896175,
	"grad_norm": 20.625,
	"learning_rate": 1.2919444444444444e-05,
	"loss": 0.6212103271484375,
	"step": 3350
	},
	{
	"epoch": 0.18579234972677597,
	"grad_norm": 23.375,
	"learning_rate": 1.2780555555555555e-05,
	"loss": 0.6024067687988282,
	"step": 3400
	},
	{
	"epoch": 0.1885245901639344,
	"grad_norm": 18.625,
	"learning_rate": 1.2641666666666668e-05,
	"loss": 0.581977767944336,
	"step": 3450
	},
	{
	"epoch": 0.1912568306010929,
	"grad_norm": 21.125,
	"learning_rate": 1.2502777777777779e-05,
	"loss": 0.5875739288330079,
	"step": 3500
	},
	{
	"epoch": 0.19398907103825136,
	"grad_norm": 23.0,
	"learning_rate": 1.2363888888888891e-05,
	"loss": 0.6084017944335938,
	"step": 3550
	},
	{
	"epoch": 0.19672131147540983,
	"grad_norm": 23.25,
	"learning_rate": 1.2225e-05,
	"loss": 0.599505615234375,
	"step": 3600
	},
	{
	"epoch": 0.1994535519125683,
	"grad_norm": 24.625,
	"learning_rate": 1.2086111111111112e-05,
	"loss": 0.6103274917602539,
	"step": 3650
	},
	{
	"epoch": 0.20218579234972678,
	"grad_norm": 21.75,
	"learning_rate": 1.1947222222222223e-05,
	"loss": 0.5922727966308594,
	"step": 3700
	},
	{
	"epoch": 0.20491803278688525,
	"grad_norm": 19.75,
	"learning_rate": 1.1808333333333335e-05,
	"loss": 0.6008519744873047,
	"step": 3750
	},
	{
	"epoch": 0.20765027322404372,
	"grad_norm": 21.0,
	"learning_rate": 1.1669444444444444e-05,
	"loss": 0.5870630645751953,
	"step": 3800
	},
	{
	"epoch": 0.2103825136612022,
	"grad_norm": 19.375,
	"learning_rate": 1.1530555555555555e-05,
	"loss": 0.5807292938232422,
	"step": 3850
	},
	{
	"epoch": 0.21311475409836064,
	"grad_norm": 23.75,
	"learning_rate": 1.1391666666666668e-05,
	"loss": 0.5860625839233399,
	"step": 3900
	},
	{
	"epoch": 0.21584699453551912,
	"grad_norm": 21.75,
	"learning_rate": 1.1252777777777779e-05,
	"loss": 0.5723530578613282,
	"step": 3950
	},
	{
	"epoch": 0.2185792349726776,
	"grad_norm": 22.25,
	"learning_rate": 1.1113888888888892e-05,
	"loss": 0.5986472320556641,
	"step": 4000
	},
	{
	"epoch": 0.22131147540983606,
	"grad_norm": 20.875,
	"learning_rate": 1.0975e-05,
	"loss": 0.5930126190185547,
	"step": 4050
	},
	{
	"epoch": 0.22404371584699453,
	"grad_norm": 23.25,
	"learning_rate": 1.0836111111111112e-05,
	"loss": 0.5758544540405274,
	"step": 4100
	},
	{
	"epoch": 0.226775956284153,
	"grad_norm": 22.125,
	"learning_rate": 1.0697222222222223e-05,
	"loss": 0.5803060913085938,
	"step": 4150
	},
	{
	"epoch": 0.22950819672131148,
	"grad_norm": 22.5,
	"learning_rate": 1.0558333333333335e-05,
	"loss": 0.5753678894042968,
	"step": 4200
	},
	{
	"epoch": 0.23224043715846995,
	"grad_norm": 21.625,
	"learning_rate": 1.0419444444444445e-05,
	"loss": 0.5640956497192383,
	"step": 4250
	},
	{
	"epoch": 0.23497267759562843,
	"grad_norm": 21.375,
	"learning_rate": 1.0280555555555555e-05,
	"loss": 0.5678297424316406,
	"step": 4300
	},
	{
	"epoch": 0.23770491803278687,
	"grad_norm": 23.125,
	"learning_rate": 1.0141666666666668e-05,
	"loss": 0.5765494537353516,
	"step": 4350
	},
	{
	"epoch": 0.24043715846994534,
	"grad_norm": 24.875,
	"learning_rate": 1.0002777777777779e-05,
	"loss": 0.5585842895507812,
	"step": 4400
	},
	{
	"epoch": 0.24316939890710382,
	"grad_norm": 27.375,
	"learning_rate": 9.86388888888889e-06,
	"loss": 0.5505801391601562,
	"step": 4450
	},
	{
	"epoch": 0.2459016393442623,
	"grad_norm": 28.875,
	"learning_rate": 9.725000000000001e-06,
	"loss": 0.5651544952392578,
	"step": 4500
	},
	{
	"epoch": 0.24863387978142076,
	"grad_norm": 26.5,
	"learning_rate": 9.586111111111112e-06,
	"loss": 0.5462136077880859,
	"step": 4550
	},
	{
	"epoch": 0.25136612021857924,
	"grad_norm": 25.0,
	"learning_rate": 9.447222222222223e-06,
	"loss": 0.55468994140625,
	"step": 4600
	},
	{
	"epoch": 0.2540983606557377,
	"grad_norm": 24.0,
	"learning_rate": 9.308333333333334e-06,
	"loss": 0.5691349792480469,
	"step": 4650
	},
	{
	"epoch": 0.2568306010928962,
	"grad_norm": 25.75,
	"learning_rate": 9.169444444444445e-06,
	"loss": 0.5687982940673828,
	"step": 4700
	},
	{
	"epoch": 0.25956284153005466,
	"grad_norm": 26.125,
	"learning_rate": 9.030555555555556e-06,
	"loss": 0.5460214233398437,
	"step": 4750
	},
	{
	"epoch": 0.26229508196721313,
	"grad_norm": 26.25,
	"learning_rate": 8.891666666666667e-06,
	"loss": 0.5721450805664062,
	"step": 4800
	},
	{
	"epoch": 0.26229508196721313,
	"eval_loss": 0.12485909461975098,
	"eval_runtime": 1994.0276,
	"eval_samples_per_second": 61.827,
	"eval_steps_per_second": 3.865,
	"step": 4800
	},
	{
	"epoch": 0.2650273224043716,
	"grad_norm": 27.375,
	"learning_rate": 8.752777777777779e-06,
	"loss": 0.5646157073974609,
	"step": 4850
	},
	{
	"epoch": 0.2677595628415301,
	"grad_norm": 19.375,
	"learning_rate": 8.61388888888889e-06,
	"loss": 0.5710072326660156,
	"step": 4900
	},
	{
	"epoch": 0.27049180327868855,
	"grad_norm": 20.5,
	"learning_rate": 8.475000000000001e-06,
	"loss": 0.5315534210205078,
	"step": 4950
	},
	{
	"epoch": 0.273224043715847,
	"grad_norm": 29.25,
	"learning_rate": 8.336111111111112e-06,
	"loss": 0.5359284591674804,
	"step": 5000
	},
	{
	"epoch": 0.27595628415300544,
	"grad_norm": 20.625,
	"learning_rate": 8.197222222222223e-06,
	"loss": 0.5669486236572265,
	"step": 5050
	},
	{
	"epoch": 0.2786885245901639,
	"grad_norm": 34.5,
	"learning_rate": 8.058333333333334e-06,
	"loss": 0.5689411544799805,
	"step": 5100
	},
	{
	"epoch": 0.2814207650273224,
	"grad_norm": 20.0,
	"learning_rate": 7.919444444444445e-06,
	"loss": 0.5391948699951172,
	"step": 5150
	},
	{
	"epoch": 0.28415300546448086,
	"grad_norm": 28.875,
	"learning_rate": 7.780555555555556e-06,
	"loss": 0.5572643280029297,
	"step": 5200
	},
	{
	"epoch": 0.28688524590163933,
	"grad_norm": 27.125,
	"learning_rate": 7.641666666666667e-06,
	"loss": 0.538712158203125,
	"step": 5250
	},
	{
	"epoch": 0.2896174863387978,
	"grad_norm": 23.875,
	"learning_rate": 7.502777777777778e-06,
	"loss": 0.5496884536743164,
	"step": 5300
	},
	{
	"epoch": 0.2923497267759563,
	"grad_norm": 28.125,
	"learning_rate": 7.363888888888889e-06,
	"loss": 0.5370260620117188,
	"step": 5350
	},
	{
	"epoch": 0.29508196721311475,
	"grad_norm": 27.5,
	"learning_rate": 7.225000000000001e-06,
	"loss": 0.5524336242675781,
	"step": 5400
	},
	{
	"epoch": 0.2978142076502732,
	"grad_norm": 29.625,
	"learning_rate": 7.086111111111111e-06,
	"loss": 0.546603012084961,
	"step": 5450
	},
	{
	"epoch": 0.3005464480874317,
	"grad_norm": 25.0,
	"learning_rate": 6.947222222222223e-06,
	"loss": 0.5310775756835937,
	"step": 5500
	},
	{
	"epoch": 0.30327868852459017,
	"grad_norm": 26.125,
	"learning_rate": 6.808333333333333e-06,
	"loss": 0.5651336669921875,
	"step": 5550
	},
	{
	"epoch": 0.30601092896174864,
	"grad_norm": 27.375,
	"learning_rate": 6.669444444444445e-06,
	"loss": 0.5147453689575195,
	"step": 5600
	},
	{
	"epoch": 0.3087431693989071,
	"grad_norm": 21.5,
	"learning_rate": 6.530555555555556e-06,
	"loss": 0.539222183227539,
	"step": 5650
	},
	{
	"epoch": 0.3114754098360656,
	"grad_norm": 30.25,
	"learning_rate": 6.391666666666667e-06,
	"loss": 0.5556621170043945,
	"step": 5700
	},
	{
	"epoch": 0.31420765027322406,
	"grad_norm": 23.75,
	"learning_rate": 6.2527777777777785e-06,
	"loss": 0.5418627166748047,
	"step": 5750
	},
	{
	"epoch": 0.31693989071038253,
	"grad_norm": 26.5,
	"learning_rate": 6.1138888888888895e-06,
	"loss": 0.5251173782348633,
	"step": 5800
	},
	{
	"epoch": 0.319672131147541,
	"grad_norm": 26.375,
	"learning_rate": 5.975e-06,
	"loss": 0.5350538635253906,
	"step": 5850
	},
	{
	"epoch": 0.3224043715846995,
	"grad_norm": 18.5,
	"learning_rate": 5.836111111111111e-06,
	"loss": 0.5373062896728515,
	"step": 5900
	},
	{
	"epoch": 0.3251366120218579,
	"grad_norm": 20.375,
	"learning_rate": 5.697222222222223e-06,
	"loss": 0.5342027282714844,
	"step": 5950
	},
	{
	"epoch": 0.32786885245901637,
	"grad_norm": 25.0,
	"learning_rate": 5.558333333333333e-06,
	"loss": 0.5342716979980469,
	"step": 6000
	},
	{
	"epoch": 0.33060109289617484,
	"grad_norm": 22.5,
	"learning_rate": 5.419444444444445e-06,
	"loss": 0.5382299423217773,
	"step": 6050
	},
	{
	"epoch": 0.3333333333333333,
	"grad_norm": 28.375,
	"learning_rate": 5.280555555555555e-06,
	"loss": 0.5459404373168946,
	"step": 6100
	},
	{
	"epoch": 0.3360655737704918,
	"grad_norm": 25.625,
	"learning_rate": 5.141666666666667e-06,
	"loss": 0.5430771636962891,
	"step": 6150
	},
	{
	"epoch": 0.33879781420765026,
	"grad_norm": 21.875,
	"learning_rate": 5.002777777777779e-06,
	"loss": 0.5261387252807617,
	"step": 6200
	},
	{
	"epoch": 0.34153005464480873,
	"grad_norm": 27.625,
	"learning_rate": 4.863888888888889e-06,
	"loss": 0.5376666259765625,
	"step": 6250
	},
	{
	"epoch": 0.3442622950819672,
	"grad_norm": 27.75,
	"learning_rate": 4.7250000000000005e-06,
	"loss": 0.5197310638427735,
	"step": 6300
	},
	{
	"epoch": 0.3469945355191257,
	"grad_norm": 23.0,
	"learning_rate": 4.5861111111111114e-06,
	"loss": 0.5165463256835937,
	"step": 6350
	},
	{
	"epoch": 0.34972677595628415,
	"grad_norm": 26.75,
	"learning_rate": 4.447222222222222e-06,
	"loss": 0.5260678100585937,
	"step": 6400
	},
	{
	"epoch": 0.34972677595628415,
	"eval_loss": 0.11765411496162415,
	"eval_runtime": 1990.9759,
	"eval_samples_per_second": 61.922,
	"eval_steps_per_second": 3.87,
	"step": 6400
	},
	{
	"epoch": 0.3524590163934426,
	"grad_norm": 26.0,
	"learning_rate": 4.308333333333334e-06,
	"loss": 0.5461505126953125,
	"step": 6450
	},
	{
	"epoch": 0.3551912568306011,
	"grad_norm": 23.75,
	"learning_rate": 4.169444444444445e-06,
	"loss": 0.5273017120361329,
	"step": 6500
	},
	{
	"epoch": 0.35792349726775957,
	"grad_norm": 28.75,
	"learning_rate": 4.030555555555556e-06,
	"loss": 0.5286589050292969,
	"step": 6550
	},
	{
	"epoch": 0.36065573770491804,
	"grad_norm": 27.75,
	"learning_rate": 3.891666666666667e-06,
	"loss": 0.5252587127685547,
	"step": 6600
	},
	{
	"epoch": 0.3633879781420765,
	"grad_norm": 26.25,
	"learning_rate": 3.752777777777778e-06,
	"loss": 0.5342652893066406,
	"step": 6650
	},
	{
	"epoch": 0.366120218579235,
	"grad_norm": 30.125,
	"learning_rate": 3.613888888888889e-06,
	"loss": 0.536466178894043,
	"step": 6700
	},
	{
	"epoch": 0.36885245901639346,
	"grad_norm": 27.75,
	"learning_rate": 3.475e-06,
	"loss": 0.519189453125,
	"step": 6750
	},
	{
	"epoch": 0.37158469945355194,
	"grad_norm": 26.75,
	"learning_rate": 3.3361111111111115e-06,
	"loss": 0.5311366271972656,
	"step": 6800
	},
	{
	"epoch": 0.3743169398907104,
	"grad_norm": 29.125,
	"learning_rate": 3.1972222222222225e-06,
	"loss": 0.5349716186523438,
	"step": 6850
	},
	{
	"epoch": 0.3770491803278688,
	"grad_norm": 24.375,
	"learning_rate": 3.058333333333334e-06,
	"loss": 0.531919174194336,
	"step": 6900
	},
	{
	"epoch": 0.3797814207650273,
	"grad_norm": 28.25,
	"learning_rate": 2.9194444444444448e-06,
	"loss": 0.5321033477783204,
	"step": 6950
	},
	{
	"epoch": 0.3825136612021858,
	"grad_norm": 26.125,
	"learning_rate": 2.7805555555555557e-06,
	"loss": 0.5234020233154297,
	"step": 7000
	},
	{
	"epoch": 0.38524590163934425,
	"grad_norm": 26.25,
	"learning_rate": 2.6416666666666666e-06,
	"loss": 0.5243960571289062,
	"step": 7050
	},
	{
	"epoch": 0.3879781420765027,
	"grad_norm": 24.25,
	"learning_rate": 2.502777777777778e-06,
	"loss": 0.5315042877197266,
	"step": 7100
	},
	{
	"epoch": 0.3907103825136612,
	"grad_norm": 27.625,
	"learning_rate": 2.3638888888888894e-06,
	"loss": 0.5547313690185547,
	"step": 7150
	},
	{
	"epoch": 0.39344262295081966,
	"grad_norm": 31.375,
	"learning_rate": 2.2250000000000003e-06,
	"loss": 0.5182462310791016,
	"step": 7200
	},
	{
	"epoch": 0.39617486338797814,
	"grad_norm": 30.0,
	"learning_rate": 2.0861111111111112e-06,
	"loss": 0.530079116821289,
	"step": 7250
	},
	{
	"epoch": 0.3989071038251366,
	"grad_norm": 28.125,
	"learning_rate": 1.947222222222222e-06,
	"loss": 0.5425289916992188,
	"step": 7300
	},
	{
	"epoch": 0.4016393442622951,
	"grad_norm": 28.375,
	"learning_rate": 1.8083333333333335e-06,
	"loss": 0.5327968597412109,
	"step": 7350
	},
	{
	"epoch": 0.40437158469945356,
	"grad_norm": 26.5,
	"learning_rate": 1.6694444444444447e-06,
	"loss": 0.5102980804443359,
	"step": 7400
	},
	{
	"epoch": 0.40710382513661203,
	"grad_norm": 23.375,
	"learning_rate": 1.5305555555555556e-06,
	"loss": 0.528506965637207,
	"step": 7450
	},
	{
	"epoch": 0.4098360655737705,
	"grad_norm": 29.125,
	"learning_rate": 1.3916666666666668e-06,
	"loss": 0.52130615234375,
	"step": 7500
	},
	{
	"epoch": 0.412568306010929,
	"grad_norm": 20.875,
	"learning_rate": 1.2527777777777777e-06,
	"loss": 0.5167626953125,
	"step": 7550
	},
	{
	"epoch": 0.41530054644808745,
	"grad_norm": 28.5,
	"learning_rate": 1.1138888888888888e-06,
	"loss": 0.5269654464721679,
	"step": 7600
	},
	{
	"epoch": 0.4180327868852459,
	"grad_norm": 28.0,
	"learning_rate": 9.750000000000002e-07,
	"loss": 0.5395594024658203,
	"step": 7650
	},
	{
	"epoch": 0.4207650273224044,
	"grad_norm": 28.375,
	"learning_rate": 8.361111111111111e-07,
	"loss": 0.5267076110839843,
	"step": 7700
	},
	{
	"epoch": 0.42349726775956287,
	"grad_norm": 29.875,
	"learning_rate": 6.972222222222223e-07,
	"loss": 0.5366734695434571,
	"step": 7750
	},
	{
	"epoch": 0.4262295081967213,
	"grad_norm": 30.875,
	"learning_rate": 5.583333333333333e-07,
	"loss": 0.531547737121582,
	"step": 7800
	},
	{
	"epoch": 0.42896174863387976,
	"grad_norm": 26.625,
	"learning_rate": 4.1944444444444446e-07,
	"loss": 0.5210472869873047,
	"step": 7850
	},
	{
	"epoch": 0.43169398907103823,
	"grad_norm": 31.25,
	"learning_rate": 2.8055555555555556e-07,
	"loss": 0.5263444900512695,
	"step": 7900
	},
	{
	"epoch": 0.4344262295081967,
	"grad_norm": 23.375,
	"learning_rate": 1.4166666666666668e-07,
	"loss": 0.5500655364990235,
	"step": 7950
	},
	{
	"epoch": 0.4371584699453552,
	"grad_norm": 29.0,
	"learning_rate": 2.777777777777778e-09,
	"loss": 0.540992546081543,
	"step": 8000
	},
	{
	"epoch": 0.4371584699453552,
	"eval_loss": 0.11738622933626175,
	"eval_runtime": 1990.2366,
	"eval_samples_per_second": 61.945,
	"eval_steps_per_second": 3.872,
	"step": 8000
	}
	],
	"logging_steps": 50,
	"max_steps": 8000,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 400,
	"stateful_callbacks": {
	"EarlyStoppingCallback": {
	"args": {
	"early_stopping_patience": 3,
	"early_stopping_threshold": 0.0
	},
	"attributes": {
	"early_stopping_patience_counter": 0
	}
	},
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 0.0,
	"train_batch_size": 64,
	"trial_name": null,
	"trial_params": null
	}