Unicorn-VL-R3 / trainer_state.json

Upload folder using huggingface_hub

0953e12 verified about 2 months ago

68.8 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 2.956175298804781,
	"eval_steps": 500,
	"global_step": 186,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.01593625498007968,
	"grad_norm": 3.265625,
	"learning_rate": 0.0,
	"loss": 1.1802,
	"memory/device_reserved (GiB)": 62.1,
	"memory/max_active (GiB)": 50.46,
	"memory/max_allocated (GiB)": 50.46,
	"step": 1,
	"tokens_per_second_per_gpu": 4078.9,
	"total_tokens": 187960
	},
	{
	"epoch": 0.03187250996015936,
	"grad_norm": 3.53125,
	"learning_rate": 1.111111111111111e-07,
	"loss": 1.2461,
	"memory/device_reserved (GiB)": 77.62,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 2,
	"tokens_per_second_per_gpu": 5600.28,
	"total_tokens": 380007
	},
	{
	"epoch": 0.04780876494023904,
	"grad_norm": 3.5625,
	"learning_rate": 2.222222222222222e-07,
	"loss": 1.3145,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 3,
	"tokens_per_second_per_gpu": 5504.25,
	"total_tokens": 566579
	},
	{
	"epoch": 0.06374501992031872,
	"grad_norm": 3.625,
	"learning_rate": 3.333333333333333e-07,
	"loss": 1.2505,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 4,
	"tokens_per_second_per_gpu": 5678.77,
	"total_tokens": 754678
	},
	{
	"epoch": 0.0796812749003984,
	"grad_norm": 3.46875,
	"learning_rate": 4.444444444444444e-07,
	"loss": 1.2344,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 5,
	"tokens_per_second_per_gpu": 5644.44,
	"total_tokens": 935084
	},
	{
	"epoch": 0.09561752988047809,
	"grad_norm": 3.71875,
	"learning_rate": 5.555555555555555e-07,
	"loss": 1.334,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 6,
	"tokens_per_second_per_gpu": 5488.37,
	"total_tokens": 1114037
	},
	{
	"epoch": 0.11155378486055777,
	"grad_norm": 3.4375,
	"learning_rate": 6.666666666666666e-07,
	"loss": 1.1704,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 7,
	"tokens_per_second_per_gpu": 5468.62,
	"total_tokens": 1302175
	},
	{
	"epoch": 0.12749003984063745,
	"grad_norm": 3.484375,
	"learning_rate": 7.777777777777778e-07,
	"loss": 1.2471,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 8,
	"tokens_per_second_per_gpu": 5412.64,
	"total_tokens": 1483342
	},
	{
	"epoch": 0.14342629482071714,
	"grad_norm": 3.375,
	"learning_rate": 8.888888888888888e-07,
	"loss": 1.2354,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 9,
	"tokens_per_second_per_gpu": 5455.54,
	"total_tokens": 1667332
	},
	{
	"epoch": 0.1593625498007968,
	"grad_norm": 3.546875,
	"learning_rate": 1e-06,
	"loss": 1.3232,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 10,
	"tokens_per_second_per_gpu": 5574.32,
	"total_tokens": 1849357
	},
	{
	"epoch": 0.1752988047808765,
	"grad_norm": 3.671875,
	"learning_rate": 1.111111111111111e-06,
	"loss": 1.3232,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 11,
	"tokens_per_second_per_gpu": 5321.58,
	"total_tokens": 2026853
	},
	{
	"epoch": 0.19123505976095617,
	"grad_norm": 3.359375,
	"learning_rate": 1.2222222222222223e-06,
	"loss": 1.2529,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 12,
	"tokens_per_second_per_gpu": 5847.85,
	"total_tokens": 2213285
	},
	{
	"epoch": 0.20717131474103587,
	"grad_norm": 3.328125,
	"learning_rate": 1.3333333333333332e-06,
	"loss": 1.2559,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 13,
	"tokens_per_second_per_gpu": 5613.77,
	"total_tokens": 2400076
	},
	{
	"epoch": 0.22310756972111553,
	"grad_norm": 3.15625,
	"learning_rate": 1.4444444444444443e-06,
	"loss": 1.2129,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 14,
	"tokens_per_second_per_gpu": 5571.51,
	"total_tokens": 2593112
	},
	{
	"epoch": 0.23904382470119523,
	"grad_norm": 3.125,
	"learning_rate": 1.5555555555555556e-06,
	"loss": 1.2153,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 15,
	"tokens_per_second_per_gpu": 5626.56,
	"total_tokens": 2782327
	},
	{
	"epoch": 0.2549800796812749,
	"grad_norm": 3.3125,
	"learning_rate": 1.6666666666666667e-06,
	"loss": 1.2598,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 16,
	"tokens_per_second_per_gpu": 5731.24,
	"total_tokens": 2966947
	},
	{
	"epoch": 0.27091633466135456,
	"grad_norm": 3.09375,
	"learning_rate": 1.7777777777777775e-06,
	"loss": 1.1714,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 17,
	"tokens_per_second_per_gpu": 6088.78,
	"total_tokens": 3161163
	},
	{
	"epoch": 0.2868525896414343,
	"grad_norm": 3.234375,
	"learning_rate": 1.8888888888888888e-06,
	"loss": 1.2402,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 18,
	"tokens_per_second_per_gpu": 5499.3,
	"total_tokens": 3343301
	},
	{
	"epoch": 0.30278884462151395,
	"grad_norm": 3.171875,
	"learning_rate": 2e-06,
	"loss": 1.2158,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 19,
	"tokens_per_second_per_gpu": 5505.1,
	"total_tokens": 3527203
	},
	{
	"epoch": 0.3187250996015936,
	"grad_norm": 3.21875,
	"learning_rate": 1.9998251609127463e-06,
	"loss": 1.2446,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 20,
	"tokens_per_second_per_gpu": 5441.06,
	"total_tokens": 3710228
	},
	{
	"epoch": 0.3346613545816733,
	"grad_norm": 2.875,
	"learning_rate": 1.9993007047883984e-06,
	"loss": 1.1895,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 21,
	"tokens_per_second_per_gpu": 5817.48,
	"total_tokens": 3903090
	},
	{
	"epoch": 0.350597609561753,
	"grad_norm": 3.078125,
	"learning_rate": 1.9984268150178167e-06,
	"loss": 1.209,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 22,
	"tokens_per_second_per_gpu": 5823.26,
	"total_tokens": 4085213
	},
	{
	"epoch": 0.3665338645418327,
	"grad_norm": 2.71875,
	"learning_rate": 1.9972037971811797e-06,
	"loss": 1.1602,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 23,
	"tokens_per_second_per_gpu": 5595.44,
	"total_tokens": 4271930
	},
	{
	"epoch": 0.38247011952191234,
	"grad_norm": 2.625,
	"learning_rate": 1.9956320789411338e-06,
	"loss": 1.1587,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 24,
	"tokens_per_second_per_gpu": 5470.25,
	"total_tokens": 4458282
	},
	{
	"epoch": 0.398406374501992,
	"grad_norm": 2.96875,
	"learning_rate": 1.9937122098932426e-06,
	"loss": 1.2295,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 25,
	"tokens_per_second_per_gpu": 5381.09,
	"total_tokens": 4638920
	},
	{
	"epoch": 0.41434262948207173,
	"grad_norm": 2.765625,
	"learning_rate": 1.9914448613738106e-06,
	"loss": 1.2695,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 26,
	"tokens_per_second_per_gpu": 5413.01,
	"total_tokens": 4823256
	},
	{
	"epoch": 0.4302788844621514,
	"grad_norm": 2.703125,
	"learning_rate": 1.9888308262251284e-06,
	"loss": 1.2412,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 27,
	"tokens_per_second_per_gpu": 5555.69,
	"total_tokens": 5004546
	},
	{
	"epoch": 0.44621513944223107,
	"grad_norm": 2.703125,
	"learning_rate": 1.9858710185182355e-06,
	"loss": 1.2666,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 28,
	"tokens_per_second_per_gpu": 5321.57,
	"total_tokens": 5180916
	},
	{
	"epoch": 0.46215139442231074,
	"grad_norm": 2.5625,
	"learning_rate": 1.9825664732332882e-06,
	"loss": 1.207,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 29,
	"tokens_per_second_per_gpu": 5507.08,
	"total_tokens": 5362870
	},
	{
	"epoch": 0.47808764940239046,
	"grad_norm": 2.671875,
	"learning_rate": 1.9789183458976484e-06,
	"loss": 1.1904,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 30,
	"tokens_per_second_per_gpu": 5788.71,
	"total_tokens": 5548692
	},
	{
	"epoch": 0.4940239043824701,
	"grad_norm": 2.4375,
	"learning_rate": 1.9749279121818236e-06,
	"loss": 1.1865,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 31,
	"tokens_per_second_per_gpu": 5411.35,
	"total_tokens": 5734611
	},
	{
	"epoch": 0.5099601593625498,
	"grad_norm": 2.5,
	"learning_rate": 1.970596567453391e-06,
	"loss": 1.1953,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 32,
	"tokens_per_second_per_gpu": 5568.61,
	"total_tokens": 5915483
	},
	{
	"epoch": 0.5258964143426295,
	"grad_norm": 2.328125,
	"learning_rate": 1.965925826289068e-06,
	"loss": 1.1885,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 33,
	"tokens_per_second_per_gpu": 5527.28,
	"total_tokens": 6103887
	},
	{
	"epoch": 0.5418326693227091,
	"grad_norm": 2.390625,
	"learning_rate": 1.9609173219450997e-06,
	"loss": 1.2578,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 34,
	"tokens_per_second_per_gpu": 5786.79,
	"total_tokens": 6291053
	},
	{
	"epoch": 0.5577689243027888,
	"grad_norm": 2.390625,
	"learning_rate": 1.955572805786141e-06,
	"loss": 1.2656,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 35,
	"tokens_per_second_per_gpu": 5616.39,
	"total_tokens": 6476080
	},
	{
	"epoch": 0.5737051792828686,
	"grad_norm": 2.40625,
	"learning_rate": 1.9498941466728456e-06,
	"loss": 1.2285,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 36,
	"tokens_per_second_per_gpu": 5446.88,
	"total_tokens": 6654173
	},
	{
	"epoch": 0.5896414342629482,
	"grad_norm": 2.1875,
	"learning_rate": 1.9438833303083674e-06,
	"loss": 1.2314,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 37,
	"tokens_per_second_per_gpu": 5411.99,
	"total_tokens": 6838496
	},
	{
	"epoch": 0.6055776892430279,
	"grad_norm": 2.140625,
	"learning_rate": 1.937542458543999e-06,
	"loss": 1.1685,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 38,
	"tokens_per_second_per_gpu": 5285.57,
	"total_tokens": 7020101
	},
	{
	"epoch": 0.6215139442231076,
	"grad_norm": 2.09375,
	"learning_rate": 1.930873748644204e-06,
	"loss": 1.1489,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 39,
	"tokens_per_second_per_gpu": 5909.97,
	"total_tokens": 7209728
	},
	{
	"epoch": 0.6374501992031872,
	"grad_norm": 2.21875,
	"learning_rate": 1.9238795325112867e-06,
	"loss": 1.1924,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 40,
	"tokens_per_second_per_gpu": 5668.7,
	"total_tokens": 7392542
	},
	{
	"epoch": 0.6533864541832669,
	"grad_norm": 2.1875,
	"learning_rate": 1.916562255869976e-06,
	"loss": 1.21,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 41,
	"tokens_per_second_per_gpu": 5187.81,
	"total_tokens": 7570380
	},
	{
	"epoch": 0.6693227091633466,
	"grad_norm": 2.03125,
	"learning_rate": 1.908924477412211e-06,
	"loss": 1.1787,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 42,
	"tokens_per_second_per_gpu": 5502.78,
	"total_tokens": 7753287
	},
	{
	"epoch": 0.6852589641434262,
	"grad_norm": 1.90625,
	"learning_rate": 1.9009688679024189e-06,
	"loss": 1.1504,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 43,
	"tokens_per_second_per_gpu": 5664.86,
	"total_tokens": 7942863
	},
	{
	"epoch": 0.701195219123506,
	"grad_norm": 1.9921875,
	"learning_rate": 1.8926982092436114e-06,
	"loss": 1.2075,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 44,
	"tokens_per_second_per_gpu": 5493.62,
	"total_tokens": 8127398
	},
	{
	"epoch": 0.7171314741035857,
	"grad_norm": 1.9140625,
	"learning_rate": 1.8841153935046096e-06,
	"loss": 1.1484,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 45,
	"tokens_per_second_per_gpu": 5847.74,
	"total_tokens": 8312603
	},
	{
	"epoch": 0.7330677290836654,
	"grad_norm": 1.90625,
	"learning_rate": 1.8752234219087537e-06,
	"loss": 1.167,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 46,
	"tokens_per_second_per_gpu": 5502.76,
	"total_tokens": 8497383
	},
	{
	"epoch": 0.749003984063745,
	"grad_norm": 1.8828125,
	"learning_rate": 1.8660254037844386e-06,
	"loss": 1.147,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 47,
	"tokens_per_second_per_gpu": 5615.32,
	"total_tokens": 8688166
	},
	{
	"epoch": 0.7649402390438247,
	"grad_norm": 1.9453125,
	"learning_rate": 1.8565245554778515e-06,
	"loss": 1.1992,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 48,
	"tokens_per_second_per_gpu": 5767.9,
	"total_tokens": 8874386
	},
	{
	"epoch": 0.7808764940239044,
	"grad_norm": 1.90625,
	"learning_rate": 1.8467241992282841e-06,
	"loss": 1.1475,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 49,
	"tokens_per_second_per_gpu": 5789.02,
	"total_tokens": 9059229
	},
	{
	"epoch": 0.796812749003984,
	"grad_norm": 1.75,
	"learning_rate": 1.8366277620064197e-06,
	"loss": 1.0986,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 50,
	"tokens_per_second_per_gpu": 5192.74,
	"total_tokens": 9255532
	},
	{
	"epoch": 0.8127490039840638,
	"grad_norm": 1.7578125,
	"learning_rate": 1.8262387743159948e-06,
	"loss": 1.0908,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 51,
	"tokens_per_second_per_gpu": 5522.43,
	"total_tokens": 9446438
	},
	{
	"epoch": 0.8286852589641435,
	"grad_norm": 1.7109375,
	"learning_rate": 1.8155608689592601e-06,
	"loss": 1.1084,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 52,
	"tokens_per_second_per_gpu": 5467.0,
	"total_tokens": 9632510
	},
	{
	"epoch": 0.8446215139442231,
	"grad_norm": 1.6171875,
	"learning_rate": 1.8045977797666683e-06,
	"loss": 1.0781,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 53,
	"tokens_per_second_per_gpu": 5831.19,
	"total_tokens": 9824144
	},
	{
	"epoch": 0.8605577689243028,
	"grad_norm": 1.78125,
	"learning_rate": 1.7933533402912351e-06,
	"loss": 1.1533,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 54,
	"tokens_per_second_per_gpu": 5705.42,
	"total_tokens": 10010140
	},
	{
	"epoch": 0.8764940239043825,
	"grad_norm": 1.7734375,
	"learning_rate": 1.7818314824680298e-06,
	"loss": 1.1689,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 55,
	"tokens_per_second_per_gpu": 5696.79,
	"total_tokens": 10195855
	},
	{
	"epoch": 0.8924302788844621,
	"grad_norm": 1.6796875,
	"learning_rate": 1.770036235239263e-06,
	"loss": 1.1182,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 56,
	"tokens_per_second_per_gpu": 6045.85,
	"total_tokens": 10381589
	},
	{
	"epoch": 0.9083665338645418,
	"grad_norm": 1.6875,
	"learning_rate": 1.7579717231454529e-06,
	"loss": 1.1738,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 57,
	"tokens_per_second_per_gpu": 5658.53,
	"total_tokens": 10573779
	},
	{
	"epoch": 0.9243027888446215,
	"grad_norm": 1.65625,
	"learning_rate": 1.7456421648831654e-06,
	"loss": 1.1553,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 58,
	"tokens_per_second_per_gpu": 5601.69,
	"total_tokens": 10762764
	},
	{
	"epoch": 0.9402390438247012,
	"grad_norm": 1.7109375,
	"learning_rate": 1.733051871829826e-06,
	"loss": 1.1416,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 59,
	"tokens_per_second_per_gpu": 5873.82,
	"total_tokens": 10948310
	},
	{
	"epoch": 0.9561752988047809,
	"grad_norm": 1.5859375,
	"learning_rate": 1.7202052465361266e-06,
	"loss": 1.1514,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 60,
	"tokens_per_second_per_gpu": 5552.06,
	"total_tokens": 11134379
	},
	{
	"epoch": 0.9721115537848606,
	"grad_norm": 1.5859375,
	"learning_rate": 1.7071067811865474e-06,
	"loss": 1.1243,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 61,
	"tokens_per_second_per_gpu": 5016.43,
	"total_tokens": 11320025
	},
	{
	"epoch": 0.9880478087649402,
	"grad_norm": 1.4921875,
	"learning_rate": 1.6937610560285416e-06,
	"loss": 1.0957,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 62,
	"tokens_per_second_per_gpu": 5350.32,
	"total_tokens": 11504140
	},
	{
	"epoch": 1.0,
	"grad_norm": 1.609375,
	"learning_rate": 1.6801727377709191e-06,
	"loss": 1.1582,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 63,
	"tokens_per_second_per_gpu": 4173.22,
	"total_tokens": 11627371
	},
	{
	"epoch": 1.0159362549800797,
	"grad_norm": 1.4609375,
	"learning_rate": 1.6663465779520037e-06,
	"loss": 1.0864,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 64,
	"tokens_per_second_per_gpu": 5530.73,
	"total_tokens": 11815331
	},
	{
	"epoch": 1.0318725099601593,
	"grad_norm": 1.6015625,
	"learning_rate": 1.6522874112781212e-06,
	"loss": 1.1445,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 65,
	"tokens_per_second_per_gpu": 5941.29,
	"total_tokens": 12007378
	},
	{
	"epoch": 1.047808764940239,
	"grad_norm": 1.546875,
	"learning_rate": 1.6380001539330085e-06,
	"loss": 1.209,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 66,
	"tokens_per_second_per_gpu": 5598.11,
	"total_tokens": 12193950
	},
	{
	"epoch": 1.0637450199203187,
	"grad_norm": 1.578125,
	"learning_rate": 1.6234898018587336e-06,
	"loss": 1.1421,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 67,
	"tokens_per_second_per_gpu": 5671.24,
	"total_tokens": 12382049
	},
	{
	"epoch": 1.0796812749003983,
	"grad_norm": 1.5,
	"learning_rate": 1.6087614290087205e-06,
	"loss": 1.1323,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 68,
	"tokens_per_second_per_gpu": 5627.89,
	"total_tokens": 12562455
	},
	{
	"epoch": 1.095617529880478,
	"grad_norm": 1.5859375,
	"learning_rate": 1.5938201855735014e-06,
	"loss": 1.2207,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 69,
	"tokens_per_second_per_gpu": 5368.43,
	"total_tokens": 12741408
	},
	{
	"epoch": 1.1115537848605577,
	"grad_norm": 1.46875,
	"learning_rate": 1.578671296179806e-06,
	"loss": 1.0659,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 70,
	"tokens_per_second_per_gpu": 5466.98,
	"total_tokens": 12929546
	},
	{
	"epoch": 1.1274900398406373,
	"grad_norm": 1.421875,
	"learning_rate": 1.563320058063622e-06,
	"loss": 1.1416,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 71,
	"tokens_per_second_per_gpu": 5509.23,
	"total_tokens": 13110713
	},
	{
	"epoch": 1.1434262948207172,
	"grad_norm": 1.34375,
	"learning_rate": 1.5477718392178713e-06,
	"loss": 1.1318,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 72,
	"tokens_per_second_per_gpu": 5553.33,
	"total_tokens": 13294703
	},
	{
	"epoch": 1.159362549800797,
	"grad_norm": 1.484375,
	"learning_rate": 1.5320320765153365e-06,
	"loss": 1.2129,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 73,
	"tokens_per_second_per_gpu": 5457.5,
	"total_tokens": 13476728
	},
	{
	"epoch": 1.1752988047808766,
	"grad_norm": 1.5,
	"learning_rate": 1.5161062738075065e-06,
	"loss": 1.2109,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 74,
	"tokens_per_second_per_gpu": 5229.94,
	"total_tokens": 13654224
	},
	{
	"epoch": 1.1912350597609562,
	"grad_norm": 1.3671875,
	"learning_rate": 1.5e-06,
	"loss": 1.1475,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 75,
	"tokens_per_second_per_gpu": 5856.14,
	"total_tokens": 13840656
	},
	{
	"epoch": 1.207171314741036,
	"grad_norm": 1.3984375,
	"learning_rate": 1.4837188871052397e-06,
	"loss": 1.1494,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 76,
	"tokens_per_second_per_gpu": 5621.93,
	"total_tokens": 14027447
	},
	{
	"epoch": 1.2231075697211156,
	"grad_norm": 1.3125,
	"learning_rate": 1.467268628273062e-06,
	"loss": 1.1133,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 77,
	"tokens_per_second_per_gpu": 5678.9,
	"total_tokens": 14220483
	},
	{
	"epoch": 1.2390438247011952,
	"grad_norm": 1.2734375,
	"learning_rate": 1.4506549757999453e-06,
	"loss": 1.1182,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 78,
	"tokens_per_second_per_gpu": 5610.92,
	"total_tokens": 14409698
	},
	{
	"epoch": 1.254980079681275,
	"grad_norm": 1.4296875,
	"learning_rate": 1.433883739117558e-06,
	"loss": 1.1582,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 79,
	"tokens_per_second_per_gpu": 5624.06,
	"total_tokens": 14594318
	},
	{
	"epoch": 1.2709163346613546,
	"grad_norm": 1.328125,
	"learning_rate": 1.4169607827613282e-06,
	"loss": 1.0762,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 80,
	"tokens_per_second_per_gpu": 6081.02,
	"total_tokens": 14788534
	},
	{
	"epoch": 1.2868525896414342,
	"grad_norm": 1.3125,
	"learning_rate": 1.3998920243197408e-06,
	"loss": 1.1372,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 81,
	"tokens_per_second_per_gpu": 5511.47,
	"total_tokens": 14970672
	},
	{
	"epoch": 1.302788844621514,
	"grad_norm": 1.3671875,
	"learning_rate": 1.3826834323650898e-06,
	"loss": 1.1167,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 82,
	"tokens_per_second_per_gpu": 5614.12,
	"total_tokens": 15154574
	},
	{
	"epoch": 1.3187250996015936,
	"grad_norm": 1.390625,
	"learning_rate": 1.3653410243663951e-06,
	"loss": 1.1455,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 83,
	"tokens_per_second_per_gpu": 5438.76,
	"total_tokens": 15337599
	},
	{
	"epoch": 1.3346613545816732,
	"grad_norm": 1.234375,
	"learning_rate": 1.347870864585227e-06,
	"loss": 1.103,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 84,
	"tokens_per_second_per_gpu": 5795.88,
	"total_tokens": 15530461
	},
	{
	"epoch": 1.3505976095617531,
	"grad_norm": 1.3515625,
	"learning_rate": 1.3302790619551672e-06,
	"loss": 1.1162,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 85,
	"tokens_per_second_per_gpu": 5723.72,
	"total_tokens": 15712584
	},
	{
	"epoch": 1.3665338645418328,
	"grad_norm": 1.2265625,
	"learning_rate": 1.3125717679456444e-06,
	"loss": 1.0786,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 86,
	"tokens_per_second_per_gpu": 5598.4,
	"total_tokens": 15899301
	},
	{
	"epoch": 1.3824701195219125,
	"grad_norm": 1.1875,
	"learning_rate": 1.2947551744109043e-06,
	"loss": 1.082,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 87,
	"tokens_per_second_per_gpu": 5458.74,
	"total_tokens": 16085653
	},
	{
	"epoch": 1.3984063745019921,
	"grad_norm": 1.3515625,
	"learning_rate": 1.2768355114248492e-06,
	"loss": 1.1436,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 88,
	"tokens_per_second_per_gpu": 5579.84,
	"total_tokens": 16266291
	},
	{
	"epoch": 1.4143426294820718,
	"grad_norm": 1.2734375,
	"learning_rate": 1.2588190451025207e-06,
	"loss": 1.1914,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 89,
	"tokens_per_second_per_gpu": 5336.85,
	"total_tokens": 16450627
	},
	{
	"epoch": 1.4302788844621515,
	"grad_norm": 1.25,
	"learning_rate": 1.240712075408973e-06,
	"loss": 1.167,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 90,
	"tokens_per_second_per_gpu": 5445.98,
	"total_tokens": 16631917
	},
	{
	"epoch": 1.4462151394422311,
	"grad_norm": 1.265625,
	"learning_rate": 1.2225209339563143e-06,
	"loss": 1.1895,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 91,
	"tokens_per_second_per_gpu": 5330.92,
	"total_tokens": 16808287
	},
	{
	"epoch": 1.4621513944223108,
	"grad_norm": 1.25,
	"learning_rate": 1.2042519817896804e-06,
	"loss": 1.1357,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 92,
	"tokens_per_second_per_gpu": 5515.76,
	"total_tokens": 16990241
	},
	{
	"epoch": 1.4780876494023905,
	"grad_norm": 1.328125,
	"learning_rate": 1.1859116071629147e-06,
	"loss": 1.1187,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 93,
	"tokens_per_second_per_gpu": 5890.54,
	"total_tokens": 17176063
	},
	{
	"epoch": 1.4940239043824701,
	"grad_norm": 1.2265625,
	"learning_rate": 1.1675062233047363e-06,
	"loss": 1.1211,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 94,
	"tokens_per_second_per_gpu": 5413.95,
	"total_tokens": 17361982
	},
	{
	"epoch": 1.5099601593625498,
	"grad_norm": 1.2734375,
	"learning_rate": 1.1490422661761743e-06,
	"loss": 1.1294,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 95,
	"tokens_per_second_per_gpu": 5447.34,
	"total_tokens": 17542854
	},
	{
	"epoch": 1.5258964143426295,
	"grad_norm": 1.1875,
	"learning_rate": 1.1305261922200517e-06,
	"loss": 1.125,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 96,
	"tokens_per_second_per_gpu": 5531.41,
	"total_tokens": 17731258
	},
	{
	"epoch": 1.5418326693227091,
	"grad_norm": 1.2109375,
	"learning_rate": 1.1119644761033077e-06,
	"loss": 1.1963,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 97,
	"tokens_per_second_per_gpu": 5812.79,
	"total_tokens": 17918424
	},
	{
	"epoch": 1.5577689243027888,
	"grad_norm": 1.203125,
	"learning_rate": 1.0933636084529506e-06,
	"loss": 1.2041,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 98,
	"tokens_per_second_per_gpu": 5613.31,
	"total_tokens": 18103451
	},
	{
	"epoch": 1.5737051792828685,
	"grad_norm": 1.2578125,
	"learning_rate": 1.0747300935864243e-06,
	"loss": 1.168,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 99,
	"tokens_per_second_per_gpu": 5555.4,
	"total_tokens": 18281544
	},
	{
	"epoch": 1.5896414342629481,
	"grad_norm": 1.171875,
	"learning_rate": 1.0560704472371917e-06,
	"loss": 1.1768,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 100,
	"tokens_per_second_per_gpu": 5413.52,
	"total_tokens": 18465867
	},
	{
	"epoch": 1.6055776892430278,
	"grad_norm": 1.15625,
	"learning_rate": 1.037391194276326e-06,
	"loss": 1.1162,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 101,
	"tokens_per_second_per_gpu": 5209.56,
	"total_tokens": 18647472
	},
	{
	"epoch": 1.6215139442231075,
	"grad_norm": 1.1328125,
	"learning_rate": 1.0186988664309022e-06,
	"loss": 1.0986,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 102,
	"tokens_per_second_per_gpu": 5913.8,
	"total_tokens": 18837099
	},
	{
	"epoch": 1.6374501992031871,
	"grad_norm": 1.21875,
	"learning_rate": 1e-06,
	"loss": 1.1392,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 103,
	"tokens_per_second_per_gpu": 5669.98,
	"total_tokens": 19019913
	},
	{
	"epoch": 1.6533864541832668,
	"grad_norm": 1.2109375,
	"learning_rate": 9.81301133569098e-07,
	"loss": 1.1582,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 104,
	"tokens_per_second_per_gpu": 5370.41,
	"total_tokens": 19197751
	},
	{
	"epoch": 1.6693227091633465,
	"grad_norm": 1.1796875,
	"learning_rate": 9.626088057236744e-07,
	"loss": 1.1318,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 105,
	"tokens_per_second_per_gpu": 5391.77,
	"total_tokens": 19380658
	},
	{
	"epoch": 1.6852589641434261,
	"grad_norm": 1.09375,
	"learning_rate": 9.43929552762808e-07,
	"loss": 1.1084,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 106,
	"tokens_per_second_per_gpu": 5564.12,
	"total_tokens": 19570234
	},
	{
	"epoch": 1.701195219123506,
	"grad_norm": 1.1640625,
	"learning_rate": 9.252699064135758e-07,
	"loss": 1.1616,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 107,
	"tokens_per_second_per_gpu": 5485.18,
	"total_tokens": 19754769
	},
	{
	"epoch": 1.7171314741035857,
	"grad_norm": 1.1328125,
	"learning_rate": 9.066363915470494e-07,
	"loss": 1.106,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 108,
	"tokens_per_second_per_gpu": 5839.07,
	"total_tokens": 19939974
	},
	{
	"epoch": 1.7330677290836654,
	"grad_norm": 1.1328125,
	"learning_rate": 8.880355238966921e-07,
	"loss": 1.125,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 109,
	"tokens_per_second_per_gpu": 5601.59,
	"total_tokens": 20124754
	},
	{
	"epoch": 1.749003984063745,
	"grad_norm": 1.15625,
	"learning_rate": 8.694738077799486e-07,
	"loss": 1.1084,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 110,
	"tokens_per_second_per_gpu": 5601.31,
	"total_tokens": 20315537
	},
	{
	"epoch": 1.7649402390438247,
	"grad_norm": 1.1640625,
	"learning_rate": 8.509577338238254e-07,
	"loss": 1.1602,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 111,
	"tokens_per_second_per_gpu": 5767.0,
	"total_tokens": 20501757
	},
	{
	"epoch": 1.7808764940239044,
	"grad_norm": 1.1796875,
	"learning_rate": 8.324937766952636e-07,
	"loss": 1.1094,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 112,
	"tokens_per_second_per_gpu": 5679.05,
	"total_tokens": 20686600
	},
	{
	"epoch": 1.796812749003984,
	"grad_norm": 1.1015625,
	"learning_rate": 8.140883928370854e-07,
	"loss": 1.0659,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 113,
	"tokens_per_second_per_gpu": 5176.17,
	"total_tokens": 20882903
	},
	{
	"epoch": 1.812749003984064,
	"grad_norm": 1.109375,
	"learning_rate": 7.957480182103197e-07,
	"loss": 1.0562,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 114,
	"tokens_per_second_per_gpu": 5609.67,
	"total_tokens": 21073809
	},
	{
	"epoch": 1.8286852589641436,
	"grad_norm": 1.09375,
	"learning_rate": 7.774790660436857e-07,
	"loss": 1.0747,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 115,
	"tokens_per_second_per_gpu": 5480.8,
	"total_tokens": 21259881
	},
	{
	"epoch": 1.8446215139442232,
	"grad_norm": 1.0390625,
	"learning_rate": 7.592879245910272e-07,
	"loss": 1.0459,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 116,
	"tokens_per_second_per_gpu": 5854.74,
	"total_tokens": 21451515
	},
	{
	"epoch": 1.860557768924303,
	"grad_norm": 1.1484375,
	"learning_rate": 7.411809548974791e-07,
	"loss": 1.1191,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 117,
	"tokens_per_second_per_gpu": 5607.88,
	"total_tokens": 21637511
	},
	{
	"epoch": 1.8764940239043826,
	"grad_norm": 1.1328125,
	"learning_rate": 7.231644885751507e-07,
	"loss": 1.1377,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 118,
	"tokens_per_second_per_gpu": 5697.72,
	"total_tokens": 21823226
	},
	{
	"epoch": 1.8924302788844622,
	"grad_norm": 1.1171875,
	"learning_rate": 7.052448255890957e-07,
	"loss": 1.0869,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 119,
	"tokens_per_second_per_gpu": 6034.6,
	"total_tokens": 22008960
	},
	{
	"epoch": 1.908366533864542,
	"grad_norm": 1.1171875,
	"learning_rate": 6.874282320543556e-07,
	"loss": 1.144,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 120,
	"tokens_per_second_per_gpu": 5668.36,
	"total_tokens": 22201150
	},
	{
	"epoch": 1.9243027888446216,
	"grad_norm": 1.0859375,
	"learning_rate": 6.697209380448332e-07,
	"loss": 1.1255,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 121,
	"tokens_per_second_per_gpu": 5720.74,
	"total_tokens": 22390135
	},
	{
	"epoch": 1.9402390438247012,
	"grad_norm": 1.15625,
	"learning_rate": 6.521291354147726e-07,
	"loss": 1.1104,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 122,
	"tokens_per_second_per_gpu": 5870.28,
	"total_tokens": 22575681
	},
	{
	"epoch": 1.956175298804781,
	"grad_norm": 1.0625,
	"learning_rate": 6.34658975633605e-07,
	"loss": 1.1221,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 123,
	"tokens_per_second_per_gpu": 5453.27,
	"total_tokens": 22761750
	},
	{
	"epoch": 1.9721115537848606,
	"grad_norm": 1.0859375,
	"learning_rate": 6.173165676349102e-07,
	"loss": 1.0967,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 124,
	"tokens_per_second_per_gpu": 4989.67,
	"total_tokens": 22947396
	},
	{
	"epoch": 1.9880478087649402,
	"grad_norm": 1.0390625,
	"learning_rate": 6.001079756802592e-07,
	"loss": 1.0703,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 125,
	"tokens_per_second_per_gpu": 5385.24,
	"total_tokens": 23131511
	},
	{
	"epoch": 2.0,
	"grad_norm": 1.140625,
	"learning_rate": 5.830392172386722e-07,
	"loss": 1.1328,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 126,
	"tokens_per_second_per_gpu": 4540.27,
	"total_tokens": 23254742
	},
	{
	"epoch": 2.0159362549800797,
	"grad_norm": 1.03125,
	"learning_rate": 5.661162608824419e-07,
	"loss": 1.061,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 127,
	"tokens_per_second_per_gpu": 5523.13,
	"total_tokens": 23442702
	},
	{
	"epoch": 2.0318725099601593,
	"grad_norm": 1.140625,
	"learning_rate": 5.493450242000546e-07,
	"loss": 1.1201,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 128,
	"tokens_per_second_per_gpu": 5699.3,
	"total_tokens": 23634749
	},
	{
	"epoch": 2.047808764940239,
	"grad_norm": 1.109375,
	"learning_rate": 5.327313717269379e-07,
	"loss": 1.1875,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 129,
	"tokens_per_second_per_gpu": 5607.25,
	"total_tokens": 23821321
	},
	{
	"epoch": 2.0637450199203187,
	"grad_norm": 1.15625,
	"learning_rate": 5.162811128947602e-07,
	"loss": 1.1191,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 130,
	"tokens_per_second_per_gpu": 5781.65,
	"total_tokens": 24009420
	},
	{
	"epoch": 2.0796812749003983,
	"grad_norm": 1.1015625,
	"learning_rate": 5.000000000000002e-07,
	"loss": 1.1104,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 131,
	"tokens_per_second_per_gpu": 5505.55,
	"total_tokens": 24189826
	},
	{
	"epoch": 2.095617529880478,
	"grad_norm": 1.1796875,
	"learning_rate": 4.838937261924933e-07,
	"loss": 1.1973,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 132,
	"tokens_per_second_per_gpu": 5512.31,
	"total_tokens": 24368779
	},
	{
	"epoch": 2.1115537848605577,
	"grad_norm": 1.1015625,
	"learning_rate": 4.6796792348466353e-07,
	"loss": 1.0444,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 133,
	"tokens_per_second_per_gpu": 5465.08,
	"total_tokens": 24556917
	},
	{
	"epoch": 2.1274900398406373,
	"grad_norm": 1.1015625,
	"learning_rate": 4.522281607821288e-07,
	"loss": 1.1206,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 134,
	"tokens_per_second_per_gpu": 5419.8,
	"total_tokens": 24738084
	},
	{
	"epoch": 2.143426294820717,
	"grad_norm": 1.03125,
	"learning_rate": 4.366799419363779e-07,
	"loss": 1.1143,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 135,
	"tokens_per_second_per_gpu": 5539.41,
	"total_tokens": 24922074
	},
	{
	"epoch": 2.1593625498007967,
	"grad_norm": 1.1328125,
	"learning_rate": 4.2132870382019427e-07,
	"loss": 1.1924,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 136,
	"tokens_per_second_per_gpu": 5444.42,
	"total_tokens": 25104099
	},
	{
	"epoch": 2.1752988047808763,
	"grad_norm": 1.1328125,
	"learning_rate": 4.061798144264985e-07,
	"loss": 1.1885,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 137,
	"tokens_per_second_per_gpu": 5332.72,
	"total_tokens": 25281595
	},
	{
	"epoch": 2.191235059760956,
	"grad_norm": 1.0703125,
	"learning_rate": 3.912385709912793e-07,
	"loss": 1.1318,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 138,
	"tokens_per_second_per_gpu": 5857.46,
	"total_tokens": 25468027
	},
	{
	"epoch": 2.2071713147410357,
	"grad_norm": 1.1015625,
	"learning_rate": 3.765101981412665e-07,
	"loss": 1.1328,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 139,
	"tokens_per_second_per_gpu": 5613.35,
	"total_tokens": 25654818
	},
	{
	"epoch": 2.2231075697211153,
	"grad_norm": 1.0390625,
	"learning_rate": 3.6199984606699153e-07,
	"loss": 1.0981,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 140,
	"tokens_per_second_per_gpu": 5586.6,
	"total_tokens": 25847854
	},
	{
	"epoch": 2.239043824701195,
	"grad_norm": 1.015625,
	"learning_rate": 3.477125887218791e-07,
	"loss": 1.105,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 141,
	"tokens_per_second_per_gpu": 5723.95,
	"total_tokens": 26037069
	},
	{
	"epoch": 2.2549800796812747,
	"grad_norm": 1.15625,
	"learning_rate": 3.3365342204799606e-07,
	"loss": 1.1416,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 142,
	"tokens_per_second_per_gpu": 5609.66,
	"total_tokens": 26221689
	},
	{
	"epoch": 2.2709163346613543,
	"grad_norm": 1.0703125,
	"learning_rate": 3.198272622290804e-07,
	"loss": 1.0625,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 143,
	"tokens_per_second_per_gpu": 6065.87,
	"total_tokens": 26415905
	},
	{
	"epoch": 2.2868525896414345,
	"grad_norm": 1.0703125,
	"learning_rate": 3.0623894397145833e-07,
	"loss": 1.123,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 144,
	"tokens_per_second_per_gpu": 5513.26,
	"total_tokens": 26598043
	},
	{
	"epoch": 2.302788844621514,
	"grad_norm": 1.078125,
	"learning_rate": 2.9289321881345254e-07,
	"loss": 1.103,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 145,
	"tokens_per_second_per_gpu": 5505.93,
	"total_tokens": 26781945
	},
	{
	"epoch": 2.318725099601594,
	"grad_norm": 1.140625,
	"learning_rate": 2.797947534638736e-07,
	"loss": 1.1348,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 146,
	"tokens_per_second_per_gpu": 5529.92,
	"total_tokens": 26964970
	},
	{
	"epoch": 2.3346613545816735,
	"grad_norm": 1.0234375,
	"learning_rate": 2.6694812817017387e-07,
	"loss": 1.0938,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 147,
	"tokens_per_second_per_gpu": 5703.33,
	"total_tokens": 27157832
	},
	{
	"epoch": 2.350597609561753,
	"grad_norm": 1.1640625,
	"learning_rate": 2.543578351168344e-07,
	"loss": 1.1045,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 148,
	"tokens_per_second_per_gpu": 5833.69,
	"total_tokens": 27339955
	},
	{
	"epoch": 2.366533864541833,
	"grad_norm": 1.03125,
	"learning_rate": 2.4202827685454687e-07,
	"loss": 1.0674,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 149,
	"tokens_per_second_per_gpu": 5586.43,
	"total_tokens": 27526672
	},
	{
	"epoch": 2.3824701195219125,
	"grad_norm": 1.03125,
	"learning_rate": 2.299637647607372e-07,
	"loss": 1.0728,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 150,
	"tokens_per_second_per_gpu": 5369.71,
	"total_tokens": 27713024
	},
	{
	"epoch": 2.398406374501992,
	"grad_norm": 1.1640625,
	"learning_rate": 2.181685175319702e-07,
	"loss": 1.1318,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 151,
	"tokens_per_second_per_gpu": 5560.0,
	"total_tokens": 27893662
	},
	{
	"epoch": 2.414342629482072,
	"grad_norm": 1.1015625,
	"learning_rate": 2.0664665970876495e-07,
	"loss": 1.1807,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 152,
	"tokens_per_second_per_gpu": 5346.34,
	"total_tokens": 28077998
	},
	{
	"epoch": 2.4302788844621515,
	"grad_norm": 1.078125,
	"learning_rate": 1.9540222023333163e-07,
	"loss": 1.1572,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 153,
	"tokens_per_second_per_gpu": 5554.36,
	"total_tokens": 28259288
	},
	{
	"epoch": 2.446215139442231,
	"grad_norm": 1.09375,
	"learning_rate": 1.8443913104073982e-07,
	"loss": 1.1807,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 154,
	"tokens_per_second_per_gpu": 5321.03,
	"total_tokens": 28435658
	},
	{
	"epoch": 2.462151394422311,
	"grad_norm": 1.1015625,
	"learning_rate": 1.737612256840053e-07,
	"loss": 1.127,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 155,
	"tokens_per_second_per_gpu": 5503.74,
	"total_tokens": 28617612
	},
	{
	"epoch": 2.4780876494023905,
	"grad_norm": 1.1640625,
	"learning_rate": 1.6337223799358024e-07,
	"loss": 1.1099,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 156,
	"tokens_per_second_per_gpu": 5737.94,
	"total_tokens": 28803434
	},
	{
	"epoch": 2.49402390438247,
	"grad_norm": 1.0859375,
	"learning_rate": 1.5327580077171588e-07,
	"loss": 1.1143,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 157,
	"tokens_per_second_per_gpu": 5419.26,
	"total_tokens": 28989353
	},
	{
	"epoch": 2.50996015936255,
	"grad_norm": 1.140625,
	"learning_rate": 1.4347544452214867e-07,
	"loss": 1.1216,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 158,
	"tokens_per_second_per_gpu": 5564.03,
	"total_tokens": 29170225
	},
	{
	"epoch": 2.5258964143426295,
	"grad_norm": 1.0703125,
	"learning_rate": 1.3397459621556128e-07,
	"loss": 1.1182,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 159,
	"tokens_per_second_per_gpu": 5533.6,
	"total_tokens": 29358629
	},
	{
	"epoch": 2.541832669322709,
	"grad_norm": 1.09375,
	"learning_rate": 1.2477657809124632e-07,
	"loss": 1.1895,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 160,
	"tokens_per_second_per_gpu": 5801.01,
	"total_tokens": 29545795
	},
	{
	"epoch": 2.557768924302789,
	"grad_norm": 1.09375,
	"learning_rate": 1.1588460649539034e-07,
	"loss": 1.1973,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 161,
	"tokens_per_second_per_gpu": 5496.74,
	"total_tokens": 29730822
	},
	{
	"epoch": 2.5737051792828685,
	"grad_norm": 1.1484375,
	"learning_rate": 1.0730179075638868e-07,
	"loss": 1.1611,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 162,
	"tokens_per_second_per_gpu": 5661.86,
	"total_tokens": 29908915
	},
	{
	"epoch": 2.589641434262948,
	"grad_norm": 1.078125,
	"learning_rate": 9.903113209758096e-08,
	"loss": 1.1709,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 163,
	"tokens_per_second_per_gpu": 5334.67,
	"total_tokens": 30093238
	},
	{
	"epoch": 2.605577689243028,
	"grad_norm": 1.0703125,
	"learning_rate": 9.107552258778905e-08,
	"loss": 1.1099,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 164,
	"tokens_per_second_per_gpu": 5276.84,
	"total_tokens": 30274843
	},
	{
	"epoch": 2.6215139442231075,
	"grad_norm": 1.046875,
	"learning_rate": 8.34377441300238e-08,
	"loss": 1.0933,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 165,
	"tokens_per_second_per_gpu": 5920.44,
	"total_tokens": 30464470
	},
	{
	"epoch": 2.637450199203187,
	"grad_norm": 1.1328125,
	"learning_rate": 7.612046748871326e-08,
	"loss": 1.1348,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 166,
	"tokens_per_second_per_gpu": 5562.69,
	"total_tokens": 30647284
	},
	{
	"epoch": 2.653386454183267,
	"grad_norm": 1.1328125,
	"learning_rate": 6.912625135579586e-08,
	"loss": 1.1553,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 167,
	"tokens_per_second_per_gpu": 5381.44,
	"total_tokens": 30825122
	},
	{
	"epoch": 2.6693227091633465,
	"grad_norm": 1.078125,
	"learning_rate": 6.245754145600091e-08,
	"loss": 1.126,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 168,
	"tokens_per_second_per_gpu": 5392.77,
	"total_tokens": 31008029
	},
	{
	"epoch": 2.685258964143426,
	"grad_norm": 1.03125,
	"learning_rate": 5.611666969163242e-08,
	"loss": 1.1025,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 169,
	"tokens_per_second_per_gpu": 5636.12,
	"total_tokens": 31197605
	},
	{
	"epoch": 2.7011952191235062,
	"grad_norm": 1.09375,
	"learning_rate": 5.0105853327154004e-08,
	"loss": 1.1572,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 170,
	"tokens_per_second_per_gpu": 5442.72,
	"total_tokens": 31382140
	},
	{
	"epoch": 2.717131474103586,
	"grad_norm": 1.0703125,
	"learning_rate": 4.442719421385921e-08,
	"loss": 1.1011,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 171,
	"tokens_per_second_per_gpu": 5829.11,
	"total_tokens": 31567345
	},
	{
	"epoch": 2.7330677290836656,
	"grad_norm": 1.078125,
	"learning_rate": 3.908267805490051e-08,
	"loss": 1.123,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 172,
	"tokens_per_second_per_gpu": 5509.97,
	"total_tokens": 31752125
	},
	{
	"epoch": 2.7490039840637452,
	"grad_norm": 1.1015625,
	"learning_rate": 3.4074173710931796e-08,
	"loss": 1.105,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 173,
	"tokens_per_second_per_gpu": 5609.04,
	"total_tokens": 31942908
	},
	{
	"epoch": 2.764940239043825,
	"grad_norm": 1.109375,
	"learning_rate": 2.9403432546609043e-08,
	"loss": 1.1533,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 174,
	"tokens_per_second_per_gpu": 5753.07,
	"total_tokens": 32129128
	},
	{
	"epoch": 2.7808764940239046,
	"grad_norm": 1.1328125,
	"learning_rate": 2.507208781817638e-08,
	"loss": 1.1074,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 175,
	"tokens_per_second_per_gpu": 5763.07,
	"total_tokens": 32313971
	},
	{
	"epoch": 2.7968127490039842,
	"grad_norm": 1.0625,
	"learning_rate": 2.1081654102351632e-08,
	"loss": 1.0635,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 176,
	"tokens_per_second_per_gpu": 5200.76,
	"total_tokens": 32510274
	},
	{
	"epoch": 2.812749003984064,
	"grad_norm": 1.078125,
	"learning_rate": 1.7433526766711725e-08,
	"loss": 1.0547,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 177,
	"tokens_per_second_per_gpu": 5511.76,
	"total_tokens": 32701180
	},
	{
	"epoch": 2.8286852589641436,
	"grad_norm": 1.0546875,
	"learning_rate": 1.4128981481764113e-08,
	"loss": 1.0728,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 178,
	"tokens_per_second_per_gpu": 5453.23,
	"total_tokens": 32887252
	},
	{
	"epoch": 2.8446215139442232,
	"grad_norm": 1.0,
	"learning_rate": 1.1169173774871477e-08,
	"loss": 1.0454,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 179,
	"tokens_per_second_per_gpu": 5831.37,
	"total_tokens": 33078886
	},
	{
	"epoch": 2.860557768924303,
	"grad_norm": 1.109375,
	"learning_rate": 8.555138626189618e-09,
	"loss": 1.1182,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 180,
	"tokens_per_second_per_gpu": 5712.45,
	"total_tokens": 33264882
	},
	{
	"epoch": 2.8764940239043826,
	"grad_norm": 1.09375,
	"learning_rate": 6.2877901067573955e-09,
	"loss": 1.1357,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 181,
	"tokens_per_second_per_gpu": 5709.15,
	"total_tokens": 33450597
	},
	{
	"epoch": 2.8924302788844622,
	"grad_norm": 1.1015625,
	"learning_rate": 4.367921058866186e-09,
	"loss": 1.085,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 182,
	"tokens_per_second_per_gpu": 5923.67,
	"total_tokens": 33636331
	},
	{
	"epoch": 2.908366533864542,
	"grad_norm": 1.0859375,
	"learning_rate": 2.7962028188198706e-09,
	"loss": 1.1416,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 183,
	"tokens_per_second_per_gpu": 5643.13,
	"total_tokens": 33828521
	},
	{
	"epoch": 2.9243027888446216,
	"grad_norm": 1.0625,
	"learning_rate": 1.5731849821833953e-09,
	"loss": 1.1255,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 184,
	"tokens_per_second_per_gpu": 5703.08,
	"total_tokens": 34017506
	},
	{
	"epoch": 2.9402390438247012,
	"grad_norm": 1.1328125,
	"learning_rate": 6.992952116013917e-10,
	"loss": 1.1094,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 185,
	"tokens_per_second_per_gpu": 5872.3,
	"total_tokens": 34203052
	},
	{
	"epoch": 2.956175298804781,
	"grad_norm": 1.046875,
	"learning_rate": 1.7483908725357543e-10,
	"loss": 1.1221,
	"memory/device_reserved (GiB)": 77.63,
	"memory/max_active (GiB)": 65.77,
	"memory/max_allocated (GiB)": 65.77,
	"step": 186,
	"tokens_per_second_per_gpu": 5556.53,
	"total_tokens": 34389121
	}
	],
	"logging_steps": 1,
	"max_steps": 186,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 62,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 2.3756016575819284e+18,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}