Unicorn-R3 / trainer_state.json

Upload folder using huggingface_hub

e99638b verified 5 months ago

69.1 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 2.956175298804781,
	"eval_steps": 500,
	"global_step": 186,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.01593625498007968,
	"grad_norm": 4.5625,
	"learning_rate": 0.0,
	"loss": 1.4053,
	"memory/device_reserved (GiB)": 61.34,
	"memory/max_active (GiB)": 49.6,
	"memory/max_allocated (GiB)": 49.6,
	"step": 1,
	"tokens_per_second_per_gpu": 4706.79,
	"total_tokens": 180518
	},
	{
	"epoch": 0.03187250996015936,
	"grad_norm": 4.34375,
	"learning_rate": 1.111111111111111e-06,
	"loss": 1.3369,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 2,
	"tokens_per_second_per_gpu": 5826.72,
	"total_tokens": 363757
	},
	{
	"epoch": 0.04780876494023904,
	"grad_norm": 4.15625,
	"learning_rate": 2.222222222222222e-06,
	"loss": 1.3623,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 3,
	"tokens_per_second_per_gpu": 5939.96,
	"total_tokens": 558043
	},
	{
	"epoch": 0.06374501992031872,
	"grad_norm": 4.34375,
	"learning_rate": 3.3333333333333333e-06,
	"loss": 1.3643,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 4,
	"tokens_per_second_per_gpu": 5941.47,
	"total_tokens": 743276
	},
	{
	"epoch": 0.0796812749003984,
	"grad_norm": 3.90625,
	"learning_rate": 4.444444444444444e-06,
	"loss": 1.2998,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 5,
	"tokens_per_second_per_gpu": 5380.38,
	"total_tokens": 929761
	},
	{
	"epoch": 0.09561752988047809,
	"grad_norm": 3.546875,
	"learning_rate": 5.555555555555557e-06,
	"loss": 1.3018,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 6,
	"tokens_per_second_per_gpu": 5949.69,
	"total_tokens": 1118316
	},
	{
	"epoch": 0.11155378486055777,
	"grad_norm": 3.171875,
	"learning_rate": 6.666666666666667e-06,
	"loss": 1.2793,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 7,
	"tokens_per_second_per_gpu": 5785.23,
	"total_tokens": 1301615
	},
	{
	"epoch": 0.12749003984063745,
	"grad_norm": 2.96875,
	"learning_rate": 7.77777777777778e-06,
	"loss": 1.3115,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 8,
	"tokens_per_second_per_gpu": 5941.21,
	"total_tokens": 1490474
	},
	{
	"epoch": 0.14342629482071714,
	"grad_norm": 2.296875,
	"learning_rate": 8.888888888888888e-06,
	"loss": 1.2588,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 9,
	"tokens_per_second_per_gpu": 5534.49,
	"total_tokens": 1667576
	},
	{
	"epoch": 0.1593625498007968,
	"grad_norm": 1.5625,
	"learning_rate": 1e-05,
	"loss": 1.1992,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 10,
	"tokens_per_second_per_gpu": 6154.87,
	"total_tokens": 1857807
	},
	{
	"epoch": 0.1752988047808765,
	"grad_norm": 1.0703125,
	"learning_rate": 1.1111111111111113e-05,
	"loss": 1.1436,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 11,
	"tokens_per_second_per_gpu": 5715.6,
	"total_tokens": 2041489
	},
	{
	"epoch": 0.19123505976095617,
	"grad_norm": 0.9765625,
	"learning_rate": 1.2222222222222224e-05,
	"loss": 1.2402,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 12,
	"tokens_per_second_per_gpu": 5749.37,
	"total_tokens": 2216014
	},
	{
	"epoch": 0.20717131474103587,
	"grad_norm": 0.9609375,
	"learning_rate": 1.3333333333333333e-05,
	"loss": 1.2051,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 13,
	"tokens_per_second_per_gpu": 5748.94,
	"total_tokens": 2397131
	},
	{
	"epoch": 0.22310756972111553,
	"grad_norm": 0.921875,
	"learning_rate": 1.4444444444444446e-05,
	"loss": 1.1211,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 14,
	"tokens_per_second_per_gpu": 6171.1,
	"total_tokens": 2590472
	},
	{
	"epoch": 0.23904382470119523,
	"grad_norm": 0.8984375,
	"learning_rate": 1.555555555555556e-05,
	"loss": 1.1777,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 15,
	"tokens_per_second_per_gpu": 6160.5,
	"total_tokens": 2780711
	},
	{
	"epoch": 0.2549800796812749,
	"grad_norm": 0.80078125,
	"learning_rate": 1.6666666666666667e-05,
	"loss": 1.1025,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 16,
	"tokens_per_second_per_gpu": 5706.58,
	"total_tokens": 2968588
	},
	{
	"epoch": 0.27091633466135456,
	"grad_norm": 0.65234375,
	"learning_rate": 1.7777777777777777e-05,
	"loss": 1.2041,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 17,
	"tokens_per_second_per_gpu": 5569.19,
	"total_tokens": 3148691
	},
	{
	"epoch": 0.2868525896414343,
	"grad_norm": 0.59765625,
	"learning_rate": 1.888888888888889e-05,
	"loss": 1.168,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 18,
	"tokens_per_second_per_gpu": 5894.91,
	"total_tokens": 3332398
	},
	{
	"epoch": 0.30278884462151395,
	"grad_norm": 0.5625,
	"learning_rate": 2e-05,
	"loss": 1.0977,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 19,
	"tokens_per_second_per_gpu": 6092.09,
	"total_tokens": 3526610
	},
	{
	"epoch": 0.3187250996015936,
	"grad_norm": 0.54296875,
	"learning_rate": 1.9998251609127465e-05,
	"loss": 1.1372,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 20,
	"tokens_per_second_per_gpu": 5971.19,
	"total_tokens": 3711042
	},
	{
	"epoch": 0.3346613545816733,
	"grad_norm": 0.5078125,
	"learning_rate": 1.9993007047883988e-05,
	"loss": 1.0659,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 21,
	"tokens_per_second_per_gpu": 5750.71,
	"total_tokens": 3890841
	},
	{
	"epoch": 0.350597609561753,
	"grad_norm": 0.50390625,
	"learning_rate": 1.998426815017817e-05,
	"loss": 1.124,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 22,
	"tokens_per_second_per_gpu": 5968.21,
	"total_tokens": 4074024
	},
	{
	"epoch": 0.3665338645418327,
	"grad_norm": 0.4609375,
	"learning_rate": 1.9972037971811802e-05,
	"loss": 1.064,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 23,
	"tokens_per_second_per_gpu": 5672.93,
	"total_tokens": 4261426
	},
	{
	"epoch": 0.38247011952191234,
	"grad_norm": 0.458984375,
	"learning_rate": 1.9956320789411338e-05,
	"loss": 1.0977,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 24,
	"tokens_per_second_per_gpu": 5947.63,
	"total_tokens": 4448221
	},
	{
	"epoch": 0.398406374501992,
	"grad_norm": 0.400390625,
	"learning_rate": 1.9937122098932428e-05,
	"loss": 0.9438,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 25,
	"tokens_per_second_per_gpu": 5830.3,
	"total_tokens": 4643418
	},
	{
	"epoch": 0.41434262948207173,
	"grad_norm": 0.451171875,
	"learning_rate": 1.9914448613738107e-05,
	"loss": 1.0786,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 26,
	"tokens_per_second_per_gpu": 5753.23,
	"total_tokens": 4826564
	},
	{
	"epoch": 0.4302788844621514,
	"grad_norm": 0.41796875,
	"learning_rate": 1.9888308262251286e-05,
	"loss": 1.1084,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 27,
	"tokens_per_second_per_gpu": 5786.21,
	"total_tokens": 5008617
	},
	{
	"epoch": 0.44621513944223107,
	"grad_norm": 0.392578125,
	"learning_rate": 1.985871018518236e-05,
	"loss": 1.0488,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 28,
	"tokens_per_second_per_gpu": 5935.98,
	"total_tokens": 5194550
	},
	{
	"epoch": 0.46215139442231074,
	"grad_norm": 0.37109375,
	"learning_rate": 1.9825664732332886e-05,
	"loss": 1.0894,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 29,
	"tokens_per_second_per_gpu": 5927.93,
	"total_tokens": 5380376
	},
	{
	"epoch": 0.47808764940239046,
	"grad_norm": 0.35546875,
	"learning_rate": 1.9789183458976485e-05,
	"loss": 1.0869,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 30,
	"tokens_per_second_per_gpu": 6097.05,
	"total_tokens": 5567310
	},
	{
	"epoch": 0.4940239043824701,
	"grad_norm": 0.37109375,
	"learning_rate": 1.9749279121818235e-05,
	"loss": 1.0181,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 31,
	"tokens_per_second_per_gpu": 6055.18,
	"total_tokens": 5750982
	},
	{
	"epoch": 0.5099601593625498,
	"grad_norm": 0.380859375,
	"learning_rate": 1.970596567453391e-05,
	"loss": 1.0552,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 32,
	"tokens_per_second_per_gpu": 6008.39,
	"total_tokens": 5937332
	},
	{
	"epoch": 0.5258964143426295,
	"grad_norm": 0.376953125,
	"learning_rate": 1.9659258262890683e-05,
	"loss": 1.0439,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 33,
	"tokens_per_second_per_gpu": 6030.07,
	"total_tokens": 6120851
	},
	{
	"epoch": 0.5418326693227091,
	"grad_norm": 0.369140625,
	"learning_rate": 1.9609173219450998e-05,
	"loss": 1.0835,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 34,
	"tokens_per_second_per_gpu": 5726.88,
	"total_tokens": 6297402
	},
	{
	"epoch": 0.5577689243027888,
	"grad_norm": 0.396484375,
	"learning_rate": 1.955572805786141e-05,
	"loss": 1.1074,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 35,
	"tokens_per_second_per_gpu": 5816.12,
	"total_tokens": 6480316
	},
	{
	"epoch": 0.5737051792828686,
	"grad_norm": 0.357421875,
	"learning_rate": 1.9498941466728462e-05,
	"loss": 1.0391,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 36,
	"tokens_per_second_per_gpu": 5765.66,
	"total_tokens": 6665052
	},
	{
	"epoch": 0.5896414342629482,
	"grad_norm": 0.345703125,
	"learning_rate": 1.9438833303083677e-05,
	"loss": 1.0371,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 37,
	"tokens_per_second_per_gpu": 5749.09,
	"total_tokens": 6849283
	},
	{
	"epoch": 0.6055776892430279,
	"grad_norm": 0.34375,
	"learning_rate": 1.9375424585439994e-05,
	"loss": 1.0503,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 38,
	"tokens_per_second_per_gpu": 5927.3,
	"total_tokens": 7032513
	},
	{
	"epoch": 0.6215139442231076,
	"grad_norm": 0.330078125,
	"learning_rate": 1.9308737486442045e-05,
	"loss": 1.0479,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 39,
	"tokens_per_second_per_gpu": 5905.92,
	"total_tokens": 7214561
	},
	{
	"epoch": 0.6374501992031872,
	"grad_norm": 0.3359375,
	"learning_rate": 1.9238795325112867e-05,
	"loss": 1.0098,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 40,
	"tokens_per_second_per_gpu": 5853.3,
	"total_tokens": 7400854
	},
	{
	"epoch": 0.6533864541832669,
	"grad_norm": 0.36328125,
	"learning_rate": 1.9165622558699763e-05,
	"loss": 1.106,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 41,
	"tokens_per_second_per_gpu": 5556.45,
	"total_tokens": 7577263
	},
	{
	"epoch": 0.6693227091633466,
	"grad_norm": 0.396484375,
	"learning_rate": 1.908924477412211e-05,
	"loss": 1.0498,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 42,
	"tokens_per_second_per_gpu": 5928.26,
	"total_tokens": 7763586
	},
	{
	"epoch": 0.6852589641434262,
	"grad_norm": 0.32421875,
	"learning_rate": 1.900968867902419e-05,
	"loss": 1.0171,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 43,
	"tokens_per_second_per_gpu": 6102.36,
	"total_tokens": 7953595
	},
	{
	"epoch": 0.701195219123506,
	"grad_norm": 0.36328125,
	"learning_rate": 1.8926982092436117e-05,
	"loss": 1.0688,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 44,
	"tokens_per_second_per_gpu": 6058.46,
	"total_tokens": 8135608
	},
	{
	"epoch": 0.7171314741035857,
	"grad_norm": 0.359375,
	"learning_rate": 1.8841153935046098e-05,
	"loss": 0.978,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 45,
	"tokens_per_second_per_gpu": 5806.45,
	"total_tokens": 8328038
	},
	{
	"epoch": 0.7330677290836654,
	"grad_norm": 0.333984375,
	"learning_rate": 1.8752234219087538e-05,
	"loss": 1.0435,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 46,
	"tokens_per_second_per_gpu": 5940.85,
	"total_tokens": 8517629
	},
	{
	"epoch": 0.749003984063745,
	"grad_norm": 0.400390625,
	"learning_rate": 1.866025403784439e-05,
	"loss": 1.0317,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 47,
	"tokens_per_second_per_gpu": 5929.8,
	"total_tokens": 8700619
	},
	{
	"epoch": 0.7649402390438247,
	"grad_norm": 0.328125,
	"learning_rate": 1.8565245554778516e-05,
	"loss": 0.9819,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 48,
	"tokens_per_second_per_gpu": 5991.89,
	"total_tokens": 8886726
	},
	{
	"epoch": 0.7808764940239044,
	"grad_norm": 0.34765625,
	"learning_rate": 1.8467241992282842e-05,
	"loss": 1.0396,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 49,
	"tokens_per_second_per_gpu": 5941.59,
	"total_tokens": 9074210
	},
	{
	"epoch": 0.796812749003984,
	"grad_norm": 0.345703125,
	"learning_rate": 1.83662776200642e-05,
	"loss": 1.0703,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 50,
	"tokens_per_second_per_gpu": 5856.71,
	"total_tokens": 9253264
	},
	{
	"epoch": 0.8127490039840638,
	"grad_norm": 0.33203125,
	"learning_rate": 1.826238774315995e-05,
	"loss": 1.0078,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 51,
	"tokens_per_second_per_gpu": 5883.97,
	"total_tokens": 9437019
	},
	{
	"epoch": 0.8286852589641435,
	"grad_norm": 0.326171875,
	"learning_rate": 1.8155608689592604e-05,
	"loss": 1.0352,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 52,
	"tokens_per_second_per_gpu": 6284.45,
	"total_tokens": 9624777
	},
	{
	"epoch": 0.8446215139442231,
	"grad_norm": 0.34375,
	"learning_rate": 1.8045977797666685e-05,
	"loss": 1.0015,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 53,
	"tokens_per_second_per_gpu": 6227.78,
	"total_tokens": 9816093
	},
	{
	"epoch": 0.8605577689243028,
	"grad_norm": 0.32421875,
	"learning_rate": 1.7933533402912354e-05,
	"loss": 1.0205,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 54,
	"tokens_per_second_per_gpu": 5562.75,
	"total_tokens": 10003875
	},
	{
	"epoch": 0.8764940239043825,
	"grad_norm": 0.3125,
	"learning_rate": 1.78183148246803e-05,
	"loss": 0.9985,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 55,
	"tokens_per_second_per_gpu": 6029.45,
	"total_tokens": 10195261
	},
	{
	"epoch": 0.8924302788844621,
	"grad_norm": 0.328125,
	"learning_rate": 1.7700362352392632e-05,
	"loss": 1.0151,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 56,
	"tokens_per_second_per_gpu": 5824.93,
	"total_tokens": 10378607
	},
	{
	"epoch": 0.9083665338645418,
	"grad_norm": 0.345703125,
	"learning_rate": 1.757971723145453e-05,
	"loss": 1.0737,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 57,
	"tokens_per_second_per_gpu": 5758.69,
	"total_tokens": 10565102
	},
	{
	"epoch": 0.9243027888446215,
	"grad_norm": 0.330078125,
	"learning_rate": 1.7456421648831658e-05,
	"loss": 1.0444,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 58,
	"tokens_per_second_per_gpu": 5699.09,
	"total_tokens": 10743645
	},
	{
	"epoch": 0.9402390438247012,
	"grad_norm": 0.337890625,
	"learning_rate": 1.7330518718298263e-05,
	"loss": 0.998,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 59,
	"tokens_per_second_per_gpu": 5772.72,
	"total_tokens": 10926325
	},
	{
	"epoch": 0.9561752988047809,
	"grad_norm": 0.361328125,
	"learning_rate": 1.7202052465361268e-05,
	"loss": 1.0659,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 60,
	"tokens_per_second_per_gpu": 5781.99,
	"total_tokens": 11105741
	},
	{
	"epoch": 0.9721115537848606,
	"grad_norm": 0.326171875,
	"learning_rate": 1.7071067811865477e-05,
	"loss": 1.0024,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 61,
	"tokens_per_second_per_gpu": 5416.25,
	"total_tokens": 11283752
	},
	{
	"epoch": 0.9880478087649402,
	"grad_norm": 0.314453125,
	"learning_rate": 1.693761056028542e-05,
	"loss": 0.9429,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 62,
	"tokens_per_second_per_gpu": 6080.81,
	"total_tokens": 11476891
	},
	{
	"epoch": 1.0,
	"grad_norm": 1.03125,
	"learning_rate": 1.6801727377709195e-05,
	"loss": 0.8979,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 63,
	"tokens_per_second_per_gpu": 4586.33,
	"total_tokens": 11600559
	},
	{
	"epoch": 1.0159362549800797,
	"grad_norm": 0.33203125,
	"learning_rate": 1.6663465779520042e-05,
	"loss": 1.0391,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 64,
	"tokens_per_second_per_gpu": 5765.65,
	"total_tokens": 11781077
	},
	{
	"epoch": 1.0318725099601593,
	"grad_norm": 0.328125,
	"learning_rate": 1.6522874112781213e-05,
	"loss": 0.9893,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 65,
	"tokens_per_second_per_gpu": 5812.65,
	"total_tokens": 11964316
	},
	{
	"epoch": 1.047808764940239,
	"grad_norm": 0.33203125,
	"learning_rate": 1.6380001539330088e-05,
	"loss": 1.019,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 66,
	"tokens_per_second_per_gpu": 5958.35,
	"total_tokens": 12158602
	},
	{
	"epoch": 1.0637450199203187,
	"grad_norm": 0.318359375,
	"learning_rate": 1.6234898018587336e-05,
	"loss": 1.0098,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 67,
	"tokens_per_second_per_gpu": 5947.9,
	"total_tokens": 12343835
	},
	{
	"epoch": 1.0796812749003983,
	"grad_norm": 0.31640625,
	"learning_rate": 1.608761429008721e-05,
	"loss": 0.959,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 68,
	"tokens_per_second_per_gpu": 5410.16,
	"total_tokens": 12530320
	},
	{
	"epoch": 1.095617529880478,
	"grad_norm": 0.337890625,
	"learning_rate": 1.5938201855735017e-05,
	"loss": 0.998,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 69,
	"tokens_per_second_per_gpu": 5950.0,
	"total_tokens": 12718875
	},
	{
	"epoch": 1.1115537848605577,
	"grad_norm": 0.31640625,
	"learning_rate": 1.578671296179806e-05,
	"loss": 0.9834,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 70,
	"tokens_per_second_per_gpu": 5806.97,
	"total_tokens": 12902174
	},
	{
	"epoch": 1.1274900398406373,
	"grad_norm": 0.322265625,
	"learning_rate": 1.563320058063622e-05,
	"loss": 1.02,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 71,
	"tokens_per_second_per_gpu": 5964.93,
	"total_tokens": 13091033
	},
	{
	"epoch": 1.1434262948207172,
	"grad_norm": 0.328125,
	"learning_rate": 1.5477718392178716e-05,
	"loss": 1.001,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 72,
	"tokens_per_second_per_gpu": 5543.95,
	"total_tokens": 13268135
	},
	{
	"epoch": 1.159362549800797,
	"grad_norm": 0.322265625,
	"learning_rate": 1.5320320765153367e-05,
	"loss": 0.9868,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 73,
	"tokens_per_second_per_gpu": 6161.46,
	"total_tokens": 13458366
	},
	{
	"epoch": 1.1752988047808766,
	"grad_norm": 0.33203125,
	"learning_rate": 1.5161062738075068e-05,
	"loss": 0.9404,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 74,
	"tokens_per_second_per_gpu": 5781.1,
	"total_tokens": 13642048
	},
	{
	"epoch": 1.1912350597609562,
	"grad_norm": 0.423828125,
	"learning_rate": 1.5000000000000002e-05,
	"loss": 1.0273,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 75,
	"tokens_per_second_per_gpu": 5754.51,
	"total_tokens": 13816573
	},
	{
	"epoch": 1.207171314741036,
	"grad_norm": 0.376953125,
	"learning_rate": 1.4837188871052399e-05,
	"loss": 0.999,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 76,
	"tokens_per_second_per_gpu": 5745.16,
	"total_tokens": 13997690
	},
	{
	"epoch": 1.2231075697211156,
	"grad_norm": 0.30859375,
	"learning_rate": 1.4672686282730622e-05,
	"loss": 0.9365,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 77,
	"tokens_per_second_per_gpu": 6187.18,
	"total_tokens": 14191031
	},
	{
	"epoch": 1.2390438247011952,
	"grad_norm": 0.310546875,
	"learning_rate": 1.4506549757999456e-05,
	"loss": 0.9932,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 78,
	"tokens_per_second_per_gpu": 6189.26,
	"total_tokens": 14381270
	},
	{
	"epoch": 1.254980079681275,
	"grad_norm": 0.361328125,
	"learning_rate": 1.4338837391175582e-05,
	"loss": 0.9253,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 79,
	"tokens_per_second_per_gpu": 5694.92,
	"total_tokens": 14569147
	},
	{
	"epoch": 1.2709163346613546,
	"grad_norm": 0.349609375,
	"learning_rate": 1.4169607827613284e-05,
	"loss": 1.0249,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 80,
	"tokens_per_second_per_gpu": 5574.13,
	"total_tokens": 14749250
	},
	{
	"epoch": 1.2868525896414342,
	"grad_norm": 0.33984375,
	"learning_rate": 1.3998920243197408e-05,
	"loss": 1.0044,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 81,
	"tokens_per_second_per_gpu": 5892.86,
	"total_tokens": 14932957
	},
	{
	"epoch": 1.302788844621514,
	"grad_norm": 0.31640625,
	"learning_rate": 1.3826834323650899e-05,
	"loss": 0.9443,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 82,
	"tokens_per_second_per_gpu": 6084.92,
	"total_tokens": 15127169
	},
	{
	"epoch": 1.3187250996015936,
	"grad_norm": 0.328125,
	"learning_rate": 1.3653410243663953e-05,
	"loss": 0.9878,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 83,
	"tokens_per_second_per_gpu": 5984.25,
	"total_tokens": 15311601
	},
	{
	"epoch": 1.3346613545816732,
	"grad_norm": 0.32421875,
	"learning_rate": 1.3478708645852272e-05,
	"loss": 0.9248,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 84,
	"tokens_per_second_per_gpu": 5744.73,
	"total_tokens": 15491400
	},
	{
	"epoch": 1.3505976095617531,
	"grad_norm": 0.33203125,
	"learning_rate": 1.3302790619551673e-05,
	"loss": 0.9824,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 85,
	"tokens_per_second_per_gpu": 6009.5,
	"total_tokens": 15674583
	},
	{
	"epoch": 1.3665338645418328,
	"grad_norm": 0.314453125,
	"learning_rate": 1.3125717679456447e-05,
	"loss": 0.9404,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 86,
	"tokens_per_second_per_gpu": 5690.82,
	"total_tokens": 15861985
	},
	{
	"epoch": 1.3824701195219125,
	"grad_norm": 0.34765625,
	"learning_rate": 1.2947551744109044e-05,
	"loss": 0.9731,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 87,
	"tokens_per_second_per_gpu": 5962.66,
	"total_tokens": 16048780
	},
	{
	"epoch": 1.3984063745019921,
	"grad_norm": 0.318359375,
	"learning_rate": 1.2768355114248493e-05,
	"loss": 0.8406,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 88,
	"tokens_per_second_per_gpu": 5796.13,
	"total_tokens": 16243977
	},
	{
	"epoch": 1.4143426294820718,
	"grad_norm": 0.337890625,
	"learning_rate": 1.2588190451025209e-05,
	"loss": 0.9692,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 89,
	"tokens_per_second_per_gpu": 5748.01,
	"total_tokens": 16427123
	},
	{
	"epoch": 1.4302788844621515,
	"grad_norm": 0.345703125,
	"learning_rate": 1.2407120754089733e-05,
	"loss": 0.998,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 90,
	"tokens_per_second_per_gpu": 5897.24,
	"total_tokens": 16609176
	},
	{
	"epoch": 1.4462151394422311,
	"grad_norm": 0.33203125,
	"learning_rate": 1.2225209339563144e-05,
	"loss": 0.9507,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 91,
	"tokens_per_second_per_gpu": 5936.81,
	"total_tokens": 16795109
	},
	{
	"epoch": 1.4621513944223108,
	"grad_norm": 0.328125,
	"learning_rate": 1.2042519817896805e-05,
	"loss": 0.9912,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 92,
	"tokens_per_second_per_gpu": 5949.43,
	"total_tokens": 16980935
	},
	{
	"epoch": 1.4780876494023905,
	"grad_norm": 0.333984375,
	"learning_rate": 1.1859116071629148e-05,
	"loss": 0.9888,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 93,
	"tokens_per_second_per_gpu": 6095.07,
	"total_tokens": 17167869
	},
	{
	"epoch": 1.4940239043824701,
	"grad_norm": 0.322265625,
	"learning_rate": 1.1675062233047365e-05,
	"loss": 0.9219,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 94,
	"tokens_per_second_per_gpu": 6067.77,
	"total_tokens": 17351541
	},
	{
	"epoch": 1.5099601593625498,
	"grad_norm": 0.3828125,
	"learning_rate": 1.1490422661761744e-05,
	"loss": 0.9648,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 95,
	"tokens_per_second_per_gpu": 6008.67,
	"total_tokens": 17537891
	},
	{
	"epoch": 1.5258964143426295,
	"grad_norm": 0.328125,
	"learning_rate": 1.130526192220052e-05,
	"loss": 0.9556,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 96,
	"tokens_per_second_per_gpu": 5955.34,
	"total_tokens": 17721410
	},
	{
	"epoch": 1.5418326693227091,
	"grad_norm": 0.3359375,
	"learning_rate": 1.1119644761033079e-05,
	"loss": 0.9951,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 97,
	"tokens_per_second_per_gpu": 5732.24,
	"total_tokens": 17897961
	},
	{
	"epoch": 1.5577689243027888,
	"grad_norm": 0.330078125,
	"learning_rate": 1.0933636084529507e-05,
	"loss": 1.02,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 98,
	"tokens_per_second_per_gpu": 5813.99,
	"total_tokens": 18080875
	},
	{
	"epoch": 1.5737051792828685,
	"grad_norm": 0.330078125,
	"learning_rate": 1.0747300935864245e-05,
	"loss": 0.958,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 99,
	"tokens_per_second_per_gpu": 5769.52,
	"total_tokens": 18265611
	},
	{
	"epoch": 1.5896414342629481,
	"grad_norm": 0.326171875,
	"learning_rate": 1.0560704472371919e-05,
	"loss": 0.9561,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 100,
	"tokens_per_second_per_gpu": 5726.38,
	"total_tokens": 18449842
	},
	{
	"epoch": 1.6055776892430278,
	"grad_norm": 0.326171875,
	"learning_rate": 1.037391194276326e-05,
	"loss": 0.9707,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 101,
	"tokens_per_second_per_gpu": 5944.93,
	"total_tokens": 18633072
	},
	{
	"epoch": 1.6215139442231075,
	"grad_norm": 0.3203125,
	"learning_rate": 1.0186988664309023e-05,
	"loss": 0.9707,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 102,
	"tokens_per_second_per_gpu": 5897.0,
	"total_tokens": 18815120
	},
	{
	"epoch": 1.6374501992031871,
	"grad_norm": 0.328125,
	"learning_rate": 1e-05,
	"loss": 0.9385,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 103,
	"tokens_per_second_per_gpu": 5841.82,
	"total_tokens": 19001413
	},
	{
	"epoch": 1.6533864541832668,
	"grad_norm": 0.341796875,
	"learning_rate": 9.81301133569098e-06,
	"loss": 1.0303,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 104,
	"tokens_per_second_per_gpu": 5567.16,
	"total_tokens": 19177822
	},
	{
	"epoch": 1.6693227091633465,
	"grad_norm": 0.330078125,
	"learning_rate": 9.626088057236745e-06,
	"loss": 0.9814,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 105,
	"tokens_per_second_per_gpu": 5850.82,
	"total_tokens": 19364145
	},
	{
	"epoch": 1.6852589641434261,
	"grad_norm": 0.31640625,
	"learning_rate": 9.439295527628083e-06,
	"loss": 0.9531,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 106,
	"tokens_per_second_per_gpu": 6142.09,
	"total_tokens": 19554154
	},
	{
	"epoch": 1.701195219123506,
	"grad_norm": 0.333984375,
	"learning_rate": 9.252699064135759e-06,
	"loss": 0.998,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 107,
	"tokens_per_second_per_gpu": 6059.46,
	"total_tokens": 19736167
	},
	{
	"epoch": 1.7171314741035857,
	"grad_norm": 0.33203125,
	"learning_rate": 9.066363915470494e-06,
	"loss": 0.9204,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 108,
	"tokens_per_second_per_gpu": 5807.52,
	"total_tokens": 19928597
	},
	{
	"epoch": 1.7330677290836654,
	"grad_norm": 0.3515625,
	"learning_rate": 8.880355238966923e-06,
	"loss": 0.978,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 109,
	"tokens_per_second_per_gpu": 5987.33,
	"total_tokens": 20118188
	},
	{
	"epoch": 1.749003984063745,
	"grad_norm": 0.3359375,
	"learning_rate": 8.694738077799487e-06,
	"loss": 0.9702,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 110,
	"tokens_per_second_per_gpu": 5888.18,
	"total_tokens": 20301178
	},
	{
	"epoch": 1.7649402390438247,
	"grad_norm": 0.357421875,
	"learning_rate": 8.509577338238255e-06,
	"loss": 0.9253,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 111,
	"tokens_per_second_per_gpu": 5972.68,
	"total_tokens": 20487285
	},
	{
	"epoch": 1.7808764940239044,
	"grad_norm": 0.337890625,
	"learning_rate": 8.324937766952638e-06,
	"loss": 0.9814,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 112,
	"tokens_per_second_per_gpu": 5932.16,
	"total_tokens": 20674769
	},
	{
	"epoch": 1.796812749003984,
	"grad_norm": 0.341796875,
	"learning_rate": 8.140883928370855e-06,
	"loss": 1.0088,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 113,
	"tokens_per_second_per_gpu": 5830.81,
	"total_tokens": 20853823
	},
	{
	"epoch": 1.812749003984064,
	"grad_norm": 0.322265625,
	"learning_rate": 7.957480182103198e-06,
	"loss": 0.9487,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 114,
	"tokens_per_second_per_gpu": 5865.22,
	"total_tokens": 21037578
	},
	{
	"epoch": 1.8286852589641436,
	"grad_norm": 0.328125,
	"learning_rate": 7.774790660436857e-06,
	"loss": 0.9819,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 115,
	"tokens_per_second_per_gpu": 6252.84,
	"total_tokens": 21225336
	},
	{
	"epoch": 1.8446215139442232,
	"grad_norm": 0.33203125,
	"learning_rate": 7.592879245910273e-06,
	"loss": 0.9482,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 116,
	"tokens_per_second_per_gpu": 6223.23,
	"total_tokens": 21416652
	},
	{
	"epoch": 1.860557768924303,
	"grad_norm": 0.322265625,
	"learning_rate": 7.411809548974792e-06,
	"loss": 0.9697,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 117,
	"tokens_per_second_per_gpu": 5561.76,
	"total_tokens": 21604434
	},
	{
	"epoch": 1.8764940239043826,
	"grad_norm": 0.30859375,
	"learning_rate": 7.2316448857515076e-06,
	"loss": 0.9468,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 118,
	"tokens_per_second_per_gpu": 6026.88,
	"total_tokens": 21795820
	},
	{
	"epoch": 1.8924302788844622,
	"grad_norm": 0.32421875,
	"learning_rate": 7.052448255890958e-06,
	"loss": 0.9624,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 119,
	"tokens_per_second_per_gpu": 5817.1,
	"total_tokens": 21979166
	},
	{
	"epoch": 1.908366533864542,
	"grad_norm": 0.33984375,
	"learning_rate": 6.874282320543557e-06,
	"loss": 1.022,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 120,
	"tokens_per_second_per_gpu": 5653.71,
	"total_tokens": 22165661
	},
	{
	"epoch": 1.9243027888446216,
	"grad_norm": 0.32421875,
	"learning_rate": 6.697209380448333e-06,
	"loss": 0.9961,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 121,
	"tokens_per_second_per_gpu": 5699.1,
	"total_tokens": 22344204
	},
	{
	"epoch": 1.9402390438247012,
	"grad_norm": 0.33203125,
	"learning_rate": 6.521291354147727e-06,
	"loss": 0.9521,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 122,
	"tokens_per_second_per_gpu": 5765.79,
	"total_tokens": 22526884
	},
	{
	"epoch": 1.956175298804781,
	"grad_norm": 0.349609375,
	"learning_rate": 6.34658975633605e-06,
	"loss": 1.0171,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 123,
	"tokens_per_second_per_gpu": 5780.38,
	"total_tokens": 22706300
	},
	{
	"epoch": 1.9721115537848606,
	"grad_norm": 0.318359375,
	"learning_rate": 6.173165676349103e-06,
	"loss": 0.957,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 124,
	"tokens_per_second_per_gpu": 5399.07,
	"total_tokens": 22884311
	},
	{
	"epoch": 1.9880478087649402,
	"grad_norm": 0.357421875,
	"learning_rate": 6.001079756802592e-06,
	"loss": 0.9028,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 125,
	"tokens_per_second_per_gpu": 5850.46,
	"total_tokens": 23077450
	},
	{
	"epoch": 2.0,
	"grad_norm": 0.39453125,
	"learning_rate": 5.830392172386723e-06,
	"loss": 0.8589,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 126,
	"tokens_per_second_per_gpu": 4564.2,
	"total_tokens": 23201118
	},
	{
	"epoch": 2.0159362549800797,
	"grad_norm": 0.32421875,
	"learning_rate": 5.66116260882442e-06,
	"loss": 0.9985,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 127,
	"tokens_per_second_per_gpu": 5832.26,
	"total_tokens": 23381636
	},
	{
	"epoch": 2.0318725099601593,
	"grad_norm": 0.328125,
	"learning_rate": 5.493450242000546e-06,
	"loss": 0.9521,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 128,
	"tokens_per_second_per_gpu": 5774.6,
	"total_tokens": 23564875
	},
	{
	"epoch": 2.047808764940239,
	"grad_norm": 0.328125,
	"learning_rate": 5.32731371726938e-06,
	"loss": 0.98,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 129,
	"tokens_per_second_per_gpu": 5972.38,
	"total_tokens": 23759161
	},
	{
	"epoch": 2.0637450199203187,
	"grad_norm": 0.328125,
	"learning_rate": 5.1628111289476025e-06,
	"loss": 0.9746,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 130,
	"tokens_per_second_per_gpu": 5919.54,
	"total_tokens": 23944394
	},
	{
	"epoch": 2.0796812749003983,
	"grad_norm": 0.31640625,
	"learning_rate": 5.000000000000003e-06,
	"loss": 0.9229,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 131,
	"tokens_per_second_per_gpu": 5414.05,
	"total_tokens": 24130879
	},
	{
	"epoch": 2.095617529880478,
	"grad_norm": 0.33203125,
	"learning_rate": 4.838937261924933e-06,
	"loss": 0.9639,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 132,
	"tokens_per_second_per_gpu": 5968.88,
	"total_tokens": 24319434
	},
	{
	"epoch": 2.1115537848605577,
	"grad_norm": 0.31640625,
	"learning_rate": 4.679679234846636e-06,
	"loss": 0.9502,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 133,
	"tokens_per_second_per_gpu": 5802.86,
	"total_tokens": 24502733
	},
	{
	"epoch": 2.1274900398406373,
	"grad_norm": 0.318359375,
	"learning_rate": 4.522281607821288e-06,
	"loss": 0.9854,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 134,
	"tokens_per_second_per_gpu": 5970.96,
	"total_tokens": 24691592
	},
	{
	"epoch": 2.143426294820717,
	"grad_norm": 0.373046875,
	"learning_rate": 4.3667994193637794e-06,
	"loss": 0.9683,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 135,
	"tokens_per_second_per_gpu": 5528.1,
	"total_tokens": 24868694
	},
	{
	"epoch": 2.1593625498007967,
	"grad_norm": 0.318359375,
	"learning_rate": 4.213287038201943e-06,
	"loss": 0.9561,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 136,
	"tokens_per_second_per_gpu": 6105.7,
	"total_tokens": 25058925
	},
	{
	"epoch": 2.1752988047808763,
	"grad_norm": 0.322265625,
	"learning_rate": 4.061798144264986e-06,
	"loss": 0.9116,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 137,
	"tokens_per_second_per_gpu": 5771.48,
	"total_tokens": 25242607
	},
	{
	"epoch": 2.191235059760956,
	"grad_norm": 0.3359375,
	"learning_rate": 3.912385709912794e-06,
	"loss": 0.9966,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 138,
	"tokens_per_second_per_gpu": 5723.02,
	"total_tokens": 25417132
	},
	{
	"epoch": 2.2071713147410357,
	"grad_norm": 0.318359375,
	"learning_rate": 3.7651019814126656e-06,
	"loss": 0.9712,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 139,
	"tokens_per_second_per_gpu": 5739.14,
	"total_tokens": 25598249
	},
	{
	"epoch": 2.2231075697211153,
	"grad_norm": 0.306640625,
	"learning_rate": 3.619998460669916e-06,
	"loss": 0.9106,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 140,
	"tokens_per_second_per_gpu": 6168.5,
	"total_tokens": 25791590
	},
	{
	"epoch": 2.239043824701195,
	"grad_norm": 0.31640625,
	"learning_rate": 3.4771258872187917e-06,
	"loss": 0.9673,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 141,
	"tokens_per_second_per_gpu": 6156.05,
	"total_tokens": 25981829
	},
	{
	"epoch": 2.2549800796812747,
	"grad_norm": 0.33203125,
	"learning_rate": 3.3365342204799613e-06,
	"loss": 0.9019,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 142,
	"tokens_per_second_per_gpu": 5766.33,
	"total_tokens": 26169706
	},
	{
	"epoch": 2.2709163346613543,
	"grad_norm": 0.50390625,
	"learning_rate": 3.1982726222908046e-06,
	"loss": 0.9995,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 143,
	"tokens_per_second_per_gpu": 5566.19,
	"total_tokens": 26349809
	},
	{
	"epoch": 2.2868525896414345,
	"grad_norm": 0.359375,
	"learning_rate": 3.0623894397145837e-06,
	"loss": 0.9805,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 144,
	"tokens_per_second_per_gpu": 5897.52,
	"total_tokens": 26533516
	},
	{
	"epoch": 2.302788844621514,
	"grad_norm": 0.375,
	"learning_rate": 2.9289321881345257e-06,
	"loss": 0.9219,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 145,
	"tokens_per_second_per_gpu": 6065.68,
	"total_tokens": 26727728
	},
	{
	"epoch": 2.318725099601594,
	"grad_norm": 0.3359375,
	"learning_rate": 2.7979475346387363e-06,
	"loss": 0.9639,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 146,
	"tokens_per_second_per_gpu": 5976.74,
	"total_tokens": 26912160
	},
	{
	"epoch": 2.3346613545816735,
	"grad_norm": 0.34765625,
	"learning_rate": 2.669481281701739e-06,
	"loss": 0.9038,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 147,
	"tokens_per_second_per_gpu": 5726.82,
	"total_tokens": 27091959
	},
	{
	"epoch": 2.350597609561753,
	"grad_norm": 0.341796875,
	"learning_rate": 2.5435783511683444e-06,
	"loss": 0.9614,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 148,
	"tokens_per_second_per_gpu": 5973.36,
	"total_tokens": 27275142
	},
	{
	"epoch": 2.366533864541833,
	"grad_norm": 0.33203125,
	"learning_rate": 2.420282768545469e-06,
	"loss": 0.9219,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 149,
	"tokens_per_second_per_gpu": 5654.39,
	"total_tokens": 27462544
	},
	{
	"epoch": 2.3824701195219125,
	"grad_norm": 0.322265625,
	"learning_rate": 2.2996376476073724e-06,
	"loss": 0.9526,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 150,
	"tokens_per_second_per_gpu": 5952.85,
	"total_tokens": 27649339
	},
	{
	"epoch": 2.398406374501992,
	"grad_norm": 0.3203125,
	"learning_rate": 2.1816851753197023e-06,
	"loss": 0.8235,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 151,
	"tokens_per_second_per_gpu": 5837.21,
	"total_tokens": 27844536
	},
	{
	"epoch": 2.414342629482072,
	"grad_norm": 0.333984375,
	"learning_rate": 2.0664665970876496e-06,
	"loss": 0.9521,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 152,
	"tokens_per_second_per_gpu": 5754.33,
	"total_tokens": 28027682
	},
	{
	"epoch": 2.4302788844621515,
	"grad_norm": 0.326171875,
	"learning_rate": 1.9540222023333165e-06,
	"loss": 0.9805,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 153,
	"tokens_per_second_per_gpu": 5902.39,
	"total_tokens": 28209735
	},
	{
	"epoch": 2.446215139442231,
	"grad_norm": 0.32421875,
	"learning_rate": 1.8443913104073984e-06,
	"loss": 0.9321,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 154,
	"tokens_per_second_per_gpu": 5930.45,
	"total_tokens": 28395668
	},
	{
	"epoch": 2.462151394422311,
	"grad_norm": 0.3203125,
	"learning_rate": 1.7376122568400533e-06,
	"loss": 0.9756,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 155,
	"tokens_per_second_per_gpu": 5945.66,
	"total_tokens": 28581494
	},
	{
	"epoch": 2.4780876494023905,
	"grad_norm": 0.322265625,
	"learning_rate": 1.6337223799358025e-06,
	"loss": 0.9736,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 156,
	"tokens_per_second_per_gpu": 6107.11,
	"total_tokens": 28768428
	},
	{
	"epoch": 2.49402390438247,
	"grad_norm": 0.31640625,
	"learning_rate": 1.5327580077171589e-06,
	"loss": 0.9067,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 157,
	"tokens_per_second_per_gpu": 6059.61,
	"total_tokens": 28952100
	},
	{
	"epoch": 2.50996015936255,
	"grad_norm": 0.326171875,
	"learning_rate": 1.4347544452214869e-06,
	"loss": 0.9512,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 158,
	"tokens_per_second_per_gpu": 6010.47,
	"total_tokens": 29138450
	},
	{
	"epoch": 2.5258964143426295,
	"grad_norm": 0.376953125,
	"learning_rate": 1.339745962155613e-06,
	"loss": 0.9409,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 159,
	"tokens_per_second_per_gpu": 6038.89,
	"total_tokens": 29321969
	},
	{
	"epoch": 2.541832669322709,
	"grad_norm": 0.330078125,
	"learning_rate": 1.2477657809124632e-06,
	"loss": 0.9824,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 160,
	"tokens_per_second_per_gpu": 5740.71,
	"total_tokens": 29498520
	},
	{
	"epoch": 2.557768924302789,
	"grad_norm": 0.328125,
	"learning_rate": 1.1588460649539036e-06,
	"loss": 1.0068,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 161,
	"tokens_per_second_per_gpu": 5804.04,
	"total_tokens": 29681434
	},
	{
	"epoch": 2.5737051792828685,
	"grad_norm": 0.337890625,
	"learning_rate": 1.073017907563887e-06,
	"loss": 0.9453,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 162,
	"tokens_per_second_per_gpu": 5741.44,
	"total_tokens": 29866170
	},
	{
	"epoch": 2.589641434262948,
	"grad_norm": 0.3203125,
	"learning_rate": 9.903113209758098e-07,
	"loss": 0.9443,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 163,
	"tokens_per_second_per_gpu": 5756.27,
	"total_tokens": 30050401
	},
	{
	"epoch": 2.605577689243028,
	"grad_norm": 0.32421875,
	"learning_rate": 9.107552258778907e-07,
	"loss": 0.9585,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 164,
	"tokens_per_second_per_gpu": 5959.88,
	"total_tokens": 30233631
	},
	{
	"epoch": 2.6215139442231075,
	"grad_norm": 0.3203125,
	"learning_rate": 8.343774413002382e-07,
	"loss": 0.9604,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 165,
	"tokens_per_second_per_gpu": 5899.57,
	"total_tokens": 30415679
	},
	{
	"epoch": 2.637450199203187,
	"grad_norm": 0.326171875,
	"learning_rate": 7.612046748871327e-07,
	"loss": 0.9277,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 166,
	"tokens_per_second_per_gpu": 5845.3,
	"total_tokens": 30601972
	},
	{
	"epoch": 2.653386454183267,
	"grad_norm": 0.33984375,
	"learning_rate": 6.912625135579587e-07,
	"loss": 1.022,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 167,
	"tokens_per_second_per_gpu": 5574.11,
	"total_tokens": 30778381
	},
	{
	"epoch": 2.6693227091633465,
	"grad_norm": 0.31640625,
	"learning_rate": 6.245754145600091e-07,
	"loss": 0.9707,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 168,
	"tokens_per_second_per_gpu": 5930.11,
	"total_tokens": 30964704
	},
	{
	"epoch": 2.685258964143426,
	"grad_norm": 0.318359375,
	"learning_rate": 5.611666969163243e-07,
	"loss": 0.9448,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 169,
	"tokens_per_second_per_gpu": 6128.63,
	"total_tokens": 31154713
	},
	{
	"epoch": 2.7011952191235062,
	"grad_norm": 0.333984375,
	"learning_rate": 5.010585332715401e-07,
	"loss": 0.9883,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 170,
	"tokens_per_second_per_gpu": 6064.77,
	"total_tokens": 31336726
	},
	{
	"epoch": 2.717131474103586,
	"grad_norm": 0.328125,
	"learning_rate": 4.4427194213859216e-07,
	"loss": 0.9131,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 171,
	"tokens_per_second_per_gpu": 5798.36,
	"total_tokens": 31529156
	},
	{
	"epoch": 2.7330677290836656,
	"grad_norm": 0.318359375,
	"learning_rate": 3.908267805490051e-07,
	"loss": 0.9697,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 172,
	"tokens_per_second_per_gpu": 5977.29,
	"total_tokens": 31718747
	},
	{
	"epoch": 2.7490039840637452,
	"grad_norm": 0.328125,
	"learning_rate": 3.4074173710931804e-07,
	"loss": 0.9619,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 173,
	"tokens_per_second_per_gpu": 5934.4,
	"total_tokens": 31901737
	},
	{
	"epoch": 2.764940239043825,
	"grad_norm": 0.322265625,
	"learning_rate": 2.940343254660905e-07,
	"loss": 0.9185,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 174,
	"tokens_per_second_per_gpu": 5978.89,
	"total_tokens": 32087844
	},
	{
	"epoch": 2.7808764940239046,
	"grad_norm": 0.328125,
	"learning_rate": 2.507208781817638e-07,
	"loss": 0.9751,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 175,
	"tokens_per_second_per_gpu": 5946.29,
	"total_tokens": 32275328
	},
	{
	"epoch": 2.7968127490039842,
	"grad_norm": 0.337890625,
	"learning_rate": 2.1081654102351634e-07,
	"loss": 1.0015,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 176,
	"tokens_per_second_per_gpu": 5871.96,
	"total_tokens": 32454382
	},
	{
	"epoch": 2.812749003984064,
	"grad_norm": 0.318359375,
	"learning_rate": 1.7433526766711727e-07,
	"loss": 0.9429,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 177,
	"tokens_per_second_per_gpu": 5872.24,
	"total_tokens": 32638137
	},
	{
	"epoch": 2.8286852589641436,
	"grad_norm": 0.3203125,
	"learning_rate": 1.4128981481764115e-07,
	"loss": 0.9746,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 178,
	"tokens_per_second_per_gpu": 6173.8,
	"total_tokens": 32825895
	},
	{
	"epoch": 2.8446215139442232,
	"grad_norm": 0.322265625,
	"learning_rate": 1.1169173774871478e-07,
	"loss": 0.9434,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 179,
	"tokens_per_second_per_gpu": 6232.85,
	"total_tokens": 33017211
	},
	{
	"epoch": 2.860557768924303,
	"grad_norm": 0.3203125,
	"learning_rate": 8.555138626189619e-08,
	"loss": 0.9644,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 180,
	"tokens_per_second_per_gpu": 5578.64,
	"total_tokens": 33204993
	},
	{
	"epoch": 2.8764940239043826,
	"grad_norm": 0.310546875,
	"learning_rate": 6.287790106757396e-08,
	"loss": 0.9429,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 181,
	"tokens_per_second_per_gpu": 6034.66,
	"total_tokens": 33396379
	},
	{
	"epoch": 2.8924302788844622,
	"grad_norm": 0.318359375,
	"learning_rate": 4.367921058866187e-08,
	"loss": 0.959,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 182,
	"tokens_per_second_per_gpu": 5841.56,
	"total_tokens": 33579725
	},
	{
	"epoch": 2.908366533864542,
	"grad_norm": 0.33984375,
	"learning_rate": 2.796202818819871e-08,
	"loss": 1.0166,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 183,
	"tokens_per_second_per_gpu": 5736.29,
	"total_tokens": 33766220
	},
	{
	"epoch": 2.9243027888446216,
	"grad_norm": 0.322265625,
	"learning_rate": 1.5731849821833955e-08,
	"loss": 0.9907,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 184,
	"tokens_per_second_per_gpu": 5704.78,
	"total_tokens": 33944763
	},
	{
	"epoch": 2.9402390438247012,
	"grad_norm": 0.326171875,
	"learning_rate": 6.992952116013918e-09,
	"loss": 0.9478,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 185,
	"tokens_per_second_per_gpu": 5773.31,
	"total_tokens": 34127443
	},
	{
	"epoch": 2.956175298804781,
	"grad_norm": 0.349609375,
	"learning_rate": 1.7483908725357546e-09,
	"loss": 1.0122,
	"memory/device_reserved (GiB)": 76.38,
	"memory/max_active (GiB)": 64.91,
	"memory/max_allocated (GiB)": 64.91,
	"step": 186,
	"tokens_per_second_per_gpu": 5785.44,
	"total_tokens": 34306859
	}
	],
	"logging_steps": 1,
	"max_steps": 186,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 62,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 2.2082055574021734e+18,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}