AFM-Koto / trainer_state.json

Upload folder using huggingface_hub

e68cf39 verified 6 months ago

73.9 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.5002627430373096,
	"eval_steps": 500,
	"global_step": 238,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0021019442984760903,
	"grad_norm": 0.7624253401313755,
	"learning_rate": 0.0,
	"loss": 2.2955,
	"memory/device_mem_reserved(gib)": 68.22,
	"memory/max_mem_active(gib)": 63.52,
	"memory/max_mem_allocated(gib)": 62.82,
	"step": 1
	},
	{
	"epoch": 0.004203888596952181,
	"grad_norm": 0.7189116302541813,
	"learning_rate": 2e-08,
	"loss": 2.2824,
	"memory/device_mem_reserved(gib)": 68.31,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 2
	},
	{
	"epoch": 0.006305832895428271,
	"grad_norm": 0.8431595274838072,
	"learning_rate": 4e-08,
	"loss": 2.3101,
	"memory/device_mem_reserved(gib)": 68.94,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 3
	},
	{
	"epoch": 0.008407777193904361,
	"grad_norm": 0.8637289443313003,
	"learning_rate": 6e-08,
	"loss": 2.3514,
	"memory/device_mem_reserved(gib)": 68.94,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 4
	},
	{
	"epoch": 0.010509721492380452,
	"grad_norm": 0.8128827491990301,
	"learning_rate": 8e-08,
	"loss": 2.3621,
	"memory/device_mem_reserved(gib)": 68.94,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 5
	},
	{
	"epoch": 0.012611665790856543,
	"grad_norm": 0.9504830158009488,
	"learning_rate": 1e-07,
	"loss": 2.4108,
	"memory/device_mem_reserved(gib)": 68.94,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 6
	},
	{
	"epoch": 0.014713610089332634,
	"grad_norm": 0.9140479063802851,
	"learning_rate": 1.2e-07,
	"loss": 2.2224,
	"memory/device_mem_reserved(gib)": 68.94,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 7
	},
	{
	"epoch": 0.016815554387808723,
	"grad_norm": 0.8632210617655338,
	"learning_rate": 1.4e-07,
	"loss": 2.3589,
	"memory/device_mem_reserved(gib)": 68.94,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 8
	},
	{
	"epoch": 0.018917498686284815,
	"grad_norm": 0.8747745167339828,
	"learning_rate": 1.6e-07,
	"loss": 2.2411,
	"memory/device_mem_reserved(gib)": 68.94,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 9
	},
	{
	"epoch": 0.021019442984760904,
	"grad_norm": 0.7739481898974889,
	"learning_rate": 1.8e-07,
	"loss": 2.2522,
	"memory/device_mem_reserved(gib)": 68.94,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 10
	},
	{
	"epoch": 0.023121387283236993,
	"grad_norm": 0.8301921811025426,
	"learning_rate": 2e-07,
	"loss": 2.3565,
	"memory/device_mem_reserved(gib)": 68.94,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 11
	},
	{
	"epoch": 0.025223331581713086,
	"grad_norm": 0.7677035533090953,
	"learning_rate": 2.1999999999999998e-07,
	"loss": 2.2208,
	"memory/device_mem_reserved(gib)": 68.94,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 12
	},
	{
	"epoch": 0.027325275880189175,
	"grad_norm": 0.7834629656153209,
	"learning_rate": 2.4e-07,
	"loss": 2.2526,
	"memory/device_mem_reserved(gib)": 68.94,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 13
	},
	{
	"epoch": 0.029427220178665267,
	"grad_norm": 0.776588932490268,
	"learning_rate": 2.6e-07,
	"loss": 2.2727,
	"memory/device_mem_reserved(gib)": 68.94,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 14
	},
	{
	"epoch": 0.03152916447714135,
	"grad_norm": 0.7753598356301531,
	"learning_rate": 2.8e-07,
	"loss": 2.3564,
	"memory/device_mem_reserved(gib)": 68.94,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 15
	},
	{
	"epoch": 0.033631108775617445,
	"grad_norm": 0.7165697716264268,
	"learning_rate": 3e-07,
	"loss": 2.3331,
	"memory/device_mem_reserved(gib)": 68.94,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 16
	},
	{
	"epoch": 0.03573305307409354,
	"grad_norm": 0.729205845829164,
	"learning_rate": 3.2e-07,
	"loss": 2.322,
	"memory/device_mem_reserved(gib)": 68.94,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 17
	},
	{
	"epoch": 0.03783499737256963,
	"grad_norm": 0.8495080537327478,
	"learning_rate": 3.4000000000000003e-07,
	"loss": 2.4952,
	"memory/device_mem_reserved(gib)": 68.94,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 18
	},
	{
	"epoch": 0.039936941671045716,
	"grad_norm": 0.7578372584471679,
	"learning_rate": 3.6e-07,
	"loss": 2.3132,
	"memory/device_mem_reserved(gib)": 68.94,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 19
	},
	{
	"epoch": 0.04203888596952181,
	"grad_norm": 0.6681608647353537,
	"learning_rate": 3.7999999999999996e-07,
	"loss": 2.3086,
	"memory/device_mem_reserved(gib)": 68.94,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 20
	},
	{
	"epoch": 0.0441408302679979,
	"grad_norm": 0.7042221303721394,
	"learning_rate": 4e-07,
	"loss": 2.3644,
	"memory/device_mem_reserved(gib)": 68.94,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 21
	},
	{
	"epoch": 0.046242774566473986,
	"grad_norm": 0.725951911870576,
	"learning_rate": 4.1999999999999995e-07,
	"loss": 2.3208,
	"memory/device_mem_reserved(gib)": 68.94,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 22
	},
	{
	"epoch": 0.04834471886495008,
	"grad_norm": 0.6347256826610295,
	"learning_rate": 4.3999999999999997e-07,
	"loss": 2.328,
	"memory/device_mem_reserved(gib)": 68.94,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 23
	},
	{
	"epoch": 0.05044666316342617,
	"grad_norm": 0.5682080423503054,
	"learning_rate": 4.6e-07,
	"loss": 2.2008,
	"memory/device_mem_reserved(gib)": 68.94,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 24
	},
	{
	"epoch": 0.05254860746190226,
	"grad_norm": 0.5787647024012217,
	"learning_rate": 4.8e-07,
	"loss": 2.2841,
	"memory/device_mem_reserved(gib)": 68.94,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 25
	},
	{
	"epoch": 0.05465055176037835,
	"grad_norm": 0.5807941293103913,
	"learning_rate": 5e-07,
	"loss": 2.2661,
	"memory/device_mem_reserved(gib)": 68.94,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 26
	},
	{
	"epoch": 0.05675249605885444,
	"grad_norm": 0.5238787661221586,
	"learning_rate": 5.2e-07,
	"loss": 2.292,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 27
	},
	{
	"epoch": 0.058854440357330534,
	"grad_norm": 0.6607378470156829,
	"learning_rate": 5.4e-07,
	"loss": 2.346,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 28
	},
	{
	"epoch": 0.06095638465580662,
	"grad_norm": 0.5949442201958344,
	"learning_rate": 5.6e-07,
	"loss": 2.2856,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 29
	},
	{
	"epoch": 0.0630583289542827,
	"grad_norm": 0.6213907595973902,
	"learning_rate": 5.8e-07,
	"loss": 2.3527,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 30
	},
	{
	"epoch": 0.0651602732527588,
	"grad_norm": 0.6574213245120029,
	"learning_rate": 6e-07,
	"loss": 2.2896,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 31
	},
	{
	"epoch": 0.06726221755123489,
	"grad_norm": 0.7904069125236015,
	"learning_rate": 6.2e-07,
	"loss": 2.4192,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 32
	},
	{
	"epoch": 0.06936416184971098,
	"grad_norm": 0.6912774106481298,
	"learning_rate": 6.4e-07,
	"loss": 2.3085,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 33
	},
	{
	"epoch": 0.07146610614818708,
	"grad_norm": 0.6819796440725628,
	"learning_rate": 6.6e-07,
	"loss": 2.2756,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 34
	},
	{
	"epoch": 0.07356805044666316,
	"grad_norm": 0.7580978517321655,
	"learning_rate": 6.800000000000001e-07,
	"loss": 2.3645,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 35
	},
	{
	"epoch": 0.07566999474513926,
	"grad_norm": 0.6791446776516942,
	"learning_rate": 7e-07,
	"loss": 2.2628,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 36
	},
	{
	"epoch": 0.07777193904361535,
	"grad_norm": 0.569840280711906,
	"learning_rate": 7.2e-07,
	"loss": 2.2602,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 37
	},
	{
	"epoch": 0.07987388334209143,
	"grad_norm": 0.5498888556096215,
	"learning_rate": 7.4e-07,
	"loss": 2.3167,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 38
	},
	{
	"epoch": 0.08197582764056753,
	"grad_norm": 0.5268765090754575,
	"learning_rate": 7.599999999999999e-07,
	"loss": 2.2378,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 39
	},
	{
	"epoch": 0.08407777193904362,
	"grad_norm": 0.4848125502462646,
	"learning_rate": 7.799999999999999e-07,
	"loss": 2.2882,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 40
	},
	{
	"epoch": 0.0861797162375197,
	"grad_norm": 0.5814992292096023,
	"learning_rate": 8e-07,
	"loss": 2.3471,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 41
	},
	{
	"epoch": 0.0882816605359958,
	"grad_norm": 0.6166392360245904,
	"learning_rate": 8.199999999999999e-07,
	"loss": 2.441,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 42
	},
	{
	"epoch": 0.09038360483447189,
	"grad_norm": 0.6377322312855411,
	"learning_rate": 8.399999999999999e-07,
	"loss": 2.3912,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 43
	},
	{
	"epoch": 0.09248554913294797,
	"grad_norm": 0.5055719418643514,
	"learning_rate": 8.599999999999999e-07,
	"loss": 2.2561,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 44
	},
	{
	"epoch": 0.09458749343142407,
	"grad_norm": 0.49178646668795084,
	"learning_rate": 8.799999999999999e-07,
	"loss": 2.2599,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 45
	},
	{
	"epoch": 0.09668943772990016,
	"grad_norm": 0.47537370207387974,
	"learning_rate": 9e-07,
	"loss": 2.3064,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 46
	},
	{
	"epoch": 0.09879138202837624,
	"grad_norm": 0.5089053853006482,
	"learning_rate": 9.2e-07,
	"loss": 2.391,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 47
	},
	{
	"epoch": 0.10089332632685234,
	"grad_norm": 0.4728302009023318,
	"learning_rate": 9.399999999999999e-07,
	"loss": 2.3139,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 48
	},
	{
	"epoch": 0.10299527062532843,
	"grad_norm": 0.4974785018291372,
	"learning_rate": 9.6e-07,
	"loss": 2.3599,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 49
	},
	{
	"epoch": 0.10509721492380451,
	"grad_norm": 0.5140106787374947,
	"learning_rate": 9.8e-07,
	"loss": 2.4427,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 50
	},
	{
	"epoch": 0.10719915922228061,
	"grad_norm": 0.5361457578321233,
	"learning_rate": 1e-06,
	"loss": 2.3295,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 51
	},
	{
	"epoch": 0.1093011035207567,
	"grad_norm": 0.49844160829734835,
	"learning_rate": 9.999863397100894e-07,
	"loss": 2.2672,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 52
	},
	{
	"epoch": 0.11140304781923278,
	"grad_norm": 0.5385578770440957,
	"learning_rate": 9.999453595867715e-07,
	"loss": 2.3261,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 53
	},
	{
	"epoch": 0.11350499211770888,
	"grad_norm": 0.497092836247932,
	"learning_rate": 9.998770618692484e-07,
	"loss": 2.3326,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 54
	},
	{
	"epoch": 0.11560693641618497,
	"grad_norm": 0.539870187568986,
	"learning_rate": 9.997814502893856e-07,
	"loss": 2.2381,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 55
	},
	{
	"epoch": 0.11770888071466107,
	"grad_norm": 0.5073884711048833,
	"learning_rate": 9.996585300715115e-07,
	"loss": 2.3122,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 56
	},
	{
	"epoch": 0.11981082501313715,
	"grad_norm": 0.5162826315178152,
	"learning_rate": 9.99508307932129e-07,
	"loss": 2.2719,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 57
	},
	{
	"epoch": 0.12191276931161324,
	"grad_norm": 0.5135640558488429,
	"learning_rate": 9.9933079207955e-07,
	"loss": 2.4354,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 58
	},
	{
	"epoch": 0.12401471361008934,
	"grad_norm": 0.48495138081284994,
	"learning_rate": 9.991259922134465e-07,
	"loss": 2.2913,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 59
	},
	{
	"epoch": 0.1261166579085654,
	"grad_norm": 0.5031121760605395,
	"learning_rate": 9.98893919524321e-07,
	"loss": 2.293,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 60
	},
	{
	"epoch": 0.1282186022070415,
	"grad_norm": 0.4053272758920918,
	"learning_rate": 9.98634586692894e-07,
	"loss": 2.2873,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 61
	},
	{
	"epoch": 0.1303205465055176,
	"grad_norm": 0.4532646932853173,
	"learning_rate": 9.983480078894123e-07,
	"loss": 2.3065,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 62
	},
	{
	"epoch": 0.13242249080399368,
	"grad_norm": 0.4496821436560576,
	"learning_rate": 9.98034198772874e-07,
	"loss": 2.2886,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 63
	},
	{
	"epoch": 0.13452443510246978,
	"grad_norm": 0.48430661978532813,
	"learning_rate": 9.976931764901733e-07,
	"loss": 2.3404,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 64
	},
	{
	"epoch": 0.13662637940094588,
	"grad_norm": 0.5163168950805126,
	"learning_rate": 9.97324959675163e-07,
	"loss": 2.286,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 65
	},
	{
	"epoch": 0.13872832369942195,
	"grad_norm": 0.4385342628062273,
	"learning_rate": 9.969295684476368e-07,
	"loss": 2.2923,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 66
	},
	{
	"epoch": 0.14083026799789805,
	"grad_norm": 0.4476245967273303,
	"learning_rate": 9.9650702441223e-07,
	"loss": 2.2454,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 67
	},
	{
	"epoch": 0.14293221229637415,
	"grad_norm": 0.4493507785126621,
	"learning_rate": 9.960573506572389e-07,
	"loss": 2.3361,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 68
	},
	{
	"epoch": 0.14503415659485025,
	"grad_norm": 0.4676473798188462,
	"learning_rate": 9.955805717533585e-07,
	"loss": 2.3795,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 69
	},
	{
	"epoch": 0.14713610089332632,
	"grad_norm": 0.5003504816633514,
	"learning_rate": 9.950767137523416e-07,
	"loss": 2.3638,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 70
	},
	{
	"epoch": 0.14923804519180242,
	"grad_norm": 0.41298653135277646,
	"learning_rate": 9.94545804185573e-07,
	"loss": 2.2986,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 71
	},
	{
	"epoch": 0.15133998949027852,
	"grad_norm": 0.48549576119983434,
	"learning_rate": 9.939878720625673e-07,
	"loss": 2.3772,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 72
	},
	{
	"epoch": 0.1534419337887546,
	"grad_norm": 0.37069853589006974,
	"learning_rate": 9.93402947869383e-07,
	"loss": 2.2609,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 73
	},
	{
	"epoch": 0.1555438780872307,
	"grad_norm": 0.3822824223589903,
	"learning_rate": 9.927910635669561e-07,
	"loss": 2.3263,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 74
	},
	{
	"epoch": 0.1576458223857068,
	"grad_norm": 0.4645424064190486,
	"learning_rate": 9.921522525893547e-07,
	"loss": 2.421,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 75
	},
	{
	"epoch": 0.15974776668418286,
	"grad_norm": 0.40728550126377283,
	"learning_rate": 9.91486549841951e-07,
	"loss": 2.3488,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 76
	},
	{
	"epoch": 0.16184971098265896,
	"grad_norm": 0.39534534329560483,
	"learning_rate": 9.907939916995152e-07,
	"loss": 2.2277,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 77
	},
	{
	"epoch": 0.16395165528113506,
	"grad_norm": 0.3994213467776548,
	"learning_rate": 9.900746160042272e-07,
	"loss": 2.3751,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 78
	},
	{
	"epoch": 0.16605359957961113,
	"grad_norm": 0.3952978443639354,
	"learning_rate": 9.893284620636098e-07,
	"loss": 2.3407,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 79
	},
	{
	"epoch": 0.16815554387808723,
	"grad_norm": 0.3847266788854899,
	"learning_rate": 9.88555570648379e-07,
	"loss": 2.2882,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 80
	},
	{
	"epoch": 0.17025748817656333,
	"grad_norm": 0.3942404109616697,
	"learning_rate": 9.877559839902183e-07,
	"loss": 2.3809,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 81
	},
	{
	"epoch": 0.1723594324750394,
	"grad_norm": 0.3726144315608755,
	"learning_rate": 9.869297457794698e-07,
	"loss": 2.2965,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 82
	},
	{
	"epoch": 0.1744613767735155,
	"grad_norm": 0.4044669149844896,
	"learning_rate": 9.860769011627474e-07,
	"loss": 2.3778,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 83
	},
	{
	"epoch": 0.1765633210719916,
	"grad_norm": 0.44263984303122605,
	"learning_rate": 9.851974967404702e-07,
	"loss": 2.3655,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 84
	},
	{
	"epoch": 0.17866526537046767,
	"grad_norm": 0.3800348736088796,
	"learning_rate": 9.842915805643156e-07,
	"loss": 2.2951,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 85
	},
	{
	"epoch": 0.18076720966894377,
	"grad_norm": 0.38644114608168073,
	"learning_rate": 9.833592021345937e-07,
	"loss": 2.3567,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 86
	},
	{
	"epoch": 0.18286915396741987,
	"grad_norm": 0.5360672745714498,
	"learning_rate": 9.824004123975434e-07,
	"loss": 2.3769,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 87
	},
	{
	"epoch": 0.18497109826589594,
	"grad_norm": 0.3826183850679395,
	"learning_rate": 9.814152637425477e-07,
	"loss": 2.2676,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 88
	},
	{
	"epoch": 0.18707304256437204,
	"grad_norm": 0.3874657198676833,
	"learning_rate": 9.804038099992716e-07,
	"loss": 2.2044,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 89
	},
	{
	"epoch": 0.18917498686284814,
	"grad_norm": 0.42284650951618596,
	"learning_rate": 9.793661064347204e-07,
	"loss": 2.2791,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 90
	},
	{
	"epoch": 0.19127693116132422,
	"grad_norm": 0.4012146632153047,
	"learning_rate": 9.783022097502203e-07,
	"loss": 2.2554,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 91
	},
	{
	"epoch": 0.19337887545980031,
	"grad_norm": 0.37104574503246424,
	"learning_rate": 9.772121780783201e-07,
	"loss": 2.2696,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 92
	},
	{
	"epoch": 0.19548081975827641,
	"grad_norm": 0.4115506199685101,
	"learning_rate": 9.76096070979614e-07,
	"loss": 2.292,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 93
	},
	{
	"epoch": 0.19758276405675249,
	"grad_norm": 0.4949212386577297,
	"learning_rate": 9.749539494394885e-07,
	"loss": 2.3154,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 94
	},
	{
	"epoch": 0.19968470835522859,
	"grad_norm": 0.5305093079330326,
	"learning_rate": 9.737858758647889e-07,
	"loss": 2.3967,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 95
	},
	{
	"epoch": 0.20178665265370468,
	"grad_norm": 0.39802845026570083,
	"learning_rate": 9.725919140804098e-07,
	"loss": 2.3833,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 96
	},
	{
	"epoch": 0.20388859695218076,
	"grad_norm": 0.392517153138478,
	"learning_rate": 9.713721293258078e-07,
	"loss": 2.3458,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 97
	},
	{
	"epoch": 0.20599054125065686,
	"grad_norm": 0.38285765355194634,
	"learning_rate": 9.70126588251436e-07,
	"loss": 2.2321,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 98
	},
	{
	"epoch": 0.20809248554913296,
	"grad_norm": 0.42890083185292094,
	"learning_rate": 9.688553589151037e-07,
	"loss": 2.2823,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 99
	},
	{
	"epoch": 0.21019442984760903,
	"grad_norm": 0.3788992789108253,
	"learning_rate": 9.675585107782555e-07,
	"loss": 2.2955,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 100
	},
	{
	"epoch": 0.21229637414608513,
	"grad_norm": 0.40025954957804155,
	"learning_rate": 9.66236114702178e-07,
	"loss": 2.3454,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 101
	},
	{
	"epoch": 0.21439831844456123,
	"grad_norm": 0.4040329751371346,
	"learning_rate": 9.648882429441256e-07,
	"loss": 2.3362,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 102
	},
	{
	"epoch": 0.2165002627430373,
	"grad_norm": 0.35667806143435715,
	"learning_rate": 9.635149691533747e-07,
	"loss": 2.3089,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 103
	},
	{
	"epoch": 0.2186022070415134,
	"grad_norm": 0.42503183804867145,
	"learning_rate": 9.621163683671978e-07,
	"loss": 2.3024,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 104
	},
	{
	"epoch": 0.2207041513399895,
	"grad_norm": 0.3833710476470682,
	"learning_rate": 9.606925170067636e-07,
	"loss": 2.2944,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 105
	},
	{
	"epoch": 0.22280609563846557,
	"grad_norm": 0.38645757625412946,
	"learning_rate": 9.592434928729615e-07,
	"loss": 2.2595,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 106
	},
	{
	"epoch": 0.22490803993694167,
	"grad_norm": 0.37424692884672933,
	"learning_rate": 9.577693751421505e-07,
	"loss": 2.3025,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 107
	},
	{
	"epoch": 0.22700998423541777,
	"grad_norm": 0.3776781851494623,
	"learning_rate": 9.562702443618331e-07,
	"loss": 2.2724,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 108
	},
	{
	"epoch": 0.22911192853389384,
	"grad_norm": 0.392564325121222,
	"learning_rate": 9.547461824462533e-07,
	"loss": 2.3737,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 109
	},
	{
	"epoch": 0.23121387283236994,
	"grad_norm": 0.3480699195596026,
	"learning_rate": 9.531972726719215e-07,
	"loss": 2.2591,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 110
	},
	{
	"epoch": 0.23331581713084604,
	"grad_norm": 0.3563697131151561,
	"learning_rate": 9.516235996730644e-07,
	"loss": 2.3639,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 111
	},
	{
	"epoch": 0.23541776142932214,
	"grad_norm": 0.4943435915920374,
	"learning_rate": 9.500252494369991e-07,
	"loss": 2.3605,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 112
	},
	{
	"epoch": 0.2375197057277982,
	"grad_norm": 0.3975018845059572,
	"learning_rate": 9.484023092994364e-07,
	"loss": 2.4139,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 113
	},
	{
	"epoch": 0.2396216500262743,
	"grad_norm": 0.37314820478206834,
	"learning_rate": 9.467548679397071e-07,
	"loss": 2.293,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 114
	},
	{
	"epoch": 0.2417235943247504,
	"grad_norm": 0.39240855452269136,
	"learning_rate": 9.450830153759176e-07,
	"loss": 2.3568,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 115
	},
	{
	"epoch": 0.24382553862322648,
	"grad_norm": 0.36202032847414545,
	"learning_rate": 9.433868429600309e-07,
	"loss": 2.36,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 116
	},
	{
	"epoch": 0.24592748292170258,
	"grad_norm": 0.3852500669591038,
	"learning_rate": 9.416664433728748e-07,
	"loss": 2.335,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 117
	},
	{
	"epoch": 0.24802942722017868,
	"grad_norm": 0.35255828976101133,
	"learning_rate": 9.399219106190775e-07,
	"loss": 2.3367,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 118
	},
	{
	"epoch": 0.2501313715186548,
	"grad_norm": 0.4145689168519548,
	"learning_rate": 9.381533400219317e-07,
	"loss": 2.3807,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 119
	},
	{
	"epoch": 0.2522333158171308,
	"grad_norm": 0.3638037446306906,
	"learning_rate": 9.363608282181861e-07,
	"loss": 2.2441,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 120
	},
	{
	"epoch": 0.2543352601156069,
	"grad_norm": 0.3892269635122991,
	"learning_rate": 9.345444731527641e-07,
	"loss": 2.3285,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 121
	},
	{
	"epoch": 0.256437204414083,
	"grad_norm": 0.3848382071231666,
	"learning_rate": 9.327043740734128e-07,
	"loss": 2.2713,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 122
	},
	{
	"epoch": 0.2585391487125591,
	"grad_norm": 0.3602411460013298,
	"learning_rate": 9.308406315252798e-07,
	"loss": 2.32,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 123
	},
	{
	"epoch": 0.2606410930110352,
	"grad_norm": 0.36833348877975325,
	"learning_rate": 9.289533473454192e-07,
	"loss": 2.1967,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 124
	},
	{
	"epoch": 0.2627430373095113,
	"grad_norm": 0.3585772049526573,
	"learning_rate": 9.270426246572272e-07,
	"loss": 2.3642,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 125
	},
	{
	"epoch": 0.26484498160798736,
	"grad_norm": 0.34020805834208123,
	"learning_rate": 9.251085678648071e-07,
	"loss": 2.237,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 126
	},
	{
	"epoch": 0.26694692590646346,
	"grad_norm": 0.38311234004852174,
	"learning_rate": 9.23151282647265e-07,
	"loss": 2.2439,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 127
	},
	{
	"epoch": 0.26904887020493956,
	"grad_norm": 0.40490379874064303,
	"learning_rate": 9.211708759529346e-07,
	"loss": 2.3447,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 128
	},
	{
	"epoch": 0.27115081450341566,
	"grad_norm": 0.38814226346705333,
	"learning_rate": 9.191674559935347e-07,
	"loss": 2.2642,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 129
	},
	{
	"epoch": 0.27325275880189176,
	"grad_norm": 0.392535018684069,
	"learning_rate": 9.171411322382551e-07,
	"loss": 2.4222,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 130
	},
	{
	"epoch": 0.27535470310036786,
	"grad_norm": 0.36293069595975763,
	"learning_rate": 9.150920154077753e-07,
	"loss": 2.2375,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 131
	},
	{
	"epoch": 0.2774566473988439,
	"grad_norm": 0.3827224228744126,
	"learning_rate": 9.130202174682153e-07,
	"loss": 2.3121,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 132
	},
	{
	"epoch": 0.27955859169732,
	"grad_norm": 0.39154739093650776,
	"learning_rate": 9.109258516250171e-07,
	"loss": 2.3246,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 133
	},
	{
	"epoch": 0.2816605359957961,
	"grad_norm": 0.35430283896633147,
	"learning_rate": 9.08809032316759e-07,
	"loss": 2.2922,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 134
	},
	{
	"epoch": 0.2837624802942722,
	"grad_norm": 0.39840449294712393,
	"learning_rate": 9.066698752089028e-07,
	"loss": 2.34,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 135
	},
	{
	"epoch": 0.2858644245927483,
	"grad_norm": 0.3657527770786503,
	"learning_rate": 9.045084971874737e-07,
	"loss": 2.3127,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 136
	},
	{
	"epoch": 0.2879663688912244,
	"grad_norm": 0.40390275500061623,
	"learning_rate": 9.02325016352673e-07,
	"loss": 2.2761,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 137
	},
	{
	"epoch": 0.2900683131897005,
	"grad_norm": 0.3486049947257035,
	"learning_rate": 9.001195520124255e-07,
	"loss": 2.2909,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 138
	},
	{
	"epoch": 0.29217025748817654,
	"grad_norm": 0.369271223650673,
	"learning_rate": 8.978922246758606e-07,
	"loss": 2.3146,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 139
	},
	{
	"epoch": 0.29427220178665264,
	"grad_norm": 0.34559908408986584,
	"learning_rate": 8.956431560467266e-07,
	"loss": 2.3861,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 140
	},
	{
	"epoch": 0.29637414608512874,
	"grad_norm": 0.40663130251420515,
	"learning_rate": 8.933724690167416e-07,
	"loss": 2.3351,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 141
	},
	{
	"epoch": 0.29847609038360484,
	"grad_norm": 0.36345254242299446,
	"learning_rate": 8.910802876588781e-07,
	"loss": 2.2782,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 142
	},
	{
	"epoch": 0.30057803468208094,
	"grad_norm": 0.38393881395986873,
	"learning_rate": 8.887667372205838e-07,
	"loss": 2.2808,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 143
	},
	{
	"epoch": 0.30267997898055704,
	"grad_norm": 0.35972360098945216,
	"learning_rate": 8.864319441169372e-07,
	"loss": 2.2753,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 144
	},
	{
	"epoch": 0.3047819232790331,
	"grad_norm": 0.4197014359486705,
	"learning_rate": 8.840760359237411e-07,
	"loss": 2.3163,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 145
	},
	{
	"epoch": 0.3068838675775092,
	"grad_norm": 0.3698464136493578,
	"learning_rate": 8.816991413705514e-07,
	"loss": 2.3585,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 146
	},
	{
	"epoch": 0.3089858118759853,
	"grad_norm": 0.38628726944167563,
	"learning_rate": 8.793013903336427e-07,
	"loss": 2.2954,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 147
	},
	{
	"epoch": 0.3110877561744614,
	"grad_norm": 0.33899721461114324,
	"learning_rate": 8.768829138289122e-07,
	"loss": 2.2799,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 148
	},
	{
	"epoch": 0.3131897004729375,
	"grad_norm": 0.39286568836433555,
	"learning_rate": 8.744438440047206e-07,
	"loss": 2.3867,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 149
	},
	{
	"epoch": 0.3152916447714136,
	"grad_norm": 0.36680644419068636,
	"learning_rate": 8.719843141346717e-07,
	"loss": 2.2539,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 150
	},
	{
	"epoch": 0.3173935890698896,
	"grad_norm": 0.4226555891529418,
	"learning_rate": 8.695044586103295e-07,
	"loss": 2.4062,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 151
	},
	{
	"epoch": 0.3194955333683657,
	"grad_norm": 0.343763121119237,
	"learning_rate": 8.67004412933876e-07,
	"loss": 2.2993,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 152
	},
	{
	"epoch": 0.3215974776668418,
	"grad_norm": 0.34716852552812194,
	"learning_rate": 8.644843137107057e-07,
	"loss": 2.3404,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 153
	},
	{
	"epoch": 0.3236994219653179,
	"grad_norm": 0.3968883598563259,
	"learning_rate": 8.619442986419629e-07,
	"loss": 2.3012,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 154
	},
	{
	"epoch": 0.325801366263794,
	"grad_norm": 0.33889705699000894,
	"learning_rate": 8.593845065170163e-07,
	"loss": 2.2621,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 155
	},
	{
	"epoch": 0.3279033105622701,
	"grad_norm": 0.351512969072057,
	"learning_rate": 8.568050772058761e-07,
	"loss": 2.357,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 156
	},
	{
	"epoch": 0.33000525486074617,
	"grad_norm": 0.3668822383961036,
	"learning_rate": 8.542061516515511e-07,
	"loss": 2.3499,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 157
	},
	{
	"epoch": 0.33210719915922227,
	"grad_norm": 0.3813104081247767,
	"learning_rate": 8.515878718623473e-07,
	"loss": 2.3762,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 158
	},
	{
	"epoch": 0.33420914345769837,
	"grad_norm": 0.3555623840160132,
	"learning_rate": 8.489503809041087e-07,
	"loss": 2.2511,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 159
	},
	{
	"epoch": 0.33631108775617446,
	"grad_norm": 0.3426684159571787,
	"learning_rate": 8.462938228923999e-07,
	"loss": 2.3354,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 160
	},
	{
	"epoch": 0.33841303205465056,
	"grad_norm": 0.3491214060448838,
	"learning_rate": 8.436183429846313e-07,
	"loss": 2.2395,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 161
	},
	{
	"epoch": 0.34051497635312666,
	"grad_norm": 0.4563165572220967,
	"learning_rate": 8.409240873721276e-07,
	"loss": 2.3872,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 162
	},
	{
	"epoch": 0.3426169206516027,
	"grad_norm": 0.33319192852547314,
	"learning_rate": 8.382112032721398e-07,
	"loss": 2.3122,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 163
	},
	{
	"epoch": 0.3447188649500788,
	"grad_norm": 0.38388679911113793,
	"learning_rate": 8.354798389198012e-07,
	"loss": 2.3693,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 164
	},
	{
	"epoch": 0.3468208092485549,
	"grad_norm": 0.39313380831692907,
	"learning_rate": 8.327301435600272e-07,
	"loss": 2.3085,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 165
	},
	{
	"epoch": 0.348922753547031,
	"grad_norm": 0.41915800484281546,
	"learning_rate": 8.299622674393614e-07,
	"loss": 2.3851,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 166
	},
	{
	"epoch": 0.3510246978455071,
	"grad_norm": 0.35317676640002343,
	"learning_rate": 8.271763617977641e-07,
	"loss": 2.2271,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 167
	},
	{
	"epoch": 0.3531266421439832,
	"grad_norm": 0.3528294909167197,
	"learning_rate": 8.243725788603508e-07,
	"loss": 2.3087,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 168
	},
	{
	"epoch": 0.35522858644245925,
	"grad_norm": 0.38320812537843413,
	"learning_rate": 8.215510718290723e-07,
	"loss": 2.2441,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 169
	},
	{
	"epoch": 0.35733053074093535,
	"grad_norm": 0.403856066195845,
	"learning_rate": 8.187119948743449e-07,
	"loss": 2.3326,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 170
	},
	{
	"epoch": 0.35943247503941145,
	"grad_norm": 0.35785694946938973,
	"learning_rate": 8.158555031266254e-07,
	"loss": 2.332,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 171
	},
	{
	"epoch": 0.36153441933788755,
	"grad_norm": 0.34400894235353774,
	"learning_rate": 8.129817526679357e-07,
	"loss": 2.2897,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 172
	},
	{
	"epoch": 0.36363636363636365,
	"grad_norm": 0.4126959309133071,
	"learning_rate": 8.100909005233334e-07,
	"loss": 2.3507,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 173
	},
	{
	"epoch": 0.36573830793483975,
	"grad_norm": 0.42717818377517935,
	"learning_rate": 8.071831046523318e-07,
	"loss": 2.3917,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 174
	},
	{
	"epoch": 0.3678402522333158,
	"grad_norm": 0.3579933408679328,
	"learning_rate": 8.042585239402697e-07,
	"loss": 2.2518,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 175
	},
	{
	"epoch": 0.3699421965317919,
	"grad_norm": 0.39551576662619,
	"learning_rate": 8.013173181896282e-07,
	"loss": 2.4125,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 176
	},
	{
	"epoch": 0.372044140830268,
	"grad_norm": 0.365049869078283,
	"learning_rate": 7.983596481113005e-07,
	"loss": 2.2727,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 177
	},
	{
	"epoch": 0.3741460851287441,
	"grad_norm": 0.4011873410931577,
	"learning_rate": 7.953856753158094e-07,
	"loss": 2.3436,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 178
	},
	{
	"epoch": 0.3762480294272202,
	"grad_norm": 0.3842765318105432,
	"learning_rate": 7.923955623044775e-07,
	"loss": 2.3529,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 179
	},
	{
	"epoch": 0.3783499737256963,
	"grad_norm": 0.3554244239833299,
	"learning_rate": 7.893894724605468e-07,
	"loss": 2.2397,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 180
	},
	{
	"epoch": 0.3804519180241724,
	"grad_norm": 0.4463726239175773,
	"learning_rate": 7.863675700402526e-07,
	"loss": 2.3635,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 181
	},
	{
	"epoch": 0.38255386232264843,
	"grad_norm": 0.36826384823166514,
	"learning_rate": 7.833300201638474e-07,
	"loss": 2.3262,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 182
	},
	{
	"epoch": 0.38465580662112453,
	"grad_norm": 0.40131324496051124,
	"learning_rate": 7.802769888065789e-07,
	"loss": 2.3718,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 183
	},
	{
	"epoch": 0.38675775091960063,
	"grad_norm": 0.3849897857523413,
	"learning_rate": 7.772086427896211e-07,
	"loss": 2.2332,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 184
	},
	{
	"epoch": 0.38885969521807673,
	"grad_norm": 0.36493755016771345,
	"learning_rate": 7.741251497709583e-07,
	"loss": 2.3377,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 185
	},
	{
	"epoch": 0.39096163951655283,
	"grad_norm": 0.35102308079227,
	"learning_rate": 7.710266782362247e-07,
	"loss": 2.3105,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 186
	},
	{
	"epoch": 0.3930635838150289,
	"grad_norm": 0.38998005813653297,
	"learning_rate": 7.679133974894982e-07,
	"loss": 2.3349,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 187
	},
	{
	"epoch": 0.39516552811350497,
	"grad_norm": 0.379125931962091,
	"learning_rate": 7.647854776440495e-07,
	"loss": 2.2724,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 188
	},
	{
	"epoch": 0.39726747241198107,
	"grad_norm": 0.3947787843638888,
	"learning_rate": 7.616430896130455e-07,
	"loss": 2.337,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 189
	},
	{
	"epoch": 0.39936941671045717,
	"grad_norm": 0.37487637035067606,
	"learning_rate": 7.584864051002126e-07,
	"loss": 2.3746,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 190
	},
	{
	"epoch": 0.40147136100893327,
	"grad_norm": 0.366432821290813,
	"learning_rate": 7.553155965904534e-07,
	"loss": 2.3042,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 191
	},
	{
	"epoch": 0.40357330530740937,
	"grad_norm": 0.34566325498775646,
	"learning_rate": 7.521308373404217e-07,
	"loss": 2.2799,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 192
	},
	{
	"epoch": 0.40567524960588547,
	"grad_norm": 0.360571812024321,
	"learning_rate": 7.489323013690561e-07,
	"loss": 2.1848,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 193
	},
	{
	"epoch": 0.4077771939043615,
	"grad_norm": 0.38102049467871574,
	"learning_rate": 7.457201634480712e-07,
	"loss": 2.3506,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 194
	},
	{
	"epoch": 0.4098791382028376,
	"grad_norm": 0.4157458990557322,
	"learning_rate": 7.424945990924079e-07,
	"loss": 2.2602,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 195
	},
	{
	"epoch": 0.4119810825013137,
	"grad_norm": 0.3815988927632132,
	"learning_rate": 7.392557845506432e-07,
	"loss": 2.39,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 196
	},
	{
	"epoch": 0.4140830267997898,
	"grad_norm": 0.3575553199145919,
	"learning_rate": 7.360038967953597e-07,
	"loss": 2.3257,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 197
	},
	{
	"epoch": 0.4161849710982659,
	"grad_norm": 0.37179609481335857,
	"learning_rate": 7.327391135134749e-07,
	"loss": 2.3281,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 198
	},
	{
	"epoch": 0.418286915396742,
	"grad_norm": 0.35686209920084183,
	"learning_rate": 7.294616130965336e-07,
	"loss": 2.2884,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 199
	},
	{
	"epoch": 0.42038885969521805,
	"grad_norm": 0.3966932403444605,
	"learning_rate": 7.261715746309593e-07,
	"loss": 2.3668,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 200
	},
	{
	"epoch": 0.42249080399369415,
	"grad_norm": 0.37119910362955255,
	"learning_rate": 7.228691778882692e-07,
	"loss": 2.216,
	"memory/device_mem_reserved(gib)": 69.0,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 201
	},
	{
	"epoch": 0.42459274829217025,
	"grad_norm": 0.34835664991688975,
	"learning_rate": 7.195546033152506e-07,
	"loss": 2.3013,
	"memory/device_mem_reserved(gib)": 69.04,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 202
	},
	{
	"epoch": 0.42669469259064635,
	"grad_norm": 0.36756486717782244,
	"learning_rate": 7.162280320241019e-07,
	"loss": 2.2983,
	"memory/device_mem_reserved(gib)": 69.04,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 203
	},
	{
	"epoch": 0.42879663688912245,
	"grad_norm": 0.3580849549174155,
	"learning_rate": 7.128896457825363e-07,
	"loss": 2.2168,
	"memory/device_mem_reserved(gib)": 69.04,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 204
	},
	{
	"epoch": 0.43089858118759855,
	"grad_norm": 0.38919198730377413,
	"learning_rate": 7.095396270038492e-07,
	"loss": 2.3673,
	"memory/device_mem_reserved(gib)": 69.04,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 205
	},
	{
	"epoch": 0.4330005254860746,
	"grad_norm": 0.45321125836545045,
	"learning_rate": 7.061781587369518e-07,
	"loss": 2.2495,
	"memory/device_mem_reserved(gib)": 69.04,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 206
	},
	{
	"epoch": 0.4351024697845507,
	"grad_norm": 0.3390158068246942,
	"learning_rate": 7.028054246563678e-07,
	"loss": 2.2959,
	"memory/device_mem_reserved(gib)": 69.04,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 207
	},
	{
	"epoch": 0.4372044140830268,
	"grad_norm": 0.3932391160329032,
	"learning_rate": 6.99421609052199e-07,
	"loss": 2.3348,
	"memory/device_mem_reserved(gib)": 69.04,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 208
	},
	{
	"epoch": 0.4393063583815029,
	"grad_norm": 0.35196191595880966,
	"learning_rate": 6.960268968200538e-07,
	"loss": 2.3416,
	"memory/device_mem_reserved(gib)": 69.04,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 209
	},
	{
	"epoch": 0.441408302679979,
	"grad_norm": 0.3970691259787115,
	"learning_rate": 6.92621473450945e-07,
	"loss": 2.3328,
	"memory/device_mem_reserved(gib)": 69.04,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 210
	},
	{
	"epoch": 0.4435102469784551,
	"grad_norm": 0.3362178241906251,
	"learning_rate": 6.892055250211551e-07,
	"loss": 2.2666,
	"memory/device_mem_reserved(gib)": 69.04,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 211
	},
	{
	"epoch": 0.44561219127693114,
	"grad_norm": 0.3370093871143424,
	"learning_rate": 6.857792381820672e-07,
	"loss": 2.3654,
	"memory/device_mem_reserved(gib)": 69.04,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 212
	},
	{
	"epoch": 0.44771413557540723,
	"grad_norm": 0.3439137104265468,
	"learning_rate": 6.823428001499676e-07,
	"loss": 2.3236,
	"memory/device_mem_reserved(gib)": 69.1,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 213
	},
	{
	"epoch": 0.44981607987388333,
	"grad_norm": 0.363363512278423,
	"learning_rate": 6.788963986958152e-07,
	"loss": 2.3153,
	"memory/device_mem_reserved(gib)": 69.1,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 214
	},
	{
	"epoch": 0.45191802417235943,
	"grad_norm": 0.3550856155819428,
	"learning_rate": 6.754402221349825e-07,
	"loss": 2.3337,
	"memory/device_mem_reserved(gib)": 69.1,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 215
	},
	{
	"epoch": 0.45401996847083553,
	"grad_norm": 0.43364470288014306,
	"learning_rate": 6.71974459316964e-07,
	"loss": 2.3817,
	"memory/device_mem_reserved(gib)": 69.1,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 216
	},
	{
	"epoch": 0.45612191276931163,
	"grad_norm": 0.3594186404992842,
	"learning_rate": 6.684992996150598e-07,
	"loss": 2.282,
	"memory/device_mem_reserved(gib)": 69.1,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 217
	},
	{
	"epoch": 0.4582238570677877,
	"grad_norm": 0.348193721582919,
	"learning_rate": 6.650149329160257e-07,
	"loss": 2.3266,
	"memory/device_mem_reserved(gib)": 69.1,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 218
	},
	{
	"epoch": 0.4603258013662638,
	"grad_norm": 0.36563818617010935,
	"learning_rate": 6.615215496096986e-07,
	"loss": 2.2706,
	"memory/device_mem_reserved(gib)": 69.1,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 219
	},
	{
	"epoch": 0.4624277456647399,
	"grad_norm": 0.3766707141167757,
	"learning_rate": 6.580193405785938e-07,
	"loss": 2.2786,
	"memory/device_mem_reserved(gib)": 69.1,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 220
	},
	{
	"epoch": 0.464529689963216,
	"grad_norm": 0.37040693778721345,
	"learning_rate": 6.545084971874736e-07,
	"loss": 2.3041,
	"memory/device_mem_reserved(gib)": 69.1,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 221
	},
	{
	"epoch": 0.4666316342616921,
	"grad_norm": 0.3814375380964394,
	"learning_rate": 6.509892112728928e-07,
	"loss": 2.2896,
	"memory/device_mem_reserved(gib)": 69.1,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 222
	},
	{
	"epoch": 0.4687335785601682,
	"grad_norm": 0.38809585401355357,
	"learning_rate": 6.474616751327142e-07,
	"loss": 2.407,
	"memory/device_mem_reserved(gib)": 69.1,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 223
	},
	{
	"epoch": 0.4708355228586443,
	"grad_norm": 0.3450197035654617,
	"learning_rate": 6.439260815156038e-07,
	"loss": 2.3212,
	"memory/device_mem_reserved(gib)": 69.1,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 224
	},
	{
	"epoch": 0.4729374671571203,
	"grad_norm": 0.3638524400528564,
	"learning_rate": 6.403826236104965e-07,
	"loss": 2.3958,
	"memory/device_mem_reserved(gib)": 69.1,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 225
	},
	{
	"epoch": 0.4750394114555964,
	"grad_norm": 11.416588328761524,
	"learning_rate": 6.368314950360415e-07,
	"loss": 2.4091,
	"memory/device_mem_reserved(gib)": 69.1,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 226
	},
	{
	"epoch": 0.4771413557540725,
	"grad_norm": 0.38009234188930396,
	"learning_rate": 6.33272889830022e-07,
	"loss": 2.3481,
	"memory/device_mem_reserved(gib)": 69.1,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 227
	},
	{
	"epoch": 0.4792433000525486,
	"grad_norm": 0.3874884323158228,
	"learning_rate": 6.297070024387534e-07,
	"loss": 2.2936,
	"memory/device_mem_reserved(gib)": 69.1,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 228
	},
	{
	"epoch": 0.4813452443510247,
	"grad_norm": 0.3875050817077963,
	"learning_rate": 6.261340277064578e-07,
	"loss": 2.2781,
	"memory/device_mem_reserved(gib)": 69.1,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 229
	},
	{
	"epoch": 0.4834471886495008,
	"grad_norm": 0.35862524615310853,
	"learning_rate": 6.225541608646179e-07,
	"loss": 2.317,
	"memory/device_mem_reserved(gib)": 69.1,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 230
	},
	{
	"epoch": 0.48554913294797686,
	"grad_norm": 0.3684856860526338,
	"learning_rate": 6.189675975213093e-07,
	"loss": 2.2496,
	"memory/device_mem_reserved(gib)": 69.1,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 231
	},
	{
	"epoch": 0.48765107724645296,
	"grad_norm": 0.3592072791824982,
	"learning_rate": 6.153745336505124e-07,
	"loss": 2.3916,
	"memory/device_mem_reserved(gib)": 69.1,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 232
	},
	{
	"epoch": 0.48975302154492906,
	"grad_norm": 0.3492976591005929,
	"learning_rate": 6.117751655814037e-07,
	"loss": 2.3432,
	"memory/device_mem_reserved(gib)": 69.1,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 233
	},
	{
	"epoch": 0.49185496584340516,
	"grad_norm": 0.39657164130018213,
	"learning_rate": 6.081696899876281e-07,
	"loss": 2.2399,
	"memory/device_mem_reserved(gib)": 69.1,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 234
	},
	{
	"epoch": 0.49395691014188126,
	"grad_norm": 0.33918396528061745,
	"learning_rate": 6.045583038765537e-07,
	"loss": 2.2886,
	"memory/device_mem_reserved(gib)": 69.1,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 235
	},
	{
	"epoch": 0.49605885444035736,
	"grad_norm": 0.3812617838396709,
	"learning_rate": 6.009412045785051e-07,
	"loss": 2.3345,
	"memory/device_mem_reserved(gib)": 69.1,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 236
	},
	{
	"epoch": 0.4981607987388334,
	"grad_norm": 0.35316898092715904,
	"learning_rate": 5.973185897359827e-07,
	"loss": 2.3495,
	"memory/device_mem_reserved(gib)": 69.1,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 237
	},
	{
	"epoch": 0.5002627430373096,
	"grad_norm": 0.35687689358418945,
	"learning_rate": 5.936906572928624e-07,
	"loss": 2.3206,
	"memory/device_mem_reserved(gib)": 69.1,
	"memory/max_mem_active(gib)": 63.57,
	"memory/max_mem_allocated(gib)": 62.86,
	"step": 238
	}
	],
	"logging_steps": 1,
	"max_steps": 475,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 238,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 7.365676632322867e+17,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}