SFT AMEX checkpoint 20260414_113921

933764a verified about 1 month ago

158 kB

	{"loss": 1.95870101, "token_acc": 0.62669683, "grad_norm": 63.55869293, "learning_rate": 6.7e-07, "memory(GiB)": 62.53, "train_speed(iter/s)": 0.017162, "epoch": 0.0033389, "global_step/max_steps": "1/300", "percentage": "0.33%", "elapsed_time": "51s", "remaining_time": "4h 18m 12s"}
	{"loss": 1.91831875, "token_acc": 0.61697723, "grad_norm": 66.0348587, "learning_rate": 1.33e-06, "memory(GiB)": 73.25, "train_speed(iter/s)": 0.019495, "epoch": 0.0066778, "global_step/max_steps": "2/300", "percentage": "0.67%", "elapsed_time": "1m 36s", "remaining_time": "3h 58m 44s"}
	{"loss": 2.00261259, "token_acc": 0.60613208, "grad_norm": 63.74685669, "learning_rate": 2e-06, "memory(GiB)": 73.37, "train_speed(iter/s)": 0.020423, "epoch": 0.01001669, "global_step/max_steps": "3/300", "percentage": "1.00%", "elapsed_time": "2m 20s", "remaining_time": "3h 51m 43s"}
	{"loss": 1.77646518, "token_acc": 0.63654618, "grad_norm": 54.94431686, "learning_rate": 2.67e-06, "memory(GiB)": 73.37, "train_speed(iter/s)": 0.020931, "epoch": 0.01335559, "global_step/max_steps": "4/300", "percentage": "1.33%", "elapsed_time": "3m 4s", "remaining_time": "3h 47m 44s"}
	{"loss": 1.47635269, "token_acc": 0.67826087, "grad_norm": 33.70310974, "learning_rate": 3.33e-06, "memory(GiB)": 73.37, "train_speed(iter/s)": 0.021251, "epoch": 0.01669449, "global_step/max_steps": "5/300", "percentage": "1.67%", "elapsed_time": "3m 48s", "remaining_time": "3h 45m 1s"}
	{"loss": 1.29670465, "token_acc": 0.7173913, "grad_norm": 30.50299072, "learning_rate": 4e-06, "memory(GiB)": 73.37, "train_speed(iter/s)": 0.021471, "epoch": 0.02003339, "global_step/max_steps": "6/300", "percentage": "2.00%", "elapsed_time": "4m 32s", "remaining_time": "3h 42m 56s"}
	{"loss": 1.034724, "token_acc": 0.70431211, "grad_norm": 16.66432953, "learning_rate": 4.67e-06, "memory(GiB)": 73.37, "train_speed(iter/s)": 0.021614, "epoch": 0.02337229, "global_step/max_steps": "7/300", "percentage": "2.33%", "elapsed_time": "5m 17s", "remaining_time": "3h 41m 26s"}
	{"loss": 0.89093047, "token_acc": 0.7751938, "grad_norm": 14.1319561, "learning_rate": 5.33e-06, "memory(GiB)": 73.37, "train_speed(iter/s)": 0.02173, "epoch": 0.02671119, "global_step/max_steps": "8/300", "percentage": "2.67%", "elapsed_time": "6m 1s", "remaining_time": "3h 40m 1s"}
	{"loss": 0.7129792, "token_acc": 0.80825243, "grad_norm": 7.00522041, "learning_rate": 6e-06, "memory(GiB)": 73.37, "train_speed(iter/s)": 0.02183, "epoch": 0.03005008, "global_step/max_steps": "9/300", "percentage": "3.00%", "elapsed_time": "6m 45s", "remaining_time": "3h 38m 41s"}
	{"loss": 0.69895947, "token_acc": 0.8, "grad_norm": 5.06142664, "learning_rate": 6.67e-06, "memory(GiB)": 73.37, "train_speed(iter/s)": 0.021898, "epoch": 0.03338898, "global_step/max_steps": "10/300", "percentage": "3.33%", "elapsed_time": "7m 30s", "remaining_time": "3h 37m 36s"}
	{"loss": 0.6583569, "token_acc": 0.78571429, "grad_norm": 4.02003527, "learning_rate": 7.33e-06, "memory(GiB)": 73.37, "train_speed(iter/s)": 0.021957, "epoch": 0.03672788, "global_step/max_steps": "11/300", "percentage": "3.67%", "elapsed_time": "8m 14s", "remaining_time": "3h 36m 32s"}
	{"loss": 0.67565954, "token_acc": 0.77665996, "grad_norm": 7.10415649, "learning_rate": 8e-06, "memory(GiB)": 73.37, "train_speed(iter/s)": 0.022006, "epoch": 0.04006678, "global_step/max_steps": "12/300", "percentage": "4.00%", "elapsed_time": "8m 58s", "remaining_time": "3h 35m 32s"}
	{"loss": 0.620278, "token_acc": 0.78787879, "grad_norm": 3.18612909, "learning_rate": 8.67e-06, "memory(GiB)": 73.37, "train_speed(iter/s)": 0.022046, "epoch": 0.04340568, "global_step/max_steps": "13/300", "percentage": "4.33%", "elapsed_time": "9m 43s", "remaining_time": "3h 34m 35s"}
	{"loss": 0.64045346, "token_acc": 0.80590717, "grad_norm": 2.94379926, "learning_rate": 9.33e-06, "memory(GiB)": 73.37, "train_speed(iter/s)": 0.022076, "epoch": 0.04674457, "global_step/max_steps": "14/300", "percentage": "4.67%", "elapsed_time": "10m 27s", "remaining_time": "3h 33m 43s"}
	{"loss": 0.60528243, "token_acc": 0.79707113, "grad_norm": 2.79115701, "learning_rate": 1e-05, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.02211, "epoch": 0.05008347, "global_step/max_steps": "15/300", "percentage": "5.00%", "elapsed_time": "11m 11s", "remaining_time": "3h 32m 47s"}
	{"loss": 0.56980807, "token_acc": 0.83990719, "grad_norm": 2.79047465, "learning_rate": 1e-05, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.022142, "epoch": 0.05342237, "global_step/max_steps": "16/300", "percentage": "5.33%", "elapsed_time": "11m 56s", "remaining_time": "3h 31m 51s"}
	{"loss": 0.58898181, "token_acc": 0.82973621, "grad_norm": 5.21364307, "learning_rate": 1e-05, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.022162, "epoch": 0.05676127, "global_step/max_steps": "17/300", "percentage": "5.67%", "elapsed_time": "12m 40s", "remaining_time": "3h 31m 2s"}
	{"loss": 0.58304948, "token_acc": 0.79782609, "grad_norm": 2.73401332, "learning_rate": 1e-05, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.02218, "epoch": 0.06010017, "global_step/max_steps": "18/300", "percentage": "6.00%", "elapsed_time": "13m 25s", "remaining_time": "3h 30m 12s"}
	{"loss": 0.59202409, "token_acc": 0.82182628, "grad_norm": 2.66002703, "learning_rate": 1e-05, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.022199, "epoch": 0.06343907, "global_step/max_steps": "19/300", "percentage": "6.33%", "elapsed_time": "14m 9s", "remaining_time": "3h 29m 22s"}
	{"loss": 1.17263246, "token_acc": 0.78337531, "grad_norm": 102.52426147, "learning_rate": 9.99e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.022213, "epoch": 0.06677796, "global_step/max_steps": "20/300", "percentage": "6.67%", "elapsed_time": "14m 53s", "remaining_time": "3h 28m 34s"}
	{"loss": 0.57534182, "token_acc": 0.8040201, "grad_norm": 4.05647755, "learning_rate": 9.99e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.02223, "epoch": 0.07011686, "global_step/max_steps": "21/300", "percentage": "7.00%", "elapsed_time": "15m 38s", "remaining_time": "3h 27m 44s"}
	{"loss": 0.53723037, "token_acc": 0.80416667, "grad_norm": 5.40907955, "learning_rate": 9.99e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.022244, "epoch": 0.07345576, "global_step/max_steps": "22/300", "percentage": "7.33%", "elapsed_time": "16m 22s", "remaining_time": "3h 26m 56s"}
	{"loss": 0.59938872, "token_acc": 0.80092593, "grad_norm": 3.00196624, "learning_rate": 9.98e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.022258, "epoch": 0.07679466, "global_step/max_steps": "23/300", "percentage": "7.67%", "elapsed_time": "17m 6s", "remaining_time": "3h 26m 7s"}
	{"loss": 0.56309879, "token_acc": 0.80387931, "grad_norm": 2.3497951, "learning_rate": 9.98e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.022273, "epoch": 0.08013356, "global_step/max_steps": "24/300", "percentage": "8.00%", "elapsed_time": "17m 51s", "remaining_time": "3h 25m 17s"}
	{"loss": 0.59695268, "token_acc": 0.7797271, "grad_norm": 3.04415298, "learning_rate": 9.97e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.022288, "epoch": 0.08347245, "global_step/max_steps": "25/300", "percentage": "8.33%", "elapsed_time": "18m 35s", "remaining_time": "3h 24m 27s"}
	{"loss": 0.51833367, "token_acc": 0.8231441, "grad_norm": 2.64696121, "learning_rate": 9.96e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.022298, "epoch": 0.08681135, "global_step/max_steps": "26/300", "percentage": "8.67%", "elapsed_time": "19m 19s", "remaining_time": "3h 23m 40s"}
	{"loss": 0.54945034, "token_acc": 0.81291759, "grad_norm": 2.13463902, "learning_rate": 9.96e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.022312, "epoch": 0.09015025, "global_step/max_steps": "27/300", "percentage": "9.00%", "elapsed_time": "20m 3s", "remaining_time": "3h 22m 50s"}
	{"loss": 0.52735007, "token_acc": 0.82339956, "grad_norm": 2.72780037, "learning_rate": 9.95e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.022321, "epoch": 0.09348915, "global_step/max_steps": "28/300", "percentage": "9.33%", "elapsed_time": "20m 47s", "remaining_time": "3h 22m 3s"}
	{"loss": 0.50553489, "token_acc": 0.81023454, "grad_norm": 2.19571924, "learning_rate": 9.94e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.022329, "epoch": 0.09682805, "global_step/max_steps": "29/300", "percentage": "9.67%", "elapsed_time": "21m 32s", "remaining_time": "3h 21m 16s"}
	{"loss": 0.54934072, "token_acc": 0.80785124, "grad_norm": 2.59225297, "learning_rate": 9.93e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.022339, "epoch": 0.10016694, "global_step/max_steps": "30/300", "percentage": "10.00%", "elapsed_time": "22m 16s", "remaining_time": "3h 20m 28s"}
	{"loss": 0.51323843, "token_acc": 0.81779661, "grad_norm": 1.84219325, "learning_rate": 9.92e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.02235, "epoch": 0.10350584, "global_step/max_steps": "31/300", "percentage": "10.33%", "elapsed_time": "23m 0s", "remaining_time": "3h 19m 39s"}
	{"loss": 0.56888247, "token_acc": 0.80508475, "grad_norm": 2.36340594, "learning_rate": 9.91e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.022357, "epoch": 0.10684474, "global_step/max_steps": "32/300", "percentage": "10.67%", "elapsed_time": "23m 44s", "remaining_time": "3h 18m 53s"}
	{"loss": 0.54657412, "token_acc": 0.84076433, "grad_norm": 2.24609017, "learning_rate": 9.9e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.022367, "epoch": 0.11018364, "global_step/max_steps": "33/300", "percentage": "11.00%", "elapsed_time": "24m 28s", "remaining_time": "3h 18m 5s"}
	{"loss": 0.55794489, "token_acc": 0.77943925, "grad_norm": 2.30990434, "learning_rate": 9.89e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.022373, "epoch": 0.11352254, "global_step/max_steps": "34/300", "percentage": "11.33%", "elapsed_time": "25m 13s", "remaining_time": "3h 17m 19s"}
	{"loss": 0.52946633, "token_acc": 0.80875576, "grad_norm": 1.90752327, "learning_rate": 9.88e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.022379, "epoch": 0.11686144, "global_step/max_steps": "35/300", "percentage": "11.67%", "elapsed_time": "25m 57s", "remaining_time": "3h 16m 32s"}
	{"loss": 0.55999929, "token_acc": 0.82680412, "grad_norm": 2.08803153, "learning_rate": 9.87e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.022386, "epoch": 0.12020033, "global_step/max_steps": "36/300", "percentage": "12.00%", "elapsed_time": "26m 41s", "remaining_time": "3h 15m 45s"}
	{"loss": 0.54380959, "token_acc": 0.82435597, "grad_norm": 2.87394714, "learning_rate": 9.85e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.02239, "epoch": 0.12353923, "global_step/max_steps": "37/300", "percentage": "12.33%", "elapsed_time": "27m 26s", "remaining_time": "3h 15m 0s"}
	{"loss": 0.53049153, "token_acc": 0.80961924, "grad_norm": 2.12102938, "learning_rate": 9.84e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.022395, "epoch": 0.12687813, "global_step/max_steps": "38/300", "percentage": "12.67%", "elapsed_time": "28m 10s", "remaining_time": "3h 14m 14s"}
	{"loss": 0.52663493, "token_acc": 0.78378378, "grad_norm": 1.83895075, "learning_rate": 9.83e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.022397, "epoch": 0.13021703, "global_step/max_steps": "39/300", "percentage": "13.00%", "elapsed_time": "28m 54s", "remaining_time": "3h 13m 29s"}
	{"loss": 0.5530318, "token_acc": 0.82142857, "grad_norm": 1.85462677, "learning_rate": 9.81e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.022399, "epoch": 0.13355593, "global_step/max_steps": "40/300", "percentage": "13.33%", "elapsed_time": "29m 39s", "remaining_time": "3h 12m 45s"}
	{"loss": 0.55477303, "token_acc": 0.79633867, "grad_norm": 2.21130848, "learning_rate": 9.8e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.022403, "epoch": 0.13689482, "global_step/max_steps": "41/300", "percentage": "13.67%", "elapsed_time": "30m 23s", "remaining_time": "3h 12m 0s"}
	{"loss": 0.53401405, "token_acc": 0.83027523, "grad_norm": 2.06049109, "learning_rate": 9.78e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.022407, "epoch": 0.14023372, "global_step/max_steps": "42/300", "percentage": "14.00%", "elapsed_time": "31m 7s", "remaining_time": "3h 11m 14s"}
	{"loss": 0.52532148, "token_acc": 0.84308511, "grad_norm": 1.99489212, "learning_rate": 9.76e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.022413, "epoch": 0.14357262, "global_step/max_steps": "43/300", "percentage": "14.33%", "elapsed_time": "31m 52s", "remaining_time": "3h 10m 28s"}
	{"loss": 0.49455076, "token_acc": 0.82857143, "grad_norm": 1.80194271, "learning_rate": 9.75e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.022416, "epoch": 0.14691152, "global_step/max_steps": "44/300", "percentage": "14.67%", "elapsed_time": "32m 36s", "remaining_time": "3h 9m 42s"}
	{"loss": 0.5187223, "token_acc": 0.7847619, "grad_norm": 2.01539993, "learning_rate": 9.73e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.022419, "epoch": 0.15025042, "global_step/max_steps": "45/300", "percentage": "15.00%", "elapsed_time": "33m 20s", "remaining_time": "3h 8m 57s"}
	{"loss": 0.5437094, "token_acc": 0.81156317, "grad_norm": 2.19798493, "learning_rate": 9.71e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.022422, "epoch": 0.15358932, "global_step/max_steps": "46/300", "percentage": "15.33%", "elapsed_time": "34m 5s", "remaining_time": "3h 8m 12s"}
	{"loss": 0.54514271, "token_acc": 0.77929688, "grad_norm": 2.03489137, "learning_rate": 9.69e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.022425, "epoch": 0.15692821, "global_step/max_steps": "47/300", "percentage": "15.67%", "elapsed_time": "34m 49s", "remaining_time": "3h 7m 27s"}
	{"loss": 0.49942446, "token_acc": 0.82745098, "grad_norm": 1.77299523, "learning_rate": 9.67e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.022428, "epoch": 0.16026711, "global_step/max_steps": "48/300", "percentage": "16.00%", "elapsed_time": "35m 33s", "remaining_time": "3h 6m 41s"}
	{"loss": 0.45103556, "token_acc": 0.86432161, "grad_norm": 1.89171588, "learning_rate": 9.65e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.022432, "epoch": 0.16360601, "global_step/max_steps": "49/300", "percentage": "16.33%", "elapsed_time": "36m 17s", "remaining_time": "3h 5m 56s"}
	{"loss": 0.49864441, "token_acc": 0.80922432, "grad_norm": 1.84356987, "learning_rate": 9.63e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.022435, "epoch": 0.16694491, "global_step/max_steps": "50/300", "percentage": "16.67%", "elapsed_time": "37m 2s", "remaining_time": "3h 5m 10s"}
	{"loss": 0.51145083, "token_acc": 0.86711712, "grad_norm": 2.13085485, "learning_rate": 9.61e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.022439, "epoch": 0.17028381, "global_step/max_steps": "51/300", "percentage": "17.00%", "elapsed_time": "37m 46s", "remaining_time": "3h 4m 25s"}
	{"loss": 0.53905076, "token_acc": 0.8127572, "grad_norm": 1.78196466, "learning_rate": 9.59e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.022442, "epoch": 0.1736227, "global_step/max_steps": "52/300", "percentage": "17.33%", "elapsed_time": "38m 30s", "remaining_time": "3h 3m 39s"}
	{"loss": 0.54247832, "token_acc": 0.80681818, "grad_norm": 2.01271296, "learning_rate": 9.57e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.022445, "epoch": 0.1769616, "global_step/max_steps": "53/300", "percentage": "17.67%", "elapsed_time": "39m 14s", "remaining_time": "3h 2m 54s"}
	{"loss": 0.4740065, "token_acc": 0.85294118, "grad_norm": 1.94775224, "learning_rate": 9.55e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.022448, "epoch": 0.1803005, "global_step/max_steps": "54/300", "percentage": "18.00%", "elapsed_time": "39m 59s", "remaining_time": "3h 2m 9s"}
	{"loss": 0.55437088, "token_acc": 0.81208054, "grad_norm": 1.66840351, "learning_rate": 9.52e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.022452, "epoch": 0.1836394, "global_step/max_steps": "55/300", "percentage": "18.33%", "elapsed_time": "40m 43s", "remaining_time": "3h 1m 23s"}
	{"loss": 0.47042561, "token_acc": 0.84615385, "grad_norm": 1.85915411, "learning_rate": 9.5e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.022455, "epoch": 0.1869783, "global_step/max_steps": "56/300", "percentage": "18.67%", "elapsed_time": "41m 27s", "remaining_time": "3h 0m 38s"}
	{"loss": 0.46582919, "token_acc": 0.81023454, "grad_norm": 1.76337504, "learning_rate": 9.47e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.022457, "epoch": 0.1903172, "global_step/max_steps": "57/300", "percentage": "19.00%", "elapsed_time": "42m 11s", "remaining_time": "2h 59m 53s"}
	{"loss": 0.52983737, "token_acc": 0.83098592, "grad_norm": 1.96589935, "learning_rate": 9.45e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.02246, "epoch": 0.19365609, "global_step/max_steps": "58/300", "percentage": "19.33%", "elapsed_time": "42m 55s", "remaining_time": "2h 59m 7s"}
	{"loss": 0.48609552, "token_acc": 0.79104478, "grad_norm": 1.86578143, "learning_rate": 9.42e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.022462, "epoch": 0.19699499, "global_step/max_steps": "59/300", "percentage": "19.67%", "elapsed_time": "43m 40s", "remaining_time": "2h 58m 23s"}
	{"loss": 0.50125945, "token_acc": 0.88659794, "grad_norm": 3.77474594, "learning_rate": 9.4e-06, "memory(GiB)": 73.7, "train_speed(iter/s)": 0.022464, "epoch": 0.20033389, "global_step/max_steps": "60/300", "percentage": "20.00%", "elapsed_time": "44m 24s", "remaining_time": "2h 57m 37s"}
	{"loss": 0.53141975, "token_acc": 0.82585278, "grad_norm": 1.81355166, "learning_rate": 9.37e-06, "memory(GiB)": 73.7, "train_speed(iter/s)": 0.022466, "epoch": 0.20367279, "global_step/max_steps": "61/300", "percentage": "20.33%", "elapsed_time": "45m 8s", "remaining_time": "2h 56m 52s"}
	{"loss": 0.53044266, "token_acc": 0.80334728, "grad_norm": 1.6306144, "learning_rate": 9.34e-06, "memory(GiB)": 73.7, "train_speed(iter/s)": 0.022468, "epoch": 0.20701169, "global_step/max_steps": "62/300", "percentage": "20.67%", "elapsed_time": "45m 53s", "remaining_time": "2h 56m 8s"}
	{"loss": 0.47998199, "token_acc": 0.84174312, "grad_norm": 1.53243566, "learning_rate": 9.32e-06, "memory(GiB)": 73.7, "train_speed(iter/s)": 0.02247, "epoch": 0.21035058, "global_step/max_steps": "63/300", "percentage": "21.00%", "elapsed_time": "46m 37s", "remaining_time": "2h 55m 23s"}
	{"loss": 0.51368099, "token_acc": 0.78841871, "grad_norm": 1.83512807, "learning_rate": 9.29e-06, "memory(GiB)": 73.7, "train_speed(iter/s)": 0.022472, "epoch": 0.21368948, "global_step/max_steps": "64/300", "percentage": "21.33%", "elapsed_time": "47m 21s", "remaining_time": "2h 54m 38s"}
	{"loss": 0.48201281, "token_acc": 0.81837161, "grad_norm": 1.9498353, "learning_rate": 9.26e-06, "memory(GiB)": 73.7, "train_speed(iter/s)": 0.022473, "epoch": 0.21702838, "global_step/max_steps": "65/300", "percentage": "21.67%", "elapsed_time": "48m 5s", "remaining_time": "2h 53m 53s"}
	{"loss": 0.53678715, "token_acc": 0.78886756, "grad_norm": 1.7179215, "learning_rate": 9.23e-06, "memory(GiB)": 73.7, "train_speed(iter/s)": 0.022475, "epoch": 0.22036728, "global_step/max_steps": "66/300", "percentage": "22.00%", "elapsed_time": "48m 50s", "remaining_time": "2h 53m 8s"}
	{"loss": 0.53259414, "token_acc": 0.81123596, "grad_norm": 2.05956149, "learning_rate": 9.2e-06, "memory(GiB)": 73.7, "train_speed(iter/s)": 0.022476, "epoch": 0.22370618, "global_step/max_steps": "67/300", "percentage": "22.33%", "elapsed_time": "49m 34s", "remaining_time": "2h 52m 24s"}
	{"loss": 0.50321084, "token_acc": 0.82657658, "grad_norm": 1.80692458, "learning_rate": 9.17e-06, "memory(GiB)": 73.7, "train_speed(iter/s)": 0.022478, "epoch": 0.22704508, "global_step/max_steps": "68/300", "percentage": "22.67%", "elapsed_time": "50m 18s", "remaining_time": "2h 51m 39s"}
	{"loss": 0.48259005, "token_acc": 0.86995516, "grad_norm": 1.96451843, "learning_rate": 9.14e-06, "memory(GiB)": 73.7, "train_speed(iter/s)": 0.022479, "epoch": 0.23038397, "global_step/max_steps": "69/300", "percentage": "23.00%", "elapsed_time": "51m 3s", "remaining_time": "2h 50m 54s"}
	{"loss": 0.50234687, "token_acc": 0.8029661, "grad_norm": 1.64583325, "learning_rate": 9.11e-06, "memory(GiB)": 73.7, "train_speed(iter/s)": 0.02248, "epoch": 0.23372287, "global_step/max_steps": "70/300", "percentage": "23.33%", "elapsed_time": "51m 47s", "remaining_time": "2h 50m 9s"}
	{"loss": 0.47289002, "token_acc": 0.86086957, "grad_norm": 1.62649953, "learning_rate": 9.08e-06, "memory(GiB)": 73.7, "train_speed(iter/s)": 0.022482, "epoch": 0.23706177, "global_step/max_steps": "71/300", "percentage": "23.67%", "elapsed_time": "52m 31s", "remaining_time": "2h 49m 25s"}
	{"loss": 0.48969722, "token_acc": 0.82915718, "grad_norm": 1.76978981, "learning_rate": 9.05e-06, "memory(GiB)": 73.7, "train_speed(iter/s)": 0.022483, "epoch": 0.24040067, "global_step/max_steps": "72/300", "percentage": "24.00%", "elapsed_time": "53m 15s", "remaining_time": "2h 48m 40s"}
	{"loss": 0.48173881, "token_acc": 0.81782178, "grad_norm": 1.51521873, "learning_rate": 9.01e-06, "memory(GiB)": 73.7, "train_speed(iter/s)": 0.022486, "epoch": 0.24373957, "global_step/max_steps": "73/300", "percentage": "24.33%", "elapsed_time": "53m 59s", "remaining_time": "2h 47m 54s"}
	{"loss": 0.46770281, "token_acc": 0.84295612, "grad_norm": 1.55565107, "learning_rate": 8.98e-06, "memory(GiB)": 73.7, "train_speed(iter/s)": 0.022488, "epoch": 0.24707846, "global_step/max_steps": "74/300", "percentage": "24.67%", "elapsed_time": "54m 44s", "remaining_time": "2h 47m 10s"}
	{"loss": 0.46403697, "token_acc": 0.84924623, "grad_norm": 1.63102269, "learning_rate": 8.95e-06, "memory(GiB)": 73.7, "train_speed(iter/s)": 0.022488, "epoch": 0.25041736, "global_step/max_steps": "75/300", "percentage": "25.00%", "elapsed_time": "55m 28s", "remaining_time": "2h 46m 25s"}
	{"loss": 0.52311444, "token_acc": 0.79917184, "grad_norm": 1.87664211, "learning_rate": 8.91e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.02249, "epoch": 0.25375626, "global_step/max_steps": "76/300", "percentage": "25.33%", "elapsed_time": "56m 12s", "remaining_time": "2h 45m 41s"}
	{"loss": 0.50221783, "token_acc": 0.83757339, "grad_norm": 1.69284034, "learning_rate": 8.88e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022491, "epoch": 0.25709516, "global_step/max_steps": "77/300", "percentage": "25.67%", "elapsed_time": "56m 57s", "remaining_time": "2h 44m 56s"}
	{"loss": 0.49258602, "token_acc": 0.83196721, "grad_norm": 1.61547601, "learning_rate": 8.84e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022492, "epoch": 0.26043406, "global_step/max_steps": "78/300", "percentage": "26.00%", "elapsed_time": "57m 41s", "remaining_time": "2h 44m 11s"}
	{"loss": 0.5060482, "token_acc": 0.85063291, "grad_norm": 1.98163903, "learning_rate": 8.81e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022494, "epoch": 0.26377295, "global_step/max_steps": "79/300", "percentage": "26.33%", "elapsed_time": "58m 25s", "remaining_time": "2h 43m 26s"}
	{"loss": 0.4778392, "token_acc": 0.84549356, "grad_norm": 1.62618673, "learning_rate": 8.77e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022496, "epoch": 0.26711185, "global_step/max_steps": "80/300", "percentage": "26.67%", "elapsed_time": "59m 9s", "remaining_time": "2h 42m 41s"}
	{"loss": 0.49337232, "token_acc": 0.86177106, "grad_norm": 1.68476248, "learning_rate": 8.73e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022497, "epoch": 0.27045075, "global_step/max_steps": "81/300", "percentage": "27.00%", "elapsed_time": "59m 54s", "remaining_time": "2h 41m 57s"}
	{"loss": 0.51443815, "token_acc": 0.82892057, "grad_norm": 1.71936619, "learning_rate": 8.7e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022498, "epoch": 0.27378965, "global_step/max_steps": "82/300", "percentage": "27.33%", "elapsed_time": "1h 0m 38s", "remaining_time": "2h 41m 12s"}
	{"loss": 0.46785837, "token_acc": 0.81425486, "grad_norm": 1.50413191, "learning_rate": 8.66e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022498, "epoch": 0.27712855, "global_step/max_steps": "83/300", "percentage": "27.67%", "elapsed_time": "1h 1m 22s", "remaining_time": "2h 40m 28s"}
	{"loss": 0.48308802, "token_acc": 0.80943026, "grad_norm": 1.65924466, "learning_rate": 8.62e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022499, "epoch": 0.28046745, "global_step/max_steps": "84/300", "percentage": "28.00%", "elapsed_time": "1h 2m 7s", "remaining_time": "2h 39m 43s"}
	{"loss": 0.47932997, "token_acc": 0.8344519, "grad_norm": 2.15321112, "learning_rate": 8.58e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.0225, "epoch": 0.28380634, "global_step/max_steps": "85/300", "percentage": "28.33%", "elapsed_time": "1h 2m 51s", "remaining_time": "2h 38m 59s"}
	{"loss": 0.50398219, "token_acc": 0.84016393, "grad_norm": 1.55926061, "learning_rate": 8.55e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.0225, "epoch": 0.28714524, "global_step/max_steps": "86/300", "percentage": "28.67%", "elapsed_time": "1h 3m 35s", "remaining_time": "2h 38m 14s"}
	{"loss": 0.52552676, "token_acc": 0.81919643, "grad_norm": 1.68002844, "learning_rate": 8.51e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.0225, "epoch": 0.29048414, "global_step/max_steps": "87/300", "percentage": "29.00%", "elapsed_time": "1h 4m 20s", "remaining_time": "2h 37m 30s"}
	{"loss": 0.4869442, "token_acc": 0.83039648, "grad_norm": 1.7127769, "learning_rate": 8.47e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022501, "epoch": 0.29382304, "global_step/max_steps": "88/300", "percentage": "29.33%", "elapsed_time": "1h 5m 4s", "remaining_time": "2h 36m 46s"}
	{"loss": 0.49068558, "token_acc": 0.8098434, "grad_norm": 1.60626495, "learning_rate": 8.43e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022502, "epoch": 0.29716194, "global_step/max_steps": "89/300", "percentage": "29.67%", "elapsed_time": "1h 5m 48s", "remaining_time": "2h 36m 1s"}
	{"loss": 0.4850651, "token_acc": 0.85682819, "grad_norm": 1.43210518, "learning_rate": 8.39e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022502, "epoch": 0.30050083, "global_step/max_steps": "90/300", "percentage": "30.00%", "elapsed_time": "1h 6m 33s", "remaining_time": "2h 35m 17s"}
	{"loss": 0.50332952, "token_acc": 0.83023256, "grad_norm": 1.65703321, "learning_rate": 8.35e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022504, "epoch": 0.30383973, "global_step/max_steps": "91/300", "percentage": "30.33%", "elapsed_time": "1h 7m 17s", "remaining_time": "2h 34m 32s"}
	{"loss": 0.48208219, "token_acc": 0.82729211, "grad_norm": 1.41623819, "learning_rate": 8.3e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022506, "epoch": 0.30717863, "global_step/max_steps": "92/300", "percentage": "30.67%", "elapsed_time": "1h 8m 1s", "remaining_time": "2h 33m 47s"}
	{"loss": 0.49148107, "token_acc": 0.81065089, "grad_norm": 1.80179, "learning_rate": 8.26e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022506, "epoch": 0.31051753, "global_step/max_steps": "93/300", "percentage": "31.00%", "elapsed_time": "1h 8m 45s", "remaining_time": "2h 33m 3s"}
	{"loss": 0.50755781, "token_acc": 0.83536585, "grad_norm": 1.86733961, "learning_rate": 8.22e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022506, "epoch": 0.31385643, "global_step/max_steps": "94/300", "percentage": "31.33%", "elapsed_time": "1h 9m 30s", "remaining_time": "2h 32m 18s"}
	{"loss": 0.47894734, "token_acc": 0.8021978, "grad_norm": 1.98563147, "learning_rate": 8.18e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022507, "epoch": 0.31719533, "global_step/max_steps": "95/300", "percentage": "31.67%", "elapsed_time": "1h 10m 14s", "remaining_time": "2h 31m 34s"}
	{"loss": 0.49805644, "token_acc": 0.84322034, "grad_norm": 1.75423813, "learning_rate": 8.14e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022509, "epoch": 0.32053422, "global_step/max_steps": "96/300", "percentage": "32.00%", "elapsed_time": "1h 10m 58s", "remaining_time": "2h 30m 49s"}
	{"loss": 0.47627008, "token_acc": 0.83801296, "grad_norm": 1.54562521, "learning_rate": 8.09e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022509, "epoch": 0.32387312, "global_step/max_steps": "97/300", "percentage": "32.33%", "elapsed_time": "1h 11m 42s", "remaining_time": "2h 30m 4s"}
	{"loss": 0.53269458, "token_acc": 0.79959514, "grad_norm": 2.42889047, "learning_rate": 8.05e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.02251, "epoch": 0.32721202, "global_step/max_steps": "98/300", "percentage": "32.67%", "elapsed_time": "1h 12m 27s", "remaining_time": "2h 29m 20s"}
	{"loss": 0.49359816, "token_acc": 0.84989429, "grad_norm": 1.68591607, "learning_rate": 8.01e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022511, "epoch": 0.33055092, "global_step/max_steps": "99/300", "percentage": "33.00%", "elapsed_time": "1h 13m 11s", "remaining_time": "2h 28m 35s"}
	{"loss": 0.50635058, "token_acc": 0.81578947, "grad_norm": 1.70933425, "learning_rate": 7.96e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022513, "epoch": 0.33388982, "global_step/max_steps": "100/300", "percentage": "33.33%", "elapsed_time": "1h 13m 55s", "remaining_time": "2h 27m 51s"}
	{"loss": 0.48857272, "token_acc": 0.82194617, "grad_norm": 1.96362197, "learning_rate": 7.92e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022513, "epoch": 0.33722871, "global_step/max_steps": "101/300", "percentage": "33.67%", "elapsed_time": "1h 14m 39s", "remaining_time": "2h 27m 6s"}
	{"loss": 0.50582755, "token_acc": 0.80080483, "grad_norm": 1.46996951, "learning_rate": 7.87e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022514, "epoch": 0.34056761, "global_step/max_steps": "102/300", "percentage": "34.00%", "elapsed_time": "1h 15m 24s", "remaining_time": "2h 26m 22s"}
	{"loss": 0.4558953, "token_acc": 0.83002208, "grad_norm": 1.67397869, "learning_rate": 7.83e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022514, "epoch": 0.34390651, "global_step/max_steps": "103/300", "percentage": "34.33%", "elapsed_time": "1h 16m 8s", "remaining_time": "2h 25m 37s"}
	{"loss": 0.51454866, "token_acc": 0.80241935, "grad_norm": 1.61205554, "learning_rate": 7.78e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022515, "epoch": 0.34724541, "global_step/max_steps": "104/300", "percentage": "34.67%", "elapsed_time": "1h 16m 52s", "remaining_time": "2h 24m 53s"}
	{"loss": 0.47169667, "token_acc": 0.8540305, "grad_norm": 1.96068549, "learning_rate": 7.73e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022515, "epoch": 0.35058431, "global_step/max_steps": "105/300", "percentage": "35.00%", "elapsed_time": "1h 17m 37s", "remaining_time": "2h 24m 8s"}
	{"loss": 0.48144609, "token_acc": 0.84198646, "grad_norm": 1.44350386, "learning_rate": 7.69e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022515, "epoch": 0.35392321, "global_step/max_steps": "106/300", "percentage": "35.33%", "elapsed_time": "1h 18m 21s", "remaining_time": "2h 23m 24s"}
	{"loss": 0.51144624, "token_acc": 0.82212581, "grad_norm": 1.44486237, "learning_rate": 7.64e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022515, "epoch": 0.3572621, "global_step/max_steps": "107/300", "percentage": "35.67%", "elapsed_time": "1h 19m 5s", "remaining_time": "2h 22m 40s"}
	{"loss": 0.46770352, "token_acc": 0.84951456, "grad_norm": 1.65938568, "learning_rate": 7.59e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022516, "epoch": 0.360601, "global_step/max_steps": "108/300", "percentage": "36.00%", "elapsed_time": "1h 19m 50s", "remaining_time": "2h 21m 55s"}
	{"loss": 0.50612509, "token_acc": 0.81938326, "grad_norm": 1.57093084, "learning_rate": 7.55e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022517, "epoch": 0.3639399, "global_step/max_steps": "109/300", "percentage": "36.33%", "elapsed_time": "1h 20m 34s", "remaining_time": "2h 21m 11s"}
	{"loss": 0.51178348, "token_acc": 0.83715596, "grad_norm": 1.52221262, "learning_rate": 7.5e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022518, "epoch": 0.3672788, "global_step/max_steps": "110/300", "percentage": "36.67%", "elapsed_time": "1h 21m 18s", "remaining_time": "2h 20m 26s"}
	{"loss": 0.5041467, "token_acc": 0.81203008, "grad_norm": 1.62653244, "learning_rate": 7.45e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022519, "epoch": 0.3706177, "global_step/max_steps": "111/300", "percentage": "37.00%", "elapsed_time": "1h 22m 2s", "remaining_time": "2h 19m 42s"}
	{"loss": 0.49580833, "token_acc": 0.82876712, "grad_norm": 1.53978455, "learning_rate": 7.4e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022519, "epoch": 0.37395659, "global_step/max_steps": "112/300", "percentage": "37.33%", "elapsed_time": "1h 22m 47s", "remaining_time": "2h 18m 57s"}
	{"loss": 0.48293266, "token_acc": 0.79809524, "grad_norm": 1.60934114, "learning_rate": 7.36e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022521, "epoch": 0.37729549, "global_step/max_steps": "113/300", "percentage": "37.67%", "elapsed_time": "1h 23m 31s", "remaining_time": "2h 18m 12s"}
	{"loss": 0.48494348, "token_acc": 0.8410596, "grad_norm": 1.73193872, "learning_rate": 7.31e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022521, "epoch": 0.38063439, "global_step/max_steps": "114/300", "percentage": "38.00%", "elapsed_time": "1h 24m 15s", "remaining_time": "2h 17m 28s"}
	{"loss": 0.47770607, "token_acc": 0.81167608, "grad_norm": 1.42881727, "learning_rate": 7.26e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022521, "epoch": 0.38397329, "global_step/max_steps": "115/300", "percentage": "38.33%", "elapsed_time": "1h 24m 59s", "remaining_time": "2h 16m 44s"}
	{"loss": 0.42470568, "token_acc": 0.83624454, "grad_norm": 1.35444105, "learning_rate": 7.21e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022521, "epoch": 0.38731219, "global_step/max_steps": "116/300", "percentage": "38.67%", "elapsed_time": "1h 25m 44s", "remaining_time": "2h 15m 59s"}
	{"loss": 0.47847971, "token_acc": 0.82188841, "grad_norm": 1.56600106, "learning_rate": 7.16e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022522, "epoch": 0.39065109, "global_step/max_steps": "117/300", "percentage": "39.00%", "elapsed_time": "1h 26m 28s", "remaining_time": "2h 15m 15s"}
	{"loss": 0.48856625, "token_acc": 0.81012658, "grad_norm": 2.26141047, "learning_rate": 7.11e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022522, "epoch": 0.39398998, "global_step/max_steps": "118/300", "percentage": "39.33%", "elapsed_time": "1h 27m 12s", "remaining_time": "2h 14m 30s"}
	{"loss": 0.47872829, "token_acc": 0.8245614, "grad_norm": 1.5543282, "learning_rate": 7.06e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022523, "epoch": 0.39732888, "global_step/max_steps": "119/300", "percentage": "39.67%", "elapsed_time": "1h 27m 57s", "remaining_time": "2h 13m 46s"}
	{"loss": 0.48690346, "token_acc": 0.84304933, "grad_norm": 1.74183941, "learning_rate": 7.01e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022523, "epoch": 0.40066778, "global_step/max_steps": "120/300", "percentage": "40.00%", "elapsed_time": "1h 28m 41s", "remaining_time": "2h 13m 2s"}
	{"loss": 0.50788569, "token_acc": 0.80311891, "grad_norm": 1.50340557, "learning_rate": 6.96e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022524, "epoch": 0.40400668, "global_step/max_steps": "121/300", "percentage": "40.33%", "elapsed_time": "1h 29m 25s", "remaining_time": "2h 12m 17s"}
	{"loss": 0.4468506, "token_acc": 0.81380753, "grad_norm": 1.5278554, "learning_rate": 6.91e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022525, "epoch": 0.40734558, "global_step/max_steps": "122/300", "percentage": "40.67%", "elapsed_time": "1h 30m 9s", "remaining_time": "2h 11m 32s"}
	{"loss": 0.4490771, "token_acc": 0.83983573, "grad_norm": 1.43724513, "learning_rate": 6.86e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022526, "epoch": 0.41068447, "global_step/max_steps": "123/300", "percentage": "41.00%", "elapsed_time": "1h 30m 53s", "remaining_time": "2h 10m 48s"}
	{"loss": 0.49612698, "token_acc": 0.83992095, "grad_norm": 1.83934963, "learning_rate": 6.8e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022526, "epoch": 0.41402337, "global_step/max_steps": "124/300", "percentage": "41.33%", "elapsed_time": "1h 31m 38s", "remaining_time": "2h 10m 4s"}
	{"loss": 0.51893961, "token_acc": 0.81836735, "grad_norm": 1.64937556, "learning_rate": 6.75e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022527, "epoch": 0.41736227, "global_step/max_steps": "125/300", "percentage": "41.67%", "elapsed_time": "1h 32m 22s", "remaining_time": "2h 9m 19s"}
	{"loss": 0.47270849, "token_acc": 0.81506849, "grad_norm": 1.55043602, "learning_rate": 6.7e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022528, "epoch": 0.42070117, "global_step/max_steps": "126/300", "percentage": "42.00%", "elapsed_time": "1h 33m 6s", "remaining_time": "2h 8m 34s"}
	{"loss": 0.46652815, "token_acc": 0.84100418, "grad_norm": 1.4816438, "learning_rate": 6.65e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022529, "epoch": 0.42404007, "global_step/max_steps": "127/300", "percentage": "42.33%", "elapsed_time": "1h 33m 50s", "remaining_time": "2h 7m 50s"}
	{"loss": 0.45263949, "token_acc": 0.83261803, "grad_norm": 1.23306727, "learning_rate": 6.6e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022529, "epoch": 0.42737896, "global_step/max_steps": "128/300", "percentage": "42.67%", "elapsed_time": "1h 34m 35s", "remaining_time": "2h 7m 6s"}
	{"loss": 0.45350951, "token_acc": 0.8372591, "grad_norm": 1.50954294, "learning_rate": 6.55e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022529, "epoch": 0.43071786, "global_step/max_steps": "129/300", "percentage": "43.00%", "elapsed_time": "1h 35m 19s", "remaining_time": "2h 6m 21s"}
	{"loss": 0.47064653, "token_acc": 0.84259259, "grad_norm": 1.54215097, "learning_rate": 6.49e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022531, "epoch": 0.43405676, "global_step/max_steps": "130/300", "percentage": "43.33%", "elapsed_time": "1h 36m 3s", "remaining_time": "2h 5m 36s"}
	{"loss": 0.45104796, "token_acc": 0.82579186, "grad_norm": 1.46262825, "learning_rate": 6.44e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022531, "epoch": 0.43739566, "global_step/max_steps": "131/300", "percentage": "43.67%", "elapsed_time": "1h 36m 47s", "remaining_time": "2h 4m 52s"}
	{"loss": 0.4750613, "token_acc": 0.82389937, "grad_norm": 1.6499753, "learning_rate": 6.39e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022532, "epoch": 0.44073456, "global_step/max_steps": "132/300", "percentage": "44.00%", "elapsed_time": "1h 37m 31s", "remaining_time": "2h 4m 7s"}
	{"loss": 0.46813586, "token_acc": 0.84965831, "grad_norm": 1.61535561, "learning_rate": 6.33e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022533, "epoch": 0.44407346, "global_step/max_steps": "133/300", "percentage": "44.33%", "elapsed_time": "1h 38m 16s", "remaining_time": "2h 3m 23s"}
	{"loss": 0.44340384, "token_acc": 0.865, "grad_norm": 1.73698378, "learning_rate": 6.28e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022532, "epoch": 0.44741235, "global_step/max_steps": "134/300", "percentage": "44.67%", "elapsed_time": "1h 39m 0s", "remaining_time": "2h 2m 39s"}
	{"loss": 0.50386566, "token_acc": 0.84449244, "grad_norm": 1.56540787, "learning_rate": 6.23e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022533, "epoch": 0.45075125, "global_step/max_steps": "135/300", "percentage": "45.00%", "elapsed_time": "1h 39m 44s", "remaining_time": "2h 1m 54s"}
	{"loss": 0.45822734, "token_acc": 0.85487528, "grad_norm": 3.72679472, "learning_rate": 6.17e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022534, "epoch": 0.45409015, "global_step/max_steps": "136/300", "percentage": "45.33%", "elapsed_time": "1h 40m 28s", "remaining_time": "2h 1m 10s"}
	{"loss": 0.50384128, "token_acc": 0.81673307, "grad_norm": 1.65650213, "learning_rate": 6.12e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022534, "epoch": 0.45742905, "global_step/max_steps": "137/300", "percentage": "45.67%", "elapsed_time": "1h 41m 13s", "remaining_time": "2h 0m 25s"}
	{"loss": 0.46173263, "token_acc": 0.88095238, "grad_norm": 1.5462569, "learning_rate": 6.07e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022534, "epoch": 0.46076795, "global_step/max_steps": "138/300", "percentage": "46.00%", "elapsed_time": "1h 41m 57s", "remaining_time": "1h 59m 41s"}
	{"loss": 0.45376483, "token_acc": 0.84164859, "grad_norm": 1.41934395, "learning_rate": 6.01e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022534, "epoch": 0.46410684, "global_step/max_steps": "139/300", "percentage": "46.33%", "elapsed_time": "1h 42m 41s", "remaining_time": "1h 58m 57s"}
	{"loss": 0.46307382, "token_acc": 0.81981982, "grad_norm": 1.57939839, "learning_rate": 5.96e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022534, "epoch": 0.46744574, "global_step/max_steps": "140/300", "percentage": "46.67%", "elapsed_time": "1h 43m 26s", "remaining_time": "1h 58m 12s"}
	{"loss": 0.47891223, "token_acc": 0.81465517, "grad_norm": 1.84290159, "learning_rate": 5.9e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022534, "epoch": 0.47078464, "global_step/max_steps": "141/300", "percentage": "47.00%", "elapsed_time": "1h 44m 10s", "remaining_time": "1h 57m 28s"}
	{"loss": 0.46025026, "token_acc": 0.85245902, "grad_norm": 4.79976845, "learning_rate": 5.85e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022535, "epoch": 0.47412354, "global_step/max_steps": "142/300", "percentage": "47.33%", "elapsed_time": "1h 44m 54s", "remaining_time": "1h 56m 44s"}
	{"loss": 0.47844952, "token_acc": 0.84081633, "grad_norm": 1.51288533, "learning_rate": 5.8e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022535, "epoch": 0.47746244, "global_step/max_steps": "143/300", "percentage": "47.67%", "elapsed_time": "1h 45m 39s", "remaining_time": "1h 55m 59s"}
	{"loss": 0.4797124, "token_acc": 0.82580645, "grad_norm": 1.45822489, "learning_rate": 5.74e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022535, "epoch": 0.48080134, "global_step/max_steps": "144/300", "percentage": "48.00%", "elapsed_time": "1h 46m 23s", "remaining_time": "1h 55m 15s"}
	{"loss": 0.52751738, "token_acc": 0.79633401, "grad_norm": 1.7686367, "learning_rate": 5.69e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022535, "epoch": 0.48414023, "global_step/max_steps": "145/300", "percentage": "48.33%", "elapsed_time": "1h 47m 7s", "remaining_time": "1h 54m 31s"}
	{"loss": 0.50401849, "token_acc": 0.83030303, "grad_norm": 1.60011101, "learning_rate": 5.63e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022536, "epoch": 0.48747913, "global_step/max_steps": "146/300", "percentage": "48.67%", "elapsed_time": "1h 47m 52s", "remaining_time": "1h 53m 46s"}
	{"loss": 0.47573614, "token_acc": 0.81434599, "grad_norm": 1.68851614, "learning_rate": 5.58e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022536, "epoch": 0.49081803, "global_step/max_steps": "147/300", "percentage": "49.00%", "elapsed_time": "1h 48m 36s", "remaining_time": "1h 53m 2s"}
	{"loss": 0.4773564, "token_acc": 0.79915433, "grad_norm": 1.4436996, "learning_rate": 5.52e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022535, "epoch": 0.49415693, "global_step/max_steps": "148/300", "percentage": "49.33%", "elapsed_time": "1h 49m 21s", "remaining_time": "1h 52m 18s"}
	{"loss": 0.4692556, "token_acc": 0.85185185, "grad_norm": 1.35188818, "learning_rate": 5.47e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022536, "epoch": 0.49749583, "global_step/max_steps": "149/300", "percentage": "49.67%", "elapsed_time": "1h 50m 5s", "remaining_time": "1h 51m 33s"}
	{"loss": 0.4888244, "token_acc": 0.7983871, "grad_norm": 1.62593114, "learning_rate": 5.41e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022536, "epoch": 0.50083472, "global_step/max_steps": "150/300", "percentage": "50.00%", "elapsed_time": "1h 50m 49s", "remaining_time": "1h 50m 49s"}
	{"loss": 0.47696966, "token_acc": 0.86451613, "grad_norm": 1.86505663, "learning_rate": 5.36e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022536, "epoch": 0.50417362, "global_step/max_steps": "151/300", "percentage": "50.33%", "elapsed_time": "1h 51m 33s", "remaining_time": "1h 50m 5s"}
	{"loss": 0.44839042, "token_acc": 0.86061947, "grad_norm": 1.46817899, "learning_rate": 5.3e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022537, "epoch": 0.50751252, "global_step/max_steps": "152/300", "percentage": "50.67%", "elapsed_time": "1h 52m 17s", "remaining_time": "1h 49m 20s"}
	{"loss": 0.49467632, "token_acc": 0.80160321, "grad_norm": 1.65842164, "learning_rate": 5.25e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022537, "epoch": 0.51085142, "global_step/max_steps": "153/300", "percentage": "51.00%", "elapsed_time": "1h 53m 2s", "remaining_time": "1h 48m 36s"}
	{"loss": 0.49460483, "token_acc": 0.84095861, "grad_norm": 1.67727113, "learning_rate": 5.19e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022538, "epoch": 0.51419032, "global_step/max_steps": "154/300", "percentage": "51.33%", "elapsed_time": "1h 53m 46s", "remaining_time": "1h 47m 51s"}
	{"loss": 0.46604881, "token_acc": 0.82464455, "grad_norm": 1.54583275, "learning_rate": 5.14e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022539, "epoch": 0.51752922, "global_step/max_steps": "155/300", "percentage": "51.67%", "elapsed_time": "1h 54m 30s", "remaining_time": "1h 47m 7s"}
	{"loss": 0.48282662, "token_acc": 0.8507109, "grad_norm": 1.44546258, "learning_rate": 5.08e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022539, "epoch": 0.52086811, "global_step/max_steps": "156/300", "percentage": "52.00%", "elapsed_time": "1h 55m 14s", "remaining_time": "1h 46m 22s"}
	{"loss": 0.46264887, "token_acc": 0.84711779, "grad_norm": 1.43099546, "learning_rate": 5.03e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022539, "epoch": 0.52420701, "global_step/max_steps": "157/300", "percentage": "52.33%", "elapsed_time": "1h 55m 59s", "remaining_time": "1h 45m 38s"}
	{"loss": 0.44585633, "token_acc": 0.85233161, "grad_norm": 1.36940444, "learning_rate": 4.97e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022539, "epoch": 0.52754591, "global_step/max_steps": "158/300", "percentage": "52.67%", "elapsed_time": "1h 56m 43s", "remaining_time": "1h 44m 54s"}
	{"loss": 0.48392624, "token_acc": 0.83214286, "grad_norm": 1.58148634, "learning_rate": 4.92e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022539, "epoch": 0.53088481, "global_step/max_steps": "159/300", "percentage": "53.00%", "elapsed_time": "1h 57m 27s", "remaining_time": "1h 44m 10s"}
	{"loss": 0.46440238, "token_acc": 0.81800391, "grad_norm": 1.28369164, "learning_rate": 4.86e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.02254, "epoch": 0.53422371, "global_step/max_steps": "160/300", "percentage": "53.33%", "elapsed_time": "1h 58m 12s", "remaining_time": "1h 43m 25s"}
	{"loss": 0.48318207, "token_acc": 0.82619647, "grad_norm": 1.502509, "learning_rate": 4.81e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.02254, "epoch": 0.5375626, "global_step/max_steps": "161/300", "percentage": "53.67%", "elapsed_time": "1h 58m 56s", "remaining_time": "1h 42m 41s"}
	{"loss": 0.47183821, "token_acc": 0.81963928, "grad_norm": 1.47648609, "learning_rate": 4.75e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.02254, "epoch": 0.5409015, "global_step/max_steps": "162/300", "percentage": "54.00%", "elapsed_time": "1h 59m 40s", "remaining_time": "1h 41m 56s"}
	{"loss": 0.47231326, "token_acc": 0.83488372, "grad_norm": 1.54815471, "learning_rate": 4.7e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022541, "epoch": 0.5442404, "global_step/max_steps": "163/300", "percentage": "54.33%", "elapsed_time": "2h 0m 24s", "remaining_time": "1h 41m 12s"}
	{"loss": 0.48613656, "token_acc": 0.86882129, "grad_norm": 1.4142431, "learning_rate": 4.64e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022541, "epoch": 0.5475793, "global_step/max_steps": "164/300", "percentage": "54.67%", "elapsed_time": "2h 1m 9s", "remaining_time": "1h 40m 28s"}
	{"loss": 0.4693647, "token_acc": 0.85748219, "grad_norm": 1.56151509, "learning_rate": 4.59e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022541, "epoch": 0.5509182, "global_step/max_steps": "165/300", "percentage": "55.00%", "elapsed_time": "2h 1m 53s", "remaining_time": "1h 39m 43s"}
	{"loss": 0.44435987, "token_acc": 0.82107356, "grad_norm": 1.32673311, "learning_rate": 4.53e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022542, "epoch": 0.5542571, "global_step/max_steps": "166/300", "percentage": "55.33%", "elapsed_time": "2h 2m 37s", "remaining_time": "1h 38m 59s"}
	{"loss": 0.49825534, "token_acc": 0.81428571, "grad_norm": 1.47697735, "learning_rate": 4.48e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022542, "epoch": 0.55759599, "global_step/max_steps": "167/300", "percentage": "55.67%", "elapsed_time": "2h 3m 21s", "remaining_time": "1h 38m 14s"}
	{"loss": 0.47496349, "token_acc": 0.81798246, "grad_norm": 1.51010406, "learning_rate": 4.42e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022542, "epoch": 0.56093489, "global_step/max_steps": "168/300", "percentage": "56.00%", "elapsed_time": "2h 4m 6s", "remaining_time": "1h 37m 30s"}
	{"loss": 0.45962334, "token_acc": 0.81715576, "grad_norm": 1.43688154, "learning_rate": 4.37e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022543, "epoch": 0.56427379, "global_step/max_steps": "169/300", "percentage": "56.33%", "elapsed_time": "2h 4m 50s", "remaining_time": "1h 36m 46s"}
	{"loss": 0.48484263, "token_acc": 0.85245902, "grad_norm": 1.48421288, "learning_rate": 4.31e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022543, "epoch": 0.56761269, "global_step/max_steps": "170/300", "percentage": "56.67%", "elapsed_time": "2h 5m 34s", "remaining_time": "1h 36m 1s"}
	{"loss": 0.43778312, "token_acc": 0.86230248, "grad_norm": 1.4090364, "learning_rate": 4.26e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022543, "epoch": 0.57095159, "global_step/max_steps": "171/300", "percentage": "57.00%", "elapsed_time": "2h 6m 18s", "remaining_time": "1h 35m 17s"}
	{"loss": 0.48109135, "token_acc": 0.81561822, "grad_norm": 1.48272419, "learning_rate": 4.2e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022544, "epoch": 0.57429048, "global_step/max_steps": "172/300", "percentage": "57.33%", "elapsed_time": "2h 7m 3s", "remaining_time": "1h 34m 32s"}
	{"loss": 0.47185475, "token_acc": 0.80416667, "grad_norm": 1.41938686, "learning_rate": 4.15e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022544, "epoch": 0.57762938, "global_step/max_steps": "173/300", "percentage": "57.67%", "elapsed_time": "2h 7m 47s", "remaining_time": "1h 33m 48s"}
	{"loss": 0.45935148, "token_acc": 0.87096774, "grad_norm": 1.35055482, "learning_rate": 4.1e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022544, "epoch": 0.58096828, "global_step/max_steps": "174/300", "percentage": "58.00%", "elapsed_time": "2h 8m 31s", "remaining_time": "1h 33m 4s"}
	{"loss": 0.473966, "token_acc": 0.81186094, "grad_norm": 1.28042603, "learning_rate": 4.04e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022544, "epoch": 0.58430718, "global_step/max_steps": "175/300", "percentage": "58.33%", "elapsed_time": "2h 9m 16s", "remaining_time": "1h 32m 20s"}
	{"loss": 0.46438009, "token_acc": 0.86772487, "grad_norm": 1.42831373, "learning_rate": 3.99e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022544, "epoch": 0.58764608, "global_step/max_steps": "176/300", "percentage": "58.67%", "elapsed_time": "2h 10m 0s", "remaining_time": "1h 31m 35s"}
	{"loss": 0.42835391, "token_acc": 0.82743363, "grad_norm": 1.51011801, "learning_rate": 3.93e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022544, "epoch": 0.59098497, "global_step/max_steps": "177/300", "percentage": "59.00%", "elapsed_time": "2h 10m 44s", "remaining_time": "1h 30m 51s"}
	{"loss": 0.48207802, "token_acc": 0.81910569, "grad_norm": 1.32849002, "learning_rate": 3.88e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022545, "epoch": 0.59432387, "global_step/max_steps": "178/300", "percentage": "59.33%", "elapsed_time": "2h 11m 28s", "remaining_time": "1h 30m 7s"}
	{"loss": 0.45589954, "token_acc": 0.8440367, "grad_norm": 1.61472607, "learning_rate": 3.83e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022544, "epoch": 0.59766277, "global_step/max_steps": "179/300", "percentage": "59.67%", "elapsed_time": "2h 12m 13s", "remaining_time": "1h 29m 22s"}
	{"loss": 0.44278634, "token_acc": 0.84188912, "grad_norm": 1.35489249, "learning_rate": 3.77e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022545, "epoch": 0.60100167, "global_step/max_steps": "180/300", "percentage": "60.00%", "elapsed_time": "2h 12m 57s", "remaining_time": "1h 28m 38s"}
	{"loss": 0.49664909, "token_acc": 0.79961464, "grad_norm": 1.33539975, "learning_rate": 3.72e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022546, "epoch": 0.60434057, "global_step/max_steps": "181/300", "percentage": "60.33%", "elapsed_time": "2h 13m 41s", "remaining_time": "1h 27m 53s"}
	{"loss": 0.4659664, "token_acc": 0.83333333, "grad_norm": 1.32267547, "learning_rate": 3.67e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022546, "epoch": 0.60767947, "global_step/max_steps": "182/300", "percentage": "60.67%", "elapsed_time": "2h 14m 25s", "remaining_time": "1h 27m 9s"}
	{"loss": 0.45649993, "token_acc": 0.81017613, "grad_norm": 1.39733613, "learning_rate": 3.61e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022547, "epoch": 0.61101836, "global_step/max_steps": "183/300", "percentage": "61.00%", "elapsed_time": "2h 15m 10s", "remaining_time": "1h 26m 25s"}
	{"loss": 0.4705281, "token_acc": 0.85523385, "grad_norm": 1.50287414, "learning_rate": 3.56e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022546, "epoch": 0.61435726, "global_step/max_steps": "184/300", "percentage": "61.33%", "elapsed_time": "2h 15m 54s", "remaining_time": "1h 25m 40s"}
	{"loss": 0.47178745, "token_acc": 0.83333333, "grad_norm": 1.38796246, "learning_rate": 3.51e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022547, "epoch": 0.61769616, "global_step/max_steps": "185/300", "percentage": "61.67%", "elapsed_time": "2h 16m 38s", "remaining_time": "1h 24m 56s"}
	{"loss": 0.47236466, "token_acc": 0.82539683, "grad_norm": 1.3479892, "learning_rate": 3.45e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022547, "epoch": 0.62103506, "global_step/max_steps": "186/300", "percentage": "62.00%", "elapsed_time": "2h 17m 23s", "remaining_time": "1h 24m 12s"}
	{"loss": 0.43275449, "token_acc": 0.8315565, "grad_norm": 1.35696614, "learning_rate": 3.4e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022547, "epoch": 0.62437396, "global_step/max_steps": "187/300", "percentage": "62.33%", "elapsed_time": "2h 18m 7s", "remaining_time": "1h 23m 27s"}
	{"loss": 0.45467973, "token_acc": 0.86681716, "grad_norm": 1.68634284, "learning_rate": 3.35e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022547, "epoch": 0.62771285, "global_step/max_steps": "188/300", "percentage": "62.67%", "elapsed_time": "2h 18m 51s", "remaining_time": "1h 22m 43s"}
	{"loss": 0.43758777, "token_acc": 0.85714286, "grad_norm": 1.65591371, "learning_rate": 3.3e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022547, "epoch": 0.63105175, "global_step/max_steps": "189/300", "percentage": "63.00%", "elapsed_time": "2h 19m 35s", "remaining_time": "1h 21m 59s"}
	{"loss": 0.45518184, "token_acc": 0.8254902, "grad_norm": 1.51534188, "learning_rate": 3.25e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022547, "epoch": 0.63439065, "global_step/max_steps": "190/300", "percentage": "63.33%", "elapsed_time": "2h 20m 20s", "remaining_time": "1h 21m 14s"}
	{"loss": 0.43466118, "token_acc": 0.84164859, "grad_norm": 1.5415225, "learning_rate": 3.2e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022547, "epoch": 0.63772955, "global_step/max_steps": "191/300", "percentage": "63.67%", "elapsed_time": "2h 21m 4s", "remaining_time": "1h 20m 30s"}
	{"loss": 0.45898944, "token_acc": 0.82429501, "grad_norm": 1.39848685, "learning_rate": 3.14e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022548, "epoch": 0.64106845, "global_step/max_steps": "192/300", "percentage": "64.00%", "elapsed_time": "2h 21m 48s", "remaining_time": "1h 19m 46s"}
	{"loss": 0.49219775, "token_acc": 0.79673321, "grad_norm": 1.53516281, "learning_rate": 3.09e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022548, "epoch": 0.64440735, "global_step/max_steps": "193/300", "percentage": "64.33%", "elapsed_time": "2h 22m 33s", "remaining_time": "1h 19m 1s"}
	{"loss": 0.47402641, "token_acc": 0.83726415, "grad_norm": 1.46461952, "learning_rate": 3.04e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022548, "epoch": 0.64774624, "global_step/max_steps": "194/300", "percentage": "64.67%", "elapsed_time": "2h 23m 17s", "remaining_time": "1h 18m 17s"}
	{"loss": 0.45111585, "token_acc": 0.81578947, "grad_norm": 1.14892697, "learning_rate": 2.99e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022548, "epoch": 0.65108514, "global_step/max_steps": "195/300", "percentage": "65.00%", "elapsed_time": "2h 24m 1s", "remaining_time": "1h 17m 33s"}
	{"loss": 0.44625837, "token_acc": 0.85849057, "grad_norm": 1.5023725, "learning_rate": 2.94e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022548, "epoch": 0.65442404, "global_step/max_steps": "196/300", "percentage": "65.33%", "elapsed_time": "2h 24m 45s", "remaining_time": "1h 16m 48s"}
	{"loss": 0.45035297, "token_acc": 0.86407767, "grad_norm": 2.26118064, "learning_rate": 2.89e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022549, "epoch": 0.65776294, "global_step/max_steps": "197/300", "percentage": "65.67%", "elapsed_time": "2h 25m 30s", "remaining_time": "1h 16m 4s"}
	{"loss": 0.43240404, "token_acc": 0.84340045, "grad_norm": 1.09882593, "learning_rate": 2.84e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022549, "epoch": 0.66110184, "global_step/max_steps": "198/300", "percentage": "66.00%", "elapsed_time": "2h 26m 14s", "remaining_time": "1h 15m 20s"}
	{"loss": 0.44623813, "token_acc": 0.8375, "grad_norm": 1.50279605, "learning_rate": 2.79e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022549, "epoch": 0.66444073, "global_step/max_steps": "199/300", "percentage": "66.33%", "elapsed_time": "2h 26m 58s", "remaining_time": "1h 14m 35s"}
	{"loss": 0.43229532, "token_acc": 0.8285078, "grad_norm": 1.35708714, "learning_rate": 2.74e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022549, "epoch": 0.66777963, "global_step/max_steps": "200/300", "percentage": "66.67%", "elapsed_time": "2h 27m 43s", "remaining_time": "1h 13m 51s"}
	{"loss": 0.41647536, "token_acc": 0.84322034, "grad_norm": 1.17057276, "learning_rate": 2.69e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022549, "epoch": 0.67111853, "global_step/max_steps": "201/300", "percentage": "67.00%", "elapsed_time": "2h 28m 27s", "remaining_time": "1h 13m 7s"}
	{"loss": 0.45166826, "token_acc": 0.87281796, "grad_norm": 1.40298939, "learning_rate": 2.64e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022549, "epoch": 0.67445743, "global_step/max_steps": "202/300", "percentage": "67.33%", "elapsed_time": "2h 29m 11s", "remaining_time": "1h 12m 23s"}
	{"loss": 0.45428181, "token_acc": 0.83647799, "grad_norm": 1.31733859, "learning_rate": 2.6e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022549, "epoch": 0.67779633, "global_step/max_steps": "203/300", "percentage": "67.67%", "elapsed_time": "2h 29m 56s", "remaining_time": "1h 11m 38s"}
	{"loss": 0.4369216, "token_acc": 0.85903084, "grad_norm": 1.23492622, "learning_rate": 2.55e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022549, "epoch": 0.68113523, "global_step/max_steps": "204/300", "percentage": "68.00%", "elapsed_time": "2h 30m 40s", "remaining_time": "1h 10m 54s"}
	{"loss": 0.46053365, "token_acc": 0.81060606, "grad_norm": 1.25396574, "learning_rate": 2.5e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022549, "epoch": 0.68447412, "global_step/max_steps": "205/300", "percentage": "68.33%", "elapsed_time": "2h 31m 24s", "remaining_time": "1h 10m 9s"}
	{"loss": 0.45273358, "token_acc": 0.85119048, "grad_norm": 1.4919976, "learning_rate": 2.45e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022549, "epoch": 0.68781302, "global_step/max_steps": "206/300", "percentage": "68.67%", "elapsed_time": "2h 32m 9s", "remaining_time": "1h 9m 25s"}
	{"loss": 0.43721077, "token_acc": 0.85491071, "grad_norm": 1.44880962, "learning_rate": 2.41e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022549, "epoch": 0.69115192, "global_step/max_steps": "207/300", "percentage": "69.00%", "elapsed_time": "2h 32m 53s", "remaining_time": "1h 8m 41s"}
	{"loss": 0.52153683, "token_acc": 0.81149425, "grad_norm": 1.54746962, "learning_rate": 2.36e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.02255, "epoch": 0.69449082, "global_step/max_steps": "208/300", "percentage": "69.33%", "elapsed_time": "2h 33m 37s", "remaining_time": "1h 7m 57s"}
	{"loss": 0.45305014, "token_acc": 0.83298539, "grad_norm": 1.35016084, "learning_rate": 2.31e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.02255, "epoch": 0.69782972, "global_step/max_steps": "209/300", "percentage": "69.67%", "elapsed_time": "2h 34m 21s", "remaining_time": "1h 7m 12s"}
	{"loss": 0.44353139, "token_acc": 0.85547786, "grad_norm": 1.31848359, "learning_rate": 2.27e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.02255, "epoch": 0.70116861, "global_step/max_steps": "210/300", "percentage": "70.00%", "elapsed_time": "2h 35m 6s", "remaining_time": "1h 6m 28s"}
	{"loss": 0.45369381, "token_acc": 0.8545082, "grad_norm": 1.39883995, "learning_rate": 2.22e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.02255, "epoch": 0.70450751, "global_step/max_steps": "211/300", "percentage": "70.33%", "elapsed_time": "2h 35m 50s", "remaining_time": "1h 5m 44s"}
	{"loss": 0.43843982, "token_acc": 0.85777778, "grad_norm": 1.50787461, "learning_rate": 2.17e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.02255, "epoch": 0.70784641, "global_step/max_steps": "212/300", "percentage": "70.67%", "elapsed_time": "2h 36m 34s", "remaining_time": "1h 4m 59s"}
	{"loss": 0.46996355, "token_acc": 0.83643892, "grad_norm": 1.50525177, "learning_rate": 2.13e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022551, "epoch": 0.71118531, "global_step/max_steps": "213/300", "percentage": "71.00%", "elapsed_time": "2h 37m 18s", "remaining_time": "1h 4m 15s"}
	{"loss": 0.44714537, "token_acc": 0.8691796, "grad_norm": 1.30634952, "learning_rate": 2.08e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022551, "epoch": 0.71452421, "global_step/max_steps": "214/300", "percentage": "71.33%", "elapsed_time": "2h 38m 2s", "remaining_time": "1h 3m 30s"}
	{"loss": 0.39020029, "token_acc": 0.87378641, "grad_norm": 1.15163863, "learning_rate": 2.04e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022552, "epoch": 0.71786311, "global_step/max_steps": "215/300", "percentage": "71.67%", "elapsed_time": "2h 38m 47s", "remaining_time": "1h 2m 46s"}
	{"loss": 0.46470559, "token_acc": 0.85651214, "grad_norm": 2.39114165, "learning_rate": 1.99e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022552, "epoch": 0.721202, "global_step/max_steps": "216/300", "percentage": "72.00%", "elapsed_time": "2h 39m 31s", "remaining_time": "1h 2m 2s"}
	{"loss": 0.44384289, "token_acc": 0.85534591, "grad_norm": 1.40844095, "learning_rate": 1.95e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022552, "epoch": 0.7245409, "global_step/max_steps": "217/300", "percentage": "72.33%", "elapsed_time": "2h 40m 15s", "remaining_time": "1h 1m 17s"}
	{"loss": 0.47184384, "token_acc": 0.83690987, "grad_norm": 1.51819444, "learning_rate": 1.91e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022552, "epoch": 0.7278798, "global_step/max_steps": "218/300", "percentage": "72.67%", "elapsed_time": "2h 41m 0s", "remaining_time": "1h 0m 33s"}
	{"loss": 0.48235244, "token_acc": 0.82478632, "grad_norm": 1.54794347, "learning_rate": 1.86e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022552, "epoch": 0.7312187, "global_step/max_steps": "219/300", "percentage": "73.00%", "elapsed_time": "2h 41m 44s", "remaining_time": "59m 49s"}
	{"loss": 0.47604465, "token_acc": 0.8492823, "grad_norm": 1.4516207, "learning_rate": 1.82e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022552, "epoch": 0.7345576, "global_step/max_steps": "220/300", "percentage": "73.33%", "elapsed_time": "2h 42m 28s", "remaining_time": "59m 5s"}
	{"loss": 0.47993457, "token_acc": 0.81338742, "grad_norm": 1.31787205, "learning_rate": 1.78e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022552, "epoch": 0.73789649, "global_step/max_steps": "221/300", "percentage": "73.67%", "elapsed_time": "2h 43m 13s", "remaining_time": "58m 20s"}
	{"loss": 0.40300494, "token_acc": 0.87173397, "grad_norm": 1.22241926, "learning_rate": 1.74e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022552, "epoch": 0.74123539, "global_step/max_steps": "222/300", "percentage": "74.00%", "elapsed_time": "2h 43m 57s", "remaining_time": "57m 36s"}
	{"loss": 0.42974472, "token_acc": 0.87956989, "grad_norm": 1.31330264, "learning_rate": 1.7e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022553, "epoch": 0.74457429, "global_step/max_steps": "223/300", "percentage": "74.33%", "elapsed_time": "2h 44m 41s", "remaining_time": "56m 52s"}
	{"loss": 0.47451106, "token_acc": 0.85193133, "grad_norm": 1.33529425, "learning_rate": 1.65e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022553, "epoch": 0.74791319, "global_step/max_steps": "224/300", "percentage": "74.67%", "elapsed_time": "2h 45m 25s", "remaining_time": "56m 7s"}
	{"loss": 0.51077688, "token_acc": 0.81132075, "grad_norm": 1.37693286, "learning_rate": 1.61e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022553, "epoch": 0.75125209, "global_step/max_steps": "225/300", "percentage": "75.00%", "elapsed_time": "2h 46m 9s", "remaining_time": "55m 23s"}
	{"loss": 0.47560543, "token_acc": 0.83924843, "grad_norm": 1.61907482, "learning_rate": 1.57e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022553, "epoch": 0.75459098, "global_step/max_steps": "226/300", "percentage": "75.33%", "elapsed_time": "2h 46m 54s", "remaining_time": "54m 39s"}
	{"loss": 0.4732801, "token_acc": 0.84259259, "grad_norm": 1.61781228, "learning_rate": 1.53e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022553, "epoch": 0.75792988, "global_step/max_steps": "227/300", "percentage": "75.67%", "elapsed_time": "2h 47m 38s", "remaining_time": "53m 54s"}
	{"loss": 0.45452017, "token_acc": 0.83613445, "grad_norm": 2.1704793, "learning_rate": 1.49e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022554, "epoch": 0.76126878, "global_step/max_steps": "228/300", "percentage": "76.00%", "elapsed_time": "2h 48m 22s", "remaining_time": "53m 10s"}
	{"loss": 0.44267601, "token_acc": 0.80157171, "grad_norm": 1.27759039, "learning_rate": 1.45e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022554, "epoch": 0.76460768, "global_step/max_steps": "229/300", "percentage": "76.33%", "elapsed_time": "2h 49m 7s", "remaining_time": "52m 26s"}
	{"loss": 0.43158615, "token_acc": 0.84285714, "grad_norm": 1.46433663, "learning_rate": 1.42e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022554, "epoch": 0.76794658, "global_step/max_steps": "230/300", "percentage": "76.67%", "elapsed_time": "2h 49m 51s", "remaining_time": "51m 41s"}
	{"loss": 0.47306645, "token_acc": 0.81338742, "grad_norm": 1.46347857, "learning_rate": 1.38e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022555, "epoch": 0.77128548, "global_step/max_steps": "231/300", "percentage": "77.00%", "elapsed_time": "2h 50m 35s", "remaining_time": "50m 57s"}
	{"loss": 0.43669665, "token_acc": 0.84210526, "grad_norm": 1.25558126, "learning_rate": 1.34e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022555, "epoch": 0.77462437, "global_step/max_steps": "232/300", "percentage": "77.33%", "elapsed_time": "2h 51m 19s", "remaining_time": "50m 12s"}
	{"loss": 0.44153225, "token_acc": 0.81325301, "grad_norm": 1.21104133, "learning_rate": 1.3e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022555, "epoch": 0.77796327, "global_step/max_steps": "233/300", "percentage": "77.67%", "elapsed_time": "2h 52m 3s", "remaining_time": "49m 28s"}
	{"loss": 0.48456508, "token_acc": 0.86552567, "grad_norm": 1.63033426, "learning_rate": 1.27e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022555, "epoch": 0.78130217, "global_step/max_steps": "234/300", "percentage": "78.00%", "elapsed_time": "2h 52m 47s", "remaining_time": "48m 44s"}
	{"loss": 0.4225899, "token_acc": 0.85042735, "grad_norm": 1.07698059, "learning_rate": 1.23e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022556, "epoch": 0.78464107, "global_step/max_steps": "235/300", "percentage": "78.33%", "elapsed_time": "2h 53m 32s", "remaining_time": "47m 59s"}
	{"loss": 0.42656758, "token_acc": 0.8646789, "grad_norm": 1.20366108, "learning_rate": 1.19e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022556, "epoch": 0.78797997, "global_step/max_steps": "236/300", "percentage": "78.67%", "elapsed_time": "2h 54m 16s", "remaining_time": "47m 15s"}
	{"loss": 0.44252068, "token_acc": 0.82774049, "grad_norm": 1.4769702, "learning_rate": 1.16e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022556, "epoch": 0.79131886, "global_step/max_steps": "237/300", "percentage": "79.00%", "elapsed_time": "2h 55m 0s", "remaining_time": "46m 31s"}
	{"loss": 0.4289965, "token_acc": 0.84285714, "grad_norm": 1.37269163, "learning_rate": 1.12e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022556, "epoch": 0.79465776, "global_step/max_steps": "238/300", "percentage": "79.33%", "elapsed_time": "2h 55m 45s", "remaining_time": "45m 47s"}
	{"loss": 0.43953428, "token_acc": 0.84322034, "grad_norm": 1.64014983, "learning_rate": 1.09e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022556, "epoch": 0.79799666, "global_step/max_steps": "239/300", "percentage": "79.67%", "elapsed_time": "2h 56m 29s", "remaining_time": "45m 2s"}
	{"loss": 0.43059254, "token_acc": 0.85849057, "grad_norm": 1.54095256, "learning_rate": 1.05e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022556, "epoch": 0.80133556, "global_step/max_steps": "240/300", "percentage": "80.00%", "elapsed_time": "2h 57m 13s", "remaining_time": "44m 18s"}
	{"loss": 0.43221185, "token_acc": 0.84772727, "grad_norm": 1.22732115, "learning_rate": 1.02e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022557, "epoch": 0.80467446, "global_step/max_steps": "241/300", "percentage": "80.33%", "elapsed_time": "2h 57m 57s", "remaining_time": "43m 34s"}
	{"loss": 0.4292956, "token_acc": 0.84666667, "grad_norm": 1.37375176, "learning_rate": 9.9e-07, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022557, "epoch": 0.80801336, "global_step/max_steps": "242/300", "percentage": "80.67%", "elapsed_time": "2h 58m 42s", "remaining_time": "42m 49s"}
	{"loss": 0.44102186, "token_acc": 0.87654321, "grad_norm": 1.20020115, "learning_rate": 9.5e-07, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022557, "epoch": 0.81135225, "global_step/max_steps": "243/300", "percentage": "81.00%", "elapsed_time": "2h 59m 26s", "remaining_time": "42m 5s"}
	{"loss": 0.49218777, "token_acc": 0.82286996, "grad_norm": 1.38252604, "learning_rate": 9.2e-07, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022557, "epoch": 0.81469115, "global_step/max_steps": "244/300", "percentage": "81.33%", "elapsed_time": "3h 0m 10s", "remaining_time": "41m 21s"}
	{"loss": 0.48023698, "token_acc": 0.82341651, "grad_norm": 1.29009092, "learning_rate": 8.9e-07, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022557, "epoch": 0.81803005, "global_step/max_steps": "245/300", "percentage": "81.67%", "elapsed_time": "3h 0m 54s", "remaining_time": "40m 36s"}
	{"loss": 0.49238354, "token_acc": 0.8173913, "grad_norm": 1.33037436, "learning_rate": 8.6e-07, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022558, "epoch": 0.82136895, "global_step/max_steps": "246/300", "percentage": "82.00%", "elapsed_time": "3h 1m 38s", "remaining_time": "39m 52s"}
	{"loss": 0.41504678, "token_acc": 0.89106754, "grad_norm": 1.26740968, "learning_rate": 8.3e-07, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022558, "epoch": 0.82470785, "global_step/max_steps": "247/300", "percentage": "82.33%", "elapsed_time": "3h 2m 23s", "remaining_time": "39m 8s"}
	{"loss": 0.43151772, "token_acc": 0.81742739, "grad_norm": 1.02737629, "learning_rate": 8e-07, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022559, "epoch": 0.82804674, "global_step/max_steps": "248/300", "percentage": "82.67%", "elapsed_time": "3h 3m 7s", "remaining_time": "38m 23s"}
	{"loss": 0.47853497, "token_acc": 0.86534216, "grad_norm": 1.34307349, "learning_rate": 7.7e-07, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022559, "epoch": 0.83138564, "global_step/max_steps": "249/300", "percentage": "83.00%", "elapsed_time": "3h 3m 51s", "remaining_time": "37m 39s"}
	{"loss": 0.45336959, "token_acc": 0.85849057, "grad_norm": 1.31496227, "learning_rate": 7.4e-07, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022559, "epoch": 0.83472454, "global_step/max_steps": "250/300", "percentage": "83.33%", "elapsed_time": "3h 4m 35s", "remaining_time": "36m 55s"}
	{"loss": 0.4776513, "token_acc": 0.8285124, "grad_norm": 1.42384315, "learning_rate": 7.1e-07, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022559, "epoch": 0.83806344, "global_step/max_steps": "251/300", "percentage": "83.67%", "elapsed_time": "3h 5m 19s", "remaining_time": "36m 10s"}
	{"loss": 0.43598661, "token_acc": 0.83643892, "grad_norm": 1.24179661, "learning_rate": 6.8e-07, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022559, "epoch": 0.84140234, "global_step/max_steps": "252/300", "percentage": "84.00%", "elapsed_time": "3h 6m 4s", "remaining_time": "35m 26s"}
	{"loss": 0.45966357, "token_acc": 0.83891213, "grad_norm": 2.30725503, "learning_rate": 6.6e-07, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022559, "epoch": 0.84474124, "global_step/max_steps": "253/300", "percentage": "84.33%", "elapsed_time": "3h 6m 48s", "remaining_time": "34m 42s"}
	{"loss": 0.48384106, "token_acc": 0.80952381, "grad_norm": 1.32006085, "learning_rate": 6.3e-07, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022559, "epoch": 0.84808013, "global_step/max_steps": "254/300", "percentage": "84.67%", "elapsed_time": "3h 7m 32s", "remaining_time": "33m 57s"}
	{"loss": 0.44037426, "token_acc": 0.82315789, "grad_norm": 1.21534944, "learning_rate": 6e-07, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022559, "epoch": 0.85141903, "global_step/max_steps": "255/300", "percentage": "85.00%", "elapsed_time": "3h 8m 17s", "remaining_time": "33m 13s"}
	{"loss": 0.45179084, "token_acc": 0.86923077, "grad_norm": 1.36072028, "learning_rate": 5.8e-07, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022559, "epoch": 0.85475793, "global_step/max_steps": "256/300", "percentage": "85.33%", "elapsed_time": "3h 9m 1s", "remaining_time": "32m 29s"}
	{"loss": 0.46604207, "token_acc": 0.80215054, "grad_norm": 1.28124118, "learning_rate": 5.5e-07, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.02256, "epoch": 0.85809683, "global_step/max_steps": "257/300", "percentage": "85.67%", "elapsed_time": "3h 9m 45s", "remaining_time": "31m 44s"}
	{"loss": 0.43110919, "token_acc": 0.88382688, "grad_norm": 1.19346666, "learning_rate": 5.3e-07, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.02256, "epoch": 0.86143573, "global_step/max_steps": "258/300", "percentage": "86.00%", "elapsed_time": "3h 10m 29s", "remaining_time": "31m 0s"}
	{"loss": 0.44503081, "token_acc": 0.81759657, "grad_norm": 1.25376821, "learning_rate": 5e-07, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.02256, "epoch": 0.86477462, "global_step/max_steps": "259/300", "percentage": "86.33%", "elapsed_time": "3h 11m 13s", "remaining_time": "30m 16s"}
	{"loss": 0.43675256, "token_acc": 0.84810127, "grad_norm": 1.2241776, "learning_rate": 4.8e-07, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.02256, "epoch": 0.86811352, "global_step/max_steps": "260/300", "percentage": "86.67%", "elapsed_time": "3h 11m 58s", "remaining_time": "29m 32s"}
	{"loss": 0.43473321, "token_acc": 0.86292135, "grad_norm": 1.34631455, "learning_rate": 4.5e-07, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.02256, "epoch": 0.87145242, "global_step/max_steps": "261/300", "percentage": "87.00%", "elapsed_time": "3h 12m 42s", "remaining_time": "28m 47s"}
	{"loss": 0.41778159, "token_acc": 0.84565217, "grad_norm": 1.05491424, "learning_rate": 4.3e-07, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.02256, "epoch": 0.87479132, "global_step/max_steps": "262/300", "percentage": "87.33%", "elapsed_time": "3h 13m 27s", "remaining_time": "28m 3s"}
	{"loss": 0.43097192, "token_acc": 0.81950207, "grad_norm": 1.66614509, "learning_rate": 4.1e-07, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.02256, "epoch": 0.87813022, "global_step/max_steps": "263/300", "percentage": "87.67%", "elapsed_time": "3h 14m 11s", "remaining_time": "27m 19s"}
	{"loss": 0.46152347, "token_acc": 0.83, "grad_norm": 1.18020666, "learning_rate": 3.9e-07, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.02256, "epoch": 0.88146912, "global_step/max_steps": "264/300", "percentage": "88.00%", "elapsed_time": "3h 14m 55s", "remaining_time": "26m 34s"}
	{"loss": 0.46947178, "token_acc": 0.80430528, "grad_norm": 1.40853512, "learning_rate": 3.7e-07, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.02256, "epoch": 0.88480801, "global_step/max_steps": "265/300", "percentage": "88.33%", "elapsed_time": "3h 15m 39s", "remaining_time": "25m 50s"}
	{"loss": 0.44816315, "token_acc": 0.83849558, "grad_norm": 1.54506981, "learning_rate": 3.5e-07, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.02256, "epoch": 0.88814691, "global_step/max_steps": "266/300", "percentage": "88.67%", "elapsed_time": "3h 16m 24s", "remaining_time": "25m 6s"}
	{"loss": 0.43513978, "token_acc": 0.82780083, "grad_norm": 1.32274616, "learning_rate": 3.3e-07, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.02256, "epoch": 0.89148581, "global_step/max_steps": "267/300", "percentage": "89.00%", "elapsed_time": "3h 17m 8s", "remaining_time": "24m 21s"}
	{"loss": 0.46845639, "token_acc": 0.79918033, "grad_norm": 1.32075286, "learning_rate": 3.1e-07, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.02256, "epoch": 0.89482471, "global_step/max_steps": "268/300", "percentage": "89.33%", "elapsed_time": "3h 17m 52s", "remaining_time": "23m 37s"}
	{"loss": 0.45487836, "token_acc": 0.82180294, "grad_norm": 1.44494164, "learning_rate": 2.9e-07, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.02256, "epoch": 0.89816361, "global_step/max_steps": "269/300", "percentage": "89.67%", "elapsed_time": "3h 18m 37s", "remaining_time": "22m 53s"}
	{"loss": 0.44590187, "token_acc": 0.85365854, "grad_norm": 1.49723876, "learning_rate": 2.7e-07, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022561, "epoch": 0.9015025, "global_step/max_steps": "270/300", "percentage": "90.00%", "elapsed_time": "3h 19m 21s", "remaining_time": "22m 9s"}
	{"loss": 0.42203188, "token_acc": 0.87833828, "grad_norm": 1.32277906, "learning_rate": 2.5e-07, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.02256, "epoch": 0.9048414, "global_step/max_steps": "271/300", "percentage": "90.33%", "elapsed_time": "3h 20m 5s", "remaining_time": "21m 24s"}
	{"loss": 0.47913378, "token_acc": 0.83686441, "grad_norm": 1.35283148, "learning_rate": 2.4e-07, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022561, "epoch": 0.9081803, "global_step/max_steps": "272/300", "percentage": "90.67%", "elapsed_time": "3h 20m 49s", "remaining_time": "20m 40s"}
	{"loss": 0.44908708, "token_acc": 0.83031674, "grad_norm": 1.26212811, "learning_rate": 2.2e-07, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022561, "epoch": 0.9115192, "global_step/max_steps": "273/300", "percentage": "91.00%", "elapsed_time": "3h 21m 34s", "remaining_time": "19m 56s"}
	{"loss": 0.42876899, "token_acc": 0.84146341, "grad_norm": 1.50481093, "learning_rate": 2e-07, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022561, "epoch": 0.9148581, "global_step/max_steps": "274/300", "percentage": "91.33%", "elapsed_time": "3h 22m 18s", "remaining_time": "19m 11s"}
	{"loss": 0.40696782, "token_acc": 0.83863636, "grad_norm": 1.31635654, "learning_rate": 1.9e-07, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022561, "epoch": 0.91819699, "global_step/max_steps": "275/300", "percentage": "91.67%", "elapsed_time": "3h 23m 2s", "remaining_time": "18m 27s"}
	{"loss": 0.44886482, "token_acc": 0.80234834, "grad_norm": 1.30635631, "learning_rate": 1.7e-07, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022561, "epoch": 0.92153589, "global_step/max_steps": "276/300", "percentage": "92.00%", "elapsed_time": "3h 23m 47s", "remaining_time": "17m 43s"}
	{"loss": 0.44322562, "token_acc": 0.81262729, "grad_norm": 1.14424229, "learning_rate": 1.6e-07, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022561, "epoch": 0.92487479, "global_step/max_steps": "277/300", "percentage": "92.33%", "elapsed_time": "3h 24m 31s", "remaining_time": "16m 58s"}
	{"loss": 0.43843973, "token_acc": 0.83826879, "grad_norm": 1.27477586, "learning_rate": 1.5e-07, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022561, "epoch": 0.92821369, "global_step/max_steps": "278/300", "percentage": "92.67%", "elapsed_time": "3h 25m 15s", "remaining_time": "16m 14s"}
	{"loss": 0.44356114, "token_acc": 0.83789954, "grad_norm": 1.18679714, "learning_rate": 1.3e-07, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022561, "epoch": 0.93155259, "global_step/max_steps": "279/300", "percentage": "93.00%", "elapsed_time": "3h 25m 59s", "remaining_time": "15m 30s"}
	{"loss": 0.42860729, "token_acc": 0.83758701, "grad_norm": 1.35431099, "learning_rate": 1.2e-07, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022562, "epoch": 0.93489149, "global_step/max_steps": "280/300", "percentage": "93.33%", "elapsed_time": "3h 26m 44s", "remaining_time": "14m 46s"}
	{"loss": 0.47168612, "token_acc": 0.83480176, "grad_norm": 1.35399294, "learning_rate": 1.1e-07, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022562, "epoch": 0.93823038, "global_step/max_steps": "281/300", "percentage": "93.67%", "elapsed_time": "3h 27m 28s", "remaining_time": "14m 1s"}
	{"loss": 0.41934142, "token_acc": 0.83982684, "grad_norm": 1.43219221, "learning_rate": 1e-07, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022562, "epoch": 0.94156928, "global_step/max_steps": "282/300", "percentage": "94.00%", "elapsed_time": "3h 28m 12s", "remaining_time": "13m 17s"}
	{"loss": 0.45193523, "token_acc": 0.86129754, "grad_norm": 1.27340102, "learning_rate": 9e-08, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022562, "epoch": 0.94490818, "global_step/max_steps": "283/300", "percentage": "94.33%", "elapsed_time": "3h 28m 56s", "remaining_time": "12m 33s"}
	{"loss": 0.45106283, "token_acc": 0.83101392, "grad_norm": 1.2448622, "learning_rate": 8e-08, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022562, "epoch": 0.94824708, "global_step/max_steps": "284/300", "percentage": "94.67%", "elapsed_time": "3h 29m 41s", "remaining_time": "11m 48s"}
	{"loss": 0.42387938, "token_acc": 0.87385321, "grad_norm": 1.34401536, "learning_rate": 7e-08, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022562, "epoch": 0.95158598, "global_step/max_steps": "285/300", "percentage": "95.00%", "elapsed_time": "3h 30m 25s", "remaining_time": "11m 4s"}
	{"loss": 0.45687979, "token_acc": 0.85365854, "grad_norm": 1.47479808, "learning_rate": 6e-08, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022562, "epoch": 0.95492487, "global_step/max_steps": "286/300", "percentage": "95.33%", "elapsed_time": "3h 31m 9s", "remaining_time": "10m 20s"}
	{"loss": 0.42069635, "token_acc": 0.88551402, "grad_norm": 1.20875704, "learning_rate": 5e-08, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022562, "epoch": 0.95826377, "global_step/max_steps": "287/300", "percentage": "95.67%", "elapsed_time": "3h 31m 53s", "remaining_time": "9m 35s"}
	{"loss": 0.42080677, "token_acc": 0.84835165, "grad_norm": 1.23315704, "learning_rate": 4e-08, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022562, "epoch": 0.96160267, "global_step/max_steps": "288/300", "percentage": "96.00%", "elapsed_time": "3h 32m 38s", "remaining_time": "8m 51s"}
	{"loss": 0.45595223, "token_acc": 0.82352941, "grad_norm": 1.43778944, "learning_rate": 4e-08, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022562, "epoch": 0.96494157, "global_step/max_steps": "289/300", "percentage": "96.33%", "elapsed_time": "3h 33m 22s", "remaining_time": "8m 7s"}
	{"loss": 0.46716815, "token_acc": 0.83575884, "grad_norm": 1.2774322, "learning_rate": 3e-08, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022563, "epoch": 0.96828047, "global_step/max_steps": "290/300", "percentage": "96.67%", "elapsed_time": "3h 34m 6s", "remaining_time": "7m 22s"}
	{"loss": 0.46173996, "token_acc": 0.84787018, "grad_norm": 1.57938385, "learning_rate": 2e-08, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022563, "epoch": 0.97161937, "global_step/max_steps": "291/300", "percentage": "97.00%", "elapsed_time": "3h 34m 50s", "remaining_time": "6m 38s"}
	{"loss": 0.42452699, "token_acc": 0.86612022, "grad_norm": 1.18211615, "learning_rate": 2e-08, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022563, "epoch": 0.97495826, "global_step/max_steps": "292/300", "percentage": "97.33%", "elapsed_time": "3h 35m 35s", "remaining_time": "5m 54s"}
	{"loss": 0.45058519, "token_acc": 0.87674419, "grad_norm": 1.15033126, "learning_rate": 1e-08, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022563, "epoch": 0.97829716, "global_step/max_steps": "293/300", "percentage": "97.67%", "elapsed_time": "3h 36m 19s", "remaining_time": "5m 10s"}
	{"loss": 0.46275458, "token_acc": 0.80718336, "grad_norm": 1.18322563, "learning_rate": 1e-08, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022563, "epoch": 0.98163606, "global_step/max_steps": "294/300", "percentage": "98.00%", "elapsed_time": "3h 37m 3s", "remaining_time": "4m 25s"}
	{"loss": 0.47570148, "token_acc": 0.85294118, "grad_norm": 1.39145553, "learning_rate": 1e-08, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022564, "epoch": 0.98497496, "global_step/max_steps": "295/300", "percentage": "98.33%", "elapsed_time": "3h 37m 47s", "remaining_time": "3m 41s"}
	{"loss": 0.45555121, "token_acc": 0.84565217, "grad_norm": 1.19453096, "learning_rate": 0.0, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022564, "epoch": 0.98831386, "global_step/max_steps": "296/300", "percentage": "98.67%", "elapsed_time": "3h 38m 31s", "remaining_time": "2m 57s"}
	{"loss": 0.44398284, "token_acc": 0.81529851, "grad_norm": 1.23403728, "learning_rate": 0.0, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022564, "epoch": 0.99165275, "global_step/max_steps": "297/300", "percentage": "99.00%", "elapsed_time": "3h 39m 16s", "remaining_time": "2m 12s"}
	{"loss": 0.44085267, "token_acc": 0.83783784, "grad_norm": 1.48351634, "learning_rate": 0.0, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022564, "epoch": 0.99499165, "global_step/max_steps": "298/300", "percentage": "99.33%", "elapsed_time": "3h 40m 0s", "remaining_time": "1m 28s"}
	{"loss": 0.4580608, "token_acc": 0.82666667, "grad_norm": 1.36963797, "learning_rate": 0.0, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022565, "epoch": 0.99833055, "global_step/max_steps": "299/300", "percentage": "99.67%", "elapsed_time": "3h 40m 44s", "remaining_time": "44s"}
	{"loss": 0.45639268, "token_acc": 0.83815029, "grad_norm": 2.38880444, "learning_rate": 0.0, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022614, "epoch": 1.0, "global_step/max_steps": "300/300", "percentage": "100.00%", "elapsed_time": "3h 40m 59s", "remaining_time": "0s"}
	{"eval_loss": 0.44656631, "eval_token_acc": 0.83869637, "eval_runtime": 113.8868, "eval_samples_per_second": 3.398, "eval_steps_per_second": 0.114, "epoch": 1.0, "global_step/max_steps": "300/300", "percentage": "100.00%", "elapsed_time": "3h 42m 53s", "remaining_time": "0s"}
	{"train_runtime": 13397.8097, "train_samples_per_second": 2.86, "train_steps_per_second": 0.022, "total_flos": 7.758363331827597e+18, "train_loss": 0.5122576, "epoch": 1.0, "global_step/max_steps": "300/300", "percentage": "100.00%", "elapsed_time": "3h 43m 15s", "remaining_time": "0s"}
	{"model_parameter_info": "Qwen2_5_VLForConditionalGeneration: 8292.1667M Params (7615.6165M Trainable [91.8411%]), 0.0019M Buffers.", "last_model_checkpoint": "/workspace/checkpoint/gui_exp/sft_amex_nav/v0-20260414_075334/checkpoint-300", "best_model_checkpoint": "/workspace/checkpoint/gui_exp/sft_amex_nav/v0-20260414_075334/checkpoint-300", "best_metric": 0.44656631, "global_step": 300, "log_history": [{"loss": 1.9587010145187378, "token_acc": 0.6266968325791855, "grad_norm": 63.558692932128906, "learning_rate": 6.666666666666667e-07, "memory(GiB)": 62.53, "train_speed(iter/s)": 0.017162, "epoch": 0.00333889816360601, "step": 1}, {"loss": 1.918318748474121, "token_acc": 0.6169772256728778, "grad_norm": 66.03485870361328, "learning_rate": 1.3333333333333334e-06, "memory(GiB)": 73.25, "train_speed(iter/s)": 0.019495, "epoch": 0.00667779632721202, "step": 2}, {"loss": 2.002612590789795, "token_acc": 0.6061320754716981, "grad_norm": 63.746856689453125, "learning_rate": 2.0000000000000003e-06, "memory(GiB)": 73.37, "train_speed(iter/s)": 0.020423, "epoch": 0.01001669449081803, "step": 3}, {"loss": 1.7764651775360107, "token_acc": 0.6365461847389559, "grad_norm": 54.94431686401367, "learning_rate": 2.666666666666667e-06, "memory(GiB)": 73.37, "train_speed(iter/s)": 0.020931, "epoch": 0.01335559265442404, "step": 4}, {"loss": 1.4763526916503906, "token_acc": 0.6782608695652174, "grad_norm": 33.70310974121094, "learning_rate": 3.3333333333333333e-06, "memory(GiB)": 73.37, "train_speed(iter/s)": 0.021251, "epoch": 0.01669449081803005, "step": 5}, {"loss": 1.296704649925232, "token_acc": 0.717391304347826, "grad_norm": 30.50299072265625, "learning_rate": 4.000000000000001e-06, "memory(GiB)": 73.37, "train_speed(iter/s)": 0.021471, "epoch": 0.02003338898163606, "step": 6}, {"loss": 1.0347239971160889, "token_acc": 0.704312114989733, "grad_norm": 16.664329528808594, "learning_rate": 4.666666666666667e-06, "memory(GiB)": 73.37, "train_speed(iter/s)": 0.021614, "epoch": 0.02337228714524207, "step": 7}, {"loss": 0.8909304738044739, "token_acc": 0.7751937984496124, "grad_norm": 14.131956100463867, "learning_rate": 5.333333333333334e-06, "memory(GiB)": 73.37, "train_speed(iter/s)": 0.02173, "epoch": 0.02671118530884808, "step": 8}, {"loss": 0.7129791975021362, "token_acc": 0.808252427184466, "grad_norm": 7.005220413208008, "learning_rate": 6e-06, "memory(GiB)": 73.37, "train_speed(iter/s)": 0.02183, "epoch": 0.03005008347245409, "step": 9}, {"loss": 0.698959469795227, "token_acc": 0.8, "grad_norm": 5.061426639556885, "learning_rate": 6.666666666666667e-06, "memory(GiB)": 73.37, "train_speed(iter/s)": 0.021898, "epoch": 0.0333889816360601, "step": 10}, {"loss": 0.6583569049835205, "token_acc": 0.7857142857142857, "grad_norm": 4.020035266876221, "learning_rate": 7.333333333333333e-06, "memory(GiB)": 73.37, "train_speed(iter/s)": 0.021957, "epoch": 0.03672787979966611, "step": 11}, {"loss": 0.6756595373153687, "token_acc": 0.7766599597585513, "grad_norm": 7.104156494140625, "learning_rate": 8.000000000000001e-06, "memory(GiB)": 73.37, "train_speed(iter/s)": 0.022006, "epoch": 0.04006677796327212, "step": 12}, {"loss": 0.620278000831604, "token_acc": 0.7878787878787878, "grad_norm": 3.186129093170166, "learning_rate": 8.666666666666668e-06, "memory(GiB)": 73.37, "train_speed(iter/s)": 0.022046, "epoch": 0.04340567612687813, "step": 13}, {"loss": 0.6404534578323364, "token_acc": 0.8059071729957806, "grad_norm": 2.9437992572784424, "learning_rate": 9.333333333333334e-06, "memory(GiB)": 73.37, "train_speed(iter/s)": 0.022076, "epoch": 0.04674457429048414, "step": 14}, {"loss": 0.6052824258804321, "token_acc": 0.797071129707113, "grad_norm": 2.7911570072174072, "learning_rate": 1e-05, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.02211, "epoch": 0.05008347245409015, "step": 15}, {"loss": 0.5698080658912659, "token_acc": 0.839907192575406, "grad_norm": 2.7904746532440186, "learning_rate": 9.999696229471716e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.022142, "epoch": 0.05342237061769616, "step": 16}, {"loss": 0.5889818072319031, "token_acc": 0.829736211031175, "grad_norm": 5.2136430740356445, "learning_rate": 9.998784954797474e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.022162, "epoch": 0.05676126878130217, "step": 17}, {"loss": 0.583049476146698, "token_acc": 0.7978260869565217, "grad_norm": 2.734013319015503, "learning_rate": 9.99726628670463e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.02218, "epoch": 0.06010016694490818, "step": 18}, {"loss": 0.5920240879058838, "token_acc": 0.821826280623608, "grad_norm": 2.660027027130127, "learning_rate": 9.995140409723831e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.022199, "epoch": 0.06343906510851419, "step": 19}, {"loss": 1.1726324558258057, "token_acc": 0.783375314861461, "grad_norm": 102.52426147460938, "learning_rate": 9.992407582166582e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.022213, "epoch": 0.0667779632721202, "step": 20}, {"loss": 0.5753418207168579, "token_acc": 0.8040201005025126, "grad_norm": 4.0564775466918945, "learning_rate": 9.989068136093873e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.02223, "epoch": 0.07011686143572621, "step": 21}, {"loss": 0.537230372428894, "token_acc": 0.8041666666666667, "grad_norm": 5.409079551696777, "learning_rate": 9.985122477275824e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.022244, "epoch": 0.07345575959933222, "step": 22}, {"loss": 0.5993887186050415, "token_acc": 0.8009259259259259, "grad_norm": 3.0019662380218506, "learning_rate": 9.980571085142381e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.022258, "epoch": 0.07679465776293823, "step": 23}, {"loss": 0.5630987882614136, "token_acc": 0.8038793103448276, "grad_norm": 2.34979510307312, "learning_rate": 9.975414512725058e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.022273, "epoch": 0.08013355592654424, "step": 24}, {"loss": 0.5969526767730713, "token_acc": 0.7797270955165692, "grad_norm": 3.0441529750823975, "learning_rate": 9.969653386589749e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.022288, "epoch": 0.08347245409015025, "step": 25}, {"loss": 0.5183336734771729, "token_acc": 0.8231441048034934, "grad_norm": 2.646961212158203, "learning_rate": 9.963288406760584e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.022298, "epoch": 0.08681135225375626, "step": 26}, {"loss": 0.5494503378868103, "token_acc": 0.8129175946547884, "grad_norm": 2.134639024734497, "learning_rate": 9.956320346634877e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.022312, "epoch": 0.09015025041736227, "step": 27}, {"loss": 0.5273500680923462, "token_acc": 0.8233995584988962, "grad_norm": 2.7278003692626953, "learning_rate": 9.94875005288915e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.022321, "epoch": 0.09348914858096828, "step": 28}, {"loss": 0.5055348873138428, "token_acc": 0.8102345415778252, "grad_norm": 2.1957192420959473, "learning_rate": 9.940578445376259e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.022329, "epoch": 0.09682804674457429, "step": 29}, {"loss": 0.5493407249450684, "token_acc": 0.8078512396694215, "grad_norm": 2.5922529697418213, "learning_rate": 9.931806517013612e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.022339, "epoch": 0.1001669449081803, "step": 30}, {"loss": 0.5132384300231934, "token_acc": 0.8177966101694916, "grad_norm": 1.8421932458877563, "learning_rate": 9.922435333662537e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.02235, "epoch": 0.10350584307178631, "step": 31}, {"loss": 0.5688824653625488, "token_acc": 0.8050847457627118, "grad_norm": 2.36340594291687, "learning_rate": 9.912466033998758e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.022357, "epoch": 0.10684474123539232, "step": 32}, {"loss": 0.5465741157531738, "token_acc": 0.8407643312101911, "grad_norm": 2.2460901737213135, "learning_rate": 9.901899829374048e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.022367, "epoch": 0.11018363939899833, "step": 33}, {"loss": 0.5579448938369751, "token_acc": 0.7794392523364486, "grad_norm": 2.3099043369293213, "learning_rate": 9.890738003669029e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.022373, "epoch": 0.11352253756260434, "step": 34}, {"loss": 0.5294663310050964, "token_acc": 0.8087557603686636, "grad_norm": 1.907523274421692, "learning_rate": 9.878981913137178e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.022379, "epoch": 0.11686143572621036, "step": 35}, {"loss": 0.5599992871284485, "token_acc": 0.8268041237113402, "grad_norm": 2.088031530380249, "learning_rate": 9.86663298624003e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.022386, "epoch": 0.12020033388981637, "step": 36}, {"loss": 0.5438095927238464, "token_acc": 0.8243559718969555, "grad_norm": 2.8739471435546875, "learning_rate": 9.8536927234736e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.02239, "epoch": 0.12353923205342238, "step": 37}, {"loss": 0.5304915308952332, "token_acc": 0.8096192384769539, "grad_norm": 2.1210293769836426, "learning_rate": 9.840162697186075e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.022395, "epoch": 0.12687813021702837, "step": 38}, {"loss": 0.526634931564331, "token_acc": 0.7837837837837838, "grad_norm": 1.838950753211975, "learning_rate": 9.826044551386743e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.022397, "epoch": 0.1302170283806344, "step": 39}, {"loss": 0.5530318021774292, "token_acc": 0.8214285714285714, "grad_norm": 1.8546267747879028, "learning_rate": 9.811340001546252e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.022399, "epoch": 0.1335559265442404, "step": 40}, {"loss": 0.5547730326652527, "token_acc": 0.7963386727688787, "grad_norm": 2.211308479309082, "learning_rate": 9.79605083438815e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.022403, "epoch": 0.13689482470784642, "step": 41}, {"loss": 0.5340140461921692, "token_acc": 0.8302752293577982, "grad_norm": 2.0604910850524902, "learning_rate": 9.780178907671788e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.022407, "epoch": 0.14023372287145242, "step": 42}, {"loss": 0.5253214836120605, "token_acc": 0.8430851063829787, "grad_norm": 1.9948921203613281, "learning_rate": 9.763726149966596e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.022413, "epoch": 0.14357262103505844, "step": 43}, {"loss": 0.49455076456069946, "token_acc": 0.8285714285714286, "grad_norm": 1.8019427061080933, "learning_rate": 9.746694560417731e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.022416, "epoch": 0.14691151919866444, "step": 44}, {"loss": 0.5187222957611084, "token_acc": 0.7847619047619048, "grad_norm": 2.015399932861328, "learning_rate": 9.729086208503174e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.022419, "epoch": 0.15025041736227046, "step": 45}, {"loss": 0.543709397315979, "token_acc": 0.8115631691648822, "grad_norm": 2.1979849338531494, "learning_rate": 9.710903233782273e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.022422, "epoch": 0.15358931552587646, "step": 46}, {"loss": 0.5451427102088928, "token_acc": 0.779296875, "grad_norm": 2.034891366958618, "learning_rate": 9.692147845635761e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.022425, "epoch": 0.15692821368948248, "step": 47}, {"loss": 0.49942445755004883, "token_acc": 0.8274509803921568, "grad_norm": 1.7729952335357666, "learning_rate": 9.672822322997305e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.022428, "epoch": 0.16026711185308848, "step": 48}, {"loss": 0.4510355591773987, "token_acc": 0.864321608040201, "grad_norm": 1.8917158842086792, "learning_rate": 9.652929014076593e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.022432, "epoch": 0.1636060100166945, "step": 49}, {"loss": 0.4986444115638733, "token_acc": 0.8092243186582809, "grad_norm": 1.8435698747634888, "learning_rate": 9.632470336074009e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.022435, "epoch": 0.1669449081803005, "step": 50}, {"loss": 0.5114508271217346, "token_acc": 0.8671171171171171, "grad_norm": 2.130854845046997, "learning_rate": 9.611448774886925e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.022439, "epoch": 0.17028380634390652, "step": 51}, {"loss": 0.5390507578849792, "token_acc": 0.8127572016460906, "grad_norm": 1.781964659690857, "learning_rate": 9.589866884807637e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.022442, "epoch": 0.17362270450751252, "step": 52}, {"loss": 0.5424783229827881, "token_acc": 0.8068181818181818, "grad_norm": 2.0127129554748535, "learning_rate": 9.567727288213005e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.022445, "epoch": 0.17696160267111852, "step": 53}, {"loss": 0.4740065038204193, "token_acc": 0.8529411764705882, "grad_norm": 1.9477522373199463, "learning_rate": 9.545032675245814e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.022448, "epoch": 0.18030050083472454, "step": 54}, {"loss": 0.5543708801269531, "token_acc": 0.8120805369127517, "grad_norm": 1.6684035062789917, "learning_rate": 9.521785803487888e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.022452, "epoch": 0.18363939899833054, "step": 55}, {"loss": 0.4704256057739258, "token_acc": 0.8461538461538461, "grad_norm": 1.8591541051864624, "learning_rate": 9.497989497625036e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.022455, "epoch": 0.18697829716193656, "step": 56}, {"loss": 0.46582919359207153, "token_acc": 0.8102345415778252, "grad_norm": 1.7633750438690186, "learning_rate": 9.473646649103819e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.022457, "epoch": 0.19031719532554256, "step": 57}, {"loss": 0.5298373699188232, "token_acc": 0.8309859154929577, "grad_norm": 1.9658993482589722, "learning_rate": 9.448760215780218e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.02246, "epoch": 0.19365609348914858, "step": 58}, {"loss": 0.48609551787376404, "token_acc": 0.7910447761194029, "grad_norm": 1.8657814264297485, "learning_rate": 9.42333322156023e-06, "memory(GiB)": 73.43, "train_speed(iter/s)": 0.022462, "epoch": 0.19699499165275458, "step": 59}, {"loss": 0.501259446144104, "token_acc": 0.8865979381443299, "grad_norm": 3.7747459411621094, "learning_rate": 9.397368756032445e-06, "memory(GiB)": 73.7, "train_speed(iter/s)": 0.022464, "epoch": 0.2003338898163606, "step": 60}, {"loss": 0.5314197540283203, "token_acc": 0.8258527827648114, "grad_norm": 1.813551664352417, "learning_rate": 9.370869974092628e-06, "memory(GiB)": 73.7, "train_speed(iter/s)": 0.022466, "epoch": 0.2036727879799666, "step": 61}, {"loss": 0.5304426550865173, "token_acc": 0.803347280334728, "grad_norm": 1.6306143999099731, "learning_rate": 9.343840095560373e-06, "memory(GiB)": 73.7, "train_speed(iter/s)": 0.022468, "epoch": 0.20701168614357263, "step": 62}, {"loss": 0.4799819886684418, "token_acc": 0.841743119266055, "grad_norm": 1.532435655593872, "learning_rate": 9.31628240478787e-06, "memory(GiB)": 73.7, "train_speed(iter/s)": 0.02247, "epoch": 0.21035058430717862, "step": 63}, {"loss": 0.5136809945106506, "token_acc": 0.7884187082405345, "grad_norm": 1.8351280689239502, "learning_rate": 9.288200250260836e-06, "memory(GiB)": 73.7, "train_speed(iter/s)": 0.022472, "epoch": 0.21368948247078465, "step": 64}, {"loss": 0.4820128083229065, "token_acc": 0.8183716075156576, "grad_norm": 1.9498353004455566, "learning_rate": 9.259597044191635e-06, "memory(GiB)": 73.7, "train_speed(iter/s)": 0.022473, "epoch": 0.21702838063439064, "step": 65}, {"loss": 0.5367871522903442, "token_acc": 0.7888675623800384, "grad_norm": 1.717921495437622, "learning_rate": 9.230476262104678e-06, "memory(GiB)": 73.7, "train_speed(iter/s)": 0.022475, "epoch": 0.22036727879799667, "step": 66}, {"loss": 0.5325941443443298, "token_acc": 0.8112359550561797, "grad_norm": 2.0595614910125732, "learning_rate": 9.200841442414106e-06, "memory(GiB)": 73.7, "train_speed(iter/s)": 0.022476, "epoch": 0.22370617696160267, "step": 67}, {"loss": 0.5032108426094055, "token_acc": 0.8265765765765766, "grad_norm": 1.80692458152771, "learning_rate": 9.17069618599385e-06, "memory(GiB)": 73.7, "train_speed(iter/s)": 0.022478, "epoch": 0.2270450751252087, "step": 68}, {"loss": 0.48259004950523376, "token_acc": 0.8699551569506726, "grad_norm": 1.964518427848816, "learning_rate": 9.140044155740102e-06, "memory(GiB)": 73.7, "train_speed(iter/s)": 0.022479, "epoch": 0.2303839732888147, "step": 69}, {"loss": 0.5023468732833862, "token_acc": 0.8029661016949152, "grad_norm": 1.6458332538604736, "learning_rate": 9.108889076126226e-06, "memory(GiB)": 73.7, "train_speed(iter/s)": 0.02248, "epoch": 0.2337228714524207, "step": 70}, {"loss": 0.4728900194168091, "token_acc": 0.8608695652173913, "grad_norm": 1.6264995336532593, "learning_rate": 9.077234732750223e-06, "memory(GiB)": 73.7, "train_speed(iter/s)": 0.022482, "epoch": 0.2370617696160267, "step": 71}, {"loss": 0.4896972179412842, "token_acc": 0.8291571753986332, "grad_norm": 1.7697898149490356, "learning_rate": 9.045084971874738e-06, "memory(GiB)": 73.7, "train_speed(iter/s)": 0.022483, "epoch": 0.24040066777963273, "step": 72}, {"loss": 0.481738805770874, "token_acc": 0.8178217821782178, "grad_norm": 1.515218734741211, "learning_rate": 9.012443699959706e-06, "memory(GiB)": 73.7, "train_speed(iter/s)": 0.022486, "epoch": 0.24373956594323873, "step": 73}, {"loss": 0.46770280599594116, "token_acc": 0.8429561200923787, "grad_norm": 1.555651068687439, "learning_rate": 8.979314883187694e-06, "memory(GiB)": 73.7, "train_speed(iter/s)": 0.022488, "epoch": 0.24707846410684475, "step": 74}, {"loss": 0.4640369713306427, "token_acc": 0.8492462311557789, "grad_norm": 1.6310226917266846, "learning_rate": 8.94570254698197e-06, "memory(GiB)": 73.7, "train_speed(iter/s)": 0.022488, "epoch": 0.25041736227045075, "step": 75}, {"loss": 0.5231144428253174, "token_acc": 0.7991718426501035, "grad_norm": 1.876642107963562, "learning_rate": 8.911610775517383e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.02249, "epoch": 0.25375626043405675, "step": 76}, {"loss": 0.5022178292274475, "token_acc": 0.837573385518591, "grad_norm": 1.692840337753296, "learning_rate": 8.877043711224109e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022491, "epoch": 0.2570951585976628, "step": 77}, {"loss": 0.49258601665496826, "token_acc": 0.8319672131147541, "grad_norm": 1.6154760122299194, "learning_rate": 8.842005554284296e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022492, "epoch": 0.2604340567612688, "step": 78}, {"loss": 0.5060482025146484, "token_acc": 0.850632911392405, "grad_norm": 1.98163902759552, "learning_rate": 8.806500562121724e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022494, "epoch": 0.2637729549248748, "step": 79}, {"loss": 0.4778392016887665, "token_acc": 0.8454935622317596, "grad_norm": 1.626186728477478, "learning_rate": 8.770533048884483e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022496, "epoch": 0.2671118530884808, "step": 80}, {"loss": 0.4933723211288452, "token_acc": 0.8617710583153347, "grad_norm": 1.6847624778747559, "learning_rate": 8.734107384920771e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022497, "epoch": 0.2704507512520868, "step": 81}, {"loss": 0.5144381523132324, "token_acc": 0.8289205702647657, "grad_norm": 1.719366192817688, "learning_rate": 8.697227996247861e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022498, "epoch": 0.27378964941569284, "step": 82}, {"loss": 0.46785837411880493, "token_acc": 0.8142548596112311, "grad_norm": 1.5041319131851196, "learning_rate": 8.659899364014309e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022498, "epoch": 0.27712854757929883, "step": 83}, {"loss": 0.48308801651000977, "token_acc": 0.8094302554027505, "grad_norm": 1.6592446565628052, "learning_rate": 8.622126023955446e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022499, "epoch": 0.28046744574290483, "step": 84}, {"loss": 0.4793299734592438, "token_acc": 0.8344519015659956, "grad_norm": 2.1532111167907715, "learning_rate": 8.583912565842258e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.0225, "epoch": 0.2838063439065108, "step": 85}, {"loss": 0.5039821863174438, "token_acc": 0.8401639344262295, "grad_norm": 1.559260606765747, "learning_rate": 8.545263632923687e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.0225, "epoch": 0.2871452420701169, "step": 86}, {"loss": 0.525526762008667, "token_acc": 0.8191964285714286, "grad_norm": 1.6800284385681152, "learning_rate": 8.506183921362443e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.0225, "epoch": 0.2904841402337229, "step": 87}, {"loss": 0.48694419860839844, "token_acc": 0.8303964757709251, "grad_norm": 1.7127768993377686, "learning_rate": 8.466678179664378e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022501, "epoch": 0.2938230383973289, "step": 88}, {"loss": 0.4906855821609497, "token_acc": 0.8098434004474273, "grad_norm": 1.6062649488449097, "learning_rate": 8.4267512081015e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022502, "epoch": 0.29716193656093487, "step": 89}, {"loss": 0.4850651025772095, "token_acc": 0.8568281938325991, "grad_norm": 1.4321051836013794, "learning_rate": 8.386407858128707e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022502, "epoch": 0.3005008347245409, "step": 90}, {"loss": 0.5033295154571533, "token_acc": 0.8302325581395349, "grad_norm": 1.6570332050323486, "learning_rate": 8.345653031794292e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022504, "epoch": 0.3038397328881469, "step": 91}, {"loss": 0.48208218812942505, "token_acc": 0.8272921108742004, "grad_norm": 1.4162381887435913, "learning_rate": 8.304491681144306e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022506, "epoch": 0.3071786310517529, "step": 92}, {"loss": 0.49148106575012207, "token_acc": 0.8106508875739645, "grad_norm": 1.8017899990081787, "learning_rate": 8.262928807620843e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022506, "epoch": 0.3105175292153589, "step": 93}, {"loss": 0.5075578093528748, "token_acc": 0.8353658536585366, "grad_norm": 1.8673396110534668, "learning_rate": 8.220969461454322e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022506, "epoch": 0.31385642737896496, "step": 94}, {"loss": 0.47894734144210815, "token_acc": 0.8021978021978022, "grad_norm": 1.9856314659118652, "learning_rate": 8.178618741049841e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022507, "epoch": 0.31719532554257096, "step": 95}, {"loss": 0.49805644154548645, "token_acc": 0.8432203389830508, "grad_norm": 1.7542381286621094, "learning_rate": 8.135881792367686e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022509, "epoch": 0.32053422370617696, "step": 96}, {"loss": 0.47627007961273193, "token_acc": 0.838012958963283, "grad_norm": 1.5456252098083496, "learning_rate": 8.092763808298048e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022509, "epoch": 0.32387312186978295, "step": 97}, {"loss": 0.5326945781707764, "token_acc": 0.7995951417004049, "grad_norm": 2.4288904666900635, "learning_rate": 8.049270028030045e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.02251, "epoch": 0.327212020033389, "step": 98}, {"loss": 0.49359816312789917, "token_acc": 0.8498942917547568, "grad_norm": 1.6859160661697388, "learning_rate": 8.005405736415127e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022511, "epoch": 0.330550918196995, "step": 99}, {"loss": 0.506350576877594, "token_acc": 0.8157894736842105, "grad_norm": 1.7093342542648315, "learning_rate": 7.961176263324902e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022513, "epoch": 0.333889816360601, "step": 100}, {"loss": 0.48857271671295166, "token_acc": 0.8219461697722568, "grad_norm": 1.963621973991394, "learning_rate": 7.916586983003534e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022513, "epoch": 0.337228714524207, "step": 101}, {"loss": 0.5058275461196899, "token_acc": 0.8008048289738431, "grad_norm": 1.4699695110321045, "learning_rate": 7.871643313414718e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022514, "epoch": 0.34056761268781305, "step": 102}, {"loss": 0.4558953046798706, "token_acc": 0.8300220750551877, "grad_norm": 1.6739786863327026, "learning_rate": 7.82635071558336e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022514, "epoch": 0.34390651085141904, "step": 103}, {"loss": 0.514548659324646, "token_acc": 0.8024193548387096, "grad_norm": 1.6120555400848389, "learning_rate": 7.780714692932002e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022515, "epoch": 0.34724540901502504, "step": 104}, {"loss": 0.471696674823761, "token_acc": 0.8540305010893247, "grad_norm": 1.9606854915618896, "learning_rate": 7.734740790612137e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022515, "epoch": 0.35058430717863104, "step": 105}, {"loss": 0.4814460873603821, "token_acc": 0.8419864559819413, "grad_norm": 1.4435038566589355, "learning_rate": 7.688434594830392e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022515, "epoch": 0.35392320534223703, "step": 106}, {"loss": 0.5114462375640869, "token_acc": 0.8221258134490239, "grad_norm": 1.4448623657226562, "learning_rate": 7.641801732169796e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022515, "epoch": 0.3572621035058431, "step": 107}, {"loss": 0.46770352125167847, "token_acc": 0.8495145631067961, "grad_norm": 1.6593856811523438, "learning_rate": 7.594847868906076e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022516, "epoch": 0.3606010016694491, "step": 108}, {"loss": 0.5061250925064087, "token_acc": 0.8193832599118943, "grad_norm": 1.5709308385849, "learning_rate": 7.547578710319174e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022517, "epoch": 0.3639398998330551, "step": 109}, {"loss": 0.5117834806442261, "token_acc": 0.8371559633027523, "grad_norm": 1.5222126245498657, "learning_rate": 7.500000000000001e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022518, "epoch": 0.3672787979966611, "step": 110}, {"loss": 0.5041466951370239, "token_acc": 0.8120300751879699, "grad_norm": 1.6265324354171753, "learning_rate": 7.452117519152542e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022519, "epoch": 0.37061769616026713, "step": 111}, {"loss": 0.49580833315849304, "token_acc": 0.8287671232876712, "grad_norm": 1.539784550666809, "learning_rate": 7.403937085891397e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022519, "epoch": 0.3739565943238731, "step": 112}, {"loss": 0.4829326570034027, "token_acc": 0.7980952380952381, "grad_norm": 1.6093411445617676, "learning_rate": 7.355464554534837e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022521, "epoch": 0.3772954924874791, "step": 113}, {"loss": 0.4849434792995453, "token_acc": 0.8410596026490066, "grad_norm": 1.7319387197494507, "learning_rate": 7.30670581489344e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022521, "epoch": 0.3806343906510851, "step": 114}, {"loss": 0.47770607471466064, "token_acc": 0.8116760828625236, "grad_norm": 1.4288172721862793, "learning_rate": 7.257666791554448e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022521, "epoch": 0.38397328881469117, "step": 115}, {"loss": 0.4247056841850281, "token_acc": 0.8362445414847162, "grad_norm": 1.3544410467147827, "learning_rate": 7.208353443161871e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022521, "epoch": 0.38731218697829717, "step": 116}, {"loss": 0.4784797132015228, "token_acc": 0.8218884120171673, "grad_norm": 1.566001057624817, "learning_rate": 7.158771761692464e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022522, "epoch": 0.39065108514190316, "step": 117}, {"loss": 0.48856624960899353, "token_acc": 0.810126582278481, "grad_norm": 2.2614104747772217, "learning_rate": 7.108927771727661e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022522, "epoch": 0.39398998330550916, "step": 118}, {"loss": 0.4787282943725586, "token_acc": 0.8245614035087719, "grad_norm": 1.554328203201294, "learning_rate": 7.058827529721526e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022523, "epoch": 0.3973288814691152, "step": 119}, {"loss": 0.48690345883369446, "token_acc": 0.8430493273542601, "grad_norm": 1.7418394088745117, "learning_rate": 7.008477123264849e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022523, "epoch": 0.4006677796327212, "step": 120}, {"loss": 0.5078856945037842, "token_acc": 0.8031189083820662, "grad_norm": 1.5034055709838867, "learning_rate": 6.957882670345458e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022524, "epoch": 0.4040066777963272, "step": 121}, {"loss": 0.44685059785842896, "token_acc": 0.8138075313807531, "grad_norm": 1.527855396270752, "learning_rate": 6.907050318604831e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022525, "epoch": 0.4073455759599332, "step": 122}, {"loss": 0.4490770995616913, "token_acc": 0.839835728952772, "grad_norm": 1.4372451305389404, "learning_rate": 6.855986244591104e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022526, "epoch": 0.41068447412353926, "step": 123}, {"loss": 0.4961269795894623, "token_acc": 0.8399209486166008, "grad_norm": 1.839349627494812, "learning_rate": 6.804696653008574e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022526, "epoch": 0.41402337228714525, "step": 124}, {"loss": 0.5189396142959595, "token_acc": 0.8183673469387756, "grad_norm": 1.649375557899475, "learning_rate": 6.753187775963773e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022527, "epoch": 0.41736227045075125, "step": 125}, {"loss": 0.47270849347114563, "token_acc": 0.815068493150685, "grad_norm": 1.550436019897461, "learning_rate": 6.701465872208216e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022528, "epoch": 0.42070116861435725, "step": 126}, {"loss": 0.46652814745903015, "token_acc": 0.8410041841004184, "grad_norm": 1.481643795967102, "learning_rate": 6.6495372263779145e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022529, "epoch": 0.4240400667779633, "step": 127}, {"loss": 0.45263949036598206, "token_acc": 0.8326180257510729, "grad_norm": 1.233067274093628, "learning_rate": 6.597408148229742e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022529, "epoch": 0.4273789649415693, "step": 128}, {"loss": 0.45350950956344604, "token_acc": 0.8372591006423983, "grad_norm": 1.5095429420471191, "learning_rate": 6.545084971874738e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022529, "epoch": 0.4307178631051753, "step": 129}, {"loss": 0.47064653038978577, "token_acc": 0.8425925925925926, "grad_norm": 1.5421509742736816, "learning_rate": 6.492574055008474e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022531, "epoch": 0.4340567612687813, "step": 130}, {"loss": 0.45104795694351196, "token_acc": 0.8257918552036199, "grad_norm": 1.4626282453536987, "learning_rate": 6.439881778138531e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022531, "epoch": 0.4373956594323873, "step": 131}, {"loss": 0.475061297416687, "token_acc": 0.8238993710691824, "grad_norm": 1.649975299835205, "learning_rate": 6.387014543809224e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022532, "epoch": 0.44073455759599334, "step": 132}, {"loss": 0.46813586354255676, "token_acc": 0.8496583143507973, "grad_norm": 1.6153556108474731, "learning_rate": 6.3339787758236316e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022533, "epoch": 0.44407345575959933, "step": 133}, {"loss": 0.44340384006500244, "token_acc": 0.865, "grad_norm": 1.7369837760925293, "learning_rate": 6.280780918463057e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022532, "epoch": 0.44741235392320533, "step": 134}, {"loss": 0.503865659236908, "token_acc": 0.8444924406047516, "grad_norm": 1.5654078722000122, "learning_rate": 6.227427435703997e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022533, "epoch": 0.4507512520868113, "step": 135}, {"loss": 0.45822733640670776, "token_acc": 0.854875283446712, "grad_norm": 3.726794719696045, "learning_rate": 6.173924810432705e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022534, "epoch": 0.4540901502504174, "step": 136}, {"loss": 0.5038412809371948, "token_acc": 0.8167330677290837, "grad_norm": 1.6565021276474, "learning_rate": 6.12027954365748e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022534, "epoch": 0.4574290484140234, "step": 137}, {"loss": 0.4617326259613037, "token_acc": 0.8809523809523809, "grad_norm": 1.5462568998336792, "learning_rate": 6.066498153718735e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022534, "epoch": 0.4607679465776294, "step": 138}, {"loss": 0.45376482605934143, "token_acc": 0.841648590021692, "grad_norm": 1.4193439483642578, "learning_rate": 6.0125871754969614e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022534, "epoch": 0.46410684474123537, "step": 139}, {"loss": 0.46307381987571716, "token_acc": 0.8198198198198198, "grad_norm": 1.5793983936309814, "learning_rate": 5.958553159618693e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022534, "epoch": 0.4674457429048414, "step": 140}, {"loss": 0.47891223430633545, "token_acc": 0.8146551724137931, "grad_norm": 1.842901587486267, "learning_rate": 5.904402671660551e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022534, "epoch": 0.4707846410684474, "step": 141}, {"loss": 0.46025025844573975, "token_acc": 0.8524590163934426, "grad_norm": 4.799768447875977, "learning_rate": 5.8501422913514665e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022535, "epoch": 0.4741235392320534, "step": 142}, {"loss": 0.4784495234489441, "token_acc": 0.8408163265306122, "grad_norm": 1.512885332107544, "learning_rate": 5.795778611773197e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022535, "epoch": 0.4774624373956594, "step": 143}, {"loss": 0.4797123968601227, "token_acc": 0.8258064516129032, "grad_norm": 1.458224892616272, "learning_rate": 5.74131823855921e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022535, "epoch": 0.48080133555926546, "step": 144}, {"loss": 0.5275173783302307, "token_acc": 0.7963340122199593, "grad_norm": 1.768636703491211, "learning_rate": 5.686767789092041e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022535, "epoch": 0.48414023372287146, "step": 145}, {"loss": 0.5040184855461121, "token_acc": 0.8303030303030303, "grad_norm": 1.6001110076904297, "learning_rate": 5.632133891699232e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022536, "epoch": 0.48747913188647746, "step": 146}, {"loss": 0.475736141204834, "token_acc": 0.8143459915611815, "grad_norm": 1.6885161399841309, "learning_rate": 5.577423184847932e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022536, "epoch": 0.49081803005008345, "step": 147}, {"loss": 0.4773564040660858, "token_acc": 0.7991543340380549, "grad_norm": 1.443699598312378, "learning_rate": 5.522642316338268e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022535, "epoch": 0.4941569282136895, "step": 148}, {"loss": 0.46925559639930725, "token_acc": 0.8518518518518519, "grad_norm": 1.3518881797790527, "learning_rate": 5.46779794249559e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022536, "epoch": 0.4974958263772955, "step": 149}, {"loss": 0.48882439732551575, "token_acc": 0.7983870967741935, "grad_norm": 1.6259311437606812, "learning_rate": 5.412896727361663e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022536, "epoch": 0.5008347245409015, "step": 150}, {"loss": 0.4769696593284607, "token_acc": 0.864516129032258, "grad_norm": 1.8650566339492798, "learning_rate": 5.357945341884936e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022536, "epoch": 0.5041736227045075, "step": 151}, {"loss": 0.4483904242515564, "token_acc": 0.8606194690265486, "grad_norm": 1.4681789875030518, "learning_rate": 5.30295046310997e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022537, "epoch": 0.5075125208681135, "step": 152}, {"loss": 0.4946763217449188, "token_acc": 0.8016032064128257, "grad_norm": 1.6584216356277466, "learning_rate": 5.247918773366112e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022537, "epoch": 0.5108514190317195, "step": 153}, {"loss": 0.49460482597351074, "token_acc": 0.840958605664488, "grad_norm": 1.6772711277008057, "learning_rate": 5.192856959455552e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022538, "epoch": 0.5141903171953256, "step": 154}, {"loss": 0.46604880690574646, "token_acc": 0.8246445497630331, "grad_norm": 1.5458327531814575, "learning_rate": 5.137771711840811e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022539, "epoch": 0.5175292153589316, "step": 155}, {"loss": 0.4828266203403473, "token_acc": 0.8507109004739336, "grad_norm": 1.4454625844955444, "learning_rate": 5.082669723831793e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022539, "epoch": 0.5208681135225376, "step": 156}, {"loss": 0.462648868560791, "token_acc": 0.8471177944862155, "grad_norm": 1.4309954643249512, "learning_rate": 5.027557690772503e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022539, "epoch": 0.5242070116861436, "step": 157}, {"loss": 0.44585633277893066, "token_acc": 0.8523316062176166, "grad_norm": 1.3694044351577759, "learning_rate": 4.972442309227498e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022539, "epoch": 0.5275459098497496, "step": 158}, {"loss": 0.4839262366294861, "token_acc": 0.8321428571428572, "grad_norm": 1.5814863443374634, "learning_rate": 4.917330276168208e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022539, "epoch": 0.5308848080133556, "step": 159}, {"loss": 0.46440237760543823, "token_acc": 0.8180039138943248, "grad_norm": 1.283691644668579, "learning_rate": 4.862228288159191e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.02254, "epoch": 0.5342237061769616, "step": 160}, {"loss": 0.48318207263946533, "token_acc": 0.8261964735516373, "grad_norm": 1.5025089979171753, "learning_rate": 4.807143040544448e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.02254, "epoch": 0.5375626043405676, "step": 161}, {"loss": 0.47183820605278015, "token_acc": 0.8196392785571143, "grad_norm": 1.476486086845398, "learning_rate": 4.752081226633888e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.02254, "epoch": 0.5409015025041736, "step": 162}, {"loss": 0.47231325507164, "token_acc": 0.8348837209302326, "grad_norm": 1.5481547117233276, "learning_rate": 4.697049536890033e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022541, "epoch": 0.5442404006677797, "step": 163}, {"loss": 0.4861365556716919, "token_acc": 0.8688212927756654, "grad_norm": 1.4142431020736694, "learning_rate": 4.6420546581150665e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022541, "epoch": 0.5475792988313857, "step": 164}, {"loss": 0.4693647027015686, "token_acc": 0.8574821852731591, "grad_norm": 1.5615150928497314, "learning_rate": 4.587103272638339e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022541, "epoch": 0.5509181969949917, "step": 165}, {"loss": 0.4443598687648773, "token_acc": 0.8210735586481114, "grad_norm": 1.326733112335205, "learning_rate": 4.532202057504412e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022542, "epoch": 0.5542570951585977, "step": 166}, {"loss": 0.49825534224510193, "token_acc": 0.8142857142857143, "grad_norm": 1.4769773483276367, "learning_rate": 4.477357683661734e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022542, "epoch": 0.5575959933222037, "step": 167}, {"loss": 0.4749634861946106, "token_acc": 0.8179824561403509, "grad_norm": 1.5101040601730347, "learning_rate": 4.42257681515207e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022542, "epoch": 0.5609348914858097, "step": 168}, {"loss": 0.4596233367919922, "token_acc": 0.8171557562076749, "grad_norm": 1.4368815422058105, "learning_rate": 4.367866108300769e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022543, "epoch": 0.5642737896494157, "step": 169}, {"loss": 0.4848426282405853, "token_acc": 0.8524590163934426, "grad_norm": 1.484212875366211, "learning_rate": 4.313232210907959e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022543, "epoch": 0.5676126878130217, "step": 170}, {"loss": 0.4377831220626831, "token_acc": 0.8623024830699775, "grad_norm": 1.40903639793396, "learning_rate": 4.25868176144079e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022543, "epoch": 0.5709515859766278, "step": 171}, {"loss": 0.48109135031700134, "token_acc": 0.8156182212581344, "grad_norm": 1.4827241897583008, "learning_rate": 4.204221388226803e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022544, "epoch": 0.5742904841402338, "step": 172}, {"loss": 0.4718547463417053, "token_acc": 0.8041666666666667, "grad_norm": 1.419386863708496, "learning_rate": 4.149857708648536e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022544, "epoch": 0.5776293823038398, "step": 173}, {"loss": 0.45935148000717163, "token_acc": 0.8709677419354839, "grad_norm": 1.3505548238754272, "learning_rate": 4.0955973283394525e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022544, "epoch": 0.5809682804674458, "step": 174}, {"loss": 0.47396600246429443, "token_acc": 0.8118609406952966, "grad_norm": 1.280426025390625, "learning_rate": 4.041446840381309e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022544, "epoch": 0.5843071786310517, "step": 175}, {"loss": 0.46438008546829224, "token_acc": 0.8677248677248677, "grad_norm": 1.4283137321472168, "learning_rate": 3.987412824503041e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022544, "epoch": 0.5876460767946577, "step": 176}, {"loss": 0.4283539056777954, "token_acc": 0.827433628318584, "grad_norm": 1.510118007659912, "learning_rate": 3.9335018462812664e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022544, "epoch": 0.5909849749582637, "step": 177}, {"loss": 0.48207801580429077, "token_acc": 0.8191056910569106, "grad_norm": 1.3284900188446045, "learning_rate": 3.8797204563425215e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022545, "epoch": 0.5943238731218697, "step": 178}, {"loss": 0.45589953660964966, "token_acc": 0.8440366972477065, "grad_norm": 1.6147260665893555, "learning_rate": 3.826075189567296e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022544, "epoch": 0.5976627712854758, "step": 179}, {"loss": 0.4427863359451294, "token_acc": 0.8418891170431212, "grad_norm": 1.3548924922943115, "learning_rate": 3.7725725642960047e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022545, "epoch": 0.6010016694490818, "step": 180}, {"loss": 0.4966490864753723, "token_acc": 0.7996146435452793, "grad_norm": 1.3353997468948364, "learning_rate": 3.719219081536942e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022546, "epoch": 0.6043405676126878, "step": 181}, {"loss": 0.4659664034843445, "token_acc": 0.8333333333333334, "grad_norm": 1.3226754665374756, "learning_rate": 3.6660212241763692e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022546, "epoch": 0.6076794657762938, "step": 182}, {"loss": 0.45649993419647217, "token_acc": 0.8101761252446184, "grad_norm": 1.3973361253738403, "learning_rate": 3.6129854561907786e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022547, "epoch": 0.6110183639398998, "step": 183}, {"loss": 0.47052809596061707, "token_acc": 0.8552338530066815, "grad_norm": 1.5028741359710693, "learning_rate": 3.5601182218614706e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022546, "epoch": 0.6143572621035058, "step": 184}, {"loss": 0.4717874526977539, "token_acc": 0.8333333333333334, "grad_norm": 1.3879624605178833, "learning_rate": 3.507425944991529e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022547, "epoch": 0.6176961602671118, "step": 185}, {"loss": 0.4723646640777588, "token_acc": 0.8253968253968254, "grad_norm": 1.3479892015457153, "learning_rate": 3.4549150281252635e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022547, "epoch": 0.6210350584307178, "step": 186}, {"loss": 0.4327544867992401, "token_acc": 0.8315565031982942, "grad_norm": 1.3569661378860474, "learning_rate": 3.40259185177026e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022547, "epoch": 0.6243739565943238, "step": 187}, {"loss": 0.4546797275543213, "token_acc": 0.8668171557562077, "grad_norm": 1.6863428354263306, "learning_rate": 3.3504627736220863e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022547, "epoch": 0.6277128547579299, "step": 188}, {"loss": 0.43758776783943176, "token_acc": 0.8571428571428571, "grad_norm": 1.6559137105941772, "learning_rate": 3.298534127791785e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022547, "epoch": 0.6310517529215359, "step": 189}, {"loss": 0.4551818370819092, "token_acc": 0.8254901960784313, "grad_norm": 1.515341877937317, "learning_rate": 3.2468122240362287e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022547, "epoch": 0.6343906510851419, "step": 190}, {"loss": 0.4346611797809601, "token_acc": 0.841648590021692, "grad_norm": 1.54152250289917, "learning_rate": 3.1953033469914273e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022547, "epoch": 0.6377295492487479, "step": 191}, {"loss": 0.4589894413948059, "token_acc": 0.824295010845987, "grad_norm": 1.398486852645874, "learning_rate": 3.1440137554088957e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022548, "epoch": 0.6410684474123539, "step": 192}, {"loss": 0.49219775199890137, "token_acc": 0.7967332123411979, "grad_norm": 1.5351628065109253, "learning_rate": 3.09294968139517e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022548, "epoch": 0.6444073455759599, "step": 193}, {"loss": 0.4740264117717743, "token_acc": 0.8372641509433962, "grad_norm": 1.464619517326355, "learning_rate": 3.042117329654544e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022548, "epoch": 0.6477462437395659, "step": 194}, {"loss": 0.45111584663391113, "token_acc": 0.8157894736842105, "grad_norm": 1.1489269733428955, "learning_rate": 2.991522876735154e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022548, "epoch": 0.6510851419031719, "step": 195}, {"loss": 0.4462583661079407, "token_acc": 0.8584905660377359, "grad_norm": 1.5023725032806396, "learning_rate": 2.9411724702784762e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022548, "epoch": 0.654424040066778, "step": 196}, {"loss": 0.4503529667854309, "token_acc": 0.8640776699029126, "grad_norm": 2.2611806392669678, "learning_rate": 2.8910722282723404e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022549, "epoch": 0.657762938230384, "step": 197}, {"loss": 0.4324040412902832, "token_acc": 0.843400447427293, "grad_norm": 1.0988259315490723, "learning_rate": 2.8412282383075362e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022549, "epoch": 0.66110183639399, "step": 198}, {"loss": 0.44623813033103943, "token_acc": 0.8375, "grad_norm": 1.5027960538864136, "learning_rate": 2.79164655683813e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022549, "epoch": 0.664440734557596, "step": 199}, {"loss": 0.4322953224182129, "token_acc": 0.8285077951002228, "grad_norm": 1.3570871353149414, "learning_rate": 2.7423332084455543e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022549, "epoch": 0.667779632721202, "step": 200}, {"loss": 0.4164753556251526, "token_acc": 0.8432203389830508, "grad_norm": 1.1705727577209473, "learning_rate": 2.693294185106562e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022549, "epoch": 0.671118530884808, "step": 201}, {"loss": 0.45166826248168945, "token_acc": 0.8728179551122195, "grad_norm": 1.402989387512207, "learning_rate": 2.644535445465164e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022549, "epoch": 0.674457429048414, "step": 202}, {"loss": 0.4542818069458008, "token_acc": 0.8364779874213837, "grad_norm": 1.3173385858535767, "learning_rate": 2.5960629141086014e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022549, "epoch": 0.67779632721202, "step": 203}, {"loss": 0.4369215965270996, "token_acc": 0.8590308370044053, "grad_norm": 1.2349262237548828, "learning_rate": 2.5478824808474613e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022549, "epoch": 0.6811352253756261, "step": 204}, {"loss": 0.46053364872932434, "token_acc": 0.8106060606060606, "grad_norm": 1.2539657354354858, "learning_rate": 2.5000000000000015e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022549, "epoch": 0.6844741235392321, "step": 205}, {"loss": 0.45273357629776, "token_acc": 0.8511904761904762, "grad_norm": 1.4919975996017456, "learning_rate": 2.4524212896808265e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022549, "epoch": 0.6878130217028381, "step": 206}, {"loss": 0.4372107684612274, "token_acc": 0.8549107142857143, "grad_norm": 1.4488096237182617, "learning_rate": 2.4051521310939258e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022549, "epoch": 0.6911519198664441, "step": 207}, {"loss": 0.5215368270874023, "token_acc": 0.8114942528735632, "grad_norm": 1.5474696159362793, "learning_rate": 2.358198267830206e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.02255, "epoch": 0.6944908180300501, "step": 208}, {"loss": 0.4530501365661621, "token_acc": 0.8329853862212944, "grad_norm": 1.350160837173462, "learning_rate": 2.3115654051696097e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.02255, "epoch": 0.6978297161936561, "step": 209}, {"loss": 0.4435313940048218, "token_acc": 0.8554778554778555, "grad_norm": 1.318483591079712, "learning_rate": 2.265259209387867e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.02255, "epoch": 0.7011686143572621, "step": 210}, {"loss": 0.45369380712509155, "token_acc": 0.8545081967213115, "grad_norm": 1.3988399505615234, "learning_rate": 2.219285307067997e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.02255, "epoch": 0.7045075125208681, "step": 211}, {"loss": 0.43843981623649597, "token_acc": 0.8577777777777778, "grad_norm": 1.507874608039856, "learning_rate": 2.1736492844166406e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.02255, "epoch": 0.7078464106844741, "step": 212}, {"loss": 0.46996355056762695, "token_acc": 0.8364389233954451, "grad_norm": 1.5052517652511597, "learning_rate": 2.1283566865852824e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022551, "epoch": 0.7111853088480802, "step": 213}, {"loss": 0.44714537262916565, "token_acc": 0.8691796008869179, "grad_norm": 1.306349515914917, "learning_rate": 2.0834130169964695e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022551, "epoch": 0.7145242070116862, "step": 214}, {"loss": 0.39020028710365295, "token_acc": 0.8737864077669902, "grad_norm": 1.1516386270523071, "learning_rate": 2.0388237366751005e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022552, "epoch": 0.7178631051752922, "step": 215}, {"loss": 0.46470558643341064, "token_acc": 0.8565121412803532, "grad_norm": 2.391141653060913, "learning_rate": 1.9945942635848745e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022552, "epoch": 0.7212020033388982, "step": 216}, {"loss": 0.44384288787841797, "token_acc": 0.8553459119496856, "grad_norm": 1.4084409475326538, "learning_rate": 1.950729971969955e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022552, "epoch": 0.7245409015025042, "step": 217}, {"loss": 0.4718438386917114, "token_acc": 0.8369098712446352, "grad_norm": 1.5181944370269775, "learning_rate": 1.9072361917019538e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022552, "epoch": 0.7278797996661102, "step": 218}, {"loss": 0.48235243558883667, "token_acc": 0.8247863247863247, "grad_norm": 1.5479434728622437, "learning_rate": 1.864118207632315e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022552, "epoch": 0.7312186978297162, "step": 219}, {"loss": 0.4760446548461914, "token_acc": 0.8492822966507177, "grad_norm": 1.4516206979751587, "learning_rate": 1.8213812589501611e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022552, "epoch": 0.7345575959933222, "step": 220}, {"loss": 0.47993457317352295, "token_acc": 0.8133874239350912, "grad_norm": 1.3178720474243164, "learning_rate": 1.7790305385456797e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022552, "epoch": 0.7378964941569283, "step": 221}, {"loss": 0.4030049443244934, "token_acc": 0.8717339667458432, "grad_norm": 1.222419261932373, "learning_rate": 1.7370711923791567e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022552, "epoch": 0.7412353923205343, "step": 222}, {"loss": 0.4297447204589844, "token_acc": 0.8795698924731182, "grad_norm": 1.3133026361465454, "learning_rate": 1.6955083188556947e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022553, "epoch": 0.7445742904841403, "step": 223}, {"loss": 0.474511057138443, "token_acc": 0.851931330472103, "grad_norm": 1.335294246673584, "learning_rate": 1.6543469682057105e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022553, "epoch": 0.7479131886477463, "step": 224}, {"loss": 0.5107768774032593, "token_acc": 0.8113207547169812, "grad_norm": 1.3769328594207764, "learning_rate": 1.6135921418712959e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022553, "epoch": 0.7512520868113522, "step": 225}, {"loss": 0.47560542821884155, "token_acc": 0.8392484342379958, "grad_norm": 1.619074821472168, "learning_rate": 1.5732487918985017e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022553, "epoch": 0.7545909849749582, "step": 226}, {"loss": 0.4732801020145416, "token_acc": 0.8425925925925926, "grad_norm": 1.6178122758865356, "learning_rate": 1.5333218203356243e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022553, "epoch": 0.7579298831385642, "step": 227}, {"loss": 0.45452016592025757, "token_acc": 0.8361344537815126, "grad_norm": 2.1704792976379395, "learning_rate": 1.4938160786375571e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022554, "epoch": 0.7612687813021702, "step": 228}, {"loss": 0.44267600774765015, "token_acc": 0.8015717092337917, "grad_norm": 1.2775903940200806, "learning_rate": 1.4547363670763138e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022554, "epoch": 0.7646076794657763, "step": 229}, {"loss": 0.4315861463546753, "token_acc": 0.8428571428571429, "grad_norm": 1.464336633682251, "learning_rate": 1.4160874341577447e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022554, "epoch": 0.7679465776293823, "step": 230}, {"loss": 0.47306644916534424, "token_acc": 0.8133874239350912, "grad_norm": 1.4634785652160645, "learning_rate": 1.3778739760445552e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022555, "epoch": 0.7712854757929883, "step": 231}, {"loss": 0.4366966485977173, "token_acc": 0.8421052631578947, "grad_norm": 1.255581259727478, "learning_rate": 1.3401006359856916e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022555, "epoch": 0.7746243739565943, "step": 232}, {"loss": 0.4415322542190552, "token_acc": 0.8132530120481928, "grad_norm": 1.2110413312911987, "learning_rate": 1.3027720037521397e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022555, "epoch": 0.7779632721202003, "step": 233}, {"loss": 0.4845650792121887, "token_acc": 0.8655256723716381, "grad_norm": 1.6303342580795288, "learning_rate": 1.2658926150792321e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022555, "epoch": 0.7813021702838063, "step": 234}, {"loss": 0.42258989810943604, "token_acc": 0.8504273504273504, "grad_norm": 1.0769805908203125, "learning_rate": 1.2294669511155193e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022556, "epoch": 0.7846410684474123, "step": 235}, {"loss": 0.42656758427619934, "token_acc": 0.8646788990825688, "grad_norm": 1.2036610841751099, "learning_rate": 1.193499437878277e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022556, "epoch": 0.7879799666110183, "step": 236}, {"loss": 0.4425206780433655, "token_acc": 0.8277404921700223, "grad_norm": 1.4769701957702637, "learning_rate": 1.157994445715706e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022556, "epoch": 0.7913188647746243, "step": 237}, {"loss": 0.4289965033531189, "token_acc": 0.8428571428571429, "grad_norm": 1.3726916313171387, "learning_rate": 1.1229562887758927e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022556, "epoch": 0.7946577629382304, "step": 238}, {"loss": 0.4395342767238617, "token_acc": 0.8432203389830508, "grad_norm": 1.6401498317718506, "learning_rate": 1.0883892244826173e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022556, "epoch": 0.7979966611018364, "step": 239}, {"loss": 0.43059253692626953, "token_acc": 0.8584905660377359, "grad_norm": 1.5409525632858276, "learning_rate": 1.0542974530180327e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022556, "epoch": 0.8013355592654424, "step": 240}, {"loss": 0.43221184611320496, "token_acc": 0.8477272727272728, "grad_norm": 1.2273211479187012, "learning_rate": 1.0206851168123078e-06, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022557, "epoch": 0.8046744574290484, "step": 241}, {"loss": 0.4292955994606018, "token_acc": 0.8466666666666667, "grad_norm": 1.3737517595291138, "learning_rate": 9.87556300040295e-07, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022557, "epoch": 0.8080133555926544, "step": 242}, {"loss": 0.4410218596458435, "token_acc": 0.8765432098765432, "grad_norm": 1.200201153755188, "learning_rate": 9.549150281252633e-07, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022557, "epoch": 0.8113522537562604, "step": 243}, {"loss": 0.4921877682209015, "token_acc": 0.8228699551569507, "grad_norm": 1.3825260400772095, "learning_rate": 9.227652672497761e-07, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022557, "epoch": 0.8146911519198664, "step": 244}, {"loss": 0.4802369773387909, "token_acc": 0.8234165067178503, "grad_norm": 1.2900909185409546, "learning_rate": 8.911109238737748e-07, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022557, "epoch": 0.8180300500834724, "step": 245}, {"loss": 0.49238353967666626, "token_acc": 0.8173913043478261, "grad_norm": 1.3303743600845337, "learning_rate": 8.599558442598998e-07, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022558, "epoch": 0.8213689482470785, "step": 246}, {"loss": 0.4150467813014984, "token_acc": 0.8910675381263616, "grad_norm": 1.2674096822738647, "learning_rate": 8.293038140061516e-07, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022558, "epoch": 0.8247078464106845, "step": 247}, {"loss": 0.43151772022247314, "token_acc": 0.8174273858921162, "grad_norm": 1.0273762941360474, "learning_rate": 7.991585575858962e-07, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022559, "epoch": 0.8280467445742905, "step": 248}, {"loss": 0.4785349667072296, "token_acc": 0.8653421633554084, "grad_norm": 1.3430734872817993, "learning_rate": 7.695237378953224e-07, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022559, "epoch": 0.8313856427378965, "step": 249}, {"loss": 0.4533695876598358, "token_acc": 0.8584905660377359, "grad_norm": 1.3149622678756714, "learning_rate": 7.404029558083653e-07, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022559, "epoch": 0.8347245409015025, "step": 250}, {"loss": 0.47765129804611206, "token_acc": 0.8285123966942148, "grad_norm": 1.4238431453704834, "learning_rate": 7.117997497391648e-07, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022559, "epoch": 0.8380634390651085, "step": 251}, {"loss": 0.43598660826683044, "token_acc": 0.8364389233954451, "grad_norm": 1.241796612739563, "learning_rate": 6.837175952121305e-07, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022559, "epoch": 0.8414023372287145, "step": 252}, {"loss": 0.4596635699272156, "token_acc": 0.8389121338912134, "grad_norm": 2.3072550296783447, "learning_rate": 6.561599044396288e-07, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022559, "epoch": 0.8447412353923205, "step": 253}, {"loss": 0.48384106159210205, "token_acc": 0.8095238095238095, "grad_norm": 1.3200608491897583, "learning_rate": 6.291300259073724e-07, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022559, "epoch": 0.8480801335559266, "step": 254}, {"loss": 0.4403742551803589, "token_acc": 0.8231578947368421, "grad_norm": 1.2153494358062744, "learning_rate": 6.026312439675553e-07, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022559, "epoch": 0.8514190317195326, "step": 255}, {"loss": 0.45179083943367004, "token_acc": 0.8692307692307693, "grad_norm": 1.3607202768325806, "learning_rate": 5.766667784397706e-07, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022559, "epoch": 0.8547579298831386, "step": 256}, {"loss": 0.46604207158088684, "token_acc": 0.8021505376344086, "grad_norm": 1.2812411785125732, "learning_rate": 5.512397842197847e-07, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.02256, "epoch": 0.8580968280467446, "step": 257}, {"loss": 0.4311091899871826, "token_acc": 0.8838268792710706, "grad_norm": 1.1934666633605957, "learning_rate": 5.263533508961827e-07, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.02256, "epoch": 0.8614357262103506, "step": 258}, {"loss": 0.4450308084487915, "token_acc": 0.8175965665236051, "grad_norm": 1.2537682056427002, "learning_rate": 5.020105023749644e-07, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.02256, "epoch": 0.8647746243739566, "step": 259}, {"loss": 0.4367525577545166, "token_acc": 0.8481012658227848, "grad_norm": 1.224177598953247, "learning_rate": 4.782141965121129e-07, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.02256, "epoch": 0.8681135225375626, "step": 260}, {"loss": 0.43473321199417114, "token_acc": 0.8629213483146068, "grad_norm": 1.346314549446106, "learning_rate": 4.549673247541875e-07, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.02256, "epoch": 0.8714524207011686, "step": 261}, {"loss": 0.4177815914154053, "token_acc": 0.8456521739130435, "grad_norm": 1.0549142360687256, "learning_rate": 4.322727117869951e-07, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.02256, "epoch": 0.8747913188647746, "step": 262}, {"loss": 0.4309719204902649, "token_acc": 0.8195020746887967, "grad_norm": 1.6661450862884521, "learning_rate": 4.101331151923649e-07, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.02256, "epoch": 0.8781302170283807, "step": 263}, {"loss": 0.46152347326278687, "token_acc": 0.83, "grad_norm": 1.1802066564559937, "learning_rate": 3.885512251130763e-07, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.02256, "epoch": 0.8814691151919867, "step": 264}, {"loss": 0.4694717824459076, "token_acc": 0.8043052837573386, "grad_norm": 1.408535122871399, "learning_rate": 3.675296639259912e-07, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.02256, "epoch": 0.8848080133555927, "step": 265}, {"loss": 0.44816315174102783, "token_acc": 0.838495575221239, "grad_norm": 1.5450698137283325, "learning_rate": 3.470709859234084e-07, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.02256, "epoch": 0.8881469115191987, "step": 266}, {"loss": 0.4351397752761841, "token_acc": 0.8278008298755186, "grad_norm": 1.3227461576461792, "learning_rate": 3.271776770026963e-07, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.02256, "epoch": 0.8914858096828047, "step": 267}, {"loss": 0.4684563875198364, "token_acc": 0.7991803278688525, "grad_norm": 1.3207528591156006, "learning_rate": 3.0785215436423986e-07, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.02256, "epoch": 0.8948247078464107, "step": 268}, {"loss": 0.4548783600330353, "token_acc": 0.8218029350104822, "grad_norm": 1.4449416399002075, "learning_rate": 2.8909676621772853e-07, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.02256, "epoch": 0.8981636060100167, "step": 269}, {"loss": 0.44590187072753906, "token_acc": 0.8536585365853658, "grad_norm": 1.4972387552261353, "learning_rate": 2.7091379149682683e-07, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022561, "epoch": 0.9015025041736227, "step": 270}, {"loss": 0.42203187942504883, "token_acc": 0.8783382789317508, "grad_norm": 1.3227790594100952, "learning_rate": 2.5330543958227036e-07, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.02256, "epoch": 0.9048414023372288, "step": 271}, {"loss": 0.4791337847709656, "token_acc": 0.836864406779661, "grad_norm": 1.352831482887268, "learning_rate": 2.3627385003340552e-07, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022561, "epoch": 0.9081803005008348, "step": 272}, {"loss": 0.44908708333969116, "token_acc": 0.830316742081448, "grad_norm": 1.2621281147003174, "learning_rate": 2.198210923282118e-07, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022561, "epoch": 0.9115191986644408, "step": 273}, {"loss": 0.42876899242401123, "token_acc": 0.8414634146341463, "grad_norm": 1.5048109292984009, "learning_rate": 2.0394916561185085e-07, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022561, "epoch": 0.9148580968280468, "step": 274}, {"loss": 0.40696781873703003, "token_acc": 0.8386363636363636, "grad_norm": 1.3163565397262573, "learning_rate": 1.8865999845374794e-07, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022561, "epoch": 0.9181969949916527, "step": 275}, {"loss": 0.44886481761932373, "token_acc": 0.8023483365949119, "grad_norm": 1.3063563108444214, "learning_rate": 1.7395544861325718e-07, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022561, "epoch": 0.9215358931552587, "step": 276}, {"loss": 0.443225622177124, "token_acc": 0.8126272912423625, "grad_norm": 1.144242286682129, "learning_rate": 1.5983730281392663e-07, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022561, "epoch": 0.9248747913188647, "step": 277}, {"loss": 0.4384397268295288, "token_acc": 0.8382687927107062, "grad_norm": 1.2747758626937866, "learning_rate": 1.463072765264001e-07, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022561, "epoch": 0.9282136894824707, "step": 278}, {"loss": 0.4435611367225647, "token_acc": 0.8378995433789954, "grad_norm": 1.1867971420288086, "learning_rate": 1.333670137599713e-07, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022561, "epoch": 0.9315525876460768, "step": 279}, {"loss": 0.4286072850227356, "token_acc": 0.8375870069605569, "grad_norm": 1.3543109893798828, "learning_rate": 1.210180868628219e-07, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022562, "epoch": 0.9348914858096828, "step": 280}, {"loss": 0.47168612480163574, "token_acc": 0.8348017621145375, "grad_norm": 1.3539929389953613, "learning_rate": 1.0926199633097156e-07, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022562, "epoch": 0.9382303839732888, "step": 281}, {"loss": 0.41934141516685486, "token_acc": 0.8398268398268398, "grad_norm": 1.4321922063827515, "learning_rate": 9.810017062595322e-08, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022562, "epoch": 0.9415692821368948, "step": 282}, {"loss": 0.4519352316856384, "token_acc": 0.8612975391498882, "grad_norm": 1.2734010219573975, "learning_rate": 8.753396600124254e-08, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022562, "epoch": 0.9449081803005008, "step": 283}, {"loss": 0.4510628283023834, "token_acc": 0.831013916500994, "grad_norm": 1.2448621988296509, "learning_rate": 7.756466633746407e-08, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022562, "epoch": 0.9482470784641068, "step": 284}, {"loss": 0.42387938499450684, "token_acc": 0.8738532110091743, "grad_norm": 1.34401535987854, "learning_rate": 6.819348298638839e-08, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022562, "epoch": 0.9515859766277128, "step": 285}, {"loss": 0.45687979459762573, "token_acc": 0.8536585365853658, "grad_norm": 1.4747980833053589, "learning_rate": 5.9421554623742e-08, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022562, "epoch": 0.9549248747913188, "step": 286}, {"loss": 0.42069634795188904, "token_acc": 0.8855140186915887, "grad_norm": 1.2087570428848267, "learning_rate": 5.124994711084963e-08, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022562, "epoch": 0.9582637729549248, "step": 287}, {"loss": 0.42080676555633545, "token_acc": 0.8483516483516483, "grad_norm": 1.2331570386886597, "learning_rate": 4.367965336512403e-08, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022562, "epoch": 0.9616026711185309, "step": 288}, {"loss": 0.4559522271156311, "token_acc": 0.8235294117647058, "grad_norm": 1.4377894401550293, "learning_rate": 3.6711593239417976e-08, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022562, "epoch": 0.9649415692821369, "step": 289}, {"loss": 0.4671681523323059, "token_acc": 0.8357588357588358, "grad_norm": 1.2774322032928467, "learning_rate": 3.034661341025258e-08, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022563, "epoch": 0.9682804674457429, "step": 290}, {"loss": 0.4617399573326111, "token_acc": 0.847870182555781, "grad_norm": 1.5793838500976562, "learning_rate": 2.4585487274942922e-08, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022563, "epoch": 0.9716193656093489, "step": 291}, {"loss": 0.42452698945999146, "token_acc": 0.8661202185792349, "grad_norm": 1.182116150856018, "learning_rate": 1.942891485762044e-08, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022563, "epoch": 0.9749582637729549, "step": 292}, {"loss": 0.45058518648147583, "token_acc": 0.8767441860465116, "grad_norm": 1.1503312587738037, "learning_rate": 1.4877522724175974e-08, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022563, "epoch": 0.9782971619365609, "step": 293}, {"loss": 0.46275457739830017, "token_acc": 0.8071833648393195, "grad_norm": 1.1832256317138672, "learning_rate": 1.0931863906127327e-08, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022563, "epoch": 0.9816360601001669, "step": 294}, {"loss": 0.4757014811038971, "token_acc": 0.8529411764705882, "grad_norm": 1.3914555311203003, "learning_rate": 7.59241783341913e-09, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022564, "epoch": 0.9849749582637729, "step": 295}, {"loss": 0.4555512070655823, "token_acc": 0.8456521739130435, "grad_norm": 1.194530963897705, "learning_rate": 4.859590276170556e-09, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022564, "epoch": 0.988313856427379, "step": 296}, {"loss": 0.4439828395843506, "token_acc": 0.8152985074626866, "grad_norm": 1.2340372800827026, "learning_rate": 2.7337132953697555e-09, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022564, "epoch": 0.991652754590985, "step": 297}, {"loss": 0.44085267186164856, "token_acc": 0.8378378378378378, "grad_norm": 1.4835163354873657, "learning_rate": 1.215045202527243e-09, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022564, "epoch": 0.994991652754591, "step": 298}, {"loss": 0.4580608010292053, "token_acc": 0.8266666666666667, "grad_norm": 1.3696379661560059, "learning_rate": 3.0377052828489684e-10, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022565, "epoch": 0.998330550918197, "step": 299}, {"loss": 0.45639267563819885, "token_acc": 0.838150289017341, "grad_norm": 2.3888044357299805, "learning_rate": 0.0, "memory(GiB)": 74.0, "train_speed(iter/s)": 0.022614, "epoch": 1.0, "step": 300}, {"eval_loss": 0.44656631350517273, "eval_token_acc": 0.8386963696369637, "eval_runtime": 113.8868, "eval_samples_per_second": 3.398, "eval_steps_per_second": 0.114, "epoch": 1.0, "step": 300}, {"train_runtime": 13397.8097, "train_samples_per_second": 2.86, "train_steps_per_second": 0.022, "total_flos": 7.758363331827597e+18, "train_loss": 0.5122576037049293, "epoch": 1.0, "step": 300}], "memory": 73.99609375}