{"loss": 5.59512854, "token_acc": 0.35786802, "grad_norm": 11.30196762, "learning_rate": 1e-08, "memory(GiB)": 16.79, "train_speed(iter/s)": 0.188375, "epoch": 4.65e-05, "global_step/max_steps": "1/21503", "percentage": "0.00%", "elapsed_time": "5s", "remaining_time": "1d 6h 25m 3s"}
{"loss": 5.12816429, "token_acc": 0.43048128, "grad_norm": 14.64214134, "learning_rate": 5e-08, "memory(GiB)": 16.8, "train_speed(iter/s)": 0.225625, "epoch": 0.00023252, "global_step/max_steps": "5/21503", "percentage": "0.02%", "elapsed_time": "21s", "remaining_time": "1d 2h 12m 31s"}
{"loss": 4.30041199, "token_acc": 0.46817371, "grad_norm": 7.31607485, "learning_rate": 9e-08, "memory(GiB)": 17.84, "train_speed(iter/s)": 0.227239, "epoch": 0.00046504, "global_step/max_steps": "10/21503", "percentage": "0.05%", "elapsed_time": "43s", "remaining_time": "1d 2h 8m 38s"}
{"loss": 4.63945732, "token_acc": 0.43668771, "grad_norm": 11.10088444, "learning_rate": 1.4e-07, "memory(GiB)": 19.04, "train_speed(iter/s)": 0.225956, "epoch": 0.00069755, "global_step/max_steps": "15/21503", "percentage": "0.07%", "elapsed_time": "1m 6s", "remaining_time": "1d 2h 19m 47s"}
{"loss": 5.25707245, "token_acc": 0.41420856, "grad_norm": 6.97144556, "learning_rate": 1.9e-07, "memory(GiB)": 19.04, "train_speed(iter/s)": 0.22684, "epoch": 0.00093007, "global_step/max_steps": "20/21503", "percentage": "0.09%", "elapsed_time": "1m 27s", "remaining_time": "1d 2h 14m 33s"}
{"loss": 4.15851707, "token_acc": 0.44335415, "grad_norm": 7.33334351, "learning_rate": 2.3e-07, "memory(GiB)": 19.04, "train_speed(iter/s)": 0.225579, "epoch": 0.00116259, "global_step/max_steps": "25/21503", "percentage": "0.12%", "elapsed_time": "1m 50s", "remaining_time": "1d 2h 23m 46s"}
{"loss": 3.94680977, "token_acc": 0.46278418, "grad_norm": 7.32778978, "learning_rate": 2.8e-07, "memory(GiB)": 20.29, "train_speed(iter/s)": 0.225065, "epoch": 0.00139511, "global_step/max_steps": "30/21503", "percentage": "0.14%", "elapsed_time": "2m 13s", "remaining_time": "1d 2h 27m 32s"}
{"loss": 4.11032028, "token_acc": 0.45644891, "grad_norm": 9.05079174, "learning_rate": 3.3e-07, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.224565, "epoch": 0.00162763, "global_step/max_steps": "35/21503", "percentage": "0.16%", "elapsed_time": "2m 35s", "remaining_time": "1d 2h 31m 5s"}
{"loss": 4.70754929, "token_acc": 0.41740675, "grad_norm": 10.02645588, "learning_rate": 3.7e-07, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.223883, "epoch": 0.00186015, "global_step/max_steps": "40/21503", "percentage": "0.19%", "elapsed_time": "2m 58s", "remaining_time": "1d 2h 35m 50s"}
{"loss": 4.50052109, "token_acc": 0.41803543, "grad_norm": 7.74694729, "learning_rate": 4.2e-07, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.224943, "epoch": 0.00209266, "global_step/max_steps": "45/21503", "percentage": "0.21%", "elapsed_time": "3m 19s", "remaining_time": "1d 2h 28m 9s"}
{"loss": 5.46420021, "token_acc": 0.37989081, "grad_norm": 11.60524082, "learning_rate": 4.6e-07, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.225909, "epoch": 0.00232518, "global_step/max_steps": "50/21503", "percentage": "0.23%", "elapsed_time": "3m 41s", "remaining_time": "1d 2h 21m 10s"}
{"eval_loss": 6.23884773, "eval_runtime": 281.3498, "eval_samples_per_second": 12.351, "eval_steps_per_second": 12.351, "epoch": 0.00232518, "global_step/max_steps": "50/21503", "percentage": "0.23%", "elapsed_time": "8m 22s", "remaining_time": "2d 11h 53m 10s"}
{"loss": 4.35524101, "token_acc": 0.43034782, "grad_norm": 10.1269207, "learning_rate": 5.1e-07, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.104714, "epoch": 0.0025577, "global_step/max_steps": "55/21503", "percentage": "0.26%", "elapsed_time": "8m 45s", "remaining_time": "2d 8h 52m 19s"}
{"loss": 4.34870949, "token_acc": 0.44151949, "grad_norm": 10.69859982, "learning_rate": 5.6e-07, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.109518, "epoch": 0.00279022, "global_step/max_steps": "60/21503", "percentage": "0.28%", "elapsed_time": "9m 7s", "remaining_time": "2d 6h 21m 56s"}
{"loss": 4.43413124, "token_acc": 0.43082733, "grad_norm": 10.69835281, "learning_rate": 6e-07, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.113995, "epoch": 0.00302274, "global_step/max_steps": "65/21503", "percentage": "0.30%", "elapsed_time": "9m 29s", "remaining_time": "2d 4h 13m 9s"}
{"loss": 4.88080597, "token_acc": 0.42017474, "grad_norm": 11.7806778, "learning_rate": 6.5e-07, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.118209, "epoch": 0.00325526, "global_step/max_steps": "70/21503", "percentage": "0.33%", "elapsed_time": "9m 51s", "remaining_time": "2d 2h 20m 48s"}
{"loss": 4.45181084, "token_acc": 0.42662849, "grad_norm": 10.34036541, "learning_rate": 7e-07, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.122123, "epoch": 0.00348777, "global_step/max_steps": "75/21503", "percentage": "0.35%", "elapsed_time": "10m 13s", "remaining_time": "2d 0h 43m 20s"}
{"loss": 4.33736115, "token_acc": 0.44075672, "grad_norm": 8.91756725, "learning_rate": 7.4e-07, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.125836, "epoch": 0.00372029, "global_step/max_steps": "80/21503", "percentage": "0.37%", "elapsed_time": "10m 35s", "remaining_time": "1d 23h 16m 27s"}
{"loss": 4.30178032, "token_acc": 0.43113176, "grad_norm": 7.56422567, "learning_rate": 7.9e-07, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.129205, "epoch": 0.00395281, "global_step/max_steps": "85/21503", "percentage": "0.40%", "elapsed_time": "10m 57s", "remaining_time": "1d 22h 1m 52s"}
{"loss": 4.20133247, "token_acc": 0.4398263, "grad_norm": 9.5113039, "learning_rate": 8.4e-07, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.132373, "epoch": 0.00418533, "global_step/max_steps": "90/21503", "percentage": "0.42%", "elapsed_time": "11m 19s", "remaining_time": "1d 20h 55m 11s"}
{"loss": 4.03769875, "token_acc": 0.45822102, "grad_norm": 11.19315243, "learning_rate": 8.8e-07, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.135275, "epoch": 0.00441785, "global_step/max_steps": "95/21503", "percentage": "0.44%", "elapsed_time": "11m 42s", "remaining_time": "1d 19h 56m 46s"}
{"loss": 4.32855721, "token_acc": 0.4460682, "grad_norm": 10.00979328, "learning_rate": 9.3e-07, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.138184, "epoch": 0.00465037, "global_step/max_steps": "100/21503", "percentage": "0.47%", "elapsed_time": "12m 3s", "remaining_time": "1d 19h 0m 41s"}
{"eval_loss": 6.00515079, "eval_runtime": 284.1356, "eval_samples_per_second": 12.23, "eval_steps_per_second": 12.23, "epoch": 0.00465037, "global_step/max_steps": "100/21503", "percentage": "0.47%", "elapsed_time": "16m 47s", "remaining_time": "2d 11h 54m 16s"}
{"loss": 4.57846451, "token_acc": 0.43150218, "grad_norm": 10.53895283, "learning_rate": 9.8e-07, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.101866, "epoch": 0.00488288, "global_step/max_steps": "105/21503", "percentage": "0.49%", "elapsed_time": "17m 10s", "remaining_time": "2d 10h 20m 16s"}
{"loss": 3.99252319, "token_acc": 0.45879121, "grad_norm": 8.35978794, "learning_rate": 1.02e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.104519, "epoch": 0.0051154, "global_step/max_steps": "110/21503", "percentage": "0.51%", "elapsed_time": "17m 32s", "remaining_time": "2d 8h 50m 37s"}
{"loss": 4.67874184, "token_acc": 0.41707968, "grad_norm": 9.40301323, "learning_rate": 1.07e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.107034, "epoch": 0.00534792, "global_step/max_steps": "115/21503", "percentage": "0.53%", "elapsed_time": "17m 54s", "remaining_time": "2d 7h 29m 43s"}
{"loss": 4.81041336, "token_acc": 0.42337877, "grad_norm": 12.41840267, "learning_rate": 1.12e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.109445, "epoch": 0.00558044, "global_step/max_steps": "120/21503", "percentage": "0.56%", "elapsed_time": "18m 16s", "remaining_time": "2d 6h 15m 38s"}
{"loss": 4.33881264, "token_acc": 0.4442433, "grad_norm": 10.6684103, "learning_rate": 1.16e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.111781, "epoch": 0.00581296, "global_step/max_steps": "125/21503", "percentage": "0.58%", "elapsed_time": "18m 38s", "remaining_time": "2d 5h 6m 52s"}
{"loss": 4.58795052, "token_acc": 0.42386831, "grad_norm": 9.33531952, "learning_rate": 1.21e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.114008, "epoch": 0.00604547, "global_step/max_steps": "130/21503", "percentage": "0.60%", "elapsed_time": "19m 0s", "remaining_time": "2d 4h 3m 53s"}
{"loss": 4.13047218, "token_acc": 0.43624868, "grad_norm": 7.61588812, "learning_rate": 1.25e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.116144, "epoch": 0.00627799, "global_step/max_steps": "135/21503", "percentage": "0.63%", "elapsed_time": "19m 22s", "remaining_time": "2d 3h 5m 44s"}
{"loss": 4.28681679, "token_acc": 0.42203258, "grad_norm": 9.20643711, "learning_rate": 1.3e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.118165, "epoch": 0.00651051, "global_step/max_steps": "140/21503", "percentage": "0.65%", "elapsed_time": "19m 44s", "remaining_time": "2d 2h 12m 35s"}
{"loss": 3.69882317, "token_acc": 0.47927871, "grad_norm": 8.03381538, "learning_rate": 1.35e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.1202, "epoch": 0.00674303, "global_step/max_steps": "145/21503", "percentage": "0.67%", "elapsed_time": "20m 6s", "remaining_time": "2d 1h 20m 56s"}
{"loss": 3.79413643, "token_acc": 0.44491664, "grad_norm": 9.18094158, "learning_rate": 1.39e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.122143, "epoch": 0.00697555, "global_step/max_steps": "150/21503", "percentage": "0.70%", "elapsed_time": "20m 27s", "remaining_time": "2d 0h 33m 8s"}
{"eval_loss": 4.91142321, "eval_runtime": 284.4707, "eval_samples_per_second": 12.216, "eval_steps_per_second": 12.216, "epoch": 0.00697555, "global_step/max_steps": "150/21503", "percentage": "0.70%", "elapsed_time": "25m 12s", "remaining_time": "2d 11h 48m 4s"}
{"loss": 3.26200676, "token_acc": 0.45824088, "grad_norm": 8.5366621, "learning_rate": 1.44e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.100877, "epoch": 0.00720807, "global_step/max_steps": "155/21503", "percentage": "0.72%", "elapsed_time": "25m 36s", "remaining_time": "2d 10h 46m 34s"}
{"loss": 3.9180809, "token_acc": 0.44494845, "grad_norm": 12.19675541, "learning_rate": 1.49e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.102684, "epoch": 0.00744058, "global_step/max_steps": "160/21503", "percentage": "0.74%", "elapsed_time": "25m 57s", "remaining_time": "2d 9h 43m 42s"}
{"loss": 3.59145737, "token_acc": 0.48446328, "grad_norm": 4.95008898, "learning_rate": 1.53e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.104405, "epoch": 0.0076731, "global_step/max_steps": "165/21503", "percentage": "0.77%", "elapsed_time": "26m 20s", "remaining_time": "2d 8h 45m 50s"}
{"loss": 3.52149353, "token_acc": 0.49245648, "grad_norm": 6.3522172, "learning_rate": 1.58e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.106023, "epoch": 0.00790562, "global_step/max_steps": "170/21503", "percentage": "0.79%", "elapsed_time": "26m 43s", "remaining_time": "2d 7h 53m 4s"}
{"loss": 3.1747097, "token_acc": 0.514772, "grad_norm": 7.19772625, "learning_rate": 1.63e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.10766, "epoch": 0.00813814, "global_step/max_steps": "175/21503", "percentage": "0.81%", "elapsed_time": "27m 5s", "remaining_time": "2d 7h 1m 17s"}
{"loss": 3.44791641, "token_acc": 0.47926448, "grad_norm": 6.74687958, "learning_rate": 1.67e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.109193, "epoch": 0.00837066, "global_step/max_steps": "180/21503", "percentage": "0.84%", "elapsed_time": "27m 28s", "remaining_time": "2d 6h 14m 12s"}
{"loss": 3.38214874, "token_acc": 0.48977853, "grad_norm": 5.17839813, "learning_rate": 1.72e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.110726, "epoch": 0.00860318, "global_step/max_steps": "185/21503", "percentage": "0.86%", "elapsed_time": "27m 50s", "remaining_time": "2d 5h 28m 24s"}
{"loss": 2.72977467, "token_acc": 0.52162014, "grad_norm": 4.96855402, "learning_rate": 1.77e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.112146, "epoch": 0.00883569, "global_step/max_steps": "190/21503", "percentage": "0.88%", "elapsed_time": "28m 14s", "remaining_time": "2d 4h 47m 3s"}
{"loss": 2.96293678, "token_acc": 0.52228458, "grad_norm": 3.69908428, "learning_rate": 1.81e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.113577, "epoch": 0.00906821, "global_step/max_steps": "195/21503", "percentage": "0.91%", "elapsed_time": "28m 36s", "remaining_time": "2d 4h 6m 24s"}
{"loss": 2.64735546, "token_acc": 0.54383117, "grad_norm": 4.62318563, "learning_rate": 1.86e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.115067, "epoch": 0.00930073, "global_step/max_steps": "200/21503", "percentage": "0.93%", "elapsed_time": "28m 57s", "remaining_time": "2d 3h 25m 12s"}
{"eval_loss": 3.56551552, "eval_runtime": 285.792, "eval_samples_per_second": 12.159, "eval_steps_per_second": 12.159, "epoch": 0.00930073, "global_step/max_steps": "200/21503", "percentage": "0.93%", "elapsed_time": "33m 43s", "remaining_time": "2d 11h 52m 34s"}
{"loss": 2.71896477, "token_acc": 0.54080205, "grad_norm": 6.06993151, "learning_rate": 1.91e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.100158, "epoch": 0.00953325, "global_step/max_steps": "205/21503", "percentage": "0.95%", "elapsed_time": "34m 6s", "remaining_time": "2d 11h 3m 41s"}
{"loss": 2.58376007, "token_acc": 0.55045872, "grad_norm": 18.15644646, "learning_rate": 1.95e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.10147, "epoch": 0.00976577, "global_step/max_steps": "210/21503", "percentage": "0.98%", "elapsed_time": "34m 29s", "remaining_time": "2d 10h 17m 2s"}
{"loss": 2.52438183, "token_acc": 0.54955321, "grad_norm": 6.0191493, "learning_rate": 2e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.102798, "epoch": 0.00999829, "global_step/max_steps": "215/21503", "percentage": "1.00%", "elapsed_time": "34m 51s", "remaining_time": "2d 9h 31m 4s"}
{"loss": 2.48198853, "token_acc": 0.55095683, "grad_norm": 8.37928581, "learning_rate": 2.04e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.104064, "epoch": 0.0102308, "global_step/max_steps": "220/21503", "percentage": "1.02%", "elapsed_time": "35m 13s", "remaining_time": "2d 8h 48m 18s"}
{"loss": 2.3563427, "token_acc": 0.53855519, "grad_norm": 12.24028206, "learning_rate": 2.09e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.105324, "epoch": 0.01046332, "global_step/max_steps": "225/21503", "percentage": "1.05%", "elapsed_time": "35m 36s", "remaining_time": "2d 8h 6m 44s"}
{"loss": 2.26505165, "token_acc": 0.53866432, "grad_norm": 6.65874529, "learning_rate": 2.14e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.106546, "epoch": 0.01069584, "global_step/max_steps": "230/21503", "percentage": "1.07%", "elapsed_time": "35m 58s", "remaining_time": "2d 7h 27m 21s"}
{"loss": 2.08220959, "token_acc": 0.58266819, "grad_norm": 4.51540089, "learning_rate": 2.18e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.107711, "epoch": 0.01092836, "global_step/max_steps": "235/21503", "percentage": "1.09%", "elapsed_time": "36m 21s", "remaining_time": "2d 6h 50m 34s"}
{"loss": 2.03261986, "token_acc": 0.58451229, "grad_norm": 3.92296028, "learning_rate": 2.23e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.108887, "epoch": 0.01116088, "global_step/max_steps": "240/21503", "percentage": "1.12%", "elapsed_time": "36m 43s", "remaining_time": "2d 6h 14m 16s"}
{"loss": 2.02638855, "token_acc": 0.621802, "grad_norm": 4.00619459, "learning_rate": 2.28e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.110052, "epoch": 0.01139339, "global_step/max_steps": "245/21503", "percentage": "1.14%", "elapsed_time": "37m 5s", "remaining_time": "2d 5h 39m 3s"}
{"loss": 1.97093468, "token_acc": 0.59881176, "grad_norm": 3.43097973, "learning_rate": 2.32e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.111198, "epoch": 0.01162591, "global_step/max_steps": "250/21503", "percentage": "1.16%", "elapsed_time": "37m 28s", "remaining_time": "2d 5h 5m 9s"}
{"eval_loss": 1.94191086, "eval_runtime": 437.5671, "eval_samples_per_second": 7.942, "eval_steps_per_second": 7.942, "epoch": 0.01162591, "global_step/max_steps": "250/21503", "percentage": "1.16%", "elapsed_time": "44m 45s", "remaining_time": "2d 15h 25m 8s"}
{"loss": 1.95601654, "token_acc": 0.61851873, "grad_norm": 4.21439123, "learning_rate": 2.37e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.094166, "epoch": 0.01185843, "global_step/max_steps": "255/21503", "percentage": "1.19%", "elapsed_time": "45m 7s", "remaining_time": "2d 14h 40m 27s"}
{"loss": 1.89167519, "token_acc": 0.62135922, "grad_norm": 2.49612665, "learning_rate": 2.42e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.095254, "epoch": 0.01209095, "global_step/max_steps": "260/21503", "percentage": "1.21%", "elapsed_time": "45m 29s", "remaining_time": "2d 13h 56m 37s"}
{"loss": 1.83499432, "token_acc": 0.61158278, "grad_norm": 2.394701, "learning_rate": 2.46e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.096302, "epoch": 0.01232347, "global_step/max_steps": "265/21503", "percentage": "1.23%", "elapsed_time": "45m 51s", "remaining_time": "2d 13h 15m 18s"}
{"loss": 1.7406538, "token_acc": 0.63808397, "grad_norm": 2.53474307, "learning_rate": 2.51e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.09734, "epoch": 0.01255599, "global_step/max_steps": "270/21503", "percentage": "1.26%", "elapsed_time": "46m 13s", "remaining_time": "2d 12h 35m 15s"}
{"loss": 1.80151711, "token_acc": 0.65116279, "grad_norm": 3.62935781, "learning_rate": 2.56e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.098382, "epoch": 0.0127885, "global_step/max_steps": "275/21503", "percentage": "1.28%", "elapsed_time": "46m 35s", "remaining_time": "2d 11h 55m 55s"}
{"loss": 1.83748074, "token_acc": 0.62732637, "grad_norm": 4.16270256, "learning_rate": 2.6e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.099417, "epoch": 0.01302102, "global_step/max_steps": "280/21503", "percentage": "1.30%", "elapsed_time": "46m 56s", "remaining_time": "2d 11h 17m 38s"}
{"loss": 1.66459389, "token_acc": 0.64144843, "grad_norm": 4.19776583, "learning_rate": 2.65e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.100391, "epoch": 0.01325354, "global_step/max_steps": "285/21503", "percentage": "1.33%", "elapsed_time": "47m 18s", "remaining_time": "2d 10h 42m 18s"}
{"loss": 1.7501997, "token_acc": 0.62644509, "grad_norm": 2.41977167, "learning_rate": 2.7e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.101369, "epoch": 0.01348606, "global_step/max_steps": "290/21503", "percentage": "1.35%", "elapsed_time": "47m 40s", "remaining_time": "2d 10h 7m 29s"}
{"loss": 1.57661037, "token_acc": 0.65761104, "grad_norm": 2.62226081, "learning_rate": 2.74e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.102333, "epoch": 0.01371858, "global_step/max_steps": "295/21503", "percentage": "1.37%", "elapsed_time": "48m 2s", "remaining_time": "2d 9h 33m 50s"}
{"loss": 1.6507225, "token_acc": 0.63942308, "grad_norm": 3.40517378, "learning_rate": 2.79e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.103286, "epoch": 0.0139511, "global_step/max_steps": "300/21503", "percentage": "1.40%", "elapsed_time": "48m 24s", "remaining_time": "2d 9h 1m 8s"}
{"eval_loss": 1.5188365, "eval_runtime": 287.7409, "eval_samples_per_second": 12.077, "eval_steps_per_second": 12.077, "epoch": 0.0139511, "global_step/max_steps": "300/21503", "percentage": "1.40%", "elapsed_time": "53m 12s", "remaining_time": "2d 14h 40m 5s"}
{"loss": 1.49768829, "token_acc": 0.64391829, "grad_norm": 2.13257957, "learning_rate": 2.83e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.09487, "epoch": 0.01418361, "global_step/max_steps": "305/21503", "percentage": "1.42%", "elapsed_time": "53m 34s", "remaining_time": "2d 14h 3m 48s"}
{"loss": 1.58289499, "token_acc": 0.63426626, "grad_norm": 2.55155039, "learning_rate": 2.88e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.095773, "epoch": 0.01441613, "global_step/max_steps": "310/21503", "percentage": "1.44%", "elapsed_time": "53m 56s", "remaining_time": "2d 13h 27m 49s"}
{"loss": 1.63973274, "token_acc": 0.63918335, "grad_norm": 2.67925477, "learning_rate": 2.93e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.096653, "epoch": 0.01464865, "global_step/max_steps": "315/21503", "percentage": "1.46%", "elapsed_time": "54m 18s", "remaining_time": "2d 12h 53m 22s"}
{"loss": 1.39390478, "token_acc": 0.6882702, "grad_norm": 3.85901093, "learning_rate": 2.97e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.097537, "epoch": 0.01488117, "global_step/max_steps": "320/21503", "percentage": "1.49%", "elapsed_time": "54m 40s", "remaining_time": "2d 12h 19m 24s"}
{"loss": 1.43665218, "token_acc": 0.66543624, "grad_norm": 2.25956225, "learning_rate": 3.02e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.098403, "epoch": 0.01511369, "global_step/max_steps": "325/21503", "percentage": "1.51%", "elapsed_time": "55m 2s", "remaining_time": "2d 11h 46m 42s"}
{"loss": 1.52666359, "token_acc": 0.66295471, "grad_norm": 3.04572797, "learning_rate": 3.07e-06, "memory(GiB)": 24.06, "train_speed(iter/s)": 0.099239, "epoch": 0.01534621, "global_step/max_steps": "330/21503", "percentage": "1.53%", "elapsed_time": "55m 25s", "remaining_time": "2d 11h 15m 39s"}
{"loss": 1.38330002, "token_acc": 0.68416897, "grad_norm": 9.59405708, "learning_rate": 3.11e-06, "memory(GiB)": 24.06, "train_speed(iter/s)": 0.100079, "epoch": 0.01557872, "global_step/max_steps": "335/21503", "percentage": "1.56%", "elapsed_time": "55m 47s", "remaining_time": "2d 10h 45m 0s"}
{"loss": 1.58976297, "token_acc": 0.66429419, "grad_norm": 3.07502389, "learning_rate": 3.16e-06, "memory(GiB)": 24.06, "train_speed(iter/s)": 0.100921, "epoch": 0.01581124, "global_step/max_steps": "340/21503", "percentage": "1.58%", "elapsed_time": "56m 8s", "remaining_time": "2d 10h 14m 45s"}
{"loss": 1.54341869, "token_acc": 0.65428937, "grad_norm": 5.14961052, "learning_rate": 3.21e-06, "memory(GiB)": 24.06, "train_speed(iter/s)": 0.101744, "epoch": 0.01604376, "global_step/max_steps": "345/21503", "percentage": "1.60%", "elapsed_time": "56m 30s", "remaining_time": "2d 9h 45m 39s"}
{"loss": 1.45753202, "token_acc": 0.66839853, "grad_norm": 2.47346616, "learning_rate": 3.25e-06, "memory(GiB)": 24.06, "train_speed(iter/s)": 0.102554, "epoch": 0.01627628, "global_step/max_steps": "350/21503", "percentage": "1.63%", "elapsed_time": "56m 52s", "remaining_time": "2d 9h 17m 29s"}
{"eval_loss": 1.32591319, "eval_runtime": 288.656, "eval_samples_per_second": 12.039, "eval_steps_per_second": 12.039, "epoch": 0.01627628, "global_step/max_steps": "350/21503", "percentage": "1.63%", "elapsed_time": "1h 1m 41s", "remaining_time": "2d 14h 8m 15s"}
{"loss": 1.32535391, "token_acc": 0.67440635, "grad_norm": 2.03140378, "learning_rate": 3.3e-06, "memory(GiB)": 24.06, "train_speed(iter/s)": 0.09531, "epoch": 0.0165088, "global_step/max_steps": "355/21503", "percentage": "1.65%", "elapsed_time": "1h 2m 4s", "remaining_time": "2d 13h 37m 53s"}
{"loss": 1.36739044, "token_acc": 0.70895522, "grad_norm": 2.73404098, "learning_rate": 3.35e-06, "memory(GiB)": 24.06, "train_speed(iter/s)": 0.096059, "epoch": 0.01674131, "global_step/max_steps": "360/21503", "percentage": "1.67%", "elapsed_time": "1h 2m 27s", "remaining_time": "2d 13h 8m 10s"}
{"loss": 1.38745203, "token_acc": 0.6815522, "grad_norm": 1.6114614, "learning_rate": 3.39e-06, "memory(GiB)": 24.06, "train_speed(iter/s)": 0.096796, "epoch": 0.01697383, "global_step/max_steps": "365/21503", "percentage": "1.70%", "elapsed_time": "1h 2m 50s", "remaining_time": "2d 12h 39m 25s"}
{"loss": 1.55839472, "token_acc": 0.66281834, "grad_norm": 3.49210167, "learning_rate": 3.44e-06, "memory(GiB)": 24.06, "train_speed(iter/s)": 0.097507, "epoch": 0.01720635, "global_step/max_steps": "370/21503", "percentage": "1.72%", "elapsed_time": "1h 3m 14s", "remaining_time": "2d 12h 12m 1s"}
{"loss": 1.44992504, "token_acc": 0.67388988, "grad_norm": 3.31751084, "learning_rate": 3.49e-06, "memory(GiB)": 24.06, "train_speed(iter/s)": 0.098245, "epoch": 0.01743887, "global_step/max_steps": "375/21503", "percentage": "1.74%", "elapsed_time": "1h 3m 36s", "remaining_time": "2d 11h 44m 1s"}
{"loss": 1.45532522, "token_acc": 0.67691764, "grad_norm": 1.92654538, "learning_rate": 3.53e-06, "memory(GiB)": 24.06, "train_speed(iter/s)": 0.098968, "epoch": 0.01767139, "global_step/max_steps": "380/21503", "percentage": "1.77%", "elapsed_time": "1h 3m 59s", "remaining_time": "2d 11h 17m 0s"}
{"loss": 1.45416784, "token_acc": 0.67306245, "grad_norm": 2.13533545, "learning_rate": 3.58e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.099642, "epoch": 0.01790391, "global_step/max_steps": "385/21503", "percentage": "1.79%", "elapsed_time": "1h 4m 23s", "remaining_time": "2d 10h 52m 7s"}
{"loss": 1.41499004, "token_acc": 0.67728027, "grad_norm": 3.13844562, "learning_rate": 3.62e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.100316, "epoch": 0.01813642, "global_step/max_steps": "390/21503", "percentage": "1.81%", "elapsed_time": "1h 4m 47s", "remaining_time": "2d 10h 27m 32s"}
{"loss": 1.43911591, "token_acc": 0.67683616, "grad_norm": 2.38942385, "learning_rate": 3.67e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.101045, "epoch": 0.01836894, "global_step/max_steps": "395/21503", "percentage": "1.84%", "elapsed_time": "1h 5m 8s", "remaining_time": "2d 10h 1m 26s"}
{"loss": 1.21327591, "token_acc": 0.73140367, "grad_norm": 2.09575009, "learning_rate": 3.72e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.10173, "epoch": 0.01860146, "global_step/max_steps": "400/21503", "percentage": "1.86%", "elapsed_time": "1h 5m 31s", "remaining_time": "2d 9h 37m 9s"}
{"eval_loss": 1.24323547, "eval_runtime": 286.9565, "eval_samples_per_second": 12.11, "eval_steps_per_second": 12.11, "epoch": 0.01860146, "global_step/max_steps": "400/21503", "percentage": "1.86%", "elapsed_time": "1h 10m 18s", "remaining_time": "2d 13h 49m 29s"}
{"loss": 1.31423073, "token_acc": 0.68900687, "grad_norm": 2.09786844, "learning_rate": 3.76e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.095496, "epoch": 0.01883398, "global_step/max_steps": "405/21503", "percentage": "1.88%", "elapsed_time": "1h 10m 40s", "remaining_time": "2d 13h 22m 0s"}
{"loss": 1.34693794, "token_acc": 0.69470279, "grad_norm": 2.42530727, "learning_rate": 3.81e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.096179, "epoch": 0.0190665, "global_step/max_steps": "410/21503", "percentage": "1.91%", "elapsed_time": "1h 11m 2s", "remaining_time": "2d 12h 54m 58s"}
{"loss": 1.40060444, "token_acc": 0.67599219, "grad_norm": 2.17339969, "learning_rate": 3.86e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.096862, "epoch": 0.01929902, "global_step/max_steps": "415/21503", "percentage": "1.93%", "elapsed_time": "1h 11m 24s", "remaining_time": "2d 12h 28m 20s"}
{"loss": 1.38926334, "token_acc": 0.69197952, "grad_norm": 2.70966744, "learning_rate": 3.9e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.09754, "epoch": 0.01953153, "global_step/max_steps": "420/21503", "percentage": "1.95%", "elapsed_time": "1h 11m 45s", "remaining_time": "2d 12h 2m 16s"}
{"loss": 1.34601345, "token_acc": 0.69550039, "grad_norm": 2.07855868, "learning_rate": 3.95e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.09819, "epoch": 0.01976405, "global_step/max_steps": "425/21503", "percentage": "1.98%", "elapsed_time": "1h 12m 8s", "remaining_time": "2d 11h 37m 34s"}
{"loss": 1.41882763, "token_acc": 0.68267691, "grad_norm": 2.91963959, "learning_rate": 4e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.098854, "epoch": 0.01999657, "global_step/max_steps": "430/21503", "percentage": "2.00%", "elapsed_time": "1h 12m 29s", "remaining_time": "2d 11h 12m 42s"}
{"loss": 1.35458755, "token_acc": 0.69186047, "grad_norm": 2.97773862, "learning_rate": 4.04e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.099509, "epoch": 0.02022909, "global_step/max_steps": "435/21503", "percentage": "2.02%", "elapsed_time": "1h 12m 51s", "remaining_time": "2d 10h 48m 28s"}
{"loss": 1.41374159, "token_acc": 0.68594145, "grad_norm": 2.71637464, "learning_rate": 4.09e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.10014, "epoch": 0.02046161, "global_step/max_steps": "440/21503", "percentage": "2.05%", "elapsed_time": "1h 13m 13s", "remaining_time": "2d 10h 25m 24s"}
{"loss": 1.41223059, "token_acc": 0.67153748, "grad_norm": 2.30970287, "learning_rate": 4.14e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.100777, "epoch": 0.02069413, "global_step/max_steps": "445/21503", "percentage": "2.07%", "elapsed_time": "1h 13m 35s", "remaining_time": "2d 10h 2m 25s"}
{"loss": 1.34204893, "token_acc": 0.70257305, "grad_norm": 2.96832943, "learning_rate": 4.18e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.1014, "epoch": 0.02092664, "global_step/max_steps": "450/21503", "percentage": "2.09%", "elapsed_time": "1h 13m 57s", "remaining_time": "2d 9h 40m 12s"}
{"eval_loss": 1.18842089, "eval_runtime": 286.1879, "eval_samples_per_second": 12.142, "eval_steps_per_second": 12.142, "epoch": 0.02092664, "global_step/max_steps": "450/21503", "percentage": "2.09%", "elapsed_time": "1h 18m 43s", "remaining_time": "2d 13h 23m 22s"}
{"loss": 1.28187113, "token_acc": 0.69837387, "grad_norm": 2.29786634, "learning_rate": 4.23e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.095843, "epoch": 0.02115916, "global_step/max_steps": "455/21503", "percentage": "2.12%", "elapsed_time": "1h 19m 7s", "remaining_time": "2d 13h 0m 0s"}
{"loss": 1.37337723, "token_acc": 0.6942446, "grad_norm": 3.82655263, "learning_rate": 4.28e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.096431, "epoch": 0.02139168, "global_step/max_steps": "460/21503", "percentage": "2.14%", "elapsed_time": "1h 19m 30s", "remaining_time": "2d 12h 36m 47s"}
{"loss": 1.33372316, "token_acc": 0.71665319, "grad_norm": 2.246629, "learning_rate": 4.32e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.097028, "epoch": 0.0216242, "global_step/max_steps": "465/21503", "percentage": "2.16%", "elapsed_time": "1h 19m 52s", "remaining_time": "2d 12h 13m 33s"}
{"loss": 1.40859003, "token_acc": 0.69033531, "grad_norm": 3.4111402, "learning_rate": 4.37e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.097602, "epoch": 0.02185672, "global_step/max_steps": "470/21503", "percentage": "2.19%", "elapsed_time": "1h 20m 15s", "remaining_time": "2d 11h 51m 27s"}
{"loss": 1.22948532, "token_acc": 0.72757974, "grad_norm": 3.05440378, "learning_rate": 4.41e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.098176, "epoch": 0.02208923, "global_step/max_steps": "475/21503", "percentage": "2.21%", "elapsed_time": "1h 20m 38s", "remaining_time": "2d 11h 29m 36s"}
{"loss": 1.31144314, "token_acc": 0.7130898, "grad_norm": 2.29456258, "learning_rate": 4.46e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.098754, "epoch": 0.02232175, "global_step/max_steps": "480/21503", "percentage": "2.23%", "elapsed_time": "1h 21m 0s", "remaining_time": "2d 11h 7m 52s"}
{"loss": 1.31080513, "token_acc": 0.69918454, "grad_norm": 2.63737798, "learning_rate": 4.51e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.099314, "epoch": 0.02255427, "global_step/max_steps": "485/21503", "percentage": "2.26%", "elapsed_time": "1h 21m 23s", "remaining_time": "2d 10h 47m 2s"}
{"loss": 1.20515728, "token_acc": 0.72527048, "grad_norm": 2.64344692, "learning_rate": 4.55e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.099889, "epoch": 0.02278679, "global_step/max_steps": "490/21503", "percentage": "2.28%", "elapsed_time": "1h 21m 45s", "remaining_time": "2d 10h 25m 54s"}
{"loss": 1.39738455, "token_acc": 0.6806872, "grad_norm": 2.52239799, "learning_rate": 4.6e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.100453, "epoch": 0.02301931, "global_step/max_steps": "495/21503", "percentage": "2.30%", "elapsed_time": "1h 22m 7s", "remaining_time": "2d 10h 5m 22s"}
{"loss": 1.32992954, "token_acc": 0.7066365, "grad_norm": 2.29743028, "learning_rate": 4.65e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.101024, "epoch": 0.02325183, "global_step/max_steps": "500/21503", "percentage": "2.33%", "elapsed_time": "1h 22m 29s", "remaining_time": "2d 9h 44m 51s"}
{"eval_loss": 1.14407432, "eval_runtime": 289.7214, "eval_samples_per_second": 11.994, "eval_steps_per_second": 11.994, "epoch": 0.02325183, "global_step/max_steps": "500/21503", "percentage": "2.33%", "elapsed_time": "1h 27m 18s", "remaining_time": "2d 13h 7m 41s"}
{"loss": 1.27423859, "token_acc": 0.70612896, "grad_norm": 2.43799186, "learning_rate": 4.69e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.095967, "epoch": 0.02348434, "global_step/max_steps": "505/21503", "percentage": "2.35%", "elapsed_time": "1h 27m 41s", "remaining_time": "2d 12h 46m 34s"}
{"loss": 1.19195147, "token_acc": 0.72582438, "grad_norm": 3.10161662, "learning_rate": 4.74e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.09651, "epoch": 0.02371686, "global_step/max_steps": "510/21503", "percentage": "2.37%", "elapsed_time": "1h 28m 4s", "remaining_time": "2d 12h 25m 12s"}
{"loss": 1.32237597, "token_acc": 0.70087088, "grad_norm": 2.37699199, "learning_rate": 4.79e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.097043, "epoch": 0.02394938, "global_step/max_steps": "515/21503", "percentage": "2.40%", "elapsed_time": "1h 28m 26s", "remaining_time": "2d 12h 4m 26s"}
{"loss": 1.30193024, "token_acc": 0.69758224, "grad_norm": 2.89371872, "learning_rate": 4.83e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.097573, "epoch": 0.0241819, "global_step/max_steps": "520/21503", "percentage": "2.42%", "elapsed_time": "1h 28m 49s", "remaining_time": "2d 11h 43m 59s"}
{"loss": 1.22165394, "token_acc": 0.72340426, "grad_norm": 3.2003088, "learning_rate": 4.88e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.098101, "epoch": 0.02441442, "global_step/max_steps": "525/21503", "percentage": "2.44%", "elapsed_time": "1h 29m 11s", "remaining_time": "2d 11h 23m 51s"}
{"loss": 1.11433601, "token_acc": 0.73286526, "grad_norm": 3.0782795, "learning_rate": 4.93e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.09862, "epoch": 0.02464694, "global_step/max_steps": "530/21503", "percentage": "2.46%", "elapsed_time": "1h 29m 33s", "remaining_time": "2d 11h 4m 17s"}
{"loss": 1.26429701, "token_acc": 0.70426829, "grad_norm": 2.86665249, "learning_rate": 4.97e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.099132, "epoch": 0.02487945, "global_step/max_steps": "535/21503", "percentage": "2.49%", "elapsed_time": "1h 29m 56s", "remaining_time": "2d 10h 45m 8s"}
{"loss": 1.27802324, "token_acc": 0.69662324, "grad_norm": 2.44016004, "learning_rate": 5.02e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.099631, "epoch": 0.02511197, "global_step/max_steps": "540/21503", "percentage": "2.51%", "elapsed_time": "1h 30m 19s", "remaining_time": "2d 10h 26m 37s"}
{"loss": 1.17422619, "token_acc": 0.72204344, "grad_norm": 2.83952403, "learning_rate": 5.07e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.100135, "epoch": 0.02534449, "global_step/max_steps": "545/21503", "percentage": "2.53%", "elapsed_time": "1h 30m 42s", "remaining_time": "2d 10h 8m 9s"}
{"loss": 1.19074011, "token_acc": 0.7297199, "grad_norm": 4.02303791, "learning_rate": 5.11e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.100638, "epoch": 0.02557701, "global_step/max_steps": "550/21503", "percentage": "2.56%", "elapsed_time": "1h 31m 4s", "remaining_time": "2d 9h 49m 52s"}
{"eval_loss": 1.10050607, "eval_runtime": 288.9431, "eval_samples_per_second": 12.027, "eval_steps_per_second": 12.027, "epoch": 0.02557701, "global_step/max_steps": "550/21503", "percentage": "2.56%", "elapsed_time": "1h 35m 53s", "remaining_time": "2d 12h 53m 20s"}
{"loss": 1.2625598, "token_acc": 0.71452557, "grad_norm": 2.93954873, "learning_rate": 5.16e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.096081, "epoch": 0.02580953, "global_step/max_steps": "555/21503", "percentage": "2.58%", "elapsed_time": "1h 36m 16s", "remaining_time": "2d 12h 33m 36s"}
{"loss": 1.23075485, "token_acc": 0.70898293, "grad_norm": 2.96930146, "learning_rate": 5.2e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.096563, "epoch": 0.02604205, "global_step/max_steps": "560/21503", "percentage": "2.60%", "elapsed_time": "1h 36m 39s", "remaining_time": "2d 12h 14m 36s"}
{"loss": 1.2285656, "token_acc": 0.70561018, "grad_norm": 2.33646083, "learning_rate": 5.25e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.09705, "epoch": 0.02627456, "global_step/max_steps": "565/21503", "percentage": "2.63%", "elapsed_time": "1h 37m 1s", "remaining_time": "2d 11h 55m 37s"}
{"loss": 1.22320881, "token_acc": 0.71290634, "grad_norm": 2.53693843, "learning_rate": 5.3e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.097528, "epoch": 0.02650708, "global_step/max_steps": "570/21503", "percentage": "2.65%", "elapsed_time": "1h 37m 24s", "remaining_time": "2d 11h 37m 8s"}
{"loss": 1.16940174, "token_acc": 0.73566434, "grad_norm": 2.69622564, "learning_rate": 5.34e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.098003, "epoch": 0.0267396, "global_step/max_steps": "575/21503", "percentage": "2.67%", "elapsed_time": "1h 37m 46s", "remaining_time": "2d 11h 18m 57s"}
{"loss": 1.13544083, "token_acc": 0.73601945, "grad_norm": 2.47803235, "learning_rate": 5.39e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.09848, "epoch": 0.02697212, "global_step/max_steps": "580/21503", "percentage": "2.70%", "elapsed_time": "1h 38m 9s", "remaining_time": "2d 11h 0m 51s"}
{"loss": 1.28790121, "token_acc": 0.70385086, "grad_norm": 3.7900908, "learning_rate": 5.44e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.098949, "epoch": 0.02720464, "global_step/max_steps": "585/21503", "percentage": "2.72%", "elapsed_time": "1h 38m 31s", "remaining_time": "2d 10h 43m 14s"}
{"loss": 1.35722504, "token_acc": 0.69393648, "grad_norm": 3.79700446, "learning_rate": 5.48e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.099423, "epoch": 0.02743715, "global_step/max_steps": "590/21503", "percentage": "2.74%", "elapsed_time": "1h 38m 54s", "remaining_time": "2d 10h 25m 35s"}
{"loss": 1.25159454, "token_acc": 0.72903466, "grad_norm": 3.48842168, "learning_rate": 5.53e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.099889, "epoch": 0.02766967, "global_step/max_steps": "595/21503", "percentage": "2.77%", "elapsed_time": "1h 39m 16s", "remaining_time": "2d 10h 8m 24s"}
{"loss": 1.19934645, "token_acc": 0.70916609, "grad_norm": 2.518224, "learning_rate": 5.58e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.100346, "epoch": 0.02790219, "global_step/max_steps": "600/21503", "percentage": "2.79%", "elapsed_time": "1h 39m 39s", "remaining_time": "2d 9h 51m 42s"}
{"eval_loss": 1.07325506, "eval_runtime": 287.0707, "eval_samples_per_second": 12.105, "eval_steps_per_second": 12.105, "epoch": 0.02790219, "global_step/max_steps": "600/21503", "percentage": "2.79%", "elapsed_time": "1h 44m 26s", "remaining_time": "2d 12h 38m 24s"}
{"loss": 1.38220434, "token_acc": 0.72075556, "grad_norm": 2.83443904, "learning_rate": 5.62e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.096187, "epoch": 0.02813471, "global_step/max_steps": "605/21503", "percentage": "2.81%", "elapsed_time": "1h 44m 49s", "remaining_time": "2d 12h 20m 57s"}
{"loss": 1.16151781, "token_acc": 0.72275014, "grad_norm": 2.57615423, "learning_rate": 5.67e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.096629, "epoch": 0.02836723, "global_step/max_steps": "610/21503", "percentage": "2.84%", "elapsed_time": "1h 45m 12s", "remaining_time": "2d 12h 3m 30s"}
{"loss": 1.3006175, "token_acc": 0.69397173, "grad_norm": 3.25929117, "learning_rate": 5.72e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.09706, "epoch": 0.02859975, "global_step/max_steps": "615/21503", "percentage": "2.86%", "elapsed_time": "1h 45m 36s", "remaining_time": "2d 11h 46m 40s"}
{"loss": 1.25263052, "token_acc": 0.71252628, "grad_norm": 2.45303774, "learning_rate": 5.76e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.097493, "epoch": 0.02883226, "global_step/max_steps": "620/21503", "percentage": "2.88%", "elapsed_time": "1h 45m 59s", "remaining_time": "2d 11h 29m 52s"}
{"loss": 1.18861036, "token_acc": 0.7297491, "grad_norm": 4.13883686, "learning_rate": 5.81e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.097937, "epoch": 0.02906478, "global_step/max_steps": "625/21503", "percentage": "2.91%", "elapsed_time": "1h 46m 21s", "remaining_time": "2d 11h 12m 50s"}
{"loss": 1.20775805, "token_acc": 0.73325163, "grad_norm": 2.70906734, "learning_rate": 5.86e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.098374, "epoch": 0.0292973, "global_step/max_steps": "630/21503", "percentage": "2.93%", "elapsed_time": "1h 46m 43s", "remaining_time": "2d 10h 56m 13s"}
{"loss": 1.22361012, "token_acc": 0.72583543, "grad_norm": 3.34081554, "learning_rate": 5.9e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.098814, "epoch": 0.02952982, "global_step/max_steps": "635/21503", "percentage": "2.95%", "elapsed_time": "1h 47m 5s", "remaining_time": "2d 10h 39m 37s"}
{"loss": 1.21517124, "token_acc": 0.7069378, "grad_norm": 2.57181168, "learning_rate": 5.95e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.099239, "epoch": 0.02976234, "global_step/max_steps": "640/21503", "percentage": "2.98%", "elapsed_time": "1h 47m 28s", "remaining_time": "2d 10h 23m 42s"}
{"loss": 1.18829327, "token_acc": 0.73490315, "grad_norm": 3.57126403, "learning_rate": 5.99e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.099661, "epoch": 0.02999486, "global_step/max_steps": "645/21503", "percentage": "3.00%", "elapsed_time": "1h 47m 51s", "remaining_time": "2d 10h 8m 2s"}
{"loss": 1.11512899, "token_acc": 0.74696181, "grad_norm": 3.33696318, "learning_rate": 6.04e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.100082, "epoch": 0.03022737, "global_step/max_steps": "650/21503", "percentage": "3.02%", "elapsed_time": "1h 48m 14s", "remaining_time": "2d 9h 52m 31s"}
{"eval_loss": 1.03886187, "eval_runtime": 285.3668, "eval_samples_per_second": 12.177, "eval_steps_per_second": 12.177, "epoch": 0.03022737, "global_step/max_steps": "650/21503", "percentage": "3.02%", "elapsed_time": "1h 52m 59s", "remaining_time": "2d 12h 25m 6s"}
{"loss": 1.15977211, "token_acc": 0.7270051, "grad_norm": 2.69799423, "learning_rate": 6.09e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.096285, "epoch": 0.03045989, "global_step/max_steps": "655/21503", "percentage": "3.05%", "elapsed_time": "1h 53m 22s", "remaining_time": "2d 12h 8m 36s"}
{"loss": 1.04701529, "token_acc": 0.77293462, "grad_norm": 2.98612165, "learning_rate": 6.13e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.096701, "epoch": 0.03069241, "global_step/max_steps": "660/21503", "percentage": "3.07%", "elapsed_time": "1h 53m 44s", "remaining_time": "2d 11h 52m 13s"}
{"loss": 1.14909773, "token_acc": 0.73516643, "grad_norm": 2.9311285, "learning_rate": 6.18e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.097128, "epoch": 0.03092493, "global_step/max_steps": "665/21503", "percentage": "3.09%", "elapsed_time": "1h 54m 6s", "remaining_time": "2d 11h 35m 35s"}
{"loss": 1.20418444, "token_acc": 0.73352333, "grad_norm": 3.36357808, "learning_rate": 6.23e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.097555, "epoch": 0.03115745, "global_step/max_steps": "670/21503", "percentage": "3.12%", "elapsed_time": "1h 54m 27s", "remaining_time": "2d 11h 19m 5s"}
{"loss": 1.1929822, "token_acc": 0.73157416, "grad_norm": 3.21407866, "learning_rate": 6.27e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.097969, "epoch": 0.03138997, "global_step/max_steps": "675/21503", "percentage": "3.14%", "elapsed_time": "1h 54m 49s", "remaining_time": "2d 11h 3m 12s"}
{"loss": 1.01807156, "token_acc": 0.75213993, "grad_norm": 2.85745597, "learning_rate": 6.32e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.098391, "epoch": 0.03162248, "global_step/max_steps": "680/21503", "percentage": "3.16%", "elapsed_time": "1h 55m 10s", "remaining_time": "2d 10h 47m 7s"}
{"loss": 1.18946991, "token_acc": 0.73815359, "grad_norm": 3.0687995, "learning_rate": 6.37e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.0988, "epoch": 0.031855, "global_step/max_steps": "685/21503", "percentage": "3.19%", "elapsed_time": "1h 55m 32s", "remaining_time": "2d 10h 31m 41s"}
{"loss": 1.13818712, "token_acc": 0.72892562, "grad_norm": 2.56686473, "learning_rate": 6.41e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.099215, "epoch": 0.03208752, "global_step/max_steps": "690/21503", "percentage": "3.21%", "elapsed_time": "1h 55m 54s", "remaining_time": "2d 10h 16m 9s"}
{"loss": 1.16644783, "token_acc": 0.73537906, "grad_norm": 3.33421469, "learning_rate": 6.46e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.09961, "epoch": 0.03232004, "global_step/max_steps": "695/21503", "percentage": "3.23%", "elapsed_time": "1h 56m 16s", "remaining_time": "2d 10h 1m 28s"}
{"loss": 1.10686045, "token_acc": 0.70765852, "grad_norm": 2.6217947, "learning_rate": 6.51e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.100005, "epoch": 0.03255256, "global_step/max_steps": "700/21503", "percentage": "3.26%", "elapsed_time": "1h 56m 39s", "remaining_time": "2d 9h 46m 53s"}
{"eval_loss": 1.02551472, "eval_runtime": 283.4962, "eval_samples_per_second": 12.258, "eval_steps_per_second": 12.258, "epoch": 0.03255256, "global_step/max_steps": "700/21503", "percentage": "3.26%", "elapsed_time": "2h 1m 22s", "remaining_time": "2d 12h 7m 19s"}
{"loss": 1.03534031, "token_acc": 0.73277247, "grad_norm": 4.36416006, "learning_rate": 6.55e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.0965, "epoch": 0.03278507, "global_step/max_steps": "705/21503", "percentage": "3.28%", "elapsed_time": "2h 1m 45s", "remaining_time": "2d 11h 51m 57s"}
{"loss": 1.24720783, "token_acc": 0.71086088, "grad_norm": 3.82997346, "learning_rate": 6.6e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.096895, "epoch": 0.03301759, "global_step/max_steps": "710/21503", "percentage": "3.30%", "elapsed_time": "2h 2m 7s", "remaining_time": "2d 11h 36m 25s"}
{"loss": 1.04878635, "token_acc": 0.75279553, "grad_norm": 2.94730711, "learning_rate": 6.64e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.097293, "epoch": 0.03325011, "global_step/max_steps": "715/21503", "percentage": "3.33%", "elapsed_time": "2h 2m 28s", "remaining_time": "2d 11h 20m 57s"}
{"loss": 1.17601051, "token_acc": 0.7328457, "grad_norm": 3.8014946, "learning_rate": 6.69e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.097678, "epoch": 0.03348263, "global_step/max_steps": "720/21503", "percentage": "3.35%", "elapsed_time": "2h 2m 50s", "remaining_time": "2d 11h 6m 3s"}
{"loss": 1.11076403, "token_acc": 0.74623288, "grad_norm": 3.63354921, "learning_rate": 6.74e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.098073, "epoch": 0.03371515, "global_step/max_steps": "725/21503", "percentage": "3.37%", "elapsed_time": "2h 3m 12s", "remaining_time": "2d 10h 50m 57s"}
{"loss": 1.11502724, "token_acc": 0.73808658, "grad_norm": 2.4998033, "learning_rate": 6.78e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.09846, "epoch": 0.03394767, "global_step/max_steps": "730/21503", "percentage": "3.39%", "elapsed_time": "2h 3m 33s", "remaining_time": "2d 10h 36m 12s"}
{"loss": 1.22380505, "token_acc": 0.72139472, "grad_norm": 4.18846798, "learning_rate": 6.83e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.098821, "epoch": 0.03418018, "global_step/max_steps": "735/21503", "percentage": "3.42%", "elapsed_time": "2h 3m 57s", "remaining_time": "2d 10h 22m 32s"}
{"loss": 1.06118212, "token_acc": 0.7538409, "grad_norm": 3.49251938, "learning_rate": 6.88e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.099202, "epoch": 0.0344127, "global_step/max_steps": "740/21503", "percentage": "3.44%", "elapsed_time": "2h 4m 19s", "remaining_time": "2d 10h 8m 14s"}
{"loss": 1.2451375, "token_acc": 0.73036649, "grad_norm": 2.73485112, "learning_rate": 6.92e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.099574, "epoch": 0.03464522, "global_step/max_steps": "745/21503", "percentage": "3.46%", "elapsed_time": "2h 4m 41s", "remaining_time": "2d 9h 54m 22s"}
{"loss": 1.13443394, "token_acc": 0.72645349, "grad_norm": 3.92399597, "learning_rate": 6.97e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.099939, "epoch": 0.03487774, "global_step/max_steps": "750/21503", "percentage": "3.49%", "elapsed_time": "2h 5m 4s", "remaining_time": "2d 9h 40m 50s"}
{"loss": 5.59512854, "token_acc": 0.35786802, "grad_norm": 11.30196762, "learning_rate": 1e-08, "memory(GiB)": 16.79, "train_speed(iter/s)": 0.181377, "epoch": 4.65e-05, "global_step/max_steps": "1/21503", "percentage": "0.00%", "elapsed_time": "5s", "remaining_time": "1d 7h 28m 25s"}
{"loss": 5.12816429, "token_acc": 0.43048128, "grad_norm": 14.64214134, "learning_rate": 5e-08, "memory(GiB)": 16.8, "train_speed(iter/s)": 0.21625, "epoch": 0.00023252, "global_step/max_steps": "5/21503", "percentage": "0.02%", "elapsed_time": "22s", "remaining_time": "1d 3h 19m 21s"}
{"loss": 4.30041199, "token_acc": 0.46817371, "grad_norm": 7.31607485, "learning_rate": 9e-08, "memory(GiB)": 17.84, "train_speed(iter/s)": 0.219536, "epoch": 0.00046504, "global_step/max_steps": "10/21503", "percentage": "0.05%", "elapsed_time": "45s", "remaining_time": "1d 3h 2m 56s"}
{"loss": 4.63945732, "token_acc": 0.43668771, "grad_norm": 11.10088444, "learning_rate": 1.4e-07, "memory(GiB)": 19.03, "train_speed(iter/s)": 0.220308, "epoch": 0.00069755, "global_step/max_steps": "15/21503", "percentage": "0.07%", "elapsed_time": "1m 7s", "remaining_time": "1d 2h 59m 46s"}
{"loss": 5.25707245, "token_acc": 0.41420856, "grad_norm": 6.97144556, "learning_rate": 1.9e-07, "memory(GiB)": 19.04, "train_speed(iter/s)": 0.222155, "epoch": 0.00093007, "global_step/max_steps": "20/21503", "percentage": "0.09%", "elapsed_time": "1m 29s", "remaining_time": "1d 2h 47m 20s"}
{"loss": 4.15851707, "token_acc": 0.44335415, "grad_norm": 7.33334351, "learning_rate": 2.3e-07, "memory(GiB)": 19.04, "train_speed(iter/s)": 0.221422, "epoch": 0.00116259, "global_step/max_steps": "25/21503", "percentage": "0.12%", "elapsed_time": "1m 52s", "remaining_time": "1d 2h 53m 10s"}
{"loss": 3.94680977, "token_acc": 0.46278418, "grad_norm": 7.32778978, "learning_rate": 2.8e-07, "memory(GiB)": 20.29, "train_speed(iter/s)": 0.220406, "epoch": 0.00139511, "global_step/max_steps": "30/21503", "percentage": "0.14%", "elapsed_time": "2m 15s", "remaining_time": "1d 3h 0m 49s"}
{"loss": 4.11032028, "token_acc": 0.45644891, "grad_norm": 9.05079174, "learning_rate": 3.3e-07, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.21968, "epoch": 0.00162763, "global_step/max_steps": "35/21503", "percentage": "0.16%", "elapsed_time": "2m 39s", "remaining_time": "1d 3h 6m 14s"}
{"loss": 4.70754929, "token_acc": 0.41740675, "grad_norm": 10.02645588, "learning_rate": 3.7e-07, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.218784, "epoch": 0.00186015, "global_step/max_steps": "40/21503", "percentage": "0.19%", "elapsed_time": "3m 2s", "remaining_time": "1d 3h 12m 49s"}
{"loss": 4.50052109, "token_acc": 0.41803543, "grad_norm": 7.74694729, "learning_rate": 4.2e-07, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.219268, "epoch": 0.00209266, "global_step/max_steps": "45/21503", "percentage": "0.21%", "elapsed_time": "3m 24s", "remaining_time": "1d 3h 9m 5s"}
{"loss": 5.46420021, "token_acc": 0.37989081, "grad_norm": 11.60524082, "learning_rate": 4.6e-07, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.219704, "epoch": 0.00232518, "global_step/max_steps": "50/21503", "percentage": "0.23%", "elapsed_time": "3m 47s", "remaining_time": "1d 3h 5m 40s"}
{"eval_loss": 6.23884773, "eval_runtime": 290.2527, "eval_samples_per_second": 11.972, "eval_steps_per_second": 11.972, "epoch": 0.00232518, "global_step/max_steps": "50/21503", "percentage": "0.23%", "elapsed_time": "8m 37s", "remaining_time": "2d 13h 41m 20s"}
{"loss": 4.35524101, "token_acc": 0.43034782, "grad_norm": 10.1269207, "learning_rate": 5.1e-07, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.101729, "epoch": 0.0025577, "global_step/max_steps": "55/21503", "percentage": "0.26%", "elapsed_time": "9m 0s", "remaining_time": "2d 10h 32m 18s"}
{"loss": 4.34870949, "token_acc": 0.44151949, "grad_norm": 10.69859982, "learning_rate": 5.6e-07, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.106489, "epoch": 0.00279022, "global_step/max_steps": "60/21503", "percentage": "0.28%", "elapsed_time": "9m 23s", "remaining_time": "2d 7h 54m 36s"}
{"loss": 4.43413124, "token_acc": 0.43082733, "grad_norm": 10.69835281, "learning_rate": 6e-07, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.110843, "epoch": 0.00302274, "global_step/max_steps": "65/21503", "percentage": "0.30%", "elapsed_time": "9m 46s", "remaining_time": "2d 5h 42m 8s"}
{"loss": 4.88080597, "token_acc": 0.42017474, "grad_norm": 11.7806778, "learning_rate": 6.5e-07, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.114884, "epoch": 0.00325526, "global_step/max_steps": "70/21503", "percentage": "0.33%", "elapsed_time": "10m 9s", "remaining_time": "2d 3h 48m 7s"}
{"loss": 4.45181084, "token_acc": 0.42662849, "grad_norm": 10.34036541, "learning_rate": 7e-07, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.118675, "epoch": 0.00348777, "global_step/max_steps": "75/21503", "percentage": "0.35%", "elapsed_time": "10m 31s", "remaining_time": "2d 2h 8m 10s"}
{"loss": 4.33736115, "token_acc": 0.44075672, "grad_norm": 8.91756725, "learning_rate": 7.4e-07, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.122245, "epoch": 0.00372029, "global_step/max_steps": "80/21503", "percentage": "0.37%", "elapsed_time": "10m 54s", "remaining_time": "2d 0h 39m 41s"}
{"loss": 4.30178032, "token_acc": 0.43113176, "grad_norm": 7.56422567, "learning_rate": 7.9e-07, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.125462, "epoch": 0.00395281, "global_step/max_steps": "85/21503", "percentage": "0.40%", "elapsed_time": "11m 17s", "remaining_time": "1d 23h 24m 11s"}
{"loss": 4.20133247, "token_acc": 0.4398263, "grad_norm": 9.5113039, "learning_rate": 8.4e-07, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.128436, "epoch": 0.00418533, "global_step/max_steps": "90/21503", "percentage": "0.42%", "elapsed_time": "11m 40s", "remaining_time": "1d 22h 17m 43s"}
{"loss": 4.03769875, "token_acc": 0.45822102, "grad_norm": 11.19315243, "learning_rate": 8.8e-07, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.131168, "epoch": 0.00441785, "global_step/max_steps": "95/21503", "percentage": "0.44%", "elapsed_time": "12m 4s", "remaining_time": "1d 21h 19m 15s"}
{"loss": 4.32855721, "token_acc": 0.4460682, "grad_norm": 10.00979328, "learning_rate": 9.3e-07, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.133872, "epoch": 0.00465037, "global_step/max_steps": "100/21503", "percentage": "0.47%", "elapsed_time": "12m 26s", "remaining_time": "1d 20h 23m 43s"}
{"eval_loss": 6.00515079, "eval_runtime": 293.5348, "eval_samples_per_second": 11.838, "eval_steps_per_second": 11.838, "epoch": 0.00465037, "global_step/max_steps": "100/21503", "percentage": "0.47%", "elapsed_time": "17m 20s", "remaining_time": "2d 13h 50m 50s"}
{"loss": 4.57846451, "token_acc": 0.43150218, "grad_norm": 10.53895283, "learning_rate": 9.8e-07, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.098632, "epoch": 0.00488288, "global_step/max_steps": "105/21503", "percentage": "0.49%", "elapsed_time": "17m 44s", "remaining_time": "2d 12h 14m 58s"}
{"loss": 3.99252319, "token_acc": 0.45879121, "grad_norm": 8.35978794, "learning_rate": 1.02e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.10116, "epoch": 0.0051154, "global_step/max_steps": "110/21503", "percentage": "0.51%", "elapsed_time": "18m 7s", "remaining_time": "2d 10h 43m 50s"}
{"loss": 4.67874184, "token_acc": 0.41707968, "grad_norm": 9.40301323, "learning_rate": 1.07e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.103556, "epoch": 0.00534792, "global_step/max_steps": "115/21503", "percentage": "0.53%", "elapsed_time": "18m 30s", "remaining_time": "2d 9h 21m 30s"}
{"loss": 4.81041336, "token_acc": 0.42337877, "grad_norm": 12.41840267, "learning_rate": 1.12e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.105865, "epoch": 0.00558044, "global_step/max_steps": "120/21503", "percentage": "0.56%", "elapsed_time": "18m 53s", "remaining_time": "2d 8h 5m 39s"}
{"loss": 4.33881264, "token_acc": 0.4442433, "grad_norm": 10.6684103, "learning_rate": 1.16e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.108127, "epoch": 0.00581296, "global_step/max_steps": "125/21503", "percentage": "0.58%", "elapsed_time": "19m 15s", "remaining_time": "2d 6h 54m 30s"}
{"loss": 4.58795052, "token_acc": 0.42386831, "grad_norm": 9.33531952, "learning_rate": 1.21e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.110288, "epoch": 0.00604547, "global_step/max_steps": "130/21503", "percentage": "0.60%", "elapsed_time": "19m 38s", "remaining_time": "2d 5h 49m 11s"}
{"loss": 4.13047218, "token_acc": 0.43624868, "grad_norm": 7.61588812, "learning_rate": 1.25e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.112356, "epoch": 0.00627799, "global_step/max_steps": "135/21503", "percentage": "0.63%", "elapsed_time": "20m 1s", "remaining_time": "2d 4h 49m 2s"}
{"loss": 4.28681679, "token_acc": 0.42203258, "grad_norm": 9.20643711, "learning_rate": 1.3e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.11431, "epoch": 0.00651051, "global_step/max_steps": "140/21503", "percentage": "0.65%", "elapsed_time": "20m 24s", "remaining_time": "2d 3h 54m 8s"}
{"loss": 3.69882317, "token_acc": 0.47927871, "grad_norm": 8.03381538, "learning_rate": 1.35e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.116227, "epoch": 0.00674303, "global_step/max_steps": "145/21503", "percentage": "0.67%", "elapsed_time": "20m 47s", "remaining_time": "2d 3h 2m 4s"}
{"loss": 3.79413643, "token_acc": 0.44491664, "grad_norm": 9.18094158, "learning_rate": 1.39e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.118057, "epoch": 0.00697555, "global_step/max_steps": "150/21503", "percentage": "0.70%", "elapsed_time": "21m 10s", "remaining_time": "2d 2h 13m 54s"}
{"eval_loss": 4.91142321, "eval_runtime": 292.8063, "eval_samples_per_second": 11.868, "eval_steps_per_second": 11.868, "epoch": 0.00697555, "global_step/max_steps": "150/21503", "percentage": "0.70%", "elapsed_time": "26m 3s", "remaining_time": "2d 13h 48m 37s"}
{"loss": 3.26200676, "token_acc": 0.45824088, "grad_norm": 8.5366621, "learning_rate": 1.44e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.097604, "epoch": 0.00720807, "global_step/max_steps": "155/21503", "percentage": "0.72%", "elapsed_time": "26m 27s", "remaining_time": "2d 12h 44m 47s"}
{"loss": 3.9180809, "token_acc": 0.44494845, "grad_norm": 12.19675541, "learning_rate": 1.49e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.09936, "epoch": 0.00744058, "global_step/max_steps": "160/21503", "percentage": "0.74%", "elapsed_time": "26m 50s", "remaining_time": "2d 11h 39m 31s"}
{"loss": 3.59145737, "token_acc": 0.48446328, "grad_norm": 4.95008898, "learning_rate": 1.53e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.101032, "epoch": 0.0076731, "global_step/max_steps": "165/21503", "percentage": "0.77%", "elapsed_time": "27m 12s", "remaining_time": "2d 10h 39m 29s"}
{"loss": 3.52149353, "token_acc": 0.49245648, "grad_norm": 6.3522172, "learning_rate": 1.58e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.102611, "epoch": 0.00790562, "global_step/max_steps": "170/21503", "percentage": "0.79%", "elapsed_time": "27m 36s", "remaining_time": "2d 9h 44m 31s"}
{"loss": 3.1747097, "token_acc": 0.514772, "grad_norm": 7.19772625, "learning_rate": 1.63e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.1042, "epoch": 0.00813814, "global_step/max_steps": "175/21503", "percentage": "0.81%", "elapsed_time": "27m 59s", "remaining_time": "2d 8h 50m 52s"}
{"loss": 3.44791641, "token_acc": 0.47926448, "grad_norm": 6.74687958, "learning_rate": 1.67e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.105701, "epoch": 0.00837066, "global_step/max_steps": "180/21503", "percentage": "0.84%", "elapsed_time": "28m 22s", "remaining_time": "2d 8h 1m 40s"}
{"loss": 3.38214874, "token_acc": 0.48977853, "grad_norm": 5.17839813, "learning_rate": 1.72e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.107214, "epoch": 0.00860318, "global_step/max_steps": "185/21503", "percentage": "0.86%", "elapsed_time": "28m 45s", "remaining_time": "2d 7h 13m 28s"}
{"loss": 2.72977467, "token_acc": 0.52162014, "grad_norm": 4.96855402, "learning_rate": 1.77e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.108622, "epoch": 0.00883569, "global_step/max_steps": "190/21503", "percentage": "0.88%", "elapsed_time": "29m 8s", "remaining_time": "2d 6h 29m 45s"}
{"loss": 2.96293678, "token_acc": 0.52228458, "grad_norm": 3.69908428, "learning_rate": 1.81e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.110023, "epoch": 0.00906821, "global_step/max_steps": "195/21503", "percentage": "0.91%", "elapsed_time": "29m 32s", "remaining_time": "2d 5h 47m 22s"}
{"loss": 2.64735546, "token_acc": 0.54383117, "grad_norm": 4.62318563, "learning_rate": 1.86e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.111444, "epoch": 0.00930073, "global_step/max_steps": "200/21503", "percentage": "0.93%", "elapsed_time": "29m 54s", "remaining_time": "2d 5h 5m 29s"}
{"eval_loss": 3.56551552, "eval_runtime": 293.694, "eval_samples_per_second": 11.832, "eval_steps_per_second": 11.832, "epoch": 0.00930073, "global_step/max_steps": "200/21503", "percentage": "0.93%", "elapsed_time": "34m 48s", "remaining_time": "2d 13h 46m 52s"}
{"loss": 2.71896477, "token_acc": 0.54080205, "grad_norm": 6.06993151, "learning_rate": 1.91e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.097091, "epoch": 0.00953325, "global_step/max_steps": "205/21503", "percentage": "0.95%", "elapsed_time": "35m 11s", "remaining_time": "2d 12h 55m 35s"}
{"loss": 2.58376007, "token_acc": 0.55045872, "grad_norm": 18.15644646, "learning_rate": 1.95e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.098378, "epoch": 0.00976577, "global_step/max_steps": "210/21503", "percentage": "0.98%", "elapsed_time": "35m 34s", "remaining_time": "2d 12h 6m 54s"}
{"loss": 2.52438183, "token_acc": 0.54955321, "grad_norm": 6.0191493, "learning_rate": 2e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.099675, "epoch": 0.00999829, "global_step/max_steps": "215/21503", "percentage": "1.00%", "elapsed_time": "35m 56s", "remaining_time": "2d 11h 19m 10s"}
{"loss": 2.48198853, "token_acc": 0.55095683, "grad_norm": 8.37928581, "learning_rate": 2.04e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.100916, "epoch": 0.0102308, "global_step/max_steps": "220/21503", "percentage": "1.02%", "elapsed_time": "36m 19s", "remaining_time": "2d 10h 34m 34s"}
{"loss": 2.3563427, "token_acc": 0.53855519, "grad_norm": 12.24028206, "learning_rate": 2.09e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.102149, "epoch": 0.01046332, "global_step/max_steps": "225/21503", "percentage": "1.05%", "elapsed_time": "36m 42s", "remaining_time": "2d 9h 51m 19s"}
{"loss": 2.26505165, "token_acc": 0.53866432, "grad_norm": 6.65874529, "learning_rate": 2.14e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.10335, "epoch": 0.01069584, "global_step/max_steps": "230/21503", "percentage": "1.07%", "elapsed_time": "37m 5s", "remaining_time": "2d 9h 10m 11s"}
{"loss": 2.08220959, "token_acc": 0.58266819, "grad_norm": 4.51540089, "learning_rate": 2.18e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.1045, "epoch": 0.01092836, "global_step/max_steps": "235/21503", "percentage": "1.09%", "elapsed_time": "37m 28s", "remaining_time": "2d 8h 31m 38s"}
{"loss": 2.03261986, "token_acc": 0.58451229, "grad_norm": 3.92296028, "learning_rate": 2.23e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.105659, "epoch": 0.01116088, "global_step/max_steps": "240/21503", "percentage": "1.12%", "elapsed_time": "37m 51s", "remaining_time": "2d 7h 53m 39s"}
{"loss": 2.02638855, "token_acc": 0.621802, "grad_norm": 4.00619459, "learning_rate": 2.28e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.106808, "epoch": 0.01139339, "global_step/max_steps": "245/21503", "percentage": "1.14%", "elapsed_time": "38m 13s", "remaining_time": "2d 7h 16m 49s"}
{"loss": 1.97093468, "token_acc": 0.59881176, "grad_norm": 3.43097973, "learning_rate": 2.32e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.107935, "epoch": 0.01162591, "global_step/max_steps": "250/21503", "percentage": "1.16%", "elapsed_time": "38m 35s", "remaining_time": "2d 6h 41m 25s"}
{"eval_loss": 1.94191086, "eval_runtime": 292.9372, "eval_samples_per_second": 11.863, "eval_steps_per_second": 11.863, "epoch": 0.01162591, "global_step/max_steps": "250/21503", "percentage": "1.16%", "elapsed_time": "43m 28s", "remaining_time": "2d 13h 36m 29s"}
{"loss": 1.95601654, "token_acc": 0.61851873, "grad_norm": 4.21439123, "learning_rate": 2.37e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.096879, "epoch": 0.01185843, "global_step/max_steps": "255/21503", "percentage": "1.19%", "elapsed_time": "43m 51s", "remaining_time": "2d 12h 55m 4s"}
{"loss": 1.89167519, "token_acc": 0.62135922, "grad_norm": 2.49612665, "learning_rate": 2.42e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.097938, "epoch": 0.01209095, "global_step/max_steps": "260/21503", "percentage": "1.21%", "elapsed_time": "44m 14s", "remaining_time": "2d 12h 14m 43s"}
{"loss": 1.83499432, "token_acc": 0.61158278, "grad_norm": 2.394701, "learning_rate": 2.46e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.098953, "epoch": 0.01232347, "global_step/max_steps": "265/21503", "percentage": "1.23%", "elapsed_time": "44m 37s", "remaining_time": "2d 11h 36m 46s"}
{"loss": 1.7406538, "token_acc": 0.63808397, "grad_norm": 2.53474307, "learning_rate": 2.51e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.099965, "epoch": 0.01255599, "global_step/max_steps": "270/21503", "percentage": "1.26%", "elapsed_time": "45m 0s", "remaining_time": "2d 10h 59m 45s"}
{"loss": 1.80151711, "token_acc": 0.65116279, "grad_norm": 3.62935781, "learning_rate": 2.56e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.100974, "epoch": 0.0127885, "global_step/max_steps": "275/21503", "percentage": "1.28%", "elapsed_time": "45m 23s", "remaining_time": "2d 10h 23m 32s"}
{"loss": 1.83748074, "token_acc": 0.62732637, "grad_norm": 4.16270256, "learning_rate": 2.6e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.101975, "epoch": 0.01302102, "global_step/max_steps": "280/21503", "percentage": "1.30%", "elapsed_time": "45m 45s", "remaining_time": "2d 9h 48m 20s"}
{"loss": 1.66459389, "token_acc": 0.64144843, "grad_norm": 4.19776583, "learning_rate": 2.65e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.102915, "epoch": 0.01325354, "global_step/max_steps": "285/21503", "percentage": "1.33%", "elapsed_time": "46m 9s", "remaining_time": "2d 9h 15m 52s"}
{"loss": 1.7501997, "token_acc": 0.62644509, "grad_norm": 2.41977167, "learning_rate": 2.7e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.103873, "epoch": 0.01348606, "global_step/max_steps": "290/21503", "percentage": "1.35%", "elapsed_time": "46m 31s", "remaining_time": "2d 8h 43m 22s"}
{"loss": 1.57661037, "token_acc": 0.65761104, "grad_norm": 2.62226081, "learning_rate": 2.74e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.104818, "epoch": 0.01371858, "global_step/max_steps": "295/21503", "percentage": "1.37%", "elapsed_time": "46m 54s", "remaining_time": "2d 8h 11m 54s"}
{"loss": 1.6507225, "token_acc": 0.63942308, "grad_norm": 3.40517378, "learning_rate": 2.79e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.105736, "epoch": 0.0139511, "global_step/max_steps": "300/21503", "percentage": "1.40%", "elapsed_time": "47m 17s", "remaining_time": "2d 7h 41m 51s"}
{"eval_loss": 1.5188365, "eval_runtime": 288.759, "eval_samples_per_second": 12.034, "eval_steps_per_second": 12.034, "epoch": 0.0139511, "global_step/max_steps": "300/21503", "percentage": "1.40%", "elapsed_time": "52m 5s", "remaining_time": "2d 13h 21m 59s"}
{"loss": 1.49768829, "token_acc": 0.64391829, "grad_norm": 2.13257957, "learning_rate": 2.83e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.096836, "epoch": 0.01418361, "global_step/max_steps": "305/21503", "percentage": "1.42%", "elapsed_time": "52m 29s", "remaining_time": "2d 12h 48m 9s"}
{"loss": 1.58289499, "token_acc": 0.63426626, "grad_norm": 2.55155039, "learning_rate": 2.88e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.097711, "epoch": 0.01441613, "global_step/max_steps": "310/21503", "percentage": "1.44%", "elapsed_time": "52m 52s", "remaining_time": "2d 12h 14m 37s"}
{"loss": 1.63973274, "token_acc": 0.63918335, "grad_norm": 2.67925477, "learning_rate": 2.93e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.098569, "epoch": 0.01464865, "global_step/max_steps": "315/21503", "percentage": "1.46%", "elapsed_time": "53m 15s", "remaining_time": "2d 11h 42m 19s"}
{"loss": 1.39390478, "token_acc": 0.6882702, "grad_norm": 3.85901093, "learning_rate": 2.97e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.099432, "epoch": 0.01488117, "global_step/max_steps": "320/21503", "percentage": "1.49%", "elapsed_time": "53m 38s", "remaining_time": "2d 11h 10m 23s"}
{"loss": 1.43665218, "token_acc": 0.66543624, "grad_norm": 2.25956225, "learning_rate": 3.02e-06, "memory(GiB)": 22.09, "train_speed(iter/s)": 0.100268, "epoch": 0.01511369, "global_step/max_steps": "325/21503", "percentage": "1.51%", "elapsed_time": "54m 1s", "remaining_time": "2d 10h 39m 58s"}
{"loss": 1.52666359, "token_acc": 0.66295471, "grad_norm": 3.04572797, "learning_rate": 3.07e-06, "memory(GiB)": 24.06, "train_speed(iter/s)": 0.101072, "epoch": 0.01534621, "global_step/max_steps": "330/21503", "percentage": "1.53%", "elapsed_time": "54m 24s", "remaining_time": "2d 10h 11m 8s"}
{"loss": 1.38330002, "token_acc": 0.68416897, "grad_norm": 9.59405708, "learning_rate": 3.11e-06, "memory(GiB)": 24.06, "train_speed(iter/s)": 0.101881, "epoch": 0.01557872, "global_step/max_steps": "335/21503", "percentage": "1.56%", "elapsed_time": "54m 47s", "remaining_time": "2d 9h 42m 37s"}
{"loss": 1.58976297, "token_acc": 0.66429419, "grad_norm": 3.07502389, "learning_rate": 3.16e-06, "memory(GiB)": 24.06, "train_speed(iter/s)": 0.102694, "epoch": 0.01581124, "global_step/max_steps": "340/21503", "percentage": "1.58%", "elapsed_time": "55m 10s", "remaining_time": "2d 9h 14m 23s"}
{"loss": 1.54341869, "token_acc": 0.65428937, "grad_norm": 5.14961052, "learning_rate": 3.21e-06, "memory(GiB)": 24.06, "train_speed(iter/s)": 0.10349, "epoch": 0.01604376, "global_step/max_steps": "345/21503", "percentage": "1.60%", "elapsed_time": "55m 33s", "remaining_time": "2d 8h 47m 10s"}
{"loss": 1.45753202, "token_acc": 0.66839853, "grad_norm": 2.47346616, "learning_rate": 3.25e-06, "memory(GiB)": 24.06, "train_speed(iter/s)": 0.104276, "epoch": 0.01627628, "global_step/max_steps": "350/21503", "percentage": "1.63%", "elapsed_time": "55m 56s", "remaining_time": "2d 8h 20m 40s"}
{"eval_loss": 1.32591319, "eval_runtime": 288.2494, "eval_samples_per_second": 12.056, "eval_steps_per_second": 12.056, "epoch": 0.01627628, "global_step/max_steps": "350/21503", "percentage": "1.63%", "elapsed_time": "1h 0m 44s", "remaining_time": "2d 13h 11m 1s"}
{"loss": 1.32535391, "token_acc": 0.67440635, "grad_norm": 2.03140378, "learning_rate": 3.3e-06, "memory(GiB)": 24.06, "train_speed(iter/s)": 0.096782, "epoch": 0.0165088, "global_step/max_steps": "355/21503", "percentage": "1.65%", "elapsed_time": "1h 1m 7s", "remaining_time": "2d 12h 41m 36s"}
{"loss": 1.36739044, "token_acc": 0.70895522, "grad_norm": 2.73404098, "learning_rate": 3.35e-06, "memory(GiB)": 24.06, "train_speed(iter/s)": 0.097525, "epoch": 0.01674131, "global_step/max_steps": "360/21503", "percentage": "1.67%", "elapsed_time": "1h 1m 31s", "remaining_time": "2d 12h 13m 0s"}
{"loss": 1.38745203, "token_acc": 0.6815522, "grad_norm": 1.6114614, "learning_rate": 3.39e-06, "memory(GiB)": 24.06, "train_speed(iter/s)": 0.098261, "epoch": 0.01697383, "global_step/max_steps": "365/21503", "percentage": "1.70%", "elapsed_time": "1h 1m 54s", "remaining_time": "2d 11h 45m 6s"}
{"loss": 1.55839472, "token_acc": 0.66281834, "grad_norm": 3.49210167, "learning_rate": 3.44e-06, "memory(GiB)": 24.06, "train_speed(iter/s)": 0.098969, "epoch": 0.01720635, "global_step/max_steps": "370/21503", "percentage": "1.72%", "elapsed_time": "1h 2m 18s", "remaining_time": "2d 11h 18m 37s"}
{"loss": 1.44992504, "token_acc": 0.67388988, "grad_norm": 3.31751084, "learning_rate": 3.49e-06, "memory(GiB)": 24.06, "train_speed(iter/s)": 0.09971, "epoch": 0.01743887, "global_step/max_steps": "375/21503", "percentage": "1.74%", "elapsed_time": "1h 2m 40s", "remaining_time": "2d 10h 51m 20s"}
{"loss": 1.45532522, "token_acc": 0.67691764, "grad_norm": 1.92654538, "learning_rate": 3.53e-06, "memory(GiB)": 24.06, "train_speed(iter/s)": 0.100433, "epoch": 0.01767139, "global_step/max_steps": "380/21503", "percentage": "1.77%", "elapsed_time": "1h 3m 3s", "remaining_time": "2d 10h 25m 5s"}
{"loss": 1.45416784, "token_acc": 0.67306245, "grad_norm": 2.13533545, "learning_rate": 3.58e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.101103, "epoch": 0.01790391, "global_step/max_steps": "385/21503", "percentage": "1.79%", "elapsed_time": "1h 3m 27s", "remaining_time": "2d 10h 1m 2s"}
{"loss": 1.41499004, "token_acc": 0.67728027, "grad_norm": 3.13844562, "learning_rate": 3.62e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.101775, "epoch": 0.01813642, "global_step/max_steps": "390/21503", "percentage": "1.81%", "elapsed_time": "1h 3m 51s", "remaining_time": "2d 9h 37m 14s"}
{"loss": 1.43911591, "token_acc": 0.67683616, "grad_norm": 2.38942385, "learning_rate": 3.67e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.102484, "epoch": 0.01836894, "global_step/max_steps": "395/21503", "percentage": "1.84%", "elapsed_time": "1h 4m 14s", "remaining_time": "2d 9h 12m 30s"}
{"loss": 1.21327591, "token_acc": 0.73140367, "grad_norm": 2.09575009, "learning_rate": 3.72e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.103155, "epoch": 0.01860146, "global_step/max_steps": "400/21503", "percentage": "1.86%", "elapsed_time": "1h 4m 37s", "remaining_time": "2d 8h 49m 23s"}
{"eval_loss": 1.24323547, "eval_runtime": 290.9778, "eval_samples_per_second": 11.942, "eval_steps_per_second": 11.942, "epoch": 0.01860146, "global_step/max_steps": "400/21503", "percentage": "1.86%", "elapsed_time": "1h 9m 28s", "remaining_time": "2d 13h 5m 15s"}
{"loss": 1.31423073, "token_acc": 0.68900687, "grad_norm": 2.09786844, "learning_rate": 3.76e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.096617, "epoch": 0.01883398, "global_step/max_steps": "405/21503", "percentage": "1.88%", "elapsed_time": "1h 9m 51s", "remaining_time": "2d 12h 39m 15s"}
{"loss": 1.34693794, "token_acc": 0.69470279, "grad_norm": 2.42530727, "learning_rate": 3.81e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.09728, "epoch": 0.0190665, "global_step/max_steps": "410/21503", "percentage": "1.91%", "elapsed_time": "1h 10m 14s", "remaining_time": "2d 12h 13m 34s"}
{"loss": 1.40060444, "token_acc": 0.67599219, "grad_norm": 2.17339969, "learning_rate": 3.86e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.097936, "epoch": 0.01929902, "global_step/max_steps": "415/21503", "percentage": "1.93%", "elapsed_time": "1h 10m 37s", "remaining_time": "2d 11h 48m 30s"}
{"loss": 1.38926334, "token_acc": 0.69197952, "grad_norm": 2.70966744, "learning_rate": 3.9e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.098593, "epoch": 0.01953153, "global_step/max_steps": "420/21503", "percentage": "1.95%", "elapsed_time": "1h 10m 59s", "remaining_time": "2d 11h 23m 46s"}
{"loss": 1.34601345, "token_acc": 0.69550039, "grad_norm": 2.07855868, "learning_rate": 3.95e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.099222, "epoch": 0.01976405, "global_step/max_steps": "425/21503", "percentage": "1.98%", "elapsed_time": "1h 11m 23s", "remaining_time": "2d 11h 0m 21s"}
{"loss": 1.41882763, "token_acc": 0.68267691, "grad_norm": 2.91963959, "learning_rate": 4e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.099863, "epoch": 0.01999657, "global_step/max_steps": "430/21503", "percentage": "2.00%", "elapsed_time": "1h 11m 45s", "remaining_time": "2d 10h 36m 47s"}
{"loss": 1.35458755, "token_acc": 0.69186047, "grad_norm": 2.97773862, "learning_rate": 4.04e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.100495, "epoch": 0.02022909, "global_step/max_steps": "435/21503", "percentage": "2.02%", "elapsed_time": "1h 12m 8s", "remaining_time": "2d 10h 13m 50s"}
{"loss": 1.41374159, "token_acc": 0.68594145, "grad_norm": 2.71637464, "learning_rate": 4.09e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.101102, "epoch": 0.02046161, "global_step/max_steps": "440/21503", "percentage": "2.05%", "elapsed_time": "1h 12m 31s", "remaining_time": "2d 9h 52m 2s"}
{"loss": 1.41223059, "token_acc": 0.67153748, "grad_norm": 2.30970287, "learning_rate": 4.14e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.101712, "epoch": 0.02069413, "global_step/max_steps": "445/21503", "percentage": "2.07%", "elapsed_time": "1h 12m 54s", "remaining_time": "2d 9h 30m 23s"}
{"loss": 1.34204893, "token_acc": 0.70257305, "grad_norm": 2.96832943, "learning_rate": 4.18e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.102313, "epoch": 0.02092664, "global_step/max_steps": "450/21503", "percentage": "2.09%", "elapsed_time": "1h 13m 18s", "remaining_time": "2d 9h 9m 19s"}
{"eval_loss": 1.18842089, "eval_runtime": 290.2048, "eval_samples_per_second": 11.974, "eval_steps_per_second": 11.974, "epoch": 0.02092664, "global_step/max_steps": "450/21503", "percentage": "2.09%", "elapsed_time": "1h 18m 8s", "remaining_time": "2d 12h 55m 37s"}
{"loss": 1.28187113, "token_acc": 0.69837387, "grad_norm": 2.29786634, "learning_rate": 4.23e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.096555, "epoch": 0.02115916, "global_step/max_steps": "455/21503", "percentage": "2.12%", "elapsed_time": "1h 18m 32s", "remaining_time": "2d 12h 32m 57s"}
{"loss": 1.37337723, "token_acc": 0.6942446, "grad_norm": 3.82655263, "learning_rate": 4.28e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.097138, "epoch": 0.02139168, "global_step/max_steps": "460/21503", "percentage": "2.14%", "elapsed_time": "1h 18m 55s", "remaining_time": "2d 12h 10m 18s"}
{"loss": 1.33372316, "token_acc": 0.71665319, "grad_norm": 2.246629, "learning_rate": 4.32e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.097731, "epoch": 0.0216242, "global_step/max_steps": "465/21503", "percentage": "2.16%", "elapsed_time": "1h 19m 17s", "remaining_time": "2d 11h 47m 32s"}
{"loss": 1.40859003, "token_acc": 0.69033531, "grad_norm": 3.4111402, "learning_rate": 4.37e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.098298, "epoch": 0.02185672, "global_step/max_steps": "470/21503", "percentage": "2.19%", "elapsed_time": "1h 19m 41s", "remaining_time": "2d 11h 26m 0s"}
{"loss": 1.22948532, "token_acc": 0.72757974, "grad_norm": 3.05440378, "learning_rate": 4.41e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.09886, "epoch": 0.02208923, "global_step/max_steps": "475/21503", "percentage": "2.21%", "elapsed_time": "1h 20m 4s", "remaining_time": "2d 11h 4m 54s"}
{"loss": 1.31144314, "token_acc": 0.7130898, "grad_norm": 2.29456258, "learning_rate": 4.46e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.099429, "epoch": 0.02232175, "global_step/max_steps": "480/21503", "percentage": "2.23%", "elapsed_time": "1h 20m 27s", "remaining_time": "2d 10h 43m 45s"}
{"loss": 1.31080513, "token_acc": 0.69918454, "grad_norm": 2.63737798, "learning_rate": 4.51e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.099973, "epoch": 0.02255427, "global_step/max_steps": "485/21503", "percentage": "2.26%", "elapsed_time": "1h 20m 51s", "remaining_time": "2d 10h 23m 47s"}
{"loss": 1.20515728, "token_acc": 0.72527048, "grad_norm": 2.64344692, "learning_rate": 4.55e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.100528, "epoch": 0.02278679, "global_step/max_steps": "490/21503", "percentage": "2.28%", "elapsed_time": "1h 21m 14s", "remaining_time": "2d 10h 3m 36s"}
{"loss": 1.39738455, "token_acc": 0.6806872, "grad_norm": 2.52239799, "learning_rate": 4.6e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.101073, "epoch": 0.02301931, "global_step/max_steps": "495/21503", "percentage": "2.30%", "elapsed_time": "1h 21m 37s", "remaining_time": "2d 9h 43m 58s"}
{"loss": 1.32992954, "token_acc": 0.7066365, "grad_norm": 2.29743028, "learning_rate": 4.65e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.101625, "epoch": 0.02325183, "global_step/max_steps": "500/21503", "percentage": "2.33%", "elapsed_time": "1h 21m 59s", "remaining_time": "2d 9h 24m 21s"}
{"eval_loss": 1.14407432, "eval_runtime": 291.5453, "eval_samples_per_second": 11.919, "eval_steps_per_second": 11.919, "epoch": 0.02325183, "global_step/max_steps": "500/21503", "percentage": "2.33%", "elapsed_time": "1h 26m 51s", "remaining_time": "2d 12h 48m 28s"}
{"loss": 1.27423859, "token_acc": 0.70612896, "grad_norm": 2.43799186, "learning_rate": 4.69e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.096465, "epoch": 0.02348434, "global_step/max_steps": "505/21503", "percentage": "2.35%", "elapsed_time": "1h 27m 14s", "remaining_time": "2d 12h 27m 45s"}
{"loss": 1.19195147, "token_acc": 0.72582438, "grad_norm": 3.10161662, "learning_rate": 4.74e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.096999, "epoch": 0.02371686, "global_step/max_steps": "510/21503", "percentage": "2.37%", "elapsed_time": "1h 27m 37s", "remaining_time": "2d 12h 6m 54s"}
{"loss": 1.32237597, "token_acc": 0.70087088, "grad_norm": 2.37699199, "learning_rate": 4.79e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.097522, "epoch": 0.02394938, "global_step/max_steps": "515/21503", "percentage": "2.40%", "elapsed_time": "1h 28m 0s", "remaining_time": "2d 11h 46m 42s"}
{"loss": 1.30193024, "token_acc": 0.69758224, "grad_norm": 2.89371872, "learning_rate": 4.83e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.098045, "epoch": 0.0241819, "global_step/max_steps": "520/21503", "percentage": "2.42%", "elapsed_time": "1h 28m 23s", "remaining_time": "2d 11h 26m 45s"}
{"loss": 1.22165394, "token_acc": 0.72340426, "grad_norm": 3.2003088, "learning_rate": 4.88e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.098566, "epoch": 0.02441442, "global_step/max_steps": "525/21503", "percentage": "2.44%", "elapsed_time": "1h 28m 46s", "remaining_time": "2d 11h 7m 1s"}
{"loss": 1.11433601, "token_acc": 0.73286526, "grad_norm": 3.0782795, "learning_rate": 4.93e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.099081, "epoch": 0.02464694, "global_step/max_steps": "530/21503", "percentage": "2.46%", "elapsed_time": "1h 29m 8s", "remaining_time": "2d 10h 47m 46s"}
{"loss": 1.26429701, "token_acc": 0.70426829, "grad_norm": 2.86665249, "learning_rate": 4.97e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.09959, "epoch": 0.02487945, "global_step/max_steps": "535/21503", "percentage": "2.49%", "elapsed_time": "1h 29m 31s", "remaining_time": "2d 10h 28m 53s"}
{"loss": 1.27802324, "token_acc": 0.69662324, "grad_norm": 2.44016004, "learning_rate": 5.02e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.100089, "epoch": 0.02511197, "global_step/max_steps": "540/21503", "percentage": "2.51%", "elapsed_time": "1h 29m 54s", "remaining_time": "2d 10h 10m 34s"}
{"loss": 1.17422619, "token_acc": 0.72204344, "grad_norm": 2.83952403, "learning_rate": 5.07e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.100589, "epoch": 0.02534449, "global_step/max_steps": "545/21503", "percentage": "2.53%", "elapsed_time": "1h 30m 17s", "remaining_time": "2d 9h 52m 23s"}
{"loss": 1.19074011, "token_acc": 0.7297199, "grad_norm": 4.02303791, "learning_rate": 5.11e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.101092, "epoch": 0.02557701, "global_step/max_steps": "550/21503", "percentage": "2.56%", "elapsed_time": "1h 30m 40s", "remaining_time": "2d 9h 34m 18s"}
{"eval_loss": 1.10050607, "eval_runtime": 289.3509, "eval_samples_per_second": 12.01, "eval_steps_per_second": 12.01, "epoch": 0.02557701, "global_step/max_steps": "550/21503", "percentage": "2.56%", "elapsed_time": "1h 35m 29s", "remaining_time": "2d 12h 38m 1s"}
{"loss": 1.2625598, "token_acc": 0.71452557, "grad_norm": 2.93954873, "learning_rate": 5.16e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.096472, "epoch": 0.02580953, "global_step/max_steps": "555/21503", "percentage": "2.58%", "elapsed_time": "1h 35m 52s", "remaining_time": "2d 12h 18m 51s"}
{"loss": 1.23075485, "token_acc": 0.70898293, "grad_norm": 2.96930146, "learning_rate": 5.2e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.09695, "epoch": 0.02604205, "global_step/max_steps": "560/21503", "percentage": "2.60%", "elapsed_time": "1h 36m 15s", "remaining_time": "2d 12h 0m 10s"}
{"loss": 1.2285656, "token_acc": 0.70561018, "grad_norm": 2.33646083, "learning_rate": 5.25e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.097424, "epoch": 0.02627456, "global_step/max_steps": "565/21503", "percentage": "2.63%", "elapsed_time": "1h 36m 39s", "remaining_time": "2d 11h 41m 47s"}
{"loss": 1.22320881, "token_acc": 0.71290634, "grad_norm": 2.53693843, "learning_rate": 5.3e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.09789, "epoch": 0.02650708, "global_step/max_steps": "570/21503", "percentage": "2.65%", "elapsed_time": "1h 37m 2s", "remaining_time": "2d 11h 23m 52s"}
{"loss": 1.16940174, "token_acc": 0.73566434, "grad_norm": 2.69622564, "learning_rate": 5.34e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.098353, "epoch": 0.0267396, "global_step/max_steps": "575/21503", "percentage": "2.67%", "elapsed_time": "1h 37m 26s", "remaining_time": "2d 11h 6m 16s"}
{"loss": 1.13544083, "token_acc": 0.73601945, "grad_norm": 2.47803235, "learning_rate": 5.39e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.098816, "epoch": 0.02697212, "global_step/max_steps": "580/21503", "percentage": "2.70%", "elapsed_time": "1h 37m 49s", "remaining_time": "2d 10h 48m 47s"}
{"loss": 1.28790121, "token_acc": 0.70385086, "grad_norm": 3.7900908, "learning_rate": 5.44e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.099279, "epoch": 0.02720464, "global_step/max_steps": "585/21503", "percentage": "2.72%", "elapsed_time": "1h 38m 12s", "remaining_time": "2d 10h 31m 29s"}
{"loss": 1.35722504, "token_acc": 0.69393648, "grad_norm": 3.79700446, "learning_rate": 5.48e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.099741, "epoch": 0.02743715, "global_step/max_steps": "590/21503", "percentage": "2.74%", "elapsed_time": "1h 38m 35s", "remaining_time": "2d 10h 14m 23s"}
{"loss": 1.25159454, "token_acc": 0.72903466, "grad_norm": 3.48842168, "learning_rate": 5.53e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.1002, "epoch": 0.02766967, "global_step/max_steps": "595/21503", "percentage": "2.77%", "elapsed_time": "1h 38m 57s", "remaining_time": "2d 9h 57m 34s"}
{"loss": 1.19934645, "token_acc": 0.70916609, "grad_norm": 2.518224, "learning_rate": 5.58e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.100654, "epoch": 0.02790219, "global_step/max_steps": "600/21503", "percentage": "2.79%", "elapsed_time": "1h 39m 20s", "remaining_time": "2d 9h 41m 3s"}
{"eval_loss": 1.07325506, "eval_runtime": 290.72, "eval_samples_per_second": 11.953, "eval_steps_per_second": 11.953, "epoch": 0.02790219, "global_step/max_steps": "600/21503", "percentage": "2.79%", "elapsed_time": "1h 44m 11s", "remaining_time": "2d 12h 29m 52s"}
{"loss": 1.38220434, "token_acc": 0.72075556, "grad_norm": 2.83443904, "learning_rate": 5.62e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.096411, "epoch": 0.02813471, "global_step/max_steps": "605/21503", "percentage": "2.81%", "elapsed_time": "1h 44m 34s", "remaining_time": "2d 12h 12m 30s"}
{"loss": 1.16151781, "token_acc": 0.72275014, "grad_norm": 2.57615423, "learning_rate": 5.67e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.096857, "epoch": 0.02836723, "global_step/max_steps": "610/21503", "percentage": "2.84%", "elapsed_time": "1h 44m 57s", "remaining_time": "2d 11h 55m 1s"}
{"loss": 1.3006175, "token_acc": 0.69397173, "grad_norm": 3.25929117, "learning_rate": 5.72e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.097287, "epoch": 0.02859975, "global_step/max_steps": "615/21503", "percentage": "2.86%", "elapsed_time": "1h 45m 21s", "remaining_time": "2d 11h 38m 17s"}
{"loss": 1.25263052, "token_acc": 0.71252628, "grad_norm": 2.45303774, "learning_rate": 5.76e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.097716, "epoch": 0.02883226, "global_step/max_steps": "620/21503", "percentage": "2.88%", "elapsed_time": "1h 45m 44s", "remaining_time": "2d 11h 21m 43s"}
{"loss": 1.18861036, "token_acc": 0.7297491, "grad_norm": 4.13883686, "learning_rate": 5.81e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.098156, "epoch": 0.02906478, "global_step/max_steps": "625/21503", "percentage": "2.91%", "elapsed_time": "1h 46m 7s", "remaining_time": "2d 11h 4m 53s"}
{"loss": 1.20775805, "token_acc": 0.73325163, "grad_norm": 2.70906734, "learning_rate": 5.86e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.09859, "epoch": 0.0292973, "global_step/max_steps": "630/21503", "percentage": "2.93%", "elapsed_time": "1h 46m 29s", "remaining_time": "2d 10h 48m 26s"}
{"loss": 1.22361012, "token_acc": 0.72583543, "grad_norm": 3.34081554, "learning_rate": 5.9e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.099024, "epoch": 0.02952982, "global_step/max_steps": "635/21503", "percentage": "2.95%", "elapsed_time": "1h 46m 52s", "remaining_time": "2d 10h 32m 8s"}
{"loss": 1.21517124, "token_acc": 0.7069378, "grad_norm": 2.57181168, "learning_rate": 5.95e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.099447, "epoch": 0.02976234, "global_step/max_steps": "640/21503", "percentage": "2.98%", "elapsed_time": "1h 47m 15s", "remaining_time": "2d 10h 16m 23s"}
{"loss": 1.18829327, "token_acc": 0.73490315, "grad_norm": 3.57126403, "learning_rate": 5.99e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.099867, "epoch": 0.02999486, "global_step/max_steps": "645/21503", "percentage": "3.00%", "elapsed_time": "1h 47m 38s", "remaining_time": "2d 10h 0m 50s"}
{"loss": 1.11512899, "token_acc": 0.74696181, "grad_norm": 3.33696318, "learning_rate": 6.04e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.100287, "epoch": 0.03022737, "global_step/max_steps": "650/21503", "percentage": "3.02%", "elapsed_time": "1h 48m 1s", "remaining_time": "2d 9h 45m 24s"}
{"eval_loss": 1.03886187, "eval_runtime": 294.2553, "eval_samples_per_second": 11.809, "eval_steps_per_second": 11.809, "epoch": 0.03022737, "global_step/max_steps": "650/21503", "percentage": "3.02%", "elapsed_time": "1h 52m 55s", "remaining_time": "2d 12h 22m 45s"}
{"loss": 1.15977211, "token_acc": 0.7270051, "grad_norm": 2.69799423, "learning_rate": 6.09e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.09634, "epoch": 0.03045989, "global_step/max_steps": "655/21503", "percentage": "3.05%", "elapsed_time": "1h 53m 18s", "remaining_time": "2d 12h 6m 33s"}
{"loss": 1.04701529, "token_acc": 0.77293462, "grad_norm": 2.98612165, "learning_rate": 6.13e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.096749, "epoch": 0.03069241, "global_step/max_steps": "660/21503", "percentage": "3.07%", "elapsed_time": "1h 53m 41s", "remaining_time": "2d 11h 50m 26s"}
{"loss": 1.14909773, "token_acc": 0.73516643, "grad_norm": 2.9311285, "learning_rate": 6.18e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.097163, "epoch": 0.03092493, "global_step/max_steps": "665/21503", "percentage": "3.09%", "elapsed_time": "1h 54m 3s", "remaining_time": "2d 11h 34m 16s"}
{"loss": 1.20418444, "token_acc": 0.73352333, "grad_norm": 3.36357808, "learning_rate": 6.23e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.097577, "epoch": 0.03115745, "global_step/max_steps": "670/21503", "percentage": "3.12%", "elapsed_time": "1h 54m 26s", "remaining_time": "2d 11h 18m 16s"}
{"loss": 1.1929822, "token_acc": 0.73157416, "grad_norm": 3.21407866, "learning_rate": 6.27e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.097977, "epoch": 0.03138997, "global_step/max_steps": "675/21503", "percentage": "3.14%", "elapsed_time": "1h 54m 49s", "remaining_time": "2d 11h 2m 52s"}
{"loss": 1.01807156, "token_acc": 0.75213993, "grad_norm": 2.85745597, "learning_rate": 6.32e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.098385, "epoch": 0.03162248, "global_step/max_steps": "680/21503", "percentage": "3.16%", "elapsed_time": "1h 55m 11s", "remaining_time": "2d 10h 47m 21s"}
{"loss": 1.18946991, "token_acc": 0.73815359, "grad_norm": 3.0687995, "learning_rate": 6.37e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.098779, "epoch": 0.031855, "global_step/max_steps": "685/21503", "percentage": "3.19%", "elapsed_time": "1h 55m 34s", "remaining_time": "2d 10h 32m 25s"}
{"loss": 1.13818712, "token_acc": 0.72892562, "grad_norm": 2.56686473, "learning_rate": 6.41e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.099181, "epoch": 0.03208752, "global_step/max_steps": "690/21503", "percentage": "3.21%", "elapsed_time": "1h 55m 56s", "remaining_time": "2d 10h 17m 21s"}
{"loss": 1.16644783, "token_acc": 0.73537906, "grad_norm": 3.33421469, "learning_rate": 6.46e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.099563, "epoch": 0.03232004, "global_step/max_steps": "695/21503", "percentage": "3.23%", "elapsed_time": "1h 56m 20s", "remaining_time": "2d 10h 3m 5s"}
{"loss": 1.10686045, "token_acc": 0.70765852, "grad_norm": 2.6217947, "learning_rate": 6.51e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.099951, "epoch": 0.03255256, "global_step/max_steps": "700/21503", "percentage": "3.26%", "elapsed_time": "1h 56m 43s", "remaining_time": "2d 9h 48m 43s"}
{"eval_loss": 1.02551472, "eval_runtime": 293.8133, "eval_samples_per_second": 11.827, "eval_steps_per_second": 11.827, "epoch": 0.03255256, "global_step/max_steps": "700/21503", "percentage": "3.26%", "elapsed_time": "2h 1m 36s", "remaining_time": "2d 12h 14m 15s"}
{"loss": 1.03534031, "token_acc": 0.73277247, "grad_norm": 4.36416006, "learning_rate": 6.55e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.096298, "epoch": 0.03278507, "global_step/max_steps": "705/21503", "percentage": "3.28%", "elapsed_time": "2h 2m 0s", "remaining_time": "2d 11h 59m 27s"}
{"loss": 1.24720783, "token_acc": 0.71086088, "grad_norm": 3.82997346, "learning_rate": 6.6e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.096683, "epoch": 0.03301759, "global_step/max_steps": "710/21503", "percentage": "3.30%", "elapsed_time": "2h 2m 23s", "remaining_time": "2d 11h 44m 16s"}
{"loss": 1.04878635, "token_acc": 0.75279553, "grad_norm": 2.94730711, "learning_rate": 6.64e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.097065, "epoch": 0.03325011, "global_step/max_steps": "715/21503", "percentage": "3.33%", "elapsed_time": "2h 2m 45s", "remaining_time": "2d 11h 29m 17s"}
{"loss": 1.17601051, "token_acc": 0.7328457, "grad_norm": 3.8014946, "learning_rate": 6.69e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.097437, "epoch": 0.03348263, "global_step/max_steps": "720/21503", "percentage": "3.35%", "elapsed_time": "2h 3m 9s", "remaining_time": "2d 11h 14m 49s"}
{"loss": 1.11076403, "token_acc": 0.74623288, "grad_norm": 3.63354921, "learning_rate": 6.74e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.097817, "epoch": 0.03371515, "global_step/max_steps": "725/21503", "percentage": "3.37%", "elapsed_time": "2h 3m 31s", "remaining_time": "2d 11h 0m 9s"}
{"loss": 1.11502724, "token_acc": 0.73808658, "grad_norm": 2.4998033, "learning_rate": 6.78e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.098192, "epoch": 0.03394767, "global_step/max_steps": "730/21503", "percentage": "3.39%", "elapsed_time": "2h 3m 54s", "remaining_time": "2d 10h 45m 47s"}
{"loss": 1.22380505, "token_acc": 0.72139472, "grad_norm": 4.18846798, "learning_rate": 6.83e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.098545, "epoch": 0.03418018, "global_step/max_steps": "735/21503", "percentage": "3.42%", "elapsed_time": "2h 4m 18s", "remaining_time": "2d 10h 32m 19s"}
{"loss": 1.06118212, "token_acc": 0.7538409, "grad_norm": 3.49251938, "learning_rate": 6.88e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.098917, "epoch": 0.0344127, "global_step/max_steps": "740/21503", "percentage": "3.44%", "elapsed_time": "2h 4m 40s", "remaining_time": "2d 10h 18m 16s"}
{"loss": 1.2451375, "token_acc": 0.73036649, "grad_norm": 2.73485112, "learning_rate": 6.92e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.099281, "epoch": 0.03464522, "global_step/max_steps": "745/21503", "percentage": "3.46%", "elapsed_time": "2h 5m 3s", "remaining_time": "2d 10h 4m 36s"}
{"loss": 1.13443394, "token_acc": 0.72645349, "grad_norm": 3.92399597, "learning_rate": 6.97e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.099641, "epoch": 0.03487774, "global_step/max_steps": "750/21503", "percentage": "3.49%", "elapsed_time": "2h 5m 26s", "remaining_time": "2d 9h 51m 11s"}
{"eval_loss": 1.00620317, "eval_runtime": 293.4158, "eval_samples_per_second": 11.843, "eval_steps_per_second": 11.843, "epoch": 0.03487774, "global_step/max_steps": "750/21503", "percentage": "3.49%", "elapsed_time": "2h 10m 20s", "remaining_time": "2d 12h 6m 30s"}
{"loss": 1.09937725, "token_acc": 0.73721705, "grad_norm": 2.16709447, "learning_rate": 7.02e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.09626, "epoch": 0.03511026, "global_step/max_steps": "755/21503", "percentage": "3.51%", "elapsed_time": "2h 10m 43s", "remaining_time": "2d 11h 52m 14s"}
{"loss": 1.20842695, "token_acc": 0.7314578, "grad_norm": 3.95038819, "learning_rate": 7.06e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.096612, "epoch": 0.03534278, "global_step/max_steps": "760/21503", "percentage": "3.53%", "elapsed_time": "2h 11m 6s", "remaining_time": "2d 11h 38m 17s"}
{"loss": 1.11515846, "token_acc": 0.72911598, "grad_norm": 3.08562994, "learning_rate": 7.11e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.096965, "epoch": 0.03557529, "global_step/max_steps": "765/21503", "percentage": "3.56%", "elapsed_time": "2h 11m 29s", "remaining_time": "2d 11h 24m 24s"}
{"loss": 1.13170309, "token_acc": 0.74148148, "grad_norm": 3.87396646, "learning_rate": 7.16e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.097318, "epoch": 0.03580781, "global_step/max_steps": "770/21503", "percentage": "3.58%", "elapsed_time": "2h 11m 51s", "remaining_time": "2d 11h 10m 37s"}
{"loss": 1.10163574, "token_acc": 0.74367317, "grad_norm": 3.86269641, "learning_rate": 7.2e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.097674, "epoch": 0.03604033, "global_step/max_steps": "775/21503", "percentage": "3.60%", "elapsed_time": "2h 12m 14s", "remaining_time": "2d 10h 56m 48s"}
{"loss": 1.07286873, "token_acc": 0.75539568, "grad_norm": 3.51005769, "learning_rate": 7.25e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.09803, "epoch": 0.03627285, "global_step/max_steps": "780/21503", "percentage": "3.63%", "elapsed_time": "2h 12m 36s", "remaining_time": "2d 10h 43m 8s"}
{"loss": 1.12479286, "token_acc": 0.74763075, "grad_norm": 3.36929536, "learning_rate": 7.3e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.098369, "epoch": 0.03650537, "global_step/max_steps": "785/21503", "percentage": "3.65%", "elapsed_time": "2h 12m 59s", "remaining_time": "2d 10h 30m 8s"}
{"loss": 1.18488197, "token_acc": 0.7192464, "grad_norm": 3.49402833, "learning_rate": 7.34e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.098712, "epoch": 0.03673789, "global_step/max_steps": "790/21503", "percentage": "3.67%", "elapsed_time": "2h 13m 22s", "remaining_time": "2d 10h 17m 6s"}
{"loss": 1.0329772, "token_acc": 0.76624473, "grad_norm": 4.51655293, "learning_rate": 7.39e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.099061, "epoch": 0.0369704, "global_step/max_steps": "795/21503", "percentage": "3.70%", "elapsed_time": "2h 13m 45s", "remaining_time": "2d 10h 3m 56s"}
{"loss": 1.11657305, "token_acc": 0.74474257, "grad_norm": 3.83156371, "learning_rate": 7.43e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.099387, "epoch": 0.03720292, "global_step/max_steps": "800/21503", "percentage": "3.72%", "elapsed_time": "2h 14m 9s", "remaining_time": "2d 9h 51m 41s"}
{"eval_loss": 0.97784817, "eval_runtime": 294.7837, "eval_samples_per_second": 11.788, "eval_steps_per_second": 11.788, "epoch": 0.03720292, "global_step/max_steps": "800/21503", "percentage": "3.72%", "elapsed_time": "2h 19m 3s", "remaining_time": "2d 11h 58m 50s"}
{"loss": 1.1400898, "token_acc": 0.74089283, "grad_norm": 5.58546877, "learning_rate": 7.48e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.096205, "epoch": 0.03743544, "global_step/max_steps": "805/21503", "percentage": "3.74%", "elapsed_time": "2h 19m 27s", "remaining_time": "2d 11h 45m 39s"}
{"loss": 1.0923522, "token_acc": 0.74880219, "grad_norm": 3.92980337, "learning_rate": 7.53e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.096544, "epoch": 0.03766796, "global_step/max_steps": "810/21503", "percentage": "3.77%", "elapsed_time": "2h 19m 49s", "remaining_time": "2d 11h 32m 10s"}
{"loss": 1.08321772, "token_acc": 0.74659401, "grad_norm": 3.86280608, "learning_rate": 7.57e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.096873, "epoch": 0.03790048, "global_step/max_steps": "815/21503", "percentage": "3.79%", "elapsed_time": "2h 20m 12s", "remaining_time": "2d 11h 19m 10s"}
{"loss": 1.09801407, "token_acc": 0.75145805, "grad_norm": 3.33811879, "learning_rate": 7.62e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.097186, "epoch": 0.03813299, "global_step/max_steps": "820/21503", "percentage": "3.81%", "elapsed_time": "2h 20m 37s", "remaining_time": "2d 11h 6m 53s"}
{"loss": 1.06846933, "token_acc": 0.75678392, "grad_norm": 2.61155176, "learning_rate": 7.67e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.097519, "epoch": 0.03836551, "global_step/max_steps": "825/21503", "percentage": "3.84%", "elapsed_time": "2h 20m 59s", "remaining_time": "2d 10h 53m 54s"}
{"loss": 1.17567739, "token_acc": 0.72775611, "grad_norm": 3.8252604, "learning_rate": 7.71e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.097846, "epoch": 0.03859803, "global_step/max_steps": "830/21503", "percentage": "3.86%", "elapsed_time": "2h 21m 22s", "remaining_time": "2d 10h 41m 15s"}
{"loss": 1.12608337, "token_acc": 0.73891626, "grad_norm": 3.11779189, "learning_rate": 7.76e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.098165, "epoch": 0.03883055, "global_step/max_steps": "835/21503", "percentage": "3.88%", "elapsed_time": "2h 21m 45s", "remaining_time": "2d 10h 28m 57s"}
{"loss": 1.05237837, "token_acc": 0.7564055, "grad_norm": 3.32943988, "learning_rate": 7.81e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.098484, "epoch": 0.03906307, "global_step/max_steps": "840/21503", "percentage": "3.91%", "elapsed_time": "2h 22m 9s", "remaining_time": "2d 10h 16m 45s"}
{"loss": 1.15312243, "token_acc": 0.72978723, "grad_norm": 2.84501457, "learning_rate": 7.85e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.098796, "epoch": 0.03929559, "global_step/max_steps": "845/21503", "percentage": "3.93%", "elapsed_time": "2h 22m 32s", "remaining_time": "2d 10h 4m 51s"}
{"loss": 1.1336482, "token_acc": 0.74092179, "grad_norm": 5.25189495, "learning_rate": 7.9e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.099117, "epoch": 0.0395281, "global_step/max_steps": "850/21503", "percentage": "3.95%", "elapsed_time": "2h 22m 55s", "remaining_time": "2d 9h 52m 42s"}
{"eval_loss": 0.9617793, "eval_runtime": 292.5541, "eval_samples_per_second": 11.878, "eval_steps_per_second": 11.878, "epoch": 0.0395281, "global_step/max_steps": "850/21503", "percentage": "3.95%", "elapsed_time": "2h 27m 47s", "remaining_time": "2d 11h 51m 11s"}
{"loss": 1.14011936, "token_acc": 0.74443721, "grad_norm": 1.91781437, "learning_rate": 7.95e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.09615, "epoch": 0.03976062, "global_step/max_steps": "855/21503", "percentage": "3.98%", "elapsed_time": "2h 28m 12s", "remaining_time": "2d 11h 39m 1s"}
{"loss": 1.14574499, "token_acc": 0.72999681, "grad_norm": 4.07928658, "learning_rate": 7.99e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.096459, "epoch": 0.03999314, "global_step/max_steps": "860/21503", "percentage": "4.00%", "elapsed_time": "2h 28m 35s", "remaining_time": "2d 11h 26m 41s"}
{"loss": 1.13777237, "token_acc": 0.73705621, "grad_norm": 3.18030071, "learning_rate": 8.04e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.096769, "epoch": 0.04022566, "global_step/max_steps": "865/21503", "percentage": "4.02%", "elapsed_time": "2h 28m 58s", "remaining_time": "2d 11h 14m 24s"}
{"loss": 1.07560501, "token_acc": 0.74538052, "grad_norm": 2.78175974, "learning_rate": 8.09e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.097086, "epoch": 0.04045818, "global_step/max_steps": "870/21503", "percentage": "4.05%", "elapsed_time": "2h 29m 20s", "remaining_time": "2d 11h 1m 57s"}
{"loss": 1.11767559, "token_acc": 0.73400909, "grad_norm": 3.27338099, "learning_rate": 8.13e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.097397, "epoch": 0.0406907, "global_step/max_steps": "875/21503", "percentage": "4.07%", "elapsed_time": "2h 29m 43s", "remaining_time": "2d 10h 49m 47s"}
{"loss": 1.19179735, "token_acc": 0.73121511, "grad_norm": 3.91364336, "learning_rate": 8.18e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.097701, "epoch": 0.04092321, "global_step/max_steps": "880/21503", "percentage": "4.09%", "elapsed_time": "2h 30m 6s", "remaining_time": "2d 10h 37m 56s"}
{"loss": 1.08763351, "token_acc": 0.73076923, "grad_norm": 3.4718225, "learning_rate": 8.22e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.098007, "epoch": 0.04115573, "global_step/max_steps": "885/21503", "percentage": "4.12%", "elapsed_time": "2h 30m 29s", "remaining_time": "2d 10h 26m 5s"}
{"loss": 1.04838648, "token_acc": 0.76217875, "grad_norm": 3.93694782, "learning_rate": 8.27e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.098317, "epoch": 0.04138825, "global_step/max_steps": "890/21503", "percentage": "4.14%", "elapsed_time": "2h 30m 52s", "remaining_time": "2d 10h 14m 13s"}
{"loss": 1.12734108, "token_acc": 0.75532263, "grad_norm": 3.63314342, "learning_rate": 8.32e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.098615, "epoch": 0.04162077, "global_step/max_steps": "895/21503", "percentage": "4.16%", "elapsed_time": "2h 31m 15s", "remaining_time": "2d 10h 2m 47s"}
{"loss": 1.01501884, "token_acc": 0.78310317, "grad_norm": 4.08883762, "learning_rate": 8.36e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.098915, "epoch": 0.04185329, "global_step/max_steps": "900/21503", "percentage": "4.19%", "elapsed_time": "2h 31m 38s", "remaining_time": "2d 9h 51m 23s"}
{"eval_loss": 0.95454454, "eval_runtime": 294.6021, "eval_samples_per_second": 11.796, "eval_steps_per_second": 11.796, "epoch": 0.04185329, "global_step/max_steps": "900/21503", "percentage": "4.19%", "elapsed_time": "2h 36m 33s", "remaining_time": "2d 11h 43m 47s"}
{"loss": 1.0016798, "token_acc": 0.74869649, "grad_norm": 3.25183177, "learning_rate": 8.41e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.096115, "epoch": 0.04208581, "global_step/max_steps": "905/21503", "percentage": "4.21%", "elapsed_time": "2h 36m 55s", "remaining_time": "2d 11h 31m 39s"}
{"loss": 1.0845006, "token_acc": 0.75198893, "grad_norm": 3.46719098, "learning_rate": 8.46e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.096399, "epoch": 0.04231832, "global_step/max_steps": "910/21503", "percentage": "4.23%", "elapsed_time": "2h 37m 19s", "remaining_time": "2d 11h 20m 16s"}
{"loss": 1.23744335, "token_acc": 0.71892857, "grad_norm": 3.68651772, "learning_rate": 8.5e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.096698, "epoch": 0.04255084, "global_step/max_steps": "915/21503", "percentage": "4.26%", "elapsed_time": "2h 37m 42s", "remaining_time": "2d 11h 8m 25s"}
{"loss": 1.13731356, "token_acc": 0.74001268, "grad_norm": 4.20101452, "learning_rate": 8.55e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.096992, "epoch": 0.04278336, "global_step/max_steps": "920/21503", "percentage": "4.28%", "elapsed_time": "2h 38m 5s", "remaining_time": "2d 10h 56m 48s"}
{"loss": 1.01716652, "token_acc": 0.78443114, "grad_norm": 2.8189013, "learning_rate": 8.6e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.09729, "epoch": 0.04301588, "global_step/max_steps": "925/21503", "percentage": "4.30%", "elapsed_time": "2h 38m 27s", "remaining_time": "2d 10h 45m 6s"}
{"loss": 0.92770634, "token_acc": 0.78625134, "grad_norm": 4.29887104, "learning_rate": 8.64e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.097581, "epoch": 0.0432484, "global_step/max_steps": "930/21503", "percentage": "4.32%", "elapsed_time": "2h 38m 50s", "remaining_time": "2d 10h 33m 45s"}
{"loss": 0.9986681, "token_acc": 0.76109443, "grad_norm": 4.07652855, "learning_rate": 8.69e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.097859, "epoch": 0.04348091, "global_step/max_steps": "935/21503", "percentage": "4.35%", "elapsed_time": "2h 39m 14s", "remaining_time": "2d 10h 22m 53s"}
{"loss": 1.03350954, "token_acc": 0.77185134, "grad_norm": 3.19145942, "learning_rate": 8.74e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.098151, "epoch": 0.04371343, "global_step/max_steps": "940/21503", "percentage": "4.37%", "elapsed_time": "2h 39m 36s", "remaining_time": "2d 10h 11m 39s"}
{"loss": 1.06215763, "token_acc": 0.75340298, "grad_norm": 2.93576169, "learning_rate": 8.78e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.098419, "epoch": 0.04394595, "global_step/max_steps": "945/21503", "percentage": "4.39%", "elapsed_time": "2h 40m 1s", "remaining_time": "2d 10h 1m 18s"}
{"loss": 1.02421503, "token_acc": 0.7534153, "grad_norm": 3.61286378, "learning_rate": 8.83e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.098704, "epoch": 0.04417847, "global_step/max_steps": "950/21503", "percentage": "4.42%", "elapsed_time": "2h 40m 24s", "remaining_time": "2d 9h 50m 23s"}
{"eval_loss": 0.93315858, "eval_runtime": 296.5324, "eval_samples_per_second": 11.719, "eval_steps_per_second": 11.719, "epoch": 0.04417847, "global_step/max_steps": "950/21503", "percentage": "4.42%", "elapsed_time": "2h 45m 21s", "remaining_time": "2d 11h 37m 19s"}
{"loss": 1.00474014, "token_acc": 0.75192209, "grad_norm": 3.4591856, "learning_rate": 8.88e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.096033, "epoch": 0.04441099, "global_step/max_steps": "955/21503", "percentage": "4.44%", "elapsed_time": "2h 45m 44s", "remaining_time": "2d 11h 26m 1s"}
{"loss": 0.95733204, "token_acc": 0.79040522, "grad_norm": 4.42740536, "learning_rate": 8.92e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.096312, "epoch": 0.04464351, "global_step/max_steps": "960/21503", "percentage": "4.46%", "elapsed_time": "2h 46m 7s", "remaining_time": "2d 11h 14m 50s"}
{"loss": 1.11203842, "token_acc": 0.73958333, "grad_norm": 4.08988523, "learning_rate": 8.97e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.096591, "epoch": 0.04487602, "global_step/max_steps": "965/21503", "percentage": "4.49%", "elapsed_time": "2h 46m 30s", "remaining_time": "2d 11h 3m 42s"}
{"loss": 1.04531307, "token_acc": 0.76028547, "grad_norm": 3.35774827, "learning_rate": 9.01e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.096867, "epoch": 0.04510854, "global_step/max_steps": "970/21503", "percentage": "4.51%", "elapsed_time": "2h 46m 53s", "remaining_time": "2d 10h 52m 45s"}
{"loss": 1.18565979, "token_acc": 0.72698524, "grad_norm": 3.15411735, "learning_rate": 9.06e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.097145, "epoch": 0.04534106, "global_step/max_steps": "975/21503", "percentage": "4.53%", "elapsed_time": "2h 47m 16s", "remaining_time": "2d 10h 41m 48s"}
{"loss": 0.91308699, "token_acc": 0.77827321, "grad_norm": 3.10041189, "learning_rate": 9.11e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.097422, "epoch": 0.04557358, "global_step/max_steps": "980/21503", "percentage": "4.56%", "elapsed_time": "2h 47m 39s", "remaining_time": "2d 10h 30m 56s"}
{"loss": 0.88180075, "token_acc": 0.80054117, "grad_norm": 3.17420745, "learning_rate": 9.15e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.097697, "epoch": 0.0458061, "global_step/max_steps": "985/21503", "percentage": "4.58%", "elapsed_time": "2h 48m 1s", "remaining_time": "2d 10h 20m 12s"}
{"loss": 0.93371038, "token_acc": 0.78556786, "grad_norm": 4.51315451, "learning_rate": 9.2e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.097973, "epoch": 0.04603862, "global_step/max_steps": "990/21503", "percentage": "4.60%", "elapsed_time": "2h 48m 24s", "remaining_time": "2d 10h 9m 29s"}
{"loss": 1.10883245, "token_acc": 0.7601842, "grad_norm": 3.25443339, "learning_rate": 9.25e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.098244, "epoch": 0.04627113, "global_step/max_steps": "995/21503", "percentage": "4.63%", "elapsed_time": "2h 48m 47s", "remaining_time": "2d 9h 59m 0s"}
{"loss": 1.03168545, "token_acc": 0.74761492, "grad_norm": 3.83009863, "learning_rate": 9.29e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.098513, "epoch": 0.04650365, "global_step/max_steps": "1000/21503", "percentage": "4.65%", "elapsed_time": "2h 49m 10s", "remaining_time": "2d 9h 48m 38s"}
{"eval_loss": 0.91640216, "eval_runtime": 290.9576, "eval_samples_per_second": 11.943, "eval_steps_per_second": 11.943, "epoch": 0.04650365, "global_step/max_steps": "1000/21503", "percentage": "4.65%", "elapsed_time": "2h 54m 1s", "remaining_time": "2d 11h 28m 4s"}
{"loss": 1.06874924, "token_acc": 0.75318278, "grad_norm": 4.00234604, "learning_rate": 9.34e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.096035, "epoch": 0.04673617, "global_step/max_steps": "1005/21503", "percentage": "4.67%", "elapsed_time": "2h 54m 24s", "remaining_time": "2d 11h 17m 18s"}
{"loss": 0.94448099, "token_acc": 0.77212389, "grad_norm": 3.95639682, "learning_rate": 9.39e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.0963, "epoch": 0.04696869, "global_step/max_steps": "1010/21503", "percentage": "4.70%", "elapsed_time": "2h 54m 47s", "remaining_time": "2d 11h 6m 37s"}
{"loss": 0.94875698, "token_acc": 0.78381905, "grad_norm": 4.91559172, "learning_rate": 9.43e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.096566, "epoch": 0.04720121, "global_step/max_steps": "1015/21503", "percentage": "4.72%", "elapsed_time": "2h 55m 10s", "remaining_time": "2d 10h 56m 1s"}
{"loss": 1.02281199, "token_acc": 0.76472946, "grad_norm": 5.0508976, "learning_rate": 9.48e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.096826, "epoch": 0.04743373, "global_step/max_steps": "1020/21503", "percentage": "4.74%", "elapsed_time": "2h 55m 34s", "remaining_time": "2d 10h 45m 39s"}
{"loss": 1.02791252, "token_acc": 0.75014819, "grad_norm": 2.70613265, "learning_rate": 9.53e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.097091, "epoch": 0.04766624, "global_step/max_steps": "1025/21503", "percentage": "4.77%", "elapsed_time": "2h 55m 56s", "remaining_time": "2d 10h 35m 10s"}
{"loss": 1.08908567, "token_acc": 0.7372617, "grad_norm": 3.32219553, "learning_rate": 9.57e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.097354, "epoch": 0.04789876, "global_step/max_steps": "1030/21503", "percentage": "4.79%", "elapsed_time": "2h 56m 19s", "remaining_time": "2d 10h 24m 49s"}
{"loss": 1.07738066, "token_acc": 0.74026783, "grad_norm": 2.91230321, "learning_rate": 9.62e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.097615, "epoch": 0.04813128, "global_step/max_steps": "1035/21503", "percentage": "4.81%", "elapsed_time": "2h 56m 42s", "remaining_time": "2d 10h 14m 35s"}
{"loss": 1.07755032, "token_acc": 0.76070336, "grad_norm": 3.95108271, "learning_rate": 9.67e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.09787, "epoch": 0.0483638, "global_step/max_steps": "1040/21503", "percentage": "4.84%", "elapsed_time": "2h 57m 6s", "remaining_time": "2d 10h 4m 37s"}
{"loss": 1.19447088, "token_acc": 0.71040859, "grad_norm": 4.11801195, "learning_rate": 9.71e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.098126, "epoch": 0.04859632, "global_step/max_steps": "1045/21503", "percentage": "4.86%", "elapsed_time": "2h 57m 29s", "remaining_time": "2d 9h 54m 42s"}
{"loss": 0.96292171, "token_acc": 0.76232545, "grad_norm": 4.05741072, "learning_rate": 9.76e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.09838, "epoch": 0.04882883, "global_step/max_steps": "1050/21503", "percentage": "4.88%", "elapsed_time": "2h 57m 52s", "remaining_time": "2d 9h 44m 52s"}
{"eval_loss": 0.90480065, "eval_runtime": 290.1861, "eval_samples_per_second": 11.975, "eval_steps_per_second": 11.975, "epoch": 0.04882883, "global_step/max_steps": "1050/21503", "percentage": "4.88%", "elapsed_time": "3h 2m 42s", "remaining_time": "2d 11h 19m 4s"}
{"loss": 0.99880209, "token_acc": 0.75629608, "grad_norm": 3.13041544, "learning_rate": 9.8e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.096023, "epoch": 0.04906135, "global_step/max_steps": "1055/21503", "percentage": "4.91%", "elapsed_time": "3h 3m 6s", "remaining_time": "2d 11h 9m 5s"}
{"loss": 1.0478652, "token_acc": 0.75151709, "grad_norm": 4.30487299, "learning_rate": 9.85e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.096272, "epoch": 0.04929387, "global_step/max_steps": "1060/21503", "percentage": "4.93%", "elapsed_time": "3h 3m 30s", "remaining_time": "2d 10h 59m 0s"}
{"loss": 1.09031, "token_acc": 0.74613764, "grad_norm": 3.47502637, "learning_rate": 9.9e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.096527, "epoch": 0.04952639, "global_step/max_steps": "1065/21503", "percentage": "4.95%", "elapsed_time": "3h 3m 52s", "remaining_time": "2d 10h 48m 49s"}
{"loss": 1.05176334, "token_acc": 0.75994368, "grad_norm": 3.26833344, "learning_rate": 9.94e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.09678, "epoch": 0.04975891, "global_step/max_steps": "1070/21503", "percentage": "4.98%", "elapsed_time": "3h 4m 15s", "remaining_time": "2d 10h 38m 44s"}
{"loss": 0.99363308, "token_acc": 0.7530349, "grad_norm": 3.19771051, "learning_rate": 9.99e-06, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.097031, "epoch": 0.04999143, "global_step/max_steps": "1075/21503", "percentage": "5.00%", "elapsed_time": "3h 4m 38s", "remaining_time": "2d 10h 28m 46s"}
{"loss": 0.98405457, "token_acc": 0.76132715, "grad_norm": 3.54376245, "learning_rate": 1e-05, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.097282, "epoch": 0.05022394, "global_step/max_steps": "1080/21503", "percentage": "5.02%", "elapsed_time": "3h 5m 1s", "remaining_time": "2d 10h 18m 51s"}
{"loss": 1.02210007, "token_acc": 0.76641762, "grad_norm": 4.94469023, "learning_rate": 1e-05, "memory(GiB)": 26.73, "train_speed(iter/s)": 0.097534, "epoch": 0.05045646, "global_step/max_steps": "1085/21503", "percentage": "5.05%", "elapsed_time": "3h 5m 24s", "remaining_time": "2d 10h 8m 58s"}
{"loss": 1.06195631, "token_acc": 0.7531625, "grad_norm": 3.44166684, "learning_rate": 1e-05, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.097773, "epoch": 0.05068898, "global_step/max_steps": "1090/21503", "percentage": "5.07%", "elapsed_time": "3h 5m 48s", "remaining_time": "2d 9h 59m 35s"}
{"loss": 0.99539347, "token_acc": 0.764, "grad_norm": 5.65355349, "learning_rate": 1e-05, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.098024, "epoch": 0.0509215, "global_step/max_steps": "1095/21503", "percentage": "5.09%", "elapsed_time": "3h 6m 10s", "remaining_time": "2d 9h 49m 49s"}
{"loss": 0.98370695, "token_acc": 0.7674581, "grad_norm": 3.90419626, "learning_rate": 1e-05, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.098275, "epoch": 0.05115402, "global_step/max_steps": "1100/21503", "percentage": "5.12%", "elapsed_time": "3h 6m 32s", "remaining_time": "2d 9h 40m 6s"}
{"eval_loss": 0.8877241, "eval_runtime": 293.9743, "eval_samples_per_second": 11.821, "eval_steps_per_second": 11.821, "epoch": 0.05115402, "global_step/max_steps": "1100/21503", "percentage": "5.12%", "elapsed_time": "3h 11m 26s", "remaining_time": "2d 11h 10m 59s"}
{"loss": 1.05269213, "token_acc": 0.75918795, "grad_norm": 3.1758523, "learning_rate": 1e-05, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096001, "epoch": 0.05138654, "global_step/max_steps": "1105/21503", "percentage": "5.14%", "elapsed_time": "3h 11m 50s", "remaining_time": "2d 11h 1m 11s"}
{"loss": 1.08492622, "token_acc": 0.74470899, "grad_norm": 3.34101558, "learning_rate": 1e-05, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.09624, "epoch": 0.05161905, "global_step/max_steps": "1110/21503", "percentage": "5.16%", "elapsed_time": "3h 12m 13s", "remaining_time": "2d 10h 51m 31s"}
{"loss": 1.05944843, "token_acc": 0.74981712, "grad_norm": 4.05542088, "learning_rate": 1e-05, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096482, "epoch": 0.05185157, "global_step/max_steps": "1115/21503", "percentage": "5.19%", "elapsed_time": "3h 12m 36s", "remaining_time": "2d 10h 41m 50s"}
{"loss": 1.05081577, "token_acc": 0.77225029, "grad_norm": 3.75403857, "learning_rate": 1e-05, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096719, "epoch": 0.05208409, "global_step/max_steps": "1120/21503", "percentage": "5.21%", "elapsed_time": "3h 12m 59s", "remaining_time": "2d 10h 32m 19s"}
{"loss": 0.96738958, "token_acc": 0.76850287, "grad_norm": 3.74524236, "learning_rate": 1e-05, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096952, "epoch": 0.05231661, "global_step/max_steps": "1125/21503", "percentage": "5.23%", "elapsed_time": "3h 13m 23s", "remaining_time": "2d 10h 23m 1s"}
{"loss": 1.04619112, "token_acc": 0.75449493, "grad_norm": 2.89612675, "learning_rate": 1e-05, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.097192, "epoch": 0.05254913, "global_step/max_steps": "1130/21503", "percentage": "5.26%", "elapsed_time": "3h 13m 46s", "remaining_time": "2d 10h 13m 31s"}
{"loss": 1.13066053, "token_acc": 0.75026492, "grad_norm": 4.28461552, "learning_rate": 1e-05, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.097431, "epoch": 0.05278165, "global_step/max_steps": "1135/21503", "percentage": "5.28%", "elapsed_time": "3h 14m 9s", "remaining_time": "2d 10h 4m 5s"}
{"loss": 1.06050377, "token_acc": 0.74260012, "grad_norm": 3.70071626, "learning_rate": 1e-05, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.097663, "epoch": 0.05301416, "global_step/max_steps": "1140/21503", "percentage": "5.30%", "elapsed_time": "3h 14m 32s", "remaining_time": "2d 9h 54m 58s"}
{"loss": 1.07081642, "token_acc": 0.7607362, "grad_norm": 3.29403758, "learning_rate": 1e-05, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.097904, "epoch": 0.05324668, "global_step/max_steps": "1145/21503", "percentage": "5.32%", "elapsed_time": "3h 14m 54s", "remaining_time": "2d 9h 45m 33s"}
{"loss": 1.00813942, "token_acc": 0.76383266, "grad_norm": 3.66713214, "learning_rate": 1e-05, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.09814, "epoch": 0.0534792, "global_step/max_steps": "1150/21503", "percentage": "5.35%", "elapsed_time": "3h 15m 17s", "remaining_time": "2d 9h 36m 22s"}
{"eval_loss": 0.88252038, "eval_runtime": 293.4828, "eval_samples_per_second": 11.841, "eval_steps_per_second": 11.841, "epoch": 0.0534792, "global_step/max_steps": "1150/21503", "percentage": "5.35%", "elapsed_time": "3h 20m 11s", "remaining_time": "2d 11h 2m 56s"}
{"loss": 0.79778819, "token_acc": 0.76114313, "grad_norm": 3.00343418, "learning_rate": 1e-05, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.09597, "epoch": 0.05371172, "global_step/max_steps": "1155/21503", "percentage": "5.37%", "elapsed_time": "3h 20m 34s", "remaining_time": "2d 10h 53m 40s"}
{"loss": 1.03692369, "token_acc": 0.75748273, "grad_norm": 3.95374942, "learning_rate": 1e-05, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096205, "epoch": 0.05394424, "global_step/max_steps": "1160/21503", "percentage": "5.39%", "elapsed_time": "3h 20m 57s", "remaining_time": "2d 10h 44m 11s"}
{"loss": 1.04539204, "token_acc": 0.74144115, "grad_norm": 3.27492714, "learning_rate": 1e-05, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096432, "epoch": 0.05417675, "global_step/max_steps": "1165/21503", "percentage": "5.42%", "elapsed_time": "3h 21m 20s", "remaining_time": "2d 10h 34m 59s"}
{"loss": 1.02911844, "token_acc": 0.75811115, "grad_norm": 3.20305681, "learning_rate": 1e-05, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096664, "epoch": 0.05440927, "global_step/max_steps": "1170/21503", "percentage": "5.44%", "elapsed_time": "3h 21m 43s", "remaining_time": "2d 10h 25m 42s"}
{"loss": 0.94357347, "token_acc": 0.77076064, "grad_norm": 3.74503565, "learning_rate": 1e-05, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096896, "epoch": 0.05464179, "global_step/max_steps": "1175/21503", "percentage": "5.46%", "elapsed_time": "3h 22m 6s", "remaining_time": "2d 10h 16m 27s"}
{"loss": 0.99021387, "token_acc": 0.7555852, "grad_norm": 3.32297921, "learning_rate": 1e-05, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.097124, "epoch": 0.05487431, "global_step/max_steps": "1180/21503", "percentage": "5.49%", "elapsed_time": "3h 22m 29s", "remaining_time": "2d 10h 7m 22s"}
{"loss": 0.97593555, "token_acc": 0.75080802, "grad_norm": 3.59276462, "learning_rate": 1e-05, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.097349, "epoch": 0.05510683, "global_step/max_steps": "1185/21503", "percentage": "5.51%", "elapsed_time": "3h 22m 52s", "remaining_time": "2d 9h 58m 27s"}
{"loss": 1.01843281, "token_acc": 0.76363636, "grad_norm": 3.64249086, "learning_rate": 1e-05, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.097575, "epoch": 0.05533935, "global_step/max_steps": "1190/21503", "percentage": "5.53%", "elapsed_time": "3h 23m 15s", "remaining_time": "2d 9h 49m 33s"}
{"loss": 0.99566002, "token_acc": 0.76478873, "grad_norm": 3.22979164, "learning_rate": 1e-05, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.097806, "epoch": 0.05557186, "global_step/max_steps": "1195/21503", "percentage": "5.56%", "elapsed_time": "3h 23m 37s", "remaining_time": "2d 9h 40m 31s"}
{"loss": 1.04229069, "token_acc": 0.75354839, "grad_norm": 3.07772183, "learning_rate": 1e-05, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.098027, "epoch": 0.05580438, "global_step/max_steps": "1200/21503", "percentage": "5.58%", "elapsed_time": "3h 24m 1s", "remaining_time": "2d 9h 31m 52s"}
{"eval_loss": 0.87286764, "eval_runtime": 295.1145, "eval_samples_per_second": 11.775, "eval_steps_per_second": 11.775, "epoch": 0.05580438, "global_step/max_steps": "1200/21503", "percentage": "5.58%", "elapsed_time": "3h 28m 56s", "remaining_time": "2d 10h 55m 6s"}
{"loss": 1.00270481, "token_acc": 0.76366259, "grad_norm": 5.25012541, "learning_rate": 1e-05, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.095943, "epoch": 0.0560369, "global_step/max_steps": "1205/21503", "percentage": "5.60%", "elapsed_time": "3h 29m 19s", "remaining_time": "2d 10h 45m 59s"}
{"loss": 0.88140078, "token_acc": 0.78761062, "grad_norm": 4.0980463, "learning_rate": 1e-05, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096168, "epoch": 0.05626942, "global_step/max_steps": "1210/21503", "percentage": "5.63%", "elapsed_time": "3h 29m 41s", "remaining_time": "2d 10h 36m 51s"}
{"loss": 0.87978411, "token_acc": 0.79431563, "grad_norm": 3.95432615, "learning_rate": 1e-05, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096389, "epoch": 0.05650194, "global_step/max_steps": "1215/21503", "percentage": "5.65%", "elapsed_time": "3h 30m 4s", "remaining_time": "2d 10h 27m 55s"}
{"loss": 0.9489769, "token_acc": 0.78495146, "grad_norm": 4.67882395, "learning_rate": 1e-05, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096614, "epoch": 0.05673446, "global_step/max_steps": "1220/21503", "percentage": "5.67%", "elapsed_time": "3h 30m 27s", "remaining_time": "2d 10h 18m 54s"}
{"loss": 0.98210726, "token_acc": 0.77416038, "grad_norm": 3.33689761, "learning_rate": 1e-05, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096829, "epoch": 0.05696697, "global_step/max_steps": "1225/21503", "percentage": "5.70%", "elapsed_time": "3h 30m 50s", "remaining_time": "2d 10h 10m 15s"}
{"loss": 0.96031942, "token_acc": 0.77461887, "grad_norm": 4.51110029, "learning_rate": 1e-05, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.097046, "epoch": 0.05719949, "global_step/max_steps": "1230/21503", "percentage": "5.72%", "elapsed_time": "3h 31m 14s", "remaining_time": "2d 10h 1m 36s"}
{"loss": 0.97673578, "token_acc": 0.75997563, "grad_norm": 3.57416582, "learning_rate": 1e-05, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.097271, "epoch": 0.05743201, "global_step/max_steps": "1235/21503", "percentage": "5.74%", "elapsed_time": "3h 31m 36s", "remaining_time": "2d 9h 52m 42s"}
{"loss": 0.86037312, "token_acc": 0.79605911, "grad_norm": 3.41215968, "learning_rate": 1e-05, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.097495, "epoch": 0.05766453, "global_step/max_steps": "1240/21503", "percentage": "5.77%", "elapsed_time": "3h 31m 58s", "remaining_time": "2d 9h 43m 52s"}
{"loss": 0.96853056, "token_acc": 0.77739726, "grad_norm": 3.40506625, "learning_rate": 1e-05, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.097716, "epoch": 0.05789705, "global_step/max_steps": "1245/21503", "percentage": "5.79%", "elapsed_time": "3h 32m 20s", "remaining_time": "2d 9h 35m 10s"}
{"loss": 0.97347174, "token_acc": 0.76508916, "grad_norm": 3.66892743, "learning_rate": 1e-05, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.097939, "epoch": 0.05812956, "global_step/max_steps": "1250/21503", "percentage": "5.81%", "elapsed_time": "3h 32m 42s", "remaining_time": "2d 9h 26m 28s"}
{"eval_loss": 0.8615284, "eval_runtime": 293.4868, "eval_samples_per_second": 11.84, "eval_steps_per_second": 11.84, "epoch": 0.05812956, "global_step/max_steps": "1250/21503", "percentage": "5.81%", "elapsed_time": "3h 37m 36s", "remaining_time": "2d 10h 45m 43s"}
{"loss": 0.91868181, "token_acc": 0.76533391, "grad_norm": 2.79720473, "learning_rate": 1e-05, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.095949, "epoch": 0.05836208, "global_step/max_steps": "1255/21503", "percentage": "5.84%", "elapsed_time": "3h 37m 59s", "remaining_time": "2d 10h 37m 4s"}
{"loss": 1.01903534, "token_acc": 0.77300086, "grad_norm": 3.50545502, "learning_rate": 1e-05, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096164, "epoch": 0.0585946, "global_step/max_steps": "1260/21503", "percentage": "5.86%", "elapsed_time": "3h 38m 22s", "remaining_time": "2d 10h 28m 20s"}
{"loss": 0.85287294, "token_acc": 0.81015719, "grad_norm": 4.93830872, "learning_rate": 1e-05, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096374, "epoch": 0.05882712, "global_step/max_steps": "1265/21503", "percentage": "5.88%", "elapsed_time": "3h 38m 45s", "remaining_time": "2d 10h 19m 50s"}
{"loss": 0.95583048, "token_acc": 0.77649603, "grad_norm": 3.853333, "learning_rate": 1e-05, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096588, "epoch": 0.05905964, "global_step/max_steps": "1270/21503", "percentage": "5.91%", "elapsed_time": "3h 39m 8s", "remaining_time": "2d 10h 11m 12s"}
{"loss": 0.95202198, "token_acc": 0.7671997, "grad_norm": 3.90474391, "learning_rate": 1e-05, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096802, "epoch": 0.05929216, "global_step/max_steps": "1275/21503", "percentage": "5.93%", "elapsed_time": "3h 39m 31s", "remaining_time": "2d 10h 2m 39s"}
{"loss": 0.982549, "token_acc": 0.76888046, "grad_norm": 3.49365616, "learning_rate": 1e-05, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.097014, "epoch": 0.05952467, "global_step/max_steps": "1280/21503", "percentage": "5.95%", "elapsed_time": "3h 39m 53s", "remaining_time": "2d 9h 54m 11s"}
{"loss": 1.08083992, "token_acc": 0.75087474, "grad_norm": 5.59822464, "learning_rate": 1e-05, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.097217, "epoch": 0.05975719, "global_step/max_steps": "1285/21503", "percentage": "5.98%", "elapsed_time": "3h 40m 17s", "remaining_time": "2d 9h 46m 4s"}
{"loss": 1.00922594, "token_acc": 0.75909508, "grad_norm": 3.88796711, "learning_rate": 1e-05, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.097424, "epoch": 0.05998971, "global_step/max_steps": "1290/21503", "percentage": "6.00%", "elapsed_time": "3h 40m 40s", "remaining_time": "2d 9h 37m 50s"}
{"loss": 1.0872056, "token_acc": 0.74936061, "grad_norm": 3.63793254, "learning_rate": 1e-05, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.097631, "epoch": 0.06022223, "global_step/max_steps": "1295/21503", "percentage": "6.02%", "elapsed_time": "3h 41m 4s", "remaining_time": "2d 9h 29m 39s"}
{"loss": 0.9506485, "token_acc": 0.77123955, "grad_norm": 3.76221848, "learning_rate": 1e-05, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.097841, "epoch": 0.06045475, "global_step/max_steps": "1300/21503", "percentage": "6.05%", "elapsed_time": "3h 41m 26s", "remaining_time": "2d 9h 21m 24s"}
{"eval_loss": 0.85198486, "eval_runtime": 292.5996, "eval_samples_per_second": 11.876, "eval_steps_per_second": 11.876, "epoch": 0.06045475, "global_step/max_steps": "1300/21503", "percentage": "6.05%", "elapsed_time": "3h 46m 19s", "remaining_time": "2d 10h 37m 11s"}
{"loss": 1.14803448, "token_acc": 0.7660459, "grad_norm": 3.02272201, "learning_rate": 1e-05, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.095938, "epoch": 0.06068727, "global_step/max_steps": "1305/21503", "percentage": "6.07%", "elapsed_time": "3h 46m 42s", "remaining_time": "2d 10h 28m 48s"}
{"loss": 1.03854017, "token_acc": 0.75156714, "grad_norm": 3.4392519, "learning_rate": 1e-05, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096145, "epoch": 0.06091978, "global_step/max_steps": "1310/21503", "percentage": "6.09%", "elapsed_time": "3h 47m 4s", "remaining_time": "2d 10h 20m 22s"}
{"loss": 0.91123867, "token_acc": 0.77308192, "grad_norm": 3.68004251, "learning_rate": 1e-05, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096354, "epoch": 0.0611523, "global_step/max_steps": "1315/21503", "percentage": "6.12%", "elapsed_time": "3h 47m 27s", "remaining_time": "2d 10h 11m 55s"}
{"loss": 0.92301035, "token_acc": 0.78164884, "grad_norm": 4.80795193, "learning_rate": 1e-05, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096556, "epoch": 0.06138482, "global_step/max_steps": "1320/21503", "percentage": "6.14%", "elapsed_time": "3h 47m 50s", "remaining_time": "2d 10h 3m 44s"}
{"loss": 1.00821638, "token_acc": 0.74913375, "grad_norm": 3.86559129, "learning_rate": 1e-05, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096759, "epoch": 0.06161734, "global_step/max_steps": "1325/21503", "percentage": "6.16%", "elapsed_time": "3h 48m 13s", "remaining_time": "2d 9h 55m 35s"}
{"loss": 0.95677805, "token_acc": 0.77238551, "grad_norm": 3.15000224, "learning_rate": 1e-05, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096965, "epoch": 0.06184986, "global_step/max_steps": "1330/21503", "percentage": "6.19%", "elapsed_time": "3h 48m 36s", "remaining_time": "2d 9h 47m 19s"}
{"loss": 0.89964485, "token_acc": 0.79882526, "grad_norm": 4.78330708, "learning_rate": 1e-05, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.097167, "epoch": 0.06208238, "global_step/max_steps": "1335/21503", "percentage": "6.21%", "elapsed_time": "3h 48m 58s", "remaining_time": "2d 9h 39m 16s"}
{"loss": 0.87487288, "token_acc": 0.79571106, "grad_norm": 3.41267943, "learning_rate": 1e-05, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.097368, "epoch": 0.06231489, "global_step/max_steps": "1340/21503", "percentage": "6.23%", "elapsed_time": "3h 49m 21s", "remaining_time": "2d 9h 31m 16s"}
{"loss": 1.10704956, "token_acc": 0.74137305, "grad_norm": 3.1068635, "learning_rate": 1e-05, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.097566, "epoch": 0.06254741, "global_step/max_steps": "1345/21503", "percentage": "6.25%", "elapsed_time": "3h 49m 45s", "remaining_time": "2d 9h 23m 25s"}
{"loss": 0.8950592, "token_acc": 0.77500751, "grad_norm": 3.06647444, "learning_rate": 1e-05, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.097766, "epoch": 0.06277993, "global_step/max_steps": "1350/21503", "percentage": "6.28%", "elapsed_time": "3h 50m 8s", "remaining_time": "2d 9h 15m 31s"}
{"eval_loss": 0.86052173, "eval_runtime": 294.6974, "eval_samples_per_second": 11.792, "eval_steps_per_second": 11.792, "epoch": 0.06277993, "global_step/max_steps": "1350/21503", "percentage": "6.28%", "elapsed_time": "3h 55m 2s", "remaining_time": "2d 10h 28m 51s"}
{"loss": 1.01163368, "token_acc": 0.76740158, "grad_norm": 4.10626841, "learning_rate": 1e-05, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.095918, "epoch": 0.06301245, "global_step/max_steps": "1355/21503", "percentage": "6.30%", "elapsed_time": "3h 55m 26s", "remaining_time": "2d 10h 20m 50s"}
{"loss": 1.05627956, "token_acc": 0.74941608, "grad_norm": 3.73025942, "learning_rate": 1e-05, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096117, "epoch": 0.06324497, "global_step/max_steps": "1360/21503", "percentage": "6.32%", "elapsed_time": "3h 55m 49s", "remaining_time": "2d 10h 12m 44s"}
{"loss": 1.15303249, "token_acc": 0.71972956, "grad_norm": 4.69134855, "learning_rate": 1e-05, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096302, "epoch": 0.06347748, "global_step/max_steps": "1365/21503", "percentage": "6.35%", "elapsed_time": "3h 56m 13s", "remaining_time": "2d 10h 5m 10s"}
{"loss": 0.9282937, "token_acc": 0.75307263, "grad_norm": 4.4936223, "learning_rate": 9.99e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096499, "epoch": 0.06371, "global_step/max_steps": "1370/21503", "percentage": "6.37%", "elapsed_time": "3h 56m 36s", "remaining_time": "2d 9h 57m 10s"}
{"loss": 0.91735802, "token_acc": 0.77580429, "grad_norm": 3.88525414, "learning_rate": 9.99e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096698, "epoch": 0.06394252, "global_step/max_steps": "1375/21503", "percentage": "6.39%", "elapsed_time": "3h 56m 59s", "remaining_time": "2d 9h 49m 8s"}
{"loss": 0.96749849, "token_acc": 0.77507062, "grad_norm": 4.41610384, "learning_rate": 9.99e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096894, "epoch": 0.06417504, "global_step/max_steps": "1380/21503", "percentage": "6.42%", "elapsed_time": "3h 57m 22s", "remaining_time": "2d 9h 41m 16s"}
{"loss": 0.92664223, "token_acc": 0.79252199, "grad_norm": 4.30703926, "learning_rate": 9.99e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.097093, "epoch": 0.06440756, "global_step/max_steps": "1385/21503", "percentage": "6.44%", "elapsed_time": "3h 57m 44s", "remaining_time": "2d 9h 33m 19s"}
{"loss": 1.03162174, "token_acc": 0.75075988, "grad_norm": 3.3025949, "learning_rate": 9.99e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.097289, "epoch": 0.06464008, "global_step/max_steps": "1390/21503", "percentage": "6.46%", "elapsed_time": "3h 58m 7s", "remaining_time": "2d 9h 25m 31s"}
{"loss": 0.93254061, "token_acc": 0.77477204, "grad_norm": 3.56250644, "learning_rate": 9.99e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.097481, "epoch": 0.06487259, "global_step/max_steps": "1395/21503", "percentage": "6.49%", "elapsed_time": "3h 58m 30s", "remaining_time": "2d 9h 17m 53s"}
{"loss": 0.9729435, "token_acc": 0.76696833, "grad_norm": 2.9843564, "learning_rate": 9.99e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.097676, "epoch": 0.06510511, "global_step/max_steps": "1400/21503", "percentage": "6.51%", "elapsed_time": "3h 58m 52s", "remaining_time": "2d 9h 10m 9s"}
{"eval_loss": 0.83914012, "eval_runtime": 294.1127, "eval_samples_per_second": 11.815, "eval_steps_per_second": 11.815, "epoch": 0.06510511, "global_step/max_steps": "1400/21503", "percentage": "6.51%", "elapsed_time": "4h 3m 46s", "remaining_time": "2d 10h 20m 32s"}
{"loss": 0.94995527, "token_acc": 0.77024384, "grad_norm": 3.67090583, "learning_rate": 9.99e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.095898, "epoch": 0.06533763, "global_step/max_steps": "1405/21503", "percentage": "6.53%", "elapsed_time": "4h 4m 10s", "remaining_time": "2d 10h 12m 52s"}
{"loss": 0.87624311, "token_acc": 0.78361345, "grad_norm": 3.82916594, "learning_rate": 9.99e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096089, "epoch": 0.06557015, "global_step/max_steps": "1410/21503", "percentage": "6.56%", "elapsed_time": "4h 4m 33s", "remaining_time": "2d 10h 5m 5s"}
{"loss": 0.99308434, "token_acc": 0.7609188, "grad_norm": 5.1171608, "learning_rate": 9.99e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096282, "epoch": 0.06580267, "global_step/max_steps": "1415/21503", "percentage": "6.58%", "elapsed_time": "4h 4m 56s", "remaining_time": "2d 9h 57m 14s"}
{"loss": 1.00439358, "token_acc": 0.75562269, "grad_norm": 4.55142641, "learning_rate": 9.99e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096472, "epoch": 0.06603519, "global_step/max_steps": "1420/21503", "percentage": "6.60%", "elapsed_time": "4h 5m 19s", "remaining_time": "2d 9h 49m 31s"}
{"loss": 1.05809355, "token_acc": 0.74541208, "grad_norm": 3.71611452, "learning_rate": 9.99e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096662, "epoch": 0.0662677, "global_step/max_steps": "1425/21503", "percentage": "6.63%", "elapsed_time": "4h 5m 41s", "remaining_time": "2d 9h 41m 49s"}
{"loss": 0.89400501, "token_acc": 0.79502001, "grad_norm": 3.95344496, "learning_rate": 9.99e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096848, "epoch": 0.06650022, "global_step/max_steps": "1430/21503", "percentage": "6.65%", "elapsed_time": "4h 6m 5s", "remaining_time": "2d 9h 34m 18s"}
{"loss": 0.95887175, "token_acc": 0.77755349, "grad_norm": 4.30653048, "learning_rate": 9.99e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.097039, "epoch": 0.06673274, "global_step/max_steps": "1435/21503", "percentage": "6.67%", "elapsed_time": "4h 6m 27s", "remaining_time": "2d 9h 26m 40s"}
{"loss": 0.87652636, "token_acc": 0.79398955, "grad_norm": 4.58078289, "learning_rate": 9.99e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.097225, "epoch": 0.06696526, "global_step/max_steps": "1440/21503", "percentage": "6.70%", "elapsed_time": "4h 6m 50s", "remaining_time": "2d 9h 19m 11s"}
{"loss": 0.92465172, "token_acc": 0.78466558, "grad_norm": 3.76742196, "learning_rate": 9.99e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.097413, "epoch": 0.06719778, "global_step/max_steps": "1445/21503", "percentage": "6.72%", "elapsed_time": "4h 7m 13s", "remaining_time": "2d 9h 11m 43s"}
{"loss": 0.9379199, "token_acc": 0.7786173, "grad_norm": 4.06075096, "learning_rate": 9.99e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.097597, "epoch": 0.0674303, "global_step/max_steps": "1450/21503", "percentage": "6.74%", "elapsed_time": "4h 7m 36s", "remaining_time": "2d 9h 4m 23s"}
{"eval_loss": 0.8332929, "eval_runtime": 294.3264, "eval_samples_per_second": 11.807, "eval_steps_per_second": 11.807, "epoch": 0.0674303, "global_step/max_steps": "1450/21503", "percentage": "6.74%", "elapsed_time": "4h 12m 31s", "remaining_time": "2d 10h 12m 13s"}
{"loss": 0.86830282, "token_acc": 0.77211979, "grad_norm": 4.1459198, "learning_rate": 9.99e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.095882, "epoch": 0.06766281, "global_step/max_steps": "1455/21503", "percentage": "6.77%", "elapsed_time": "4h 12m 54s", "remaining_time": "2d 10h 4m 47s"}
{"loss": 0.88494196, "token_acc": 0.79022082, "grad_norm": 4.42700672, "learning_rate": 9.99e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096063, "epoch": 0.06789533, "global_step/max_steps": "1460/21503", "percentage": "6.79%", "elapsed_time": "4h 13m 18s", "remaining_time": "2d 9h 57m 21s"}
{"loss": 0.95501995, "token_acc": 0.77964023, "grad_norm": 4.18493414, "learning_rate": 9.99e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096248, "epoch": 0.06812785, "global_step/max_steps": "1465/21503", "percentage": "6.81%", "elapsed_time": "4h 13m 40s", "remaining_time": "2d 9h 49m 49s"}
{"loss": 0.92851334, "token_acc": 0.78710801, "grad_norm": 3.85987616, "learning_rate": 9.99e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096435, "epoch": 0.06836037, "global_step/max_steps": "1470/21503", "percentage": "6.84%", "elapsed_time": "4h 14m 3s", "remaining_time": "2d 9h 42m 13s"}
{"loss": 0.86357851, "token_acc": 0.79891531, "grad_norm": 4.54265356, "learning_rate": 9.99e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096622, "epoch": 0.06859289, "global_step/max_steps": "1475/21503", "percentage": "6.86%", "elapsed_time": "4h 14m 25s", "remaining_time": "2d 9h 34m 39s"}
{"loss": 0.89005795, "token_acc": 0.79280629, "grad_norm": 4.1457901, "learning_rate": 9.99e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096806, "epoch": 0.0688254, "global_step/max_steps": "1480/21503", "percentage": "6.88%", "elapsed_time": "4h 14m 48s", "remaining_time": "2d 9h 27m 12s"}
{"loss": 0.90372362, "token_acc": 0.79428571, "grad_norm": 4.27974272, "learning_rate": 9.99e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096986, "epoch": 0.06905792, "global_step/max_steps": "1485/21503", "percentage": "6.91%", "elapsed_time": "4h 15m 11s", "remaining_time": "2d 9h 19m 57s"}
{"loss": 0.9862875, "token_acc": 0.77007746, "grad_norm": 4.47573996, "learning_rate": 9.99e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.097165, "epoch": 0.06929044, "global_step/max_steps": "1490/21503", "percentage": "6.93%", "elapsed_time": "4h 15m 34s", "remaining_time": "2d 9h 12m 45s"}
{"loss": 1.1203702, "token_acc": 0.73711848, "grad_norm": 5.23899937, "learning_rate": 9.99e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.097343, "epoch": 0.06952296, "global_step/max_steps": "1495/21503", "percentage": "6.95%", "elapsed_time": "4h 15m 57s", "remaining_time": "2d 9h 5m 37s"}
{"loss": 0.95762062, "token_acc": 0.76714144, "grad_norm": 4.22409344, "learning_rate": 9.99e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.097524, "epoch": 0.06975548, "global_step/max_steps": "1500/21503", "percentage": "6.98%", "elapsed_time": "4h 16m 20s", "remaining_time": "2d 8h 58m 24s"}
{"eval_loss": 0.82955694, "eval_runtime": 292.0969, "eval_samples_per_second": 11.897, "eval_steps_per_second": 11.897, "epoch": 0.06975548, "global_step/max_steps": "1500/21503", "percentage": "6.98%", "elapsed_time": "4h 21m 12s", "remaining_time": "2d 10h 3m 19s"}
{"loss": 0.91638632, "token_acc": 0.77283672, "grad_norm": 4.16496754, "learning_rate": 9.99e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.095881, "epoch": 0.069988, "global_step/max_steps": "1505/21503", "percentage": "7.00%", "elapsed_time": "4h 21m 36s", "remaining_time": "2d 9h 56m 8s"}
{"loss": 0.92647791, "token_acc": 0.78057796, "grad_norm": 5.03737402, "learning_rate": 9.99e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096059, "epoch": 0.07022051, "global_step/max_steps": "1510/21503", "percentage": "7.02%", "elapsed_time": "4h 21m 59s", "remaining_time": "2d 9h 48m 48s"}
{"loss": 0.99766378, "token_acc": 0.76486486, "grad_norm": 4.99115658, "learning_rate": 9.99e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.09624, "epoch": 0.07045303, "global_step/max_steps": "1515/21503", "percentage": "7.05%", "elapsed_time": "4h 22m 21s", "remaining_time": "2d 9h 41m 25s"}
{"loss": 0.92920275, "token_acc": 0.77836762, "grad_norm": 3.67498517, "learning_rate": 9.99e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096419, "epoch": 0.07068555, "global_step/max_steps": "1520/21503", "percentage": "7.07%", "elapsed_time": "4h 22m 44s", "remaining_time": "2d 9h 34m 8s"}
{"loss": 0.99823122, "token_acc": 0.74974975, "grad_norm": 4.40843773, "learning_rate": 9.99e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096596, "epoch": 0.07091807, "global_step/max_steps": "1525/21503", "percentage": "7.09%", "elapsed_time": "4h 23m 7s", "remaining_time": "2d 9h 26m 57s"}
{"loss": 0.89682236, "token_acc": 0.77716795, "grad_norm": 4.55088329, "learning_rate": 9.99e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096768, "epoch": 0.07115059, "global_step/max_steps": "1530/21503", "percentage": "7.12%", "elapsed_time": "4h 23m 30s", "remaining_time": "2d 9h 19m 56s"}
{"loss": 0.85281563, "token_acc": 0.79413919, "grad_norm": 3.74035525, "learning_rate": 9.99e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096944, "epoch": 0.07138311, "global_step/max_steps": "1535/21503", "percentage": "7.14%", "elapsed_time": "4h 23m 53s", "remaining_time": "2d 9h 12m 50s"}
{"loss": 0.90966644, "token_acc": 0.78961474, "grad_norm": 3.60348368, "learning_rate": 9.99e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.097124, "epoch": 0.07161562, "global_step/max_steps": "1540/21503", "percentage": "7.16%", "elapsed_time": "4h 24m 15s", "remaining_time": "2d 9h 5m 37s"}
{"loss": 0.98813181, "token_acc": 0.76508761, "grad_norm": 5.13266468, "learning_rate": 9.99e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.097299, "epoch": 0.07184814, "global_step/max_steps": "1545/21503", "percentage": "7.19%", "elapsed_time": "4h 24m 38s", "remaining_time": "2d 8h 58m 37s"}
{"loss": 1.01829195, "token_acc": 0.76519666, "grad_norm": 4.33829451, "learning_rate": 9.99e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.09748, "epoch": 0.07208066, "global_step/max_steps": "1550/21503", "percentage": "7.21%", "elapsed_time": "4h 25m 0s", "remaining_time": "2d 8h 51m 24s"}
{"eval_loss": 0.82772493, "eval_runtime": 290.3989, "eval_samples_per_second": 11.966, "eval_steps_per_second": 11.966, "epoch": 0.07208066, "global_step/max_steps": "1550/21503", "percentage": "7.21%", "elapsed_time": "4h 29m 50s", "remaining_time": "2d 9h 53m 42s"}
{"loss": 0.89574099, "token_acc": 0.7736872, "grad_norm": 13.25836086, "learning_rate": 9.99e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.0959, "epoch": 0.07231318, "global_step/max_steps": "1555/21503", "percentage": "7.23%", "elapsed_time": "4h 30m 14s", "remaining_time": "2d 9h 46m 44s"}
{"loss": 0.91144495, "token_acc": 0.78504673, "grad_norm": 4.91798401, "learning_rate": 9.99e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096075, "epoch": 0.0725457, "global_step/max_steps": "1560/21503", "percentage": "7.25%", "elapsed_time": "4h 30m 37s", "remaining_time": "2d 9h 39m 34s"}
{"loss": 0.91127272, "token_acc": 0.77708203, "grad_norm": 3.79838777, "learning_rate": 9.99e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096234, "epoch": 0.07277822, "global_step/max_steps": "1565/21503", "percentage": "7.28%", "elapsed_time": "4h 31m 2s", "remaining_time": "2d 9h 32m 59s"}
{"loss": 0.99598389, "token_acc": 0.76022035, "grad_norm": 3.64941049, "learning_rate": 9.99e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096406, "epoch": 0.07301073, "global_step/max_steps": "1570/21503", "percentage": "7.30%", "elapsed_time": "4h 31m 24s", "remaining_time": "2d 9h 25m 57s"}
{"loss": 0.95792971, "token_acc": 0.7820122, "grad_norm": 5.04686594, "learning_rate": 9.99e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096577, "epoch": 0.07324325, "global_step/max_steps": "1575/21503", "percentage": "7.32%", "elapsed_time": "4h 31m 47s", "remaining_time": "2d 9h 18m 59s"}
{"loss": 0.86255989, "token_acc": 0.80798969, "grad_norm": 4.40699816, "learning_rate": 9.98e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096749, "epoch": 0.07347577, "global_step/max_steps": "1580/21503", "percentage": "7.35%", "elapsed_time": "4h 32m 10s", "remaining_time": "2d 9h 12m 2s"}
{"loss": 0.91878633, "token_acc": 0.78123752, "grad_norm": 4.63735819, "learning_rate": 9.98e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096924, "epoch": 0.07370829, "global_step/max_steps": "1585/21503", "percentage": "7.37%", "elapsed_time": "4h 32m 32s", "remaining_time": "2d 9h 4m 58s"}
{"loss": 0.83920145, "token_acc": 0.78803215, "grad_norm": 5.1311183, "learning_rate": 9.98e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.097094, "epoch": 0.07394081, "global_step/max_steps": "1590/21503", "percentage": "7.39%", "elapsed_time": "4h 32m 55s", "remaining_time": "2d 8h 58m 5s"}
{"loss": 0.84730244, "token_acc": 0.80584994, "grad_norm": 4.35877657, "learning_rate": 9.98e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.09727, "epoch": 0.07417332, "global_step/max_steps": "1595/21503", "percentage": "7.42%", "elapsed_time": "4h 33m 17s", "remaining_time": "2d 8h 51m 5s"}
{"loss": 0.94949532, "token_acc": 0.77361319, "grad_norm": 5.48931742, "learning_rate": 9.98e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.097441, "epoch": 0.07440584, "global_step/max_steps": "1600/21503", "percentage": "7.44%", "elapsed_time": "4h 33m 39s", "remaining_time": "2d 8h 44m 13s"}
{"eval_loss": 0.8192212, "eval_runtime": 293.9639, "eval_samples_per_second": 11.821, "eval_steps_per_second": 11.821, "epoch": 0.07440584, "global_step/max_steps": "1600/21503", "percentage": "7.44%", "elapsed_time": "4h 38m 33s", "remaining_time": "2d 9h 45m 10s"}
{"loss": 1.00073557, "token_acc": 0.77370703, "grad_norm": 5.05940247, "learning_rate": 9.98e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.095896, "epoch": 0.07463836, "global_step/max_steps": "1605/21503", "percentage": "7.46%", "elapsed_time": "4h 38m 56s", "remaining_time": "2d 9h 38m 12s"}
{"loss": 0.9566535, "token_acc": 0.75406805, "grad_norm": 10.87908936, "learning_rate": 9.98e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096063, "epoch": 0.07487088, "global_step/max_steps": "1610/21503", "percentage": "7.49%", "elapsed_time": "4h 39m 19s", "remaining_time": "2d 9h 31m 19s"}
{"loss": 0.88449287, "token_acc": 0.78427788, "grad_norm": 3.90667558, "learning_rate": 9.98e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096232, "epoch": 0.0751034, "global_step/max_steps": "1615/21503", "percentage": "7.51%", "elapsed_time": "4h 39m 42s", "remaining_time": "2d 9h 24m 24s"}
{"loss": 0.90097599, "token_acc": 0.78262505, "grad_norm": 4.45702076, "learning_rate": 9.98e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096398, "epoch": 0.07533592, "global_step/max_steps": "1620/21503", "percentage": "7.53%", "elapsed_time": "4h 40m 5s", "remaining_time": "2d 9h 17m 36s"}
{"loss": 0.96386919, "token_acc": 0.77937832, "grad_norm": 4.53795004, "learning_rate": 9.98e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096565, "epoch": 0.07556843, "global_step/max_steps": "1625/21503", "percentage": "7.56%", "elapsed_time": "4h 40m 27s", "remaining_time": "2d 9h 10m 48s"}
{"loss": 0.85575333, "token_acc": 0.79960861, "grad_norm": 3.76221395, "learning_rate": 9.98e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096724, "epoch": 0.07580095, "global_step/max_steps": "1630/21503", "percentage": "7.58%", "elapsed_time": "4h 40m 51s", "remaining_time": "2d 9h 4m 17s"}
{"loss": 0.94321728, "token_acc": 0.78034483, "grad_norm": 3.78380346, "learning_rate": 9.98e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096889, "epoch": 0.07603347, "global_step/max_steps": "1635/21503", "percentage": "7.60%", "elapsed_time": "4h 41m 14s", "remaining_time": "2d 8h 57m 35s"}
{"loss": 0.90493202, "token_acc": 0.79122665, "grad_norm": 4.07523918, "learning_rate": 9.98e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.097056, "epoch": 0.07626599, "global_step/max_steps": "1640/21503", "percentage": "7.63%", "elapsed_time": "4h 41m 37s", "remaining_time": "2d 8h 50m 51s"}
{"loss": 0.94585447, "token_acc": 0.77167077, "grad_norm": 3.98745441, "learning_rate": 9.98e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.097219, "epoch": 0.07649851, "global_step/max_steps": "1645/21503", "percentage": "7.65%", "elapsed_time": "4h 42m 0s", "remaining_time": "2d 8h 44m 17s"}
{"loss": 0.93258505, "token_acc": 0.78381257, "grad_norm": 3.93052697, "learning_rate": 9.98e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.097384, "epoch": 0.07673103, "global_step/max_steps": "1650/21503", "percentage": "7.67%", "elapsed_time": "4h 42m 22s", "remaining_time": "2d 8h 37m 39s"}
{"eval_loss": 0.81001562, "eval_runtime": 294.3166, "eval_samples_per_second": 11.807, "eval_steps_per_second": 11.807, "epoch": 0.07673103, "global_step/max_steps": "1650/21503", "percentage": "7.67%", "elapsed_time": "4h 47m 17s", "remaining_time": "2d 9h 36m 40s"}
{"loss": 0.94644861, "token_acc": 0.7757632, "grad_norm": 4.63912106, "learning_rate": 9.98e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.095872, "epoch": 0.07696354, "global_step/max_steps": "1655/21503", "percentage": "7.70%", "elapsed_time": "4h 47m 42s", "remaining_time": "2d 9h 30m 23s"}
{"loss": 0.96358757, "token_acc": 0.75987306, "grad_norm": 4.02019453, "learning_rate": 9.98e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096034, "epoch": 0.07719606, "global_step/max_steps": "1660/21503", "percentage": "7.72%", "elapsed_time": "4h 48m 5s", "remaining_time": "2d 9h 23m 41s"}
{"loss": 0.88977079, "token_acc": 0.78506042, "grad_norm": 3.48852396, "learning_rate": 9.98e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096196, "epoch": 0.07742858, "global_step/max_steps": "1665/21503", "percentage": "7.74%", "elapsed_time": "4h 48m 28s", "remaining_time": "2d 9h 17m 1s"}
{"loss": 0.84213276, "token_acc": 0.79237845, "grad_norm": 3.78050375, "learning_rate": 9.98e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096354, "epoch": 0.0776611, "global_step/max_steps": "1670/21503", "percentage": "7.77%", "elapsed_time": "4h 48m 51s", "remaining_time": "2d 9h 10m 31s"}
{"loss": 0.96616306, "token_acc": 0.77158684, "grad_norm": 3.94526005, "learning_rate": 9.98e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096511, "epoch": 0.07789362, "global_step/max_steps": "1675/21503", "percentage": "7.79%", "elapsed_time": "4h 49m 15s", "remaining_time": "2d 9h 4m 4s"}
{"loss": 0.89171963, "token_acc": 0.79249898, "grad_norm": 4.45942259, "learning_rate": 9.98e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096672, "epoch": 0.07812614, "global_step/max_steps": "1680/21503", "percentage": "7.81%", "elapsed_time": "4h 49m 38s", "remaining_time": "2d 8h 57m 31s"}
{"loss": 1.03151588, "token_acc": 0.7625, "grad_norm": 6.25059605, "learning_rate": 9.98e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096831, "epoch": 0.07835865, "global_step/max_steps": "1685/21503", "percentage": "7.84%", "elapsed_time": "4h 50m 1s", "remaining_time": "2d 8h 51m 2s"}
{"loss": 0.86462917, "token_acc": 0.79041096, "grad_norm": 4.47141886, "learning_rate": 9.98e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096988, "epoch": 0.07859117, "global_step/max_steps": "1690/21503", "percentage": "7.86%", "elapsed_time": "4h 50m 24s", "remaining_time": "2d 8h 44m 39s"}
{"loss": 0.9914567, "token_acc": 0.7661344, "grad_norm": 4.63034678, "learning_rate": 9.98e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.097147, "epoch": 0.07882369, "global_step/max_steps": "1695/21503", "percentage": "7.88%", "elapsed_time": "4h 50m 47s", "remaining_time": "2d 8h 38m 13s"}
{"loss": 0.88378448, "token_acc": 0.78038973, "grad_norm": 3.78625965, "learning_rate": 9.98e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.097304, "epoch": 0.07905621, "global_step/max_steps": "1700/21503", "percentage": "7.91%", "elapsed_time": "4h 51m 10s", "remaining_time": "2d 8h 31m 52s"}
{"eval_loss": 0.80906832, "eval_runtime": 294.3788, "eval_samples_per_second": 11.805, "eval_steps_per_second": 11.805, "epoch": 0.07905621, "global_step/max_steps": "1700/21503", "percentage": "7.91%", "elapsed_time": "4h 56m 5s", "remaining_time": "2d 9h 29m 2s"}
{"loss": 0.94606228, "token_acc": 0.77731995, "grad_norm": 4.50775051, "learning_rate": 9.98e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.09585, "epoch": 0.07928873, "global_step/max_steps": "1705/21503", "percentage": "7.93%", "elapsed_time": "4h 56m 28s", "remaining_time": "2d 9h 22m 29s"}
{"loss": 0.8971858, "token_acc": 0.76840889, "grad_norm": 3.47611499, "learning_rate": 9.98e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096007, "epoch": 0.07952124, "global_step/max_steps": "1710/21503", "percentage": "7.95%", "elapsed_time": "4h 56m 51s", "remaining_time": "2d 9h 16m 0s"}
{"loss": 1.00646791, "token_acc": 0.74292804, "grad_norm": 3.71231556, "learning_rate": 9.98e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096157, "epoch": 0.07975376, "global_step/max_steps": "1715/21503", "percentage": "7.98%", "elapsed_time": "4h 57m 15s", "remaining_time": "2d 9h 9m 45s"}
{"loss": 0.73534436, "token_acc": 0.82964156, "grad_norm": 3.70609474, "learning_rate": 9.98e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096317, "epoch": 0.07998628, "global_step/max_steps": "1720/21503", "percentage": "8.00%", "elapsed_time": "4h 57m 37s", "remaining_time": "2d 9h 3m 12s"}
{"loss": 0.94268408, "token_acc": 0.76790365, "grad_norm": 5.48630905, "learning_rate": 9.98e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096471, "epoch": 0.0802188, "global_step/max_steps": "1725/21503", "percentage": "8.02%", "elapsed_time": "4h 58m 0s", "remaining_time": "2d 8h 56m 52s"}
{"loss": 0.93963356, "token_acc": 0.76544343, "grad_norm": 5.59625387, "learning_rate": 9.97e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096628, "epoch": 0.08045132, "global_step/max_steps": "1730/21503", "percentage": "8.05%", "elapsed_time": "4h 58m 23s", "remaining_time": "2d 8h 50m 27s"}
{"loss": 0.81420145, "token_acc": 0.79891489, "grad_norm": 3.46860671, "learning_rate": 9.97e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096779, "epoch": 0.08068384, "global_step/max_steps": "1735/21503", "percentage": "8.07%", "elapsed_time": "4h 58m 47s", "remaining_time": "2d 8h 44m 16s"}
{"loss": 0.89122372, "token_acc": 0.78915419, "grad_norm": 4.41554928, "learning_rate": 9.97e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096933, "epoch": 0.08091635, "global_step/max_steps": "1740/21503", "percentage": "8.09%", "elapsed_time": "4h 59m 10s", "remaining_time": "2d 8h 37m 59s"}
{"loss": 0.93150215, "token_acc": 0.77050958, "grad_norm": 3.43988085, "learning_rate": 9.97e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.097084, "epoch": 0.08114887, "global_step/max_steps": "1745/21503", "percentage": "8.12%", "elapsed_time": "4h 59m 33s", "remaining_time": "2d 8h 31m 51s"}
{"loss": 0.94579601, "token_acc": 0.76631702, "grad_norm": 4.43915319, "learning_rate": 9.97e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.097239, "epoch": 0.08138139, "global_step/max_steps": "1750/21503", "percentage": "8.14%", "elapsed_time": "4h 59m 56s", "remaining_time": "2d 8h 25m 34s"}
{"eval_loss": 0.80768901, "eval_runtime": 290.1412, "eval_samples_per_second": 11.977, "eval_steps_per_second": 11.977, "epoch": 0.08138139, "global_step/max_steps": "1750/21503", "percentage": "8.14%", "elapsed_time": "5h 4m 46s", "remaining_time": "2d 9h 20m 9s"}
{"loss": 0.93951149, "token_acc": 0.77772435, "grad_norm": 3.75707984, "learning_rate": 9.97e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.09585, "epoch": 0.08161391, "global_step/max_steps": "1755/21503", "percentage": "8.16%", "elapsed_time": "5h 5m 9s", "remaining_time": "2d 9h 13m 47s"}
{"loss": 0.80059834, "token_acc": 0.80068376, "grad_norm": 4.13332987, "learning_rate": 9.97e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096004, "epoch": 0.08184643, "global_step/max_steps": "1760/21503", "percentage": "8.18%", "elapsed_time": "5h 5m 32s", "remaining_time": "2d 9h 7m 25s"}
{"loss": 0.87816601, "token_acc": 0.79588477, "grad_norm": 5.23262835, "learning_rate": 9.97e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096157, "epoch": 0.08207895, "global_step/max_steps": "1765/21503", "percentage": "8.21%", "elapsed_time": "5h 5m 55s", "remaining_time": "2d 9h 1m 5s"}
{"loss": 0.78520794, "token_acc": 0.82300557, "grad_norm": 4.80836964, "learning_rate": 9.97e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096309, "epoch": 0.08231146, "global_step/max_steps": "1770/21503", "percentage": "8.23%", "elapsed_time": "5h 6m 18s", "remaining_time": "2d 8h 54m 50s"}
{"loss": 1.06929293, "token_acc": 0.7465154, "grad_norm": 5.42658806, "learning_rate": 9.97e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096455, "epoch": 0.08254398, "global_step/max_steps": "1775/21503", "percentage": "8.25%", "elapsed_time": "5h 6m 42s", "remaining_time": "2d 8h 48m 47s"}
{"loss": 0.82122049, "token_acc": 0.80871212, "grad_norm": 4.10004377, "learning_rate": 9.97e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096608, "epoch": 0.0827765, "global_step/max_steps": "1780/21503", "percentage": "8.28%", "elapsed_time": "5h 7m 4s", "remaining_time": "2d 8h 42m 33s"}
{"loss": 0.89283791, "token_acc": 0.78983754, "grad_norm": 5.11602259, "learning_rate": 9.97e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096758, "epoch": 0.08300902, "global_step/max_steps": "1785/21503", "percentage": "8.30%", "elapsed_time": "5h 7m 27s", "remaining_time": "2d 8h 36m 23s"}
{"loss": 0.87915535, "token_acc": 0.78945386, "grad_norm": 4.06657505, "learning_rate": 9.97e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096909, "epoch": 0.08324154, "global_step/max_steps": "1790/21503", "percentage": "8.32%", "elapsed_time": "5h 7m 50s", "remaining_time": "2d 8h 30m 15s"}
{"loss": 0.80680056, "token_acc": 0.80428863, "grad_norm": 3.93967986, "learning_rate": 9.97e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.097058, "epoch": 0.08347406, "global_step/max_steps": "1795/21503", "percentage": "8.35%", "elapsed_time": "5h 8m 13s", "remaining_time": "2d 8h 24m 11s"}
{"loss": 0.95717802, "token_acc": 0.77710601, "grad_norm": 4.26198006, "learning_rate": 9.97e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.097209, "epoch": 0.08370657, "global_step/max_steps": "1800/21503", "percentage": "8.37%", "elapsed_time": "5h 8m 36s", "remaining_time": "2d 8h 18m 3s"}
{"eval_loss": 0.8003239, "eval_runtime": 291.1492, "eval_samples_per_second": 11.935, "eval_steps_per_second": 11.935, "epoch": 0.08370657, "global_step/max_steps": "1800/21503", "percentage": "8.37%", "elapsed_time": "5h 13m 27s", "remaining_time": "2d 9h 11m 10s"}
{"loss": 0.8221241, "token_acc": 0.77934509, "grad_norm": 4.32309341, "learning_rate": 9.97e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.095854, "epoch": 0.08393909, "global_step/max_steps": "1805/21503", "percentage": "8.39%", "elapsed_time": "5h 13m 50s", "remaining_time": "2d 9h 4m 57s"}
{"loss": 0.96917629, "token_acc": 0.755301, "grad_norm": 3.98958135, "learning_rate": 9.97e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.095997, "epoch": 0.08417161, "global_step/max_steps": "1810/21503", "percentage": "8.42%", "elapsed_time": "5h 14m 14s", "remaining_time": "2d 8h 58m 58s"}
{"loss": 0.84934664, "token_acc": 0.79164179, "grad_norm": 3.82400227, "learning_rate": 9.97e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096142, "epoch": 0.08440413, "global_step/max_steps": "1815/21503", "percentage": "8.44%", "elapsed_time": "5h 14m 38s", "remaining_time": "2d 8h 52m 58s"}
{"loss": 0.93029747, "token_acc": 0.75679131, "grad_norm": 5.90964651, "learning_rate": 9.97e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096292, "epoch": 0.08463665, "global_step/max_steps": "1820/21503", "percentage": "8.46%", "elapsed_time": "5h 15m 0s", "remaining_time": "2d 8h 46m 45s"}
{"loss": 1.2066061, "token_acc": 0.72059308, "grad_norm": 5.77964497, "learning_rate": 9.97e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.09644, "epoch": 0.08486916, "global_step/max_steps": "1825/21503", "percentage": "8.49%", "elapsed_time": "5h 15m 23s", "remaining_time": "2d 8h 40m 41s"}
{"loss": 0.86385231, "token_acc": 0.80136726, "grad_norm": 5.2226696, "learning_rate": 9.97e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096588, "epoch": 0.08510168, "global_step/max_steps": "1830/21503", "percentage": "8.51%", "elapsed_time": "5h 15m 46s", "remaining_time": "2d 8h 34m 36s"}
{"loss": 0.83100119, "token_acc": 0.79852725, "grad_norm": 6.20929861, "learning_rate": 9.97e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096731, "epoch": 0.0853342, "global_step/max_steps": "1835/21503", "percentage": "8.53%", "elapsed_time": "5h 16m 9s", "remaining_time": "2d 8h 28m 43s"}
{"loss": 0.81972313, "token_acc": 0.80253251, "grad_norm": 4.53877211, "learning_rate": 9.97e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096881, "epoch": 0.08556672, "global_step/max_steps": "1840/21503", "percentage": "8.56%", "elapsed_time": "5h 16m 32s", "remaining_time": "2d 8h 22m 38s"}
{"loss": 0.89759626, "token_acc": 0.79140867, "grad_norm": 4.97949457, "learning_rate": 9.97e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.09703, "epoch": 0.08579924, "global_step/max_steps": "1845/21503", "percentage": "8.58%", "elapsed_time": "5h 16m 54s", "remaining_time": "2d 8h 16m 34s"}
{"loss": 0.85449038, "token_acc": 0.80631215, "grad_norm": 4.45302916, "learning_rate": 9.96e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.09718, "epoch": 0.08603176, "global_step/max_steps": "1850/21503", "percentage": "8.60%", "elapsed_time": "5h 17m 16s", "remaining_time": "2d 8h 10m 29s"}
{"eval_loss": 0.80058157, "eval_runtime": 292.6623, "eval_samples_per_second": 11.874, "eval_steps_per_second": 11.874, "epoch": 0.08603176, "global_step/max_steps": "1850/21503", "percentage": "8.60%", "elapsed_time": "5h 22m 9s", "remaining_time": "2d 9h 2m 18s"}
{"loss": 0.87295828, "token_acc": 0.77958378, "grad_norm": 4.92840433, "learning_rate": 9.96e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.095855, "epoch": 0.08626427, "global_step/max_steps": "1855/21503", "percentage": "8.63%", "elapsed_time": "5h 22m 31s", "remaining_time": "2d 8h 56m 14s"}
{"loss": 0.95438662, "token_acc": 0.77802775, "grad_norm": 4.30800295, "learning_rate": 9.96e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096, "epoch": 0.08649679, "global_step/max_steps": "1860/21503", "percentage": "8.65%", "elapsed_time": "5h 22m 54s", "remaining_time": "2d 8h 50m 11s"}
{"loss": 0.90542316, "token_acc": 0.80084098, "grad_norm": 4.01895952, "learning_rate": 9.96e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096149, "epoch": 0.08672931, "global_step/max_steps": "1865/21503", "percentage": "8.67%", "elapsed_time": "5h 23m 16s", "remaining_time": "2d 8h 44m 3s"}
{"loss": 0.85941715, "token_acc": 0.79680213, "grad_norm": 4.41742992, "learning_rate": 9.96e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096292, "epoch": 0.08696183, "global_step/max_steps": "1870/21503", "percentage": "8.70%", "elapsed_time": "5h 23m 39s", "remaining_time": "2d 8h 38m 7s"}
{"loss": 1.0707284, "token_acc": 0.75817556, "grad_norm": 4.78807402, "learning_rate": 9.96e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096436, "epoch": 0.08719435, "global_step/max_steps": "1875/21503", "percentage": "8.72%", "elapsed_time": "5h 24m 2s", "remaining_time": "2d 8h 32m 11s"}
{"loss": 0.98190155, "token_acc": 0.76378427, "grad_norm": 4.35208035, "learning_rate": 9.96e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096579, "epoch": 0.08742687, "global_step/max_steps": "1880/21503", "percentage": "8.74%", "elapsed_time": "5h 24m 25s", "remaining_time": "2d 8h 26m 17s"}
{"loss": 0.89440098, "token_acc": 0.78130126, "grad_norm": 3.9947412, "learning_rate": 9.96e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.09672, "epoch": 0.08765938, "global_step/max_steps": "1885/21503", "percentage": "8.77%", "elapsed_time": "5h 24m 49s", "remaining_time": "2d 8h 20m 30s"}
{"loss": 0.95875959, "token_acc": 0.76409904, "grad_norm": 4.15241861, "learning_rate": 9.96e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096864, "epoch": 0.0878919, "global_step/max_steps": "1890/21503", "percentage": "8.79%", "elapsed_time": "5h 25m 11s", "remaining_time": "2d 8h 14m 36s"}
{"loss": 0.97720528, "token_acc": 0.76618831, "grad_norm": 5.07306385, "learning_rate": 9.96e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.097008, "epoch": 0.08812442, "global_step/max_steps": "1895/21503", "percentage": "8.81%", "elapsed_time": "5h 25m 34s", "remaining_time": "2d 8h 8m 45s"}
{"loss": 0.95286341, "token_acc": 0.78096524, "grad_norm": 4.31300592, "learning_rate": 9.96e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.097149, "epoch": 0.08835694, "global_step/max_steps": "1900/21503", "percentage": "8.84%", "elapsed_time": "5h 25m 57s", "remaining_time": "2d 8h 3m 0s"}
{"eval_loss": 0.7958551, "eval_runtime": 291.8739, "eval_samples_per_second": 11.906, "eval_steps_per_second": 11.906, "epoch": 0.08835694, "global_step/max_steps": "1900/21503", "percentage": "8.84%", "elapsed_time": "5h 30m 49s", "remaining_time": "2d 8h 53m 11s"}
{"loss": 0.99886637, "token_acc": 0.77867715, "grad_norm": 4.3083806, "learning_rate": 9.96e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.095854, "epoch": 0.08858946, "global_step/max_steps": "1905/21503", "percentage": "8.86%", "elapsed_time": "5h 31m 13s", "remaining_time": "2d 8h 47m 34s"}
{"loss": 0.78840737, "token_acc": 0.81758958, "grad_norm": 4.39626741, "learning_rate": 9.96e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.095997, "epoch": 0.08882198, "global_step/max_steps": "1910/21503", "percentage": "8.88%", "elapsed_time": "5h 31m 36s", "remaining_time": "2d 8h 41m 37s"}
{"loss": 0.99321404, "token_acc": 0.76603905, "grad_norm": 4.66624975, "learning_rate": 9.96e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096135, "epoch": 0.08905449, "global_step/max_steps": "1915/21503", "percentage": "8.91%", "elapsed_time": "5h 31m 59s", "remaining_time": "2d 8h 35m 51s"}
{"loss": 0.73158584, "token_acc": 0.81332798, "grad_norm": 3.91808939, "learning_rate": 9.96e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096274, "epoch": 0.08928701, "global_step/max_steps": "1920/21503", "percentage": "8.93%", "elapsed_time": "5h 32m 22s", "remaining_time": "2d 8h 30m 5s"}
{"loss": 0.95916262, "token_acc": 0.77151679, "grad_norm": 4.10879374, "learning_rate": 9.96e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096411, "epoch": 0.08951953, "global_step/max_steps": "1925/21503", "percentage": "8.95%", "elapsed_time": "5h 32m 46s", "remaining_time": "2d 8h 24m 25s"}
{"loss": 0.963696, "token_acc": 0.76989668, "grad_norm": 5.10490704, "learning_rate": 9.96e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096546, "epoch": 0.08975205, "global_step/max_steps": "1930/21503", "percentage": "8.98%", "elapsed_time": "5h 33m 10s", "remaining_time": "2d 8h 18m 50s"}
{"loss": 0.84933624, "token_acc": 0.79079354, "grad_norm": 4.10826206, "learning_rate": 9.96e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096687, "epoch": 0.08998457, "global_step/max_steps": "1935/21503", "percentage": "9.00%", "elapsed_time": "5h 33m 32s", "remaining_time": "2d 8h 13m 2s"}
{"loss": 1.04626589, "token_acc": 0.73257249, "grad_norm": 3.6645, "learning_rate": 9.96e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096823, "epoch": 0.09021708, "global_step/max_steps": "1940/21503", "percentage": "9.02%", "elapsed_time": "5h 33m 56s", "remaining_time": "2d 8h 7m 27s"}
{"loss": 0.93291655, "token_acc": 0.76824766, "grad_norm": 5.0040226, "learning_rate": 9.96e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.09696, "epoch": 0.0904496, "global_step/max_steps": "1945/21503", "percentage": "9.05%", "elapsed_time": "5h 34m 19s", "remaining_time": "2d 8h 1m 49s"}
{"loss": 0.91161995, "token_acc": 0.79006998, "grad_norm": 3.48449349, "learning_rate": 9.95e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.097095, "epoch": 0.09068212, "global_step/max_steps": "1950/21503", "percentage": "9.07%", "elapsed_time": "5h 34m 43s", "remaining_time": "2d 7h 56m 16s"}
{"eval_loss": 0.79110247, "eval_runtime": 290.3316, "eval_samples_per_second": 11.969, "eval_steps_per_second": 11.969, "epoch": 0.09068212, "global_step/max_steps": "1950/21503", "percentage": "9.07%", "elapsed_time": "5h 39m 33s", "remaining_time": "2d 8h 44m 48s"}
{"loss": 0.93764076, "token_acc": 0.78101131, "grad_norm": 5.03557539, "learning_rate": 9.95e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.095848, "epoch": 0.09091464, "global_step/max_steps": "1955/21503", "percentage": "9.09%", "elapsed_time": "5h 39m 56s", "remaining_time": "2d 8h 39m 6s"}
{"loss": 0.90363016, "token_acc": 0.78040328, "grad_norm": 5.31998014, "learning_rate": 9.95e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.095983, "epoch": 0.09114716, "global_step/max_steps": "1960/21503", "percentage": "9.12%", "elapsed_time": "5h 40m 19s", "remaining_time": "2d 8h 33m 25s"}
{"loss": 0.76579294, "token_acc": 0.81090779, "grad_norm": 4.6398387, "learning_rate": 9.95e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096118, "epoch": 0.09137968, "global_step/max_steps": "1965/21503", "percentage": "9.14%", "elapsed_time": "5h 40m 43s", "remaining_time": "2d 8h 27m 47s"}
{"loss": 0.95694304, "token_acc": 0.76550447, "grad_norm": 4.13352394, "learning_rate": 9.95e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096255, "epoch": 0.09161219, "global_step/max_steps": "1970/21503", "percentage": "9.16%", "elapsed_time": "5h 41m 6s", "remaining_time": "2d 8h 22m 7s"}
{"loss": 0.92363043, "token_acc": 0.78196023, "grad_norm": 6.16067457, "learning_rate": 9.95e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096393, "epoch": 0.09184471, "global_step/max_steps": "1975/21503", "percentage": "9.18%", "elapsed_time": "5h 41m 28s", "remaining_time": "2d 8h 16m 25s"}
{"loss": 0.93963337, "token_acc": 0.76470588, "grad_norm": 4.11731434, "learning_rate": 9.95e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096529, "epoch": 0.09207723, "global_step/max_steps": "1980/21503", "percentage": "9.21%", "elapsed_time": "5h 41m 51s", "remaining_time": "2d 8h 10m 47s"}
{"loss": 0.92366915, "token_acc": 0.78292461, "grad_norm": 3.89977169, "learning_rate": 9.95e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096665, "epoch": 0.09230975, "global_step/max_steps": "1985/21503", "percentage": "9.23%", "elapsed_time": "5h 42m 14s", "remaining_time": "2d 8h 5m 10s"}
{"loss": 0.82093353, "token_acc": 0.79892038, "grad_norm": 5.64048529, "learning_rate": 9.95e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096799, "epoch": 0.09254227, "global_step/max_steps": "1990/21503", "percentage": "9.25%", "elapsed_time": "5h 42m 37s", "remaining_time": "2d 7h 59m 40s"}
{"loss": 1.04486971, "token_acc": 0.74330503, "grad_norm": 5.08602095, "learning_rate": 9.95e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096933, "epoch": 0.09277479, "global_step/max_steps": "1995/21503", "percentage": "9.28%", "elapsed_time": "5h 43m 1s", "remaining_time": "2d 7h 54m 10s"}
{"loss": 0.86368856, "token_acc": 0.79662022, "grad_norm": 4.09328079, "learning_rate": 9.95e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.097068, "epoch": 0.0930073, "global_step/max_steps": "2000/21503", "percentage": "9.30%", "elapsed_time": "5h 43m 23s", "remaining_time": "2d 7h 48m 39s"}
{"eval_loss": 0.79610205, "eval_runtime": 289.8869, "eval_samples_per_second": 11.987, "eval_steps_per_second": 11.987, "epoch": 0.0930073, "global_step/max_steps": "2000/21503", "percentage": "9.30%", "elapsed_time": "5h 48m 13s", "remaining_time": "2d 8h 35m 46s"}
{"loss": 0.94376049, "token_acc": 0.78146929, "grad_norm": 3.60302925, "learning_rate": 9.95e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.095853, "epoch": 0.09323982, "global_step/max_steps": "2005/21503", "percentage": "9.32%", "elapsed_time": "5h 48m 37s", "remaining_time": "2d 8h 30m 12s"}
{"loss": 0.88211527, "token_acc": 0.78043912, "grad_norm": 4.16695166, "learning_rate": 9.95e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.095988, "epoch": 0.09347234, "global_step/max_steps": "2010/21503", "percentage": "9.35%", "elapsed_time": "5h 48m 59s", "remaining_time": "2d 8h 24m 34s"}
{"loss": 1.00044174, "token_acc": 0.75962166, "grad_norm": 5.03917313, "learning_rate": 9.95e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096123, "epoch": 0.09370486, "global_step/max_steps": "2015/21503", "percentage": "9.37%", "elapsed_time": "5h 49m 22s", "remaining_time": "2d 8h 18m 57s"}
{"loss": 0.90043983, "token_acc": 0.77646188, "grad_norm": 5.2166152, "learning_rate": 9.95e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096257, "epoch": 0.09393738, "global_step/max_steps": "2020/21503", "percentage": "9.39%", "elapsed_time": "5h 49m 45s", "remaining_time": "2d 8h 13m 22s"}
{"loss": 0.80030365, "token_acc": 0.80575816, "grad_norm": 3.93633914, "learning_rate": 9.95e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096393, "epoch": 0.0941699, "global_step/max_steps": "2025/21503", "percentage": "9.42%", "elapsed_time": "5h 50m 7s", "remaining_time": "2d 8h 7m 47s"}
{"loss": 0.85711308, "token_acc": 0.79004329, "grad_norm": 3.82371926, "learning_rate": 9.95e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096526, "epoch": 0.09440241, "global_step/max_steps": "2030/21503", "percentage": "9.44%", "elapsed_time": "5h 50m 30s", "remaining_time": "2d 8h 2m 15s"}
{"loss": 0.85303135, "token_acc": 0.7946363, "grad_norm": 5.70728779, "learning_rate": 9.95e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096662, "epoch": 0.09463493, "global_step/max_steps": "2035/21503", "percentage": "9.46%", "elapsed_time": "5h 50m 52s", "remaining_time": "2d 7h 56m 40s"}
{"loss": 0.85037165, "token_acc": 0.79624478, "grad_norm": 4.58215666, "learning_rate": 9.95e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096795, "epoch": 0.09486745, "global_step/max_steps": "2040/21503", "percentage": "9.49%", "elapsed_time": "5h 51m 15s", "remaining_time": "2d 7h 51m 11s"}
{"loss": 0.80945005, "token_acc": 0.80153597, "grad_norm": 5.14101553, "learning_rate": 9.94e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.09693, "epoch": 0.09509997, "global_step/max_steps": "2045/21503", "percentage": "9.51%", "elapsed_time": "5h 51m 37s", "remaining_time": "2d 7h 45m 40s"}
{"loss": 0.76848421, "token_acc": 0.80843882, "grad_norm": 5.94565105, "learning_rate": 9.94e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.097063, "epoch": 0.09533249, "global_step/max_steps": "2050/21503", "percentage": "9.53%", "elapsed_time": "5h 51m 59s", "remaining_time": "2d 7h 40m 13s"}
{"eval_loss": 0.78129005, "eval_runtime": 290.1308, "eval_samples_per_second": 11.977, "eval_steps_per_second": 11.977, "epoch": 0.09533249, "global_step/max_steps": "2050/21503", "percentage": "9.53%", "elapsed_time": "5h 56m 50s", "remaining_time": "2d 8h 26m 6s"}
{"loss": 0.78282905, "token_acc": 0.78295572, "grad_norm": 4.04123068, "learning_rate": 9.94e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.095874, "epoch": 0.095565, "global_step/max_steps": "2055/21503", "percentage": "9.56%", "elapsed_time": "5h 57m 14s", "remaining_time": "2d 8h 20m 47s"}
{"loss": 0.9211566, "token_acc": 0.77751912, "grad_norm": 5.82120848, "learning_rate": 9.94e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096006, "epoch": 0.09579752, "global_step/max_steps": "2060/21503", "percentage": "9.58%", "elapsed_time": "5h 57m 36s", "remaining_time": "2d 8h 15m 16s"}
{"loss": 0.78861084, "token_acc": 0.79065642, "grad_norm": 4.4109745, "learning_rate": 9.94e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096136, "epoch": 0.09603004, "global_step/max_steps": "2065/21503", "percentage": "9.60%", "elapsed_time": "5h 57m 59s", "remaining_time": "2d 8h 9m 49s"}
{"loss": 0.83358116, "token_acc": 0.80823442, "grad_norm": 3.87285042, "learning_rate": 9.94e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096268, "epoch": 0.09626256, "global_step/max_steps": "2070/21503", "percentage": "9.63%", "elapsed_time": "5h 58m 22s", "remaining_time": "2d 8h 4m 21s"}
{"loss": 0.87291384, "token_acc": 0.78181151, "grad_norm": 4.20451927, "learning_rate": 9.94e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096399, "epoch": 0.09649508, "global_step/max_steps": "2075/21503", "percentage": "9.65%", "elapsed_time": "5h 58m 44s", "remaining_time": "2d 7h 58m 54s"}
{"loss": 0.81171045, "token_acc": 0.8, "grad_norm": 5.91733837, "learning_rate": 9.94e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096531, "epoch": 0.0967276, "global_step/max_steps": "2080/21503", "percentage": "9.67%", "elapsed_time": "5h 59m 7s", "remaining_time": "2d 7h 53m 27s"}
{"loss": 0.90700407, "token_acc": 0.78080841, "grad_norm": 4.55299759, "learning_rate": 9.94e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096658, "epoch": 0.09696011, "global_step/max_steps": "2085/21503", "percentage": "9.70%", "elapsed_time": "5h 59m 30s", "remaining_time": "2d 7h 48m 10s"}
{"loss": 0.82578382, "token_acc": 0.81285831, "grad_norm": 3.83621645, "learning_rate": 9.94e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096791, "epoch": 0.09719263, "global_step/max_steps": "2090/21503", "percentage": "9.72%", "elapsed_time": "5h 59m 52s", "remaining_time": "2d 7h 42m 44s"}
{"loss": 0.9113821, "token_acc": 0.77995208, "grad_norm": 4.201406, "learning_rate": 9.94e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.09692, "epoch": 0.09742515, "global_step/max_steps": "2095/21503", "percentage": "9.74%", "elapsed_time": "6h 0m 15s", "remaining_time": "2d 7h 37m 24s"}
{"loss": 0.91456852, "token_acc": 0.78647215, "grad_norm": 4.38988495, "learning_rate": 9.94e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.097049, "epoch": 0.09765767, "global_step/max_steps": "2100/21503", "percentage": "9.77%", "elapsed_time": "6h 0m 38s", "remaining_time": "2d 7h 32m 8s"}
{"eval_loss": 0.78484583, "eval_runtime": 294.2657, "eval_samples_per_second": 11.809, "eval_steps_per_second": 11.809, "epoch": 0.09765767, "global_step/max_steps": "2100/21503", "percentage": "9.77%", "elapsed_time": "6h 5m 32s", "remaining_time": "2d 8h 17m 27s"}
{"loss": 0.98595982, "token_acc": 0.78285025, "grad_norm": 4.33611393, "learning_rate": 9.94e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.095873, "epoch": 0.09789019, "global_step/max_steps": "2105/21503", "percentage": "9.79%", "elapsed_time": "6h 5m 55s", "remaining_time": "2d 8h 12m 8s"}
{"loss": 0.90302181, "token_acc": 0.78165375, "grad_norm": 5.26520252, "learning_rate": 9.94e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096001, "epoch": 0.09812271, "global_step/max_steps": "2110/21503", "percentage": "9.81%", "elapsed_time": "6h 6m 18s", "remaining_time": "2d 8h 6m 45s"}
{"loss": 0.88936167, "token_acc": 0.79489292, "grad_norm": 5.06214762, "learning_rate": 9.94e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096129, "epoch": 0.09835522, "global_step/max_steps": "2115/21503", "percentage": "9.84%", "elapsed_time": "6h 6m 41s", "remaining_time": "2d 8h 1m 25s"}
{"loss": 0.86784286, "token_acc": 0.78934368, "grad_norm": 5.70812654, "learning_rate": 9.94e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096256, "epoch": 0.09858774, "global_step/max_steps": "2120/21503", "percentage": "9.86%", "elapsed_time": "6h 7m 4s", "remaining_time": "2d 7h 56m 6s"}
{"loss": 0.9081152, "token_acc": 0.77736602, "grad_norm": 5.06955862, "learning_rate": 9.94e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096378, "epoch": 0.09882026, "global_step/max_steps": "2125/21503", "percentage": "9.88%", "elapsed_time": "6h 7m 28s", "remaining_time": "2d 7h 51m 1s"}
{"loss": 0.84640636, "token_acc": 0.79572925, "grad_norm": 3.81253672, "learning_rate": 9.93e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096505, "epoch": 0.09905278, "global_step/max_steps": "2130/21503", "percentage": "9.91%", "elapsed_time": "6h 7m 51s", "remaining_time": "2d 7h 45m 43s"}
{"loss": 0.96984415, "token_acc": 0.76945813, "grad_norm": 5.07499981, "learning_rate": 9.93e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096632, "epoch": 0.0992853, "global_step/max_steps": "2135/21503", "percentage": "9.93%", "elapsed_time": "6h 8m 13s", "remaining_time": "2d 7h 40m 27s"}
{"loss": 0.8034771, "token_acc": 0.78951426, "grad_norm": 6.10270214, "learning_rate": 9.93e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096757, "epoch": 0.09951782, "global_step/max_steps": "2140/21503", "percentage": "9.95%", "elapsed_time": "6h 8m 36s", "remaining_time": "2d 7h 35m 17s"}
{"loss": 0.83479118, "token_acc": 0.79371387, "grad_norm": 6.00455475, "learning_rate": 9.93e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096885, "epoch": 0.09975033, "global_step/max_steps": "2145/21503", "percentage": "9.98%", "elapsed_time": "6h 8m 59s", "remaining_time": "2d 7h 30m 2s"}
{"loss": 0.83496952, "token_acc": 0.81604938, "grad_norm": 5.6529789, "learning_rate": 9.93e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.097009, "epoch": 0.09998285, "global_step/max_steps": "2150/21503", "percentage": "10.00%", "elapsed_time": "6h 9m 22s", "remaining_time": "2d 7h 24m 53s"}
{"eval_loss": 0.77779204, "eval_runtime": 291.8039, "eval_samples_per_second": 11.909, "eval_steps_per_second": 11.909, "epoch": 0.09998285, "global_step/max_steps": "2150/21503", "percentage": "10.00%", "elapsed_time": "6h 14m 14s", "remaining_time": "2d 8h 8m 40s"}
{"loss": 0.78582678, "token_acc": 0.78485845, "grad_norm": 5.33245087, "learning_rate": 9.93e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.095872, "epoch": 0.10021537, "global_step/max_steps": "2155/21503", "percentage": "10.02%", "elapsed_time": "6h 14m 37s", "remaining_time": "2d 8h 3m 27s"}
{"loss": 0.85725098, "token_acc": 0.79639175, "grad_norm": 5.08980179, "learning_rate": 9.93e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.095999, "epoch": 0.10044789, "global_step/max_steps": "2160/21503", "percentage": "10.05%", "elapsed_time": "6h 15m 0s", "remaining_time": "2d 7h 58m 10s"}
{"loss": 0.87317009, "token_acc": 0.79056149, "grad_norm": 4.40739059, "learning_rate": 9.93e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096124, "epoch": 0.10068041, "global_step/max_steps": "2165/21503", "percentage": "10.07%", "elapsed_time": "6h 15m 22s", "remaining_time": "2d 7h 52m 54s"}
{"loss": 0.87792215, "token_acc": 0.79944675, "grad_norm": 4.49073029, "learning_rate": 9.93e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.09625, "epoch": 0.10091292, "global_step/max_steps": "2170/21503", "percentage": "10.09%", "elapsed_time": "6h 15m 45s", "remaining_time": "2d 7h 47m 40s"}
{"loss": 0.81516209, "token_acc": 0.80995972, "grad_norm": 4.56686783, "learning_rate": 9.93e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096375, "epoch": 0.10114544, "global_step/max_steps": "2175/21503", "percentage": "10.11%", "elapsed_time": "6h 16m 7s", "remaining_time": "2d 7h 42m 28s"}
{"loss": 0.90587091, "token_acc": 0.7809948, "grad_norm": 4.89373255, "learning_rate": 9.93e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096497, "epoch": 0.10137796, "global_step/max_steps": "2180/21503", "percentage": "10.14%", "elapsed_time": "6h 16m 31s", "remaining_time": "2d 7h 37m 22s"}
{"loss": 0.8258605, "token_acc": 0.78671443, "grad_norm": 5.80238771, "learning_rate": 9.93e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.09662, "epoch": 0.10161048, "global_step/max_steps": "2185/21503", "percentage": "10.16%", "elapsed_time": "6h 16m 54s", "remaining_time": "2d 7h 32m 16s"}
{"loss": 0.7584075, "token_acc": 0.80999243, "grad_norm": 4.02666664, "learning_rate": 9.93e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096746, "epoch": 0.101843, "global_step/max_steps": "2190/21503", "percentage": "10.18%", "elapsed_time": "6h 17m 16s", "remaining_time": "2d 7h 27m 4s"}
{"loss": 0.91818323, "token_acc": 0.77401709, "grad_norm": 4.95347643, "learning_rate": 9.93e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.09687, "epoch": 0.10207552, "global_step/max_steps": "2195/21503", "percentage": "10.21%", "elapsed_time": "6h 17m 39s", "remaining_time": "2d 7h 21m 56s"}
{"loss": 0.90146217, "token_acc": 0.78003766, "grad_norm": 3.76921225, "learning_rate": 9.93e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096994, "epoch": 0.10230803, "global_step/max_steps": "2200/21503", "percentage": "10.23%", "elapsed_time": "6h 18m 1s", "remaining_time": "2d 7h 16m 51s"}
{"eval_loss": 0.77045041, "eval_runtime": 292.4552, "eval_samples_per_second": 11.882, "eval_steps_per_second": 11.882, "epoch": 0.10230803, "global_step/max_steps": "2200/21503", "percentage": "10.23%", "elapsed_time": "6h 22m 54s", "remaining_time": "2d 7h 59m 37s"}
{"loss": 0.87654791, "token_acc": 0.78536655, "grad_norm": 4.06701469, "learning_rate": 9.92e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.095879, "epoch": 0.10254055, "global_step/max_steps": "2205/21503", "percentage": "10.25%", "elapsed_time": "6h 23m 17s", "remaining_time": "2d 7h 54m 32s"}
{"loss": 0.81999636, "token_acc": 0.79888712, "grad_norm": 4.73341656, "learning_rate": 9.92e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096001, "epoch": 0.10277307, "global_step/max_steps": "2210/21503", "percentage": "10.28%", "elapsed_time": "6h 23m 40s", "remaining_time": "2d 7h 49m 24s"}
{"loss": 0.8695549, "token_acc": 0.7721366, "grad_norm": 4.05164766, "learning_rate": 9.92e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096119, "epoch": 0.10300559, "global_step/max_steps": "2215/21503", "percentage": "10.30%", "elapsed_time": "6h 24m 4s", "remaining_time": "2d 7h 44m 26s"}
{"loss": 0.86308041, "token_acc": 0.7895303, "grad_norm": 4.61349869, "learning_rate": 9.92e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.09624, "epoch": 0.10323811, "global_step/max_steps": "2220/21503", "percentage": "10.32%", "elapsed_time": "6h 24m 27s", "remaining_time": "2d 7h 39m 20s"}
{"loss": 0.86684284, "token_acc": 0.77586207, "grad_norm": 5.26629353, "learning_rate": 9.92e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096363, "epoch": 0.10347063, "global_step/max_steps": "2225/21503", "percentage": "10.35%", "elapsed_time": "6h 24m 49s", "remaining_time": "2d 7h 34m 14s"}
{"loss": 0.90194864, "token_acc": 0.77606461, "grad_norm": 4.55531454, "learning_rate": 9.92e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096484, "epoch": 0.10370314, "global_step/max_steps": "2230/21503", "percentage": "10.37%", "elapsed_time": "6h 25m 12s", "remaining_time": "2d 7h 29m 10s"}
{"loss": 0.85851049, "token_acc": 0.79473684, "grad_norm": 4.66454935, "learning_rate": 9.92e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096605, "epoch": 0.10393566, "global_step/max_steps": "2235/21503", "percentage": "10.39%", "elapsed_time": "6h 25m 35s", "remaining_time": "2d 7h 24m 9s"}
{"loss": 0.96630144, "token_acc": 0.77364865, "grad_norm": 3.99629211, "learning_rate": 9.92e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096721, "epoch": 0.10416818, "global_step/max_steps": "2240/21503", "percentage": "10.42%", "elapsed_time": "6h 25m 59s", "remaining_time": "2d 7h 19m 19s"}
{"loss": 0.8347146, "token_acc": 0.79480287, "grad_norm": 5.35971022, "learning_rate": 9.92e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096841, "epoch": 0.1044007, "global_step/max_steps": "2245/21503", "percentage": "10.44%", "elapsed_time": "6h 26m 22s", "remaining_time": "2d 7h 14m 20s"}
{"loss": 0.99610882, "token_acc": 0.76792144, "grad_norm": 4.49590445, "learning_rate": 9.92e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096961, "epoch": 0.10463322, "global_step/max_steps": "2250/21503", "percentage": "10.46%", "elapsed_time": "6h 26m 45s", "remaining_time": "2d 7h 9m 22s"}
{"eval_loss": 0.77125669, "eval_runtime": 291.6294, "eval_samples_per_second": 11.916, "eval_steps_per_second": 11.916, "epoch": 0.10463322, "global_step/max_steps": "2250/21503", "percentage": "10.46%", "elapsed_time": "6h 31m 36s", "remaining_time": "2d 7h 50m 58s"}
{"loss": 0.79248881, "token_acc": 0.78626822, "grad_norm": 4.5353055, "learning_rate": 9.92e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.095876, "epoch": 0.10486574, "global_step/max_steps": "2255/21503", "percentage": "10.49%", "elapsed_time": "6h 31m 59s", "remaining_time": "2d 7h 45m 57s"}
{"loss": 0.85473557, "token_acc": 0.7923463, "grad_norm": 4.19755507, "learning_rate": 9.92e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.095994, "epoch": 0.10509825, "global_step/max_steps": "2260/21503", "percentage": "10.51%", "elapsed_time": "6h 32m 22s", "remaining_time": "2d 7h 40m 58s"}
{"loss": 0.87526503, "token_acc": 0.78560606, "grad_norm": 4.67282724, "learning_rate": 9.92e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096114, "epoch": 0.10533077, "global_step/max_steps": "2265/21503", "percentage": "10.53%", "elapsed_time": "6h 32m 45s", "remaining_time": "2d 7h 35m 55s"}
{"loss": 0.8720295, "token_acc": 0.79191151, "grad_norm": 5.36490393, "learning_rate": 9.92e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096231, "epoch": 0.10556329, "global_step/max_steps": "2270/21503", "percentage": "10.56%", "elapsed_time": "6h 33m 8s", "remaining_time": "2d 7h 31m 0s"}
{"loss": 0.8258626, "token_acc": 0.80750971, "grad_norm": 4.76203585, "learning_rate": 9.92e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096349, "epoch": 0.10579581, "global_step/max_steps": "2275/21503", "percentage": "10.58%", "elapsed_time": "6h 33m 31s", "remaining_time": "2d 7h 26m 4s"}
{"loss": 0.87250853, "token_acc": 0.79122747, "grad_norm": 4.82027769, "learning_rate": 9.91e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096465, "epoch": 0.10602833, "global_step/max_steps": "2280/21503", "percentage": "10.60%", "elapsed_time": "6h 33m 55s", "remaining_time": "2d 7h 21m 12s"}
{"loss": 0.83829842, "token_acc": 0.81198123, "grad_norm": 4.2000556, "learning_rate": 9.91e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096584, "epoch": 0.10626084, "global_step/max_steps": "2285/21503", "percentage": "10.63%", "elapsed_time": "6h 34m 17s", "remaining_time": "2d 7h 16m 15s"}
{"loss": 0.87157459, "token_acc": 0.79060791, "grad_norm": 4.27080441, "learning_rate": 9.91e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096702, "epoch": 0.10649336, "global_step/max_steps": "2290/21503", "percentage": "10.65%", "elapsed_time": "6h 34m 40s", "remaining_time": "2d 7h 11m 20s"}
{"loss": 0.8795125, "token_acc": 0.78843338, "grad_norm": 4.38137436, "learning_rate": 9.91e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096816, "epoch": 0.10672588, "global_step/max_steps": "2295/21503", "percentage": "10.67%", "elapsed_time": "6h 35m 4s", "remaining_time": "2d 7h 6m 34s"}
{"loss": 0.94015331, "token_acc": 0.7745098, "grad_norm": 5.97080231, "learning_rate": 9.91e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096934, "epoch": 0.1069584, "global_step/max_steps": "2300/21503", "percentage": "10.70%", "elapsed_time": "6h 35m 27s", "remaining_time": "2d 7h 1m 41s"}
{"eval_loss": 0.76558214, "eval_runtime": 291.9701, "eval_samples_per_second": 11.902, "eval_steps_per_second": 11.902, "epoch": 0.1069584, "global_step/max_steps": "2300/21503", "percentage": "10.70%", "elapsed_time": "6h 40m 19s", "remaining_time": "2d 7h 42m 19s"}
{"loss": 0.88905487, "token_acc": 0.78638855, "grad_norm": 6.10489893, "learning_rate": 9.91e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.095866, "epoch": 0.10719092, "global_step/max_steps": "2305/21503", "percentage": "10.72%", "elapsed_time": "6h 40m 43s", "remaining_time": "2d 7h 37m 37s"}
{"loss": 0.89204712, "token_acc": 0.78704422, "grad_norm": 3.87349439, "learning_rate": 9.91e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.095981, "epoch": 0.10742344, "global_step/max_steps": "2310/21503", "percentage": "10.74%", "elapsed_time": "6h 41m 6s", "remaining_time": "2d 7h 32m 44s"}
{"loss": 0.91511641, "token_acc": 0.7836443, "grad_norm": 5.02906704, "learning_rate": 9.91e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096095, "epoch": 0.10765595, "global_step/max_steps": "2315/21503", "percentage": "10.77%", "elapsed_time": "6h 41m 30s", "remaining_time": "2d 7h 27m 56s"}
{"loss": 0.88557949, "token_acc": 0.78573673, "grad_norm": 3.31823063, "learning_rate": 9.91e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096209, "epoch": 0.10788847, "global_step/max_steps": "2320/21503", "percentage": "10.79%", "elapsed_time": "6h 41m 53s", "remaining_time": "2d 7h 23m 6s"}
{"loss": 0.96418762, "token_acc": 0.76624204, "grad_norm": 5.19747686, "learning_rate": 9.91e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096324, "epoch": 0.10812099, "global_step/max_steps": "2325/21503", "percentage": "10.81%", "elapsed_time": "6h 42m 17s", "remaining_time": "2d 7h 18m 17s"}
{"loss": 0.90299702, "token_acc": 0.7849345, "grad_norm": 5.31919479, "learning_rate": 9.91e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096438, "epoch": 0.10835351, "global_step/max_steps": "2330/21503", "percentage": "10.84%", "elapsed_time": "6h 42m 40s", "remaining_time": "2d 7h 13m 28s"}
{"loss": 0.73685598, "token_acc": 0.82422052, "grad_norm": 4.61937332, "learning_rate": 9.91e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096555, "epoch": 0.10858603, "global_step/max_steps": "2335/21503", "percentage": "10.86%", "elapsed_time": "6h 43m 2s", "remaining_time": "2d 7h 8m 37s"}
{"loss": 0.86249409, "token_acc": 0.80193034, "grad_norm": 9.94503212, "learning_rate": 9.91e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096672, "epoch": 0.10881855, "global_step/max_steps": "2340/21503", "percentage": "10.88%", "elapsed_time": "6h 43m 25s", "remaining_time": "2d 7h 3m 44s"}
{"loss": 0.8212513, "token_acc": 0.79413702, "grad_norm": 4.20167303, "learning_rate": 9.91e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.09679, "epoch": 0.10905106, "global_step/max_steps": "2345/21503", "percentage": "10.91%", "elapsed_time": "6h 43m 47s", "remaining_time": "2d 6h 58m 52s"}
{"loss": 0.89040794, "token_acc": 0.78113553, "grad_norm": 3.60850835, "learning_rate": 9.9e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096907, "epoch": 0.10928358, "global_step/max_steps": "2350/21503", "percentage": "10.93%", "elapsed_time": "6h 44m 9s", "remaining_time": "2d 6h 54m 1s"}
{"eval_loss": 0.76847082, "eval_runtime": 290.2717, "eval_samples_per_second": 11.972, "eval_steps_per_second": 11.972, "epoch": 0.10928358, "global_step/max_steps": "2350/21503", "percentage": "10.93%", "elapsed_time": "6h 49m 0s", "remaining_time": "2d 7h 33m 27s"}
{"loss": 0.81980152, "token_acc": 0.78748838, "grad_norm": 5.38826466, "learning_rate": 9.9e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.095876, "epoch": 0.1095161, "global_step/max_steps": "2355/21503", "percentage": "10.95%", "elapsed_time": "6h 49m 22s", "remaining_time": "2d 7h 28m 33s"}
{"loss": 0.96253643, "token_acc": 0.7716895, "grad_norm": 4.69479179, "learning_rate": 9.9e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.095987, "epoch": 0.10974862, "global_step/max_steps": "2360/21503", "percentage": "10.98%", "elapsed_time": "6h 49m 46s", "remaining_time": "2d 7h 23m 50s"}
{"loss": 0.99322472, "token_acc": 0.71871001, "grad_norm": 4.65196943, "learning_rate": 9.9e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.0961, "epoch": 0.10998114, "global_step/max_steps": "2365/21503", "percentage": "11.00%", "elapsed_time": "6h 50m 9s", "remaining_time": "2d 7h 19m 5s"}
{"loss": 0.92222347, "token_acc": 0.78353023, "grad_norm": 8.8111515, "learning_rate": 9.9e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.09621, "epoch": 0.11021366, "global_step/max_steps": "2370/21503", "percentage": "11.02%", "elapsed_time": "6h 50m 33s", "remaining_time": "2d 7h 14m 24s"}
{"loss": 0.84861946, "token_acc": 0.78651685, "grad_norm": 5.53246164, "learning_rate": 9.9e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096321, "epoch": 0.11044617, "global_step/max_steps": "2375/21503", "percentage": "11.04%", "elapsed_time": "6h 50m 56s", "remaining_time": "2d 7h 9m 43s"}
{"loss": 0.7777493, "token_acc": 0.8072542, "grad_norm": 5.29058123, "learning_rate": 9.9e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096434, "epoch": 0.11067869, "global_step/max_steps": "2380/21503", "percentage": "11.07%", "elapsed_time": "6h 51m 19s", "remaining_time": "2d 7h 4m 59s"}
{"loss": 0.83485985, "token_acc": 0.80353101, "grad_norm": 5.49309683, "learning_rate": 9.9e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096549, "epoch": 0.11091121, "global_step/max_steps": "2385/21503", "percentage": "11.09%", "elapsed_time": "6h 51m 42s", "remaining_time": "2d 7h 0m 10s"}
{"loss": 0.95534992, "token_acc": 0.77363897, "grad_norm": 6.4952445, "learning_rate": 9.9e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096661, "epoch": 0.11114373, "global_step/max_steps": "2390/21503", "percentage": "11.11%", "elapsed_time": "6h 52m 5s", "remaining_time": "2d 6h 55m 30s"}
{"loss": 0.86759548, "token_acc": 0.79601282, "grad_norm": 4.44533062, "learning_rate": 9.9e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096775, "epoch": 0.11137625, "global_step/max_steps": "2395/21503", "percentage": "11.14%", "elapsed_time": "6h 52m 27s", "remaining_time": "2d 6h 50m 46s"}
{"loss": 0.77136984, "token_acc": 0.81731533, "grad_norm": 4.41538048, "learning_rate": 9.9e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096889, "epoch": 0.11160876, "global_step/max_steps": "2400/21503", "percentage": "11.16%", "elapsed_time": "6h 52m 50s", "remaining_time": "2d 6h 46m 1s"}
{"eval_loss": 0.75907826, "eval_runtime": 293.8879, "eval_samples_per_second": 11.824, "eval_steps_per_second": 11.824, "epoch": 0.11160876, "global_step/max_steps": "2400/21503", "percentage": "11.16%", "elapsed_time": "6h 57m 44s", "remaining_time": "2d 7h 25m 1s"}
{"loss": 0.89450331, "token_acc": 0.78783083, "grad_norm": 5.60589886, "learning_rate": 9.9e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.095865, "epoch": 0.11184128, "global_step/max_steps": "2405/21503", "percentage": "11.18%", "elapsed_time": "6h 58m 7s", "remaining_time": "2d 7h 20m 15s"}
{"loss": 0.80875978, "token_acc": 0.79227824, "grad_norm": 4.75605202, "learning_rate": 9.9e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.095976, "epoch": 0.1120738, "global_step/max_steps": "2410/21503", "percentage": "11.21%", "elapsed_time": "6h 58m 30s", "remaining_time": "2d 7h 15m 32s"}
{"loss": 0.86852064, "token_acc": 0.78604294, "grad_norm": 5.70089293, "learning_rate": 9.89e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096088, "epoch": 0.11230632, "global_step/max_steps": "2415/21503", "percentage": "11.23%", "elapsed_time": "6h 58m 52s", "remaining_time": "2d 7h 10m 48s"}
{"loss": 0.89429245, "token_acc": 0.78818737, "grad_norm": 4.86554289, "learning_rate": 9.89e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096202, "epoch": 0.11253884, "global_step/max_steps": "2420/21503", "percentage": "11.25%", "elapsed_time": "6h 59m 15s", "remaining_time": "2d 7h 6m 2s"}
{"loss": 0.81223984, "token_acc": 0.8057725, "grad_norm": 4.80360746, "learning_rate": 9.89e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096315, "epoch": 0.11277136, "global_step/max_steps": "2425/21503", "percentage": "11.28%", "elapsed_time": "6h 59m 37s", "remaining_time": "2d 7h 1m 16s"}
{"loss": 0.79878106, "token_acc": 0.79716467, "grad_norm": 4.72472429, "learning_rate": 9.89e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.09643, "epoch": 0.11300387, "global_step/max_steps": "2430/21503", "percentage": "11.30%", "elapsed_time": "6h 59m 59s", "remaining_time": "2d 6h 56m 30s"}
{"loss": 0.77316818, "token_acc": 0.81267092, "grad_norm": 4.79087067, "learning_rate": 9.89e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096547, "epoch": 0.11323639, "global_step/max_steps": "2435/21503", "percentage": "11.32%", "elapsed_time": "7h 0m 20s", "remaining_time": "2d 6h 51m 38s"}
{"loss": 0.91093597, "token_acc": 0.78655462, "grad_norm": 5.87944651, "learning_rate": 9.89e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096661, "epoch": 0.11346891, "global_step/max_steps": "2440/21503", "percentage": "11.35%", "elapsed_time": "7h 0m 42s", "remaining_time": "2d 6h 46m 53s"}
{"loss": 0.8439333, "token_acc": 0.79414603, "grad_norm": 4.92235804, "learning_rate": 9.89e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096777, "epoch": 0.11370143, "global_step/max_steps": "2445/21503", "percentage": "11.37%", "elapsed_time": "7h 1m 4s", "remaining_time": "2d 6h 42m 5s"}
{"loss": 0.87199411, "token_acc": 0.79490341, "grad_norm": 5.36738634, "learning_rate": 9.89e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096891, "epoch": 0.11393395, "global_step/max_steps": "2450/21503", "percentage": "11.39%", "elapsed_time": "7h 1m 25s", "remaining_time": "2d 6h 37m 21s"}
{"eval_loss": 0.75644428, "eval_runtime": 290.7043, "eval_samples_per_second": 11.954, "eval_steps_per_second": 11.954, "epoch": 0.11393395, "global_step/max_steps": "2450/21503", "percentage": "11.39%", "elapsed_time": "7h 6m 16s", "remaining_time": "2d 7h 15m 2s"}
{"loss": 0.85684004, "token_acc": 0.7885669, "grad_norm": 4.41697979, "learning_rate": 9.89e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.095896, "epoch": 0.11416647, "global_step/max_steps": "2455/21503", "percentage": "11.42%", "elapsed_time": "7h 6m 40s", "remaining_time": "2d 7h 10m 30s"}
{"loss": 0.75198956, "token_acc": 0.81033868, "grad_norm": 4.93854523, "learning_rate": 9.89e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096007, "epoch": 0.11439898, "global_step/max_steps": "2460/21503", "percentage": "11.44%", "elapsed_time": "7h 7m 3s", "remaining_time": "2d 7h 5m 49s"}
{"loss": 0.82500048, "token_acc": 0.79987151, "grad_norm": 4.43178177, "learning_rate": 9.89e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096116, "epoch": 0.1146315, "global_step/max_steps": "2465/21503", "percentage": "11.46%", "elapsed_time": "7h 7m 25s", "remaining_time": "2d 7h 1m 10s"}
{"loss": 0.86730947, "token_acc": 0.79791304, "grad_norm": 6.44700861, "learning_rate": 9.89e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096226, "epoch": 0.11486402, "global_step/max_steps": "2470/21503", "percentage": "11.49%", "elapsed_time": "7h 7m 48s", "remaining_time": "2d 6h 56m 31s"}
{"loss": 0.81181469, "token_acc": 0.79558611, "grad_norm": 5.0699048, "learning_rate": 9.88e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096335, "epoch": 0.11509654, "global_step/max_steps": "2475/21503", "percentage": "11.51%", "elapsed_time": "7h 8m 11s", "remaining_time": "2d 6h 51m 56s"}
{"loss": 0.84986525, "token_acc": 0.79616307, "grad_norm": 4.73049116, "learning_rate": 9.88e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096445, "epoch": 0.11532906, "global_step/max_steps": "2480/21503", "percentage": "11.53%", "elapsed_time": "7h 8m 33s", "remaining_time": "2d 6h 47m 20s"}
{"loss": 0.85244694, "token_acc": 0.7909624, "grad_norm": 5.70568275, "learning_rate": 9.88e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096555, "epoch": 0.11556158, "global_step/max_steps": "2485/21503", "percentage": "11.56%", "elapsed_time": "7h 8m 56s", "remaining_time": "2d 6h 42m 43s"}
{"loss": 0.89592609, "token_acc": 0.78397486, "grad_norm": 5.16157579, "learning_rate": 9.88e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096666, "epoch": 0.11579409, "global_step/max_steps": "2490/21503", "percentage": "11.58%", "elapsed_time": "7h 9m 18s", "remaining_time": "2d 6h 38m 5s"}
{"loss": 0.881814, "token_acc": 0.79582609, "grad_norm": 4.68111658, "learning_rate": 9.88e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096774, "epoch": 0.11602661, "global_step/max_steps": "2495/21503", "percentage": "11.60%", "elapsed_time": "7h 9m 41s", "remaining_time": "2d 6h 33m 34s"}
{"loss": 0.85157595, "token_acc": 0.78954656, "grad_norm": 4.93696213, "learning_rate": 9.88e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096882, "epoch": 0.11625913, "global_step/max_steps": "2500/21503", "percentage": "11.63%", "elapsed_time": "7h 10m 4s", "remaining_time": "2d 6h 29m 4s"}
{"eval_loss": 0.76187408, "eval_runtime": 288.9198, "eval_samples_per_second": 12.028, "eval_steps_per_second": 12.028, "epoch": 0.11625913, "global_step/max_steps": "2500/21503", "percentage": "11.63%", "elapsed_time": "7h 14m 53s", "remaining_time": "2d 7h 5m 40s"}
{"loss": 0.79536166, "token_acc": 0.78932107, "grad_norm": 5.39285231, "learning_rate": 9.88e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.095916, "epoch": 0.11649165, "global_step/max_steps": "2505/21503", "percentage": "11.65%", "elapsed_time": "7h 15m 16s", "remaining_time": "2d 7h 1m 6s"}
{"loss": 1.03312035, "token_acc": 0.75463125, "grad_norm": 4.22647524, "learning_rate": 9.88e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096024, "epoch": 0.11672417, "global_step/max_steps": "2510/21503", "percentage": "11.67%", "elapsed_time": "7h 15m 39s", "remaining_time": "2d 6h 56m 33s"}
{"loss": 0.82756157, "token_acc": 0.7989916, "grad_norm": 4.2947979, "learning_rate": 9.88e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096131, "epoch": 0.11695668, "global_step/max_steps": "2515/21503", "percentage": "11.70%", "elapsed_time": "7h 16m 2s", "remaining_time": "2d 6h 52m 1s"}
{"loss": 0.85241785, "token_acc": 0.80915371, "grad_norm": 5.02728701, "learning_rate": 9.88e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096241, "epoch": 0.1171892, "global_step/max_steps": "2520/21503", "percentage": "11.72%", "elapsed_time": "7h 16m 24s", "remaining_time": "2d 6h 47m 23s"}
{"loss": 0.92376537, "token_acc": 0.76952998, "grad_norm": 4.70390654, "learning_rate": 9.88e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096347, "epoch": 0.11742172, "global_step/max_steps": "2525/21503", "percentage": "11.74%", "elapsed_time": "7h 16m 47s", "remaining_time": "2d 6h 42m 54s"}
{"loss": 0.88684778, "token_acc": 0.78881232, "grad_norm": 5.14985514, "learning_rate": 9.88e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096455, "epoch": 0.11765424, "global_step/max_steps": "2530/21503", "percentage": "11.77%", "elapsed_time": "7h 17m 9s", "remaining_time": "2d 6h 38m 20s"}
{"loss": 0.8953413, "token_acc": 0.78786804, "grad_norm": 4.14896202, "learning_rate": 9.87e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096564, "epoch": 0.11788676, "global_step/max_steps": "2535/21503", "percentage": "11.79%", "elapsed_time": "7h 17m 31s", "remaining_time": "2d 6h 33m 48s"}
{"loss": 0.78346896, "token_acc": 0.81247452, "grad_norm": 4.25905037, "learning_rate": 9.87e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096673, "epoch": 0.11811928, "global_step/max_steps": "2540/21503", "percentage": "11.81%", "elapsed_time": "7h 17m 53s", "remaining_time": "2d 6h 29m 14s"}
{"loss": 0.75441427, "token_acc": 0.8242142, "grad_norm": 5.24454975, "learning_rate": 9.87e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096783, "epoch": 0.11835179, "global_step/max_steps": "2545/21503", "percentage": "11.84%", "elapsed_time": "7h 18m 15s", "remaining_time": "2d 6h 24m 39s"}
{"loss": 0.83764467, "token_acc": 0.79628956, "grad_norm": 4.92689371, "learning_rate": 9.87e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.09689, "epoch": 0.11858431, "global_step/max_steps": "2550/21503", "percentage": "11.86%", "elapsed_time": "7h 18m 38s", "remaining_time": "2d 6h 20m 11s"}
{"eval_loss": 0.75217181, "eval_runtime": 291.5566, "eval_samples_per_second": 11.919, "eval_steps_per_second": 11.919, "epoch": 0.11858431, "global_step/max_steps": "2550/21503", "percentage": "11.86%", "elapsed_time": "7h 23m 29s", "remaining_time": "2d 6h 56m 18s"}
{"loss": 0.85163336, "token_acc": 0.78974305, "grad_norm": 5.54883289, "learning_rate": 9.87e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.095932, "epoch": 0.11881683, "global_step/max_steps": "2555/21503", "percentage": "11.88%", "elapsed_time": "7h 23m 53s", "remaining_time": "2d 6h 51m 52s"}
{"loss": 0.83588047, "token_acc": 0.79264657, "grad_norm": 4.43054247, "learning_rate": 9.87e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096038, "epoch": 0.11904935, "global_step/max_steps": "2560/21503", "percentage": "11.91%", "elapsed_time": "7h 24m 15s", "remaining_time": "2d 6h 47m 23s"}
{"loss": 0.76797032, "token_acc": 0.81655559, "grad_norm": 5.82120037, "learning_rate": 9.87e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096144, "epoch": 0.11928187, "global_step/max_steps": "2565/21503", "percentage": "11.93%", "elapsed_time": "7h 24m 38s", "remaining_time": "2d 6h 42m 54s"}
{"loss": 0.75787191, "token_acc": 0.83053691, "grad_norm": 4.21681881, "learning_rate": 9.87e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.09625, "epoch": 0.11951439, "global_step/max_steps": "2570/21503", "percentage": "11.95%", "elapsed_time": "7h 25m 1s", "remaining_time": "2d 6h 38m 24s"}
{"loss": 0.89018898, "token_acc": 0.77743484, "grad_norm": 4.80191994, "learning_rate": 9.87e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096356, "epoch": 0.1197469, "global_step/max_steps": "2575/21503", "percentage": "11.98%", "elapsed_time": "7h 25m 23s", "remaining_time": "2d 6h 33m 57s"}
{"loss": 0.8922555, "token_acc": 0.77869467, "grad_norm": 6.39180613, "learning_rate": 9.87e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096461, "epoch": 0.11997942, "global_step/max_steps": "2580/21503", "percentage": "12.00%", "elapsed_time": "7h 25m 46s", "remaining_time": "2d 6h 29m 30s"}
{"loss": 0.90133772, "token_acc": 0.77834758, "grad_norm": 4.46625423, "learning_rate": 9.87e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096565, "epoch": 0.12021194, "global_step/max_steps": "2585/21503", "percentage": "12.02%", "elapsed_time": "7h 26m 9s", "remaining_time": "2d 6h 25m 7s"}
{"loss": 0.88022919, "token_acc": 0.80677693, "grad_norm": 5.17173147, "learning_rate": 9.87e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096671, "epoch": 0.12044446, "global_step/max_steps": "2590/21503", "percentage": "12.04%", "elapsed_time": "7h 26m 31s", "remaining_time": "2d 6h 20m 41s"}
{"loss": 0.77108006, "token_acc": 0.81166244, "grad_norm": 4.93620825, "learning_rate": 9.86e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096779, "epoch": 0.12067698, "global_step/max_steps": "2595/21503", "percentage": "12.07%", "elapsed_time": "7h 26m 53s", "remaining_time": "2d 6h 16m 11s"}
{"loss": 0.90288563, "token_acc": 0.78258488, "grad_norm": 4.14025784, "learning_rate": 9.86e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096884, "epoch": 0.1209095, "global_step/max_steps": "2600/21503", "percentage": "12.09%", "elapsed_time": "7h 27m 16s", "remaining_time": "2d 6h 11m 48s"}
{"eval_loss": 0.75051242, "eval_runtime": 290.6496, "eval_samples_per_second": 11.956, "eval_steps_per_second": 11.956, "epoch": 0.1209095, "global_step/max_steps": "2600/21503", "percentage": "12.09%", "elapsed_time": "7h 32m 6s", "remaining_time": "2d 6h 47m 1s"}
{"loss": 0.89165115, "token_acc": 0.78976185, "grad_norm": 5.62261009, "learning_rate": 9.86e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.095947, "epoch": 0.12114201, "global_step/max_steps": "2605/21503", "percentage": "12.11%", "elapsed_time": "7h 32m 30s", "remaining_time": "2d 6h 42m 40s"}
{"loss": 0.92072239, "token_acc": 0.78205526, "grad_norm": 4.70156813, "learning_rate": 9.86e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.09605, "epoch": 0.12137453, "global_step/max_steps": "2610/21503", "percentage": "12.14%", "elapsed_time": "7h 32m 53s", "remaining_time": "2d 6h 38m 17s"}
{"loss": 0.82065086, "token_acc": 0.80185122, "grad_norm": 4.39344311, "learning_rate": 9.86e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096152, "epoch": 0.12160705, "global_step/max_steps": "2615/21503", "percentage": "12.16%", "elapsed_time": "7h 33m 16s", "remaining_time": "2d 6h 33m 56s"}
{"loss": 0.97508678, "token_acc": 0.77004539, "grad_norm": 5.94211197, "learning_rate": 9.86e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096256, "epoch": 0.12183957, "global_step/max_steps": "2620/21503", "percentage": "12.18%", "elapsed_time": "7h 33m 38s", "remaining_time": "2d 6h 29m 32s"}
{"loss": 0.82772141, "token_acc": 0.78541902, "grad_norm": 5.69413614, "learning_rate": 9.86e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.09636, "epoch": 0.12207209, "global_step/max_steps": "2625/21503", "percentage": "12.21%", "elapsed_time": "7h 34m 1s", "remaining_time": "2d 6h 25m 8s"}
{"loss": 0.87448435, "token_acc": 0.78257687, "grad_norm": 4.657763, "learning_rate": 9.86e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096464, "epoch": 0.1223046, "global_step/max_steps": "2630/21503", "percentage": "12.23%", "elapsed_time": "7h 34m 23s", "remaining_time": "2d 6h 20m 47s"}
{"loss": 0.84875069, "token_acc": 0.78989704, "grad_norm": 3.98728085, "learning_rate": 9.86e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096568, "epoch": 0.12253712, "global_step/max_steps": "2635/21503", "percentage": "12.25%", "elapsed_time": "7h 34m 46s", "remaining_time": "2d 6h 16m 24s"}
{"loss": 0.7177443, "token_acc": 0.82813117, "grad_norm": 4.99529791, "learning_rate": 9.86e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096671, "epoch": 0.12276964, "global_step/max_steps": "2640/21503", "percentage": "12.28%", "elapsed_time": "7h 35m 8s", "remaining_time": "2d 6h 12m 2s"}
{"loss": 0.95633945, "token_acc": 0.78164292, "grad_norm": 6.0514226, "learning_rate": 9.86e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096774, "epoch": 0.12300216, "global_step/max_steps": "2645/21503", "percentage": "12.30%", "elapsed_time": "7h 35m 31s", "remaining_time": "2d 6h 7m 44s"}
{"loss": 0.84551516, "token_acc": 0.78911306, "grad_norm": 5.62870836, "learning_rate": 9.85e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096878, "epoch": 0.12323468, "global_step/max_steps": "2650/21503", "percentage": "12.32%", "elapsed_time": "7h 35m 53s", "remaining_time": "2d 6h 3m 23s"}
{"eval_loss": 0.74964273, "eval_runtime": 289.7636, "eval_samples_per_second": 11.993, "eval_steps_per_second": 11.993, "epoch": 0.12323468, "global_step/max_steps": "2650/21503", "percentage": "12.32%", "elapsed_time": "7h 40m 43s", "remaining_time": "2d 6h 37m 44s"}
{"loss": 0.89880962, "token_acc": 0.79047558, "grad_norm": 3.99980307, "learning_rate": 9.85e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.095965, "epoch": 0.1234672, "global_step/max_steps": "2655/21503", "percentage": "12.35%", "elapsed_time": "7h 41m 6s", "remaining_time": "2d 6h 33m 23s"}
{"loss": 0.8998661, "token_acc": 0.78163558, "grad_norm": 4.90335655, "learning_rate": 9.85e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096066, "epoch": 0.12369971, "global_step/max_steps": "2660/21503", "percentage": "12.37%", "elapsed_time": "7h 41m 29s", "remaining_time": "2d 6h 29m 4s"}
{"loss": 0.81548948, "token_acc": 0.81449525, "grad_norm": 5.04606485, "learning_rate": 9.85e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096168, "epoch": 0.12393223, "global_step/max_steps": "2665/21503", "percentage": "12.39%", "elapsed_time": "7h 41m 51s", "remaining_time": "2d 6h 24m 44s"}
{"loss": 0.86037788, "token_acc": 0.78756884, "grad_norm": 4.47329617, "learning_rate": 9.85e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096271, "epoch": 0.12416475, "global_step/max_steps": "2670/21503", "percentage": "12.42%", "elapsed_time": "7h 42m 13s", "remaining_time": "2d 6h 20m 23s"}
{"loss": 0.74821339, "token_acc": 0.81219582, "grad_norm": 5.46212912, "learning_rate": 9.85e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096369, "epoch": 0.12439727, "global_step/max_steps": "2675/21503", "percentage": "12.44%", "elapsed_time": "7h 42m 37s", "remaining_time": "2d 6h 16m 11s"}
{"loss": 0.75958319, "token_acc": 0.80654569, "grad_norm": 5.47181702, "learning_rate": 9.85e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.09647, "epoch": 0.12462979, "global_step/max_steps": "2680/21503", "percentage": "12.46%", "elapsed_time": "7h 43m 0s", "remaining_time": "2d 6h 11m 55s"}
{"loss": 0.80959024, "token_acc": 0.80869289, "grad_norm": 4.87159634, "learning_rate": 9.85e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096571, "epoch": 0.12486231, "global_step/max_steps": "2685/21503", "percentage": "12.49%", "elapsed_time": "7h 43m 23s", "remaining_time": "2d 6h 7m 40s"}
{"loss": 0.74119644, "token_acc": 0.80410691, "grad_norm": 4.61556959, "learning_rate": 9.85e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.09667, "epoch": 0.12509482, "global_step/max_steps": "2690/21503", "percentage": "12.51%", "elapsed_time": "7h 43m 46s", "remaining_time": "2d 6h 3m 28s"}
{"loss": 0.94278345, "token_acc": 0.79108327, "grad_norm": 4.4344573, "learning_rate": 9.85e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096768, "epoch": 0.12532734, "global_step/max_steps": "2695/21503", "percentage": "12.53%", "elapsed_time": "7h 44m 9s", "remaining_time": "2d 5h 59m 19s"}
{"loss": 0.76918821, "token_acc": 0.81683168, "grad_norm": 5.1012001, "learning_rate": 9.84e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096871, "epoch": 0.12555986, "global_step/max_steps": "2700/21503", "percentage": "12.56%", "elapsed_time": "7h 44m 31s", "remaining_time": "2d 5h 55m 2s"}
{"eval_loss": 0.74344462, "eval_runtime": 290.5786, "eval_samples_per_second": 11.959, "eval_steps_per_second": 11.959, "epoch": 0.12555986, "global_step/max_steps": "2700/21503", "percentage": "12.56%", "elapsed_time": "7h 49m 22s", "remaining_time": "2d 6h 28m 46s"}
{"loss": 0.75772123, "token_acc": 0.79201182, "grad_norm": 5.41193151, "learning_rate": 9.84e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.095969, "epoch": 0.12579238, "global_step/max_steps": "2705/21503", "percentage": "12.58%", "elapsed_time": "7h 49m 45s", "remaining_time": "2d 6h 24m 34s"}
{"loss": 0.77702394, "token_acc": 0.81574175, "grad_norm": 5.03225946, "learning_rate": 9.84e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.09607, "epoch": 0.1260249, "global_step/max_steps": "2710/21503", "percentage": "12.60%", "elapsed_time": "7h 50m 8s", "remaining_time": "2d 6h 20m 15s"}
{"loss": 0.95383348, "token_acc": 0.777183, "grad_norm": 5.00500059, "learning_rate": 9.84e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096169, "epoch": 0.12625742, "global_step/max_steps": "2715/21503", "percentage": "12.63%", "elapsed_time": "7h 50m 31s", "remaining_time": "2d 6h 16m 2s"}
{"loss": 0.83599367, "token_acc": 0.78620929, "grad_norm": 4.78955841, "learning_rate": 9.84e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096268, "epoch": 0.12648993, "global_step/max_steps": "2720/21503", "percentage": "12.65%", "elapsed_time": "7h 50m 54s", "remaining_time": "2d 6h 11m 49s"}
{"loss": 0.86654158, "token_acc": 0.80025898, "grad_norm": 3.96946979, "learning_rate": 9.84e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096367, "epoch": 0.12672245, "global_step/max_steps": "2725/21503", "percentage": "12.67%", "elapsed_time": "7h 51m 17s", "remaining_time": "2d 6h 7m 38s"}
{"loss": 0.78654108, "token_acc": 0.80317965, "grad_norm": 4.77072906, "learning_rate": 9.84e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096462, "epoch": 0.12695497, "global_step/max_steps": "2730/21503", "percentage": "12.70%", "elapsed_time": "7h 51m 40s", "remaining_time": "2d 6h 3m 33s"}
{"loss": 0.83746939, "token_acc": 0.79910548, "grad_norm": 5.07850552, "learning_rate": 9.84e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.09656, "epoch": 0.12718749, "global_step/max_steps": "2735/21503", "percentage": "12.72%", "elapsed_time": "7h 52m 4s", "remaining_time": "2d 5h 59m 24s"}
{"loss": 0.79869523, "token_acc": 0.80195313, "grad_norm": 5.44411039, "learning_rate": 9.84e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096659, "epoch": 0.12742001, "global_step/max_steps": "2740/21503", "percentage": "12.74%", "elapsed_time": "7h 52m 26s", "remaining_time": "2d 5h 55m 12s"}
{"loss": 0.86155462, "token_acc": 0.79145644, "grad_norm": 4.84021139, "learning_rate": 9.84e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.09676, "epoch": 0.12765252, "global_step/max_steps": "2745/21503", "percentage": "12.77%", "elapsed_time": "7h 52m 48s", "remaining_time": "2d 5h 50m 59s"}
{"loss": 0.84293375, "token_acc": 0.79595116, "grad_norm": 4.51242018, "learning_rate": 9.84e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.09686, "epoch": 0.12788504, "global_step/max_steps": "2750/21503", "percentage": "12.79%", "elapsed_time": "7h 53m 11s", "remaining_time": "2d 5h 46m 47s"}
{"eval_loss": 0.75467557, "eval_runtime": 289.7348, "eval_samples_per_second": 11.994, "eval_steps_per_second": 11.994, "epoch": 0.12788504, "global_step/max_steps": "2750/21503", "percentage": "12.79%", "elapsed_time": "7h 58m 0s", "remaining_time": "2d 6h 19m 42s"}
{"loss": 0.81888647, "token_acc": 0.7912945, "grad_norm": 5.22329235, "learning_rate": 9.83e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.095978, "epoch": 0.12811756, "global_step/max_steps": "2755/21503", "percentage": "12.81%", "elapsed_time": "7h 58m 24s", "remaining_time": "2d 6h 15m 33s"}
{"loss": 0.82212582, "token_acc": 0.80332508, "grad_norm": 4.91317797, "learning_rate": 9.83e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096077, "epoch": 0.12835008, "global_step/max_steps": "2760/21503", "percentage": "12.84%", "elapsed_time": "7h 58m 46s", "remaining_time": "2d 6h 11m 21s"}
{"loss": 1.04365511, "token_acc": 0.74769433, "grad_norm": 6.01786613, "learning_rate": 9.83e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096174, "epoch": 0.1285826, "global_step/max_steps": "2765/21503", "percentage": "12.86%", "elapsed_time": "7h 59m 9s", "remaining_time": "2d 6h 7m 12s"}
{"loss": 0.80343828, "token_acc": 0.80952381, "grad_norm": 4.88912678, "learning_rate": 9.83e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096272, "epoch": 0.12881512, "global_step/max_steps": "2770/21503", "percentage": "12.88%", "elapsed_time": "7h 59m 32s", "remaining_time": "2d 6h 3m 1s"}
{"loss": 0.75173187, "token_acc": 0.82367053, "grad_norm": 4.91121197, "learning_rate": 9.83e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.09637, "epoch": 0.12904763, "global_step/max_steps": "2775/21503", "percentage": "12.91%", "elapsed_time": "7h 59m 55s", "remaining_time": "2d 5h 58m 53s"}
{"loss": 0.80686102, "token_acc": 0.78971655, "grad_norm": 5.03653479, "learning_rate": 9.83e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096469, "epoch": 0.12928015, "global_step/max_steps": "2780/21503", "percentage": "12.93%", "elapsed_time": "8h 0m 17s", "remaining_time": "2d 5h 54m 42s"}
{"loss": 0.84079142, "token_acc": 0.79179383, "grad_norm": 5.62430573, "learning_rate": 9.83e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096567, "epoch": 0.12951267, "global_step/max_steps": "2785/21503", "percentage": "12.95%", "elapsed_time": "8h 0m 39s", "remaining_time": "2d 5h 50m 31s"}
{"loss": 0.80237246, "token_acc": 0.79846743, "grad_norm": 5.08419752, "learning_rate": 9.83e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096663, "epoch": 0.12974519, "global_step/max_steps": "2790/21503", "percentage": "12.97%", "elapsed_time": "8h 1m 2s", "remaining_time": "2d 5h 46m 27s"}
{"loss": 0.96119041, "token_acc": 0.77770154, "grad_norm": 5.02730608, "learning_rate": 9.83e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096757, "epoch": 0.12997771, "global_step/max_steps": "2795/21503", "percentage": "13.00%", "elapsed_time": "8h 1m 26s", "remaining_time": "2d 5h 42m 29s"}
{"loss": 0.80667982, "token_acc": 0.80116769, "grad_norm": 4.20893431, "learning_rate": 9.83e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096853, "epoch": 0.13021023, "global_step/max_steps": "2800/21503", "percentage": "13.02%", "elapsed_time": "8h 1m 49s", "remaining_time": "2d 5h 38m 25s"}
{"eval_loss": 0.74225956, "eval_runtime": 289.8504, "eval_samples_per_second": 11.989, "eval_steps_per_second": 11.989, "epoch": 0.13021023, "global_step/max_steps": "2800/21503", "percentage": "13.02%", "elapsed_time": "8h 6m 39s", "remaining_time": "2d 6h 10m 41s"}
{"loss": 0.84474077, "token_acc": 0.79211225, "grad_norm": 6.20468092, "learning_rate": 9.82e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.095988, "epoch": 0.13044274, "global_step/max_steps": "2805/21503", "percentage": "13.04%", "elapsed_time": "8h 7m 2s", "remaining_time": "2d 6h 6m 33s"}
{"loss": 0.88835602, "token_acc": 0.78818565, "grad_norm": 6.12419462, "learning_rate": 9.82e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096085, "epoch": 0.13067526, "global_step/max_steps": "2810/21503", "percentage": "13.07%", "elapsed_time": "8h 7m 24s", "remaining_time": "2d 6h 2m 24s"}
{"loss": 0.93557386, "token_acc": 0.78075601, "grad_norm": 5.09060478, "learning_rate": 9.82e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.09618, "epoch": 0.13090778, "global_step/max_steps": "2815/21503", "percentage": "13.09%", "elapsed_time": "8h 7m 47s", "remaining_time": "2d 5h 58m 19s"}
{"loss": 0.95725021, "token_acc": 0.78513786, "grad_norm": 4.79983377, "learning_rate": 9.82e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096277, "epoch": 0.1311403, "global_step/max_steps": "2820/21503", "percentage": "13.11%", "elapsed_time": "8h 8m 10s", "remaining_time": "2d 5h 54m 13s"}
{"loss": 0.83925323, "token_acc": 0.79803601, "grad_norm": 4.21175766, "learning_rate": 9.82e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096372, "epoch": 0.13137282, "global_step/max_steps": "2825/21503", "percentage": "13.14%", "elapsed_time": "8h 8m 33s", "remaining_time": "2d 5h 50m 9s"}
{"loss": 0.86819067, "token_acc": 0.79087452, "grad_norm": 6.15599966, "learning_rate": 9.82e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096468, "epoch": 0.13160534, "global_step/max_steps": "2830/21503", "percentage": "13.16%", "elapsed_time": "8h 8m 55s", "remaining_time": "2d 5h 46m 5s"}
{"loss": 0.80308094, "token_acc": 0.81360709, "grad_norm": 5.69885349, "learning_rate": 9.82e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096563, "epoch": 0.13183785, "global_step/max_steps": "2835/21503", "percentage": "13.18%", "elapsed_time": "8h 9m 18s", "remaining_time": "2d 5h 42m 2s"}
{"loss": 0.8084547, "token_acc": 0.80438066, "grad_norm": 4.48979712, "learning_rate": 9.82e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096661, "epoch": 0.13207037, "global_step/max_steps": "2840/21503", "percentage": "13.21%", "elapsed_time": "8h 9m 40s", "remaining_time": "2d 5h 37m 55s"}
{"loss": 0.67972379, "token_acc": 0.82522796, "grad_norm": 5.17283916, "learning_rate": 9.82e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096756, "epoch": 0.13230289, "global_step/max_steps": "2845/21503", "percentage": "13.23%", "elapsed_time": "8h 10m 3s", "remaining_time": "2d 5h 33m 54s"}
{"loss": 0.78293362, "token_acc": 0.8017988, "grad_norm": 4.82969427, "learning_rate": 9.82e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096851, "epoch": 0.13253541, "global_step/max_steps": "2850/21503", "percentage": "13.25%", "elapsed_time": "8h 10m 26s", "remaining_time": "2d 5h 29m 53s"}
{"eval_loss": 0.74299306, "eval_runtime": 288.7556, "eval_samples_per_second": 12.034, "eval_steps_per_second": 12.034, "epoch": 0.13253541, "global_step/max_steps": "2850/21503", "percentage": "13.25%", "elapsed_time": "8h 15m 15s", "remaining_time": "2d 6h 1m 23s"}
{"loss": 0.88321276, "token_acc": 0.79226175, "grad_norm": 5.82723236, "learning_rate": 9.81e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096001, "epoch": 0.13276793, "global_step/max_steps": "2855/21503", "percentage": "13.28%", "elapsed_time": "8h 15m 38s", "remaining_time": "2d 5h 57m 25s"}
{"loss": 0.85487385, "token_acc": 0.78917216, "grad_norm": 3.66368866, "learning_rate": 9.81e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096096, "epoch": 0.13300044, "global_step/max_steps": "2860/21503", "percentage": "13.30%", "elapsed_time": "8h 16m 1s", "remaining_time": "2d 5h 53m 23s"}
{"loss": 0.76055908, "token_acc": 0.81733746, "grad_norm": 4.96904755, "learning_rate": 9.81e-06, "memory(GiB)": 29.49, "train_speed(iter/s)": 0.096191, "epoch": 0.13323296, "global_step/max_steps": "2865/21503", "percentage": "13.32%", "elapsed_time": "8h 16m 24s", "remaining_time": "2d 5h 49m 18s"}
{"loss": 0.89626904, "token_acc": 0.75176959, "grad_norm": 2.69351649, "learning_rate": 9.81e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096278, "epoch": 0.13346548, "global_step/max_steps": "2870/21503", "percentage": "13.35%", "elapsed_time": "8h 16m 49s", "remaining_time": "2d 5h 45m 31s"}
{"loss": 0.80736122, "token_acc": 0.80580762, "grad_norm": 5.44557142, "learning_rate": 9.81e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096372, "epoch": 0.133698, "global_step/max_steps": "2875/21503", "percentage": "13.37%", "elapsed_time": "8h 17m 12s", "remaining_time": "2d 5h 41m 31s"}
{"loss": 0.81365032, "token_acc": 0.80497382, "grad_norm": 4.45976639, "learning_rate": 9.81e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096466, "epoch": 0.13393052, "global_step/max_steps": "2880/21503", "percentage": "13.39%", "elapsed_time": "8h 17m 34s", "remaining_time": "2d 5h 37m 31s"}
{"loss": 0.82071238, "token_acc": 0.80275716, "grad_norm": 5.12233067, "learning_rate": 9.81e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.09656, "epoch": 0.13416304, "global_step/max_steps": "2885/21503", "percentage": "13.42%", "elapsed_time": "8h 17m 57s", "remaining_time": "2d 5h 33m 30s"}
{"loss": 0.98617134, "token_acc": 0.75973438, "grad_norm": 2.95681977, "learning_rate": 9.81e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.09665, "epoch": 0.13439555, "global_step/max_steps": "2890/21503", "percentage": "13.44%", "elapsed_time": "8h 18m 21s", "remaining_time": "2d 5h 29m 39s"}
{"loss": 0.77515159, "token_acc": 0.81231454, "grad_norm": 4.83654547, "learning_rate": 9.81e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096744, "epoch": 0.13462807, "global_step/max_steps": "2895/21503", "percentage": "13.46%", "elapsed_time": "8h 18m 44s", "remaining_time": "2d 5h 25m 42s"}
{"loss": 0.88932085, "token_acc": 0.77765076, "grad_norm": 4.38391399, "learning_rate": 9.8e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096838, "epoch": 0.13486059, "global_step/max_steps": "2900/21503", "percentage": "13.49%", "elapsed_time": "8h 19m 6s", "remaining_time": "2d 5h 21m 42s"}
{"eval_loss": 0.7408275, "eval_runtime": 290.8079, "eval_samples_per_second": 11.949, "eval_steps_per_second": 11.949, "epoch": 0.13486059, "global_step/max_steps": "2900/21503", "percentage": "13.49%", "elapsed_time": "8h 23m 57s", "remaining_time": "2d 5h 52m 48s"}
{"loss": 0.84513168, "token_acc": 0.79271925, "grad_norm": 5.11829376, "learning_rate": 9.8e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095998, "epoch": 0.13509311, "global_step/max_steps": "2905/21503", "percentage": "13.51%", "elapsed_time": "8h 24m 20s", "remaining_time": "2d 5h 48m 52s"}
{"loss": 0.84608669, "token_acc": 0.8077193, "grad_norm": 4.62956905, "learning_rate": 9.8e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096086, "epoch": 0.13532563, "global_step/max_steps": "2910/21503", "percentage": "13.53%", "elapsed_time": "8h 24m 45s", "remaining_time": "2d 5h 45m 1s"}
{"loss": 0.75780029, "token_acc": 0.81277311, "grad_norm": 5.26086664, "learning_rate": 9.8e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096177, "epoch": 0.13555815, "global_step/max_steps": "2915/21503", "percentage": "13.56%", "elapsed_time": "8h 25m 8s", "remaining_time": "2d 5h 41m 7s"}
{"loss": 0.94033527, "token_acc": 0.77303861, "grad_norm": 4.47748232, "learning_rate": 9.8e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096264, "epoch": 0.13579066, "global_step/max_steps": "2920/21503", "percentage": "13.58%", "elapsed_time": "8h 25m 32s", "remaining_time": "2d 5h 37m 19s"}
{"loss": 0.84344263, "token_acc": 0.7681672, "grad_norm": 4.26152182, "learning_rate": 9.8e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096355, "epoch": 0.13602318, "global_step/max_steps": "2925/21503", "percentage": "13.60%", "elapsed_time": "8h 25m 56s", "remaining_time": "2d 5h 33m 26s"}
{"loss": 0.80660391, "token_acc": 0.79775281, "grad_norm": 3.63492036, "learning_rate": 9.8e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096447, "epoch": 0.1362557, "global_step/max_steps": "2930/21503", "percentage": "13.63%", "elapsed_time": "8h 26m 19s", "remaining_time": "2d 5h 29m 30s"}
{"loss": 0.80094252, "token_acc": 0.80042463, "grad_norm": 5.31845284, "learning_rate": 9.8e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096537, "epoch": 0.13648822, "global_step/max_steps": "2935/21503", "percentage": "13.65%", "elapsed_time": "8h 26m 42s", "remaining_time": "2d 5h 25m 39s"}
{"loss": 0.8986371, "token_acc": 0.79207586, "grad_norm": 6.30953169, "learning_rate": 9.8e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096628, "epoch": 0.13672074, "global_step/max_steps": "2940/21503", "percentage": "13.67%", "elapsed_time": "8h 27m 5s", "remaining_time": "2d 5h 21m 46s"}
{"loss": 0.81214304, "token_acc": 0.80953947, "grad_norm": 3.81025338, "learning_rate": 9.79e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096717, "epoch": 0.13695326, "global_step/max_steps": "2945/21503", "percentage": "13.70%", "elapsed_time": "8h 27m 29s", "remaining_time": "2d 5h 17m 58s"}
{"loss": 0.83292904, "token_acc": 0.78463094, "grad_norm": 4.70787334, "learning_rate": 9.79e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096809, "epoch": 0.13718577, "global_step/max_steps": "2950/21503", "percentage": "13.72%", "elapsed_time": "8h 27m 52s", "remaining_time": "2d 5h 14m 3s"}
{"eval_loss": 0.73583829, "eval_runtime": 292.6301, "eval_samples_per_second": 11.875, "eval_steps_per_second": 11.875, "epoch": 0.13718577, "global_step/max_steps": "2950/21503", "percentage": "13.72%", "elapsed_time": "8h 32m 44s", "remaining_time": "2d 5h 44m 44s"}
{"loss": 0.80061073, "token_acc": 0.79352931, "grad_norm": 5.0869112, "learning_rate": 9.79e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.09598, "epoch": 0.13741829, "global_step/max_steps": "2955/21503", "percentage": "13.74%", "elapsed_time": "8h 33m 7s", "remaining_time": "2d 5h 40m 47s"}
{"loss": 0.77728987, "token_acc": 0.80476657, "grad_norm": 4.82767153, "learning_rate": 9.79e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.09607, "epoch": 0.13765081, "global_step/max_steps": "2960/21503", "percentage": "13.77%", "elapsed_time": "8h 33m 30s", "remaining_time": "2d 5h 36m 54s"}
{"loss": 0.73826389, "token_acc": 0.82025411, "grad_norm": 5.35494471, "learning_rate": 9.79e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096161, "epoch": 0.13788333, "global_step/max_steps": "2965/21503", "percentage": "13.79%", "elapsed_time": "8h 33m 53s", "remaining_time": "2d 5h 32m 59s"}
{"loss": 0.86521807, "token_acc": 0.78416801, "grad_norm": 5.03925991, "learning_rate": 9.79e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096251, "epoch": 0.13811585, "global_step/max_steps": "2970/21503", "percentage": "13.81%", "elapsed_time": "8h 34m 16s", "remaining_time": "2d 5h 29m 6s"}
{"loss": 0.74841084, "token_acc": 0.81598579, "grad_norm": 5.58147812, "learning_rate": 9.79e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096344, "epoch": 0.13834836, "global_step/max_steps": "2975/21503", "percentage": "13.84%", "elapsed_time": "8h 34m 38s", "remaining_time": "2d 5h 25m 9s"}
{"loss": 0.80824661, "token_acc": 0.80806514, "grad_norm": 4.96913433, "learning_rate": 9.79e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096435, "epoch": 0.13858088, "global_step/max_steps": "2980/21503", "percentage": "13.86%", "elapsed_time": "8h 35m 1s", "remaining_time": "2d 5h 21m 15s"}
{"loss": 0.89407349, "token_acc": 0.77536478, "grad_norm": 4.7017746, "learning_rate": 9.79e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096526, "epoch": 0.1388134, "global_step/max_steps": "2985/21503", "percentage": "13.88%", "elapsed_time": "8h 35m 23s", "remaining_time": "2d 5h 17m 22s"}
{"loss": 0.75092301, "token_acc": 0.81963288, "grad_norm": 5.56347466, "learning_rate": 9.78e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096619, "epoch": 0.13904592, "global_step/max_steps": "2990/21503", "percentage": "13.91%", "elapsed_time": "8h 35m 46s", "remaining_time": "2d 5h 13m 27s"}
{"loss": 0.80869884, "token_acc": 0.80482023, "grad_norm": 6.41460085, "learning_rate": 9.78e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.09671, "epoch": 0.13927844, "global_step/max_steps": "2995/21503", "percentage": "13.93%", "elapsed_time": "8h 36m 8s", "remaining_time": "2d 5h 9m 35s"}
{"loss": 0.75850306, "token_acc": 0.81891026, "grad_norm": 4.52195978, "learning_rate": 9.78e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096802, "epoch": 0.13951096, "global_step/max_steps": "3000/21503", "percentage": "13.95%", "elapsed_time": "8h 36m 30s", "remaining_time": "2d 5h 5m 41s"}
{"eval_loss": 0.73177528, "eval_runtime": 290.2766, "eval_samples_per_second": 11.971, "eval_steps_per_second": 11.971, "epoch": 0.13951096, "global_step/max_steps": "3000/21503", "percentage": "13.95%", "elapsed_time": "8h 41m 21s", "remaining_time": "2d 5h 35m 32s"}
{"loss": 0.88257036, "token_acc": 0.79377845, "grad_norm": 4.11675406, "learning_rate": 9.78e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095992, "epoch": 0.13974347, "global_step/max_steps": "3005/21503", "percentage": "13.97%", "elapsed_time": "8h 41m 44s", "remaining_time": "2d 5h 31m 42s"}
{"loss": 0.83611155, "token_acc": 0.7739352, "grad_norm": 5.83975649, "learning_rate": 9.78e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096081, "epoch": 0.13997599, "global_step/max_steps": "3010/21503", "percentage": "14.00%", "elapsed_time": "8h 42m 7s", "remaining_time": "2d 5h 27m 52s"}
{"loss": 0.75227008, "token_acc": 0.82463672, "grad_norm": 4.88443089, "learning_rate": 9.78e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096168, "epoch": 0.14020851, "global_step/max_steps": "3015/21503", "percentage": "14.02%", "elapsed_time": "8h 42m 31s", "remaining_time": "2d 5h 24m 5s"}
{"loss": 0.76518455, "token_acc": 0.79557617, "grad_norm": 4.92686129, "learning_rate": 9.78e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096256, "epoch": 0.14044103, "global_step/max_steps": "3020/21503", "percentage": "14.04%", "elapsed_time": "8h 42m 54s", "remaining_time": "2d 5h 20m 17s"}
{"loss": 0.86791191, "token_acc": 0.78975487, "grad_norm": 4.12836123, "learning_rate": 9.78e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096345, "epoch": 0.14067355, "global_step/max_steps": "3025/21503", "percentage": "14.07%", "elapsed_time": "8h 43m 17s", "remaining_time": "2d 5h 16m 27s"}
{"loss": 0.87963476, "token_acc": 0.7975945, "grad_norm": 5.35895443, "learning_rate": 9.78e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096434, "epoch": 0.14090607, "global_step/max_steps": "3030/21503", "percentage": "14.09%", "elapsed_time": "8h 43m 40s", "remaining_time": "2d 5h 12m 40s"}
{"loss": 0.78799872, "token_acc": 0.80973616, "grad_norm": 4.02930403, "learning_rate": 9.77e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096523, "epoch": 0.14113858, "global_step/max_steps": "3035/21503", "percentage": "14.11%", "elapsed_time": "8h 44m 2s", "remaining_time": "2d 5h 8m 50s"}
{"loss": 0.74632945, "token_acc": 0.81546459, "grad_norm": 5.04708242, "learning_rate": 9.77e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.09661, "epoch": 0.1413711, "global_step/max_steps": "3040/21503", "percentage": "14.14%", "elapsed_time": "8h 44m 26s", "remaining_time": "2d 5h 5m 7s"}
{"loss": 0.73704419, "token_acc": 0.81795511, "grad_norm": 4.66528559, "learning_rate": 9.77e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096699, "epoch": 0.14160362, "global_step/max_steps": "3045/21503", "percentage": "14.16%", "elapsed_time": "8h 44m 49s", "remaining_time": "2d 5h 1m 19s"}
{"loss": 0.88436556, "token_acc": 0.772698, "grad_norm": 3.96137714, "learning_rate": 9.77e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096789, "epoch": 0.14183614, "global_step/max_steps": "3050/21503", "percentage": "14.18%", "elapsed_time": "8h 45m 11s", "remaining_time": "2d 4h 57m 31s"}
{"eval_loss": 0.73230875, "eval_runtime": 291.6112, "eval_samples_per_second": 11.917, "eval_steps_per_second": 11.917, "epoch": 0.14183614, "global_step/max_steps": "3050/21503", "percentage": "14.18%", "elapsed_time": "8h 50m 3s", "remaining_time": "2d 5h 26m 55s"}
{"loss": 0.80983973, "token_acc": 0.79470331, "grad_norm": 4.09898996, "learning_rate": 9.77e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095987, "epoch": 0.14206866, "global_step/max_steps": "3055/21503", "percentage": "14.21%", "elapsed_time": "8h 50m 26s", "remaining_time": "2d 5h 23m 10s"}
{"loss": 0.73826337, "token_acc": 0.8312333, "grad_norm": 5.72368479, "learning_rate": 9.77e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096076, "epoch": 0.14230118, "global_step/max_steps": "3060/21503", "percentage": "14.23%", "elapsed_time": "8h 50m 49s", "remaining_time": "2d 5h 19m 20s"}
{"loss": 0.90558062, "token_acc": 0.77892919, "grad_norm": 4.52170706, "learning_rate": 9.77e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096164, "epoch": 0.14253369, "global_step/max_steps": "3065/21503", "percentage": "14.25%", "elapsed_time": "8h 51m 12s", "remaining_time": "2d 5h 15m 32s"}
{"loss": 0.82245378, "token_acc": 0.79850281, "grad_norm": 5.36057329, "learning_rate": 9.77e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096251, "epoch": 0.14276621, "global_step/max_steps": "3070/21503", "percentage": "14.28%", "elapsed_time": "8h 51m 35s", "remaining_time": "2d 5h 11m 48s"}
{"loss": 0.96211996, "token_acc": 0.77248511, "grad_norm": 5.69125271, "learning_rate": 9.77e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096336, "epoch": 0.14299873, "global_step/max_steps": "3075/21503", "percentage": "14.30%", "elapsed_time": "8h 51m 59s", "remaining_time": "2d 5h 8m 8s"}
{"loss": 0.87827644, "token_acc": 0.80620772, "grad_norm": 6.44382811, "learning_rate": 9.76e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096424, "epoch": 0.14323125, "global_step/max_steps": "3080/21503", "percentage": "14.32%", "elapsed_time": "8h 52m 22s", "remaining_time": "2d 5h 4m 21s"}
{"loss": 0.77935343, "token_acc": 0.81252477, "grad_norm": 5.44009781, "learning_rate": 9.76e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096513, "epoch": 0.14346377, "global_step/max_steps": "3085/21503", "percentage": "14.35%", "elapsed_time": "8h 52m 44s", "remaining_time": "2d 5h 0m 33s"}
{"loss": 0.77748275, "token_acc": 0.8274209, "grad_norm": 6.04716206, "learning_rate": 9.76e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096601, "epoch": 0.14369628, "global_step/max_steps": "3090/21503", "percentage": "14.37%", "elapsed_time": "8h 53m 6s", "remaining_time": "2d 4h 56m 47s"}
{"loss": 0.85563583, "token_acc": 0.79046705, "grad_norm": 4.66730165, "learning_rate": 9.76e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096685, "epoch": 0.1439288, "global_step/max_steps": "3095/21503", "percentage": "14.39%", "elapsed_time": "8h 53m 30s", "remaining_time": "2d 4h 53m 9s"}
{"loss": 0.75390792, "token_acc": 0.8225, "grad_norm": 4.59808207, "learning_rate": 9.76e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096774, "epoch": 0.14416132, "global_step/max_steps": "3100/21503", "percentage": "14.42%", "elapsed_time": "8h 53m 53s", "remaining_time": "2d 4h 49m 23s"}
{"eval_loss": 0.7284711, "eval_runtime": 293.8493, "eval_samples_per_second": 11.826, "eval_steps_per_second": 11.826, "epoch": 0.14416132, "global_step/max_steps": "3100/21503", "percentage": "14.42%", "elapsed_time": "8h 58m 47s", "remaining_time": "2d 5h 18m 28s"}
{"loss": 0.74307714, "token_acc": 0.79530263, "grad_norm": 5.33995199, "learning_rate": 9.76e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095981, "epoch": 0.14439384, "global_step/max_steps": "3105/21503", "percentage": "14.44%", "elapsed_time": "8h 59m 9s", "remaining_time": "2d 5h 14m 42s"}
{"loss": 0.88145638, "token_acc": 0.80129737, "grad_norm": 5.51988029, "learning_rate": 9.76e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096069, "epoch": 0.14462636, "global_step/max_steps": "3110/21503", "percentage": "14.46%", "elapsed_time": "8h 59m 32s", "remaining_time": "2d 5h 10m 53s"}
{"loss": 0.82138042, "token_acc": 0.78107846, "grad_norm": 4.69035864, "learning_rate": 9.76e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096154, "epoch": 0.14485888, "global_step/max_steps": "3115/21503", "percentage": "14.49%", "elapsed_time": "8h 59m 55s", "remaining_time": "2d 5h 7m 13s"}
{"loss": 0.71025491, "token_acc": 0.8243794, "grad_norm": 5.90008879, "learning_rate": 9.75e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.09624, "epoch": 0.14509139, "global_step/max_steps": "3120/21503", "percentage": "14.51%", "elapsed_time": "9h 0m 18s", "remaining_time": "2d 5h 3m 30s"}
{"loss": 0.69977565, "token_acc": 0.81878558, "grad_norm": 5.57922697, "learning_rate": 9.75e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096327, "epoch": 0.14532391, "global_step/max_steps": "3125/21503", "percentage": "14.53%", "elapsed_time": "9h 0m 41s", "remaining_time": "2d 4h 59m 45s"}
{"loss": 0.93000021, "token_acc": 0.77133858, "grad_norm": 4.50183153, "learning_rate": 9.75e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096412, "epoch": 0.14555643, "global_step/max_steps": "3130/21503", "percentage": "14.56%", "elapsed_time": "9h 1m 4s", "remaining_time": "2d 4h 56m 5s"}
{"loss": 0.74762216, "token_acc": 0.82069481, "grad_norm": 5.4228034, "learning_rate": 9.75e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096499, "epoch": 0.14578895, "global_step/max_steps": "3135/21503", "percentage": "14.58%", "elapsed_time": "9h 1m 27s", "remaining_time": "2d 4h 52m 23s"}
{"loss": 0.7928246, "token_acc": 0.8, "grad_norm": 5.29870462, "learning_rate": 9.75e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096581, "epoch": 0.14602147, "global_step/max_steps": "3140/21503", "percentage": "14.60%", "elapsed_time": "9h 1m 51s", "remaining_time": "2d 4h 48m 48s"}
{"loss": 0.92787189, "token_acc": 0.7674144, "grad_norm": 5.12347889, "learning_rate": 9.75e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096666, "epoch": 0.14625399, "global_step/max_steps": "3145/21503", "percentage": "14.63%", "elapsed_time": "9h 2m 14s", "remaining_time": "2d 4h 45m 9s"}
{"loss": 0.81117182, "token_acc": 0.79714693, "grad_norm": 6.58961344, "learning_rate": 9.75e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096752, "epoch": 0.1464865, "global_step/max_steps": "3150/21503", "percentage": "14.65%", "elapsed_time": "9h 2m 37s", "remaining_time": "2d 4h 41m 29s"}
{"eval_loss": 0.72662342, "eval_runtime": 294.8453, "eval_samples_per_second": 11.786, "eval_steps_per_second": 11.786, "epoch": 0.1464865, "global_step/max_steps": "3150/21503", "percentage": "14.65%", "elapsed_time": "9h 7m 32s", "remaining_time": "2d 5h 10m 7s"}
{"loss": 0.73786712, "token_acc": 0.79542816, "grad_norm": 5.14639425, "learning_rate": 9.75e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095969, "epoch": 0.14671902, "global_step/max_steps": "3155/21503", "percentage": "14.67%", "elapsed_time": "9h 7m 55s", "remaining_time": "2d 5h 6m 25s"}
{"loss": 0.87508593, "token_acc": 0.78740669, "grad_norm": 4.17001963, "learning_rate": 9.75e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096054, "epoch": 0.14695154, "global_step/max_steps": "3160/21503", "percentage": "14.70%", "elapsed_time": "9h 8m 17s", "remaining_time": "2d 5h 2m 44s"}
{"loss": 0.78570757, "token_acc": 0.82180294, "grad_norm": 5.74611282, "learning_rate": 9.74e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096138, "epoch": 0.14718406, "global_step/max_steps": "3165/21503", "percentage": "14.72%", "elapsed_time": "9h 8m 41s", "remaining_time": "2d 4h 59m 5s"}
{"loss": 0.82388496, "token_acc": 0.79047619, "grad_norm": 5.50260639, "learning_rate": 9.74e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096224, "epoch": 0.14741658, "global_step/max_steps": "3170/21503", "percentage": "14.74%", "elapsed_time": "9h 9m 3s", "remaining_time": "2d 4h 55m 23s"}
{"loss": 0.83203468, "token_acc": 0.8003102, "grad_norm": 5.35370111, "learning_rate": 9.74e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096309, "epoch": 0.1476491, "global_step/max_steps": "3175/21503", "percentage": "14.77%", "elapsed_time": "9h 9m 26s", "remaining_time": "2d 4h 51m 41s"}
{"loss": 0.93836231, "token_acc": 0.77636849, "grad_norm": 4.37877798, "learning_rate": 9.74e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096394, "epoch": 0.14788161, "global_step/max_steps": "3180/21503", "percentage": "14.79%", "elapsed_time": "9h 9m 49s", "remaining_time": "2d 4h 48m 3s"}
{"loss": 0.8390914, "token_acc": 0.81024096, "grad_norm": 6.11217117, "learning_rate": 9.74e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.09648, "epoch": 0.14811413, "global_step/max_steps": "3185/21503", "percentage": "14.81%", "elapsed_time": "9h 10m 11s", "remaining_time": "2d 4h 44m 22s"}
{"loss": 0.79004483, "token_acc": 0.80782249, "grad_norm": 7.88223267, "learning_rate": 9.74e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096562, "epoch": 0.14834665, "global_step/max_steps": "3190/21503", "percentage": "14.84%", "elapsed_time": "9h 10m 35s", "remaining_time": "2d 4h 40m 49s"}
{"loss": 0.85077839, "token_acc": 0.7648448, "grad_norm": 5.70537186, "learning_rate": 9.74e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096644, "epoch": 0.14857917, "global_step/max_steps": "3195/21503", "percentage": "14.86%", "elapsed_time": "9h 10m 59s", "remaining_time": "2d 4h 37m 16s"}
{"loss": 0.77920504, "token_acc": 0.81355932, "grad_norm": 4.27167606, "learning_rate": 9.74e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096727, "epoch": 0.14881169, "global_step/max_steps": "3200/21503", "percentage": "14.88%", "elapsed_time": "9h 11m 22s", "remaining_time": "2d 4h 33m 41s"}
{"eval_loss": 0.7255587, "eval_runtime": 291.2062, "eval_samples_per_second": 11.933, "eval_steps_per_second": 11.933, "epoch": 0.14881169, "global_step/max_steps": "3200/21503", "percentage": "14.88%", "elapsed_time": "9h 16m 13s", "remaining_time": "2d 5h 1m 26s"}
{"loss": 0.80953169, "token_acc": 0.79561267, "grad_norm": 5.6260066, "learning_rate": 9.73e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095964, "epoch": 0.1490442, "global_step/max_steps": "3205/21503", "percentage": "14.90%", "elapsed_time": "9h 16m 37s", "remaining_time": "2d 4h 57m 53s"}
{"loss": 0.92115459, "token_acc": 0.79002079, "grad_norm": 5.58132553, "learning_rate": 9.73e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096046, "epoch": 0.14927672, "global_step/max_steps": "3210/21503", "percentage": "14.93%", "elapsed_time": "9h 17m 1s", "remaining_time": "2d 4h 54m 18s"}
{"loss": 0.78636856, "token_acc": 0.81991215, "grad_norm": 4.77479267, "learning_rate": 9.73e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.09613, "epoch": 0.14950924, "global_step/max_steps": "3215/21503", "percentage": "14.95%", "elapsed_time": "9h 17m 23s", "remaining_time": "2d 4h 50m 40s"}
{"loss": 0.78594351, "token_acc": 0.81727987, "grad_norm": 6.04264784, "learning_rate": 9.73e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096213, "epoch": 0.14974176, "global_step/max_steps": "3220/21503", "percentage": "14.97%", "elapsed_time": "9h 17m 47s", "remaining_time": "2d 4h 47m 4s"}
{"loss": 0.84517365, "token_acc": 0.78589581, "grad_norm": 6.26754761, "learning_rate": 9.73e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096294, "epoch": 0.14997428, "global_step/max_steps": "3225/21503", "percentage": "15.00%", "elapsed_time": "9h 18m 10s", "remaining_time": "2d 4h 43m 33s"}
{"loss": 0.8673666, "token_acc": 0.80814873, "grad_norm": 5.55863476, "learning_rate": 9.73e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096378, "epoch": 0.1502068, "global_step/max_steps": "3230/21503", "percentage": "15.02%", "elapsed_time": "9h 18m 33s", "remaining_time": "2d 4h 39m 55s"}
{"loss": 0.791293, "token_acc": 0.81236105, "grad_norm": 4.96238232, "learning_rate": 9.73e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096461, "epoch": 0.15043931, "global_step/max_steps": "3235/21503", "percentage": "15.04%", "elapsed_time": "9h 18m 56s", "remaining_time": "2d 4h 36m 20s"}
{"loss": 0.76872749, "token_acc": 0.82659879, "grad_norm": 3.8568821, "learning_rate": 9.73e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096543, "epoch": 0.15067183, "global_step/max_steps": "3240/21503", "percentage": "15.07%", "elapsed_time": "9h 19m 19s", "remaining_time": "2d 4h 32m 48s"}
{"loss": 0.87857914, "token_acc": 0.79531722, "grad_norm": 6.32217503, "learning_rate": 9.72e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096625, "epoch": 0.15090435, "global_step/max_steps": "3245/21503", "percentage": "15.09%", "elapsed_time": "9h 19m 43s", "remaining_time": "2d 4h 29m 15s"}
{"loss": 0.76643906, "token_acc": 0.81354898, "grad_norm": 5.02990341, "learning_rate": 9.72e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096708, "epoch": 0.15113687, "global_step/max_steps": "3250/21503", "percentage": "15.11%", "elapsed_time": "9h 20m 6s", "remaining_time": "2d 4h 25m 41s"}
{"eval_loss": 0.72992295, "eval_runtime": 294.3976, "eval_samples_per_second": 11.804, "eval_steps_per_second": 11.804, "epoch": 0.15113687, "global_step/max_steps": "3250/21503", "percentage": "15.11%", "elapsed_time": "9h 25m 0s", "remaining_time": "2d 4h 53m 15s"}
{"loss": 0.87092228, "token_acc": 0.79531294, "grad_norm": 4.41731787, "learning_rate": 9.72e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095951, "epoch": 0.15136939, "global_step/max_steps": "3255/21503", "percentage": "15.14%", "elapsed_time": "9h 25m 23s", "remaining_time": "2d 4h 49m 39s"}
{"loss": 0.75967603, "token_acc": 0.80171278, "grad_norm": 5.62034178, "learning_rate": 9.72e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096033, "epoch": 0.15160191, "global_step/max_steps": "3260/21503", "percentage": "15.16%", "elapsed_time": "9h 25m 46s", "remaining_time": "2d 4h 46m 5s"}
{"loss": 0.77464447, "token_acc": 0.82014666, "grad_norm": 4.78782511, "learning_rate": 9.72e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096116, "epoch": 0.15183442, "global_step/max_steps": "3265/21503", "percentage": "15.18%", "elapsed_time": "9h 26m 9s", "remaining_time": "2d 4h 42m 28s"}
{"loss": 0.87682438, "token_acc": 0.77890268, "grad_norm": 4.00292397, "learning_rate": 9.72e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096199, "epoch": 0.15206694, "global_step/max_steps": "3270/21503", "percentage": "15.21%", "elapsed_time": "9h 26m 31s", "remaining_time": "2d 4h 38m 52s"}
{"loss": 0.7489275, "token_acc": 0.82076503, "grad_norm": 6.76272726, "learning_rate": 9.72e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096282, "epoch": 0.15229946, "global_step/max_steps": "3275/21503", "percentage": "15.23%", "elapsed_time": "9h 26m 54s", "remaining_time": "2d 4h 35m 18s"}
{"loss": 0.85613098, "token_acc": 0.78544352, "grad_norm": 4.95353603, "learning_rate": 9.72e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096362, "epoch": 0.15253198, "global_step/max_steps": "3280/21503", "percentage": "15.25%", "elapsed_time": "9h 27m 17s", "remaining_time": "2d 4h 31m 47s"}
{"loss": 0.81155643, "token_acc": 0.79938166, "grad_norm": 5.24443102, "learning_rate": 9.71e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096444, "epoch": 0.1527645, "global_step/max_steps": "3285/21503", "percentage": "15.28%", "elapsed_time": "9h 27m 40s", "remaining_time": "2d 4h 28m 15s"}
{"loss": 0.91058941, "token_acc": 0.76864, "grad_norm": 5.6033926, "learning_rate": 9.71e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096527, "epoch": 0.15299702, "global_step/max_steps": "3290/21503", "percentage": "15.30%", "elapsed_time": "9h 28m 3s", "remaining_time": "2d 4h 24m 42s"}
{"loss": 0.74761181, "token_acc": 0.82532189, "grad_norm": 5.88934278, "learning_rate": 9.71e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.09661, "epoch": 0.15322953, "global_step/max_steps": "3295/21503", "percentage": "15.32%", "elapsed_time": "9h 28m 26s", "remaining_time": "2d 4h 21m 8s"}
{"loss": 0.83735399, "token_acc": 0.80439659, "grad_norm": 5.44642544, "learning_rate": 9.71e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096693, "epoch": 0.15346205, "global_step/max_steps": "3300/21503", "percentage": "15.35%", "elapsed_time": "9h 28m 48s", "remaining_time": "2d 4h 17m 34s"}
{"eval_loss": 0.72424465, "eval_runtime": 290.5903, "eval_samples_per_second": 11.958, "eval_steps_per_second": 11.958, "epoch": 0.15346205, "global_step/max_steps": "3300/21503", "percentage": "15.35%", "elapsed_time": "9h 33m 38s", "remaining_time": "2d 4h 44m 17s"}
{"loss": 0.7843689, "token_acc": 0.79664113, "grad_norm": 6.90322399, "learning_rate": 9.71e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095957, "epoch": 0.15369457, "global_step/max_steps": "3305/21503", "percentage": "15.37%", "elapsed_time": "9h 34m 2s", "remaining_time": "2d 4h 40m 45s"}
{"loss": 0.87334127, "token_acc": 0.78726198, "grad_norm": 4.27173328, "learning_rate": 9.71e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096037, "epoch": 0.15392709, "global_step/max_steps": "3310/21503", "percentage": "15.39%", "elapsed_time": "9h 34m 25s", "remaining_time": "2d 4h 37m 15s"}
{"loss": 0.80010576, "token_acc": 0.80168313, "grad_norm": 5.44469404, "learning_rate": 9.71e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.09612, "epoch": 0.15415961, "global_step/max_steps": "3315/21503", "percentage": "15.42%", "elapsed_time": "9h 34m 47s", "remaining_time": "2d 4h 33m 40s"}
{"loss": 0.77796049, "token_acc": 0.81005386, "grad_norm": 5.71787119, "learning_rate": 9.71e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096202, "epoch": 0.15439212, "global_step/max_steps": "3320/21503", "percentage": "15.44%", "elapsed_time": "9h 35m 10s", "remaining_time": "2d 4h 30m 6s"}
{"loss": 0.77957764, "token_acc": 0.80076944, "grad_norm": 4.91277504, "learning_rate": 9.7e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096284, "epoch": 0.15462464, "global_step/max_steps": "3325/21503", "percentage": "15.46%", "elapsed_time": "9h 35m 32s", "remaining_time": "2d 4h 26m 33s"}
{"loss": 0.84240341, "token_acc": 0.79646018, "grad_norm": 5.52381229, "learning_rate": 9.7e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096364, "epoch": 0.15485716, "global_step/max_steps": "3330/21503", "percentage": "15.49%", "elapsed_time": "9h 35m 56s", "remaining_time": "2d 4h 23m 5s"}
{"loss": 0.7897037, "token_acc": 0.80322281, "grad_norm": 5.2159543, "learning_rate": 9.7e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096438, "epoch": 0.15508968, "global_step/max_steps": "3335/21503", "percentage": "15.51%", "elapsed_time": "9h 36m 21s", "remaining_time": "2d 4h 19m 48s"}
{"loss": 0.77582932, "token_acc": 0.82082233, "grad_norm": 4.99673414, "learning_rate": 9.7e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.09652, "epoch": 0.1553222, "global_step/max_steps": "3340/21503", "percentage": "15.53%", "elapsed_time": "9h 36m 44s", "remaining_time": "2d 4h 16m 18s"}
{"loss": 0.77933378, "token_acc": 0.81640942, "grad_norm": 5.72484779, "learning_rate": 9.7e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096602, "epoch": 0.15555472, "global_step/max_steps": "3345/21503", "percentage": "15.56%", "elapsed_time": "9h 37m 6s", "remaining_time": "2d 4h 12m 46s"}
{"loss": 0.83712645, "token_acc": 0.79279915, "grad_norm": 6.37745047, "learning_rate": 9.7e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096683, "epoch": 0.15578723, "global_step/max_steps": "3350/21503", "percentage": "15.58%", "elapsed_time": "9h 37m 28s", "remaining_time": "2d 4h 9m 15s"}
{"eval_loss": 0.72581863, "eval_runtime": 292.1213, "eval_samples_per_second": 11.896, "eval_steps_per_second": 11.896, "epoch": 0.15578723, "global_step/max_steps": "3350/21503", "percentage": "15.58%", "elapsed_time": "9h 42m 21s", "remaining_time": "2d 4h 35m 38s"}
{"loss": 0.79852109, "token_acc": 0.79713207, "grad_norm": 6.01138544, "learning_rate": 9.7e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095956, "epoch": 0.15601975, "global_step/max_steps": "3355/21503", "percentage": "15.60%", "elapsed_time": "9h 42m 43s", "remaining_time": "2d 4h 32m 7s"}
{"loss": 0.74867015, "token_acc": 0.81954598, "grad_norm": 6.29803324, "learning_rate": 9.69e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096035, "epoch": 0.15625227, "global_step/max_steps": "3360/21503", "percentage": "15.63%", "elapsed_time": "9h 43m 7s", "remaining_time": "2d 4h 28m 39s"}
{"loss": 0.86666288, "token_acc": 0.79100605, "grad_norm": 6.29846811, "learning_rate": 9.69e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096112, "epoch": 0.15648479, "global_step/max_steps": "3365/21503", "percentage": "15.65%", "elapsed_time": "9h 43m 31s", "remaining_time": "2d 4h 25m 16s"}
{"loss": 0.67341356, "token_acc": 0.8503156, "grad_norm": 5.43831921, "learning_rate": 9.69e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096192, "epoch": 0.15671731, "global_step/max_steps": "3370/21503", "percentage": "15.67%", "elapsed_time": "9h 43m 53s", "remaining_time": "2d 4h 21m 47s"}
{"loss": 0.81307087, "token_acc": 0.80777616, "grad_norm": 5.32026482, "learning_rate": 9.69e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096272, "epoch": 0.15694983, "global_step/max_steps": "3375/21503", "percentage": "15.70%", "elapsed_time": "9h 44m 16s", "remaining_time": "2d 4h 18m 18s"}
{"loss": 0.79290943, "token_acc": 0.8097869, "grad_norm": 5.87349987, "learning_rate": 9.69e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096354, "epoch": 0.15718234, "global_step/max_steps": "3380/21503", "percentage": "15.72%", "elapsed_time": "9h 44m 38s", "remaining_time": "2d 4h 14m 46s"}
{"loss": 0.69688578, "token_acc": 0.85101367, "grad_norm": 6.56108999, "learning_rate": 9.69e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096434, "epoch": 0.15741486, "global_step/max_steps": "3385/21503", "percentage": "15.74%", "elapsed_time": "9h 45m 1s", "remaining_time": "2d 4h 11m 18s"}
{"loss": 0.8454565, "token_acc": 0.79445644, "grad_norm": 6.44242907, "learning_rate": 9.69e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096514, "epoch": 0.15764738, "global_step/max_steps": "3390/21503", "percentage": "15.77%", "elapsed_time": "9h 45m 24s", "remaining_time": "2d 4h 7m 51s"}
{"loss": 0.75345421, "token_acc": 0.8213628, "grad_norm": 5.06766367, "learning_rate": 9.69e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096595, "epoch": 0.1578799, "global_step/max_steps": "3395/21503", "percentage": "15.79%", "elapsed_time": "9h 45m 46s", "remaining_time": "2d 4h 4m 21s"}
{"loss": 0.9291214, "token_acc": 0.77410235, "grad_norm": 3.82648778, "learning_rate": 9.68e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096675, "epoch": 0.15811242, "global_step/max_steps": "3400/21503", "percentage": "15.81%", "elapsed_time": "9h 46m 9s", "remaining_time": "2d 4h 0m 55s"}
{"eval_loss": 0.72755045, "eval_runtime": 294.5423, "eval_samples_per_second": 11.798, "eval_steps_per_second": 11.798, "epoch": 0.15811242, "global_step/max_steps": "3400/21503", "percentage": "15.81%", "elapsed_time": "9h 51m 3s", "remaining_time": "2d 4h 27m 3s"}
{"loss": 0.76322184, "token_acc": 0.79778821, "grad_norm": 6.07520771, "learning_rate": 9.68e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095951, "epoch": 0.15834494, "global_step/max_steps": "3405/21503", "percentage": "15.83%", "elapsed_time": "9h 51m 26s", "remaining_time": "2d 4h 23m 36s"}
{"loss": 0.84922075, "token_acc": 0.77349679, "grad_norm": 5.36153364, "learning_rate": 9.68e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.09603, "epoch": 0.15857745, "global_step/max_steps": "3410/21503", "percentage": "15.86%", "elapsed_time": "9h 51m 49s", "remaining_time": "2d 4h 20m 9s"}
{"loss": 0.76754503, "token_acc": 0.8188755, "grad_norm": 4.39650488, "learning_rate": 9.68e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096108, "epoch": 0.15880997, "global_step/max_steps": "3415/21503", "percentage": "15.88%", "elapsed_time": "9h 52m 12s", "remaining_time": "2d 4h 16m 43s"}
{"loss": 0.83650236, "token_acc": 0.79002359, "grad_norm": 5.4615097, "learning_rate": 9.68e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096186, "epoch": 0.15904249, "global_step/max_steps": "3420/21503", "percentage": "15.90%", "elapsed_time": "9h 52m 35s", "remaining_time": "2d 4h 13m 19s"}
{"loss": 0.86660738, "token_acc": 0.7959479, "grad_norm": 6.789258, "learning_rate": 9.68e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096262, "epoch": 0.15927501, "global_step/max_steps": "3425/21503", "percentage": "15.93%", "elapsed_time": "9h 52m 59s", "remaining_time": "2d 4h 9m 59s"}
{"loss": 0.72984009, "token_acc": 0.81899225, "grad_norm": 5.05592871, "learning_rate": 9.68e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096339, "epoch": 0.15950753, "global_step/max_steps": "3430/21503", "percentage": "15.95%", "elapsed_time": "9h 53m 23s", "remaining_time": "2d 4h 6m 36s"}
{"loss": 0.94628019, "token_acc": 0.76019042, "grad_norm": 5.08893681, "learning_rate": 9.67e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096415, "epoch": 0.15974004, "global_step/max_steps": "3435/21503", "percentage": "15.97%", "elapsed_time": "9h 53m 46s", "remaining_time": "2d 4h 3m 16s"}
{"loss": 0.84939146, "token_acc": 0.80031696, "grad_norm": 4.84674406, "learning_rate": 9.67e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096494, "epoch": 0.15997256, "global_step/max_steps": "3440/21503", "percentage": "16.00%", "elapsed_time": "9h 54m 9s", "remaining_time": "2d 3h 59m 51s"}
{"loss": 0.75024185, "token_acc": 0.81458967, "grad_norm": 8.21092606, "learning_rate": 9.67e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096573, "epoch": 0.16020508, "global_step/max_steps": "3445/21503", "percentage": "16.02%", "elapsed_time": "9h 54m 32s", "remaining_time": "2d 3h 56m 26s"}
{"loss": 0.75581641, "token_acc": 0.81081081, "grad_norm": 5.04386234, "learning_rate": 9.67e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.09665, "epoch": 0.1604376, "global_step/max_steps": "3450/21503", "percentage": "16.04%", "elapsed_time": "9h 54m 55s", "remaining_time": "2d 3h 53m 5s"}
{"eval_loss": 0.72153699, "eval_runtime": 292.7346, "eval_samples_per_second": 11.871, "eval_steps_per_second": 11.871, "epoch": 0.1604376, "global_step/max_steps": "3450/21503", "percentage": "16.04%", "elapsed_time": "9h 59m 48s", "remaining_time": "2d 4h 18m 37s"}
{"loss": 0.94931412, "token_acc": 0.79725988, "grad_norm": 5.06950521, "learning_rate": 9.67e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095941, "epoch": 0.16067012, "global_step/max_steps": "3455/21503", "percentage": "16.07%", "elapsed_time": "10h 0m 11s", "remaining_time": "2d 4h 15m 14s"}
{"loss": 0.84793425, "token_acc": 0.78834679, "grad_norm": 5.92171907, "learning_rate": 9.67e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096019, "epoch": 0.16090264, "global_step/max_steps": "3460/21503", "percentage": "16.09%", "elapsed_time": "10h 0m 34s", "remaining_time": "2d 4h 11m 49s"}
{"loss": 0.76147723, "token_acc": 0.82307122, "grad_norm": 5.09567499, "learning_rate": 9.67e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096097, "epoch": 0.16113515, "global_step/max_steps": "3465/21503", "percentage": "16.11%", "elapsed_time": "10h 0m 57s", "remaining_time": "2d 4h 8m 25s"}
{"loss": 0.74058943, "token_acc": 0.81217391, "grad_norm": 5.04265308, "learning_rate": 9.66e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096174, "epoch": 0.16136767, "global_step/max_steps": "3470/21503", "percentage": "16.14%", "elapsed_time": "10h 1m 20s", "remaining_time": "2d 4h 5m 2s"}
{"loss": 0.82513924, "token_acc": 0.79981746, "grad_norm": 4.29018021, "learning_rate": 9.66e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.09625, "epoch": 0.16160019, "global_step/max_steps": "3475/21503", "percentage": "16.16%", "elapsed_time": "10h 1m 43s", "remaining_time": "2d 4h 1m 42s"}
{"loss": 0.9235754, "token_acc": 0.77102956, "grad_norm": 6.10520744, "learning_rate": 9.66e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096327, "epoch": 0.16183271, "global_step/max_steps": "3480/21503", "percentage": "16.18%", "elapsed_time": "10h 2m 6s", "remaining_time": "2d 3h 58m 20s"}
{"loss": 0.76502051, "token_acc": 0.81624095, "grad_norm": 5.00749302, "learning_rate": 9.66e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096405, "epoch": 0.16206523, "global_step/max_steps": "3485/21503", "percentage": "16.21%", "elapsed_time": "10h 2m 29s", "remaining_time": "2d 3h 54m 57s"}
{"loss": 0.85880671, "token_acc": 0.79179383, "grad_norm": 3.9394815, "learning_rate": 9.66e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096482, "epoch": 0.16229775, "global_step/max_steps": "3490/21503", "percentage": "16.23%", "elapsed_time": "10h 2m 52s", "remaining_time": "2d 3h 51m 36s"}
{"loss": 0.64942126, "token_acc": 0.83687669, "grad_norm": 5.93899918, "learning_rate": 9.66e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096559, "epoch": 0.16253026, "global_step/max_steps": "3495/21503", "percentage": "16.25%", "elapsed_time": "10h 3m 15s", "remaining_time": "2d 3h 48m 15s"}
{"loss": 0.82500439, "token_acc": 0.79602158, "grad_norm": 5.34236813, "learning_rate": 9.66e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096637, "epoch": 0.16276278, "global_step/max_steps": "3500/21503", "percentage": "16.28%", "elapsed_time": "10h 3m 37s", "remaining_time": "2d 3h 44m 53s"}
{"eval_loss": 0.71761888, "eval_runtime": 296.5613, "eval_samples_per_second": 11.718, "eval_steps_per_second": 11.718, "epoch": 0.16276278, "global_step/max_steps": "3500/21503", "percentage": "16.28%", "elapsed_time": "10h 8m 34s", "remaining_time": "2d 4h 10m 18s"}
{"loss": 0.90596485, "token_acc": 0.79765478, "grad_norm": 5.93793535, "learning_rate": 9.66e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095929, "epoch": 0.1629953, "global_step/max_steps": "3505/21503", "percentage": "16.30%", "elapsed_time": "10h 8m 57s", "remaining_time": "2d 4h 6m 56s"}
{"loss": 0.88479691, "token_acc": 0.77228346, "grad_norm": 4.10004902, "learning_rate": 9.65e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096005, "epoch": 0.16322782, "global_step/max_steps": "3510/21503", "percentage": "16.32%", "elapsed_time": "10h 9m 20s", "remaining_time": "2d 4h 3m 37s"}
{"loss": 0.79608288, "token_acc": 0.80472596, "grad_norm": 3.79213786, "learning_rate": 9.65e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096082, "epoch": 0.16346034, "global_step/max_steps": "3515/21503", "percentage": "16.35%", "elapsed_time": "10h 9m 42s", "remaining_time": "2d 4h 0m 12s"}
{"loss": 0.78756628, "token_acc": 0.79628914, "grad_norm": 6.27623129, "learning_rate": 9.65e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096161, "epoch": 0.16369286, "global_step/max_steps": "3520/21503", "percentage": "16.37%", "elapsed_time": "10h 10m 4s", "remaining_time": "2d 3h 56m 47s"}
{"loss": 0.71391263, "token_acc": 0.83339241, "grad_norm": 5.95354748, "learning_rate": 9.65e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096242, "epoch": 0.16392537, "global_step/max_steps": "3525/21503", "percentage": "16.39%", "elapsed_time": "10h 10m 26s", "remaining_time": "2d 3h 53m 19s"}
{"loss": 0.85372343, "token_acc": 0.79486181, "grad_norm": 6.99659634, "learning_rate": 9.65e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.09632, "epoch": 0.16415789, "global_step/max_steps": "3530/21503", "percentage": "16.42%", "elapsed_time": "10h 10m 48s", "remaining_time": "2d 3h 49m 54s"}
{"loss": 0.79611173, "token_acc": 0.81004989, "grad_norm": 5.04643965, "learning_rate": 9.65e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096397, "epoch": 0.16439041, "global_step/max_steps": "3535/21503", "percentage": "16.44%", "elapsed_time": "10h 11m 10s", "remaining_time": "2d 3h 46m 33s"}
{"loss": 0.90673084, "token_acc": 0.78861234, "grad_norm": 6.09031677, "learning_rate": 9.65e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096476, "epoch": 0.16462293, "global_step/max_steps": "3540/21503", "percentage": "16.46%", "elapsed_time": "10h 11m 32s", "remaining_time": "2d 3h 43m 10s"}
{"loss": 0.84208488, "token_acc": 0.79002282, "grad_norm": 7.94221067, "learning_rate": 9.64e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096552, "epoch": 0.16485545, "global_step/max_steps": "3545/21503", "percentage": "16.49%", "elapsed_time": "10h 11m 55s", "remaining_time": "2d 3h 39m 51s"}
{"loss": 0.74834757, "token_acc": 0.81436314, "grad_norm": 5.1389575, "learning_rate": 9.64e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096631, "epoch": 0.16508796, "global_step/max_steps": "3550/21503", "percentage": "16.51%", "elapsed_time": "10h 12m 17s", "remaining_time": "2d 3h 36m 28s"}
{"eval_loss": 0.71865565, "eval_runtime": 294.7293, "eval_samples_per_second": 11.79, "eval_steps_per_second": 11.79, "epoch": 0.16508796, "global_step/max_steps": "3550/21503", "percentage": "16.51%", "elapsed_time": "10h 17m 12s", "remaining_time": "2d 4h 1m 18s"}
{"loss": 0.876367, "token_acc": 0.79719941, "grad_norm": 6.10462666, "learning_rate": 9.64e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095937, "epoch": 0.16532048, "global_step/max_steps": "3555/21503", "percentage": "16.53%", "elapsed_time": "10h 17m 35s", "remaining_time": "2d 3h 58m 0s"}
{"loss": 0.93837423, "token_acc": 0.77363097, "grad_norm": 6.48339891, "learning_rate": 9.64e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096013, "epoch": 0.165553, "global_step/max_steps": "3560/21503", "percentage": "16.56%", "elapsed_time": "10h 17m 58s", "remaining_time": "2d 3h 54m 39s"}
{"loss": 0.80173101, "token_acc": 0.80201613, "grad_norm": 5.24705219, "learning_rate": 9.64e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096088, "epoch": 0.16578552, "global_step/max_steps": "3565/21503", "percentage": "16.58%", "elapsed_time": "10h 18m 21s", "remaining_time": "2d 3h 51m 21s"}
{"loss": 0.78536401, "token_acc": 0.8137957, "grad_norm": 4.6521883, "learning_rate": 9.64e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096165, "epoch": 0.16601804, "global_step/max_steps": "3570/21503", "percentage": "16.60%", "elapsed_time": "10h 18m 43s", "remaining_time": "2d 3h 48m 1s"}
{"loss": 0.76103735, "token_acc": 0.81241185, "grad_norm": 4.87400675, "learning_rate": 9.64e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.09624, "epoch": 0.16625056, "global_step/max_steps": "3575/21503", "percentage": "16.63%", "elapsed_time": "10h 19m 6s", "remaining_time": "2d 3h 44m 42s"}
{"loss": 0.76914072, "token_acc": 0.80308339, "grad_norm": 6.39899445, "learning_rate": 9.63e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096314, "epoch": 0.16648307, "global_step/max_steps": "3580/21503", "percentage": "16.65%", "elapsed_time": "10h 19m 29s", "remaining_time": "2d 3h 41m 27s"}
{"loss": 0.7621357, "token_acc": 0.79784066, "grad_norm": 5.58176851, "learning_rate": 9.63e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096391, "epoch": 0.16671559, "global_step/max_steps": "3585/21503", "percentage": "16.67%", "elapsed_time": "10h 19m 52s", "remaining_time": "2d 3h 38m 8s"}
{"loss": 0.84986696, "token_acc": 0.78098068, "grad_norm": 4.73793888, "learning_rate": 9.63e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096467, "epoch": 0.16694811, "global_step/max_steps": "3590/21503", "percentage": "16.70%", "elapsed_time": "10h 20m 14s", "remaining_time": "2d 3h 34m 50s"}
{"loss": 0.82974224, "token_acc": 0.80047226, "grad_norm": 5.0031352, "learning_rate": 9.63e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096543, "epoch": 0.16718063, "global_step/max_steps": "3595/21503", "percentage": "16.72%", "elapsed_time": "10h 20m 37s", "remaining_time": "2d 3h 31m 31s"}
{"loss": 0.85479202, "token_acc": 0.80392884, "grad_norm": 4.63813639, "learning_rate": 9.63e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096619, "epoch": 0.16741315, "global_step/max_steps": "3600/21503", "percentage": "16.74%", "elapsed_time": "10h 20m 59s", "remaining_time": "2d 3h 28m 13s"}
{"eval_loss": 0.71750897, "eval_runtime": 293.2233, "eval_samples_per_second": 11.851, "eval_steps_per_second": 11.851, "epoch": 0.16741315, "global_step/max_steps": "3600/21503", "percentage": "16.74%", "elapsed_time": "10h 25m 52s", "remaining_time": "2d 3h 52m 32s"}
{"loss": 0.68198628, "token_acc": 0.79973065, "grad_norm": 5.29580307, "learning_rate": 9.63e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095937, "epoch": 0.16764567, "global_step/max_steps": "3605/21503", "percentage": "16.77%", "elapsed_time": "10h 26m 16s", "remaining_time": "2d 3h 49m 17s"}
{"loss": 0.91010208, "token_acc": 0.77043376, "grad_norm": 6.20209503, "learning_rate": 9.63e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096011, "epoch": 0.16787818, "global_step/max_steps": "3610/21503", "percentage": "16.79%", "elapsed_time": "10h 26m 39s", "remaining_time": "2d 3h 46m 2s"}
{"loss": 0.76750655, "token_acc": 0.8091299, "grad_norm": 6.18251133, "learning_rate": 9.62e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096086, "epoch": 0.1681107, "global_step/max_steps": "3615/21503", "percentage": "16.81%", "elapsed_time": "10h 27m 2s", "remaining_time": "2d 3h 42m 44s"}
{"loss": 0.83123817, "token_acc": 0.80038948, "grad_norm": 5.59062576, "learning_rate": 9.62e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.09616, "epoch": 0.16834322, "global_step/max_steps": "3620/21503", "percentage": "16.83%", "elapsed_time": "10h 27m 25s", "remaining_time": "2d 3h 39m 29s"}
{"loss": 0.69816093, "token_acc": 0.82949668, "grad_norm": 7.96348715, "learning_rate": 9.62e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096236, "epoch": 0.16857574, "global_step/max_steps": "3625/21503", "percentage": "16.86%", "elapsed_time": "10h 27m 47s", "remaining_time": "2d 3h 36m 11s"}
{"loss": 0.71240535, "token_acc": 0.84728183, "grad_norm": 7.47618437, "learning_rate": 9.62e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096309, "epoch": 0.16880826, "global_step/max_steps": "3630/21503", "percentage": "16.88%", "elapsed_time": "10h 28m 11s", "remaining_time": "2d 3h 32m 59s"}
{"loss": 0.79036798, "token_acc": 0.80454394, "grad_norm": 5.1054945, "learning_rate": 9.62e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096384, "epoch": 0.16904077, "global_step/max_steps": "3635/21503", "percentage": "16.90%", "elapsed_time": "10h 28m 33s", "remaining_time": "2d 3h 29m 42s"}
{"loss": 0.88090992, "token_acc": 0.80956638, "grad_norm": 5.29868937, "learning_rate": 9.62e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096459, "epoch": 0.16927329, "global_step/max_steps": "3640/21503", "percentage": "16.93%", "elapsed_time": "10h 28m 55s", "remaining_time": "2d 3h 26m 26s"}
{"loss": 0.82589636, "token_acc": 0.77236169, "grad_norm": 5.42440891, "learning_rate": 9.61e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096531, "epoch": 0.16950581, "global_step/max_steps": "3645/21503", "percentage": "16.95%", "elapsed_time": "10h 29m 19s", "remaining_time": "2d 3h 23m 15s"}
{"loss": 0.87941608, "token_acc": 0.79387187, "grad_norm": 6.60791492, "learning_rate": 9.61e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096605, "epoch": 0.16973833, "global_step/max_steps": "3650/21503", "percentage": "16.97%", "elapsed_time": "10h 29m 42s", "remaining_time": "2d 3h 20m 3s"}
{"eval_loss": 0.71481889, "eval_runtime": 293.6307, "eval_samples_per_second": 11.835, "eval_steps_per_second": 11.835, "epoch": 0.16973833, "global_step/max_steps": "3650/21503", "percentage": "16.97%", "elapsed_time": "10h 34m 36s", "remaining_time": "2d 3h 43m 59s"}
{"loss": 0.77112947, "token_acc": 0.79958838, "grad_norm": 5.14678621, "learning_rate": 9.61e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095931, "epoch": 0.16997085, "global_step/max_steps": "3655/21503", "percentage": "17.00%", "elapsed_time": "10h 35m 0s", "remaining_time": "2d 3h 40m 49s"}
{"loss": 0.69625039, "token_acc": 0.82162162, "grad_norm": 7.57979774, "learning_rate": 9.61e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096005, "epoch": 0.17020337, "global_step/max_steps": "3660/21503", "percentage": "17.02%", "elapsed_time": "10h 35m 22s", "remaining_time": "2d 3h 37m 33s"}
{"loss": 0.80601559, "token_acc": 0.79500657, "grad_norm": 3.41314721, "learning_rate": 9.61e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096078, "epoch": 0.17043588, "global_step/max_steps": "3665/21503", "percentage": "17.04%", "elapsed_time": "10h 35m 45s", "remaining_time": "2d 3h 34m 21s"}
{"loss": 0.68394732, "token_acc": 0.84540034, "grad_norm": 7.16119099, "learning_rate": 9.61e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096151, "epoch": 0.1706684, "global_step/max_steps": "3670/21503", "percentage": "17.07%", "elapsed_time": "10h 36m 8s", "remaining_time": "2d 3h 31m 6s"}
{"loss": 0.89894896, "token_acc": 0.79850187, "grad_norm": 5.27168226, "learning_rate": 9.61e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096226, "epoch": 0.17090092, "global_step/max_steps": "3675/21503", "percentage": "17.09%", "elapsed_time": "10h 36m 31s", "remaining_time": "2d 3h 27m 50s"}
{"loss": 0.7826571, "token_acc": 0.81548879, "grad_norm": 5.44813013, "learning_rate": 9.6e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.0963, "epoch": 0.17113344, "global_step/max_steps": "3680/21503", "percentage": "17.11%", "elapsed_time": "10h 36m 53s", "remaining_time": "2d 3h 24m 36s"}
{"loss": 0.76609402, "token_acc": 0.82090199, "grad_norm": 4.37293053, "learning_rate": 9.6e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096375, "epoch": 0.17136596, "global_step/max_steps": "3685/21503", "percentage": "17.14%", "elapsed_time": "10h 37m 15s", "remaining_time": "2d 3h 21m 20s"}
{"loss": 0.81555233, "token_acc": 0.79836066, "grad_norm": 4.68172216, "learning_rate": 9.6e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096448, "epoch": 0.17159848, "global_step/max_steps": "3690/21503", "percentage": "17.16%", "elapsed_time": "10h 37m 38s", "remaining_time": "2d 3h 18m 9s"}
{"loss": 0.73711019, "token_acc": 0.81477273, "grad_norm": 5.45105886, "learning_rate": 9.6e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096521, "epoch": 0.17183099, "global_step/max_steps": "3695/21503", "percentage": "17.18%", "elapsed_time": "10h 38m 1s", "remaining_time": "2d 3h 14m 57s"}
{"loss": 0.8151021, "token_acc": 0.81292059, "grad_norm": 6.28434229, "learning_rate": 9.6e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096595, "epoch": 0.17206351, "global_step/max_steps": "3700/21503", "percentage": "17.21%", "elapsed_time": "10h 38m 24s", "remaining_time": "2d 3h 11m 45s"}
{"eval_loss": 0.71197379, "eval_runtime": 291.2382, "eval_samples_per_second": 11.932, "eval_steps_per_second": 11.932, "epoch": 0.17206351, "global_step/max_steps": "3700/21503", "percentage": "17.21%", "elapsed_time": "10h 43m 15s", "remaining_time": "2d 3h 35m 6s"}
{"loss": 0.79292531, "token_acc": 0.79954351, "grad_norm": 5.11615324, "learning_rate": 9.6e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095936, "epoch": 0.17229603, "global_step/max_steps": "3705/21503", "percentage": "17.23%", "elapsed_time": "10h 43m 39s", "remaining_time": "2d 3h 31m 58s"}
{"loss": 0.77809086, "token_acc": 0.80883418, "grad_norm": 7.7103591, "learning_rate": 9.6e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096008, "epoch": 0.17252855, "global_step/max_steps": "3710/21503", "percentage": "17.25%", "elapsed_time": "10h 44m 2s", "remaining_time": "2d 3h 28m 46s"}
{"loss": 0.83456573, "token_acc": 0.80395232, "grad_norm": 6.1196785, "learning_rate": 9.59e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096082, "epoch": 0.17276107, "global_step/max_steps": "3715/21503", "percentage": "17.28%", "elapsed_time": "10h 44m 24s", "remaining_time": "2d 3h 25m 32s"}
{"loss": 0.88185186, "token_acc": 0.78905438, "grad_norm": 5.87909269, "learning_rate": 9.59e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096154, "epoch": 0.17299359, "global_step/max_steps": "3720/21503", "percentage": "17.30%", "elapsed_time": "10h 44m 47s", "remaining_time": "2d 3h 22m 21s"}
{"loss": 0.85790186, "token_acc": 0.78044231, "grad_norm": 6.87263918, "learning_rate": 9.59e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096225, "epoch": 0.1732261, "global_step/max_steps": "3725/21503", "percentage": "17.32%", "elapsed_time": "10h 45m 11s", "remaining_time": "2d 3h 19m 13s"}
{"loss": 0.83823214, "token_acc": 0.80345659, "grad_norm": 6.41540289, "learning_rate": 9.59e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096299, "epoch": 0.17345862, "global_step/max_steps": "3730/21503", "percentage": "17.35%", "elapsed_time": "10h 45m 33s", "remaining_time": "2d 3h 15m 58s"}
{"loss": 0.72491474, "token_acc": 0.81487405, "grad_norm": 6.09463263, "learning_rate": 9.59e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096372, "epoch": 0.17369114, "global_step/max_steps": "3735/21503", "percentage": "17.37%", "elapsed_time": "10h 45m 55s", "remaining_time": "2d 3h 12m 47s"}
{"loss": 0.85851574, "token_acc": 0.78060907, "grad_norm": 5.10610914, "learning_rate": 9.59e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096444, "epoch": 0.17392366, "global_step/max_steps": "3740/21503", "percentage": "17.39%", "elapsed_time": "10h 46m 18s", "remaining_time": "2d 3h 9m 38s"}
{"loss": 0.76367416, "token_acc": 0.8018544, "grad_norm": 7.24240685, "learning_rate": 9.58e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096516, "epoch": 0.17415618, "global_step/max_steps": "3745/21503", "percentage": "17.42%", "elapsed_time": "10h 46m 41s", "remaining_time": "2d 3h 6m 29s"}
{"loss": 0.74483066, "token_acc": 0.8144084, "grad_norm": 7.00205135, "learning_rate": 9.58e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096589, "epoch": 0.17438869, "global_step/max_steps": "3750/21503", "percentage": "17.44%", "elapsed_time": "10h 47m 4s", "remaining_time": "2d 3h 3m 18s"}
{"eval_loss": 0.70717019, "eval_runtime": 290.4999, "eval_samples_per_second": 11.962, "eval_steps_per_second": 11.962, "epoch": 0.17438869, "global_step/max_steps": "3750/21503", "percentage": "17.44%", "elapsed_time": "10h 51m 54s", "remaining_time": "2d 3h 26m 13s"}
{"loss": 0.69265165, "token_acc": 0.8004341, "grad_norm": 5.75349522, "learning_rate": 9.58e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095939, "epoch": 0.17462121, "global_step/max_steps": "3755/21503", "percentage": "17.46%", "elapsed_time": "10h 52m 19s", "remaining_time": "2d 3h 23m 10s"}
{"loss": 0.75035834, "token_acc": 0.81144393, "grad_norm": 4.84396744, "learning_rate": 9.58e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.09601, "epoch": 0.17485373, "global_step/max_steps": "3760/21503", "percentage": "17.49%", "elapsed_time": "10h 52m 42s", "remaining_time": "2d 3h 20m 3s"}
{"loss": 0.77420478, "token_acc": 0.82054455, "grad_norm": 6.03497696, "learning_rate": 9.58e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096081, "epoch": 0.17508625, "global_step/max_steps": "3765/21503", "percentage": "17.51%", "elapsed_time": "10h 53m 5s", "remaining_time": "2d 3h 16m 53s"}
{"loss": 0.75216441, "token_acc": 0.83037557, "grad_norm": 5.2408061, "learning_rate": 9.58e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096153, "epoch": 0.17531877, "global_step/max_steps": "3770/21503", "percentage": "17.53%", "elapsed_time": "10h 53m 27s", "remaining_time": "2d 3h 13m 42s"}
{"loss": 0.79561863, "token_acc": 0.81722452, "grad_norm": 5.32048798, "learning_rate": 9.58e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096223, "epoch": 0.17555129, "global_step/max_steps": "3775/21503", "percentage": "17.56%", "elapsed_time": "10h 53m 51s", "remaining_time": "2d 3h 10m 38s"}
{"loss": 0.89823818, "token_acc": 0.77479726, "grad_norm": 5.39115095, "learning_rate": 9.57e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096291, "epoch": 0.1757838, "global_step/max_steps": "3780/21503", "percentage": "17.58%", "elapsed_time": "10h 54m 15s", "remaining_time": "2d 3h 7m 34s"}
{"loss": 0.97751799, "token_acc": 0.78606776, "grad_norm": 4.87489223, "learning_rate": 9.57e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096362, "epoch": 0.17601632, "global_step/max_steps": "3785/21503", "percentage": "17.60%", "elapsed_time": "10h 54m 38s", "remaining_time": "2d 3h 4m 27s"}
{"loss": 0.75782661, "token_acc": 0.80504587, "grad_norm": 5.05995131, "learning_rate": 9.57e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096433, "epoch": 0.17624884, "global_step/max_steps": "3790/21503", "percentage": "17.63%", "elapsed_time": "10h 55m 1s", "remaining_time": "2d 3h 1m 20s"}
{"loss": 0.86463413, "token_acc": 0.78733032, "grad_norm": 4.95411587, "learning_rate": 9.57e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096505, "epoch": 0.17648136, "global_step/max_steps": "3795/21503", "percentage": "17.65%", "elapsed_time": "10h 55m 23s", "remaining_time": "2d 2h 58m 11s"}
{"loss": 0.85076723, "token_acc": 0.78370787, "grad_norm": 5.73530579, "learning_rate": 9.57e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096577, "epoch": 0.17671388, "global_step/max_steps": "3800/21503", "percentage": "17.67%", "elapsed_time": "10h 55m 46s", "remaining_time": "2d 2h 55m 3s"}
{"eval_loss": 0.712852, "eval_runtime": 290.7916, "eval_samples_per_second": 11.95, "eval_steps_per_second": 11.95, "epoch": 0.17671388, "global_step/max_steps": "3800/21503", "percentage": "17.67%", "elapsed_time": "11h 0m 37s", "remaining_time": "2d 3h 17m 37s"}
{"loss": 0.87971897, "token_acc": 0.79950748, "grad_norm": 5.39783859, "learning_rate": 9.57e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095938, "epoch": 0.1769464, "global_step/max_steps": "3805/21503", "percentage": "17.70%", "elapsed_time": "11h 1m 0s", "remaining_time": "2d 3h 14m 31s"}
{"loss": 0.85221901, "token_acc": 0.79612323, "grad_norm": 4.22226191, "learning_rate": 9.56e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.09601, "epoch": 0.17717891, "global_step/max_steps": "3810/21503", "percentage": "17.72%", "elapsed_time": "11h 1m 22s", "remaining_time": "2d 3h 11m 21s"}
{"loss": 0.71062937, "token_acc": 0.82509363, "grad_norm": 4.52167702, "learning_rate": 9.56e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096079, "epoch": 0.17741143, "global_step/max_steps": "3815/21503", "percentage": "17.74%", "elapsed_time": "11h 1m 46s", "remaining_time": "2d 3h 8m 17s"}
{"loss": 0.82178469, "token_acc": 0.8033731, "grad_norm": 5.94957829, "learning_rate": 9.56e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.09615, "epoch": 0.17764395, "global_step/max_steps": "3820/21503", "percentage": "17.76%", "elapsed_time": "11h 2m 9s", "remaining_time": "2d 3h 5m 10s"}
{"loss": 0.7070715, "token_acc": 0.81707828, "grad_norm": 5.23591948, "learning_rate": 9.56e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.09622, "epoch": 0.17787647, "global_step/max_steps": "3825/21503", "percentage": "17.79%", "elapsed_time": "11h 2m 32s", "remaining_time": "2d 3h 2m 2s"}
{"loss": 0.67294359, "token_acc": 0.84246811, "grad_norm": 7.46052027, "learning_rate": 9.56e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096292, "epoch": 0.17810899, "global_step/max_steps": "3830/21503", "percentage": "17.81%", "elapsed_time": "11h 2m 54s", "remaining_time": "2d 2h 58m 55s"}
{"loss": 0.7683042, "token_acc": 0.82066052, "grad_norm": 5.6017828, "learning_rate": 9.56e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096362, "epoch": 0.17834151, "global_step/max_steps": "3835/21503", "percentage": "17.83%", "elapsed_time": "11h 3m 17s", "remaining_time": "2d 2h 55m 49s"}
{"loss": 0.78237114, "token_acc": 0.80519064, "grad_norm": 6.02958393, "learning_rate": 9.56e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096428, "epoch": 0.17857402, "global_step/max_steps": "3840/21503", "percentage": "17.86%", "elapsed_time": "11h 3m 42s", "remaining_time": "2d 2h 52m 52s"}
{"loss": 0.7817122, "token_acc": 0.81304845, "grad_norm": 4.63623428, "learning_rate": 9.55e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096497, "epoch": 0.17880654, "global_step/max_steps": "3845/21503", "percentage": "17.88%", "elapsed_time": "11h 4m 5s", "remaining_time": "2d 2h 49m 49s"}
{"loss": 0.84062405, "token_acc": 0.800302, "grad_norm": 5.53973675, "learning_rate": 9.55e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096566, "epoch": 0.17903906, "global_step/max_steps": "3850/21503", "percentage": "17.90%", "elapsed_time": "11h 4m 28s", "remaining_time": "2d 2h 46m 46s"}
{"eval_loss": 0.70519394, "eval_runtime": 289.0798, "eval_samples_per_second": 12.021, "eval_steps_per_second": 12.021, "epoch": 0.17903906, "global_step/max_steps": "3850/21503", "percentage": "17.90%", "elapsed_time": "11h 9m 17s", "remaining_time": "2d 3h 8m 51s"}
{"loss": 0.7266098, "token_acc": 0.80100635, "grad_norm": 4.83190775, "learning_rate": 9.55e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.09594, "epoch": 0.17927158, "global_step/max_steps": "3855/21503", "percentage": "17.93%", "elapsed_time": "11h 9m 41s", "remaining_time": "2d 3h 5m 48s"}
{"loss": 0.88439665, "token_acc": 0.80195495, "grad_norm": 3.98559284, "learning_rate": 9.55e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096009, "epoch": 0.1795041, "global_step/max_steps": "3860/21503", "percentage": "17.95%", "elapsed_time": "11h 10m 4s", "remaining_time": "2d 3h 2m 43s"}
{"loss": 0.91306381, "token_acc": 0.77492163, "grad_norm": 5.8853178, "learning_rate": 9.55e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096077, "epoch": 0.17973661, "global_step/max_steps": "3865/21503", "percentage": "17.97%", "elapsed_time": "11h 10m 27s", "remaining_time": "2d 2h 59m 41s"}
{"loss": 0.7087615, "token_acc": 0.81944444, "grad_norm": 5.0110054, "learning_rate": 9.55e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096146, "epoch": 0.17996913, "global_step/max_steps": "3870/21503", "percentage": "18.00%", "elapsed_time": "11h 10m 50s", "remaining_time": "2d 2h 56m 36s"}
{"loss": 0.82346039, "token_acc": 0.79191263, "grad_norm": 5.25601959, "learning_rate": 9.54e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096216, "epoch": 0.18020165, "global_step/max_steps": "3875/21503", "percentage": "18.02%", "elapsed_time": "11h 11m 13s", "remaining_time": "2d 2h 53m 31s"}
{"loss": 0.61857119, "token_acc": 0.85252069, "grad_norm": 5.06969929, "learning_rate": 9.54e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096286, "epoch": 0.18043417, "global_step/max_steps": "3880/21503", "percentage": "18.04%", "elapsed_time": "11h 11m 36s", "remaining_time": "2d 2h 50m 26s"}
{"loss": 0.81745625, "token_acc": 0.79466818, "grad_norm": 4.84377384, "learning_rate": 9.54e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096354, "epoch": 0.18066669, "global_step/max_steps": "3885/21503", "percentage": "18.07%", "elapsed_time": "11h 11m 59s", "remaining_time": "2d 2h 47m 24s"}
{"loss": 0.75535583, "token_acc": 0.80880025, "grad_norm": 6.56098795, "learning_rate": 9.54e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096422, "epoch": 0.18089921, "global_step/max_steps": "3890/21503", "percentage": "18.09%", "elapsed_time": "11h 12m 23s", "remaining_time": "2d 2h 44m 24s"}
{"loss": 0.74139724, "token_acc": 0.81991606, "grad_norm": 5.49299383, "learning_rate": 9.54e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096493, "epoch": 0.18113172, "global_step/max_steps": "3895/21503", "percentage": "18.11%", "elapsed_time": "11h 12m 45s", "remaining_time": "2d 2h 41m 19s"}
{"loss": 0.75598931, "token_acc": 0.8125879, "grad_norm": 5.73719025, "learning_rate": 9.54e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096561, "epoch": 0.18136424, "global_step/max_steps": "3900/21503", "percentage": "18.14%", "elapsed_time": "11h 13m 8s", "remaining_time": "2d 2h 38m 18s"}
{"eval_loss": 0.70632327, "eval_runtime": 293.3208, "eval_samples_per_second": 11.847, "eval_steps_per_second": 11.847, "epoch": 0.18136424, "global_step/max_steps": "3900/21503", "percentage": "18.14%", "elapsed_time": "11h 18m 2s", "remaining_time": "2d 3h 0m 22s"}
{"loss": 0.74192367, "token_acc": 0.80122861, "grad_norm": 5.90867615, "learning_rate": 9.53e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095933, "epoch": 0.18159676, "global_step/max_steps": "3905/21503", "percentage": "18.16%", "elapsed_time": "11h 18m 25s", "remaining_time": "2d 2h 57m 19s"}
{"loss": 0.65348191, "token_acc": 0.840862, "grad_norm": 4.94161844, "learning_rate": 9.53e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096001, "epoch": 0.18182928, "global_step/max_steps": "3910/21503", "percentage": "18.18%", "elapsed_time": "11h 18m 48s", "remaining_time": "2d 2h 54m 18s"}
{"loss": 0.70212059, "token_acc": 0.82530356, "grad_norm": 4.46105003, "learning_rate": 9.53e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.09607, "epoch": 0.1820618, "global_step/max_steps": "3915/21503", "percentage": "18.21%", "elapsed_time": "11h 19m 11s", "remaining_time": "2d 2h 51m 13s"}
{"loss": 0.7623436, "token_acc": 0.82367653, "grad_norm": 4.96426582, "learning_rate": 9.53e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096139, "epoch": 0.18229432, "global_step/max_steps": "3920/21503", "percentage": "18.23%", "elapsed_time": "11h 19m 34s", "remaining_time": "2d 2h 48m 10s"}
{"loss": 0.6239171, "token_acc": 0.84206081, "grad_norm": 5.34474134, "learning_rate": 9.53e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096208, "epoch": 0.18252683, "global_step/max_steps": "3925/21503", "percentage": "18.25%", "elapsed_time": "11h 19m 56s", "remaining_time": "2d 2h 45m 8s"}
{"loss": 0.71365013, "token_acc": 0.82680412, "grad_norm": 5.03532219, "learning_rate": 9.53e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096277, "epoch": 0.18275935, "global_step/max_steps": "3930/21503", "percentage": "18.28%", "elapsed_time": "11h 20m 19s", "remaining_time": "2d 2h 42m 4s"}
{"loss": 0.68374162, "token_acc": 0.81712386, "grad_norm": 5.15949106, "learning_rate": 9.52e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096347, "epoch": 0.18299187, "global_step/max_steps": "3935/21503", "percentage": "18.30%", "elapsed_time": "11h 20m 41s", "remaining_time": "2d 2h 39m 0s"}
{"loss": 0.72432384, "token_acc": 0.80874126, "grad_norm": 6.68719721, "learning_rate": 9.52e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096415, "epoch": 0.18322439, "global_step/max_steps": "3940/21503", "percentage": "18.32%", "elapsed_time": "11h 21m 4s", "remaining_time": "2d 2h 35m 59s"}
{"loss": 0.69127607, "token_acc": 0.83033593, "grad_norm": 4.91675806, "learning_rate": 9.52e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096482, "epoch": 0.18345691, "global_step/max_steps": "3945/21503", "percentage": "18.35%", "elapsed_time": "11h 21m 28s", "remaining_time": "2d 2h 33m 1s"}
{"loss": 0.75248933, "token_acc": 0.80673872, "grad_norm": 5.09965277, "learning_rate": 9.52e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.09655, "epoch": 0.18368943, "global_step/max_steps": "3950/21503", "percentage": "18.37%", "elapsed_time": "11h 21m 51s", "remaining_time": "2d 2h 30m 1s"}
{"eval_loss": 0.70876747, "eval_runtime": 291.2471, "eval_samples_per_second": 11.931, "eval_steps_per_second": 11.931, "epoch": 0.18368943, "global_step/max_steps": "3950/21503", "percentage": "18.37%", "elapsed_time": "11h 26m 42s", "remaining_time": "2d 2h 51m 35s"}
{"loss": 0.89865036, "token_acc": 0.80128532, "grad_norm": 6.05698252, "learning_rate": 9.52e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095933, "epoch": 0.18392194, "global_step/max_steps": "3955/21503", "percentage": "18.39%", "elapsed_time": "11h 27m 6s", "remaining_time": "2d 2h 48m 37s"}
{"loss": 0.76569567, "token_acc": 0.80642386, "grad_norm": 5.40202808, "learning_rate": 9.52e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096001, "epoch": 0.18415446, "global_step/max_steps": "3960/21503", "percentage": "18.42%", "elapsed_time": "11h 27m 29s", "remaining_time": "2d 2h 45m 35s"}
{"loss": 0.72318707, "token_acc": 0.81621622, "grad_norm": 7.48228693, "learning_rate": 9.51e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.09607, "epoch": 0.18438698, "global_step/max_steps": "3965/21503", "percentage": "18.44%", "elapsed_time": "11h 27m 51s", "remaining_time": "2d 2h 42m 32s"}
{"loss": 0.84695539, "token_acc": 0.79073115, "grad_norm": 4.30098629, "learning_rate": 9.51e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096136, "epoch": 0.1846195, "global_step/max_steps": "3970/21503", "percentage": "18.46%", "elapsed_time": "11h 28m 15s", "remaining_time": "2d 2h 39m 35s"}
{"loss": 0.85567665, "token_acc": 0.78153273, "grad_norm": 3.97887421, "learning_rate": 9.51e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096204, "epoch": 0.18485202, "global_step/max_steps": "3975/21503", "percentage": "18.49%", "elapsed_time": "11h 28m 38s", "remaining_time": "2d 2h 36m 35s"}
{"loss": 0.73006272, "token_acc": 0.81760375, "grad_norm": 6.10697079, "learning_rate": 9.51e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096273, "epoch": 0.18508453, "global_step/max_steps": "3980/21503", "percentage": "18.51%", "elapsed_time": "11h 29m 0s", "remaining_time": "2d 2h 33m 33s"}
{"loss": 0.72031336, "token_acc": 0.81899872, "grad_norm": 6.84741974, "learning_rate": 9.51e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.09634, "epoch": 0.18531705, "global_step/max_steps": "3985/21503", "percentage": "18.53%", "elapsed_time": "11h 29m 23s", "remaining_time": "2d 2h 30m 33s"}
{"loss": 0.79016175, "token_acc": 0.8129742, "grad_norm": 7.14495134, "learning_rate": 9.51e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096409, "epoch": 0.18554957, "global_step/max_steps": "3990/21503", "percentage": "18.56%", "elapsed_time": "11h 29m 46s", "remaining_time": "2d 2h 27m 32s"}
{"loss": 0.78255258, "token_acc": 0.81139154, "grad_norm": 4.34693766, "learning_rate": 9.5e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096475, "epoch": 0.18578209, "global_step/max_steps": "3995/21503", "percentage": "18.58%", "elapsed_time": "11h 30m 9s", "remaining_time": "2d 2h 24m 36s"}
{"loss": 0.79692492, "token_acc": 0.82250203, "grad_norm": 4.77816677, "learning_rate": 9.5e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096543, "epoch": 0.18601461, "global_step/max_steps": "4000/21503", "percentage": "18.60%", "elapsed_time": "11h 30m 31s", "remaining_time": "2d 2h 21m 35s"}
{"eval_loss": 0.69987261, "eval_runtime": 292.1449, "eval_samples_per_second": 11.895, "eval_steps_per_second": 11.895, "epoch": 0.18601461, "global_step/max_steps": "4000/21503", "percentage": "18.60%", "elapsed_time": "11h 35m 24s", "remaining_time": "2d 2h 42m 53s"}
{"loss": 0.73946638, "token_acc": 0.80253432, "grad_norm": 6.56432438, "learning_rate": 9.5e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095933, "epoch": 0.18624713, "global_step/max_steps": "4005/21503", "percentage": "18.63%", "elapsed_time": "11h 35m 47s", "remaining_time": "2d 2h 39m 56s"}
{"loss": 1.00811605, "token_acc": 0.76593557, "grad_norm": 4.45328379, "learning_rate": 9.5e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095997, "epoch": 0.18647964, "global_step/max_steps": "4010/21503", "percentage": "18.65%", "elapsed_time": "11h 36m 11s", "remaining_time": "2d 2h 37m 2s"}
{"loss": 0.8795579, "token_acc": 0.79436517, "grad_norm": 6.23986769, "learning_rate": 9.5e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096065, "epoch": 0.18671216, "global_step/max_steps": "4015/21503", "percentage": "18.67%", "elapsed_time": "11h 36m 34s", "remaining_time": "2d 2h 34m 1s"}
{"loss": 0.86725903, "token_acc": 0.78912979, "grad_norm": 7.03755951, "learning_rate": 9.5e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096132, "epoch": 0.18694468, "global_step/max_steps": "4020/21503", "percentage": "18.70%", "elapsed_time": "11h 36m 57s", "remaining_time": "2d 2h 31m 3s"}
{"loss": 0.68044224, "token_acc": 0.84104159, "grad_norm": 6.25026226, "learning_rate": 9.49e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096199, "epoch": 0.1871772, "global_step/max_steps": "4025/21503", "percentage": "18.72%", "elapsed_time": "11h 37m 20s", "remaining_time": "2d 2h 28m 4s"}
{"loss": 0.73479638, "token_acc": 0.82632013, "grad_norm": 5.40746737, "learning_rate": 9.49e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096267, "epoch": 0.18740972, "global_step/max_steps": "4030/21503", "percentage": "18.74%", "elapsed_time": "11h 37m 42s", "remaining_time": "2d 2h 25m 4s"}
{"loss": 0.79381728, "token_acc": 0.80691643, "grad_norm": 5.78741074, "learning_rate": 9.49e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096332, "epoch": 0.18764224, "global_step/max_steps": "4035/21503", "percentage": "18.76%", "elapsed_time": "11h 38m 6s", "remaining_time": "2d 2h 22m 9s"}
{"loss": 0.73646259, "token_acc": 0.82784042, "grad_norm": 6.59783983, "learning_rate": 9.49e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.0964, "epoch": 0.18787475, "global_step/max_steps": "4040/21503", "percentage": "18.79%", "elapsed_time": "11h 38m 28s", "remaining_time": "2d 2h 19m 11s"}
{"loss": 0.62381687, "token_acc": 0.85542651, "grad_norm": 6.38301182, "learning_rate": 9.49e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096467, "epoch": 0.18810727, "global_step/max_steps": "4045/21503", "percentage": "18.81%", "elapsed_time": "11h 38m 51s", "remaining_time": "2d 2h 16m 12s"}
{"loss": 0.76387601, "token_acc": 0.81671159, "grad_norm": 4.52321482, "learning_rate": 9.49e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096536, "epoch": 0.18833979, "global_step/max_steps": "4050/21503", "percentage": "18.83%", "elapsed_time": "11h 39m 13s", "remaining_time": "2d 2h 13m 11s"}
{"eval_loss": 0.7085169, "eval_runtime": 293.1328, "eval_samples_per_second": 11.855, "eval_steps_per_second": 11.855, "epoch": 0.18833979, "global_step/max_steps": "4050/21503", "percentage": "18.83%", "elapsed_time": "11h 44m 6s", "remaining_time": "2d 2h 34m 14s"}
{"loss": 0.69879785, "token_acc": 0.80242564, "grad_norm": 4.8166585, "learning_rate": 9.48e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095929, "epoch": 0.18857231, "global_step/max_steps": "4055/21503", "percentage": "18.86%", "elapsed_time": "11h 44m 30s", "remaining_time": "2d 2h 31m 23s"}
{"loss": 0.71640954, "token_acc": 0.82598954, "grad_norm": 6.94590855, "learning_rate": 9.48e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095995, "epoch": 0.18880483, "global_step/max_steps": "4060/21503", "percentage": "18.88%", "elapsed_time": "11h 44m 53s", "remaining_time": "2d 2h 28m 25s"}
{"loss": 0.63019171, "token_acc": 0.84457198, "grad_norm": 6.6106081, "learning_rate": 9.48e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096062, "epoch": 0.18903735, "global_step/max_steps": "4065/21503", "percentage": "18.90%", "elapsed_time": "11h 45m 15s", "remaining_time": "2d 2h 25m 26s"}
{"loss": 0.79894118, "token_acc": 0.80873331, "grad_norm": 5.78181362, "learning_rate": 9.48e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096127, "epoch": 0.18926986, "global_step/max_steps": "4070/21503", "percentage": "18.93%", "elapsed_time": "11h 45m 39s", "remaining_time": "2d 2h 22m 32s"}
{"loss": 1.03136902, "token_acc": 0.7563822, "grad_norm": 8.56365299, "learning_rate": 9.48e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096193, "epoch": 0.18950238, "global_step/max_steps": "4075/21503", "percentage": "18.95%", "elapsed_time": "11h 46m 2s", "remaining_time": "2d 2h 19m 35s"}
{"loss": 0.75626225, "token_acc": 0.80317041, "grad_norm": 3.82590413, "learning_rate": 9.48e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.09626, "epoch": 0.1897349, "global_step/max_steps": "4080/21503", "percentage": "18.97%", "elapsed_time": "11h 46m 24s", "remaining_time": "2d 2h 16m 38s"}
{"loss": 0.80654535, "token_acc": 0.82098284, "grad_norm": 5.25284767, "learning_rate": 9.47e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096327, "epoch": 0.18996742, "global_step/max_steps": "4085/21503", "percentage": "19.00%", "elapsed_time": "11h 46m 47s", "remaining_time": "2d 2h 13m 40s"}
{"loss": 0.86969547, "token_acc": 0.77780939, "grad_norm": 4.93341398, "learning_rate": 9.47e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096392, "epoch": 0.19019994, "global_step/max_steps": "4090/21503", "percentage": "19.02%", "elapsed_time": "11h 47m 10s", "remaining_time": "2d 2h 10m 46s"}
{"loss": 0.74247222, "token_acc": 0.80454845, "grad_norm": 5.94966793, "learning_rate": 9.47e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096456, "epoch": 0.19043245, "global_step/max_steps": "4095/21503", "percentage": "19.04%", "elapsed_time": "11h 47m 34s", "remaining_time": "2d 2h 7m 54s"}
{"loss": 0.82868986, "token_acc": 0.79621, "grad_norm": 4.21549988, "learning_rate": 9.47e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096522, "epoch": 0.19066497, "global_step/max_steps": "4100/21503", "percentage": "19.07%", "elapsed_time": "11h 47m 57s", "remaining_time": "2d 2h 5m 0s"}
{"eval_loss": 0.69979358, "eval_runtime": 295.0785, "eval_samples_per_second": 11.777, "eval_steps_per_second": 11.777, "epoch": 0.19066497, "global_step/max_steps": "4100/21503", "percentage": "19.07%", "elapsed_time": "11h 52m 52s", "remaining_time": "2d 2h 25m 53s"}
{"loss": 1.05688648, "token_acc": 0.80148198, "grad_norm": 5.99086428, "learning_rate": 9.47e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.09592, "epoch": 0.19089749, "global_step/max_steps": "4105/21503", "percentage": "19.09%", "elapsed_time": "11h 53m 16s", "remaining_time": "2d 2h 22m 59s"}
{"loss": 0.76432066, "token_acc": 0.81107266, "grad_norm": 5.36026382, "learning_rate": 9.47e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095984, "epoch": 0.19113001, "global_step/max_steps": "4110/21503", "percentage": "19.11%", "elapsed_time": "11h 53m 39s", "remaining_time": "2d 2h 20m 5s"}
{"loss": 0.90970068, "token_acc": 0.77563704, "grad_norm": 5.55267286, "learning_rate": 9.46e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096049, "epoch": 0.19136253, "global_step/max_steps": "4115/21503", "percentage": "19.14%", "elapsed_time": "11h 54m 2s", "remaining_time": "2d 2h 17m 11s"}
{"loss": 0.7000392, "token_acc": 0.8365651, "grad_norm": 6.71237135, "learning_rate": 9.46e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096115, "epoch": 0.19159505, "global_step/max_steps": "4120/21503", "percentage": "19.16%", "elapsed_time": "11h 54m 24s", "remaining_time": "2d 2h 14m 14s"}
{"loss": 0.68054481, "token_acc": 0.82749045, "grad_norm": 6.4440341, "learning_rate": 9.46e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.09618, "epoch": 0.19182756, "global_step/max_steps": "4125/21503", "percentage": "19.18%", "elapsed_time": "11h 54m 48s", "remaining_time": "2d 2h 11m 21s"}
{"loss": 0.72433596, "token_acc": 0.82414192, "grad_norm": 7.10783195, "learning_rate": 9.46e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096244, "epoch": 0.19206008, "global_step/max_steps": "4130/21503", "percentage": "19.21%", "elapsed_time": "11h 55m 11s", "remaining_time": "2d 2h 8m 28s"}
{"loss": 0.78674078, "token_acc": 0.80856812, "grad_norm": 7.0232501, "learning_rate": 9.46e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096305, "epoch": 0.1922926, "global_step/max_steps": "4135/21503", "percentage": "19.23%", "elapsed_time": "11h 55m 36s", "remaining_time": "2d 2h 5m 41s"}
{"loss": 0.68713117, "token_acc": 0.83276884, "grad_norm": 5.89557028, "learning_rate": 9.46e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096369, "epoch": 0.19252512, "global_step/max_steps": "4140/21503", "percentage": "19.25%", "elapsed_time": "11h 55m 59s", "remaining_time": "2d 2h 2m 50s"}
{"loss": 0.73309336, "token_acc": 0.84418517, "grad_norm": 7.15649033, "learning_rate": 9.45e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096435, "epoch": 0.19275764, "global_step/max_steps": "4145/21503", "percentage": "19.28%", "elapsed_time": "11h 56m 22s", "remaining_time": "2d 1h 59m 56s"}
{"loss": 0.74206772, "token_acc": 0.82155863, "grad_norm": 5.15740919, "learning_rate": 9.45e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096499, "epoch": 0.19299016, "global_step/max_steps": "4150/21503", "percentage": "19.30%", "elapsed_time": "11h 56m 45s", "remaining_time": "2d 1h 57m 4s"}
{"eval_loss": 0.70181489, "eval_runtime": 295.0708, "eval_samples_per_second": 11.777, "eval_steps_per_second": 11.777, "epoch": 0.19299016, "global_step/max_steps": "4150/21503", "percentage": "19.30%", "elapsed_time": "12h 1m 40s", "remaining_time": "2d 2h 17m 37s"}
{"loss": 0.76192975, "token_acc": 0.80217886, "grad_norm": 4.89216089, "learning_rate": 9.45e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095904, "epoch": 0.19322267, "global_step/max_steps": "4155/21503", "percentage": "19.32%", "elapsed_time": "12h 2m 4s", "remaining_time": "2d 2h 14m 48s"}
{"loss": 0.90469923, "token_acc": 0.79116766, "grad_norm": 5.37245035, "learning_rate": 9.45e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095969, "epoch": 0.19345519, "global_step/max_steps": "4160/21503", "percentage": "19.35%", "elapsed_time": "12h 2m 27s", "remaining_time": "2d 2h 11m 54s"}
{"loss": 0.78276196, "token_acc": 0.8042328, "grad_norm": 5.38601208, "learning_rate": 9.45e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096033, "epoch": 0.19368771, "global_step/max_steps": "4165/21503", "percentage": "19.37%", "elapsed_time": "12h 2m 50s", "remaining_time": "2d 2h 9m 0s"}
{"loss": 0.8229413, "token_acc": 0.78906004, "grad_norm": 5.55713654, "learning_rate": 9.44e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096098, "epoch": 0.19392023, "global_step/max_steps": "4170/21503", "percentage": "19.39%", "elapsed_time": "12h 3m 12s", "remaining_time": "2d 2h 6m 6s"}
{"loss": 0.73207846, "token_acc": 0.83135183, "grad_norm": 4.74974918, "learning_rate": 9.44e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096163, "epoch": 0.19415275, "global_step/max_steps": "4175/21503", "percentage": "19.42%", "elapsed_time": "12h 3m 35s", "remaining_time": "2d 2h 3m 12s"}
{"loss": 0.8156271, "token_acc": 0.80948585, "grad_norm": 5.67637062, "learning_rate": 9.44e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096227, "epoch": 0.19438527, "global_step/max_steps": "4180/21503", "percentage": "19.44%", "elapsed_time": "12h 3m 58s", "remaining_time": "2d 2h 0m 20s"}
{"loss": 0.8413228, "token_acc": 0.79036229, "grad_norm": 4.82956123, "learning_rate": 9.44e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096292, "epoch": 0.19461778, "global_step/max_steps": "4185/21503", "percentage": "19.46%", "elapsed_time": "12h 4m 21s", "remaining_time": "2d 1h 57m 27s"}
{"loss": 0.7763947, "token_acc": 0.83059273, "grad_norm": 5.90297461, "learning_rate": 9.44e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096355, "epoch": 0.1948503, "global_step/max_steps": "4190/21503", "percentage": "19.49%", "elapsed_time": "12h 4m 44s", "remaining_time": "2d 1h 54m 37s"}
{"loss": 0.69803543, "token_acc": 0.82590674, "grad_norm": 4.83169317, "learning_rate": 9.44e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096419, "epoch": 0.19508282, "global_step/max_steps": "4195/21503", "percentage": "19.51%", "elapsed_time": "12h 5m 7s", "remaining_time": "2d 1h 51m 47s"}
{"loss": 0.81428413, "token_acc": 0.80204005, "grad_norm": 6.84917784, "learning_rate": 9.43e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096482, "epoch": 0.19531534, "global_step/max_steps": "4200/21503", "percentage": "19.53%", "elapsed_time": "12h 5m 31s", "remaining_time": "2d 1h 48m 58s"}
{"eval_loss": 0.6981073, "eval_runtime": 294.9067, "eval_samples_per_second": 11.783, "eval_steps_per_second": 11.783, "epoch": 0.19531534, "global_step/max_steps": "4200/21503", "percentage": "19.53%", "elapsed_time": "12h 10m 26s", "remaining_time": "2d 2h 9m 13s"}
{"loss": 0.80382481, "token_acc": 0.80278059, "grad_norm": 5.83168173, "learning_rate": 9.43e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095896, "epoch": 0.19554786, "global_step/max_steps": "4205/21503", "percentage": "19.56%", "elapsed_time": "12h 10m 49s", "remaining_time": "2d 2h 6m 21s"}
{"loss": 0.73095303, "token_acc": 0.81900031, "grad_norm": 4.81170511, "learning_rate": 9.43e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095959, "epoch": 0.19578037, "global_step/max_steps": "4210/21503", "percentage": "19.58%", "elapsed_time": "12h 11m 12s", "remaining_time": "2d 2h 3m 31s"}
{"loss": 0.90097361, "token_acc": 0.78502641, "grad_norm": 5.66263533, "learning_rate": 9.43e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096022, "epoch": 0.19601289, "global_step/max_steps": "4215/21503", "percentage": "19.60%", "elapsed_time": "12h 11m 35s", "remaining_time": "2d 2h 0m 41s"}
{"loss": 0.73357019, "token_acc": 0.82821663, "grad_norm": 4.91836739, "learning_rate": 9.43e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096087, "epoch": 0.19624541, "global_step/max_steps": "4220/21503", "percentage": "19.63%", "elapsed_time": "12h 11m 58s", "remaining_time": "2d 1h 57m 47s"}
{"loss": 0.66690154, "token_acc": 0.83635676, "grad_norm": 5.13879824, "learning_rate": 9.42e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.09615, "epoch": 0.19647793, "global_step/max_steps": "4225/21503", "percentage": "19.65%", "elapsed_time": "12h 12m 21s", "remaining_time": "2d 1h 54m 57s"}
{"loss": 0.67108908, "token_acc": 0.82737307, "grad_norm": 7.67605162, "learning_rate": 9.42e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096213, "epoch": 0.19671045, "global_step/max_steps": "4230/21503", "percentage": "19.67%", "elapsed_time": "12h 12m 44s", "remaining_time": "2d 1h 52m 6s"}
{"loss": 0.77523675, "token_acc": 0.81227671, "grad_norm": 4.74376106, "learning_rate": 9.42e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096277, "epoch": 0.19694297, "global_step/max_steps": "4235/21503", "percentage": "19.69%", "elapsed_time": "12h 13m 7s", "remaining_time": "2d 1h 49m 15s"}
{"loss": 0.87661276, "token_acc": 0.7826087, "grad_norm": 6.3608222, "learning_rate": 9.42e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096339, "epoch": 0.19717548, "global_step/max_steps": "4240/21503", "percentage": "19.72%", "elapsed_time": "12h 13m 30s", "remaining_time": "2d 1h 46m 29s"}
{"loss": 0.78860188, "token_acc": 0.814562, "grad_norm": 6.93217087, "learning_rate": 9.42e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096402, "epoch": 0.197408, "global_step/max_steps": "4245/21503", "percentage": "19.74%", "elapsed_time": "12h 13m 54s", "remaining_time": "2d 1h 43m 39s"}
{"loss": 0.76271558, "token_acc": 0.81501632, "grad_norm": 7.06744623, "learning_rate": 9.42e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096467, "epoch": 0.19764052, "global_step/max_steps": "4250/21503", "percentage": "19.76%", "elapsed_time": "12h 14m 16s", "remaining_time": "2d 1h 40m 47s"}
{"eval_loss": 0.69575095, "eval_runtime": 294.9761, "eval_samples_per_second": 11.781, "eval_steps_per_second": 11.781, "epoch": 0.19764052, "global_step/max_steps": "4250/21503", "percentage": "19.76%", "elapsed_time": "12h 19m 11s", "remaining_time": "2d 2h 0m 45s"}
{"loss": 0.7709909, "token_acc": 0.80322653, "grad_norm": 5.02355194, "learning_rate": 9.41e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095886, "epoch": 0.19787304, "global_step/max_steps": "4255/21503", "percentage": "19.79%", "elapsed_time": "12h 19m 35s", "remaining_time": "2d 1h 57m 59s"}
{"loss": 0.86506119, "token_acc": 0.79931193, "grad_norm": 6.04461479, "learning_rate": 9.41e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.09595, "epoch": 0.19810556, "global_step/max_steps": "4260/21503", "percentage": "19.81%", "elapsed_time": "12h 19m 57s", "remaining_time": "2d 1h 55m 7s"}
{"loss": 0.80716772, "token_acc": 0.80330124, "grad_norm": 6.72125721, "learning_rate": 9.41e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096014, "epoch": 0.19833808, "global_step/max_steps": "4265/21503", "percentage": "19.83%", "elapsed_time": "12h 20m 20s", "remaining_time": "2d 1h 52m 15s"}
{"loss": 0.75210495, "token_acc": 0.81412478, "grad_norm": 6.26571321, "learning_rate": 9.41e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096078, "epoch": 0.19857059, "global_step/max_steps": "4270/21503", "percentage": "19.86%", "elapsed_time": "12h 20m 42s", "remaining_time": "2d 1h 49m 24s"}
{"loss": 0.7319036, "token_acc": 0.82735247, "grad_norm": 5.30895424, "learning_rate": 9.41e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096142, "epoch": 0.19880311, "global_step/max_steps": "4275/21503", "percentage": "19.88%", "elapsed_time": "12h 21m 5s", "remaining_time": "2d 1h 46m 32s"}
{"loss": 0.80764532, "token_acc": 0.79889706, "grad_norm": 7.26433086, "learning_rate": 9.41e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096204, "epoch": 0.19903563, "global_step/max_steps": "4280/21503", "percentage": "19.90%", "elapsed_time": "12h 21m 28s", "remaining_time": "2d 1h 43m 44s"}
{"loss": 0.8453804, "token_acc": 0.80294906, "grad_norm": 6.44324732, "learning_rate": 9.4e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096268, "epoch": 0.19926815, "global_step/max_steps": "4285/21503", "percentage": "19.93%", "elapsed_time": "12h 21m 50s", "remaining_time": "2d 1h 40m 54s"}
{"loss": 0.94496183, "token_acc": 0.77383863, "grad_norm": 4.05750561, "learning_rate": 9.4e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096329, "epoch": 0.19950067, "global_step/max_steps": "4290/21503", "percentage": "19.95%", "elapsed_time": "12h 22m 14s", "remaining_time": "2d 1h 38m 8s"}
{"loss": 0.79747772, "token_acc": 0.80883445, "grad_norm": 4.94654274, "learning_rate": 9.4e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096388, "epoch": 0.19973319, "global_step/max_steps": "4295/21503", "percentage": "19.97%", "elapsed_time": "12h 22m 39s", "remaining_time": "2d 1h 35m 27s"}
{"loss": 0.82436886, "token_acc": 0.79276953, "grad_norm": 5.26956844, "learning_rate": 9.4e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.09645, "epoch": 0.1999657, "global_step/max_steps": "4300/21503", "percentage": "20.00%", "elapsed_time": "12h 23m 2s", "remaining_time": "2d 1h 32m 41s"}
{"eval_loss": 0.69825214, "eval_runtime": 294.9008, "eval_samples_per_second": 11.784, "eval_steps_per_second": 11.784, "epoch": 0.1999657, "global_step/max_steps": "4300/21503", "percentage": "20.00%", "elapsed_time": "12h 27m 57s", "remaining_time": "2d 1h 52m 21s"}
{"loss": 0.75861726, "token_acc": 0.80349436, "grad_norm": 6.25273752, "learning_rate": 9.4e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095879, "epoch": 0.20019822, "global_step/max_steps": "4305/21503", "percentage": "20.02%", "elapsed_time": "12h 28m 20s", "remaining_time": "2d 1h 49m 31s"}
{"loss": 0.84529457, "token_acc": 0.79553319, "grad_norm": 5.01919794, "learning_rate": 9.39e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.09594, "epoch": 0.20043074, "global_step/max_steps": "4310/21503", "percentage": "20.04%", "elapsed_time": "12h 28m 43s", "remaining_time": "2d 1h 46m 45s"}
{"loss": 0.91753159, "token_acc": 0.78310317, "grad_norm": 6.7045989, "learning_rate": 9.39e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096002, "epoch": 0.20066326, "global_step/max_steps": "4315/21503", "percentage": "20.07%", "elapsed_time": "12h 29m 6s", "remaining_time": "2d 1h 43m 56s"}
{"loss": 0.74988322, "token_acc": 0.82202643, "grad_norm": 6.99108028, "learning_rate": 9.39e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096066, "epoch": 0.20089578, "global_step/max_steps": "4320/21503", "percentage": "20.09%", "elapsed_time": "12h 29m 28s", "remaining_time": "2d 1h 41m 6s"}
{"loss": 0.73986073, "token_acc": 0.81807007, "grad_norm": 4.86796284, "learning_rate": 9.39e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096128, "epoch": 0.20112829, "global_step/max_steps": "4325/21503", "percentage": "20.11%", "elapsed_time": "12h 29m 51s", "remaining_time": "2d 1h 38m 17s"}
{"loss": 1.01811199, "token_acc": 0.75450613, "grad_norm": 5.91660547, "learning_rate": 9.39e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096191, "epoch": 0.20136081, "global_step/max_steps": "4330/21503", "percentage": "20.14%", "elapsed_time": "12h 30m 14s", "remaining_time": "2d 1h 35m 29s"}
{"loss": 0.74503312, "token_acc": 0.81846154, "grad_norm": 7.32138491, "learning_rate": 9.38e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096254, "epoch": 0.20159333, "global_step/max_steps": "4335/21503", "percentage": "20.16%", "elapsed_time": "12h 30m 37s", "remaining_time": "2d 1h 32m 41s"}
{"loss": 0.76935315, "token_acc": 0.80107708, "grad_norm": 4.21070004, "learning_rate": 9.38e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096315, "epoch": 0.20182585, "global_step/max_steps": "4340/21503", "percentage": "20.18%", "elapsed_time": "12h 31m 0s", "remaining_time": "2d 1h 29m 54s"}
{"loss": 0.75999851, "token_acc": 0.80845168, "grad_norm": 6.52164268, "learning_rate": 9.38e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096376, "epoch": 0.20205837, "global_step/max_steps": "4345/21503", "percentage": "20.21%", "elapsed_time": "12h 31m 23s", "remaining_time": "2d 1h 27m 10s"}
{"loss": 0.7193542, "token_acc": 0.812345, "grad_norm": 5.67901325, "learning_rate": 9.38e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096437, "epoch": 0.20229089, "global_step/max_steps": "4350/21503", "percentage": "20.23%", "elapsed_time": "12h 31m 46s", "remaining_time": "2d 1h 24m 26s"}
{"eval_loss": 0.68996358, "eval_runtime": 296.4949, "eval_samples_per_second": 11.72, "eval_steps_per_second": 11.72, "epoch": 0.20229089, "global_step/max_steps": "4350/21503", "percentage": "20.23%", "elapsed_time": "12h 36m 43s", "remaining_time": "2d 1h 43m 55s"}
{"loss": 0.71661501, "token_acc": 0.80459577, "grad_norm": 5.66059399, "learning_rate": 9.38e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095868, "epoch": 0.2025234, "global_step/max_steps": "4355/21503", "percentage": "20.25%", "elapsed_time": "12h 37m 6s", "remaining_time": "2d 1h 41m 9s"}
{"loss": 0.87425699, "token_acc": 0.79856361, "grad_norm": 6.24779701, "learning_rate": 9.38e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.09593, "epoch": 0.20275592, "global_step/max_steps": "4360/21503", "percentage": "20.28%", "elapsed_time": "12h 37m 29s", "remaining_time": "2d 1h 38m 21s"}
{"loss": 0.72211413, "token_acc": 0.82085733, "grad_norm": 4.97148132, "learning_rate": 9.37e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095991, "epoch": 0.20298844, "global_step/max_steps": "4365/21503", "percentage": "20.30%", "elapsed_time": "12h 37m 52s", "remaining_time": "2d 1h 35m 36s"}
{"loss": 0.70915279, "token_acc": 0.81481481, "grad_norm": 6.08373785, "learning_rate": 9.37e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096052, "epoch": 0.20322096, "global_step/max_steps": "4370/21503", "percentage": "20.32%", "elapsed_time": "12h 38m 16s", "remaining_time": "2d 1h 32m 51s"}
{"loss": 0.79801083, "token_acc": 0.81810491, "grad_norm": 5.96313477, "learning_rate": 9.37e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096113, "epoch": 0.20345348, "global_step/max_steps": "4375/21503", "percentage": "20.35%", "elapsed_time": "12h 38m 38s", "remaining_time": "2d 1h 30m 5s"}
{"loss": 0.76373801, "token_acc": 0.80334395, "grad_norm": 6.63092852, "learning_rate": 9.37e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096175, "epoch": 0.203686, "global_step/max_steps": "4380/21503", "percentage": "20.37%", "elapsed_time": "12h 39m 1s", "remaining_time": "2d 1h 27m 18s"}
{"loss": 0.76011, "token_acc": 0.82504363, "grad_norm": 7.04073381, "learning_rate": 9.37e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096237, "epoch": 0.20391851, "global_step/max_steps": "4385/21503", "percentage": "20.39%", "elapsed_time": "12h 39m 24s", "remaining_time": "2d 1h 24m 32s"}
{"loss": 0.75064359, "token_acc": 0.82060755, "grad_norm": 7.5483098, "learning_rate": 9.36e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096298, "epoch": 0.20415103, "global_step/max_steps": "4390/21503", "percentage": "20.42%", "elapsed_time": "12h 39m 47s", "remaining_time": "2d 1h 21m 47s"}
{"loss": 0.83724728, "token_acc": 0.78798343, "grad_norm": 6.83359957, "learning_rate": 9.36e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096359, "epoch": 0.20438355, "global_step/max_steps": "4395/21503", "percentage": "20.44%", "elapsed_time": "12h 40m 10s", "remaining_time": "2d 1h 19m 3s"}
{"loss": 0.83133926, "token_acc": 0.80974395, "grad_norm": 4.64491796, "learning_rate": 9.36e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.09642, "epoch": 0.20461607, "global_step/max_steps": "4400/21503", "percentage": "20.46%", "elapsed_time": "12h 40m 33s", "remaining_time": "2d 1h 16m 19s"}
{"eval_loss": 0.69265932, "eval_runtime": 294.9376, "eval_samples_per_second": 11.782, "eval_steps_per_second": 11.782, "epoch": 0.20461607, "global_step/max_steps": "4400/21503", "percentage": "20.46%", "elapsed_time": "12h 45m 28s", "remaining_time": "2d 1h 35m 25s"}
{"loss": 0.72363768, "token_acc": 0.80432076, "grad_norm": 6.48874855, "learning_rate": 9.36e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095862, "epoch": 0.20484859, "global_step/max_steps": "4405/21503", "percentage": "20.49%", "elapsed_time": "12h 45m 51s", "remaining_time": "2d 1h 32m 40s"}
{"loss": 0.7017736, "token_acc": 0.83199744, "grad_norm": 4.68398714, "learning_rate": 9.36e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095923, "epoch": 0.20508111, "global_step/max_steps": "4410/21503", "percentage": "20.51%", "elapsed_time": "12h 46m 14s", "remaining_time": "2d 1h 29m 54s"}
{"loss": 0.77029839, "token_acc": 0.8051425, "grad_norm": 4.93796587, "learning_rate": 9.36e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095983, "epoch": 0.20531362, "global_step/max_steps": "4415/21503", "percentage": "20.53%", "elapsed_time": "12h 46m 37s", "remaining_time": "2d 1h 27m 10s"}
{"loss": 0.6408031, "token_acc": 0.83457176, "grad_norm": 5.97777748, "learning_rate": 9.35e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096044, "epoch": 0.20554614, "global_step/max_steps": "4420/21503", "percentage": "20.56%", "elapsed_time": "12h 47m 0s", "remaining_time": "2d 1h 24m 24s"}
{"loss": 0.77198486, "token_acc": 0.8058189, "grad_norm": 6.22266769, "learning_rate": 9.35e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096106, "epoch": 0.20577866, "global_step/max_steps": "4425/21503", "percentage": "20.58%", "elapsed_time": "12h 47m 22s", "remaining_time": "2d 1h 21m 38s"}
{"loss": 0.78293185, "token_acc": 0.80624556, "grad_norm": 4.50758219, "learning_rate": 9.35e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096167, "epoch": 0.20601118, "global_step/max_steps": "4430/21503", "percentage": "20.60%", "elapsed_time": "12h 47m 45s", "remaining_time": "2d 1h 18m 53s"}
{"loss": 0.77043409, "token_acc": 0.7938834, "grad_norm": 8.05942535, "learning_rate": 9.35e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096226, "epoch": 0.2062437, "global_step/max_steps": "4435/21503", "percentage": "20.63%", "elapsed_time": "12h 48m 9s", "remaining_time": "2d 1h 16m 13s"}
{"loss": 0.68891296, "token_acc": 0.81379731, "grad_norm": 6.58041096, "learning_rate": 9.35e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096287, "epoch": 0.20647621, "global_step/max_steps": "4440/21503", "percentage": "20.65%", "elapsed_time": "12h 48m 31s", "remaining_time": "2d 1h 13m 28s"}
{"loss": 0.77751193, "token_acc": 0.80127278, "grad_norm": 3.92734122, "learning_rate": 9.34e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096348, "epoch": 0.20670873, "global_step/max_steps": "4445/21503", "percentage": "20.67%", "elapsed_time": "12h 48m 54s", "remaining_time": "2d 1h 10m 45s"}
{"loss": 0.76837387, "token_acc": 0.81740307, "grad_norm": 7.89368057, "learning_rate": 9.34e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096407, "epoch": 0.20694125, "global_step/max_steps": "4450/21503", "percentage": "20.69%", "elapsed_time": "12h 49m 18s", "remaining_time": "2d 1h 8m 4s"}
{"eval_loss": 0.68818587, "eval_runtime": 292.9637, "eval_samples_per_second": 11.862, "eval_steps_per_second": 11.862, "epoch": 0.20694125, "global_step/max_steps": "4450/21503", "percentage": "20.69%", "elapsed_time": "12h 54m 11s", "remaining_time": "2d 1h 26m 46s"}
{"loss": 0.78008423, "token_acc": 0.80392157, "grad_norm": 5.9715066, "learning_rate": 9.34e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.09586, "epoch": 0.20717377, "global_step/max_steps": "4455/21503", "percentage": "20.72%", "elapsed_time": "12h 54m 33s", "remaining_time": "2d 1h 24m 2s"}
{"loss": 0.98647156, "token_acc": 0.74904384, "grad_norm": 5.87251282, "learning_rate": 9.34e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095917, "epoch": 0.20740629, "global_step/max_steps": "4460/21503", "percentage": "20.74%", "elapsed_time": "12h 54m 58s", "remaining_time": "2d 1h 21m 23s"}
{"loss": 0.79511995, "token_acc": 0.7919585, "grad_norm": 6.44787121, "learning_rate": 9.34e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095976, "epoch": 0.20763881, "global_step/max_steps": "4465/21503", "percentage": "20.76%", "elapsed_time": "12h 55m 21s", "remaining_time": "2d 1h 18m 42s"}
{"loss": 0.75895972, "token_acc": 0.81371509, "grad_norm": 6.75220108, "learning_rate": 9.33e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096037, "epoch": 0.20787132, "global_step/max_steps": "4470/21503", "percentage": "20.79%", "elapsed_time": "12h 55m 44s", "remaining_time": "2d 1h 15m 58s"}
{"loss": 0.84266109, "token_acc": 0.80840774, "grad_norm": 5.57769299, "learning_rate": 9.33e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096097, "epoch": 0.20810384, "global_step/max_steps": "4475/21503", "percentage": "20.81%", "elapsed_time": "12h 56m 7s", "remaining_time": "2d 1h 13m 15s"}
{"loss": 0.73145933, "token_acc": 0.83497421, "grad_norm": 5.14591408, "learning_rate": 9.33e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096157, "epoch": 0.20833636, "global_step/max_steps": "4480/21503", "percentage": "20.83%", "elapsed_time": "12h 56m 30s", "remaining_time": "2d 1h 10m 32s"}
{"loss": 0.68584418, "token_acc": 0.81903864, "grad_norm": 4.91334677, "learning_rate": 9.33e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096217, "epoch": 0.20856888, "global_step/max_steps": "4485/21503", "percentage": "20.86%", "elapsed_time": "12h 56m 53s", "remaining_time": "2d 1h 7m 50s"}
{"loss": 0.68050084, "token_acc": 0.84091876, "grad_norm": 6.45109129, "learning_rate": 9.33e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096277, "epoch": 0.2088014, "global_step/max_steps": "4490/21503", "percentage": "20.88%", "elapsed_time": "12h 57m 15s", "remaining_time": "2d 1h 5m 7s"}
{"loss": 0.78785286, "token_acc": 0.80578662, "grad_norm": 6.49014759, "learning_rate": 9.32e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096338, "epoch": 0.20903392, "global_step/max_steps": "4495/21503", "percentage": "20.90%", "elapsed_time": "12h 57m 38s", "remaining_time": "2d 1h 2m 24s"}
{"loss": 0.67247934, "token_acc": 0.82916927, "grad_norm": 4.89403963, "learning_rate": 9.32e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096397, "epoch": 0.20926643, "global_step/max_steps": "4500/21503", "percentage": "20.93%", "elapsed_time": "12h 58m 1s", "remaining_time": "2d 0h 59m 43s"}
{"eval_loss": 0.68688273, "eval_runtime": 291.9685, "eval_samples_per_second": 11.902, "eval_steps_per_second": 11.902, "epoch": 0.20926643, "global_step/max_steps": "4500/21503", "percentage": "20.93%", "elapsed_time": "13h 2m 53s", "remaining_time": "2d 1h 18m 6s"}
{"loss": 0.65319123, "token_acc": 0.80518865, "grad_norm": 6.31425142, "learning_rate": 9.32e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095858, "epoch": 0.20949895, "global_step/max_steps": "4505/21503", "percentage": "20.95%", "elapsed_time": "13h 3m 16s", "remaining_time": "2d 1h 15m 24s"}
{"loss": 0.79126439, "token_acc": 0.80168503, "grad_norm": 7.33244514, "learning_rate": 9.32e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095917, "epoch": 0.20973147, "global_step/max_steps": "4510/21503", "percentage": "20.97%", "elapsed_time": "13h 3m 39s", "remaining_time": "2d 1h 12m 43s"}
{"loss": 0.7930665, "token_acc": 0.80379954, "grad_norm": 5.75893354, "learning_rate": 9.32e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095976, "epoch": 0.20996399, "global_step/max_steps": "4515/21503", "percentage": "21.00%", "elapsed_time": "13h 4m 2s", "remaining_time": "2d 1h 10m 1s"}
{"loss": 0.85979767, "token_acc": 0.80997252, "grad_norm": 5.28797579, "learning_rate": 9.31e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096036, "epoch": 0.21019651, "global_step/max_steps": "4520/21503", "percentage": "21.02%", "elapsed_time": "13h 4m 25s", "remaining_time": "2d 1h 7m 19s"}
{"loss": 0.70411606, "token_acc": 0.82892057, "grad_norm": 5.20756435, "learning_rate": 9.31e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096095, "epoch": 0.21042903, "global_step/max_steps": "4525/21503", "percentage": "21.04%", "elapsed_time": "13h 4m 48s", "remaining_time": "2d 1h 4m 38s"}
{"loss": 0.71632519, "token_acc": 0.8275154, "grad_norm": 5.49544525, "learning_rate": 9.31e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096154, "epoch": 0.21066154, "global_step/max_steps": "4530/21503", "percentage": "21.07%", "elapsed_time": "13h 5m 11s", "remaining_time": "2d 1h 1m 57s"}
{"loss": 0.70812554, "token_acc": 0.83924661, "grad_norm": 5.85443878, "learning_rate": 9.31e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096215, "epoch": 0.21089406, "global_step/max_steps": "4535/21503", "percentage": "21.09%", "elapsed_time": "13h 5m 33s", "remaining_time": "2d 0h 59m 13s"}
{"loss": 0.72117667, "token_acc": 0.82063802, "grad_norm": 5.52612972, "learning_rate": 9.31e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096275, "epoch": 0.21112658, "global_step/max_steps": "4540/21503", "percentage": "21.11%", "elapsed_time": "13h 5m 56s", "remaining_time": "2d 0h 56m 32s"}
{"loss": 0.75663891, "token_acc": 0.81730769, "grad_norm": 7.22895432, "learning_rate": 9.31e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096336, "epoch": 0.2113591, "global_step/max_steps": "4545/21503", "percentage": "21.14%", "elapsed_time": "13h 6m 18s", "remaining_time": "2d 0h 53m 49s"}
{"loss": 0.83179522, "token_acc": 0.79465494, "grad_norm": 6.52878809, "learning_rate": 9.3e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096396, "epoch": 0.21159162, "global_step/max_steps": "4550/21503", "percentage": "21.16%", "elapsed_time": "13h 6m 40s", "remaining_time": "2d 0h 51m 7s"}
{"eval_loss": 0.6860916, "eval_runtime": 292.6928, "eval_samples_per_second": 11.873, "eval_steps_per_second": 11.873, "epoch": 0.21159162, "global_step/max_steps": "4550/21503", "percentage": "21.16%", "elapsed_time": "13h 11m 33s", "remaining_time": "2d 1h 9m 17s"}
{"loss": 0.88142405, "token_acc": 0.80442394, "grad_norm": 5.84633827, "learning_rate": 9.3e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095861, "epoch": 0.21182413, "global_step/max_steps": "4555/21503", "percentage": "21.18%", "elapsed_time": "13h 11m 56s", "remaining_time": "2d 1h 6m 37s"}
{"loss": 0.82616529, "token_acc": 0.79526332, "grad_norm": 5.91270351, "learning_rate": 9.3e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095919, "epoch": 0.21205665, "global_step/max_steps": "4560/21503", "percentage": "21.21%", "elapsed_time": "13h 12m 19s", "remaining_time": "2d 1h 3m 57s"}
{"loss": 0.86179476, "token_acc": 0.78605121, "grad_norm": 6.03565264, "learning_rate": 9.3e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095979, "epoch": 0.21228917, "global_step/max_steps": "4565/21503", "percentage": "21.23%", "elapsed_time": "13h 12m 42s", "remaining_time": "2d 1h 1m 15s"}
{"loss": 0.71882401, "token_acc": 0.82218182, "grad_norm": 5.16060305, "learning_rate": 9.3e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096038, "epoch": 0.21252169, "global_step/max_steps": "4570/21503", "percentage": "21.25%", "elapsed_time": "13h 13m 4s", "remaining_time": "2d 0h 58m 33s"}
{"loss": 0.67784672, "token_acc": 0.83939039, "grad_norm": 6.34958363, "learning_rate": 9.29e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096098, "epoch": 0.21275421, "global_step/max_steps": "4575/21503", "percentage": "21.28%", "elapsed_time": "13h 13m 27s", "remaining_time": "2d 0h 55m 53s"}
{"loss": 0.91086378, "token_acc": 0.77183343, "grad_norm": 5.28831005, "learning_rate": 9.29e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096157, "epoch": 0.21298673, "global_step/max_steps": "4580/21503", "percentage": "21.30%", "elapsed_time": "13h 13m 50s", "remaining_time": "2d 0h 53m 13s"}
{"loss": 0.76328993, "token_acc": 0.80328969, "grad_norm": 6.2389431, "learning_rate": 9.29e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096216, "epoch": 0.21321924, "global_step/max_steps": "4585/21503", "percentage": "21.32%", "elapsed_time": "13h 14m 12s", "remaining_time": "2d 0h 50m 32s"}
{"loss": 0.81818905, "token_acc": 0.80455801, "grad_norm": 5.00130749, "learning_rate": 9.29e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096275, "epoch": 0.21345176, "global_step/max_steps": "4590/21503", "percentage": "21.35%", "elapsed_time": "13h 14m 35s", "remaining_time": "2d 0h 47m 52s"}
{"loss": 0.77354851, "token_acc": 0.79593176, "grad_norm": 6.34537554, "learning_rate": 9.29e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096334, "epoch": 0.21368428, "global_step/max_steps": "4595/21503", "percentage": "21.37%", "elapsed_time": "13h 14m 58s", "remaining_time": "2d 0h 45m 12s"}
{"loss": 0.68080115, "token_acc": 0.84352837, "grad_norm": 5.12795544, "learning_rate": 9.28e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096394, "epoch": 0.2139168, "global_step/max_steps": "4600/21503", "percentage": "21.39%", "elapsed_time": "13h 15m 20s", "remaining_time": "2d 0h 42m 32s"}
{"eval_loss": 0.68441224, "eval_runtime": 290.6503, "eval_samples_per_second": 11.956, "eval_steps_per_second": 11.956, "epoch": 0.2139168, "global_step/max_steps": "4600/21503", "percentage": "21.39%", "elapsed_time": "13h 20m 11s", "remaining_time": "2d 1h 0m 20s"}
{"loss": 0.70918188, "token_acc": 0.80547651, "grad_norm": 6.67948341, "learning_rate": 9.28e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095868, "epoch": 0.21414932, "global_step/max_steps": "4605/21503", "percentage": "21.42%", "elapsed_time": "13h 20m 34s", "remaining_time": "2d 0h 57m 43s"}
{"loss": 0.7468668, "token_acc": 0.82142857, "grad_norm": 7.54493666, "learning_rate": 9.28e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095926, "epoch": 0.21438184, "global_step/max_steps": "4610/21503", "percentage": "21.44%", "elapsed_time": "13h 20m 57s", "remaining_time": "2d 0h 55m 3s"}
{"loss": 0.7384253, "token_acc": 0.80454097, "grad_norm": 4.88421679, "learning_rate": 9.28e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095984, "epoch": 0.21461435, "global_step/max_steps": "4615/21503", "percentage": "21.46%", "elapsed_time": "13h 21m 20s", "remaining_time": "2d 0h 52m 24s"}
{"loss": 0.83377142, "token_acc": 0.81850962, "grad_norm": 6.33981085, "learning_rate": 9.28e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096043, "epoch": 0.21484687, "global_step/max_steps": "4620/21503", "percentage": "21.49%", "elapsed_time": "13h 21m 43s", "remaining_time": "2d 0h 49m 44s"}
{"loss": 0.6793076, "token_acc": 0.83362279, "grad_norm": 5.72073698, "learning_rate": 9.27e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096102, "epoch": 0.21507939, "global_step/max_steps": "4625/21503", "percentage": "21.51%", "elapsed_time": "13h 22m 5s", "remaining_time": "2d 0h 47m 5s"}
{"loss": 0.72768979, "token_acc": 0.82231853, "grad_norm": 5.04272747, "learning_rate": 9.27e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096159, "epoch": 0.21531191, "global_step/max_steps": "4630/21503", "percentage": "21.53%", "elapsed_time": "13h 22m 29s", "remaining_time": "2d 0h 44m 29s"}
{"loss": 0.83452282, "token_acc": 0.79945055, "grad_norm": 6.31160259, "learning_rate": 9.27e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096218, "epoch": 0.21554443, "global_step/max_steps": "4635/21503", "percentage": "21.56%", "elapsed_time": "13h 22m 51s", "remaining_time": "2d 0h 41m 49s"}
{"loss": 0.65270143, "token_acc": 0.84259591, "grad_norm": 6.29012394, "learning_rate": 9.27e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096274, "epoch": 0.21577695, "global_step/max_steps": "4640/21503", "percentage": "21.58%", "elapsed_time": "13h 23m 15s", "remaining_time": "2d 0h 39m 15s"}
{"loss": 0.78321152, "token_acc": 0.81653491, "grad_norm": 4.89195681, "learning_rate": 9.27e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096332, "epoch": 0.21600946, "global_step/max_steps": "4645/21503", "percentage": "21.60%", "elapsed_time": "13h 23m 38s", "remaining_time": "2d 0h 36m 37s"}
{"loss": 0.78814301, "token_acc": 0.81659532, "grad_norm": 5.22969484, "learning_rate": 9.26e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.09639, "epoch": 0.21624198, "global_step/max_steps": "4650/21503", "percentage": "21.62%", "elapsed_time": "13h 24m 1s", "remaining_time": "2d 0h 34m 1s"}
{"eval_loss": 0.68707418, "eval_runtime": 288.3894, "eval_samples_per_second": 12.05, "eval_steps_per_second": 12.05, "epoch": 0.21624198, "global_step/max_steps": "4650/21503", "percentage": "21.62%", "elapsed_time": "13h 28m 49s", "remaining_time": "2d 0h 51m 26s"}
{"loss": 0.7271719, "token_acc": 0.8049929, "grad_norm": 6.32107544, "learning_rate": 9.26e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095874, "epoch": 0.2164745, "global_step/max_steps": "4655/21503", "percentage": "21.65%", "elapsed_time": "13h 29m 13s", "remaining_time": "2d 0h 48m 49s"}
{"loss": 0.81343822, "token_acc": 0.78862081, "grad_norm": 6.79033804, "learning_rate": 9.26e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095932, "epoch": 0.21670702, "global_step/max_steps": "4660/21503", "percentage": "21.67%", "elapsed_time": "13h 29m 35s", "remaining_time": "2d 0h 46m 10s"}
{"loss": 0.80735741, "token_acc": 0.81442352, "grad_norm": 6.27314854, "learning_rate": 9.26e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095991, "epoch": 0.21693954, "global_step/max_steps": "4665/21503", "percentage": "21.69%", "elapsed_time": "13h 29m 58s", "remaining_time": "2d 0h 43m 31s"}
{"loss": 0.78572574, "token_acc": 0.7970684, "grad_norm": 5.98266363, "learning_rate": 9.26e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096049, "epoch": 0.21717205, "global_step/max_steps": "4670/21503", "percentage": "21.72%", "elapsed_time": "13h 30m 20s", "remaining_time": "2d 0h 40m 53s"}
{"loss": 0.80837374, "token_acc": 0.7987055, "grad_norm": 6.03187847, "learning_rate": 9.25e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096107, "epoch": 0.21740457, "global_step/max_steps": "4675/21503", "percentage": "21.74%", "elapsed_time": "13h 30m 43s", "remaining_time": "2d 0h 38m 15s"}
{"loss": 0.78772078, "token_acc": 0.81599312, "grad_norm": 7.03601837, "learning_rate": 9.25e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096166, "epoch": 0.21763709, "global_step/max_steps": "4680/21503", "percentage": "21.76%", "elapsed_time": "13h 31m 5s", "remaining_time": "2d 0h 35m 36s"}
{"loss": 0.6878273, "token_acc": 0.82856066, "grad_norm": 6.42469311, "learning_rate": 9.25e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096224, "epoch": 0.21786961, "global_step/max_steps": "4685/21503", "percentage": "21.79%", "elapsed_time": "13h 31m 28s", "remaining_time": "2d 0h 32m 59s"}
{"loss": 0.76919727, "token_acc": 0.80433101, "grad_norm": 3.87566972, "learning_rate": 9.25e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.09628, "epoch": 0.21810213, "global_step/max_steps": "4690/21503", "percentage": "21.81%", "elapsed_time": "13h 31m 51s", "remaining_time": "2d 0h 30m 25s"}
{"loss": 0.7722405, "token_acc": 0.81839623, "grad_norm": 6.38299608, "learning_rate": 9.25e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096337, "epoch": 0.21833465, "global_step/max_steps": "4695/21503", "percentage": "21.83%", "elapsed_time": "13h 32m 14s", "remaining_time": "2d 0h 27m 49s"}
{"loss": 0.66393228, "token_acc": 0.82040676, "grad_norm": 5.76216698, "learning_rate": 9.24e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096394, "epoch": 0.21856716, "global_step/max_steps": "4700/21503", "percentage": "21.86%", "elapsed_time": "13h 32m 37s", "remaining_time": "2d 0h 25m 14s"}
{"eval_loss": 0.68518466, "eval_runtime": 292.3554, "eval_samples_per_second": 11.886, "eval_steps_per_second": 11.886, "epoch": 0.21856716, "global_step/max_steps": "4700/21503", "percentage": "21.86%", "elapsed_time": "13h 37m 30s", "remaining_time": "2d 0h 42m 39s"}
{"loss": 0.76400023, "token_acc": 0.80518701, "grad_norm": 5.39503241, "learning_rate": 9.24e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095875, "epoch": 0.21879968, "global_step/max_steps": "4705/21503", "percentage": "21.88%", "elapsed_time": "13h 37m 53s", "remaining_time": "2d 0h 40m 5s"}
{"loss": 0.78912678, "token_acc": 0.82507289, "grad_norm": 6.71253538, "learning_rate": 9.24e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095932, "epoch": 0.2190322, "global_step/max_steps": "4710/21503", "percentage": "21.90%", "elapsed_time": "13h 38m 16s", "remaining_time": "2d 0h 37m 29s"}
{"loss": 0.81384783, "token_acc": 0.79719082, "grad_norm": 6.15530682, "learning_rate": 9.24e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095989, "epoch": 0.21926472, "global_step/max_steps": "4715/21503", "percentage": "21.93%", "elapsed_time": "13h 38m 40s", "remaining_time": "2d 0h 34m 54s"}
{"loss": 0.6743597, "token_acc": 0.81797082, "grad_norm": 4.27543545, "learning_rate": 9.24e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096045, "epoch": 0.21949724, "global_step/max_steps": "4720/21503", "percentage": "21.95%", "elapsed_time": "13h 39m 3s", "remaining_time": "2d 0h 32m 19s"}
{"loss": 0.77774162, "token_acc": 0.80530973, "grad_norm": 6.89855862, "learning_rate": 9.23e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096102, "epoch": 0.21972976, "global_step/max_steps": "4725/21503", "percentage": "21.97%", "elapsed_time": "13h 39m 26s", "remaining_time": "2d 0h 29m 44s"}
{"loss": 0.85095301, "token_acc": 0.80031348, "grad_norm": 4.3936429, "learning_rate": 9.23e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096158, "epoch": 0.21996227, "global_step/max_steps": "4730/21503", "percentage": "22.00%", "elapsed_time": "13h 39m 49s", "remaining_time": "2d 0h 27m 10s"}
{"loss": 0.7725913, "token_acc": 0.82233704, "grad_norm": 5.33460951, "learning_rate": 9.23e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096216, "epoch": 0.22019479, "global_step/max_steps": "4735/21503", "percentage": "22.02%", "elapsed_time": "13h 40m 12s", "remaining_time": "2d 0h 24m 34s"}
{"loss": 0.68205295, "token_acc": 0.84126236, "grad_norm": 6.81293344, "learning_rate": 9.23e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096271, "epoch": 0.22042731, "global_step/max_steps": "4740/21503", "percentage": "22.04%", "elapsed_time": "13h 40m 35s", "remaining_time": "2d 0h 22m 1s"}
{"loss": 0.77068357, "token_acc": 0.80655476, "grad_norm": 5.59842634, "learning_rate": 9.22e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096328, "epoch": 0.22065983, "global_step/max_steps": "4745/21503", "percentage": "22.07%", "elapsed_time": "13h 40m 58s", "remaining_time": "2d 0h 19m 27s"}
{"loss": 0.83623753, "token_acc": 0.78288043, "grad_norm": 6.01419306, "learning_rate": 9.22e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096385, "epoch": 0.22089235, "global_step/max_steps": "4750/21503", "percentage": "22.09%", "elapsed_time": "13h 41m 21s", "remaining_time": "2d 0h 16m 53s"}
{"eval_loss": 0.68553674, "eval_runtime": 293.1276, "eval_samples_per_second": 11.855, "eval_steps_per_second": 11.855, "epoch": 0.22089235, "global_step/max_steps": "4750/21503", "percentage": "22.09%", "elapsed_time": "13h 46m 14s", "remaining_time": "2d 0h 34m 7s"}
{"loss": 0.78039174, "token_acc": 0.80549524, "grad_norm": 3.96965766, "learning_rate": 9.22e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095869, "epoch": 0.22112487, "global_step/max_steps": "4755/21503", "percentage": "22.11%", "elapsed_time": "13h 46m 38s", "remaining_time": "2d 0h 31m 35s"}
{"loss": 0.86256084, "token_acc": 0.7932676, "grad_norm": 4.37053061, "learning_rate": 9.22e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095925, "epoch": 0.22135738, "global_step/max_steps": "4760/21503", "percentage": "22.14%", "elapsed_time": "13h 47m 1s", "remaining_time": "2d 0h 29m 1s"}
{"loss": 0.86303492, "token_acc": 0.80713679, "grad_norm": 5.99368858, "learning_rate": 9.22e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095981, "epoch": 0.2215899, "global_step/max_steps": "4765/21503", "percentage": "22.16%", "elapsed_time": "13h 47m 24s", "remaining_time": "2d 0h 26m 27s"}
{"loss": 0.7270865, "token_acc": 0.82240204, "grad_norm": 6.21929026, "learning_rate": 9.21e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096036, "epoch": 0.22182242, "global_step/max_steps": "4770/21503", "percentage": "22.18%", "elapsed_time": "13h 47m 48s", "remaining_time": "2d 0h 23m 55s"}
{"loss": 0.8439168, "token_acc": 0.79918699, "grad_norm": 5.15069818, "learning_rate": 9.21e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096088, "epoch": 0.22205494, "global_step/max_steps": "4775/21503", "percentage": "22.21%", "elapsed_time": "13h 48m 13s", "remaining_time": "2d 0h 21m 29s"}
{"loss": 0.792344, "token_acc": 0.79854752, "grad_norm": 5.61347342, "learning_rate": 9.21e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096145, "epoch": 0.22228746, "global_step/max_steps": "4780/21503", "percentage": "22.23%", "elapsed_time": "13h 48m 36s", "remaining_time": "2d 0h 18m 54s"}
{"loss": 0.88981657, "token_acc": 0.77217598, "grad_norm": 5.04179668, "learning_rate": 9.21e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096199, "epoch": 0.22251997, "global_step/max_steps": "4785/21503", "percentage": "22.25%", "elapsed_time": "13h 49m 0s", "remaining_time": "2d 0h 16m 25s"}
{"loss": 0.80838337, "token_acc": 0.80106762, "grad_norm": 7.28083754, "learning_rate": 9.21e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096254, "epoch": 0.22275249, "global_step/max_steps": "4790/21503", "percentage": "22.28%", "elapsed_time": "13h 49m 24s", "remaining_time": "2d 0h 13m 54s"}
{"loss": 0.77994432, "token_acc": 0.81107492, "grad_norm": 7.02700233, "learning_rate": 9.2e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.09631, "epoch": 0.22298501, "global_step/max_steps": "4795/21503", "percentage": "22.30%", "elapsed_time": "13h 49m 46s", "remaining_time": "2d 0h 11m 20s"}
{"loss": 0.75433464, "token_acc": 0.8283281, "grad_norm": 6.83447123, "learning_rate": 9.2e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096367, "epoch": 0.22321753, "global_step/max_steps": "4800/21503", "percentage": "22.32%", "elapsed_time": "13h 50m 9s", "remaining_time": "2d 0h 8m 45s"}
{"eval_loss": 0.67961627, "eval_runtime": 294.619, "eval_samples_per_second": 11.795, "eval_steps_per_second": 11.795, "epoch": 0.22321753, "global_step/max_steps": "4800/21503", "percentage": "22.32%", "elapsed_time": "13h 55m 3s", "remaining_time": "2d 0h 25m 50s"}
{"loss": 0.72463803, "token_acc": 0.8070286, "grad_norm": 5.50020313, "learning_rate": 9.2e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095856, "epoch": 0.22345005, "global_step/max_steps": "4805/21503", "percentage": "22.35%", "elapsed_time": "13h 55m 27s", "remaining_time": "2d 0h 23m 18s"}
{"loss": 0.65638943, "token_acc": 0.83345979, "grad_norm": 7.37080193, "learning_rate": 9.2e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095912, "epoch": 0.22368257, "global_step/max_steps": "4810/21503", "percentage": "22.37%", "elapsed_time": "13h 55m 49s", "remaining_time": "2d 0h 20m 44s"}
{"loss": 0.8106472, "token_acc": 0.79811575, "grad_norm": 7.19667673, "learning_rate": 9.2e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095968, "epoch": 0.22391508, "global_step/max_steps": "4815/21503", "percentage": "22.39%", "elapsed_time": "13h 56m 12s", "remaining_time": "2d 0h 18m 10s"}
{"loss": 0.95014029, "token_acc": 0.7806595, "grad_norm": 5.86845541, "learning_rate": 9.19e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096023, "epoch": 0.2241476, "global_step/max_steps": "4820/21503", "percentage": "22.42%", "elapsed_time": "13h 56m 35s", "remaining_time": "2d 0h 15m 38s"}
{"loss": 0.84876318, "token_acc": 0.80062305, "grad_norm": 4.00060749, "learning_rate": 9.19e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096079, "epoch": 0.22438012, "global_step/max_steps": "4825/21503", "percentage": "22.44%", "elapsed_time": "13h 56m 58s", "remaining_time": "2d 0h 13m 5s"}
{"loss": 0.86048918, "token_acc": 0.79641791, "grad_norm": 5.36232567, "learning_rate": 9.19e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096132, "epoch": 0.22461264, "global_step/max_steps": "4830/21503", "percentage": "22.46%", "elapsed_time": "13h 57m 22s", "remaining_time": "2d 0h 10m 37s"}
{"loss": 0.71378307, "token_acc": 0.82757325, "grad_norm": 6.27098417, "learning_rate": 9.19e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096187, "epoch": 0.22484516, "global_step/max_steps": "4835/21503", "percentage": "22.49%", "elapsed_time": "13h 57m 46s", "remaining_time": "2d 0h 8m 6s"}
{"loss": 0.80937328, "token_acc": 0.81193561, "grad_norm": 6.5238905, "learning_rate": 9.19e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096243, "epoch": 0.22507768, "global_step/max_steps": "4840/21503", "percentage": "22.51%", "elapsed_time": "13h 58m 9s", "remaining_time": "2d 0h 5m 33s"}
{"loss": 0.67826858, "token_acc": 0.82208589, "grad_norm": 6.19850445, "learning_rate": 9.18e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096299, "epoch": 0.22531019, "global_step/max_steps": "4845/21503", "percentage": "22.53%", "elapsed_time": "13h 58m 31s", "remaining_time": "2d 0h 3m 1s"}
{"loss": 0.74776459, "token_acc": 0.81401922, "grad_norm": 5.54154205, "learning_rate": 9.18e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096353, "epoch": 0.22554271, "global_step/max_steps": "4850/21503", "percentage": "22.55%", "elapsed_time": "13h 58m 55s", "remaining_time": "2d 0h 0m 32s"}
{"eval_loss": 0.67944694, "eval_runtime": 289.7339, "eval_samples_per_second": 11.994, "eval_steps_per_second": 11.994, "epoch": 0.22554271, "global_step/max_steps": "4850/21503", "percentage": "22.55%", "elapsed_time": "14h 3m 45s", "remaining_time": "2d 0h 17m 7s"}
{"loss": 0.83466635, "token_acc": 0.8062872, "grad_norm": 7.80899525, "learning_rate": 9.18e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095856, "epoch": 0.22577523, "global_step/max_steps": "4855/21503", "percentage": "22.58%", "elapsed_time": "14h 4m 8s", "remaining_time": "2d 0h 14m 35s"}
{"loss": 0.7062819, "token_acc": 0.83384263, "grad_norm": 5.51200056, "learning_rate": 9.18e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095912, "epoch": 0.22600775, "global_step/max_steps": "4860/21503", "percentage": "22.60%", "elapsed_time": "14h 4m 31s", "remaining_time": "2d 0h 12m 2s"}
{"loss": 0.84443951, "token_acc": 0.7886694, "grad_norm": 6.98822355, "learning_rate": 9.17e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095968, "epoch": 0.22624027, "global_step/max_steps": "4865/21503", "percentage": "22.62%", "elapsed_time": "14h 4m 53s", "remaining_time": "2d 0h 9m 29s"}
{"loss": 0.82384748, "token_acc": 0.79103943, "grad_norm": 5.69729614, "learning_rate": 9.17e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096024, "epoch": 0.22647279, "global_step/max_steps": "4870/21503", "percentage": "22.65%", "elapsed_time": "14h 5m 16s", "remaining_time": "2d 0h 6m 56s"}
{"loss": 0.82165194, "token_acc": 0.78996037, "grad_norm": 5.0498209, "learning_rate": 9.17e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096077, "epoch": 0.2267053, "global_step/max_steps": "4875/21503", "percentage": "22.67%", "elapsed_time": "14h 5m 40s", "remaining_time": "2d 0h 4m 27s"}
{"loss": 0.76467571, "token_acc": 0.79546991, "grad_norm": 7.27015734, "learning_rate": 9.17e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096133, "epoch": 0.22693782, "global_step/max_steps": "4880/21503", "percentage": "22.69%", "elapsed_time": "14h 6m 3s", "remaining_time": "2d 0h 1m 56s"}
{"loss": 0.88695354, "token_acc": 0.78279641, "grad_norm": 5.25335407, "learning_rate": 9.17e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096187, "epoch": 0.22717034, "global_step/max_steps": "4885/21503", "percentage": "22.72%", "elapsed_time": "14h 6m 26s", "remaining_time": "1d 23h 59m 26s"}
{"loss": 0.72835407, "token_acc": 0.80651341, "grad_norm": 6.63580418, "learning_rate": 9.16e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096241, "epoch": 0.22740286, "global_step/max_steps": "4890/21503", "percentage": "22.74%", "elapsed_time": "14h 6m 49s", "remaining_time": "1d 23h 56m 58s"}
{"loss": 0.64648528, "token_acc": 0.85692921, "grad_norm": 6.6791501, "learning_rate": 9.16e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096297, "epoch": 0.22763538, "global_step/max_steps": "4895/21503", "percentage": "22.76%", "elapsed_time": "14h 7m 12s", "remaining_time": "1d 23h 54m 26s"}
{"loss": 0.83677263, "token_acc": 0.8022113, "grad_norm": 7.04729033, "learning_rate": 9.16e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096351, "epoch": 0.22786789, "global_step/max_steps": "4900/21503", "percentage": "22.79%", "elapsed_time": "14h 7m 35s", "remaining_time": "1d 23h 51m 56s"}
{"eval_loss": 0.67726821, "eval_runtime": 291.6576, "eval_samples_per_second": 11.915, "eval_steps_per_second": 11.915, "epoch": 0.22786789, "global_step/max_steps": "4900/21503", "percentage": "22.79%", "elapsed_time": "14h 12m 27s", "remaining_time": "2d 0h 8m 24s"}
{"loss": 0.68906875, "token_acc": 0.80616306, "grad_norm": 7.30215883, "learning_rate": 9.16e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095855, "epoch": 0.22810041, "global_step/max_steps": "4905/21503", "percentage": "22.81%", "elapsed_time": "14h 12m 50s", "remaining_time": "2d 0h 5m 55s"}
{"loss": 0.71222587, "token_acc": 0.84295961, "grad_norm": 6.89357376, "learning_rate": 9.16e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095911, "epoch": 0.22833293, "global_step/max_steps": "4910/21503", "percentage": "22.83%", "elapsed_time": "14h 13m 13s", "remaining_time": "2d 0h 3m 23s"}
{"loss": 0.7492497, "token_acc": 0.81761624, "grad_norm": 5.46394968, "learning_rate": 9.15e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095965, "epoch": 0.22856545, "global_step/max_steps": "4915/21503", "percentage": "22.86%", "elapsed_time": "14h 13m 36s", "remaining_time": "2d 0h 0m 54s"}
{"loss": 0.89533968, "token_acc": 0.78430796, "grad_norm": 5.48734617, "learning_rate": 9.15e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096019, "epoch": 0.22879797, "global_step/max_steps": "4920/21503", "percentage": "22.88%", "elapsed_time": "14h 13m 59s", "remaining_time": "1d 23h 58m 24s"}
{"loss": 0.7093976, "token_acc": 0.82452602, "grad_norm": 7.81143522, "learning_rate": 9.15e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096075, "epoch": 0.22903049, "global_step/max_steps": "4925/21503", "percentage": "22.90%", "elapsed_time": "14h 14m 22s", "remaining_time": "1d 23h 55m 52s"}
{"loss": 0.78594971, "token_acc": 0.81967213, "grad_norm": 6.16962004, "learning_rate": 9.15e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096129, "epoch": 0.229263, "global_step/max_steps": "4930/21503", "percentage": "22.93%", "elapsed_time": "14h 14m 45s", "remaining_time": "1d 23h 53m 23s"}
{"loss": 0.73858461, "token_acc": 0.81293818, "grad_norm": 5.18827248, "learning_rate": 9.14e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096185, "epoch": 0.22949552, "global_step/max_steps": "4935/21503", "percentage": "22.95%", "elapsed_time": "14h 15m 7s", "remaining_time": "1d 23h 50m 51s"}
{"loss": 0.78755326, "token_acc": 0.80650627, "grad_norm": 5.54124737, "learning_rate": 9.14e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096238, "epoch": 0.22972804, "global_step/max_steps": "4940/21503", "percentage": "22.97%", "elapsed_time": "14h 15m 30s", "remaining_time": "1d 23h 48m 23s"}
{"loss": 0.83877935, "token_acc": 0.79840665, "grad_norm": 6.21048975, "learning_rate": 9.14e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096291, "epoch": 0.22996056, "global_step/max_steps": "4945/21503", "percentage": "23.00%", "elapsed_time": "14h 15m 54s", "remaining_time": "1d 23h 45m 56s"}
{"loss": 0.76316648, "token_acc": 0.81731503, "grad_norm": 7.85757637, "learning_rate": 9.14e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096345, "epoch": 0.23019308, "global_step/max_steps": "4950/21503", "percentage": "23.02%", "elapsed_time": "14h 16m 17s", "remaining_time": "1d 23h 43m 29s"}
{"eval_loss": 0.67920077, "eval_runtime": 288.8644, "eval_samples_per_second": 12.03, "eval_steps_per_second": 12.03, "epoch": 0.23019308, "global_step/max_steps": "4950/21503", "percentage": "23.02%", "elapsed_time": "14h 21m 6s", "remaining_time": "1d 23h 59m 35s"}
{"loss": 0.76497445, "token_acc": 0.80667778, "grad_norm": 6.83568382, "learning_rate": 9.14e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.09586, "epoch": 0.2304256, "global_step/max_steps": "4955/21503", "percentage": "23.04%", "elapsed_time": "14h 21m 29s", "remaining_time": "1d 23h 57m 5s"}
{"loss": 0.79090457, "token_acc": 0.79936193, "grad_norm": 5.46660519, "learning_rate": 9.13e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095914, "epoch": 0.23065811, "global_step/max_steps": "4960/21503", "percentage": "23.07%", "elapsed_time": "14h 21m 52s", "remaining_time": "1d 23h 54m 36s"}
{"loss": 0.8002223, "token_acc": 0.79138322, "grad_norm": 5.4729352, "learning_rate": 9.13e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095969, "epoch": 0.23089063, "global_step/max_steps": "4965/21503", "percentage": "23.09%", "elapsed_time": "14h 22m 15s", "remaining_time": "1d 23h 52m 5s"}
{"loss": 0.77090397, "token_acc": 0.79764706, "grad_norm": 5.25464296, "learning_rate": 9.13e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.09602, "epoch": 0.23112315, "global_step/max_steps": "4970/21503", "percentage": "23.11%", "elapsed_time": "14h 22m 39s", "remaining_time": "1d 23h 49m 41s"}
{"loss": 0.8130764, "token_acc": 0.80183237, "grad_norm": 5.66794109, "learning_rate": 9.13e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096075, "epoch": 0.23135567, "global_step/max_steps": "4975/21503", "percentage": "23.14%", "elapsed_time": "14h 23m 2s", "remaining_time": "1d 23h 47m 10s"}
{"loss": 0.73868265, "token_acc": 0.82376026, "grad_norm": 5.39901924, "learning_rate": 9.13e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096129, "epoch": 0.23158819, "global_step/max_steps": "4980/21503", "percentage": "23.16%", "elapsed_time": "14h 23m 25s", "remaining_time": "1d 23h 44m 43s"}
{"loss": 0.76252127, "token_acc": 0.83654652, "grad_norm": 7.11001682, "learning_rate": 9.12e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096184, "epoch": 0.23182071, "global_step/max_steps": "4985/21503", "percentage": "23.18%", "elapsed_time": "14h 23m 47s", "remaining_time": "1d 23h 42m 13s"}
{"loss": 0.743012, "token_acc": 0.82490133, "grad_norm": 5.49600887, "learning_rate": 9.12e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096238, "epoch": 0.23205322, "global_step/max_steps": "4990/21503", "percentage": "23.21%", "elapsed_time": "14h 24m 10s", "remaining_time": "1d 23h 39m 44s"}
{"loss": 0.60831189, "token_acc": 0.84328616, "grad_norm": 5.5386548, "learning_rate": 9.12e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096291, "epoch": 0.23228574, "global_step/max_steps": "4995/21503", "percentage": "23.23%", "elapsed_time": "14h 24m 33s", "remaining_time": "1d 23h 37m 18s"}
{"loss": 0.77738719, "token_acc": 0.80922693, "grad_norm": 5.3172226, "learning_rate": 9.12e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096343, "epoch": 0.23251826, "global_step/max_steps": "5000/21503", "percentage": "23.25%", "elapsed_time": "14h 24m 57s", "remaining_time": "1d 23h 34m 52s"}
{"eval_loss": 0.67435443, "eval_runtime": 290.6524, "eval_samples_per_second": 11.956, "eval_steps_per_second": 11.956, "epoch": 0.23251826, "global_step/max_steps": "5000/21503", "percentage": "23.25%", "elapsed_time": "14h 29m 48s", "remaining_time": "1d 23h 50m 51s"}
{"loss": 0.74742613, "token_acc": 0.80676685, "grad_norm": 6.64730644, "learning_rate": 9.11e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.09586, "epoch": 0.23275078, "global_step/max_steps": "5005/21503", "percentage": "23.28%", "elapsed_time": "14h 30m 11s", "remaining_time": "1d 23h 48m 24s"}
{"loss": 0.76018667, "token_acc": 0.81336032, "grad_norm": 6.4662261, "learning_rate": 9.11e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095914, "epoch": 0.2329833, "global_step/max_steps": "5010/21503", "percentage": "23.30%", "elapsed_time": "14h 30m 34s", "remaining_time": "1d 23h 45m 55s"}
{"loss": 0.67004724, "token_acc": 0.83294275, "grad_norm": 5.54979277, "learning_rate": 9.11e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095968, "epoch": 0.23321581, "global_step/max_steps": "5015/21503", "percentage": "23.32%", "elapsed_time": "14h 30m 56s", "remaining_time": "1d 23h 43m 25s"}
{"loss": 0.75526371, "token_acc": 0.8173913, "grad_norm": 5.16857529, "learning_rate": 9.11e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096023, "epoch": 0.23344833, "global_step/max_steps": "5020/21503", "percentage": "23.35%", "elapsed_time": "14h 31m 19s", "remaining_time": "1d 23h 40m 56s"}
{"loss": 0.74925075, "token_acc": 0.81772695, "grad_norm": 4.69772482, "learning_rate": 9.11e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096076, "epoch": 0.23368085, "global_step/max_steps": "5025/21503", "percentage": "23.37%", "elapsed_time": "14h 31m 41s", "remaining_time": "1d 23h 38m 28s"}
{"loss": 0.81740255, "token_acc": 0.78443434, "grad_norm": 5.7201395, "learning_rate": 9.1e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096129, "epoch": 0.23391337, "global_step/max_steps": "5030/21503", "percentage": "23.39%", "elapsed_time": "14h 32m 5s", "remaining_time": "1d 23h 36m 2s"}
{"loss": 0.77113838, "token_acc": 0.81565087, "grad_norm": 4.8869462, "learning_rate": 9.1e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096183, "epoch": 0.23414589, "global_step/max_steps": "5035/21503", "percentage": "23.42%", "elapsed_time": "14h 32m 27s", "remaining_time": "1d 23h 33m 34s"}
{"loss": 0.83463717, "token_acc": 0.78898515, "grad_norm": 5.74711847, "learning_rate": 9.1e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096236, "epoch": 0.23437841, "global_step/max_steps": "5040/21503", "percentage": "23.44%", "elapsed_time": "14h 32m 50s", "remaining_time": "1d 23h 31m 8s"}
{"loss": 0.72097974, "token_acc": 0.80605272, "grad_norm": 4.73277378, "learning_rate": 9.1e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096289, "epoch": 0.23461092, "global_step/max_steps": "5045/21503", "percentage": "23.46%", "elapsed_time": "14h 33m 14s", "remaining_time": "1d 23h 28m 42s"}
{"loss": 0.76062474, "token_acc": 0.81193645, "grad_norm": 6.4072094, "learning_rate": 9.09e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096342, "epoch": 0.23484344, "global_step/max_steps": "5050/21503", "percentage": "23.49%", "elapsed_time": "14h 33m 37s", "remaining_time": "1d 23h 26m 16s"}
{"eval_loss": 0.67798215, "eval_runtime": 290.5023, "eval_samples_per_second": 11.962, "eval_steps_per_second": 11.962, "epoch": 0.23484344, "global_step/max_steps": "5050/21503", "percentage": "23.49%", "elapsed_time": "14h 38m 27s", "remaining_time": "1d 23h 42m 2s"}
{"loss": 0.77347431, "token_acc": 0.80662061, "grad_norm": 7.12260056, "learning_rate": 9.09e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095863, "epoch": 0.23507596, "global_step/max_steps": "5055/21503", "percentage": "23.51%", "elapsed_time": "14h 38m 51s", "remaining_time": "1d 23h 39m 36s"}
{"loss": 0.68724842, "token_acc": 0.81425819, "grad_norm": 6.68543148, "learning_rate": 9.09e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095916, "epoch": 0.23530848, "global_step/max_steps": "5060/21503", "percentage": "23.53%", "elapsed_time": "14h 39m 14s", "remaining_time": "1d 23h 37m 9s"}
{"loss": 0.76698313, "token_acc": 0.79544831, "grad_norm": 5.3799448, "learning_rate": 9.09e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095968, "epoch": 0.235541, "global_step/max_steps": "5065/21503", "percentage": "23.55%", "elapsed_time": "14h 39m 37s", "remaining_time": "1d 23h 34m 45s"}
{"loss": 0.63747268, "token_acc": 0.85099491, "grad_norm": 6.77515888, "learning_rate": 9.09e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096022, "epoch": 0.23577352, "global_step/max_steps": "5070/21503", "percentage": "23.58%", "elapsed_time": "14h 40m 0s", "remaining_time": "1d 23h 32m 16s"}
{"loss": 0.82370615, "token_acc": 0.80678354, "grad_norm": 7.46367884, "learning_rate": 9.08e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096075, "epoch": 0.23600603, "global_step/max_steps": "5075/21503", "percentage": "23.60%", "elapsed_time": "14h 40m 22s", "remaining_time": "1d 23h 29m 50s"}
{"loss": 0.81655378, "token_acc": 0.8075, "grad_norm": 5.91213989, "learning_rate": 9.08e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096129, "epoch": 0.23623855, "global_step/max_steps": "5080/21503", "percentage": "23.62%", "elapsed_time": "14h 40m 45s", "remaining_time": "1d 23h 27m 22s"}
{"loss": 0.73491201, "token_acc": 0.81596029, "grad_norm": 6.14144945, "learning_rate": 9.08e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096182, "epoch": 0.23647107, "global_step/max_steps": "5085/21503", "percentage": "23.65%", "elapsed_time": "14h 41m 8s", "remaining_time": "1d 23h 24m 56s"}
{"loss": 0.79995689, "token_acc": 0.80111732, "grad_norm": 5.84186029, "learning_rate": 9.08e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096236, "epoch": 0.23670359, "global_step/max_steps": "5090/21503", "percentage": "23.67%", "elapsed_time": "14h 41m 30s", "remaining_time": "1d 23h 22m 29s"}
{"loss": 0.76638279, "token_acc": 0.82110507, "grad_norm": 7.30281687, "learning_rate": 9.07e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096289, "epoch": 0.23693611, "global_step/max_steps": "5095/21503", "percentage": "23.69%", "elapsed_time": "14h 41m 53s", "remaining_time": "1d 23h 20m 3s"}
{"loss": 0.70741329, "token_acc": 0.8310539, "grad_norm": 7.1966095, "learning_rate": 9.07e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096341, "epoch": 0.23716863, "global_step/max_steps": "5100/21503", "percentage": "23.72%", "elapsed_time": "14h 42m 16s", "remaining_time": "1d 23h 17m 39s"}
{"eval_loss": 0.67641354, "eval_runtime": 290.8232, "eval_samples_per_second": 11.949, "eval_steps_per_second": 11.949, "epoch": 0.23716863, "global_step/max_steps": "5100/21503", "percentage": "23.72%", "elapsed_time": "14h 47m 7s", "remaining_time": "1d 23h 33m 14s"}
{"loss": 0.82614975, "token_acc": 0.80594943, "grad_norm": 7.08798456, "learning_rate": 9.07e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095867, "epoch": 0.23740114, "global_step/max_steps": "5105/21503", "percentage": "23.74%", "elapsed_time": "14h 47m 30s", "remaining_time": "1d 23h 30m 48s"}
{"loss": 0.85271797, "token_acc": 0.80238501, "grad_norm": 6.17009974, "learning_rate": 9.07e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095921, "epoch": 0.23763366, "global_step/max_steps": "5110/21503", "percentage": "23.76%", "elapsed_time": "14h 47m 53s", "remaining_time": "1d 23h 28m 21s"}
{"loss": 0.76925888, "token_acc": 0.8109508, "grad_norm": 7.86161804, "learning_rate": 9.07e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095973, "epoch": 0.23786618, "global_step/max_steps": "5115/21503", "percentage": "23.79%", "elapsed_time": "14h 48m 15s", "remaining_time": "1d 23h 25m 54s"}
{"loss": 0.67750616, "token_acc": 0.81204569, "grad_norm": 8.1282444, "learning_rate": 9.06e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096024, "epoch": 0.2380987, "global_step/max_steps": "5120/21503", "percentage": "23.81%", "elapsed_time": "14h 48m 39s", "remaining_time": "1d 23h 23m 32s"}
{"loss": 0.70918417, "token_acc": 0.82585218, "grad_norm": 5.31683874, "learning_rate": 9.06e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096077, "epoch": 0.23833122, "global_step/max_steps": "5125/21503", "percentage": "23.83%", "elapsed_time": "14h 49m 2s", "remaining_time": "1d 23h 21m 7s"}
{"loss": 0.7681273, "token_acc": 0.80943932, "grad_norm": 5.56362963, "learning_rate": 9.06e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096129, "epoch": 0.23856373, "global_step/max_steps": "5130/21503", "percentage": "23.86%", "elapsed_time": "14h 49m 25s", "remaining_time": "1d 23h 18m 41s"}
{"loss": 0.73105688, "token_acc": 0.82172003, "grad_norm": 5.28506041, "learning_rate": 9.06e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096181, "epoch": 0.23879625, "global_step/max_steps": "5135/21503", "percentage": "23.88%", "elapsed_time": "14h 49m 48s", "remaining_time": "1d 23h 16m 17s"}
{"loss": 0.74591002, "token_acc": 0.81771596, "grad_norm": 6.37714624, "learning_rate": 9.05e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096234, "epoch": 0.23902877, "global_step/max_steps": "5140/21503", "percentage": "23.90%", "elapsed_time": "14h 50m 11s", "remaining_time": "1d 23h 13m 53s"}
{"loss": 0.74608564, "token_acc": 0.81403244, "grad_norm": 5.8915453, "learning_rate": 9.05e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096286, "epoch": 0.23926129, "global_step/max_steps": "5145/21503", "percentage": "23.93%", "elapsed_time": "14h 50m 34s", "remaining_time": "1d 23h 11m 28s"}
{"loss": 0.73758683, "token_acc": 0.8267285, "grad_norm": 5.50094271, "learning_rate": 9.05e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096338, "epoch": 0.23949381, "global_step/max_steps": "5150/21503", "percentage": "23.95%", "elapsed_time": "14h 50m 57s", "remaining_time": "1d 23h 9m 5s"}
{"eval_loss": 0.67250842, "eval_runtime": 289.1326, "eval_samples_per_second": 12.019, "eval_steps_per_second": 12.019, "epoch": 0.23949381, "global_step/max_steps": "5150/21503", "percentage": "23.95%", "elapsed_time": "14h 55m 46s", "remaining_time": "1d 23h 24m 23s"}
{"loss": 0.76314526, "token_acc": 0.80828978, "grad_norm": 6.59693193, "learning_rate": 9.05e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.09587, "epoch": 0.23972633, "global_step/max_steps": "5155/21503", "percentage": "23.97%", "elapsed_time": "14h 56m 10s", "remaining_time": "1d 23h 22m 1s"}
{"loss": 0.70089078, "token_acc": 0.82696629, "grad_norm": 6.98110294, "learning_rate": 9.05e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095922, "epoch": 0.23995884, "global_step/max_steps": "5160/21503", "percentage": "24.00%", "elapsed_time": "14h 56m 33s", "remaining_time": "1d 23h 19m 37s"}
{"loss": 0.73006673, "token_acc": 0.83950617, "grad_norm": 7.91312408, "learning_rate": 9.04e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095975, "epoch": 0.24019136, "global_step/max_steps": "5165/21503", "percentage": "24.02%", "elapsed_time": "14h 56m 56s", "remaining_time": "1d 23h 17m 11s"}
{"loss": 0.78187466, "token_acc": 0.80665813, "grad_norm": 6.2884717, "learning_rate": 9.04e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096026, "epoch": 0.24042388, "global_step/max_steps": "5170/21503", "percentage": "24.04%", "elapsed_time": "14h 57m 19s", "remaining_time": "1d 23h 14m 48s"}
{"loss": 0.70845909, "token_acc": 0.81753313, "grad_norm": 5.89521408, "learning_rate": 9.04e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096077, "epoch": 0.2406564, "global_step/max_steps": "5175/21503", "percentage": "24.07%", "elapsed_time": "14h 57m 42s", "remaining_time": "1d 23h 12m 26s"}
{"loss": 0.76423526, "token_acc": 0.81246006, "grad_norm": 4.60311317, "learning_rate": 9.04e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096127, "epoch": 0.24088892, "global_step/max_steps": "5180/21503", "percentage": "24.09%", "elapsed_time": "14h 58m 6s", "remaining_time": "1d 23h 10m 5s"}
{"loss": 0.73253889, "token_acc": 0.82141398, "grad_norm": 6.5781951, "learning_rate": 9.03e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.09618, "epoch": 0.24112144, "global_step/max_steps": "5185/21503", "percentage": "24.11%", "elapsed_time": "14h 58m 29s", "remaining_time": "1d 23h 7m 40s"}
{"loss": 0.77423029, "token_acc": 0.81228899, "grad_norm": 7.54812527, "learning_rate": 9.03e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096233, "epoch": 0.24135395, "global_step/max_steps": "5190/21503", "percentage": "24.14%", "elapsed_time": "14h 58m 51s", "remaining_time": "1d 23h 5m 15s"}
{"loss": 0.76798778, "token_acc": 0.83076245, "grad_norm": 6.7408967, "learning_rate": 9.03e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096285, "epoch": 0.24158647, "global_step/max_steps": "5195/21503", "percentage": "24.16%", "elapsed_time": "14h 59m 14s", "remaining_time": "1d 23h 2m 52s"}
{"loss": 0.71901798, "token_acc": 0.82716903, "grad_norm": 5.74559832, "learning_rate": 9.03e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096336, "epoch": 0.24181899, "global_step/max_steps": "5200/21503", "percentage": "24.18%", "elapsed_time": "14h 59m 37s", "remaining_time": "1d 23h 0m 30s"}
{"eval_loss": 0.673244, "eval_runtime": 293.5982, "eval_samples_per_second": 11.836, "eval_steps_per_second": 11.836, "epoch": 0.24181899, "global_step/max_steps": "5200/21503", "percentage": "24.18%", "elapsed_time": "15h 4m 31s", "remaining_time": "1d 23h 15m 50s"}
{"loss": 0.70020013, "token_acc": 0.80876016, "grad_norm": 6.5287528, "learning_rate": 9.03e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095866, "epoch": 0.24205151, "global_step/max_steps": "5205/21503", "percentage": "24.21%", "elapsed_time": "15h 4m 54s", "remaining_time": "1d 23h 13m 28s"}
{"loss": 0.78573246, "token_acc": 0.79751209, "grad_norm": 4.98848009, "learning_rate": 9.02e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095917, "epoch": 0.24228403, "global_step/max_steps": "5210/21503", "percentage": "24.23%", "elapsed_time": "15h 5m 17s", "remaining_time": "1d 23h 11m 5s"}
{"loss": 0.74230356, "token_acc": 0.83717036, "grad_norm": 6.8806777, "learning_rate": 9.02e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095968, "epoch": 0.24251655, "global_step/max_steps": "5215/21503", "percentage": "24.25%", "elapsed_time": "15h 5m 40s", "remaining_time": "1d 23h 8m 41s"}
{"loss": 0.76736879, "token_acc": 0.80249754, "grad_norm": 6.21691132, "learning_rate": 9.02e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.09602, "epoch": 0.24274906, "global_step/max_steps": "5220/21503", "percentage": "24.28%", "elapsed_time": "15h 6m 3s", "remaining_time": "1d 23h 6m 18s"}
{"loss": 0.87295227, "token_acc": 0.79238653, "grad_norm": 5.22970819, "learning_rate": 9.02e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096072, "epoch": 0.24298158, "global_step/max_steps": "5225/21503", "percentage": "24.30%", "elapsed_time": "15h 6m 25s", "remaining_time": "1d 23h 3m 54s"}
{"loss": 0.80668335, "token_acc": 0.80682226, "grad_norm": 5.49380684, "learning_rate": 9.01e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096125, "epoch": 0.2432141, "global_step/max_steps": "5230/21503", "percentage": "24.32%", "elapsed_time": "15h 6m 48s", "remaining_time": "1d 23h 1m 29s"}
{"loss": 0.73550644, "token_acc": 0.83185484, "grad_norm": 6.72002411, "learning_rate": 9.01e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096177, "epoch": 0.24344662, "global_step/max_steps": "5235/21503", "percentage": "24.35%", "elapsed_time": "15h 7m 10s", "remaining_time": "1d 22h 59m 6s"}
{"loss": 0.71955938, "token_acc": 0.81454406, "grad_norm": 7.68771029, "learning_rate": 9.01e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096229, "epoch": 0.24367914, "global_step/max_steps": "5240/21503", "percentage": "24.37%", "elapsed_time": "15h 7m 33s", "remaining_time": "1d 22h 56m 42s"}
{"loss": 0.69264774, "token_acc": 0.82991089, "grad_norm": 7.27147532, "learning_rate": 9.01e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.09628, "epoch": 0.24391165, "global_step/max_steps": "5245/21503", "percentage": "24.39%", "elapsed_time": "15h 7m 56s", "remaining_time": "1d 22h 54m 20s"}
{"loss": 0.77442913, "token_acc": 0.79212254, "grad_norm": 6.05449486, "learning_rate": 9e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096332, "epoch": 0.24414417, "global_step/max_steps": "5250/21503", "percentage": "24.42%", "elapsed_time": "15h 8m 18s", "remaining_time": "1d 22h 51m 58s"}
{"eval_loss": 0.66984236, "eval_runtime": 289.3444, "eval_samples_per_second": 12.01, "eval_steps_per_second": 12.01, "epoch": 0.24414417, "global_step/max_steps": "5250/21503", "percentage": "24.42%", "elapsed_time": "15h 13m 8s", "remaining_time": "1d 23h 6m 53s"}
{"loss": 0.6975595, "token_acc": 0.80830923, "grad_norm": 5.88452911, "learning_rate": 9e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095874, "epoch": 0.24437669, "global_step/max_steps": "5255/21503", "percentage": "24.44%", "elapsed_time": "15h 13m 31s", "remaining_time": "1d 23h 4m 31s"}
{"loss": 0.72172456, "token_acc": 0.82092624, "grad_norm": 5.38762522, "learning_rate": 9e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095925, "epoch": 0.24460921, "global_step/max_steps": "5260/21503", "percentage": "24.46%", "elapsed_time": "15h 13m 54s", "remaining_time": "1d 23h 2m 10s"}
{"loss": 0.89355516, "token_acc": 0.78215488, "grad_norm": 5.46498299, "learning_rate": 9e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095976, "epoch": 0.24484173, "global_step/max_steps": "5265/21503", "percentage": "24.48%", "elapsed_time": "15h 14m 17s", "remaining_time": "1d 22h 59m 46s"}
{"loss": 0.69361358, "token_acc": 0.81837995, "grad_norm": 7.14568233, "learning_rate": 9e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096028, "epoch": 0.24507425, "global_step/max_steps": "5270/21503", "percentage": "24.51%", "elapsed_time": "15h 14m 39s", "remaining_time": "1d 22h 57m 23s"}
{"loss": 0.76993079, "token_acc": 0.81245526, "grad_norm": 6.8634882, "learning_rate": 8.99e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.09608, "epoch": 0.24530676, "global_step/max_steps": "5275/21503", "percentage": "24.53%", "elapsed_time": "15h 15m 1s", "remaining_time": "1d 22h 54m 59s"}
{"loss": 0.73964252, "token_acc": 0.82518013, "grad_norm": 6.94125271, "learning_rate": 8.99e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096132, "epoch": 0.24553928, "global_step/max_steps": "5280/21503", "percentage": "24.55%", "elapsed_time": "15h 15m 24s", "remaining_time": "1d 22h 52m 36s"}
{"loss": 0.79389668, "token_acc": 0.80805153, "grad_norm": 5.64034462, "learning_rate": 8.99e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096184, "epoch": 0.2457718, "global_step/max_steps": "5285/21503", "percentage": "24.58%", "elapsed_time": "15h 15m 46s", "remaining_time": "1d 22h 50m 13s"}
{"loss": 0.76182799, "token_acc": 0.81151128, "grad_norm": 5.45268345, "learning_rate": 8.99e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096235, "epoch": 0.24600432, "global_step/max_steps": "5290/21503", "percentage": "24.60%", "elapsed_time": "15h 16m 9s", "remaining_time": "1d 22h 47m 51s"}
{"loss": 0.84163551, "token_acc": 0.78990575, "grad_norm": 5.49555874, "learning_rate": 8.98e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096287, "epoch": 0.24623684, "global_step/max_steps": "5295/21503", "percentage": "24.62%", "elapsed_time": "15h 16m 31s", "remaining_time": "1d 22h 45m 30s"}
{"loss": 0.90131741, "token_acc": 0.80800991, "grad_norm": 6.56035042, "learning_rate": 8.98e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096338, "epoch": 0.24646936, "global_step/max_steps": "5300/21503", "percentage": "24.65%", "elapsed_time": "15h 16m 54s", "remaining_time": "1d 22h 43m 8s"}
{"eval_loss": 0.67000747, "eval_runtime": 288.0838, "eval_samples_per_second": 12.062, "eval_steps_per_second": 12.062, "epoch": 0.24646936, "global_step/max_steps": "5300/21503", "percentage": "24.65%", "elapsed_time": "15h 21m 42s", "remaining_time": "1d 22h 57m 49s"}
{"loss": 0.74960289, "token_acc": 0.80836377, "grad_norm": 6.27248335, "learning_rate": 8.98e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095886, "epoch": 0.24670187, "global_step/max_steps": "5305/21503", "percentage": "24.67%", "elapsed_time": "15h 22m 5s", "remaining_time": "1d 22h 55m 28s"}
{"loss": 0.7409276, "token_acc": 0.82548136, "grad_norm": 4.50088024, "learning_rate": 8.98e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095937, "epoch": 0.24693439, "global_step/max_steps": "5310/21503", "percentage": "24.69%", "elapsed_time": "15h 22m 28s", "remaining_time": "1d 22h 53m 6s"}
{"loss": 0.83863115, "token_acc": 0.77974599, "grad_norm": 6.14128542, "learning_rate": 8.97e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095988, "epoch": 0.24716691, "global_step/max_steps": "5315/21503", "percentage": "24.72%", "elapsed_time": "15h 22m 51s", "remaining_time": "1d 22h 50m 44s"}
{"loss": 0.67760549, "token_acc": 0.83595113, "grad_norm": 5.96240664, "learning_rate": 8.97e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.09604, "epoch": 0.24739943, "global_step/max_steps": "5320/21503", "percentage": "24.74%", "elapsed_time": "15h 23m 13s", "remaining_time": "1d 22h 48m 21s"}
{"loss": 0.79597492, "token_acc": 0.79783663, "grad_norm": 6.16269493, "learning_rate": 8.97e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096091, "epoch": 0.24763195, "global_step/max_steps": "5325/21503", "percentage": "24.76%", "elapsed_time": "15h 23m 36s", "remaining_time": "1d 22h 46m 0s"}
{"loss": 0.71330762, "token_acc": 0.82281791, "grad_norm": 6.72253895, "learning_rate": 8.97e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096139, "epoch": 0.24786447, "global_step/max_steps": "5330/21503", "percentage": "24.79%", "elapsed_time": "15h 24m 0s", "remaining_time": "1d 22h 43m 43s"}
{"loss": 0.73599253, "token_acc": 0.82134293, "grad_norm": 5.97322607, "learning_rate": 8.97e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096191, "epoch": 0.24809698, "global_step/max_steps": "5335/21503", "percentage": "24.81%", "elapsed_time": "15h 24m 22s", "remaining_time": "1d 22h 41m 22s"}
{"loss": 0.71445417, "token_acc": 0.8213628, "grad_norm": 7.10903883, "learning_rate": 8.96e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096241, "epoch": 0.2483295, "global_step/max_steps": "5340/21503", "percentage": "24.83%", "elapsed_time": "15h 24m 45s", "remaining_time": "1d 22h 39m 2s"}
{"loss": 0.74733815, "token_acc": 0.81278714, "grad_norm": 5.05635738, "learning_rate": 8.96e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096292, "epoch": 0.24856202, "global_step/max_steps": "5345/21503", "percentage": "24.86%", "elapsed_time": "15h 25m 8s", "remaining_time": "1d 22h 36m 42s"}
{"loss": 0.79072385, "token_acc": 0.80739707, "grad_norm": 6.35071564, "learning_rate": 8.96e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096342, "epoch": 0.24879454, "global_step/max_steps": "5350/21503", "percentage": "24.88%", "elapsed_time": "15h 25m 31s", "remaining_time": "1d 22h 34m 22s"}
{"eval_loss": 0.66893274, "eval_runtime": 290.5795, "eval_samples_per_second": 11.959, "eval_steps_per_second": 11.959, "epoch": 0.24879454, "global_step/max_steps": "5350/21503", "percentage": "24.88%", "elapsed_time": "15h 30m 21s", "remaining_time": "1d 22h 48m 59s"}
{"loss": 0.73767071, "token_acc": 0.80856162, "grad_norm": 5.9941535, "learning_rate": 8.96e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095891, "epoch": 0.24902706, "global_step/max_steps": "5355/21503", "percentage": "24.90%", "elapsed_time": "15h 30m 44s", "remaining_time": "1d 22h 46m 38s"}
{"loss": 0.85497942, "token_acc": 0.79676259, "grad_norm": 5.56689835, "learning_rate": 8.95e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095942, "epoch": 0.24925957, "global_step/max_steps": "5360/21503", "percentage": "24.93%", "elapsed_time": "15h 31m 6s", "remaining_time": "1d 22h 44m 17s"}
{"loss": 0.7167798, "token_acc": 0.81031866, "grad_norm": 5.00067472, "learning_rate": 8.95e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095992, "epoch": 0.24949209, "global_step/max_steps": "5365/21503", "percentage": "24.95%", "elapsed_time": "15h 31m 29s", "remaining_time": "1d 22h 41m 57s"}
{"loss": 0.90330982, "token_acc": 0.76841805, "grad_norm": 7.17212439, "learning_rate": 8.95e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096042, "epoch": 0.24972461, "global_step/max_steps": "5370/21503", "percentage": "24.97%", "elapsed_time": "15h 31m 53s", "remaining_time": "1d 22h 39m 38s"}
{"loss": 0.8636405, "token_acc": 0.80453258, "grad_norm": 6.10495949, "learning_rate": 8.95e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096091, "epoch": 0.24995713, "global_step/max_steps": "5375/21503", "percentage": "25.00%", "elapsed_time": "15h 32m 16s", "remaining_time": "1d 22h 37m 20s"}
{"loss": 0.5826746, "token_acc": 0.86521936, "grad_norm": 5.24512339, "learning_rate": 8.94e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096141, "epoch": 0.25018965, "global_step/max_steps": "5380/21503", "percentage": "25.02%", "elapsed_time": "15h 32m 39s", "remaining_time": "1d 22h 35m 0s"}
{"loss": 0.7276783, "token_acc": 0.82815497, "grad_norm": 6.00329828, "learning_rate": 8.94e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096193, "epoch": 0.25042217, "global_step/max_steps": "5385/21503", "percentage": "25.04%", "elapsed_time": "15h 33m 1s", "remaining_time": "1d 22h 32m 38s"}
{"loss": 0.74851627, "token_acc": 0.80454413, "grad_norm": 5.02506876, "learning_rate": 8.94e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096243, "epoch": 0.25065468, "global_step/max_steps": "5390/21503", "percentage": "25.07%", "elapsed_time": "15h 33m 23s", "remaining_time": "1d 22h 30m 18s"}
{"loss": 0.83057852, "token_acc": 0.78785047, "grad_norm": 6.47160864, "learning_rate": 8.94e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096294, "epoch": 0.2508872, "global_step/max_steps": "5395/21503", "percentage": "25.09%", "elapsed_time": "15h 33m 45s", "remaining_time": "1d 22h 27m 57s"}
{"loss": 0.80019407, "token_acc": 0.80888714, "grad_norm": 7.496315, "learning_rate": 8.93e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096344, "epoch": 0.25111972, "global_step/max_steps": "5400/21503", "percentage": "25.11%", "elapsed_time": "15h 34m 8s", "remaining_time": "1d 22h 25m 39s"}
{"eval_loss": 0.66975158, "eval_runtime": 291.0629, "eval_samples_per_second": 11.939, "eval_steps_per_second": 11.939, "epoch": 0.25111972, "global_step/max_steps": "5400/21503", "percentage": "25.11%", "elapsed_time": "15h 38m 59s", "remaining_time": "1d 22h 40m 7s"}
{"loss": 0.76559343, "token_acc": 0.80853446, "grad_norm": 6.35477257, "learning_rate": 8.93e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095895, "epoch": 0.25135224, "global_step/max_steps": "5405/21503", "percentage": "25.14%", "elapsed_time": "15h 39m 23s", "remaining_time": "1d 22h 37m 50s"}
{"loss": 0.74768567, "token_acc": 0.83138075, "grad_norm": 7.05471706, "learning_rate": 8.93e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095945, "epoch": 0.25158476, "global_step/max_steps": "5410/21503", "percentage": "25.16%", "elapsed_time": "15h 39m 46s", "remaining_time": "1d 22h 35m 30s"}
{"loss": 0.74004316, "token_acc": 0.82494316, "grad_norm": 5.24367857, "learning_rate": 8.93e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095994, "epoch": 0.25181728, "global_step/max_steps": "5415/21503", "percentage": "25.18%", "elapsed_time": "15h 40m 9s", "remaining_time": "1d 22h 33m 12s"}
{"loss": 0.68289037, "token_acc": 0.83295282, "grad_norm": 7.67343998, "learning_rate": 8.93e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096045, "epoch": 0.25204979, "global_step/max_steps": "5420/21503", "percentage": "25.21%", "elapsed_time": "15h 40m 31s", "remaining_time": "1d 22h 30m 52s"}
{"loss": 0.71827612, "token_acc": 0.81711097, "grad_norm": 5.73429823, "learning_rate": 8.92e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096095, "epoch": 0.25228231, "global_step/max_steps": "5425/21503", "percentage": "25.23%", "elapsed_time": "15h 40m 54s", "remaining_time": "1d 22h 28m 32s"}
{"loss": 0.72139678, "token_acc": 0.81488698, "grad_norm": 6.60412216, "learning_rate": 8.92e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096146, "epoch": 0.25251483, "global_step/max_steps": "5430/21503", "percentage": "25.25%", "elapsed_time": "15h 41m 16s", "remaining_time": "1d 22h 26m 12s"}
{"loss": 0.78096423, "token_acc": 0.79742325, "grad_norm": 5.71009445, "learning_rate": 8.92e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096195, "epoch": 0.25274735, "global_step/max_steps": "5435/21503", "percentage": "25.28%", "elapsed_time": "15h 41m 39s", "remaining_time": "1d 22h 23m 55s"}
{"loss": 0.94487991, "token_acc": 0.7778574, "grad_norm": 6.22702122, "learning_rate": 8.92e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096245, "epoch": 0.25297987, "global_step/max_steps": "5440/21503", "percentage": "25.30%", "elapsed_time": "15h 42m 2s", "remaining_time": "1d 22h 21m 36s"}
{"loss": 0.77750983, "token_acc": 0.80857053, "grad_norm": 6.42799664, "learning_rate": 8.91e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096293, "epoch": 0.25321239, "global_step/max_steps": "5445/21503", "percentage": "25.32%", "elapsed_time": "15h 42m 25s", "remaining_time": "1d 22h 19m 20s"}
{"loss": 0.73161216, "token_acc": 0.82000647, "grad_norm": 5.98455334, "learning_rate": 8.91e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096344, "epoch": 0.2534449, "global_step/max_steps": "5450/21503", "percentage": "25.35%", "elapsed_time": "15h 42m 47s", "remaining_time": "1d 22h 17m 1s"}
{"eval_loss": 0.66864365, "eval_runtime": 291.087, "eval_samples_per_second": 11.938, "eval_steps_per_second": 11.938, "epoch": 0.2534449, "global_step/max_steps": "5450/21503", "percentage": "25.35%", "elapsed_time": "15h 47m 39s", "remaining_time": "1d 22h 31m 18s"}
{"loss": 0.71867905, "token_acc": 0.80944667, "grad_norm": 5.35402441, "learning_rate": 8.91e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.0959, "epoch": 0.25367742, "global_step/max_steps": "5455/21503", "percentage": "25.37%", "elapsed_time": "15h 48m 1s", "remaining_time": "1d 22h 29m 0s"}
{"loss": 0.91017103, "token_acc": 0.77339136, "grad_norm": 7.33217859, "learning_rate": 8.91e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.09595, "epoch": 0.25390994, "global_step/max_steps": "5460/21503", "percentage": "25.39%", "elapsed_time": "15h 48m 24s", "remaining_time": "1d 22h 26m 40s"}
{"loss": 0.72927814, "token_acc": 0.81572948, "grad_norm": 5.7648859, "learning_rate": 8.9e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095999, "epoch": 0.25414246, "global_step/max_steps": "5465/21503", "percentage": "25.42%", "elapsed_time": "15h 48m 47s", "remaining_time": "1d 22h 24m 22s"}
{"loss": 0.78061571, "token_acc": 0.79443773, "grad_norm": 5.9201746, "learning_rate": 8.9e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096048, "epoch": 0.25437498, "global_step/max_steps": "5470/21503", "percentage": "25.44%", "elapsed_time": "15h 49m 10s", "remaining_time": "1d 22h 22m 6s"}
{"loss": 0.76530733, "token_acc": 0.82013889, "grad_norm": 6.42011261, "learning_rate": 8.9e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096097, "epoch": 0.25460749, "global_step/max_steps": "5475/21503", "percentage": "25.46%", "elapsed_time": "15h 49m 33s", "remaining_time": "1d 22h 19m 48s"}
{"loss": 0.94470587, "token_acc": 0.77417435, "grad_norm": 6.05807209, "learning_rate": 8.9e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096147, "epoch": 0.25484001, "global_step/max_steps": "5480/21503", "percentage": "25.48%", "elapsed_time": "15h 49m 55s", "remaining_time": "1d 22h 17m 30s"}
{"loss": 0.78663559, "token_acc": 0.80787349, "grad_norm": 6.22365856, "learning_rate": 8.89e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096195, "epoch": 0.25507253, "global_step/max_steps": "5485/21503", "percentage": "25.51%", "elapsed_time": "15h 50m 19s", "remaining_time": "1d 22h 15m 15s"}
{"loss": 0.77891617, "token_acc": 0.81068447, "grad_norm": 4.4563241, "learning_rate": 8.89e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096244, "epoch": 0.25530505, "global_step/max_steps": "5490/21503", "percentage": "25.53%", "elapsed_time": "15h 50m 42s", "remaining_time": "1d 22h 12m 58s"}
{"loss": 0.83636484, "token_acc": 0.80368098, "grad_norm": 6.56061602, "learning_rate": 8.89e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096292, "epoch": 0.25553757, "global_step/max_steps": "5495/21503", "percentage": "25.55%", "elapsed_time": "15h 51m 5s", "remaining_time": "1d 22h 10m 42s"}
{"loss": 0.80338316, "token_acc": 0.80715812, "grad_norm": 5.64196444, "learning_rate": 8.89e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096341, "epoch": 0.25577009, "global_step/max_steps": "5500/21503", "percentage": "25.58%", "elapsed_time": "15h 51m 28s", "remaining_time": "1d 22h 8m 27s"}
{"eval_loss": 0.66695422, "eval_runtime": 290.9922, "eval_samples_per_second": 11.942, "eval_steps_per_second": 11.942, "epoch": 0.25577009, "global_step/max_steps": "5500/21503", "percentage": "25.58%", "elapsed_time": "15h 56m 19s", "remaining_time": "1d 22h 22m 33s"}
{"loss": 0.87163315, "token_acc": 0.8083292, "grad_norm": 5.63840055, "learning_rate": 8.88e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095901, "epoch": 0.2560026, "global_step/max_steps": "5505/21503", "percentage": "25.60%", "elapsed_time": "15h 56m 42s", "remaining_time": "1d 22h 20m 17s"}
{"loss": 0.68293886, "token_acc": 0.83825098, "grad_norm": 6.01819897, "learning_rate": 8.88e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095951, "epoch": 0.25623512, "global_step/max_steps": "5510/21503", "percentage": "25.62%", "elapsed_time": "15h 57m 4s", "remaining_time": "1d 22h 17m 58s"}
{"loss": 0.73251495, "token_acc": 0.81889764, "grad_norm": 6.09623575, "learning_rate": 8.88e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095999, "epoch": 0.25646764, "global_step/max_steps": "5515/21503", "percentage": "25.65%", "elapsed_time": "15h 57m 28s", "remaining_time": "1d 22h 15m 43s"}
{"loss": 0.7665041, "token_acc": 0.82975871, "grad_norm": 7.17632341, "learning_rate": 8.88e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096048, "epoch": 0.25670016, "global_step/max_steps": "5520/21503", "percentage": "25.67%", "elapsed_time": "15h 57m 51s", "remaining_time": "1d 22h 13m 26s"}
{"loss": 0.78062615, "token_acc": 0.81650641, "grad_norm": 7.30920124, "learning_rate": 8.87e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096097, "epoch": 0.25693268, "global_step/max_steps": "5525/21503", "percentage": "25.69%", "elapsed_time": "15h 58m 13s", "remaining_time": "1d 22h 11m 8s"}
{"loss": 0.78379712, "token_acc": 0.80482456, "grad_norm": 6.09422255, "learning_rate": 8.87e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096145, "epoch": 0.2571652, "global_step/max_steps": "5530/21503", "percentage": "25.72%", "elapsed_time": "15h 58m 37s", "remaining_time": "1d 22h 8m 53s"}
{"loss": 0.91988792, "token_acc": 0.76465284, "grad_norm": 5.34655285, "learning_rate": 8.87e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096193, "epoch": 0.25739771, "global_step/max_steps": "5535/21503", "percentage": "25.74%", "elapsed_time": "15h 59m 0s", "remaining_time": "1d 22h 6m 38s"}
{"loss": 0.61444955, "token_acc": 0.8432232, "grad_norm": 5.81320238, "learning_rate": 8.87e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096241, "epoch": 0.25763023, "global_step/max_steps": "5540/21503", "percentage": "25.76%", "elapsed_time": "15h 59m 23s", "remaining_time": "1d 22h 4m 24s"}
{"loss": 0.7319612, "token_acc": 0.82090117, "grad_norm": 5.42362833, "learning_rate": 8.86e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096288, "epoch": 0.25786275, "global_step/max_steps": "5545/21503", "percentage": "25.79%", "elapsed_time": "15h 59m 47s", "remaining_time": "1d 22h 2m 11s"}
{"loss": 0.79264874, "token_acc": 0.80257086, "grad_norm": 6.21362591, "learning_rate": 8.86e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096337, "epoch": 0.25809527, "global_step/max_steps": "5550/21503", "percentage": "25.81%", "elapsed_time": "16h 0m 9s", "remaining_time": "1d 21h 59m 55s"}
{"eval_loss": 0.66579586, "eval_runtime": 290.1857, "eval_samples_per_second": 11.975, "eval_steps_per_second": 11.975, "epoch": 0.25809527, "global_step/max_steps": "5550/21503", "percentage": "25.81%", "elapsed_time": "16h 5m 0s", "remaining_time": "1d 22h 13m 49s"}
{"loss": 0.914118, "token_acc": 0.80796694, "grad_norm": 6.2622261, "learning_rate": 8.86e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095901, "epoch": 0.25832779, "global_step/max_steps": "5555/21503", "percentage": "25.83%", "elapsed_time": "16h 5m 23s", "remaining_time": "1d 22h 11m 35s"}
{"loss": 0.79990711, "token_acc": 0.80733945, "grad_norm": 8.02534103, "learning_rate": 8.86e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.09595, "epoch": 0.25856031, "global_step/max_steps": "5560/21503", "percentage": "25.86%", "elapsed_time": "16h 5m 46s", "remaining_time": "1d 22h 9m 18s"}
{"loss": 0.9118124, "token_acc": 0.79285262, "grad_norm": 5.49208212, "learning_rate": 8.85e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095997, "epoch": 0.25879282, "global_step/max_steps": "5565/21503", "percentage": "25.88%", "elapsed_time": "16h 6m 10s", "remaining_time": "1d 22h 7m 4s"}
{"loss": 0.81775331, "token_acc": 0.81425041, "grad_norm": 5.74502468, "learning_rate": 8.85e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096046, "epoch": 0.25902534, "global_step/max_steps": "5570/21503", "percentage": "25.90%", "elapsed_time": "16h 6m 32s", "remaining_time": "1d 22h 4m 48s"}
{"loss": 0.85306969, "token_acc": 0.79545455, "grad_norm": 4.65048838, "learning_rate": 8.85e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096095, "epoch": 0.25925786, "global_step/max_steps": "5575/21503", "percentage": "25.93%", "elapsed_time": "16h 6m 55s", "remaining_time": "1d 22h 2m 32s"}
{"loss": 0.77558098, "token_acc": 0.79718805, "grad_norm": 7.3731823, "learning_rate": 8.85e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096143, "epoch": 0.25949038, "global_step/max_steps": "5580/21503", "percentage": "25.95%", "elapsed_time": "16h 7m 18s", "remaining_time": "1d 22h 0m 18s"}
{"loss": 0.73288503, "token_acc": 0.82085661, "grad_norm": 6.99298, "learning_rate": 8.85e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096191, "epoch": 0.2597229, "global_step/max_steps": "5585/21503", "percentage": "25.97%", "elapsed_time": "16h 7m 41s", "remaining_time": "1d 21h 58m 1s"}
{"loss": 0.69749794, "token_acc": 0.81878945, "grad_norm": 4.8523798, "learning_rate": 8.84e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.09624, "epoch": 0.25995541, "global_step/max_steps": "5590/21503", "percentage": "26.00%", "elapsed_time": "16h 8m 3s", "remaining_time": "1d 21h 55m 45s"}
{"loss": 0.81555891, "token_acc": 0.8056239, "grad_norm": 6.67946482, "learning_rate": 8.84e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096289, "epoch": 0.26018793, "global_step/max_steps": "5595/21503", "percentage": "26.02%", "elapsed_time": "16h 8m 26s", "remaining_time": "1d 21h 53m 30s"}
{"loss": 0.94364395, "token_acc": 0.78173891, "grad_norm": 5.63794374, "learning_rate": 8.84e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096337, "epoch": 0.26042045, "global_step/max_steps": "5600/21503", "percentage": "26.04%", "elapsed_time": "16h 8m 48s", "remaining_time": "1d 21h 51m 15s"}
{"eval_loss": 0.67080337, "eval_runtime": 291.4602, "eval_samples_per_second": 11.923, "eval_steps_per_second": 11.923, "epoch": 0.26042045, "global_step/max_steps": "5600/21503", "percentage": "26.04%", "elapsed_time": "16h 13m 40s", "remaining_time": "1d 22h 5m 3s"}
{"loss": 0.68764939, "token_acc": 0.80923886, "grad_norm": 6.94459963, "learning_rate": 8.84e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095904, "epoch": 0.26065297, "global_step/max_steps": "5605/21503", "percentage": "26.07%", "elapsed_time": "16h 14m 3s", "remaining_time": "1d 22h 2m 48s"}
{"loss": 0.80546322, "token_acc": 0.80579601, "grad_norm": 6.31615019, "learning_rate": 8.83e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095953, "epoch": 0.26088549, "global_step/max_steps": "5610/21503", "percentage": "26.09%", "elapsed_time": "16h 14m 25s", "remaining_time": "1d 22h 0m 31s"}
{"loss": 0.78402367, "token_acc": 0.80761719, "grad_norm": 6.60881758, "learning_rate": 8.83e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096, "epoch": 0.26111801, "global_step/max_steps": "5615/21503", "percentage": "26.11%", "elapsed_time": "16h 14m 49s", "remaining_time": "1d 21h 58m 18s"}
{"loss": 0.73534298, "token_acc": 0.82564679, "grad_norm": 5.05563974, "learning_rate": 8.83e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096049, "epoch": 0.26135052, "global_step/max_steps": "5620/21503", "percentage": "26.14%", "elapsed_time": "16h 15m 11s", "remaining_time": "1d 21h 56m 3s"}
{"loss": 0.77953849, "token_acc": 0.81533233, "grad_norm": 6.47621346, "learning_rate": 8.83e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096097, "epoch": 0.26158304, "global_step/max_steps": "5625/21503", "percentage": "26.16%", "elapsed_time": "16h 15m 34s", "remaining_time": "1d 21h 53m 47s"}
{"loss": 0.87958517, "token_acc": 0.77753578, "grad_norm": 5.23321581, "learning_rate": 8.82e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096145, "epoch": 0.26181556, "global_step/max_steps": "5630/21503", "percentage": "26.18%", "elapsed_time": "16h 15m 57s", "remaining_time": "1d 21h 51m 33s"}
{"loss": 0.76810455, "token_acc": 0.82120838, "grad_norm": 5.79195929, "learning_rate": 8.82e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096193, "epoch": 0.26204808, "global_step/max_steps": "5635/21503", "percentage": "26.21%", "elapsed_time": "16h 16m 19s", "remaining_time": "1d 21h 49m 18s"}
{"loss": 0.83523636, "token_acc": 0.81091212, "grad_norm": 7.50899696, "learning_rate": 8.82e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096241, "epoch": 0.2622806, "global_step/max_steps": "5640/21503", "percentage": "26.23%", "elapsed_time": "16h 16m 42s", "remaining_time": "1d 21h 47m 4s"}
{"loss": 0.79004793, "token_acc": 0.81330547, "grad_norm": 5.6559906, "learning_rate": 8.82e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.09629, "epoch": 0.26251312, "global_step/max_steps": "5645/21503", "percentage": "26.25%", "elapsed_time": "16h 17m 5s", "remaining_time": "1d 21h 44m 50s"}
{"loss": 0.71465425, "token_acc": 0.83339463, "grad_norm": 6.98207045, "learning_rate": 8.81e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096338, "epoch": 0.26274563, "global_step/max_steps": "5650/21503", "percentage": "26.28%", "elapsed_time": "16h 17m 27s", "remaining_time": "1d 21h 42m 35s"}
{"eval_loss": 0.6662178, "eval_runtime": 295.0199, "eval_samples_per_second": 11.779, "eval_steps_per_second": 11.779, "epoch": 0.26274563, "global_step/max_steps": "5650/21503", "percentage": "26.28%", "elapsed_time": "16h 22m 22s", "remaining_time": "1d 21h 56m 23s"}
{"loss": 0.74568124, "token_acc": 0.80987424, "grad_norm": 6.79498816, "learning_rate": 8.81e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095903, "epoch": 0.26297815, "global_step/max_steps": "5655/21503", "percentage": "26.30%", "elapsed_time": "16h 22m 45s", "remaining_time": "1d 21h 54m 10s"}
{"loss": 0.88272705, "token_acc": 0.79807692, "grad_norm": 4.71183681, "learning_rate": 8.81e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095949, "epoch": 0.26321067, "global_step/max_steps": "5660/21503", "percentage": "26.32%", "elapsed_time": "16h 23m 9s", "remaining_time": "1d 21h 51m 57s"}
{"loss": 0.74685097, "token_acc": 0.81654135, "grad_norm": 6.48643446, "learning_rate": 8.81e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095996, "epoch": 0.26344319, "global_step/max_steps": "5665/21503", "percentage": "26.35%", "elapsed_time": "16h 23m 32s", "remaining_time": "1d 21h 49m 44s"}
{"loss": 0.70292106, "token_acc": 0.83494832, "grad_norm": 5.89028692, "learning_rate": 8.8e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096044, "epoch": 0.26367571, "global_step/max_steps": "5670/21503", "percentage": "26.37%", "elapsed_time": "16h 23m 55s", "remaining_time": "1d 21h 47m 30s"}
{"loss": 0.84803753, "token_acc": 0.79576588, "grad_norm": 5.92519426, "learning_rate": 8.8e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096092, "epoch": 0.26390823, "global_step/max_steps": "5675/21503", "percentage": "26.39%", "elapsed_time": "16h 24m 17s", "remaining_time": "1d 21h 45m 16s"}
{"loss": 0.78352294, "token_acc": 0.82505643, "grad_norm": 5.2145524, "learning_rate": 8.8e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096138, "epoch": 0.26414074, "global_step/max_steps": "5680/21503", "percentage": "26.41%", "elapsed_time": "16h 24m 41s", "remaining_time": "1d 21h 43m 4s"}
{"loss": 0.69900293, "token_acc": 0.81728, "grad_norm": 4.56242895, "learning_rate": 8.8e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096185, "epoch": 0.26437326, "global_step/max_steps": "5685/21503", "percentage": "26.44%", "elapsed_time": "16h 25m 4s", "remaining_time": "1d 21h 40m 52s"}
{"loss": 0.67511854, "token_acc": 0.82596209, "grad_norm": 4.07177591, "learning_rate": 8.79e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096232, "epoch": 0.26460578, "global_step/max_steps": "5690/21503", "percentage": "26.46%", "elapsed_time": "16h 25m 27s", "remaining_time": "1d 21h 38m 40s"}
{"loss": 0.61219277, "token_acc": 0.84557823, "grad_norm": 5.29068899, "learning_rate": 8.79e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.09628, "epoch": 0.2648383, "global_step/max_steps": "5695/21503", "percentage": "26.48%", "elapsed_time": "16h 25m 50s", "remaining_time": "1d 21h 36m 27s"}
{"loss": 0.73918719, "token_acc": 0.81418783, "grad_norm": 7.04170275, "learning_rate": 8.79e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096327, "epoch": 0.26507082, "global_step/max_steps": "5700/21503", "percentage": "26.51%", "elapsed_time": "16h 26m 12s", "remaining_time": "1d 21h 34m 14s"}
{"eval_loss": 0.66623229, "eval_runtime": 292.6362, "eval_samples_per_second": 11.875, "eval_steps_per_second": 11.875, "epoch": 0.26507082, "global_step/max_steps": "5700/21503", "percentage": "26.51%", "elapsed_time": "16h 31m 5s", "remaining_time": "1d 21h 47m 45s"}
{"loss": 0.70583034, "token_acc": 0.81052951, "grad_norm": 6.96970367, "learning_rate": 8.79e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095901, "epoch": 0.26530333, "global_step/max_steps": "5705/21503", "percentage": "26.53%", "elapsed_time": "16h 31m 28s", "remaining_time": "1d 21h 45m 32s"}
{"loss": 0.77684741, "token_acc": 0.80847076, "grad_norm": 6.89228439, "learning_rate": 8.78e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095949, "epoch": 0.26553585, "global_step/max_steps": "5710/21503", "percentage": "26.55%", "elapsed_time": "16h 31m 50s", "remaining_time": "1d 21h 43m 16s"}
{"loss": 0.76309285, "token_acc": 0.81070679, "grad_norm": 5.74612713, "learning_rate": 8.78e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095997, "epoch": 0.26576837, "global_step/max_steps": "5715/21503", "percentage": "26.58%", "elapsed_time": "16h 32m 12s", "remaining_time": "1d 21h 41m 2s"}
{"loss": 0.79201274, "token_acc": 0.80553584, "grad_norm": 5.71622276, "learning_rate": 8.78e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096044, "epoch": 0.26600089, "global_step/max_steps": "5720/21503", "percentage": "26.60%", "elapsed_time": "16h 32m 35s", "remaining_time": "1d 21h 38m 50s"}
{"loss": 0.64639525, "token_acc": 0.83773319, "grad_norm": 6.53760433, "learning_rate": 8.78e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096092, "epoch": 0.26623341, "global_step/max_steps": "5725/21503", "percentage": "26.62%", "elapsed_time": "16h 32m 58s", "remaining_time": "1d 21h 36m 36s"}
{"loss": 0.70791225, "token_acc": 0.81351841, "grad_norm": 5.38124514, "learning_rate": 8.77e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096139, "epoch": 0.26646593, "global_step/max_steps": "5730/21503", "percentage": "26.65%", "elapsed_time": "16h 33m 20s", "remaining_time": "1d 21h 34m 23s"}
{"loss": 0.76383638, "token_acc": 0.81225826, "grad_norm": 4.3389883, "learning_rate": 8.77e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096185, "epoch": 0.26669844, "global_step/max_steps": "5735/21503", "percentage": "26.67%", "elapsed_time": "16h 33m 44s", "remaining_time": "1d 21h 32m 13s"}
{"loss": 0.78450723, "token_acc": 0.82546201, "grad_norm": 5.95316744, "learning_rate": 8.77e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096232, "epoch": 0.26693096, "global_step/max_steps": "5740/21503", "percentage": "26.69%", "elapsed_time": "16h 34m 7s", "remaining_time": "1d 21h 30m 1s"}
{"loss": 0.77753119, "token_acc": 0.81545386, "grad_norm": 5.00381565, "learning_rate": 8.77e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.09628, "epoch": 0.26716348, "global_step/max_steps": "5745/21503", "percentage": "26.72%", "elapsed_time": "16h 34m 29s", "remaining_time": "1d 21h 27m 48s"}
{"loss": 0.70877743, "token_acc": 0.82370261, "grad_norm": 7.77598953, "learning_rate": 8.76e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096326, "epoch": 0.267396, "global_step/max_steps": "5750/21503", "percentage": "26.74%", "elapsed_time": "16h 34m 52s", "remaining_time": "1d 21h 25m 37s"}
{"eval_loss": 0.66302228, "eval_runtime": 294.8049, "eval_samples_per_second": 11.787, "eval_steps_per_second": 11.787, "epoch": 0.267396, "global_step/max_steps": "5750/21503", "percentage": "26.74%", "elapsed_time": "16h 39m 47s", "remaining_time": "1d 21h 39m 5s"}
{"loss": 0.75957093, "token_acc": 0.81001971, "grad_norm": 5.74371004, "learning_rate": 8.76e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095898, "epoch": 0.26762852, "global_step/max_steps": "5755/21503", "percentage": "26.76%", "elapsed_time": "16h 40m 11s", "remaining_time": "1d 21h 36m 56s"}
{"loss": 0.67879725, "token_acc": 0.82215165, "grad_norm": 6.30626154, "learning_rate": 8.76e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095944, "epoch": 0.26786104, "global_step/max_steps": "5760/21503", "percentage": "26.79%", "elapsed_time": "16h 40m 34s", "remaining_time": "1d 21h 34m 44s"}
{"loss": 0.92545834, "token_acc": 0.78016425, "grad_norm": 9.69272995, "learning_rate": 8.76e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095991, "epoch": 0.26809355, "global_step/max_steps": "5765/21503", "percentage": "26.81%", "elapsed_time": "16h 40m 57s", "remaining_time": "1d 21h 32m 32s"}
{"loss": 0.84000902, "token_acc": 0.78881778, "grad_norm": 7.09908628, "learning_rate": 8.75e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096038, "epoch": 0.26832607, "global_step/max_steps": "5770/21503", "percentage": "26.83%", "elapsed_time": "16h 41m 20s", "remaining_time": "1d 21h 30m 20s"}
{"loss": 0.64791245, "token_acc": 0.84323893, "grad_norm": 5.77780056, "learning_rate": 8.75e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096085, "epoch": 0.26855859, "global_step/max_steps": "5775/21503", "percentage": "26.86%", "elapsed_time": "16h 41m 43s", "remaining_time": "1d 21h 28m 8s"}
{"loss": 0.84823694, "token_acc": 0.79889426, "grad_norm": 6.41575909, "learning_rate": 8.75e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.09613, "epoch": 0.26879111, "global_step/max_steps": "5780/21503", "percentage": "26.88%", "elapsed_time": "16h 42m 6s", "remaining_time": "1d 21h 25m 58s"}
{"loss": 0.72103477, "token_acc": 0.8194831, "grad_norm": 6.4945178, "learning_rate": 8.75e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096177, "epoch": 0.26902363, "global_step/max_steps": "5785/21503", "percentage": "26.90%", "elapsed_time": "16h 42m 29s", "remaining_time": "1d 21h 23m 47s"}
{"loss": 0.80332069, "token_acc": 0.80050872, "grad_norm": 6.08701372, "learning_rate": 8.74e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096223, "epoch": 0.26925615, "global_step/max_steps": "5790/21503", "percentage": "26.93%", "elapsed_time": "16h 42m 52s", "remaining_time": "1d 21h 21m 37s"}
{"loss": 0.84550848, "token_acc": 0.79446779, "grad_norm": 4.54536629, "learning_rate": 8.74e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096269, "epoch": 0.26948866, "global_step/max_steps": "5795/21503", "percentage": "26.95%", "elapsed_time": "16h 43m 15s", "remaining_time": "1d 21h 19m 27s"}
{"loss": 0.73940673, "token_acc": 0.80743351, "grad_norm": 5.7110405, "learning_rate": 8.74e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096315, "epoch": 0.26972118, "global_step/max_steps": "5800/21503", "percentage": "26.97%", "elapsed_time": "16h 43m 38s", "remaining_time": "1d 21h 17m 17s"}
{"eval_loss": 0.65916747, "eval_runtime": 294.1469, "eval_samples_per_second": 11.814, "eval_steps_per_second": 11.814, "epoch": 0.26972118, "global_step/max_steps": "5800/21503", "percentage": "26.97%", "elapsed_time": "16h 48m 32s", "remaining_time": "1d 21h 30m 33s"}
{"loss": 0.78873649, "token_acc": 0.81009348, "grad_norm": 7.04903507, "learning_rate": 8.73e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095892, "epoch": 0.2699537, "global_step/max_steps": "5805/21503", "percentage": "27.00%", "elapsed_time": "16h 48m 56s", "remaining_time": "1d 21h 28m 23s"}
{"loss": 0.76982889, "token_acc": 0.81102362, "grad_norm": 5.31223345, "learning_rate": 8.73e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095937, "epoch": 0.27018622, "global_step/max_steps": "5810/21503", "percentage": "27.02%", "elapsed_time": "16h 49m 20s", "remaining_time": "1d 21h 26m 15s"}
{"loss": 0.80829945, "token_acc": 0.77952128, "grad_norm": 3.64932203, "learning_rate": 8.73e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095983, "epoch": 0.27041874, "global_step/max_steps": "5815/21503", "percentage": "27.04%", "elapsed_time": "16h 49m 43s", "remaining_time": "1d 21h 24m 4s"}
{"loss": 0.91111383, "token_acc": 0.78462496, "grad_norm": 7.03426933, "learning_rate": 8.73e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096029, "epoch": 0.27065125, "global_step/max_steps": "5820/21503", "percentage": "27.07%", "elapsed_time": "16h 50m 6s", "remaining_time": "1d 21h 21m 54s"}
{"loss": 0.73126202, "token_acc": 0.81017841, "grad_norm": 5.19538212, "learning_rate": 8.72e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096074, "epoch": 0.27088377, "global_step/max_steps": "5825/21503", "percentage": "27.09%", "elapsed_time": "16h 50m 30s", "remaining_time": "1d 21h 19m 45s"}
{"loss": 0.80773048, "token_acc": 0.80557335, "grad_norm": 5.9346962, "learning_rate": 8.72e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096119, "epoch": 0.27111629, "global_step/max_steps": "5830/21503", "percentage": "27.11%", "elapsed_time": "16h 50m 53s", "remaining_time": "1d 21h 17m 37s"}
{"loss": 0.74601383, "token_acc": 0.81467754, "grad_norm": 5.65459919, "learning_rate": 8.72e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096165, "epoch": 0.27134881, "global_step/max_steps": "5835/21503", "percentage": "27.14%", "elapsed_time": "16h 51m 16s", "remaining_time": "1d 21h 15m 27s"}
{"loss": 0.85770054, "token_acc": 0.78606615, "grad_norm": 4.11296654, "learning_rate": 8.72e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.09621, "epoch": 0.27158133, "global_step/max_steps": "5840/21503", "percentage": "27.16%", "elapsed_time": "16h 51m 40s", "remaining_time": "1d 21h 13m 18s"}
{"loss": 0.74798217, "token_acc": 0.8225539, "grad_norm": 7.27950144, "learning_rate": 8.71e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096257, "epoch": 0.27181385, "global_step/max_steps": "5845/21503", "percentage": "27.18%", "elapsed_time": "16h 52m 2s", "remaining_time": "1d 21h 11m 8s"}
{"loss": 0.75191722, "token_acc": 0.80143932, "grad_norm": 6.16112661, "learning_rate": 8.71e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096302, "epoch": 0.27204636, "global_step/max_steps": "5850/21503", "percentage": "27.21%", "elapsed_time": "16h 52m 25s", "remaining_time": "1d 21h 8m 59s"}
{"eval_loss": 0.66178256, "eval_runtime": 295.4158, "eval_samples_per_second": 11.763, "eval_steps_per_second": 11.763, "epoch": 0.27204636, "global_step/max_steps": "5850/21503", "percentage": "27.21%", "elapsed_time": "16h 57m 21s", "remaining_time": "1d 21h 22m 9s"}
{"loss": 0.72200789, "token_acc": 0.81022354, "grad_norm": 7.26051903, "learning_rate": 8.71e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095881, "epoch": 0.27227888, "global_step/max_steps": "5855/21503", "percentage": "27.23%", "elapsed_time": "16h 57m 45s", "remaining_time": "1d 21h 20m 2s"}
{"loss": 0.6432157, "token_acc": 0.84443603, "grad_norm": 6.42341757, "learning_rate": 8.71e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095927, "epoch": 0.2725114, "global_step/max_steps": "5860/21503", "percentage": "27.25%", "elapsed_time": "16h 58m 7s", "remaining_time": "1d 21h 17m 51s"}
{"loss": 0.76328645, "token_acc": 0.81842508, "grad_norm": 5.76653671, "learning_rate": 8.7e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095973, "epoch": 0.27274392, "global_step/max_steps": "5865/21503", "percentage": "27.28%", "elapsed_time": "16h 58m 30s", "remaining_time": "1d 21h 15m 40s"}
{"loss": 0.72916055, "token_acc": 0.81043724, "grad_norm": 5.20200205, "learning_rate": 8.7e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096019, "epoch": 0.27297644, "global_step/max_steps": "5870/21503", "percentage": "27.30%", "elapsed_time": "16h 58m 53s", "remaining_time": "1d 21h 13m 30s"}
{"loss": 0.84151802, "token_acc": 0.78786955, "grad_norm": 7.42254496, "learning_rate": 8.7e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096065, "epoch": 0.27320896, "global_step/max_steps": "5875/21503", "percentage": "27.32%", "elapsed_time": "16h 59m 16s", "remaining_time": "1d 21h 11m 20s"}
{"loss": 0.77621121, "token_acc": 0.80778032, "grad_norm": 4.93015671, "learning_rate": 8.7e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096111, "epoch": 0.27344147, "global_step/max_steps": "5880/21503", "percentage": "27.35%", "elapsed_time": "16h 59m 39s", "remaining_time": "1d 21h 9m 11s"}
{"loss": 0.81122179, "token_acc": 0.79949785, "grad_norm": 5.61590099, "learning_rate": 8.69e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096156, "epoch": 0.27367399, "global_step/max_steps": "5885/21503", "percentage": "27.37%", "elapsed_time": "17h 0m 2s", "remaining_time": "1d 21h 7m 2s"}
{"loss": 0.73129625, "token_acc": 0.83379283, "grad_norm": 8.41045189, "learning_rate": 8.69e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096202, "epoch": 0.27390651, "global_step/max_steps": "5890/21503", "percentage": "27.39%", "elapsed_time": "17h 0m 25s", "remaining_time": "1d 21h 4m 53s"}
{"loss": 0.79634972, "token_acc": 0.79054054, "grad_norm": 6.97584867, "learning_rate": 8.69e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096248, "epoch": 0.27413903, "global_step/max_steps": "5895/21503", "percentage": "27.41%", "elapsed_time": "17h 0m 48s", "remaining_time": "1d 21h 2m 44s"}
{"loss": 0.84569101, "token_acc": 0.79530772, "grad_norm": 7.57919216, "learning_rate": 8.69e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096293, "epoch": 0.27437155, "global_step/max_steps": "5900/21503", "percentage": "27.44%", "elapsed_time": "17h 1m 11s", "remaining_time": "1d 21h 0m 35s"}
{"eval_loss": 0.66178459, "eval_runtime": 294.0898, "eval_samples_per_second": 11.816, "eval_steps_per_second": 11.816, "epoch": 0.27437155, "global_step/max_steps": "5900/21503", "percentage": "27.44%", "elapsed_time": "17h 6m 5s", "remaining_time": "1d 21h 13m 33s"}
{"loss": 0.63748627, "token_acc": 0.8118277, "grad_norm": 5.99303007, "learning_rate": 8.68e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095879, "epoch": 0.27460407, "global_step/max_steps": "5905/21503", "percentage": "27.46%", "elapsed_time": "17h 6m 28s", "remaining_time": "1d 21h 11m 24s"}
{"loss": 0.72413411, "token_acc": 0.83260611, "grad_norm": 7.10733604, "learning_rate": 8.68e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095925, "epoch": 0.27483658, "global_step/max_steps": "5910/21503", "percentage": "27.48%", "elapsed_time": "17h 6m 50s", "remaining_time": "1d 21h 9m 13s"}
{"loss": 0.79678559, "token_acc": 0.80573026, "grad_norm": 6.27067137, "learning_rate": 8.68e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095971, "epoch": 0.2750691, "global_step/max_steps": "5915/21503", "percentage": "27.51%", "elapsed_time": "17h 7m 13s", "remaining_time": "1d 21h 7m 3s"}
{"loss": 0.73519735, "token_acc": 0.81052281, "grad_norm": 6.20803404, "learning_rate": 8.68e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096016, "epoch": 0.27530162, "global_step/max_steps": "5920/21503", "percentage": "27.53%", "elapsed_time": "17h 7m 36s", "remaining_time": "1d 21h 4m 55s"}
{"loss": 0.66118107, "token_acc": 0.83568465, "grad_norm": 5.24985456, "learning_rate": 8.67e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096062, "epoch": 0.27553414, "global_step/max_steps": "5925/21503", "percentage": "27.55%", "elapsed_time": "17h 7m 58s", "remaining_time": "1d 21h 2m 45s"}
{"loss": 0.63172469, "token_acc": 0.8427359, "grad_norm": 8.40033817, "learning_rate": 8.67e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096108, "epoch": 0.27576666, "global_step/max_steps": "5930/21503", "percentage": "27.58%", "elapsed_time": "17h 8m 20s", "remaining_time": "1d 21h 0m 35s"}
{"loss": 0.77832251, "token_acc": 0.80319756, "grad_norm": 8.13194942, "learning_rate": 8.67e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096155, "epoch": 0.27599917, "global_step/max_steps": "5935/21503", "percentage": "27.60%", "elapsed_time": "17h 8m 43s", "remaining_time": "1d 20h 58m 24s"}
{"loss": 0.72652841, "token_acc": 0.82927621, "grad_norm": 6.93224907, "learning_rate": 8.67e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096199, "epoch": 0.27623169, "global_step/max_steps": "5940/21503", "percentage": "27.62%", "elapsed_time": "17h 9m 6s", "remaining_time": "1d 20h 56m 18s"}
{"loss": 0.76124277, "token_acc": 0.80567419, "grad_norm": 8.01625633, "learning_rate": 8.66e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096244, "epoch": 0.27646421, "global_step/max_steps": "5945/21503", "percentage": "27.65%", "elapsed_time": "17h 9m 29s", "remaining_time": "1d 20h 54m 10s"}
{"loss": 0.68916435, "token_acc": 0.83152627, "grad_norm": 6.20760632, "learning_rate": 8.66e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.09629, "epoch": 0.27669673, "global_step/max_steps": "5950/21503", "percentage": "27.67%", "elapsed_time": "17h 9m 52s", "remaining_time": "1d 20h 52m 2s"}
{"eval_loss": 0.6595419, "eval_runtime": 290.2901, "eval_samples_per_second": 11.971, "eval_steps_per_second": 11.971, "epoch": 0.27669673, "global_step/max_steps": "5950/21503", "percentage": "27.67%", "elapsed_time": "17h 14m 42s", "remaining_time": "1d 21h 4m 41s"}
{"loss": 0.64282904, "token_acc": 0.81150104, "grad_norm": 5.77512693, "learning_rate": 8.66e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095884, "epoch": 0.27692925, "global_step/max_steps": "5955/21503", "percentage": "27.69%", "elapsed_time": "17h 15m 6s", "remaining_time": "1d 21h 2m 33s"}
{"loss": 0.70961275, "token_acc": 0.8188382, "grad_norm": 6.46523809, "learning_rate": 8.65e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095929, "epoch": 0.27716177, "global_step/max_steps": "5960/21503", "percentage": "27.72%", "elapsed_time": "17h 15m 28s", "remaining_time": "1d 21h 0m 25s"}
{"loss": 0.72806454, "token_acc": 0.81773585, "grad_norm": 7.70102119, "learning_rate": 8.65e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095973, "epoch": 0.27739428, "global_step/max_steps": "5965/21503", "percentage": "27.74%", "elapsed_time": "17h 15m 52s", "remaining_time": "1d 20h 58m 19s"}
{"loss": 0.68107519, "token_acc": 0.82658138, "grad_norm": 6.7422843, "learning_rate": 8.65e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096019, "epoch": 0.2776268, "global_step/max_steps": "5970/21503", "percentage": "27.76%", "elapsed_time": "17h 16m 15s", "remaining_time": "1d 20h 56m 9s"}
{"loss": 0.71152172, "token_acc": 0.82350889, "grad_norm": 7.68108559, "learning_rate": 8.65e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096064, "epoch": 0.27785932, "global_step/max_steps": "5975/21503", "percentage": "27.79%", "elapsed_time": "17h 16m 37s", "remaining_time": "1d 20h 54m 0s"}
{"loss": 0.82129726, "token_acc": 0.79218408, "grad_norm": 6.15581274, "learning_rate": 8.64e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096109, "epoch": 0.27809184, "global_step/max_steps": "5980/21503", "percentage": "27.81%", "elapsed_time": "17h 17m 0s", "remaining_time": "1d 20h 51m 53s"}
{"loss": 0.81412201, "token_acc": 0.79589087, "grad_norm": 6.85902262, "learning_rate": 8.64e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096155, "epoch": 0.27832436, "global_step/max_steps": "5985/21503", "percentage": "27.83%", "elapsed_time": "17h 17m 22s", "remaining_time": "1d 20h 49m 44s"}
{"loss": 0.70607586, "token_acc": 0.82933233, "grad_norm": 6.14598083, "learning_rate": 8.64e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096201, "epoch": 0.27855688, "global_step/max_steps": "5990/21503", "percentage": "27.86%", "elapsed_time": "17h 17m 45s", "remaining_time": "1d 20h 47m 34s"}
{"loss": 0.83171663, "token_acc": 0.78656381, "grad_norm": 4.69813108, "learning_rate": 8.64e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096246, "epoch": 0.27878939, "global_step/max_steps": "5995/21503", "percentage": "27.88%", "elapsed_time": "17h 18m 7s", "remaining_time": "1d 20h 45m 27s"}
{"loss": 0.77062626, "token_acc": 0.81170663, "grad_norm": 7.58679152, "learning_rate": 8.63e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096292, "epoch": 0.27902191, "global_step/max_steps": "6000/21503", "percentage": "27.90%", "elapsed_time": "17h 18m 30s", "remaining_time": "1d 20h 43m 19s"}
{"eval_loss": 0.66017622, "eval_runtime": 290.388, "eval_samples_per_second": 11.967, "eval_steps_per_second": 11.967, "epoch": 0.27902191, "global_step/max_steps": "6000/21503", "percentage": "27.90%", "elapsed_time": "17h 23m 20s", "remaining_time": "1d 20h 55m 49s"}
{"loss": 0.78508992, "token_acc": 0.81093378, "grad_norm": 6.39349794, "learning_rate": 8.63e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095891, "epoch": 0.27925443, "global_step/max_steps": "6005/21503", "percentage": "27.93%", "elapsed_time": "17h 23m 42s", "remaining_time": "1d 20h 53m 40s"}
{"loss": 0.73515677, "token_acc": 0.82192982, "grad_norm": 7.86951542, "learning_rate": 8.63e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095939, "epoch": 0.27948695, "global_step/max_steps": "6010/21503", "percentage": "27.95%", "elapsed_time": "17h 24m 4s", "remaining_time": "1d 20h 51m 28s"}
{"loss": 0.68474641, "token_acc": 0.82717918, "grad_norm": 6.39200926, "learning_rate": 8.63e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095985, "epoch": 0.27971947, "global_step/max_steps": "6015/21503", "percentage": "27.97%", "elapsed_time": "17h 24m 25s", "remaining_time": "1d 20h 49m 17s"}
{"loss": 0.77164712, "token_acc": 0.81475342, "grad_norm": 7.72951984, "learning_rate": 8.62e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096032, "epoch": 0.27995198, "global_step/max_steps": "6020/21503", "percentage": "28.00%", "elapsed_time": "17h 24m 46s", "remaining_time": "1d 20h 47m 6s"}
{"loss": 0.75162778, "token_acc": 0.82569526, "grad_norm": 6.67335081, "learning_rate": 8.62e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096079, "epoch": 0.2801845, "global_step/max_steps": "6025/21503", "percentage": "28.02%", "elapsed_time": "17h 25m 8s", "remaining_time": "1d 20h 44m 55s"}
{"loss": 0.70980744, "token_acc": 0.83789852, "grad_norm": 5.18595695, "learning_rate": 8.62e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096126, "epoch": 0.28041702, "global_step/max_steps": "6030/21503", "percentage": "28.04%", "elapsed_time": "17h 25m 30s", "remaining_time": "1d 20h 42m 45s"}
{"loss": 0.70269585, "token_acc": 0.8252541, "grad_norm": 6.69218874, "learning_rate": 8.61e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096171, "epoch": 0.28064954, "global_step/max_steps": "6035/21503", "percentage": "28.07%", "elapsed_time": "17h 25m 52s", "remaining_time": "1d 20h 40m 38s"}
{"loss": 0.68823295, "token_acc": 0.82411128, "grad_norm": 5.57693481, "learning_rate": 8.61e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096215, "epoch": 0.28088206, "global_step/max_steps": "6040/21503", "percentage": "28.09%", "elapsed_time": "17h 26m 15s", "remaining_time": "1d 20h 38m 31s"}
{"loss": 0.84470558, "token_acc": 0.81036912, "grad_norm": 3.92548251, "learning_rate": 8.61e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096259, "epoch": 0.28111458, "global_step/max_steps": "6045/21503", "percentage": "28.11%", "elapsed_time": "17h 26m 39s", "remaining_time": "1d 20h 36m 27s"}
{"loss": 0.82985172, "token_acc": 0.78947368, "grad_norm": 5.39412308, "learning_rate": 8.61e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096304, "epoch": 0.28134709, "global_step/max_steps": "6050/21503", "percentage": "28.14%", "elapsed_time": "17h 27m 1s", "remaining_time": "1d 20h 34m 20s"}
{"eval_loss": 0.65968335, "eval_runtime": 295.3634, "eval_samples_per_second": 11.765, "eval_steps_per_second": 11.765, "epoch": 0.28134709, "global_step/max_steps": "6050/21503", "percentage": "28.14%", "elapsed_time": "17h 31m 57s", "remaining_time": "1d 20h 46m 54s"}
{"loss": 0.61907482, "token_acc": 0.81199392, "grad_norm": 5.16915703, "learning_rate": 8.6e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095897, "epoch": 0.28157961, "global_step/max_steps": "6055/21503", "percentage": "28.16%", "elapsed_time": "17h 32m 20s", "remaining_time": "1d 20h 44m 48s"}
{"loss": 0.68043199, "token_acc": 0.83117703, "grad_norm": 5.41003609, "learning_rate": 8.6e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095943, "epoch": 0.28181213, "global_step/max_steps": "6060/21503", "percentage": "28.18%", "elapsed_time": "17h 32m 42s", "remaining_time": "1d 20h 42m 39s"}
{"loss": 0.72712669, "token_acc": 0.82041969, "grad_norm": 7.33224058, "learning_rate": 8.6e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095989, "epoch": 0.28204465, "global_step/max_steps": "6065/21503", "percentage": "28.21%", "elapsed_time": "17h 33m 4s", "remaining_time": "1d 20h 40m 30s"}
{"loss": 0.71780505, "token_acc": 0.82321236, "grad_norm": 7.15133047, "learning_rate": 8.6e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096035, "epoch": 0.28227717, "global_step/max_steps": "6070/21503", "percentage": "28.23%", "elapsed_time": "17h 33m 26s", "remaining_time": "1d 20h 38m 21s"}
{"loss": 0.71223173, "token_acc": 0.83429542, "grad_norm": 6.48547888, "learning_rate": 8.59e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.09608, "epoch": 0.28250969, "global_step/max_steps": "6075/21503", "percentage": "28.25%", "elapsed_time": "17h 33m 48s", "remaining_time": "1d 20h 36m 13s"}
{"loss": 0.59083829, "token_acc": 0.85539216, "grad_norm": 6.20895004, "learning_rate": 8.59e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096126, "epoch": 0.2827422, "global_step/max_steps": "6080/21503", "percentage": "28.28%", "elapsed_time": "17h 34m 10s", "remaining_time": "1d 20h 34m 5s"}
{"loss": 0.83967514, "token_acc": 0.80131243, "grad_norm": 9.50604916, "learning_rate": 8.59e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096172, "epoch": 0.28297472, "global_step/max_steps": "6085/21503", "percentage": "28.30%", "elapsed_time": "17h 34m 32s", "remaining_time": "1d 20h 31m 56s"}
{"loss": 0.6826901, "token_acc": 0.84408404, "grad_norm": 7.10613108, "learning_rate": 8.59e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096217, "epoch": 0.28320724, "global_step/max_steps": "6090/21503", "percentage": "28.32%", "elapsed_time": "17h 34m 54s", "remaining_time": "1d 20h 29m 48s"}
{"loss": 0.76033697, "token_acc": 0.81398924, "grad_norm": 6.96887064, "learning_rate": 8.58e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096263, "epoch": 0.28343976, "global_step/max_steps": "6095/21503", "percentage": "28.34%", "elapsed_time": "17h 35m 15s", "remaining_time": "1d 20h 27m 40s"}
{"loss": 0.68630614, "token_acc": 0.82847896, "grad_norm": 7.07369089, "learning_rate": 8.58e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096308, "epoch": 0.28367228, "global_step/max_steps": "6100/21503", "percentage": "28.37%", "elapsed_time": "17h 35m 37s", "remaining_time": "1d 20h 25m 33s"}
{"eval_loss": 0.65533036, "eval_runtime": 290.703, "eval_samples_per_second": 11.954, "eval_steps_per_second": 11.954, "epoch": 0.28367228, "global_step/max_steps": "6100/21503", "percentage": "28.37%", "elapsed_time": "17h 40m 28s", "remaining_time": "1d 20h 37m 47s"}
{"loss": 0.75209069, "token_acc": 0.81145429, "grad_norm": 4.76673794, "learning_rate": 8.58e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095912, "epoch": 0.2839048, "global_step/max_steps": "6105/21503", "percentage": "28.39%", "elapsed_time": "17h 40m 51s", "remaining_time": "1d 20h 35m 42s"}
{"loss": 0.81243277, "token_acc": 0.81428014, "grad_norm": 7.36306095, "learning_rate": 8.57e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095957, "epoch": 0.28413731, "global_step/max_steps": "6110/21503", "percentage": "28.41%", "elapsed_time": "17h 41m 14s", "remaining_time": "1d 20h 33m 35s"}
{"loss": 0.88056393, "token_acc": 0.77442949, "grad_norm": 6.35823298, "learning_rate": 8.57e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096, "epoch": 0.28436983, "global_step/max_steps": "6115/21503", "percentage": "28.44%", "elapsed_time": "17h 41m 37s", "remaining_time": "1d 20h 31m 30s"}
{"loss": 0.71661205, "token_acc": 0.82367491, "grad_norm": 6.23012972, "learning_rate": 8.57e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096044, "epoch": 0.28460235, "global_step/max_steps": "6120/21503", "percentage": "28.46%", "elapsed_time": "17h 42m 0s", "remaining_time": "1d 20h 29m 25s"}
{"loss": 0.7509882, "token_acc": 0.82051282, "grad_norm": 7.50994492, "learning_rate": 8.57e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096088, "epoch": 0.28483487, "global_step/max_steps": "6125/21503", "percentage": "28.48%", "elapsed_time": "17h 42m 23s", "remaining_time": "1d 20h 27m 20s"}
{"loss": 0.77657876, "token_acc": 0.82056534, "grad_norm": 6.93096733, "learning_rate": 8.56e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096132, "epoch": 0.28506739, "global_step/max_steps": "6130/21503", "percentage": "28.51%", "elapsed_time": "17h 42m 46s", "remaining_time": "1d 20h 25m 15s"}
{"loss": 0.76619129, "token_acc": 0.80455112, "grad_norm": 6.19677591, "learning_rate": 8.56e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096176, "epoch": 0.2852999, "global_step/max_steps": "6135/21503", "percentage": "28.53%", "elapsed_time": "17h 43m 8s", "remaining_time": "1d 20h 23m 9s"}
{"loss": 0.81166182, "token_acc": 0.80193237, "grad_norm": 5.13291788, "learning_rate": 8.56e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096221, "epoch": 0.28553242, "global_step/max_steps": "6140/21503", "percentage": "28.55%", "elapsed_time": "17h 43m 31s", "remaining_time": "1d 20h 21m 3s"}
{"loss": 0.61421776, "token_acc": 0.83937824, "grad_norm": 5.738801, "learning_rate": 8.56e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096264, "epoch": 0.28576494, "global_step/max_steps": "6145/21503", "percentage": "28.58%", "elapsed_time": "17h 43m 54s", "remaining_time": "1d 20h 19m 0s"}
{"loss": 0.6736064, "token_acc": 0.8397049, "grad_norm": 6.459723, "learning_rate": 8.55e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096307, "epoch": 0.28599746, "global_step/max_steps": "6150/21503", "percentage": "28.60%", "elapsed_time": "17h 44m 18s", "remaining_time": "1d 20h 16m 57s"}
{"eval_loss": 0.65595293, "eval_runtime": 290.8894, "eval_samples_per_second": 11.946, "eval_steps_per_second": 11.946, "epoch": 0.28599746, "global_step/max_steps": "6150/21503", "percentage": "28.60%", "elapsed_time": "17h 49m 9s", "remaining_time": "1d 20h 29m 3s"}
{"loss": 0.78004022, "token_acc": 0.81062612, "grad_norm": 8.52558327, "learning_rate": 8.55e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095913, "epoch": 0.28622998, "global_step/max_steps": "6155/21503", "percentage": "28.62%", "elapsed_time": "17h 49m 32s", "remaining_time": "1d 20h 26m 59s"}
{"loss": 0.72671161, "token_acc": 0.81893529, "grad_norm": 5.50997686, "learning_rate": 8.55e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095957, "epoch": 0.2864625, "global_step/max_steps": "6160/21503", "percentage": "28.65%", "elapsed_time": "17h 49m 55s", "remaining_time": "1d 20h 24m 54s"}
{"loss": 0.69627123, "token_acc": 0.82846861, "grad_norm": 6.86087656, "learning_rate": 8.55e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096001, "epoch": 0.28669501, "global_step/max_steps": "6165/21503", "percentage": "28.67%", "elapsed_time": "17h 50m 17s", "remaining_time": "1d 20h 22m 47s"}
{"loss": 0.72795582, "token_acc": 0.83189478, "grad_norm": 7.08520222, "learning_rate": 8.54e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096045, "epoch": 0.28692753, "global_step/max_steps": "6170/21503", "percentage": "28.69%", "elapsed_time": "17h 50m 40s", "remaining_time": "1d 20h 20m 43s"}
{"loss": 0.81855803, "token_acc": 0.80421941, "grad_norm": 7.5399456, "learning_rate": 8.54e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096088, "epoch": 0.28716005, "global_step/max_steps": "6175/21503", "percentage": "28.72%", "elapsed_time": "17h 51m 3s", "remaining_time": "1d 20h 18m 39s"}
{"loss": 0.84526329, "token_acc": 0.80448065, "grad_norm": 6.32346964, "learning_rate": 8.54e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096132, "epoch": 0.28739257, "global_step/max_steps": "6180/21503", "percentage": "28.74%", "elapsed_time": "17h 51m 26s", "remaining_time": "1d 20h 16m 35s"}
{"loss": 0.73867383, "token_acc": 0.81432263, "grad_norm": 6.69141722, "learning_rate": 8.53e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096174, "epoch": 0.28762509, "global_step/max_steps": "6185/21503", "percentage": "28.76%", "elapsed_time": "17h 51m 50s", "remaining_time": "1d 20h 14m 32s"}
{"loss": 0.69175277, "token_acc": 0.81801184, "grad_norm": 6.23321342, "learning_rate": 8.53e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096217, "epoch": 0.28785761, "global_step/max_steps": "6190/21503", "percentage": "28.79%", "elapsed_time": "17h 52m 13s", "remaining_time": "1d 20h 12m 30s"}
{"loss": 0.77408276, "token_acc": 0.80507868, "grad_norm": 5.88525629, "learning_rate": 8.53e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096261, "epoch": 0.28809012, "global_step/max_steps": "6195/21503", "percentage": "28.81%", "elapsed_time": "17h 52m 36s", "remaining_time": "1d 20h 10m 25s"}
{"loss": 0.75371547, "token_acc": 0.80309902, "grad_norm": 4.88421345, "learning_rate": 8.53e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096305, "epoch": 0.28832264, "global_step/max_steps": "6200/21503", "percentage": "28.83%", "elapsed_time": "17h 52m 58s", "remaining_time": "1d 20h 8m 21s"}
{"eval_loss": 0.65657747, "eval_runtime": 290.9454, "eval_samples_per_second": 11.944, "eval_steps_per_second": 11.944, "epoch": 0.28832264, "global_step/max_steps": "6200/21503", "percentage": "28.83%", "elapsed_time": "17h 57m 49s", "remaining_time": "1d 20h 20m 19s"}
{"loss": 0.78642497, "token_acc": 0.81069695, "grad_norm": 6.68105602, "learning_rate": 8.52e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095914, "epoch": 0.28855516, "global_step/max_steps": "6205/21503", "percentage": "28.86%", "elapsed_time": "17h 58m 12s", "remaining_time": "1d 20h 18m 15s"}
{"loss": 0.68432183, "token_acc": 0.84325109, "grad_norm": 6.16920376, "learning_rate": 8.52e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095958, "epoch": 0.28878768, "global_step/max_steps": "6210/21503", "percentage": "28.88%", "elapsed_time": "17h 58m 35s", "remaining_time": "1d 20h 16m 10s"}
{"loss": 0.72081633, "token_acc": 0.83008547, "grad_norm": 5.19123459, "learning_rate": 8.52e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096002, "epoch": 0.2890202, "global_step/max_steps": "6215/21503", "percentage": "28.90%", "elapsed_time": "17h 58m 57s", "remaining_time": "1d 20h 14m 5s"}
{"loss": 0.74549413, "token_acc": 0.81681476, "grad_norm": 6.59699631, "learning_rate": 8.52e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096045, "epoch": 0.28925272, "global_step/max_steps": "6220/21503", "percentage": "28.93%", "elapsed_time": "17h 59m 20s", "remaining_time": "1d 20h 12m 2s"}
{"loss": 0.75356641, "token_acc": 0.81838399, "grad_norm": 6.09450388, "learning_rate": 8.51e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096089, "epoch": 0.28948523, "global_step/max_steps": "6225/21503", "percentage": "28.95%", "elapsed_time": "17h 59m 43s", "remaining_time": "1d 20h 9m 57s"}
{"loss": 0.73023472, "token_acc": 0.81974394, "grad_norm": 7.54867315, "learning_rate": 8.51e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096132, "epoch": 0.28971775, "global_step/max_steps": "6230/21503", "percentage": "28.97%", "elapsed_time": "18h 0m 6s", "remaining_time": "1d 20h 7m 54s"}
{"loss": 0.75507922, "token_acc": 0.82156416, "grad_norm": 6.91691303, "learning_rate": 8.51e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096176, "epoch": 0.28995027, "global_step/max_steps": "6235/21503", "percentage": "29.00%", "elapsed_time": "18h 0m 28s", "remaining_time": "1d 20h 5m 49s"}
{"loss": 0.7644486, "token_acc": 0.81404321, "grad_norm": 8.06179714, "learning_rate": 8.5e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.09622, "epoch": 0.29018279, "global_step/max_steps": "6240/21503", "percentage": "29.02%", "elapsed_time": "18h 0m 51s", "remaining_time": "1d 20h 3m 46s"}
{"loss": 0.80451317, "token_acc": 0.79746413, "grad_norm": 6.48461723, "learning_rate": 8.5e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096263, "epoch": 0.29041531, "global_step/max_steps": "6245/21503", "percentage": "29.04%", "elapsed_time": "18h 1m 14s", "remaining_time": "1d 20h 1m 42s"}
{"loss": 0.69316363, "token_acc": 0.82046679, "grad_norm": 6.30225992, "learning_rate": 8.5e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096306, "epoch": 0.29064782, "global_step/max_steps": "6250/21503", "percentage": "29.07%", "elapsed_time": "18h 1m 36s", "remaining_time": "1d 19h 59m 39s"}
{"eval_loss": 0.65499014, "eval_runtime": 289.9607, "eval_samples_per_second": 11.984, "eval_steps_per_second": 11.984, "epoch": 0.29064782, "global_step/max_steps": "6250/21503", "percentage": "29.07%", "elapsed_time": "18h 6m 26s", "remaining_time": "1d 20h 11m 26s"}
{"loss": 0.6815444, "token_acc": 0.8120919, "grad_norm": 6.18718052, "learning_rate": 8.5e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095921, "epoch": 0.29088034, "global_step/max_steps": "6255/21503", "percentage": "29.09%", "elapsed_time": "18h 6m 49s", "remaining_time": "1d 20h 9m 23s"}
{"loss": 0.69759059, "token_acc": 0.80760836, "grad_norm": 5.39293528, "learning_rate": 8.49e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095963, "epoch": 0.29111286, "global_step/max_steps": "6260/21503", "percentage": "29.11%", "elapsed_time": "18h 7m 12s", "remaining_time": "1d 20h 7m 21s"}
{"loss": 0.75729909, "token_acc": 0.80550871, "grad_norm": 5.91305017, "learning_rate": 8.49e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096006, "epoch": 0.29134538, "global_step/max_steps": "6265/21503", "percentage": "29.14%", "elapsed_time": "18h 7m 35s", "remaining_time": "1d 20h 5m 18s"}
{"loss": 0.70774598, "token_acc": 0.83533514, "grad_norm": 7.17048359, "learning_rate": 8.49e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096049, "epoch": 0.2915779, "global_step/max_steps": "6270/21503", "percentage": "29.16%", "elapsed_time": "18h 7m 58s", "remaining_time": "1d 20h 3m 15s"}
{"loss": 0.58083243, "token_acc": 0.8642132, "grad_norm": 6.24206877, "learning_rate": 8.49e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096092, "epoch": 0.29181042, "global_step/max_steps": "6275/21503", "percentage": "29.18%", "elapsed_time": "18h 8m 21s", "remaining_time": "1d 20h 1m 12s"}
{"loss": 0.67585325, "token_acc": 0.82847896, "grad_norm": 6.82471132, "learning_rate": 8.48e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096135, "epoch": 0.29204293, "global_step/max_steps": "6280/21503", "percentage": "29.21%", "elapsed_time": "18h 8m 44s", "remaining_time": "1d 19h 59m 9s"}
{"loss": 0.72412643, "token_acc": 0.81832238, "grad_norm": 5.98783779, "learning_rate": 8.48e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096178, "epoch": 0.29227545, "global_step/max_steps": "6285/21503", "percentage": "29.23%", "elapsed_time": "18h 9m 7s", "remaining_time": "1d 19h 57m 6s"}
{"loss": 0.85271435, "token_acc": 0.79530201, "grad_norm": 7.44714737, "learning_rate": 8.48e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096222, "epoch": 0.29250797, "global_step/max_steps": "6290/21503", "percentage": "29.25%", "elapsed_time": "18h 9m 29s", "remaining_time": "1d 19h 55m 3s"}
{"loss": 0.68238053, "token_acc": 0.82691073, "grad_norm": 7.8893218, "learning_rate": 8.47e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096265, "epoch": 0.29274049, "global_step/max_steps": "6295/21503", "percentage": "29.27%", "elapsed_time": "18h 9m 52s", "remaining_time": "1d 19h 52m 59s"}
{"loss": 0.6378509, "token_acc": 0.82653791, "grad_norm": 5.67033768, "learning_rate": 8.47e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096308, "epoch": 0.29297301, "global_step/max_steps": "6300/21503", "percentage": "29.30%", "elapsed_time": "18h 10m 14s", "remaining_time": "1d 19h 50m 56s"}
{"eval_loss": 0.65507299, "eval_runtime": 290.9136, "eval_samples_per_second": 11.945, "eval_steps_per_second": 11.945, "epoch": 0.29297301, "global_step/max_steps": "6300/21503", "percentage": "29.30%", "elapsed_time": "18h 15m 5s", "remaining_time": "1d 20h 2m 38s"}
{"loss": 0.64823418, "token_acc": 0.81180959, "grad_norm": 6.65343952, "learning_rate": 8.47e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095924, "epoch": 0.29320553, "global_step/max_steps": "6305/21503", "percentage": "29.32%", "elapsed_time": "18h 15m 28s", "remaining_time": "1d 20h 0m 37s"}
{"loss": 0.87437019, "token_acc": 0.78878788, "grad_norm": 5.77052736, "learning_rate": 8.47e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095966, "epoch": 0.29343804, "global_step/max_steps": "6310/21503", "percentage": "29.34%", "elapsed_time": "18h 15m 51s", "remaining_time": "1d 19h 58m 35s"}
{"loss": 0.69572496, "token_acc": 0.82844529, "grad_norm": 7.12738752, "learning_rate": 8.46e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096009, "epoch": 0.29367056, "global_step/max_steps": "6315/21503", "percentage": "29.37%", "elapsed_time": "18h 16m 14s", "remaining_time": "1d 19h 56m 32s"}
{"loss": 0.74108739, "token_acc": 0.82201204, "grad_norm": 6.64213085, "learning_rate": 8.46e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096052, "epoch": 0.29390308, "global_step/max_steps": "6320/21503", "percentage": "29.39%", "elapsed_time": "18h 16m 37s", "remaining_time": "1d 19h 54m 30s"}
{"loss": 0.6838501, "token_acc": 0.83066173, "grad_norm": 6.13267756, "learning_rate": 8.46e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096095, "epoch": 0.2941356, "global_step/max_steps": "6325/21503", "percentage": "29.41%", "elapsed_time": "18h 17m 0s", "remaining_time": "1d 19h 52m 27s"}
{"loss": 0.67331748, "token_acc": 0.8364063, "grad_norm": 7.34206152, "learning_rate": 8.45e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096138, "epoch": 0.29436812, "global_step/max_steps": "6330/21503", "percentage": "29.44%", "elapsed_time": "18h 17m 22s", "remaining_time": "1d 19h 50m 24s"}
{"loss": 0.79457874, "token_acc": 0.81553398, "grad_norm": 5.66276455, "learning_rate": 8.45e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.09618, "epoch": 0.29460064, "global_step/max_steps": "6335/21503", "percentage": "29.46%", "elapsed_time": "18h 17m 45s", "remaining_time": "1d 19h 48m 22s"}
{"loss": 0.75720644, "token_acc": 0.80429257, "grad_norm": 4.56621647, "learning_rate": 8.45e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096223, "epoch": 0.29483315, "global_step/max_steps": "6340/21503", "percentage": "29.48%", "elapsed_time": "18h 18m 8s", "remaining_time": "1d 19h 46m 20s"}
{"loss": 0.94629393, "token_acc": 0.7759522, "grad_norm": 6.37282562, "learning_rate": 8.45e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096266, "epoch": 0.29506567, "global_step/max_steps": "6345/21503", "percentage": "29.51%", "elapsed_time": "18h 18m 30s", "remaining_time": "1d 19h 44m 18s"}
{"loss": 0.69152069, "token_acc": 0.8340192, "grad_norm": 5.94271374, "learning_rate": 8.44e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.09631, "epoch": 0.29529819, "global_step/max_steps": "6350/21503", "percentage": "29.53%", "elapsed_time": "18h 18m 52s", "remaining_time": "1d 19h 42m 15s"}
{"eval_loss": 0.65100425, "eval_runtime": 292.3379, "eval_samples_per_second": 11.887, "eval_steps_per_second": 11.887, "epoch": 0.29529819, "global_step/max_steps": "6350/21503", "percentage": "29.53%", "elapsed_time": "18h 23m 45s", "remaining_time": "1d 19h 53m 53s"}
{"loss": 0.70250773, "token_acc": 0.8125822, "grad_norm": 6.59430599, "learning_rate": 8.44e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095926, "epoch": 0.29553071, "global_step/max_steps": "6355/21503", "percentage": "29.55%", "elapsed_time": "18h 24m 8s", "remaining_time": "1d 19h 51m 51s"}
{"loss": 0.75306139, "token_acc": 0.8185124, "grad_norm": 5.58908176, "learning_rate": 8.44e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.09597, "epoch": 0.29576323, "global_step/max_steps": "6360/21503", "percentage": "29.58%", "elapsed_time": "18h 24m 30s", "remaining_time": "1d 19h 49m 48s"}
{"loss": 0.80472097, "token_acc": 0.79793415, "grad_norm": 7.62620354, "learning_rate": 8.44e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096011, "epoch": 0.29599574, "global_step/max_steps": "6365/21503", "percentage": "29.60%", "elapsed_time": "18h 24m 53s", "remaining_time": "1d 19h 47m 48s"}
{"loss": 0.80758476, "token_acc": 0.79800143, "grad_norm": 7.44665766, "learning_rate": 8.43e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096052, "epoch": 0.29622826, "global_step/max_steps": "6370/21503", "percentage": "29.62%", "elapsed_time": "18h 25m 18s", "remaining_time": "1d 19h 45m 50s"}
{"loss": 0.73390207, "token_acc": 0.82187356, "grad_norm": 6.04618597, "learning_rate": 8.43e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096095, "epoch": 0.29646078, "global_step/max_steps": "6375/21503", "percentage": "29.65%", "elapsed_time": "18h 25m 40s", "remaining_time": "1d 19h 43m 47s"}
{"loss": 0.65005922, "token_acc": 0.83986052, "grad_norm": 4.44456005, "learning_rate": 8.43e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096137, "epoch": 0.2966933, "global_step/max_steps": "6380/21503", "percentage": "29.67%", "elapsed_time": "18h 26m 3s", "remaining_time": "1d 19h 41m 46s"}
{"loss": 0.77903991, "token_acc": 0.79435364, "grad_norm": 5.21086311, "learning_rate": 8.42e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096179, "epoch": 0.29692582, "global_step/max_steps": "6385/21503", "percentage": "29.69%", "elapsed_time": "18h 26m 26s", "remaining_time": "1d 19h 39m 45s"}
{"loss": 0.71498995, "token_acc": 0.82537197, "grad_norm": 6.42088985, "learning_rate": 8.42e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096222, "epoch": 0.29715834, "global_step/max_steps": "6390/21503", "percentage": "29.72%", "elapsed_time": "18h 26m 48s", "remaining_time": "1d 19h 37m 43s"}
{"loss": 0.6499156, "token_acc": 0.8465002, "grad_norm": 6.90049696, "learning_rate": 8.42e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096264, "epoch": 0.29739085, "global_step/max_steps": "6395/21503", "percentage": "29.74%", "elapsed_time": "18h 27m 11s", "remaining_time": "1d 19h 35m 42s"}
{"loss": 0.64580679, "token_acc": 0.84213007, "grad_norm": 7.93414021, "learning_rate": 8.42e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096307, "epoch": 0.29762337, "global_step/max_steps": "6400/21503", "percentage": "29.76%", "elapsed_time": "18h 27m 34s", "remaining_time": "1d 19h 33m 41s"}
{"eval_loss": 0.6483956, "eval_runtime": 296.3225, "eval_samples_per_second": 11.727, "eval_steps_per_second": 11.727, "epoch": 0.29762337, "global_step/max_steps": "6400/21503", "percentage": "29.76%", "elapsed_time": "18h 32m 30s", "remaining_time": "1d 19h 45m 20s"}
{"loss": 0.84070292, "token_acc": 0.81173929, "grad_norm": 5.83246994, "learning_rate": 8.41e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095921, "epoch": 0.29785589, "global_step/max_steps": "6405/21503", "percentage": "29.79%", "elapsed_time": "18h 32m 53s", "remaining_time": "1d 19h 43m 20s"}
{"loss": 0.67107472, "token_acc": 0.8312541, "grad_norm": 6.64760542, "learning_rate": 8.41e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095963, "epoch": 0.29808841, "global_step/max_steps": "6410/21503", "percentage": "29.81%", "elapsed_time": "18h 33m 16s", "remaining_time": "1d 19h 41m 18s"}
{"loss": 0.74029131, "token_acc": 0.81399269, "grad_norm": 4.81731415, "learning_rate": 8.41e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096004, "epoch": 0.29832093, "global_step/max_steps": "6415/21503", "percentage": "29.83%", "elapsed_time": "18h 33m 39s", "remaining_time": "1d 19h 39m 19s"}
{"loss": 0.57738886, "token_acc": 0.85578172, "grad_norm": 6.43406105, "learning_rate": 8.4e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096047, "epoch": 0.29855345, "global_step/max_steps": "6420/21503", "percentage": "29.86%", "elapsed_time": "18h 34m 2s", "remaining_time": "1d 19h 37m 17s"}
{"loss": 0.76394787, "token_acc": 0.82439383, "grad_norm": 6.58687878, "learning_rate": 8.4e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096089, "epoch": 0.29878596, "global_step/max_steps": "6425/21503", "percentage": "29.88%", "elapsed_time": "18h 34m 24s", "remaining_time": "1d 19h 35m 16s"}
{"loss": 0.84416351, "token_acc": 0.78881579, "grad_norm": 6.80899429, "learning_rate": 8.4e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.09613, "epoch": 0.29901848, "global_step/max_steps": "6430/21503", "percentage": "29.90%", "elapsed_time": "18h 34m 48s", "remaining_time": "1d 19h 33m 17s"}
{"loss": 0.91456079, "token_acc": 0.76738306, "grad_norm": 7.46164036, "learning_rate": 8.4e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096172, "epoch": 0.299251, "global_step/max_steps": "6435/21503", "percentage": "29.93%", "elapsed_time": "18h 35m 11s", "remaining_time": "1d 19h 31m 17s"}
{"loss": 0.78030314, "token_acc": 0.80636503, "grad_norm": 6.61574841, "learning_rate": 8.39e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096213, "epoch": 0.29948352, "global_step/max_steps": "6440/21503", "percentage": "29.95%", "elapsed_time": "18h 35m 34s", "remaining_time": "1d 19h 29m 18s"}
{"loss": 0.71550717, "token_acc": 0.82683194, "grad_norm": 6.24949312, "learning_rate": 8.39e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096255, "epoch": 0.29971604, "global_step/max_steps": "6445/21503", "percentage": "29.97%", "elapsed_time": "18h 35m 57s", "remaining_time": "1d 19h 27m 17s"}
{"loss": 0.64867234, "token_acc": 0.85553555, "grad_norm": 5.60965395, "learning_rate": 8.39e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096297, "epoch": 0.29994856, "global_step/max_steps": "6450/21503", "percentage": "30.00%", "elapsed_time": "18h 36m 20s", "remaining_time": "1d 19h 25m 18s"}
{"eval_loss": 0.65441531, "eval_runtime": 294.7661, "eval_samples_per_second": 11.789, "eval_steps_per_second": 11.789, "epoch": 0.29994856, "global_step/max_steps": "6450/21503", "percentage": "30.00%", "elapsed_time": "18h 41m 15s", "remaining_time": "1d 19h 36m 46s"}
{"loss": 0.73743463, "token_acc": 0.81238591, "grad_norm": 7.21889257, "learning_rate": 8.38e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095915, "epoch": 0.30018107, "global_step/max_steps": "6455/21503", "percentage": "30.02%", "elapsed_time": "18h 41m 39s", "remaining_time": "1d 19h 34m 49s"}
{"loss": 0.67525673, "token_acc": 0.83367811, "grad_norm": 7.42940903, "learning_rate": 8.38e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095956, "epoch": 0.30041359, "global_step/max_steps": "6460/21503", "percentage": "30.04%", "elapsed_time": "18h 42m 1s", "remaining_time": "1d 19h 32m 48s"}
{"loss": 0.84941511, "token_acc": 0.76664192, "grad_norm": 5.64920425, "learning_rate": 8.38e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095997, "epoch": 0.30064611, "global_step/max_steps": "6465/21503", "percentage": "30.07%", "elapsed_time": "18h 42m 25s", "remaining_time": "1d 19h 30m 49s"}
{"loss": 0.72951074, "token_acc": 0.81883117, "grad_norm": 5.82155514, "learning_rate": 8.38e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096039, "epoch": 0.30087863, "global_step/max_steps": "6470/21503", "percentage": "30.09%", "elapsed_time": "18h 42m 48s", "remaining_time": "1d 19h 28m 49s"}
{"loss": 0.71204748, "token_acc": 0.82932692, "grad_norm": 6.58972311, "learning_rate": 8.37e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096081, "epoch": 0.30111115, "global_step/max_steps": "6475/21503", "percentage": "30.11%", "elapsed_time": "18h 43m 10s", "remaining_time": "1d 19h 26m 48s"}
{"loss": 0.74868665, "token_acc": 0.80986763, "grad_norm": 5.83572769, "learning_rate": 8.37e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096123, "epoch": 0.30134366, "global_step/max_steps": "6480/21503", "percentage": "30.14%", "elapsed_time": "18h 43m 33s", "remaining_time": "1d 19h 24m 49s"}
{"loss": 0.69789934, "token_acc": 0.82239763, "grad_norm": 8.45390892, "learning_rate": 8.37e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096165, "epoch": 0.30157618, "global_step/max_steps": "6485/21503", "percentage": "30.16%", "elapsed_time": "18h 43m 56s", "remaining_time": "1d 19h 22m 49s"}
{"loss": 0.85237474, "token_acc": 0.78947368, "grad_norm": 4.8690033, "learning_rate": 8.36e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096205, "epoch": 0.3018087, "global_step/max_steps": "6490/21503", "percentage": "30.18%", "elapsed_time": "18h 44m 19s", "remaining_time": "1d 19h 20m 50s"}
{"loss": 0.62036033, "token_acc": 0.85472155, "grad_norm": 6.73133945, "learning_rate": 8.36e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096247, "epoch": 0.30204122, "global_step/max_steps": "6495/21503", "percentage": "30.21%", "elapsed_time": "18h 44m 42s", "remaining_time": "1d 19h 18m 52s"}
{"loss": 0.66196737, "token_acc": 0.83052495, "grad_norm": 6.21248817, "learning_rate": 8.36e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096287, "epoch": 0.30227374, "global_step/max_steps": "6500/21503", "percentage": "30.23%", "elapsed_time": "18h 45m 6s", "remaining_time": "1d 19h 16m 55s"}
{"eval_loss": 0.64883274, "eval_runtime": 297.4827, "eval_samples_per_second": 11.681, "eval_steps_per_second": 11.681, "epoch": 0.30227374, "global_step/max_steps": "6500/21503", "percentage": "30.23%", "elapsed_time": "18h 50m 3s", "remaining_time": "1d 19h 28m 21s"}
{"loss": 0.67291985, "token_acc": 0.81409517, "grad_norm": 4.92409801, "learning_rate": 8.36e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095905, "epoch": 0.30250626, "global_step/max_steps": "6505/21503", "percentage": "30.25%", "elapsed_time": "18h 50m 27s", "remaining_time": "1d 19h 26m 24s"}
{"loss": 0.78651891, "token_acc": 0.81387717, "grad_norm": 8.07417107, "learning_rate": 8.35e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095947, "epoch": 0.30273877, "global_step/max_steps": "6510/21503", "percentage": "30.27%", "elapsed_time": "18h 50m 50s", "remaining_time": "1d 19h 24m 23s"}
{"loss": 0.7544786, "token_acc": 0.83146829, "grad_norm": 6.63835526, "learning_rate": 8.35e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095988, "epoch": 0.30297129, "global_step/max_steps": "6515/21503", "percentage": "30.30%", "elapsed_time": "18h 51m 12s", "remaining_time": "1d 19h 22m 24s"}
{"loss": 0.75769515, "token_acc": 0.80794903, "grad_norm": 6.21371412, "learning_rate": 8.35e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.09603, "epoch": 0.30320381, "global_step/max_steps": "6520/21503", "percentage": "30.32%", "elapsed_time": "18h 51m 35s", "remaining_time": "1d 19h 20m 24s"}
{"loss": 0.85161657, "token_acc": 0.79343066, "grad_norm": 5.81052208, "learning_rate": 8.34e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096072, "epoch": 0.30343633, "global_step/max_steps": "6525/21503", "percentage": "30.34%", "elapsed_time": "18h 51m 57s", "remaining_time": "1d 19h 18m 23s"}
{"loss": 0.68945103, "token_acc": 0.83961118, "grad_norm": 7.22607088, "learning_rate": 8.34e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096113, "epoch": 0.30366885, "global_step/max_steps": "6530/21503", "percentage": "30.37%", "elapsed_time": "18h 52m 20s", "remaining_time": "1d 19h 16m 24s"}
{"loss": 0.7344255, "token_acc": 0.80864413, "grad_norm": 5.16994143, "learning_rate": 8.34e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096155, "epoch": 0.30390137, "global_step/max_steps": "6535/21503", "percentage": "30.39%", "elapsed_time": "18h 52m 43s", "remaining_time": "1d 19h 14m 25s"}
{"loss": 0.70798149, "token_acc": 0.81640427, "grad_norm": 5.56500578, "learning_rate": 8.34e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096193, "epoch": 0.30413388, "global_step/max_steps": "6540/21503", "percentage": "30.41%", "elapsed_time": "18h 53m 7s", "remaining_time": "1d 19h 12m 31s"}
{"loss": 0.76572561, "token_acc": 0.81097561, "grad_norm": 6.24621105, "learning_rate": 8.33e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096233, "epoch": 0.3043664, "global_step/max_steps": "6545/21503", "percentage": "30.44%", "elapsed_time": "18h 53m 31s", "remaining_time": "1d 19h 10m 35s"}
{"loss": 0.73537674, "token_acc": 0.82689702, "grad_norm": 5.42333221, "learning_rate": 8.33e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096274, "epoch": 0.30459892, "global_step/max_steps": "6550/21503", "percentage": "30.46%", "elapsed_time": "18h 53m 54s", "remaining_time": "1d 19h 8m 36s"}
{"eval_loss": 0.6473828, "eval_runtime": 291.9143, "eval_samples_per_second": 11.904, "eval_steps_per_second": 11.904, "epoch": 0.30459892, "global_step/max_steps": "6550/21503", "percentage": "30.46%", "elapsed_time": "18h 58m 46s", "remaining_time": "1d 19h 19m 43s"}
{"loss": 0.77068129, "token_acc": 0.81339923, "grad_norm": 6.53713751, "learning_rate": 8.33e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095903, "epoch": 0.30483144, "global_step/max_steps": "6555/21503", "percentage": "30.48%", "elapsed_time": "18h 59m 9s", "remaining_time": "1d 19h 17m 44s"}
{"loss": 0.82892952, "token_acc": 0.78247126, "grad_norm": 2.70988965, "learning_rate": 8.32e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095943, "epoch": 0.30506396, "global_step/max_steps": "6560/21503", "percentage": "30.51%", "elapsed_time": "18h 59m 33s", "remaining_time": "1d 19h 15m 48s"}
{"loss": 0.67244587, "token_acc": 0.82614648, "grad_norm": 5.24068165, "learning_rate": 8.32e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095984, "epoch": 0.30529648, "global_step/max_steps": "6565/21503", "percentage": "30.53%", "elapsed_time": "18h 59m 56s", "remaining_time": "1d 19h 13m 49s"}
{"loss": 0.67939315, "token_acc": 0.83376053, "grad_norm": 6.75790739, "learning_rate": 8.32e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096026, "epoch": 0.30552899, "global_step/max_steps": "6570/21503", "percentage": "30.55%", "elapsed_time": "19h 0m 18s", "remaining_time": "1d 19h 11m 49s"}
{"loss": 0.73225617, "token_acc": 0.81949331, "grad_norm": 5.91217089, "learning_rate": 8.32e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096067, "epoch": 0.30576151, "global_step/max_steps": "6575/21503", "percentage": "30.58%", "elapsed_time": "19h 0m 41s", "remaining_time": "1d 19h 9m 51s"}
{"loss": 0.91415319, "token_acc": 0.77885653, "grad_norm": 5.74660969, "learning_rate": 8.31e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096107, "epoch": 0.30599403, "global_step/max_steps": "6580/21503", "percentage": "30.60%", "elapsed_time": "19h 1m 5s", "remaining_time": "1d 19h 7m 54s"}
{"loss": 0.76002417, "token_acc": 0.8083682, "grad_norm": 6.43539906, "learning_rate": 8.31e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096149, "epoch": 0.30622655, "global_step/max_steps": "6585/21503", "percentage": "30.62%", "elapsed_time": "19h 1m 27s", "remaining_time": "1d 19h 5m 55s"}
{"loss": 0.76912422, "token_acc": 0.81113388, "grad_norm": 7.43465996, "learning_rate": 8.31e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.09619, "epoch": 0.30645907, "global_step/max_steps": "6590/21503", "percentage": "30.65%", "elapsed_time": "19h 1m 50s", "remaining_time": "1d 19h 3m 56s"}
{"loss": 0.70943427, "token_acc": 0.82301529, "grad_norm": 8.35978317, "learning_rate": 8.3e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096232, "epoch": 0.30669158, "global_step/max_steps": "6595/21503", "percentage": "30.67%", "elapsed_time": "19h 2m 12s", "remaining_time": "1d 19h 1m 57s"}
{"loss": 0.63588448, "token_acc": 0.84550562, "grad_norm": 7.27451897, "learning_rate": 8.3e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096272, "epoch": 0.3069241, "global_step/max_steps": "6600/21503", "percentage": "30.69%", "elapsed_time": "19h 2m 35s", "remaining_time": "1d 19h 0m 0s"}
{"eval_loss": 0.64630932, "eval_runtime": 289.4779, "eval_samples_per_second": 12.004, "eval_steps_per_second": 12.004, "epoch": 0.3069241, "global_step/max_steps": "6600/21503", "percentage": "30.69%", "elapsed_time": "19h 7m 24s", "remaining_time": "1d 19h 10m 53s"}
{"loss": 0.75485668, "token_acc": 0.81354876, "grad_norm": 6.91964054, "learning_rate": 8.3e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095908, "epoch": 0.30715662, "global_step/max_steps": "6605/21503", "percentage": "30.72%", "elapsed_time": "19h 7m 47s", "remaining_time": "1d 19h 8m 55s"}
{"loss": 0.64930887, "token_acc": 0.83885374, "grad_norm": 5.32062912, "learning_rate": 8.3e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095949, "epoch": 0.30738914, "global_step/max_steps": "6610/21503", "percentage": "30.74%", "elapsed_time": "19h 8m 10s", "remaining_time": "1d 19h 6m 57s"}
{"loss": 0.86885529, "token_acc": 0.77571009, "grad_norm": 6.06272173, "learning_rate": 8.29e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.09599, "epoch": 0.30762166, "global_step/max_steps": "6615/21503", "percentage": "30.76%", "elapsed_time": "19h 8m 33s", "remaining_time": "1d 19h 4m 59s"}
{"loss": 0.68625922, "token_acc": 0.81593576, "grad_norm": 6.99749231, "learning_rate": 8.29e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096031, "epoch": 0.30785418, "global_step/max_steps": "6620/21503", "percentage": "30.79%", "elapsed_time": "19h 8m 55s", "remaining_time": "1d 19h 2m 59s"}
{"loss": 0.76504235, "token_acc": 0.81285714, "grad_norm": 6.31509733, "learning_rate": 8.29e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096072, "epoch": 0.30808669, "global_step/max_steps": "6625/21503", "percentage": "30.81%", "elapsed_time": "19h 9m 18s", "remaining_time": "1d 19h 1m 2s"}
{"loss": 0.64027333, "token_acc": 0.85010526, "grad_norm": 6.03715277, "learning_rate": 8.28e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096113, "epoch": 0.30831921, "global_step/max_steps": "6630/21503", "percentage": "30.83%", "elapsed_time": "19h 9m 40s", "remaining_time": "1d 18h 59m 3s"}
{"loss": 0.84576406, "token_acc": 0.79962133, "grad_norm": 5.8293786, "learning_rate": 8.28e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096153, "epoch": 0.30855173, "global_step/max_steps": "6635/21503", "percentage": "30.86%", "elapsed_time": "19h 10m 4s", "remaining_time": "1d 18h 57m 7s"}
{"loss": 0.67861381, "token_acc": 0.84262701, "grad_norm": 6.84556007, "learning_rate": 8.28e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096193, "epoch": 0.30878425, "global_step/max_steps": "6640/21503", "percentage": "30.88%", "elapsed_time": "19h 10m 27s", "remaining_time": "1d 18h 55m 11s"}
{"loss": 0.80915318, "token_acc": 0.81119331, "grad_norm": 5.74370861, "learning_rate": 8.28e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096235, "epoch": 0.30901677, "global_step/max_steps": "6645/21503", "percentage": "30.90%", "elapsed_time": "19h 10m 49s", "remaining_time": "1d 18h 53m 13s"}
{"loss": 0.6339828, "token_acc": 0.84344147, "grad_norm": 5.36016941, "learning_rate": 8.27e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096275, "epoch": 0.30924929, "global_step/max_steps": "6650/21503", "percentage": "30.93%", "elapsed_time": "19h 11m 12s", "remaining_time": "1d 18h 51m 15s"}
{"eval_loss": 0.6490739, "eval_runtime": 290.6445, "eval_samples_per_second": 11.956, "eval_steps_per_second": 11.956, "epoch": 0.30924929, "global_step/max_steps": "6650/21503", "percentage": "30.93%", "elapsed_time": "19h 16m 3s", "remaining_time": "1d 19h 2m 5s"}
{"loss": 0.73867807, "token_acc": 0.813378, "grad_norm": 8.40629578, "learning_rate": 8.27e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095911, "epoch": 0.3094818, "global_step/max_steps": "6655/21503", "percentage": "30.95%", "elapsed_time": "19h 16m 26s", "remaining_time": "1d 19h 0m 9s"}
{"loss": 0.73219404, "token_acc": 0.80381007, "grad_norm": 6.63882303, "learning_rate": 8.27e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095951, "epoch": 0.30971432, "global_step/max_steps": "6660/21503", "percentage": "30.97%", "elapsed_time": "19h 16m 50s", "remaining_time": "1d 18h 58m 12s"}
{"loss": 0.63947802, "token_acc": 0.85054122, "grad_norm": 5.7767086, "learning_rate": 8.26e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095992, "epoch": 0.30994684, "global_step/max_steps": "6665/21503", "percentage": "31.00%", "elapsed_time": "19h 17m 12s", "remaining_time": "1d 18h 56m 14s"}
{"loss": 0.90310326, "token_acc": 0.77941706, "grad_norm": 6.08032322, "learning_rate": 8.26e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096032, "epoch": 0.31017936, "global_step/max_steps": "6670/21503", "percentage": "31.02%", "elapsed_time": "19h 17m 35s", "remaining_time": "1d 18h 54m 18s"}
{"loss": 0.66707039, "token_acc": 0.83568738, "grad_norm": 5.89556646, "learning_rate": 8.26e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096072, "epoch": 0.31041188, "global_step/max_steps": "6675/21503", "percentage": "31.04%", "elapsed_time": "19h 17m 59s", "remaining_time": "1d 18h 52m 22s"}
{"loss": 0.65070267, "token_acc": 0.83995923, "grad_norm": 5.25002718, "learning_rate": 8.26e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096113, "epoch": 0.3106444, "global_step/max_steps": "6680/21503", "percentage": "31.07%", "elapsed_time": "19h 18m 21s", "remaining_time": "1d 18h 50m 24s"}
{"loss": 0.78437624, "token_acc": 0.79981084, "grad_norm": 6.80317545, "learning_rate": 8.25e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096154, "epoch": 0.31087691, "global_step/max_steps": "6685/21503", "percentage": "31.09%", "elapsed_time": "19h 18m 43s", "remaining_time": "1d 18h 48m 26s"}
{"loss": 0.65781236, "token_acc": 0.84113252, "grad_norm": 6.70356131, "learning_rate": 8.25e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096195, "epoch": 0.31110943, "global_step/max_steps": "6690/21503", "percentage": "31.11%", "elapsed_time": "19h 19m 5s", "remaining_time": "1d 18h 46m 28s"}
{"loss": 0.77966251, "token_acc": 0.80397127, "grad_norm": 5.96134853, "learning_rate": 8.25e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096235, "epoch": 0.31134195, "global_step/max_steps": "6695/21503", "percentage": "31.14%", "elapsed_time": "19h 19m 28s", "remaining_time": "1d 18h 44m 32s"}
{"loss": 0.67954545, "token_acc": 0.84317862, "grad_norm": 7.20267153, "learning_rate": 8.24e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096276, "epoch": 0.31157447, "global_step/max_steps": "6700/21503", "percentage": "31.16%", "elapsed_time": "19h 19m 51s", "remaining_time": "1d 18h 42m 35s"}
{"eval_loss": 0.648817, "eval_runtime": 293.4475, "eval_samples_per_second": 11.842, "eval_steps_per_second": 11.842, "epoch": 0.31157447, "global_step/max_steps": "6700/21503", "percentage": "31.16%", "elapsed_time": "19h 24m 44s", "remaining_time": "1d 18h 53m 23s"}
{"loss": 0.71116495, "token_acc": 0.81389031, "grad_norm": 6.13147116, "learning_rate": 8.24e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095912, "epoch": 0.31180699, "global_step/max_steps": "6705/21503", "percentage": "31.18%", "elapsed_time": "19h 25m 7s", "remaining_time": "1d 18h 51m 26s"}
{"loss": 0.65196209, "token_acc": 0.83939728, "grad_norm": 7.54048157, "learning_rate": 8.24e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095952, "epoch": 0.3120395, "global_step/max_steps": "6710/21503", "percentage": "31.20%", "elapsed_time": "19h 25m 30s", "remaining_time": "1d 18h 49m 30s"}
{"loss": 0.72033749, "token_acc": 0.8262963, "grad_norm": 5.74220657, "learning_rate": 8.23e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095993, "epoch": 0.31227202, "global_step/max_steps": "6715/21503", "percentage": "31.23%", "elapsed_time": "19h 25m 53s", "remaining_time": "1d 18h 47m 33s"}
{"loss": 0.89320917, "token_acc": 0.7979798, "grad_norm": 5.32128525, "learning_rate": 8.23e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096034, "epoch": 0.31250454, "global_step/max_steps": "6720/21503", "percentage": "31.25%", "elapsed_time": "19h 26m 15s", "remaining_time": "1d 18h 45m 35s"}
{"loss": 0.67990603, "token_acc": 0.82783103, "grad_norm": 7.48489523, "learning_rate": 8.23e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096074, "epoch": 0.31273706, "global_step/max_steps": "6725/21503", "percentage": "31.27%", "elapsed_time": "19h 26m 37s", "remaining_time": "1d 18h 43m 38s"}
{"loss": 0.64903316, "token_acc": 0.82815057, "grad_norm": 5.70865345, "learning_rate": 8.23e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096114, "epoch": 0.31296958, "global_step/max_steps": "6730/21503", "percentage": "31.30%", "elapsed_time": "19h 27m 0s", "remaining_time": "1d 18h 41m 42s"}
{"loss": 0.76767378, "token_acc": 0.80769231, "grad_norm": 4.6844492, "learning_rate": 8.22e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096153, "epoch": 0.3132021, "global_step/max_steps": "6735/21503", "percentage": "31.32%", "elapsed_time": "19h 27m 24s", "remaining_time": "1d 18h 39m 47s"}
{"loss": 0.6278162, "token_acc": 0.8484975, "grad_norm": 5.87428141, "learning_rate": 8.22e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096194, "epoch": 0.31343461, "global_step/max_steps": "6740/21503", "percentage": "31.34%", "elapsed_time": "19h 27m 46s", "remaining_time": "1d 18h 37m 50s"}
{"loss": 0.62565546, "token_acc": 0.82865762, "grad_norm": 6.56171227, "learning_rate": 8.22e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096233, "epoch": 0.31366713, "global_step/max_steps": "6745/21503", "percentage": "31.37%", "elapsed_time": "19h 28m 9s", "remaining_time": "1d 18h 35m 55s"}
{"loss": 0.66976647, "token_acc": 0.82809542, "grad_norm": 7.31416416, "learning_rate": 8.21e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.096272, "epoch": 0.31389965, "global_step/max_steps": "6750/21503", "percentage": "31.39%", "elapsed_time": "19h 28m 33s", "remaining_time": "1d 18h 34m 1s"}
{"eval_loss": 0.64761502, "eval_runtime": 294.4404, "eval_samples_per_second": 11.802, "eval_steps_per_second": 11.802, "epoch": 0.31389965, "global_step/max_steps": "6750/21503", "percentage": "31.39%", "elapsed_time": "19h 33m 27s", "remaining_time": "1d 18h 44m 45s"}
{"loss": 0.87002439, "token_acc": 0.81409376, "grad_norm": 6.52476645, "learning_rate": 8.21e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095909, "epoch": 0.31413217, "global_step/max_steps": "6755/21503", "percentage": "31.41%", "elapsed_time": "19h 33m 50s", "remaining_time": "1d 18h 42m 49s"}
{"loss": 0.76339283, "token_acc": 0.80675164, "grad_norm": 5.90150166, "learning_rate": 8.21e-06, "memory(GiB)": 33.07, "train_speed(iter/s)": 0.095949, "epoch": 0.31436469, "global_step/max_steps": "6760/21503", "percentage": "31.44%", "elapsed_time": "19h 34m 14s", "remaining_time": "1d 18h 40m 54s"}
{"loss": 0.80270138, "token_acc": 0.76442911, "grad_norm": 8.81372643, "learning_rate": 8.21e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095986, "epoch": 0.31459721, "global_step/max_steps": "6765/21503", "percentage": "31.46%", "elapsed_time": "19h 34m 38s", "remaining_time": "1d 18h 39m 2s"}
{"loss": 0.66511378, "token_acc": 0.83953033, "grad_norm": 7.78906822, "learning_rate": 8.2e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096025, "epoch": 0.31482972, "global_step/max_steps": "6770/21503", "percentage": "31.48%", "elapsed_time": "19h 35m 2s", "remaining_time": "1d 18h 37m 8s"}
{"loss": 0.75305686, "token_acc": 0.8276005, "grad_norm": 5.44107676, "learning_rate": 8.2e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096065, "epoch": 0.31506224, "global_step/max_steps": "6775/21503", "percentage": "31.51%", "elapsed_time": "19h 35m 24s", "remaining_time": "1d 18h 35m 11s"}
{"loss": 0.86059761, "token_acc": 0.79026802, "grad_norm": 5.66722345, "learning_rate": 8.2e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096105, "epoch": 0.31529476, "global_step/max_steps": "6780/21503", "percentage": "31.53%", "elapsed_time": "19h 35m 47s", "remaining_time": "1d 18h 33m 17s"}
{"loss": 0.70860901, "token_acc": 0.83035325, "grad_norm": 6.02231026, "learning_rate": 8.19e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096145, "epoch": 0.31552728, "global_step/max_steps": "6785/21503", "percentage": "31.55%", "elapsed_time": "19h 36m 10s", "remaining_time": "1d 18h 31m 21s"}
{"loss": 0.84894094, "token_acc": 0.79024239, "grad_norm": 5.34960318, "learning_rate": 8.19e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096184, "epoch": 0.3157598, "global_step/max_steps": "6790/21503", "percentage": "31.58%", "elapsed_time": "19h 36m 33s", "remaining_time": "1d 18h 29m 26s"}
{"loss": 0.76290145, "token_acc": 0.82102908, "grad_norm": 7.82837486, "learning_rate": 8.19e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096224, "epoch": 0.31599232, "global_step/max_steps": "6795/21503", "percentage": "31.60%", "elapsed_time": "19h 36m 56s", "remaining_time": "1d 18h 27m 31s"}
{"loss": 0.6981842, "token_acc": 0.84413854, "grad_norm": 9.84215069, "learning_rate": 8.18e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096264, "epoch": 0.31622483, "global_step/max_steps": "6800/21503", "percentage": "31.62%", "elapsed_time": "19h 37m 18s", "remaining_time": "1d 18h 25m 35s"}
{"eval_loss": 0.64521611, "eval_runtime": 293.1209, "eval_samples_per_second": 11.855, "eval_steps_per_second": 11.855, "epoch": 0.31622483, "global_step/max_steps": "6800/21503", "percentage": "31.62%", "elapsed_time": "19h 42m 11s", "remaining_time": "1d 18h 36m 9s"}
{"loss": 0.83833141, "token_acc": 0.81311722, "grad_norm": 5.84530449, "learning_rate": 8.18e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095906, "epoch": 0.31645735, "global_step/max_steps": "6805/21503", "percentage": "31.65%", "elapsed_time": "19h 42m 34s", "remaining_time": "1d 18h 34m 13s"}
{"loss": 0.78572855, "token_acc": 0.80201005, "grad_norm": 7.10467148, "learning_rate": 8.18e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095947, "epoch": 0.31668987, "global_step/max_steps": "6810/21503", "percentage": "31.67%", "elapsed_time": "19h 42m 56s", "remaining_time": "1d 18h 32m 16s"}
{"loss": 0.74197059, "token_acc": 0.81185031, "grad_norm": 5.76530266, "learning_rate": 8.18e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095986, "epoch": 0.31692239, "global_step/max_steps": "6815/21503", "percentage": "31.69%", "elapsed_time": "19h 43m 19s", "remaining_time": "1d 18h 30m 21s"}
{"loss": 0.72365055, "token_acc": 0.8233871, "grad_norm": 7.71987534, "learning_rate": 8.17e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096025, "epoch": 0.31715491, "global_step/max_steps": "6820/21503", "percentage": "31.72%", "elapsed_time": "19h 43m 42s", "remaining_time": "1d 18h 28m 27s"}
{"loss": 0.85144396, "token_acc": 0.79842574, "grad_norm": 5.35212183, "learning_rate": 8.17e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096064, "epoch": 0.31738742, "global_step/max_steps": "6825/21503", "percentage": "31.74%", "elapsed_time": "19h 44m 5s", "remaining_time": "1d 18h 26m 32s"}
{"loss": 0.73299155, "token_acc": 0.82893983, "grad_norm": 5.20443296, "learning_rate": 8.17e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096103, "epoch": 0.31761994, "global_step/max_steps": "6830/21503", "percentage": "31.76%", "elapsed_time": "19h 44m 29s", "remaining_time": "1d 18h 24m 39s"}
{"loss": 0.78990593, "token_acc": 0.81260032, "grad_norm": 8.58159924, "learning_rate": 8.16e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096141, "epoch": 0.31785246, "global_step/max_steps": "6835/21503", "percentage": "31.79%", "elapsed_time": "19h 44m 53s", "remaining_time": "1d 18h 22m 47s"}
{"loss": 0.62745218, "token_acc": 0.85811876, "grad_norm": 8.94705296, "learning_rate": 8.16e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096181, "epoch": 0.31808498, "global_step/max_steps": "6840/21503", "percentage": "31.81%", "elapsed_time": "19h 45m 15s", "remaining_time": "1d 18h 20m 52s"}
{"loss": 0.62433114, "token_acc": 0.83628962, "grad_norm": 5.99054623, "learning_rate": 8.16e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.09622, "epoch": 0.3183175, "global_step/max_steps": "6845/21503", "percentage": "31.83%", "elapsed_time": "19h 45m 38s", "remaining_time": "1d 18h 18m 58s"}
{"loss": 0.64598289, "token_acc": 0.86091003, "grad_norm": 6.69626904, "learning_rate": 8.15e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096259, "epoch": 0.31855002, "global_step/max_steps": "6850/21503", "percentage": "31.86%", "elapsed_time": "19h 46m 1s", "remaining_time": "1d 18h 17m 3s"}
{"eval_loss": 0.6414746, "eval_runtime": 296.31, "eval_samples_per_second": 11.728, "eval_steps_per_second": 11.728, "epoch": 0.31855002, "global_step/max_steps": "6850/21503", "percentage": "31.86%", "elapsed_time": "19h 50m 58s", "remaining_time": "1d 18h 27m 37s"}
{"loss": 0.73573709, "token_acc": 0.81456985, "grad_norm": 5.73410225, "learning_rate": 8.15e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095898, "epoch": 0.31878253, "global_step/max_steps": "6855/21503", "percentage": "31.88%", "elapsed_time": "19h 51m 22s", "remaining_time": "1d 18h 25m 45s"}
{"loss": 0.73622084, "token_acc": 0.81652529, "grad_norm": 7.67629004, "learning_rate": 8.15e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095937, "epoch": 0.31901505, "global_step/max_steps": "6860/21503", "percentage": "31.90%", "elapsed_time": "19h 51m 44s", "remaining_time": "1d 18h 23m 50s"}
{"loss": 0.80118465, "token_acc": 0.80701754, "grad_norm": 4.94703579, "learning_rate": 8.15e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095977, "epoch": 0.31924757, "global_step/max_steps": "6865/21503", "percentage": "31.93%", "elapsed_time": "19h 52m 7s", "remaining_time": "1d 18h 21m 55s"}
{"loss": 0.61746821, "token_acc": 0.85455262, "grad_norm": 6.37356949, "learning_rate": 8.14e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096015, "epoch": 0.31948009, "global_step/max_steps": "6870/21503", "percentage": "31.95%", "elapsed_time": "19h 52m 30s", "remaining_time": "1d 18h 20m 2s"}
{"loss": 0.66485748, "token_acc": 0.82538569, "grad_norm": 8.26792908, "learning_rate": 8.14e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096054, "epoch": 0.31971261, "global_step/max_steps": "6875/21503", "percentage": "31.97%", "elapsed_time": "19h 52m 53s", "remaining_time": "1d 18h 18m 8s"}
{"loss": 0.90680065, "token_acc": 0.78145489, "grad_norm": 5.16367102, "learning_rate": 8.14e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096093, "epoch": 0.31994513, "global_step/max_steps": "6880/21503", "percentage": "32.00%", "elapsed_time": "19h 53m 16s", "remaining_time": "1d 18h 16m 14s"}
{"loss": 0.72947197, "token_acc": 0.83282806, "grad_norm": 6.80245447, "learning_rate": 8.13e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096133, "epoch": 0.32017764, "global_step/max_steps": "6885/21503", "percentage": "32.02%", "elapsed_time": "19h 53m 39s", "remaining_time": "1d 18h 14m 19s"}
{"loss": 0.82114296, "token_acc": 0.79849138, "grad_norm": 7.57567978, "learning_rate": 8.13e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096172, "epoch": 0.32041016, "global_step/max_steps": "6890/21503", "percentage": "32.04%", "elapsed_time": "19h 54m 2s", "remaining_time": "1d 18h 12m 25s"}
{"loss": 0.81536589, "token_acc": 0.8100911, "grad_norm": 8.01412582, "learning_rate": 8.13e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096212, "epoch": 0.32064268, "global_step/max_steps": "6895/21503", "percentage": "32.07%", "elapsed_time": "19h 54m 24s", "remaining_time": "1d 18h 10m 30s"}
{"loss": 0.87062292, "token_acc": 0.80313199, "grad_norm": 6.63877201, "learning_rate": 8.12e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096251, "epoch": 0.3208752, "global_step/max_steps": "6900/21503", "percentage": "32.09%", "elapsed_time": "19h 54m 47s", "remaining_time": "1d 18h 8m 37s"}
{"eval_loss": 0.6478042, "eval_runtime": 294.3248, "eval_samples_per_second": 11.807, "eval_steps_per_second": 11.807, "epoch": 0.3208752, "global_step/max_steps": "6900/21503", "percentage": "32.09%", "elapsed_time": "19h 59m 41s", "remaining_time": "1d 18h 19m 0s"}
{"loss": 0.75137501, "token_acc": 0.81389435, "grad_norm": 7.01273441, "learning_rate": 8.12e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095896, "epoch": 0.32110772, "global_step/max_steps": "6905/21503", "percentage": "32.11%", "elapsed_time": "20h 0m 4s", "remaining_time": "1d 18h 17m 6s"}
{"loss": 0.73801074, "token_acc": 0.81431697, "grad_norm": 4.67357063, "learning_rate": 8.12e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095935, "epoch": 0.32134024, "global_step/max_steps": "6910/21503", "percentage": "32.14%", "elapsed_time": "20h 0m 27s", "remaining_time": "1d 18h 15m 12s"}
{"loss": 0.72068338, "token_acc": 0.81473456, "grad_norm": 5.69379234, "learning_rate": 8.12e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095973, "epoch": 0.32157275, "global_step/max_steps": "6915/21503", "percentage": "32.16%", "elapsed_time": "20h 0m 51s", "remaining_time": "1d 18h 13m 20s"}
{"loss": 0.88767767, "token_acc": 0.78804497, "grad_norm": 7.14619303, "learning_rate": 8.11e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096012, "epoch": 0.32180527, "global_step/max_steps": "6920/21503", "percentage": "32.18%", "elapsed_time": "20h 1m 14s", "remaining_time": "1d 18h 11m 27s"}
{"loss": 0.74049511, "token_acc": 0.80500169, "grad_norm": 6.61886501, "learning_rate": 8.11e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.09605, "epoch": 0.32203779, "global_step/max_steps": "6925/21503", "percentage": "32.20%", "elapsed_time": "20h 1m 37s", "remaining_time": "1d 18h 9m 34s"}
{"loss": 0.70267086, "token_acc": 0.82720715, "grad_norm": 6.57324696, "learning_rate": 8.11e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096089, "epoch": 0.32227031, "global_step/max_steps": "6930/21503", "percentage": "32.23%", "elapsed_time": "20h 2m 0s", "remaining_time": "1d 18h 7m 40s"}
{"loss": 0.71207089, "token_acc": 0.83657957, "grad_norm": 7.52203989, "learning_rate": 8.1e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096129, "epoch": 0.32250283, "global_step/max_steps": "6935/21503", "percentage": "32.25%", "elapsed_time": "20h 2m 22s", "remaining_time": "1d 18h 5m 45s"}
{"loss": 0.68308148, "token_acc": 0.80911854, "grad_norm": 5.25029373, "learning_rate": 8.1e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096168, "epoch": 0.32273534, "global_step/max_steps": "6940/21503", "percentage": "32.27%", "elapsed_time": "20h 2m 45s", "remaining_time": "1d 18h 3m 52s"}
{"loss": 0.71457458, "token_acc": 0.83186196, "grad_norm": 9.96938229, "learning_rate": 8.1e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096207, "epoch": 0.32296786, "global_step/max_steps": "6945/21503", "percentage": "32.30%", "elapsed_time": "20h 3m 7s", "remaining_time": "1d 18h 1m 59s"}
{"loss": 0.63222404, "token_acc": 0.84679021, "grad_norm": 6.60011864, "learning_rate": 8.09e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096246, "epoch": 0.32320038, "global_step/max_steps": "6950/21503", "percentage": "32.32%", "elapsed_time": "20h 3m 30s", "remaining_time": "1d 18h 0m 5s"}
{"eval_loss": 0.64340645, "eval_runtime": 292.2564, "eval_samples_per_second": 11.89, "eval_steps_per_second": 11.89, "epoch": 0.32320038, "global_step/max_steps": "6950/21503", "percentage": "32.32%", "elapsed_time": "20h 8m 22s", "remaining_time": "1d 18h 10m 17s"}
{"loss": 0.55975027, "token_acc": 0.81575829, "grad_norm": 7.27144432, "learning_rate": 8.09e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095896, "epoch": 0.3234329, "global_step/max_steps": "6955/21503", "percentage": "32.34%", "elapsed_time": "20h 8m 46s", "remaining_time": "1d 18h 8m 25s"}
{"loss": 0.70796914, "token_acc": 0.82497254, "grad_norm": 6.54790354, "learning_rate": 8.09e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095936, "epoch": 0.32366542, "global_step/max_steps": "6960/21503", "percentage": "32.37%", "elapsed_time": "20h 9m 8s", "remaining_time": "1d 18h 6m 30s"}
{"loss": 0.73224688, "token_acc": 0.82242991, "grad_norm": 6.42180395, "learning_rate": 8.09e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095976, "epoch": 0.32389794, "global_step/max_steps": "6965/21503", "percentage": "32.39%", "elapsed_time": "20h 9m 30s", "remaining_time": "1d 18h 4m 35s"}
{"loss": 0.75211625, "token_acc": 0.81723155, "grad_norm": 5.57395077, "learning_rate": 8.08e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096015, "epoch": 0.32413045, "global_step/max_steps": "6970/21503", "percentage": "32.41%", "elapsed_time": "20h 9m 52s", "remaining_time": "1d 18h 2m 41s"}
{"loss": 0.67466474, "token_acc": 0.8303362, "grad_norm": 6.31151676, "learning_rate": 8.08e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096054, "epoch": 0.32436297, "global_step/max_steps": "6975/21503", "percentage": "32.44%", "elapsed_time": "20h 10m 15s", "remaining_time": "1d 18h 0m 47s"}
{"loss": 0.68107882, "token_acc": 0.83309404, "grad_norm": 6.7501502, "learning_rate": 8.08e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096092, "epoch": 0.32459549, "global_step/max_steps": "6980/21503", "percentage": "32.46%", "elapsed_time": "20h 10m 38s", "remaining_time": "1d 17h 58m 55s"}
{"loss": 0.74226189, "token_acc": 0.81461676, "grad_norm": 6.65716839, "learning_rate": 8.07e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.09613, "epoch": 0.32482801, "global_step/max_steps": "6985/21503", "percentage": "32.48%", "elapsed_time": "20h 11m 1s", "remaining_time": "1d 17h 57m 4s"}
{"loss": 0.74499698, "token_acc": 0.81143233, "grad_norm": 7.41497755, "learning_rate": 8.07e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096168, "epoch": 0.32506053, "global_step/max_steps": "6990/21503", "percentage": "32.51%", "elapsed_time": "20h 11m 25s", "remaining_time": "1d 17h 55m 12s"}
{"loss": 0.71425543, "token_acc": 0.8291498, "grad_norm": 5.73177099, "learning_rate": 8.07e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096207, "epoch": 0.32529305, "global_step/max_steps": "6995/21503", "percentage": "32.53%", "elapsed_time": "20h 11m 47s", "remaining_time": "1d 17h 53m 18s"}
{"loss": 0.85585251, "token_acc": 0.78462998, "grad_norm": 6.35682392, "learning_rate": 8.06e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096245, "epoch": 0.32552556, "global_step/max_steps": "7000/21503", "percentage": "32.55%", "elapsed_time": "20h 12m 10s", "remaining_time": "1d 17h 51m 27s"}
{"eval_loss": 0.64284623, "eval_runtime": 289.8023, "eval_samples_per_second": 11.991, "eval_steps_per_second": 11.991, "epoch": 0.32552556, "global_step/max_steps": "7000/21503", "percentage": "32.55%", "elapsed_time": "20h 17m 0s", "remaining_time": "1d 18h 1m 27s"}
{"loss": 0.65296669, "token_acc": 0.81521086, "grad_norm": 7.46354437, "learning_rate": 8.06e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095901, "epoch": 0.32575808, "global_step/max_steps": "7005/21503", "percentage": "32.58%", "elapsed_time": "20h 17m 24s", "remaining_time": "1d 17h 59m 36s"}
{"loss": 0.70950551, "token_acc": 0.81118881, "grad_norm": 5.51303005, "learning_rate": 8.06e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.09594, "epoch": 0.3259906, "global_step/max_steps": "7010/21503", "percentage": "32.60%", "elapsed_time": "20h 17m 46s", "remaining_time": "1d 17h 57m 42s"}
{"loss": 0.7966383, "token_acc": 0.80495808, "grad_norm": 6.56886435, "learning_rate": 8.06e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095979, "epoch": 0.32622312, "global_step/max_steps": "7015/21503", "percentage": "32.62%", "elapsed_time": "20h 18m 8s", "remaining_time": "1d 17h 55m 49s"}
{"loss": 0.81926069, "token_acc": 0.80013952, "grad_norm": 5.53773451, "learning_rate": 8.05e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096018, "epoch": 0.32645564, "global_step/max_steps": "7020/21503", "percentage": "32.65%", "elapsed_time": "20h 18m 31s", "remaining_time": "1d 17h 53m 56s"}
{"loss": 0.71124969, "token_acc": 0.82567771, "grad_norm": 5.66845798, "learning_rate": 8.05e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096057, "epoch": 0.32668816, "global_step/max_steps": "7025/21503", "percentage": "32.67%", "elapsed_time": "20h 18m 53s", "remaining_time": "1d 17h 52m 3s"}
{"loss": 0.7744904, "token_acc": 0.81458426, "grad_norm": 7.68733406, "learning_rate": 8.05e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096096, "epoch": 0.32692067, "global_step/max_steps": "7030/21503", "percentage": "32.69%", "elapsed_time": "20h 19m 15s", "remaining_time": "1d 17h 50m 8s"}
{"loss": 0.6508956, "token_acc": 0.83432159, "grad_norm": 6.07849789, "learning_rate": 8.04e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096135, "epoch": 0.32715319, "global_step/max_steps": "7035/21503", "percentage": "32.72%", "elapsed_time": "20h 19m 38s", "remaining_time": "1d 17h 48m 16s"}
{"loss": 0.82922754, "token_acc": 0.79181069, "grad_norm": 5.6432004, "learning_rate": 8.04e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096172, "epoch": 0.32738571, "global_step/max_steps": "7040/21503", "percentage": "32.74%", "elapsed_time": "20h 20m 1s", "remaining_time": "1d 17h 46m 25s"}
{"loss": 0.72854295, "token_acc": 0.81934236, "grad_norm": 6.84637117, "learning_rate": 8.04e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096211, "epoch": 0.32761823, "global_step/max_steps": "7045/21503", "percentage": "32.76%", "elapsed_time": "20h 20m 23s", "remaining_time": "1d 17h 44m 32s"}
{"loss": 0.77443018, "token_acc": 0.81810562, "grad_norm": 7.87146997, "learning_rate": 8.03e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.09625, "epoch": 0.32785075, "global_step/max_steps": "7050/21503", "percentage": "32.79%", "elapsed_time": "20h 20m 46s", "remaining_time": "1d 17h 42m 41s"}
{"eval_loss": 0.64247406, "eval_runtime": 295.611, "eval_samples_per_second": 11.755, "eval_steps_per_second": 11.755, "epoch": 0.32785075, "global_step/max_steps": "7050/21503", "percentage": "32.79%", "elapsed_time": "20h 25m 42s", "remaining_time": "1d 17h 52m 47s"}
{"loss": 0.75831022, "token_acc": 0.8147747, "grad_norm": 6.07077074, "learning_rate": 8.03e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095901, "epoch": 0.32808326, "global_step/max_steps": "7055/21503", "percentage": "32.81%", "elapsed_time": "20h 26m 5s", "remaining_time": "1d 17h 50m 55s"}
{"loss": 0.8310545, "token_acc": 0.79474097, "grad_norm": 7.50175238, "learning_rate": 8.03e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095939, "epoch": 0.32831578, "global_step/max_steps": "7060/21503", "percentage": "32.83%", "elapsed_time": "20h 26m 28s", "remaining_time": "1d 17h 49m 3s"}
{"loss": 0.7447207, "token_acc": 0.81623586, "grad_norm": 8.23862362, "learning_rate": 8.02e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095977, "epoch": 0.3285483, "global_step/max_steps": "7065/21503", "percentage": "32.86%", "elapsed_time": "20h 26m 51s", "remaining_time": "1d 17h 47m 11s"}
{"loss": 0.81371651, "token_acc": 0.79759174, "grad_norm": 7.50019312, "learning_rate": 8.02e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096015, "epoch": 0.32878082, "global_step/max_steps": "7070/21503", "percentage": "32.88%", "elapsed_time": "20h 27m 14s", "remaining_time": "1d 17h 45m 20s"}
{"loss": 0.75937095, "token_acc": 0.8170638, "grad_norm": 7.27579641, "learning_rate": 8.02e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096051, "epoch": 0.32901334, "global_step/max_steps": "7075/21503", "percentage": "32.90%", "elapsed_time": "20h 27m 38s", "remaining_time": "1d 17h 43m 31s"}
{"loss": 0.77902145, "token_acc": 0.80540701, "grad_norm": 7.27281141, "learning_rate": 8.02e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096089, "epoch": 0.32924586, "global_step/max_steps": "7080/21503", "percentage": "32.93%", "elapsed_time": "20h 28m 1s", "remaining_time": "1d 17h 41m 40s"}
{"loss": 0.75523291, "token_acc": 0.82162336, "grad_norm": 8.29163837, "learning_rate": 8.01e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096127, "epoch": 0.32947837, "global_step/max_steps": "7085/21503", "percentage": "32.95%", "elapsed_time": "20h 28m 24s", "remaining_time": "1d 17h 39m 48s"}
{"loss": 0.74879327, "token_acc": 0.81644359, "grad_norm": 7.04937506, "learning_rate": 8.01e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096163, "epoch": 0.32971089, "global_step/max_steps": "7090/21503", "percentage": "32.97%", "elapsed_time": "20h 28m 48s", "remaining_time": "1d 17h 38m 0s"}
{"loss": 0.66914601, "token_acc": 0.82587666, "grad_norm": 6.85177755, "learning_rate": 8.01e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096201, "epoch": 0.32994341, "global_step/max_steps": "7095/21503", "percentage": "33.00%", "elapsed_time": "20h 29m 11s", "remaining_time": "1d 17h 36m 8s"}
{"loss": 0.65043912, "token_acc": 0.83187524, "grad_norm": 6.3490653, "learning_rate": 8e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096239, "epoch": 0.33017593, "global_step/max_steps": "7100/21503", "percentage": "33.02%", "elapsed_time": "20h 29m 34s", "remaining_time": "1d 17h 34m 17s"}
{"eval_loss": 0.6397922, "eval_runtime": 293.0806, "eval_samples_per_second": 11.857, "eval_steps_per_second": 11.857, "epoch": 0.33017593, "global_step/max_steps": "7100/21503", "percentage": "33.02%", "elapsed_time": "20h 34m 27s", "remaining_time": "1d 17h 44m 12s"}
{"loss": 0.7974843, "token_acc": 0.81494284, "grad_norm": 6.70984316, "learning_rate": 8e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095896, "epoch": 0.33040845, "global_step/max_steps": "7105/21503", "percentage": "33.04%", "elapsed_time": "20h 34m 50s", "remaining_time": "1d 17h 42m 21s"}
{"loss": 0.77687254, "token_acc": 0.81562252, "grad_norm": 7.30489445, "learning_rate": 8e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095935, "epoch": 0.33064097, "global_step/max_steps": "7110/21503", "percentage": "33.07%", "elapsed_time": "20h 35m 12s", "remaining_time": "1d 17h 40m 28s"}
{"loss": 0.7170722, "token_acc": 0.8237372, "grad_norm": 7.3210578, "learning_rate": 7.99e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095972, "epoch": 0.33087348, "global_step/max_steps": "7115/21503", "percentage": "33.09%", "elapsed_time": "20h 35m 35s", "remaining_time": "1d 17h 38m 38s"}
{"loss": 0.68830972, "token_acc": 0.84260404, "grad_norm": 5.71413374, "learning_rate": 7.99e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.09601, "epoch": 0.331106, "global_step/max_steps": "7120/21503", "percentage": "33.11%", "elapsed_time": "20h 35m 58s", "remaining_time": "1d 17h 36m 46s"}
{"loss": 0.80809097, "token_acc": 0.80114492, "grad_norm": 6.04699707, "learning_rate": 7.99e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096048, "epoch": 0.33133852, "global_step/max_steps": "7125/21503", "percentage": "33.13%", "elapsed_time": "20h 36m 21s", "remaining_time": "1d 17h 34m 55s"}
{"loss": 0.78447256, "token_acc": 0.79447853, "grad_norm": 5.46244764, "learning_rate": 7.98e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096086, "epoch": 0.33157104, "global_step/max_steps": "7130/21503", "percentage": "33.16%", "elapsed_time": "20h 36m 44s", "remaining_time": "1d 17h 33m 4s"}
{"loss": 0.69019384, "token_acc": 0.83976007, "grad_norm": 7.00644207, "learning_rate": 7.98e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096124, "epoch": 0.33180356, "global_step/max_steps": "7135/21503", "percentage": "33.18%", "elapsed_time": "20h 37m 6s", "remaining_time": "1d 17h 31m 13s"}
{"loss": 0.68629851, "token_acc": 0.82121212, "grad_norm": 5.26281548, "learning_rate": 7.98e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096162, "epoch": 0.33203608, "global_step/max_steps": "7140/21503", "percentage": "33.20%", "elapsed_time": "20h 37m 29s", "remaining_time": "1d 17h 29m 22s"}
{"loss": 0.6916151, "token_acc": 0.8359317, "grad_norm": 6.18789864, "learning_rate": 7.98e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096199, "epoch": 0.33226859, "global_step/max_steps": "7145/21503", "percentage": "33.23%", "elapsed_time": "20h 37m 52s", "remaining_time": "1d 17h 27m 32s"}
{"loss": 0.60476704, "token_acc": 0.85149502, "grad_norm": 7.04493856, "learning_rate": 7.97e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096237, "epoch": 0.33250111, "global_step/max_steps": "7150/21503", "percentage": "33.25%", "elapsed_time": "20h 38m 15s", "remaining_time": "1d 17h 25m 42s"}
{"eval_loss": 0.64070964, "eval_runtime": 289.414, "eval_samples_per_second": 12.007, "eval_steps_per_second": 12.007, "epoch": 0.33250111, "global_step/max_steps": "7150/21503", "percentage": "33.25%", "elapsed_time": "20h 43m 5s", "remaining_time": "1d 17h 35m 23s"}
{"loss": 0.78023195, "token_acc": 0.81513665, "grad_norm": 7.65560722, "learning_rate": 7.97e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095901, "epoch": 0.33273363, "global_step/max_steps": "7155/21503", "percentage": "33.27%", "elapsed_time": "20h 43m 28s", "remaining_time": "1d 17h 33m 32s"}
{"loss": 0.67930174, "token_acc": 0.83272328, "grad_norm": 6.08459473, "learning_rate": 7.97e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095939, "epoch": 0.33296615, "global_step/max_steps": "7160/21503", "percentage": "33.30%", "elapsed_time": "20h 43m 50s", "remaining_time": "1d 17h 31m 41s"}
{"loss": 0.77659059, "token_acc": 0.80968759, "grad_norm": 5.908885, "learning_rate": 7.96e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095975, "epoch": 0.33319867, "global_step/max_steps": "7165/21503", "percentage": "33.32%", "elapsed_time": "20h 44m 14s", "remaining_time": "1d 17h 29m 52s"}
{"loss": 0.69584088, "token_acc": 0.82908497, "grad_norm": 5.66258955, "learning_rate": 7.96e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096012, "epoch": 0.33343118, "global_step/max_steps": "7170/21503", "percentage": "33.34%", "elapsed_time": "20h 44m 37s", "remaining_time": "1d 17h 28m 2s"}
{"loss": 0.73871212, "token_acc": 0.82283885, "grad_norm": 6.87739038, "learning_rate": 7.96e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096049, "epoch": 0.3336637, "global_step/max_steps": "7175/21503", "percentage": "33.37%", "elapsed_time": "20h 45m 1s", "remaining_time": "1d 17h 26m 13s"}
{"loss": 0.75482631, "token_acc": 0.82225598, "grad_norm": 8.14645004, "learning_rate": 7.95e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096086, "epoch": 0.33389622, "global_step/max_steps": "7180/21503", "percentage": "33.39%", "elapsed_time": "20h 45m 24s", "remaining_time": "1d 17h 24m 23s"}
{"loss": 0.82798758, "token_acc": 0.80591879, "grad_norm": 6.59778976, "learning_rate": 7.95e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096124, "epoch": 0.33412874, "global_step/max_steps": "7185/21503", "percentage": "33.41%", "elapsed_time": "20h 45m 46s", "remaining_time": "1d 17h 22m 32s"}
{"loss": 0.725425, "token_acc": 0.8295351, "grad_norm": 7.29071379, "learning_rate": 7.95e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096162, "epoch": 0.33436126, "global_step/max_steps": "7190/21503", "percentage": "33.44%", "elapsed_time": "20h 46m 9s", "remaining_time": "1d 17h 20m 41s"}
{"loss": 0.82181196, "token_acc": 0.78693182, "grad_norm": 6.38136292, "learning_rate": 7.94e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096199, "epoch": 0.33459378, "global_step/max_steps": "7195/21503", "percentage": "33.46%", "elapsed_time": "20h 46m 32s", "remaining_time": "1d 17h 18m 52s"}
{"loss": 0.74548454, "token_acc": 0.80887258, "grad_norm": 7.90849257, "learning_rate": 7.94e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096237, "epoch": 0.33482629, "global_step/max_steps": "7200/21503", "percentage": "33.48%", "elapsed_time": "20h 46m 55s", "remaining_time": "1d 17h 17m 2s"}
{"eval_loss": 0.64194727, "eval_runtime": 292.8292, "eval_samples_per_second": 11.867, "eval_steps_per_second": 11.867, "epoch": 0.33482629, "global_step/max_steps": "7200/21503", "percentage": "33.48%", "elapsed_time": "20h 51m 47s", "remaining_time": "1d 17h 26m 43s"}
{"loss": 0.75712132, "token_acc": 0.81467781, "grad_norm": 8.64115429, "learning_rate": 7.94e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095899, "epoch": 0.33505881, "global_step/max_steps": "7205/21503", "percentage": "33.51%", "elapsed_time": "20h 52m 10s", "remaining_time": "1d 17h 24m 54s"}
{"loss": 0.9509881, "token_acc": 0.76777939, "grad_norm": 5.16782713, "learning_rate": 7.94e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095935, "epoch": 0.33529133, "global_step/max_steps": "7210/21503", "percentage": "33.53%", "elapsed_time": "20h 52m 34s", "remaining_time": "1d 17h 23m 6s"}
{"loss": 0.73278937, "token_acc": 0.81236284, "grad_norm": 7.85144567, "learning_rate": 7.93e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095971, "epoch": 0.33552385, "global_step/max_steps": "7215/21503", "percentage": "33.55%", "elapsed_time": "20h 52m 58s", "remaining_time": "1d 17h 21m 17s"}
{"loss": 0.72168274, "token_acc": 0.82541522, "grad_norm": 7.09882879, "learning_rate": 7.93e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096008, "epoch": 0.33575637, "global_step/max_steps": "7220/21503", "percentage": "33.58%", "elapsed_time": "20h 53m 21s", "remaining_time": "1d 17h 19m 27s"}
{"loss": 0.82736702, "token_acc": 0.78733432, "grad_norm": 7.26314306, "learning_rate": 7.93e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096045, "epoch": 0.33598889, "global_step/max_steps": "7225/21503", "percentage": "33.60%", "elapsed_time": "20h 53m 44s", "remaining_time": "1d 17h 17m 39s"}
{"loss": 0.627738, "token_acc": 0.84717608, "grad_norm": 7.28077841, "learning_rate": 7.92e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096083, "epoch": 0.3362214, "global_step/max_steps": "7230/21503", "percentage": "33.62%", "elapsed_time": "20h 54m 7s", "remaining_time": "1d 17h 15m 48s"}
{"loss": 0.76106186, "token_acc": 0.81352187, "grad_norm": 7.69158888, "learning_rate": 7.92e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096121, "epoch": 0.33645392, "global_step/max_steps": "7235/21503", "percentage": "33.65%", "elapsed_time": "20h 54m 29s", "remaining_time": "1d 17h 13m 57s"}
{"loss": 0.75696859, "token_acc": 0.82542846, "grad_norm": 6.55484629, "learning_rate": 7.92e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096159, "epoch": 0.33668644, "global_step/max_steps": "7240/21503", "percentage": "33.67%", "elapsed_time": "20h 54m 52s", "remaining_time": "1d 17h 12m 7s"}
{"loss": 0.74050231, "token_acc": 0.8135833, "grad_norm": 6.92718267, "learning_rate": 7.91e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096195, "epoch": 0.33691896, "global_step/max_steps": "7245/21503", "percentage": "33.69%", "elapsed_time": "20h 55m 15s", "remaining_time": "1d 17h 10m 19s"}
{"loss": 0.66382046, "token_acc": 0.83942457, "grad_norm": 6.63757038, "learning_rate": 7.91e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096233, "epoch": 0.33715148, "global_step/max_steps": "7250/21503", "percentage": "33.72%", "elapsed_time": "20h 55m 37s", "remaining_time": "1d 17h 8m 28s"}
{"eval_loss": 0.63804376, "eval_runtime": 292.3654, "eval_samples_per_second": 11.886, "eval_steps_per_second": 11.886, "epoch": 0.33715148, "global_step/max_steps": "7250/21503", "percentage": "33.72%", "elapsed_time": "21h 0m 29s", "remaining_time": "1d 17h 18m 3s"}
{"loss": 0.72391796, "token_acc": 0.81555836, "grad_norm": 7.66638231, "learning_rate": 7.91e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095897, "epoch": 0.337384, "global_step/max_steps": "7255/21503", "percentage": "33.74%", "elapsed_time": "21h 0m 53s", "remaining_time": "1d 17h 16m 15s"}
{"loss": 0.71783128, "token_acc": 0.82589928, "grad_norm": 5.59001112, "learning_rate": 7.9e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095936, "epoch": 0.33761651, "global_step/max_steps": "7260/21503", "percentage": "33.76%", "elapsed_time": "21h 1m 15s", "remaining_time": "1d 17h 14m 23s"}
{"loss": 0.73598971, "token_acc": 0.82243685, "grad_norm": 6.32106972, "learning_rate": 7.9e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095972, "epoch": 0.33784903, "global_step/max_steps": "7265/21503", "percentage": "33.79%", "elapsed_time": "21h 1m 38s", "remaining_time": "1d 17h 12m 35s"}
{"loss": 0.68154974, "token_acc": 0.82785714, "grad_norm": 7.23459387, "learning_rate": 7.9e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.09601, "epoch": 0.33808155, "global_step/max_steps": "7270/21503", "percentage": "33.81%", "elapsed_time": "21h 2m 0s", "remaining_time": "1d 17h 10m 44s"}
{"loss": 0.8643549, "token_acc": 0.80541872, "grad_norm": 7.68440628, "learning_rate": 7.89e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096048, "epoch": 0.33831407, "global_step/max_steps": "7275/21503", "percentage": "33.83%", "elapsed_time": "21h 2m 23s", "remaining_time": "1d 17h 8m 53s"}
{"loss": 0.66937604, "token_acc": 0.84822203, "grad_norm": 8.58509159, "learning_rate": 7.89e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096086, "epoch": 0.33854659, "global_step/max_steps": "7280/21503", "percentage": "33.86%", "elapsed_time": "21h 2m 45s", "remaining_time": "1d 17h 7m 3s"}
{"loss": 0.75028796, "token_acc": 0.80694981, "grad_norm": 8.7010088, "learning_rate": 7.89e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096123, "epoch": 0.3387791, "global_step/max_steps": "7285/21503", "percentage": "33.88%", "elapsed_time": "21h 3m 8s", "remaining_time": "1d 17h 5m 14s"}
{"loss": 0.71517797, "token_acc": 0.82917261, "grad_norm": 7.46151686, "learning_rate": 7.89e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096161, "epoch": 0.33901162, "global_step/max_steps": "7290/21503", "percentage": "33.90%", "elapsed_time": "21h 3m 30s", "remaining_time": "1d 17h 3m 23s"}
{"loss": 0.83599281, "token_acc": 0.81377871, "grad_norm": 6.5774622, "learning_rate": 7.88e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096198, "epoch": 0.33924414, "global_step/max_steps": "7295/21503", "percentage": "33.93%", "elapsed_time": "21h 3m 52s", "remaining_time": "1d 17h 1m 34s"}
{"loss": 0.75427985, "token_acc": 0.80351334, "grad_norm": 7.91494417, "learning_rate": 7.88e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096236, "epoch": 0.33947666, "global_step/max_steps": "7300/21503", "percentage": "33.95%", "elapsed_time": "21h 4m 15s", "remaining_time": "1d 16h 59m 45s"}
{"eval_loss": 0.63901025, "eval_runtime": 290.9563, "eval_samples_per_second": 11.943, "eval_steps_per_second": 11.943, "epoch": 0.33947666, "global_step/max_steps": "7300/21503", "percentage": "33.95%", "elapsed_time": "21h 9m 6s", "remaining_time": "1d 17h 9m 11s"}
{"loss": 0.66864376, "token_acc": 0.81558217, "grad_norm": 7.2651763, "learning_rate": 7.88e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095904, "epoch": 0.33970918, "global_step/max_steps": "7305/21503", "percentage": "33.97%", "elapsed_time": "21h 9m 30s", "remaining_time": "1d 17h 7m 24s"}
{"loss": 0.63594031, "token_acc": 0.84548826, "grad_norm": 10.1553793, "learning_rate": 7.87e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.09594, "epoch": 0.3399417, "global_step/max_steps": "7310/21503", "percentage": "34.00%", "elapsed_time": "21h 9m 52s", "remaining_time": "1d 17h 5m 35s"}
{"loss": 0.76600146, "token_acc": 0.8152404, "grad_norm": 6.69267559, "learning_rate": 7.87e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095978, "epoch": 0.34017421, "global_step/max_steps": "7315/21503", "percentage": "34.02%", "elapsed_time": "21h 10m 15s", "remaining_time": "1d 17h 3m 44s"}
{"loss": 0.70881886, "token_acc": 0.8209607, "grad_norm": 8.657691, "learning_rate": 7.87e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096017, "epoch": 0.34040673, "global_step/max_steps": "7320/21503", "percentage": "34.04%", "elapsed_time": "21h 10m 36s", "remaining_time": "1d 17h 1m 53s"}
{"loss": 0.66758437, "token_acc": 0.83243756, "grad_norm": 5.40556002, "learning_rate": 7.86e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096054, "epoch": 0.34063925, "global_step/max_steps": "7325/21503", "percentage": "34.07%", "elapsed_time": "21h 10m 58s", "remaining_time": "1d 17h 0m 3s"}
{"loss": 0.75775437, "token_acc": 0.81179346, "grad_norm": 5.31632042, "learning_rate": 7.86e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096091, "epoch": 0.34087177, "global_step/max_steps": "7330/21503", "percentage": "34.09%", "elapsed_time": "21h 11m 21s", "remaining_time": "1d 16h 58m 14s"}
{"loss": 0.61434593, "token_acc": 0.8409629, "grad_norm": 7.52123165, "learning_rate": 7.86e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096129, "epoch": 0.34110429, "global_step/max_steps": "7335/21503", "percentage": "34.11%", "elapsed_time": "21h 11m 43s", "remaining_time": "1d 16h 56m 25s"}
{"loss": 0.67256365, "token_acc": 0.83627717, "grad_norm": 7.03181982, "learning_rate": 7.85e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096166, "epoch": 0.34133681, "global_step/max_steps": "7340/21503", "percentage": "34.13%", "elapsed_time": "21h 12m 5s", "remaining_time": "1d 16h 54m 35s"}
{"loss": 0.64732008, "token_acc": 0.83678399, "grad_norm": 5.72618294, "learning_rate": 7.85e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096204, "epoch": 0.34156932, "global_step/max_steps": "7345/21503", "percentage": "34.16%", "elapsed_time": "21h 12m 27s", "remaining_time": "1d 16h 52m 45s"}
{"loss": 0.8898324, "token_acc": 0.7603328, "grad_norm": 7.18748665, "learning_rate": 7.85e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096241, "epoch": 0.34180184, "global_step/max_steps": "7350/21503", "percentage": "34.18%", "elapsed_time": "21h 12m 50s", "remaining_time": "1d 16h 50m 56s"}
{"eval_loss": 0.63624436, "eval_runtime": 291.2812, "eval_samples_per_second": 11.93, "eval_steps_per_second": 11.93, "epoch": 0.34180184, "global_step/max_steps": "7350/21503", "percentage": "34.18%", "elapsed_time": "21h 17m 41s", "remaining_time": "1d 17h 0m 17s"}
{"loss": 0.7369, "token_acc": 0.81531886, "grad_norm": 8.46812725, "learning_rate": 7.84e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095912, "epoch": 0.34203436, "global_step/max_steps": "7355/21503", "percentage": "34.20%", "elapsed_time": "21h 18m 4s", "remaining_time": "1d 16h 58m 29s"}
{"loss": 0.81172543, "token_acc": 0.80397265, "grad_norm": 6.77447081, "learning_rate": 7.84e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095949, "epoch": 0.34226688, "global_step/max_steps": "7360/21503", "percentage": "34.23%", "elapsed_time": "21h 18m 27s", "remaining_time": "1d 16h 56m 40s"}
{"loss": 0.66354718, "token_acc": 0.82549767, "grad_norm": 7.67664099, "learning_rate": 7.84e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095987, "epoch": 0.3424994, "global_step/max_steps": "7365/21503", "percentage": "34.25%", "elapsed_time": "21h 18m 49s", "remaining_time": "1d 16h 54m 50s"}
{"loss": 0.7754478, "token_acc": 0.79873265, "grad_norm": 6.06157541, "learning_rate": 7.83e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096023, "epoch": 0.34273192, "global_step/max_steps": "7370/21503", "percentage": "34.27%", "elapsed_time": "21h 19m 12s", "remaining_time": "1d 16h 53m 2s"}
{"loss": 0.72059269, "token_acc": 0.82457213, "grad_norm": 7.20585346, "learning_rate": 7.83e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.09606, "epoch": 0.34296443, "global_step/max_steps": "7375/21503", "percentage": "34.30%", "elapsed_time": "21h 19m 35s", "remaining_time": "1d 16h 51m 14s"}
{"loss": 0.76855273, "token_acc": 0.80140187, "grad_norm": 7.25894117, "learning_rate": 7.83e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096096, "epoch": 0.34319695, "global_step/max_steps": "7380/21503", "percentage": "34.32%", "elapsed_time": "21h 19m 58s", "remaining_time": "1d 16h 49m 27s"}
{"loss": 0.74063325, "token_acc": 0.8115747, "grad_norm": 7.45885658, "learning_rate": 7.83e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096133, "epoch": 0.34342947, "global_step/max_steps": "7385/21503", "percentage": "34.34%", "elapsed_time": "21h 20m 20s", "remaining_time": "1d 16h 47m 39s"}
{"loss": 0.66032472, "token_acc": 0.83219054, "grad_norm": 6.19980621, "learning_rate": 7.82e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096169, "epoch": 0.34366199, "global_step/max_steps": "7390/21503", "percentage": "34.37%", "elapsed_time": "21h 20m 43s", "remaining_time": "1d 16h 45m 50s"}
{"loss": 0.78047204, "token_acc": 0.79892617, "grad_norm": 6.64419603, "learning_rate": 7.82e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096206, "epoch": 0.34389451, "global_step/max_steps": "7395/21503", "percentage": "34.39%", "elapsed_time": "21h 21m 5s", "remaining_time": "1d 16h 44m 2s"}
{"loss": 0.63242044, "token_acc": 0.83678015, "grad_norm": 5.65914917, "learning_rate": 7.82e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096243, "epoch": 0.34412702, "global_step/max_steps": "7400/21503", "percentage": "34.41%", "elapsed_time": "21h 21m 28s", "remaining_time": "1d 16h 42m 14s"}
{"eval_loss": 0.63970804, "eval_runtime": 293.3095, "eval_samples_per_second": 11.848, "eval_steps_per_second": 11.848, "epoch": 0.34412702, "global_step/max_steps": "7400/21503", "percentage": "34.41%", "elapsed_time": "21h 26m 21s", "remaining_time": "1d 16h 51m 34s"}
{"loss": 0.81795454, "token_acc": 0.815536, "grad_norm": 5.59712648, "learning_rate": 7.81e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095913, "epoch": 0.34435954, "global_step/max_steps": "7405/21503", "percentage": "34.44%", "elapsed_time": "21h 26m 45s", "remaining_time": "1d 16h 49m 47s"}
{"loss": 0.76029143, "token_acc": 0.81231575, "grad_norm": 6.57248449, "learning_rate": 7.81e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095949, "epoch": 0.34459206, "global_step/max_steps": "7410/21503", "percentage": "34.46%", "elapsed_time": "21h 27m 8s", "remaining_time": "1d 16h 47m 59s"}
{"loss": 0.66473088, "token_acc": 0.84255319, "grad_norm": 6.53602934, "learning_rate": 7.81e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095986, "epoch": 0.34482458, "global_step/max_steps": "7415/21503", "percentage": "34.48%", "elapsed_time": "21h 27m 30s", "remaining_time": "1d 16h 46m 10s"}
{"loss": 0.73837605, "token_acc": 0.80753002, "grad_norm": 7.27309465, "learning_rate": 7.8e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096024, "epoch": 0.3450571, "global_step/max_steps": "7420/21503", "percentage": "34.51%", "elapsed_time": "21h 27m 52s", "remaining_time": "1d 16h 44m 20s"}
{"loss": 0.77198906, "token_acc": 0.82207792, "grad_norm": 6.73494768, "learning_rate": 7.8e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096062, "epoch": 0.34528962, "global_step/max_steps": "7425/21503", "percentage": "34.53%", "elapsed_time": "21h 28m 13s", "remaining_time": "1d 16h 42m 31s"}
{"loss": 0.79490809, "token_acc": 0.80070671, "grad_norm": 6.63937092, "learning_rate": 7.8e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096099, "epoch": 0.34552213, "global_step/max_steps": "7430/21503", "percentage": "34.55%", "elapsed_time": "21h 28m 35s", "remaining_time": "1d 16h 40m 41s"}
{"loss": 0.73848352, "token_acc": 0.81036408, "grad_norm": 4.5760107, "learning_rate": 7.79e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096134, "epoch": 0.34575465, "global_step/max_steps": "7435/21503", "percentage": "34.58%", "elapsed_time": "21h 28m 59s", "remaining_time": "1d 16h 38m 56s"}
{"loss": 0.74758573, "token_acc": 0.81803332, "grad_norm": 7.08085299, "learning_rate": 7.79e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096171, "epoch": 0.34598717, "global_step/max_steps": "7440/21503", "percentage": "34.60%", "elapsed_time": "21h 29m 21s", "remaining_time": "1d 16h 37m 8s"}
{"loss": 0.70285778, "token_acc": 0.82175417, "grad_norm": 6.29235458, "learning_rate": 7.79e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096206, "epoch": 0.34621969, "global_step/max_steps": "7445/21503", "percentage": "34.62%", "elapsed_time": "21h 29m 45s", "remaining_time": "1d 16h 35m 22s"}
{"loss": 0.67322741, "token_acc": 0.83632112, "grad_norm": 6.97780895, "learning_rate": 7.78e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096243, "epoch": 0.34645221, "global_step/max_steps": "7450/21503", "percentage": "34.65%", "elapsed_time": "21h 30m 8s", "remaining_time": "1d 16h 33m 35s"}
{"eval_loss": 0.63316882, "eval_runtime": 290.2598, "eval_samples_per_second": 11.972, "eval_steps_per_second": 11.972, "epoch": 0.34645221, "global_step/max_steps": "7450/21503", "percentage": "34.65%", "elapsed_time": "21h 34m 58s", "remaining_time": "1d 16h 42m 43s"}
{"loss": 0.70755439, "token_acc": 0.81636602, "grad_norm": 7.25790691, "learning_rate": 7.78e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095919, "epoch": 0.34668473, "global_step/max_steps": "7455/21503", "percentage": "34.67%", "elapsed_time": "21h 35m 21s", "remaining_time": "1d 16h 40m 56s"}
{"loss": 0.70773935, "token_acc": 0.81916873, "grad_norm": 6.58299112, "learning_rate": 7.78e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095955, "epoch": 0.34691724, "global_step/max_steps": "7460/21503", "percentage": "34.69%", "elapsed_time": "21h 35m 44s", "remaining_time": "1d 16h 39m 9s"}
{"loss": 0.69266648, "token_acc": 0.82610229, "grad_norm": 7.52247095, "learning_rate": 7.77e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095991, "epoch": 0.34714976, "global_step/max_steps": "7465/21503", "percentage": "34.72%", "elapsed_time": "21h 36m 7s", "remaining_time": "1d 16h 37m 22s"}
{"loss": 0.70909567, "token_acc": 0.82616618, "grad_norm": 7.29536724, "learning_rate": 7.77e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096027, "epoch": 0.34738228, "global_step/max_steps": "7470/21503", "percentage": "34.74%", "elapsed_time": "21h 36m 30s", "remaining_time": "1d 16h 35m 35s"}
{"loss": 0.76000671, "token_acc": 0.80671478, "grad_norm": 5.63749409, "learning_rate": 7.77e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096063, "epoch": 0.3476148, "global_step/max_steps": "7475/21503", "percentage": "34.76%", "elapsed_time": "21h 36m 53s", "remaining_time": "1d 16h 33m 48s"}
{"loss": 0.80458488, "token_acc": 0.79074733, "grad_norm": 6.28878546, "learning_rate": 7.76e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096099, "epoch": 0.34784732, "global_step/max_steps": "7480/21503", "percentage": "34.79%", "elapsed_time": "21h 37m 15s", "remaining_time": "1d 16h 32m 1s"}
{"loss": 0.65501809, "token_acc": 0.83897216, "grad_norm": 7.79251957, "learning_rate": 7.76e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096136, "epoch": 0.34807984, "global_step/max_steps": "7485/21503", "percentage": "34.81%", "elapsed_time": "21h 37m 38s", "remaining_time": "1d 16h 30m 14s"}
{"loss": 0.70513802, "token_acc": 0.82500849, "grad_norm": 4.87918711, "learning_rate": 7.76e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096172, "epoch": 0.34831235, "global_step/max_steps": "7490/21503", "percentage": "34.83%", "elapsed_time": "21h 38m 0s", "remaining_time": "1d 16h 28m 26s"}
{"loss": 0.66214719, "token_acc": 0.83924562, "grad_norm": 7.75620556, "learning_rate": 7.76e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096209, "epoch": 0.34854487, "global_step/max_steps": "7495/21503", "percentage": "34.86%", "elapsed_time": "21h 38m 23s", "remaining_time": "1d 16h 26m 39s"}
{"loss": 0.69914212, "token_acc": 0.82807515, "grad_norm": 6.80286312, "learning_rate": 7.75e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096245, "epoch": 0.34877739, "global_step/max_steps": "7500/21503", "percentage": "34.88%", "elapsed_time": "21h 38m 45s", "remaining_time": "1d 16h 24m 52s"}
{"eval_loss": 0.63749665, "eval_runtime": 292.9641, "eval_samples_per_second": 11.862, "eval_steps_per_second": 11.862, "epoch": 0.34877739, "global_step/max_steps": "7500/21503", "percentage": "34.88%", "elapsed_time": "21h 43m 38s", "remaining_time": "1d 16h 33m 59s"}
{"loss": 0.67739673, "token_acc": 0.81702729, "grad_norm": 7.60279703, "learning_rate": 7.75e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095921, "epoch": 0.34900991, "global_step/max_steps": "7505/21503", "percentage": "34.90%", "elapsed_time": "21h 44m 1s", "remaining_time": "1d 16h 32m 12s"}
{"loss": 0.80456963, "token_acc": 0.79741379, "grad_norm": 5.85328817, "learning_rate": 7.75e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095957, "epoch": 0.34924243, "global_step/max_steps": "7510/21503", "percentage": "34.93%", "elapsed_time": "21h 44m 24s", "remaining_time": "1d 16h 30m 25s"}
{"loss": 0.5909008, "token_acc": 0.8477551, "grad_norm": 7.79038906, "learning_rate": 7.74e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095993, "epoch": 0.34947494, "global_step/max_steps": "7515/21503", "percentage": "34.95%", "elapsed_time": "21h 44m 46s", "remaining_time": "1d 16h 28m 38s"}
{"loss": 0.63431983, "token_acc": 0.84138521, "grad_norm": 11.22994137, "learning_rate": 7.74e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096029, "epoch": 0.34970746, "global_step/max_steps": "7520/21503", "percentage": "34.97%", "elapsed_time": "21h 45m 9s", "remaining_time": "1d 16h 26m 52s"}
{"loss": 0.62618036, "token_acc": 0.85153722, "grad_norm": 7.57761812, "learning_rate": 7.74e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096064, "epoch": 0.34993998, "global_step/max_steps": "7525/21503", "percentage": "35.00%", "elapsed_time": "21h 45m 32s", "remaining_time": "1d 16h 25m 6s"}
{"loss": 0.77792048, "token_acc": 0.81012658, "grad_norm": 5.74494267, "learning_rate": 7.73e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096099, "epoch": 0.3501725, "global_step/max_steps": "7530/21503", "percentage": "35.02%", "elapsed_time": "21h 45m 56s", "remaining_time": "1d 16h 23m 21s"}
{"loss": 0.69126201, "token_acc": 0.82877527, "grad_norm": 6.30633163, "learning_rate": 7.73e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096135, "epoch": 0.35040502, "global_step/max_steps": "7535/21503", "percentage": "35.04%", "elapsed_time": "21h 46m 19s", "remaining_time": "1d 16h 21m 35s"}
{"loss": 0.75437021, "token_acc": 0.816826, "grad_norm": 7.44096947, "learning_rate": 7.73e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096171, "epoch": 0.35063754, "global_step/max_steps": "7540/21503", "percentage": "35.06%", "elapsed_time": "21h 46m 42s", "remaining_time": "1d 16h 19m 49s"}
{"loss": 0.75018048, "token_acc": 0.81327941, "grad_norm": 6.49027634, "learning_rate": 7.72e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096206, "epoch": 0.35087005, "global_step/max_steps": "7545/21503", "percentage": "35.09%", "elapsed_time": "21h 47m 4s", "remaining_time": "1d 16h 18m 3s"}
{"loss": 0.75690732, "token_acc": 0.81726231, "grad_norm": 6.40207767, "learning_rate": 7.72e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096243, "epoch": 0.35110257, "global_step/max_steps": "7550/21503", "percentage": "35.11%", "elapsed_time": "21h 47m 27s", "remaining_time": "1d 16h 16m 16s"}
{"eval_loss": 0.63715988, "eval_runtime": 293.6264, "eval_samples_per_second": 11.835, "eval_steps_per_second": 11.835, "epoch": 0.35110257, "global_step/max_steps": "7550/21503", "percentage": "35.11%", "elapsed_time": "21h 52m 20s", "remaining_time": "1d 16h 25m 19s"}
{"loss": 0.66149025, "token_acc": 0.81637594, "grad_norm": 6.45794439, "learning_rate": 7.72e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095919, "epoch": 0.35133509, "global_step/max_steps": "7555/21503", "percentage": "35.13%", "elapsed_time": "21h 52m 43s", "remaining_time": "1d 16h 23m 33s"}
{"loss": 0.83126936, "token_acc": 0.78705341, "grad_norm": 9.46358395, "learning_rate": 7.71e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095956, "epoch": 0.35156761, "global_step/max_steps": "7560/21503", "percentage": "35.16%", "elapsed_time": "21h 53m 5s", "remaining_time": "1d 16h 21m 45s"}
{"loss": 0.70189095, "token_acc": 0.82547479, "grad_norm": 7.32045937, "learning_rate": 7.71e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095992, "epoch": 0.35180013, "global_step/max_steps": "7565/21503", "percentage": "35.18%", "elapsed_time": "21h 53m 28s", "remaining_time": "1d 16h 19m 59s"}
{"loss": 0.75981646, "token_acc": 0.81912145, "grad_norm": 6.77496004, "learning_rate": 7.71e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096028, "epoch": 0.35203265, "global_step/max_steps": "7570/21503", "percentage": "35.20%", "elapsed_time": "21h 53m 51s", "remaining_time": "1d 16h 18m 12s"}
{"loss": 0.72136698, "token_acc": 0.82757353, "grad_norm": 5.61364174, "learning_rate": 7.7e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096064, "epoch": 0.35226516, "global_step/max_steps": "7575/21503", "percentage": "35.23%", "elapsed_time": "21h 54m 13s", "remaining_time": "1d 16h 16m 26s"}
{"loss": 0.65719037, "token_acc": 0.84699248, "grad_norm": 8.26765728, "learning_rate": 7.7e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096099, "epoch": 0.35249768, "global_step/max_steps": "7580/21503", "percentage": "35.25%", "elapsed_time": "21h 54m 36s", "remaining_time": "1d 16h 14m 41s"}
{"loss": 0.75455265, "token_acc": 0.8162963, "grad_norm": 6.90092516, "learning_rate": 7.7e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096135, "epoch": 0.3527302, "global_step/max_steps": "7585/21503", "percentage": "35.27%", "elapsed_time": "21h 54m 59s", "remaining_time": "1d 16h 12m 55s"}
{"loss": 0.73595667, "token_acc": 0.81554011, "grad_norm": 6.63000917, "learning_rate": 7.69e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096171, "epoch": 0.35296272, "global_step/max_steps": "7590/21503", "percentage": "35.30%", "elapsed_time": "21h 55m 21s", "remaining_time": "1d 16h 11m 9s"}
{"loss": 0.89893055, "token_acc": 0.77993528, "grad_norm": 6.38250208, "learning_rate": 7.69e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096206, "epoch": 0.35319524, "global_step/max_steps": "7595/21503", "percentage": "35.32%", "elapsed_time": "21h 55m 44s", "remaining_time": "1d 16h 9m 24s"}
{"loss": 0.67410898, "token_acc": 0.82595078, "grad_norm": 7.79195261, "learning_rate": 7.69e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096241, "epoch": 0.35342776, "global_step/max_steps": "7600/21503", "percentage": "35.34%", "elapsed_time": "21h 56m 8s", "remaining_time": "1d 16h 7m 40s"}
{"eval_loss": 0.63812035, "eval_runtime": 291.6684, "eval_samples_per_second": 11.914, "eval_steps_per_second": 11.914, "epoch": 0.35342776, "global_step/max_steps": "7600/21503", "percentage": "35.34%", "elapsed_time": "22h 1m 0s", "remaining_time": "1d 16h 16m 33s"}
{"loss": 0.7473597, "token_acc": 0.81666454, "grad_norm": 6.15386963, "learning_rate": 7.68e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095922, "epoch": 0.35366027, "global_step/max_steps": "7605/21503", "percentage": "35.37%", "elapsed_time": "22h 1m 23s", "remaining_time": "1d 16h 14m 48s"}
{"loss": 0.61051941, "token_acc": 0.85532591, "grad_norm": 6.23297596, "learning_rate": 7.68e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095957, "epoch": 0.35389279, "global_step/max_steps": "7610/21503", "percentage": "35.39%", "elapsed_time": "22h 1m 45s", "remaining_time": "1d 16h 13m 2s"}
{"loss": 0.80648928, "token_acc": 0.79941099, "grad_norm": 7.63847876, "learning_rate": 7.68e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095993, "epoch": 0.35412531, "global_step/max_steps": "7615/21503", "percentage": "35.41%", "elapsed_time": "22h 2m 8s", "remaining_time": "1d 16h 11m 16s"}
{"loss": 0.63750019, "token_acc": 0.83362369, "grad_norm": 6.61579418, "learning_rate": 7.67e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096028, "epoch": 0.35435783, "global_step/max_steps": "7620/21503", "percentage": "35.44%", "elapsed_time": "22h 2m 31s", "remaining_time": "1d 16h 9m 31s"}
{"loss": 0.74333439, "token_acc": 0.81803385, "grad_norm": 6.55482292, "learning_rate": 7.67e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096064, "epoch": 0.35459035, "global_step/max_steps": "7625/21503", "percentage": "35.46%", "elapsed_time": "22h 2m 54s", "remaining_time": "1d 16h 7m 46s"}
{"loss": 0.7123982, "token_acc": 0.82251223, "grad_norm": 7.42129087, "learning_rate": 7.67e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.0961, "epoch": 0.35482286, "global_step/max_steps": "7630/21503", "percentage": "35.48%", "elapsed_time": "22h 3m 16s", "remaining_time": "1d 16h 6m 0s"}
{"loss": 0.66210241, "token_acc": 0.84175084, "grad_norm": 6.68900824, "learning_rate": 7.66e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096136, "epoch": 0.35505538, "global_step/max_steps": "7635/21503", "percentage": "35.51%", "elapsed_time": "22h 3m 38s", "remaining_time": "1d 16h 4m 13s"}
{"loss": 0.81940708, "token_acc": 0.78546713, "grad_norm": 8.53667831, "learning_rate": 7.66e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096171, "epoch": 0.3552879, "global_step/max_steps": "7640/21503", "percentage": "35.53%", "elapsed_time": "22h 4m 1s", "remaining_time": "1d 16h 2m 29s"}
{"loss": 0.73508778, "token_acc": 0.81915238, "grad_norm": 7.13675976, "learning_rate": 7.66e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096206, "epoch": 0.35552042, "global_step/max_steps": "7645/21503", "percentage": "35.55%", "elapsed_time": "22h 4m 24s", "remaining_time": "1d 16h 0m 44s"}
{"loss": 0.7065731, "token_acc": 0.82359859, "grad_norm": 6.23105574, "learning_rate": 7.65e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096241, "epoch": 0.35575294, "global_step/max_steps": "7650/21503", "percentage": "35.58%", "elapsed_time": "22h 4m 47s", "remaining_time": "1d 15h 59m 0s"}
{"eval_loss": 0.63417536, "eval_runtime": 292.1601, "eval_samples_per_second": 11.894, "eval_steps_per_second": 11.894, "epoch": 0.35575294, "global_step/max_steps": "7650/21503", "percentage": "35.58%", "elapsed_time": "22h 9m 39s", "remaining_time": "1d 16h 7m 49s"}
{"loss": 0.75243044, "token_acc": 0.81647097, "grad_norm": 8.45167446, "learning_rate": 7.65e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095923, "epoch": 0.35598546, "global_step/max_steps": "7655/21503", "percentage": "35.60%", "elapsed_time": "22h 10m 3s", "remaining_time": "1d 16h 6m 5s"}
{"loss": 0.63086343, "token_acc": 0.8431556, "grad_norm": 7.15767717, "learning_rate": 7.65e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095959, "epoch": 0.35621797, "global_step/max_steps": "7660/21503", "percentage": "35.62%", "elapsed_time": "22h 10m 25s", "remaining_time": "1d 16h 4m 19s"}
{"loss": 0.70089579, "token_acc": 0.83206897, "grad_norm": 6.98082066, "learning_rate": 7.65e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095995, "epoch": 0.35645049, "global_step/max_steps": "7665/21503", "percentage": "35.65%", "elapsed_time": "22h 10m 48s", "remaining_time": "1d 16h 2m 33s"}
{"loss": 0.67377996, "token_acc": 0.82324365, "grad_norm": 6.38281155, "learning_rate": 7.64e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.09603, "epoch": 0.35668301, "global_step/max_steps": "7670/21503", "percentage": "35.67%", "elapsed_time": "22h 11m 10s", "remaining_time": "1d 16h 0m 48s"}
{"loss": 0.64943862, "token_acc": 0.83350896, "grad_norm": 7.1442256, "learning_rate": 7.64e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096065, "epoch": 0.35691553, "global_step/max_steps": "7675/21503", "percentage": "35.69%", "elapsed_time": "22h 11m 33s", "remaining_time": "1d 15h 59m 4s"}
{"loss": 0.61933708, "token_acc": 0.84108144, "grad_norm": 7.30456352, "learning_rate": 7.64e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096098, "epoch": 0.35714805, "global_step/max_steps": "7680/21503", "percentage": "35.72%", "elapsed_time": "22h 11m 58s", "remaining_time": "1d 15h 57m 22s"}
{"loss": 0.79931779, "token_acc": 0.80334572, "grad_norm": 5.73221254, "learning_rate": 7.63e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096134, "epoch": 0.35738057, "global_step/max_steps": "7685/21503", "percentage": "35.74%", "elapsed_time": "22h 12m 20s", "remaining_time": "1d 15h 55m 36s"}
{"loss": 0.75218897, "token_acc": 0.81733547, "grad_norm": 8.19017792, "learning_rate": 7.63e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096169, "epoch": 0.35761308, "global_step/max_steps": "7690/21503", "percentage": "35.76%", "elapsed_time": "22h 12m 43s", "remaining_time": "1d 15h 53m 52s"}
{"loss": 0.72865825, "token_acc": 0.81591369, "grad_norm": 5.47759342, "learning_rate": 7.63e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096205, "epoch": 0.3578456, "global_step/max_steps": "7695/21503", "percentage": "35.79%", "elapsed_time": "22h 13m 5s", "remaining_time": "1d 15h 52m 7s"}
{"loss": 0.66832838, "token_acc": 0.84453324, "grad_norm": 7.71156168, "learning_rate": 7.62e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096239, "epoch": 0.35807812, "global_step/max_steps": "7700/21503", "percentage": "35.81%", "elapsed_time": "22h 13m 28s", "remaining_time": "1d 15h 50m 23s"}
{"eval_loss": 0.63298702, "eval_runtime": 291.3377, "eval_samples_per_second": 11.928, "eval_steps_per_second": 11.928, "epoch": 0.35807812, "global_step/max_steps": "7700/21503", "percentage": "35.81%", "elapsed_time": "22h 18m 20s", "remaining_time": "1d 15h 59m 5s"}
{"loss": 0.71064482, "token_acc": 0.81744526, "grad_norm": 7.23157883, "learning_rate": 7.62e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095925, "epoch": 0.35831064, "global_step/max_steps": "7705/21503", "percentage": "35.83%", "elapsed_time": "22h 18m 42s", "remaining_time": "1d 15h 57m 21s"}
{"loss": 0.6210072, "token_acc": 0.85060241, "grad_norm": 6.55925322, "learning_rate": 7.62e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.09596, "epoch": 0.35854316, "global_step/max_steps": "7710/21503", "percentage": "35.86%", "elapsed_time": "22h 19m 5s", "remaining_time": "1d 15h 55m 35s"}
{"loss": 0.66315689, "token_acc": 0.83600783, "grad_norm": 7.54084396, "learning_rate": 7.61e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095995, "epoch": 0.35877568, "global_step/max_steps": "7715/21503", "percentage": "35.88%", "elapsed_time": "22h 19m 28s", "remaining_time": "1d 15h 53m 51s"}
{"loss": 0.70479798, "token_acc": 0.81589256, "grad_norm": 6.49090958, "learning_rate": 7.61e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096031, "epoch": 0.35900819, "global_step/max_steps": "7720/21503", "percentage": "35.90%", "elapsed_time": "22h 19m 50s", "remaining_time": "1d 15h 52m 6s"}
{"loss": 0.77834778, "token_acc": 0.80072029, "grad_norm": 4.6491065, "learning_rate": 7.61e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096066, "epoch": 0.35924071, "global_step/max_steps": "7725/21503", "percentage": "35.93%", "elapsed_time": "22h 20m 13s", "remaining_time": "1d 15h 50m 22s"}
{"loss": 0.66980553, "token_acc": 0.82684341, "grad_norm": 9.4742012, "learning_rate": 7.6e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096101, "epoch": 0.35947323, "global_step/max_steps": "7730/21503", "percentage": "35.95%", "elapsed_time": "22h 20m 36s", "remaining_time": "1d 15h 48m 37s"}
{"loss": 0.64964442, "token_acc": 0.83058898, "grad_norm": 6.78826046, "learning_rate": 7.6e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096136, "epoch": 0.35970575, "global_step/max_steps": "7735/21503", "percentage": "35.97%", "elapsed_time": "22h 20m 58s", "remaining_time": "1d 15h 46m 53s"}
{"loss": 0.6754384, "token_acc": 0.82618596, "grad_norm": 6.22834682, "learning_rate": 7.6e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.09617, "epoch": 0.35993827, "global_step/max_steps": "7740/21503", "percentage": "35.99%", "elapsed_time": "22h 21m 22s", "remaining_time": "1d 15h 45m 11s"}
{"loss": 0.73807263, "token_acc": 0.8304862, "grad_norm": 4.20424891, "learning_rate": 7.59e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096205, "epoch": 0.36017078, "global_step/max_steps": "7745/21503", "percentage": "36.02%", "elapsed_time": "22h 21m 44s", "remaining_time": "1d 15h 43m 26s"}
{"loss": 0.75687275, "token_acc": 0.82993857, "grad_norm": 6.92339087, "learning_rate": 7.59e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096239, "epoch": 0.3604033, "global_step/max_steps": "7750/21503", "percentage": "36.04%", "elapsed_time": "22h 22m 8s", "remaining_time": "1d 15h 41m 44s"}
{"eval_loss": 0.63418341, "eval_runtime": 296.2328, "eval_samples_per_second": 11.731, "eval_steps_per_second": 11.731, "epoch": 0.3604033, "global_step/max_steps": "7750/21503", "percentage": "36.04%", "elapsed_time": "22h 27m 4s", "remaining_time": "1d 15h 50m 30s"}
{"loss": 0.69072576, "token_acc": 0.81697306, "grad_norm": 6.22651958, "learning_rate": 7.59e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.09592, "epoch": 0.36063582, "global_step/max_steps": "7755/21503", "percentage": "36.06%", "elapsed_time": "22h 27m 28s", "remaining_time": "1d 15h 48m 47s"}
{"loss": 0.73342438, "token_acc": 0.82354828, "grad_norm": 6.0218668, "learning_rate": 7.58e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095955, "epoch": 0.36086834, "global_step/max_steps": "7760/21503", "percentage": "36.09%", "elapsed_time": "22h 27m 50s", "remaining_time": "1d 15h 47m 2s"}
{"loss": 0.75439911, "token_acc": 0.80804447, "grad_norm": 6.3405118, "learning_rate": 7.58e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.09599, "epoch": 0.36110086, "global_step/max_steps": "7765/21503", "percentage": "36.11%", "elapsed_time": "22h 28m 13s", "remaining_time": "1d 15h 45m 18s"}
{"loss": 0.72091246, "token_acc": 0.8328841, "grad_norm": 7.00957394, "learning_rate": 7.58e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096024, "epoch": 0.36133338, "global_step/max_steps": "7770/21503", "percentage": "36.13%", "elapsed_time": "22h 28m 36s", "remaining_time": "1d 15h 43m 35s"}
{"loss": 0.66315608, "token_acc": 0.82896155, "grad_norm": 6.05012131, "learning_rate": 7.57e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096058, "epoch": 0.36156589, "global_step/max_steps": "7775/21503", "percentage": "36.16%", "elapsed_time": "22h 29m 0s", "remaining_time": "1d 15h 41m 53s"}
{"loss": 0.68292294, "token_acc": 0.82699921, "grad_norm": 7.53576326, "learning_rate": 7.57e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096093, "epoch": 0.36179841, "global_step/max_steps": "7780/21503", "percentage": "36.18%", "elapsed_time": "22h 29m 22s", "remaining_time": "1d 15h 40m 8s"}
{"loss": 0.81649466, "token_acc": 0.80131761, "grad_norm": 7.16347694, "learning_rate": 7.57e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096128, "epoch": 0.36203093, "global_step/max_steps": "7785/21503", "percentage": "36.20%", "elapsed_time": "22h 29m 45s", "remaining_time": "1d 15h 38m 24s"}
{"loss": 0.63144202, "token_acc": 0.84641873, "grad_norm": 7.02305555, "learning_rate": 7.56e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096163, "epoch": 0.36226345, "global_step/max_steps": "7790/21503", "percentage": "36.23%", "elapsed_time": "22h 30m 8s", "remaining_time": "1d 15h 36m 41s"}
{"loss": 0.74615188, "token_acc": 0.81653747, "grad_norm": 6.37289286, "learning_rate": 7.56e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096198, "epoch": 0.36249597, "global_step/max_steps": "7795/21503", "percentage": "36.25%", "elapsed_time": "22h 30m 30s", "remaining_time": "1d 15h 34m 57s"}
{"loss": 0.7891818, "token_acc": 0.81006071, "grad_norm": 5.98112011, "learning_rate": 7.56e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096233, "epoch": 0.36272849, "global_step/max_steps": "7800/21503", "percentage": "36.27%", "elapsed_time": "22h 30m 52s", "remaining_time": "1d 15h 33m 13s"}
{"eval_loss": 0.63251674, "eval_runtime": 294.4563, "eval_samples_per_second": 11.801, "eval_steps_per_second": 11.801, "epoch": 0.36272849, "global_step/max_steps": "7800/21503", "percentage": "36.27%", "elapsed_time": "22h 35m 47s", "remaining_time": "1d 15h 41m 50s"}
{"loss": 0.52603812, "token_acc": 0.81902009, "grad_norm": 6.40781212, "learning_rate": 7.55e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095917, "epoch": 0.362961, "global_step/max_steps": "7805/21503", "percentage": "36.30%", "elapsed_time": "22h 36m 12s", "remaining_time": "1d 15h 40m 10s"}
{"loss": 0.74444757, "token_acc": 0.82344731, "grad_norm": 7.23723841, "learning_rate": 7.55e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095951, "epoch": 0.36319352, "global_step/max_steps": "7810/21503", "percentage": "36.32%", "elapsed_time": "22h 36m 35s", "remaining_time": "1d 15h 38m 27s"}
{"loss": 0.80327253, "token_acc": 0.78797304, "grad_norm": 5.91994619, "learning_rate": 7.55e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095985, "epoch": 0.36342604, "global_step/max_steps": "7815/21503", "percentage": "36.34%", "elapsed_time": "22h 36m 59s", "remaining_time": "1d 15h 36m 45s"}
{"loss": 0.64417858, "token_acc": 0.85084612, "grad_norm": 7.53576326, "learning_rate": 7.54e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.09602, "epoch": 0.36365856, "global_step/max_steps": "7820/21503", "percentage": "36.37%", "elapsed_time": "22h 37m 21s", "remaining_time": "1d 15h 35m 1s"}
{"loss": 0.66083822, "token_acc": 0.84001604, "grad_norm": 8.50956059, "learning_rate": 7.54e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096055, "epoch": 0.36389108, "global_step/max_steps": "7825/21503", "percentage": "36.39%", "elapsed_time": "22h 37m 43s", "remaining_time": "1d 15h 33m 17s"}
{"loss": 0.669134, "token_acc": 0.82918021, "grad_norm": 6.91036224, "learning_rate": 7.54e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.09609, "epoch": 0.3641236, "global_step/max_steps": "7830/21503", "percentage": "36.41%", "elapsed_time": "22h 38m 5s", "remaining_time": "1d 15h 31m 33s"}
{"loss": 0.74647183, "token_acc": 0.81153846, "grad_norm": 6.62419939, "learning_rate": 7.53e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096124, "epoch": 0.36435611, "global_step/max_steps": "7835/21503", "percentage": "36.44%", "elapsed_time": "22h 38m 29s", "remaining_time": "1d 15h 29m 51s"}
{"loss": 0.70084639, "token_acc": 0.81282925, "grad_norm": 6.11791563, "learning_rate": 7.53e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096159, "epoch": 0.36458863, "global_step/max_steps": "7840/21503", "percentage": "36.46%", "elapsed_time": "22h 38m 51s", "remaining_time": "1d 15h 28m 7s"}
{"loss": 0.65902753, "token_acc": 0.83794758, "grad_norm": 6.61712074, "learning_rate": 7.53e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096193, "epoch": 0.36482115, "global_step/max_steps": "7845/21503", "percentage": "36.48%", "elapsed_time": "22h 39m 14s", "remaining_time": "1d 15h 26m 25s"}
{"loss": 0.73180828, "token_acc": 0.81557971, "grad_norm": 6.68993759, "learning_rate": 7.52e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096227, "epoch": 0.36505367, "global_step/max_steps": "7850/21503", "percentage": "36.51%", "elapsed_time": "22h 39m 37s", "remaining_time": "1d 15h 24m 42s"}
{"eval_loss": 0.63112563, "eval_runtime": 292.5386, "eval_samples_per_second": 11.879, "eval_steps_per_second": 11.879, "epoch": 0.36505367, "global_step/max_steps": "7850/21503", "percentage": "36.51%", "elapsed_time": "22h 44m 29s", "remaining_time": "1d 15h 33m 11s"}
{"loss": 0.70222778, "token_acc": 0.81799309, "grad_norm": 10.9157486, "learning_rate": 7.52e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095918, "epoch": 0.36528619, "global_step/max_steps": "7855/21503", "percentage": "36.53%", "elapsed_time": "22h 44m 52s", "remaining_time": "1d 15h 31m 27s"}
{"loss": 0.73741193, "token_acc": 0.82546201, "grad_norm": 6.97413826, "learning_rate": 7.52e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095953, "epoch": 0.3655187, "global_step/max_steps": "7860/21503", "percentage": "36.55%", "elapsed_time": "22h 45m 15s", "remaining_time": "1d 15h 29m 44s"}
{"loss": 0.81517611, "token_acc": 0.80359435, "grad_norm": 6.72890329, "learning_rate": 7.51e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095987, "epoch": 0.36575122, "global_step/max_steps": "7865/21503", "percentage": "36.58%", "elapsed_time": "22h 45m 37s", "remaining_time": "1d 15h 28m 0s"}
{"loss": 0.62299905, "token_acc": 0.83754513, "grad_norm": 6.21268845, "learning_rate": 7.51e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096022, "epoch": 0.36598374, "global_step/max_steps": "7870/21503", "percentage": "36.60%", "elapsed_time": "22h 46m 0s", "remaining_time": "1d 15h 26m 17s"}
{"loss": 0.61702442, "token_acc": 0.84082474, "grad_norm": 6.1411705, "learning_rate": 7.51e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096056, "epoch": 0.36621626, "global_step/max_steps": "7875/21503", "percentage": "36.62%", "elapsed_time": "22h 46m 22s", "remaining_time": "1d 15h 24m 34s"}
{"loss": 0.78832865, "token_acc": 0.80007573, "grad_norm": 11.87470436, "learning_rate": 7.5e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096091, "epoch": 0.36644878, "global_step/max_steps": "7880/21503", "percentage": "36.65%", "elapsed_time": "22h 46m 45s", "remaining_time": "1d 15h 22m 51s"}
{"loss": 0.77158561, "token_acc": 0.80319952, "grad_norm": 6.3122201, "learning_rate": 7.5e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096125, "epoch": 0.3666813, "global_step/max_steps": "7885/21503", "percentage": "36.67%", "elapsed_time": "22h 47m 8s", "remaining_time": "1d 15h 21m 9s"}
{"loss": 0.79427695, "token_acc": 0.81069267, "grad_norm": 6.4960866, "learning_rate": 7.5e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096159, "epoch": 0.36691381, "global_step/max_steps": "7890/21503", "percentage": "36.69%", "elapsed_time": "22h 47m 30s", "remaining_time": "1d 15h 19m 26s"}
{"loss": 0.61482539, "token_acc": 0.84054344, "grad_norm": 7.23400307, "learning_rate": 7.49e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096194, "epoch": 0.36714633, "global_step/max_steps": "7895/21503", "percentage": "36.72%", "elapsed_time": "22h 47m 53s", "remaining_time": "1d 15h 17m 44s"}
{"loss": 0.6379118, "token_acc": 0.8427673, "grad_norm": 4.32997847, "learning_rate": 7.49e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096228, "epoch": 0.36737885, "global_step/max_steps": "7900/21503", "percentage": "36.74%", "elapsed_time": "22h 48m 16s", "remaining_time": "1d 15h 16m 2s"}
{"eval_loss": 0.63116401, "eval_runtime": 292.1888, "eval_samples_per_second": 11.893, "eval_steps_per_second": 11.893, "epoch": 0.36737885, "global_step/max_steps": "7900/21503", "percentage": "36.74%", "elapsed_time": "22h 53m 8s", "remaining_time": "1d 15h 24m 25s"}
{"loss": 0.74150624, "token_acc": 0.8179509, "grad_norm": 7.93583345, "learning_rate": 7.49e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.09592, "epoch": 0.36761137, "global_step/max_steps": "7905/21503", "percentage": "36.76%", "elapsed_time": "22h 53m 32s", "remaining_time": "1d 15h 22m 44s"}
{"loss": 0.68350873, "token_acc": 0.83018182, "grad_norm": 6.74346733, "learning_rate": 7.48e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095954, "epoch": 0.36784389, "global_step/max_steps": "7910/21503", "percentage": "36.79%", "elapsed_time": "22h 53m 55s", "remaining_time": "1d 15h 21m 1s"}
{"loss": 0.78792262, "token_acc": 0.80261519, "grad_norm": 5.7787528, "learning_rate": 7.48e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095988, "epoch": 0.36807641, "global_step/max_steps": "7915/21503", "percentage": "36.81%", "elapsed_time": "22h 54m 18s", "remaining_time": "1d 15h 19m 19s"}
{"loss": 0.73198738, "token_acc": 0.81561045, "grad_norm": 6.80711126, "learning_rate": 7.48e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096022, "epoch": 0.36830892, "global_step/max_steps": "7920/21503", "percentage": "36.83%", "elapsed_time": "22h 54m 41s", "remaining_time": "1d 15h 17m 37s"}
{"loss": 0.68646655, "token_acc": 0.81732707, "grad_norm": 7.00084686, "learning_rate": 7.47e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096055, "epoch": 0.36854144, "global_step/max_steps": "7925/21503", "percentage": "36.86%", "elapsed_time": "22h 55m 4s", "remaining_time": "1d 15h 15m 55s"}
{"loss": 0.81440449, "token_acc": 0.76794554, "grad_norm": 3.5485301, "learning_rate": 7.47e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096088, "epoch": 0.36877396, "global_step/max_steps": "7930/21503", "percentage": "36.88%", "elapsed_time": "22h 55m 28s", "remaining_time": "1d 15h 14m 15s"}
{"loss": 0.69916911, "token_acc": 0.82317073, "grad_norm": 6.00576878, "learning_rate": 7.47e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096121, "epoch": 0.36900648, "global_step/max_steps": "7935/21503", "percentage": "36.90%", "elapsed_time": "22h 55m 51s", "remaining_time": "1d 15h 12m 34s"}
{"loss": 0.68255415, "token_acc": 0.81710615, "grad_norm": 7.97600937, "learning_rate": 7.46e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096155, "epoch": 0.369239, "global_step/max_steps": "7940/21503", "percentage": "36.93%", "elapsed_time": "22h 56m 15s", "remaining_time": "1d 15h 10m 53s"}
{"loss": 0.70146799, "token_acc": 0.82356648, "grad_norm": 9.50580597, "learning_rate": 7.46e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096189, "epoch": 0.36947152, "global_step/max_steps": "7945/21503", "percentage": "36.95%", "elapsed_time": "22h 56m 37s", "remaining_time": "1d 15h 9m 10s"}
{"loss": 0.56712551, "token_acc": 0.86873041, "grad_norm": 6.26575089, "learning_rate": 7.46e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096223, "epoch": 0.36970403, "global_step/max_steps": "7950/21503", "percentage": "36.97%", "elapsed_time": "22h 57m 0s", "remaining_time": "1d 15h 7m 30s"}
{"eval_loss": 0.62890506, "eval_runtime": 293.2764, "eval_samples_per_second": 11.849, "eval_steps_per_second": 11.849, "epoch": 0.36970403, "global_step/max_steps": "7950/21503", "percentage": "36.97%", "elapsed_time": "23h 1m 54s", "remaining_time": "1d 15h 15m 50s"}
{"loss": 0.60292172, "token_acc": 0.81873712, "grad_norm": 7.85414791, "learning_rate": 7.45e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095916, "epoch": 0.36993655, "global_step/max_steps": "7955/21503", "percentage": "36.99%", "elapsed_time": "23h 2m 17s", "remaining_time": "1d 15h 14m 8s"}
{"loss": 0.71887951, "token_acc": 0.80645161, "grad_norm": 6.24409771, "learning_rate": 7.45e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.09595, "epoch": 0.37016907, "global_step/max_steps": "7960/21503", "percentage": "37.02%", "elapsed_time": "23h 2m 39s", "remaining_time": "1d 15h 12m 26s"}
{"loss": 0.81181326, "token_acc": 0.80139257, "grad_norm": 8.78463173, "learning_rate": 7.45e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095984, "epoch": 0.37040159, "global_step/max_steps": "7965/21503", "percentage": "37.04%", "elapsed_time": "23h 3m 2s", "remaining_time": "1d 15h 10m 43s"}
{"loss": 0.5720973, "token_acc": 0.84021204, "grad_norm": 5.96604252, "learning_rate": 7.44e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096017, "epoch": 0.37063411, "global_step/max_steps": "7970/21503", "percentage": "37.06%", "elapsed_time": "23h 3m 25s", "remaining_time": "1d 15h 9m 3s"}
{"loss": 0.79418049, "token_acc": 0.81044408, "grad_norm": 4.45710039, "learning_rate": 7.44e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096051, "epoch": 0.37086662, "global_step/max_steps": "7975/21503", "percentage": "37.09%", "elapsed_time": "23h 3m 48s", "remaining_time": "1d 15h 7m 21s"}
{"loss": 0.61534104, "token_acc": 0.8546727, "grad_norm": 6.23365831, "learning_rate": 7.44e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096085, "epoch": 0.37109914, "global_step/max_steps": "7980/21503", "percentage": "37.11%", "elapsed_time": "23h 4m 11s", "remaining_time": "1d 15h 5m 39s"}
{"loss": 0.75093164, "token_acc": 0.81223149, "grad_norm": 5.30494928, "learning_rate": 7.43e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096118, "epoch": 0.37133166, "global_step/max_steps": "7985/21503", "percentage": "37.13%", "elapsed_time": "23h 4m 34s", "remaining_time": "1d 15h 3m 59s"}
{"loss": 0.65326872, "token_acc": 0.84196891, "grad_norm": 6.57421112, "learning_rate": 7.43e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096152, "epoch": 0.37156418, "global_step/max_steps": "7990/21503", "percentage": "37.16%", "elapsed_time": "23h 4m 57s", "remaining_time": "1d 15h 2m 17s"}
{"loss": 0.68973384, "token_acc": 0.81318681, "grad_norm": 7.24662113, "learning_rate": 7.43e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096187, "epoch": 0.3717967, "global_step/max_steps": "7995/21503", "percentage": "37.18%", "elapsed_time": "23h 5m 19s", "remaining_time": "1d 15h 0m 34s"}
{"loss": 0.65235958, "token_acc": 0.83414089, "grad_norm": 7.29058266, "learning_rate": 7.42e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096221, "epoch": 0.37202922, "global_step/max_steps": "8000/21503", "percentage": "37.20%", "elapsed_time": "23h 5m 41s", "remaining_time": "1d 14h 58m 52s"}
{"eval_loss": 0.63072127, "eval_runtime": 292.7948, "eval_samples_per_second": 11.868, "eval_steps_per_second": 11.868, "epoch": 0.37202922, "global_step/max_steps": "8000/21503", "percentage": "37.20%", "elapsed_time": "23h 10m 34s", "remaining_time": "1d 15h 7m 6s"}
{"loss": 0.62226233, "token_acc": 0.81886795, "grad_norm": 6.00864363, "learning_rate": 7.42e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095916, "epoch": 0.37226173, "global_step/max_steps": "8005/21503", "percentage": "37.23%", "elapsed_time": "23h 10m 57s", "remaining_time": "1d 15h 5m 26s"}
{"loss": 0.54323382, "token_acc": 0.86260454, "grad_norm": 6.65142345, "learning_rate": 7.42e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095951, "epoch": 0.37249425, "global_step/max_steps": "8010/21503", "percentage": "37.25%", "elapsed_time": "23h 11m 20s", "remaining_time": "1d 15h 3m 44s"}
{"loss": 0.68248296, "token_acc": 0.83596838, "grad_norm": 5.91221094, "learning_rate": 7.41e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095984, "epoch": 0.37272677, "global_step/max_steps": "8015/21503", "percentage": "37.27%", "elapsed_time": "23h 11m 43s", "remaining_time": "1d 15h 2m 3s"}
{"loss": 0.61643081, "token_acc": 0.85288967, "grad_norm": 7.72424603, "learning_rate": 7.41e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096017, "epoch": 0.37295929, "global_step/max_steps": "8020/21503", "percentage": "37.30%", "elapsed_time": "23h 12m 6s", "remaining_time": "1d 15h 0m 22s"}
{"loss": 0.67494268, "token_acc": 0.85291595, "grad_norm": 7.59418583, "learning_rate": 7.41e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096051, "epoch": 0.37319181, "global_step/max_steps": "8025/21503", "percentage": "37.32%", "elapsed_time": "23h 12m 28s", "remaining_time": "1d 14h 58m 40s"}
{"loss": 0.69237967, "token_acc": 0.82631396, "grad_norm": 6.52997971, "learning_rate": 7.4e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096085, "epoch": 0.37342433, "global_step/max_steps": "8030/21503", "percentage": "37.34%", "elapsed_time": "23h 12m 51s", "remaining_time": "1d 14h 56m 58s"}
{"loss": 0.845399, "token_acc": 0.78216819, "grad_norm": 6.12440777, "learning_rate": 7.4e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096119, "epoch": 0.37365684, "global_step/max_steps": "8035/21503", "percentage": "37.37%", "elapsed_time": "23h 13m 14s", "remaining_time": "1d 14h 55m 17s"}
{"loss": 0.77584925, "token_acc": 0.80957684, "grad_norm": 7.79015636, "learning_rate": 7.4e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096153, "epoch": 0.37388936, "global_step/max_steps": "8040/21503", "percentage": "37.39%", "elapsed_time": "23h 13m 36s", "remaining_time": "1d 14h 53m 36s"}
{"loss": 0.66606555, "token_acc": 0.83961905, "grad_norm": 6.44203472, "learning_rate": 7.39e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096186, "epoch": 0.37412188, "global_step/max_steps": "8045/21503", "percentage": "37.41%", "elapsed_time": "23h 13m 59s", "remaining_time": "1d 14h 51m 56s"}
{"loss": 0.6552053, "token_acc": 0.84362866, "grad_norm": 5.83804607, "learning_rate": 7.39e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096218, "epoch": 0.3743544, "global_step/max_steps": "8050/21503", "percentage": "37.44%", "elapsed_time": "23h 14m 23s", "remaining_time": "1d 14h 50m 16s"}
{"eval_loss": 0.62743831, "eval_runtime": 295.4935, "eval_samples_per_second": 11.76, "eval_steps_per_second": 11.76, "epoch": 0.3743544, "global_step/max_steps": "8050/21503", "percentage": "37.44%", "elapsed_time": "23h 19m 19s", "remaining_time": "1d 14h 58m 30s"}
{"loss": 0.90553265, "token_acc": 0.81698021, "grad_norm": 7.19456196, "learning_rate": 7.39e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095913, "epoch": 0.37458692, "global_step/max_steps": "8055/21503", "percentage": "37.46%", "elapsed_time": "23h 19m 42s", "remaining_time": "1d 14h 56m 50s"}
{"loss": 0.63886681, "token_acc": 0.84295082, "grad_norm": 5.42400169, "learning_rate": 7.38e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095947, "epoch": 0.37481944, "global_step/max_steps": "8060/21503", "percentage": "37.48%", "elapsed_time": "23h 20m 4s", "remaining_time": "1d 14h 55m 8s"}
{"loss": 0.66060104, "token_acc": 0.83086253, "grad_norm": 6.29341698, "learning_rate": 7.38e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.09598, "epoch": 0.37505195, "global_step/max_steps": "8065/21503", "percentage": "37.51%", "elapsed_time": "23h 20m 27s", "remaining_time": "1d 14h 53m 27s"}
{"loss": 0.71647453, "token_acc": 0.82919563, "grad_norm": 6.5849905, "learning_rate": 7.38e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096013, "epoch": 0.37528447, "global_step/max_steps": "8070/21503", "percentage": "37.53%", "elapsed_time": "23h 20m 50s", "remaining_time": "1d 14h 51m 47s"}
{"loss": 0.68987956, "token_acc": 0.83068966, "grad_norm": 5.69775009, "learning_rate": 7.37e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096046, "epoch": 0.37551699, "global_step/max_steps": "8075/21503", "percentage": "37.55%", "elapsed_time": "23h 21m 13s", "remaining_time": "1d 14h 50m 7s"}
{"loss": 0.7770956, "token_acc": 0.80047345, "grad_norm": 7.50610781, "learning_rate": 7.37e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096079, "epoch": 0.37574951, "global_step/max_steps": "8080/21503", "percentage": "37.58%", "elapsed_time": "23h 21m 37s", "remaining_time": "1d 14h 48m 27s"}
{"loss": 0.76253409, "token_acc": 0.80177936, "grad_norm": 8.35728931, "learning_rate": 7.37e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096112, "epoch": 0.37598203, "global_step/max_steps": "8085/21503", "percentage": "37.60%", "elapsed_time": "23h 22m 0s", "remaining_time": "1d 14h 46m 47s"}
{"loss": 0.65213461, "token_acc": 0.84648271, "grad_norm": 6.6355381, "learning_rate": 7.36e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096144, "epoch": 0.37621454, "global_step/max_steps": "8090/21503", "percentage": "37.62%", "elapsed_time": "23h 22m 24s", "remaining_time": "1d 14h 45m 8s"}
{"loss": 0.7203671, "token_acc": 0.82565789, "grad_norm": 4.50887823, "learning_rate": 7.36e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096176, "epoch": 0.37644706, "global_step/max_steps": "8095/21503", "percentage": "37.65%", "elapsed_time": "23h 22m 48s", "remaining_time": "1d 14h 43m 30s"}
{"loss": 0.72034326, "token_acc": 0.82108626, "grad_norm": 5.57915211, "learning_rate": 7.36e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096208, "epoch": 0.37667958, "global_step/max_steps": "8100/21503", "percentage": "37.67%", "elapsed_time": "23h 23m 12s", "remaining_time": "1d 14h 41m 52s"}
{"eval_loss": 0.62755537, "eval_runtime": 296.3077, "eval_samples_per_second": 11.728, "eval_steps_per_second": 11.728, "epoch": 0.37667958, "global_step/max_steps": "8100/21503", "percentage": "37.67%", "elapsed_time": "23h 28m 8s", "remaining_time": "1d 14h 50m 2s"}
{"loss": 0.68770714, "token_acc": 0.81900622, "grad_norm": 5.2118926, "learning_rate": 7.35e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095903, "epoch": 0.3769121, "global_step/max_steps": "8105/21503", "percentage": "37.69%", "elapsed_time": "23h 28m 32s", "remaining_time": "1d 14h 48m 23s"}
{"loss": 0.78000779, "token_acc": 0.81958042, "grad_norm": 8.25135517, "learning_rate": 7.35e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095936, "epoch": 0.37714462, "global_step/max_steps": "8110/21503", "percentage": "37.72%", "elapsed_time": "23h 28m 55s", "remaining_time": "1d 14h 46m 42s"}
{"loss": 0.74489932, "token_acc": 0.82765152, "grad_norm": 6.01873016, "learning_rate": 7.35e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095969, "epoch": 0.37737714, "global_step/max_steps": "8115/21503", "percentage": "37.74%", "elapsed_time": "23h 29m 18s", "remaining_time": "1d 14h 45m 3s"}
{"loss": 0.69544973, "token_acc": 0.82620087, "grad_norm": 7.4620719, "learning_rate": 7.34e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096003, "epoch": 0.37760965, "global_step/max_steps": "8120/21503", "percentage": "37.76%", "elapsed_time": "23h 29m 40s", "remaining_time": "1d 14h 43m 21s"}
{"loss": 0.63540211, "token_acc": 0.84858044, "grad_norm": 7.14265728, "learning_rate": 7.34e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096035, "epoch": 0.37784217, "global_step/max_steps": "8125/21503", "percentage": "37.79%", "elapsed_time": "23h 30m 4s", "remaining_time": "1d 14h 41m 42s"}
{"loss": 0.75432539, "token_acc": 0.83002114, "grad_norm": 6.71264267, "learning_rate": 7.34e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096068, "epoch": 0.37807469, "global_step/max_steps": "8130/21503", "percentage": "37.81%", "elapsed_time": "23h 30m 26s", "remaining_time": "1d 14h 40m 2s"}
{"loss": 0.64835958, "token_acc": 0.83188125, "grad_norm": 6.74978113, "learning_rate": 7.33e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096102, "epoch": 0.37830721, "global_step/max_steps": "8135/21503", "percentage": "37.83%", "elapsed_time": "23h 30m 49s", "remaining_time": "1d 14h 38m 21s"}
{"loss": 0.7506074, "token_acc": 0.81578947, "grad_norm": 7.32687521, "learning_rate": 7.33e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096135, "epoch": 0.37853973, "global_step/max_steps": "8140/21503", "percentage": "37.86%", "elapsed_time": "23h 31m 12s", "remaining_time": "1d 14h 36m 41s"}
{"loss": 0.73398705, "token_acc": 0.81722054, "grad_norm": 8.0088892, "learning_rate": 7.32e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096168, "epoch": 0.37877225, "global_step/max_steps": "8145/21503", "percentage": "37.88%", "elapsed_time": "23h 31m 34s", "remaining_time": "1d 14h 35m 1s"}
{"loss": 0.71032677, "token_acc": 0.824291, "grad_norm": 5.67139721, "learning_rate": 7.32e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096201, "epoch": 0.37900476, "global_step/max_steps": "8150/21503", "percentage": "37.90%", "elapsed_time": "23h 31m 57s", "remaining_time": "1d 14h 33m 22s"}
{"eval_loss": 0.62786889, "eval_runtime": 289.0966, "eval_samples_per_second": 12.02, "eval_steps_per_second": 12.02, "epoch": 0.37900476, "global_step/max_steps": "8150/21503", "percentage": "37.90%", "elapsed_time": "23h 36m 46s", "remaining_time": "1d 14h 41m 15s"}
{"loss": 0.71361561, "token_acc": 0.81854001, "grad_norm": 6.2186017, "learning_rate": 7.32e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095907, "epoch": 0.37923728, "global_step/max_steps": "8155/21503", "percentage": "37.92%", "elapsed_time": "23h 37m 9s", "remaining_time": "1d 14h 39m 35s"}
{"loss": 0.67753658, "token_acc": 0.83935743, "grad_norm": 7.34205389, "learning_rate": 7.31e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095942, "epoch": 0.3794698, "global_step/max_steps": "8160/21503", "percentage": "37.95%", "elapsed_time": "23h 37m 31s", "remaining_time": "1d 14h 37m 53s"}
{"loss": 0.63891015, "token_acc": 0.85116137, "grad_norm": 4.98561764, "learning_rate": 7.31e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095975, "epoch": 0.37970232, "global_step/max_steps": "8165/21503", "percentage": "37.97%", "elapsed_time": "23h 37m 53s", "remaining_time": "1d 14h 36m 12s"}
{"loss": 0.71704903, "token_acc": 0.82634033, "grad_norm": 7.13692522, "learning_rate": 7.31e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096009, "epoch": 0.37993484, "global_step/max_steps": "8170/21503", "percentage": "37.99%", "elapsed_time": "23h 38m 16s", "remaining_time": "1d 14h 34m 32s"}
{"loss": 0.6841135, "token_acc": 0.82374101, "grad_norm": 7.36615896, "learning_rate": 7.3e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096042, "epoch": 0.38016736, "global_step/max_steps": "8175/21503", "percentage": "38.02%", "elapsed_time": "23h 38m 38s", "remaining_time": "1d 14h 32m 51s"}
{"loss": 0.75142798, "token_acc": 0.80406213, "grad_norm": 8.01283455, "learning_rate": 7.3e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096076, "epoch": 0.38039987, "global_step/max_steps": "8180/21503", "percentage": "38.04%", "elapsed_time": "23h 39m 0s", "remaining_time": "1d 14h 31m 11s"}
{"loss": 0.7410264, "token_acc": 0.82980251, "grad_norm": 7.06518412, "learning_rate": 7.3e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096109, "epoch": 0.38063239, "global_step/max_steps": "8185/21503", "percentage": "38.06%", "elapsed_time": "23h 39m 23s", "remaining_time": "1d 14h 29m 32s"}
{"loss": 0.86267262, "token_acc": 0.79822544, "grad_norm": 6.61446476, "learning_rate": 7.29e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096141, "epoch": 0.38086491, "global_step/max_steps": "8190/21503", "percentage": "38.09%", "elapsed_time": "23h 39m 46s", "remaining_time": "1d 14h 27m 53s"}
{"loss": 0.73147488, "token_acc": 0.84538056, "grad_norm": 9.51604748, "learning_rate": 7.29e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096174, "epoch": 0.38109743, "global_step/max_steps": "8195/21503", "percentage": "38.11%", "elapsed_time": "23h 40m 10s", "remaining_time": "1d 14h 26m 14s"}
{"loss": 0.67625995, "token_acc": 0.83291457, "grad_norm": 6.88973188, "learning_rate": 7.29e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096207, "epoch": 0.38132995, "global_step/max_steps": "8200/21503", "percentage": "38.13%", "elapsed_time": "23h 40m 32s", "remaining_time": "1d 14h 24m 33s"}
{"eval_loss": 0.62615985, "eval_runtime": 290.8816, "eval_samples_per_second": 11.946, "eval_steps_per_second": 11.946, "epoch": 0.38132995, "global_step/max_steps": "8200/21503", "percentage": "38.13%", "elapsed_time": "23h 45m 23s", "remaining_time": "1d 14h 32m 25s"}
{"loss": 0.73470082, "token_acc": 0.81839732, "grad_norm": 6.63611746, "learning_rate": 7.28e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095911, "epoch": 0.38156246, "global_step/max_steps": "8205/21503", "percentage": "38.16%", "elapsed_time": "23h 45m 47s", "remaining_time": "1d 14h 30m 48s"}
{"loss": 0.70641322, "token_acc": 0.82282173, "grad_norm": 7.70108032, "learning_rate": 7.28e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095944, "epoch": 0.38179498, "global_step/max_steps": "8210/21503", "percentage": "38.18%", "elapsed_time": "23h 46m 10s", "remaining_time": "1d 14h 29m 9s"}
{"loss": 0.69135928, "token_acc": 0.83533981, "grad_norm": 6.67209196, "learning_rate": 7.28e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095976, "epoch": 0.3820275, "global_step/max_steps": "8215/21503", "percentage": "38.20%", "elapsed_time": "23h 46m 33s", "remaining_time": "1d 14h 27m 30s"}
{"loss": 0.65601754, "token_acc": 0.82639091, "grad_norm": 7.15880728, "learning_rate": 7.27e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096009, "epoch": 0.38226002, "global_step/max_steps": "8220/21503", "percentage": "38.23%", "elapsed_time": "23h 46m 56s", "remaining_time": "1d 14h 25m 51s"}
{"loss": 0.6323504, "token_acc": 0.84005091, "grad_norm": 6.93286753, "learning_rate": 7.27e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096042, "epoch": 0.38249254, "global_step/max_steps": "8225/21503", "percentage": "38.25%", "elapsed_time": "23h 47m 19s", "remaining_time": "1d 14h 24m 11s"}
{"loss": 0.72402477, "token_acc": 0.81968877, "grad_norm": 6.20552397, "learning_rate": 7.27e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096074, "epoch": 0.38272506, "global_step/max_steps": "8230/21503", "percentage": "38.27%", "elapsed_time": "23h 47m 42s", "remaining_time": "1d 14h 22m 32s"}
{"loss": 0.65154142, "token_acc": 0.84247539, "grad_norm": 6.92588615, "learning_rate": 7.26e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096108, "epoch": 0.38295757, "global_step/max_steps": "8235/21503", "percentage": "38.30%", "elapsed_time": "23h 48m 5s", "remaining_time": "1d 14h 20m 53s"}
{"loss": 0.8670886, "token_acc": 0.79007634, "grad_norm": 8.4289856, "learning_rate": 7.26e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.09614, "epoch": 0.38319009, "global_step/max_steps": "8240/21503", "percentage": "38.32%", "elapsed_time": "23h 48m 28s", "remaining_time": "1d 14h 19m 15s"}
{"loss": 0.78753462, "token_acc": 0.8029728, "grad_norm": 7.20465946, "learning_rate": 7.26e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096172, "epoch": 0.38342261, "global_step/max_steps": "8245/21503", "percentage": "38.34%", "elapsed_time": "23h 48m 52s", "remaining_time": "1d 14h 17m 37s"}
{"loss": 0.62540908, "token_acc": 0.85345794, "grad_norm": 8.07403469, "learning_rate": 7.25e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096205, "epoch": 0.38365513, "global_step/max_steps": "8250/21503", "percentage": "38.37%", "elapsed_time": "23h 49m 14s", "remaining_time": "1d 14h 15m 58s"}
{"eval_loss": 0.62891537, "eval_runtime": 292.7668, "eval_samples_per_second": 11.87, "eval_steps_per_second": 11.87, "epoch": 0.38365513, "global_step/max_steps": "8250/21503", "percentage": "38.37%", "elapsed_time": "23h 54m 7s", "remaining_time": "1d 14h 23m 48s"}
{"loss": 0.68645086, "token_acc": 0.81912422, "grad_norm": 6.09339142, "learning_rate": 7.25e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.09591, "epoch": 0.38388765, "global_step/max_steps": "8255/21503", "percentage": "38.39%", "elapsed_time": "23h 54m 30s", "remaining_time": "1d 14h 22m 9s"}
{"loss": 0.71018977, "token_acc": 0.82338983, "grad_norm": 7.86634398, "learning_rate": 7.25e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095943, "epoch": 0.38412017, "global_step/max_steps": "8260/21503", "percentage": "38.41%", "elapsed_time": "23h 54m 52s", "remaining_time": "1d 14h 20m 29s"}
{"loss": 0.66103945, "token_acc": 0.83598379, "grad_norm": 6.16265631, "learning_rate": 7.24e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095976, "epoch": 0.38435268, "global_step/max_steps": "8265/21503", "percentage": "38.44%", "elapsed_time": "23h 55m 15s", "remaining_time": "1d 14h 18m 49s"}
{"loss": 0.77518563, "token_acc": 0.81409168, "grad_norm": 6.93683672, "learning_rate": 7.24e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096009, "epoch": 0.3845852, "global_step/max_steps": "8270/21503", "percentage": "38.46%", "elapsed_time": "23h 55m 37s", "remaining_time": "1d 14h 17m 10s"}
{"loss": 0.61858244, "token_acc": 0.85020243, "grad_norm": 7.22690439, "learning_rate": 7.24e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096041, "epoch": 0.38481772, "global_step/max_steps": "8275/21503", "percentage": "38.48%", "elapsed_time": "23h 56m 0s", "remaining_time": "1d 14h 15m 32s"}
{"loss": 0.79298639, "token_acc": 0.80590551, "grad_norm": 7.31418705, "learning_rate": 7.23e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096074, "epoch": 0.38505024, "global_step/max_steps": "8280/21503", "percentage": "38.51%", "elapsed_time": "23h 56m 23s", "remaining_time": "1d 14h 13m 53s"}
{"loss": 0.64183431, "token_acc": 0.83619403, "grad_norm": 6.34287977, "learning_rate": 7.23e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096107, "epoch": 0.38528276, "global_step/max_steps": "8285/21503", "percentage": "38.53%", "elapsed_time": "23h 56m 46s", "remaining_time": "1d 14h 12m 14s"}
{"loss": 0.71546788, "token_acc": 0.83296864, "grad_norm": 8.27260303, "learning_rate": 7.23e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096139, "epoch": 0.38551527, "global_step/max_steps": "8290/21503", "percentage": "38.55%", "elapsed_time": "23h 57m 8s", "remaining_time": "1d 14h 10m 35s"}
{"loss": 0.74417524, "token_acc": 0.82470785, "grad_norm": 8.18330669, "learning_rate": 7.22e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096171, "epoch": 0.38574779, "global_step/max_steps": "8295/21503", "percentage": "38.58%", "elapsed_time": "23h 57m 32s", "remaining_time": "1d 14h 8m 57s"}
{"loss": 0.72536678, "token_acc": 0.81655559, "grad_norm": 6.75153208, "learning_rate": 7.22e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096204, "epoch": 0.38598031, "global_step/max_steps": "8300/21503", "percentage": "38.60%", "elapsed_time": "23h 57m 54s", "remaining_time": "1d 14h 7m 19s"}
{"eval_loss": 0.62586778, "eval_runtime": 290.9616, "eval_samples_per_second": 11.943, "eval_steps_per_second": 11.943, "epoch": 0.38598031, "global_step/max_steps": "8300/21503", "percentage": "38.60%", "elapsed_time": "1d 0h 2m 45s", "remaining_time": "1d 14h 15m 1s"}
{"loss": 0.6705091, "token_acc": 0.81936743, "grad_norm": 6.38394547, "learning_rate": 7.22e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095913, "epoch": 0.38621283, "global_step/max_steps": "8305/21503", "percentage": "38.62%", "elapsed_time": "1d 0h 3m 8s", "remaining_time": "1d 14h 13m 23s"}
{"loss": 0.72328377, "token_acc": 0.81578947, "grad_norm": 6.6546793, "learning_rate": 7.21e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095946, "epoch": 0.38644535, "global_step/max_steps": "8310/21503", "percentage": "38.65%", "elapsed_time": "1d 0h 3m 31s", "remaining_time": "1d 14h 11m 44s"}
{"loss": 0.68190122, "token_acc": 0.84244604, "grad_norm": 7.32978058, "learning_rate": 7.21e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095979, "epoch": 0.38667787, "global_step/max_steps": "8315/21503", "percentage": "38.67%", "elapsed_time": "1d 0h 3m 53s", "remaining_time": "1d 14h 10m 5s"}
{"loss": 0.73352036, "token_acc": 0.82409546, "grad_norm": 5.07394743, "learning_rate": 7.2e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096011, "epoch": 0.38691038, "global_step/max_steps": "8320/21503", "percentage": "38.69%", "elapsed_time": "1d 0h 4m 16s", "remaining_time": "1d 14h 8m 26s"}
{"loss": 0.71671829, "token_acc": 0.82669492, "grad_norm": 8.37140274, "learning_rate": 7.2e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096043, "epoch": 0.3871429, "global_step/max_steps": "8325/21503", "percentage": "38.72%", "elapsed_time": "1d 0h 4m 39s", "remaining_time": "1d 14h 6m 48s"}
{"loss": 0.65925393, "token_acc": 0.83716535, "grad_norm": 6.65271807, "learning_rate": 7.2e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096076, "epoch": 0.38737542, "global_step/max_steps": "8330/21503", "percentage": "38.74%", "elapsed_time": "1d 0h 5m 2s", "remaining_time": "1d 14h 5m 10s"}
{"loss": 0.70267649, "token_acc": 0.80837062, "grad_norm": 5.50892782, "learning_rate": 7.19e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096108, "epoch": 0.38760794, "global_step/max_steps": "8335/21503", "percentage": "38.76%", "elapsed_time": "1d 0h 5m 25s", "remaining_time": "1d 14h 3m 32s"}
{"loss": 0.60396862, "token_acc": 0.85152838, "grad_norm": 7.60557604, "learning_rate": 7.19e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096141, "epoch": 0.38784046, "global_step/max_steps": "8340/21503", "percentage": "38.79%", "elapsed_time": "1d 0h 5m 47s", "remaining_time": "1d 14h 1m 53s"}
{"loss": 0.69466591, "token_acc": 0.83415198, "grad_norm": 6.18858671, "learning_rate": 7.19e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096172, "epoch": 0.38807298, "global_step/max_steps": "8345/21503", "percentage": "38.81%", "elapsed_time": "1d 0h 6m 11s", "remaining_time": "1d 14h 0m 16s"}
{"loss": 0.62340546, "token_acc": 0.85531697, "grad_norm": 7.38683558, "learning_rate": 7.18e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096205, "epoch": 0.38830549, "global_step/max_steps": "8350/21503", "percentage": "38.83%", "elapsed_time": "1d 0h 6m 33s", "remaining_time": "1d 13h 58m 38s"}
{"eval_loss": 0.62423295, "eval_runtime": 291.5772, "eval_samples_per_second": 11.918, "eval_steps_per_second": 11.918, "epoch": 0.38830549, "global_step/max_steps": "8350/21503", "percentage": "38.83%", "elapsed_time": "1d 0h 11m 25s", "remaining_time": "1d 14h 6m 17s"}
{"loss": 0.8015276, "token_acc": 0.8184322, "grad_norm": 7.96340322, "learning_rate": 7.18e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095913, "epoch": 0.38853801, "global_step/max_steps": "8355/21503", "percentage": "38.86%", "elapsed_time": "1d 0h 11m 49s", "remaining_time": "1d 14h 4m 41s"}
{"loss": 0.82901707, "token_acc": 0.78767123, "grad_norm": 9.44843388, "learning_rate": 7.18e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095944, "epoch": 0.38877053, "global_step/max_steps": "8360/21503", "percentage": "38.88%", "elapsed_time": "1d 0h 12m 13s", "remaining_time": "1d 14h 3m 5s"}
{"loss": 0.80854855, "token_acc": 0.79983012, "grad_norm": 6.71917772, "learning_rate": 7.17e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095977, "epoch": 0.38900305, "global_step/max_steps": "8365/21503", "percentage": "38.90%", "elapsed_time": "1d 0h 12m 36s", "remaining_time": "1d 14h 1m 26s"}
{"loss": 0.69849548, "token_acc": 0.83000739, "grad_norm": 8.45441341, "learning_rate": 7.17e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.09601, "epoch": 0.38923557, "global_step/max_steps": "8370/21503", "percentage": "38.92%", "elapsed_time": "1d 0h 12m 58s", "remaining_time": "1d 13h 59m 47s"}
{"loss": 0.67945056, "token_acc": 0.81859558, "grad_norm": 6.72022676, "learning_rate": 7.17e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096041, "epoch": 0.38946809, "global_step/max_steps": "8375/21503", "percentage": "38.95%", "elapsed_time": "1d 0h 13m 21s", "remaining_time": "1d 13h 58m 10s"}
{"loss": 0.73295989, "token_acc": 0.82567917, "grad_norm": 5.37983561, "learning_rate": 7.16e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096072, "epoch": 0.3897006, "global_step/max_steps": "8380/21503", "percentage": "38.97%", "elapsed_time": "1d 0h 13m 45s", "remaining_time": "1d 13h 56m 35s"}
{"loss": 0.6776937, "token_acc": 0.83786806, "grad_norm": 5.50559378, "learning_rate": 7.16e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096103, "epoch": 0.38993312, "global_step/max_steps": "8385/21503", "percentage": "38.99%", "elapsed_time": "1d 0h 14m 9s", "remaining_time": "1d 13h 54m 58s"}
{"loss": 0.65245905, "token_acc": 0.8298722, "grad_norm": 6.17460728, "learning_rate": 7.16e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096135, "epoch": 0.39016564, "global_step/max_steps": "8390/21503", "percentage": "39.02%", "elapsed_time": "1d 0h 14m 32s", "remaining_time": "1d 13h 53m 21s"}
{"loss": 0.76053157, "token_acc": 0.82340604, "grad_norm": 8.53377914, "learning_rate": 7.15e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096167, "epoch": 0.39039816, "global_step/max_steps": "8395/21503", "percentage": "39.04%", "elapsed_time": "1d 0h 14m 55s", "remaining_time": "1d 13h 51m 43s"}
{"loss": 0.67250381, "token_acc": 0.83652762, "grad_norm": 5.26388693, "learning_rate": 7.15e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096199, "epoch": 0.39063068, "global_step/max_steps": "8400/21503", "percentage": "39.06%", "elapsed_time": "1d 0h 15m 18s", "remaining_time": "1d 13h 50m 6s"}
{"eval_loss": 0.6255433, "eval_runtime": 290.2824, "eval_samples_per_second": 11.971, "eval_steps_per_second": 11.971, "epoch": 0.39063068, "global_step/max_steps": "8400/21503", "percentage": "39.06%", "elapsed_time": "1d 0h 20m 8s", "remaining_time": "1d 13h 57m 38s"}
{"loss": 0.68250756, "token_acc": 0.81960637, "grad_norm": 7.3965044, "learning_rate": 7.15e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095913, "epoch": 0.39086319, "global_step/max_steps": "8405/21503", "percentage": "39.09%", "elapsed_time": "1d 0h 20m 31s", "remaining_time": "1d 13h 56m 1s"}
{"loss": 0.5826901, "token_acc": 0.85518882, "grad_norm": 5.88738394, "learning_rate": 7.14e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095944, "epoch": 0.39109571, "global_step/max_steps": "8410/21503", "percentage": "39.11%", "elapsed_time": "1d 0h 20m 55s", "remaining_time": "1d 13h 54m 24s"}
{"loss": 0.65162072, "token_acc": 0.83450117, "grad_norm": 6.26400471, "learning_rate": 7.14e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095975, "epoch": 0.39132823, "global_step/max_steps": "8415/21503", "percentage": "39.13%", "elapsed_time": "1d 0h 21m 18s", "remaining_time": "1d 13h 52m 48s"}
{"loss": 0.78516912, "token_acc": 0.78700658, "grad_norm": 7.80822515, "learning_rate": 7.14e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096008, "epoch": 0.39156075, "global_step/max_steps": "8420/21503", "percentage": "39.16%", "elapsed_time": "1d 0h 21m 40s", "remaining_time": "1d 13h 51m 9s"}
{"loss": 0.69505343, "token_acc": 0.82038835, "grad_norm": 7.2982564, "learning_rate": 7.13e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.09604, "epoch": 0.39179327, "global_step/max_steps": "8425/21503", "percentage": "39.18%", "elapsed_time": "1d 0h 22m 3s", "remaining_time": "1d 13h 49m 32s"}
{"loss": 0.79691167, "token_acc": 0.79972752, "grad_norm": 6.78286648, "learning_rate": 7.13e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096072, "epoch": 0.39202579, "global_step/max_steps": "8430/21503", "percentage": "39.20%", "elapsed_time": "1d 0h 22m 26s", "remaining_time": "1d 13h 47m 55s"}
{"loss": 0.7231873, "token_acc": 0.82669789, "grad_norm": 6.8842783, "learning_rate": 7.13e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096104, "epoch": 0.3922583, "global_step/max_steps": "8435/21503", "percentage": "39.23%", "elapsed_time": "1d 0h 22m 49s", "remaining_time": "1d 13h 46m 17s"}
{"loss": 0.68509655, "token_acc": 0.82113235, "grad_norm": 6.4585309, "learning_rate": 7.12e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096136, "epoch": 0.39249082, "global_step/max_steps": "8440/21503", "percentage": "39.25%", "elapsed_time": "1d 0h 23m 12s", "remaining_time": "1d 13h 44m 40s"}
{"loss": 0.71622024, "token_acc": 0.82707029, "grad_norm": 6.65418673, "learning_rate": 7.12e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096167, "epoch": 0.39272334, "global_step/max_steps": "8445/21503", "percentage": "39.27%", "elapsed_time": "1d 0h 23m 35s", "remaining_time": "1d 13h 43m 3s"}
{"loss": 0.72168574, "token_acc": 0.83035019, "grad_norm": 6.90199327, "learning_rate": 7.11e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.0962, "epoch": 0.39295586, "global_step/max_steps": "8450/21503", "percentage": "39.30%", "elapsed_time": "1d 0h 23m 57s", "remaining_time": "1d 13h 41m 26s"}
{"eval_loss": 0.6227237, "eval_runtime": 293.0838, "eval_samples_per_second": 11.857, "eval_steps_per_second": 11.857, "epoch": 0.39295586, "global_step/max_steps": "8450/21503", "percentage": "39.30%", "elapsed_time": "1d 0h 28m 51s", "remaining_time": "1d 13h 48m 59s"}
{"loss": 0.81872549, "token_acc": 0.81827776, "grad_norm": 5.06384087, "learning_rate": 7.11e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095909, "epoch": 0.39318838, "global_step/max_steps": "8455/21503", "percentage": "39.32%", "elapsed_time": "1d 0h 29m 16s", "remaining_time": "1d 13h 47m 25s"}
{"loss": 0.66394081, "token_acc": 0.84013491, "grad_norm": 6.54954195, "learning_rate": 7.11e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.09594, "epoch": 0.3934209, "global_step/max_steps": "8460/21503", "percentage": "39.34%", "elapsed_time": "1d 0h 29m 40s", "remaining_time": "1d 13h 45m 49s"}
{"loss": 0.64471211, "token_acc": 0.84496753, "grad_norm": 7.6793189, "learning_rate": 7.1e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095971, "epoch": 0.39365341, "global_step/max_steps": "8465/21503", "percentage": "39.37%", "elapsed_time": "1d 0h 30m 3s", "remaining_time": "1d 13h 44m 12s"}
{"loss": 0.65380306, "token_acc": 0.83177233, "grad_norm": 6.48126078, "learning_rate": 7.1e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096003, "epoch": 0.39388593, "global_step/max_steps": "8470/21503", "percentage": "39.39%", "elapsed_time": "1d 0h 30m 25s", "remaining_time": "1d 13h 42m 35s"}
{"loss": 0.66475105, "token_acc": 0.8279646, "grad_norm": 4.74001169, "learning_rate": 7.1e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096034, "epoch": 0.39411845, "global_step/max_steps": "8475/21503", "percentage": "39.41%", "elapsed_time": "1d 0h 30m 49s", "remaining_time": "1d 13h 40m 59s"}
{"loss": 0.74190102, "token_acc": 0.81486146, "grad_norm": 8.06238365, "learning_rate": 7.09e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096066, "epoch": 0.39435097, "global_step/max_steps": "8480/21503", "percentage": "39.44%", "elapsed_time": "1d 0h 31m 11s", "remaining_time": "1d 13h 39m 21s"}
{"loss": 0.62967272, "token_acc": 0.83694915, "grad_norm": 6.52959919, "learning_rate": 7.09e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096098, "epoch": 0.39458349, "global_step/max_steps": "8485/21503", "percentage": "39.46%", "elapsed_time": "1d 0h 31m 34s", "remaining_time": "1d 13h 37m 45s"}
{"loss": 0.75235786, "token_acc": 0.80763216, "grad_norm": 6.89447212, "learning_rate": 7.09e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.09613, "epoch": 0.39481601, "global_step/max_steps": "8490/21503", "percentage": "39.48%", "elapsed_time": "1d 0h 31m 57s", "remaining_time": "1d 13h 36m 8s"}
{"loss": 0.65894694, "token_acc": 0.8323273, "grad_norm": 7.2252903, "learning_rate": 7.08e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096161, "epoch": 0.39504852, "global_step/max_steps": "8495/21503", "percentage": "39.51%", "elapsed_time": "1d 0h 32m 21s", "remaining_time": "1d 13h 34m 32s"}
{"loss": 0.66420121, "token_acc": 0.83283582, "grad_norm": 5.51179266, "learning_rate": 7.08e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096193, "epoch": 0.39528104, "global_step/max_steps": "8500/21503", "percentage": "39.53%", "elapsed_time": "1d 0h 32m 43s", "remaining_time": "1d 13h 32m 56s"}
{"eval_loss": 0.62175447, "eval_runtime": 291.8932, "eval_samples_per_second": 11.905, "eval_steps_per_second": 11.905, "epoch": 0.39528104, "global_step/max_steps": "8500/21503", "percentage": "39.53%", "elapsed_time": "1d 0h 37m 35s", "remaining_time": "1d 13h 40m 22s"}
{"loss": 0.84671192, "token_acc": 0.81879917, "grad_norm": 8.1801939, "learning_rate": 7.08e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095906, "epoch": 0.39551356, "global_step/max_steps": "8505/21503", "percentage": "39.55%", "elapsed_time": "1d 0h 37m 59s", "remaining_time": "1d 13h 38m 47s"}
{"loss": 0.71531339, "token_acc": 0.82690187, "grad_norm": 9.23123741, "learning_rate": 7.07e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095938, "epoch": 0.39574608, "global_step/max_steps": "8510/21503", "percentage": "39.58%", "elapsed_time": "1d 0h 38m 22s", "remaining_time": "1d 13h 37m 10s"}
{"loss": 0.53598046, "token_acc": 0.86409396, "grad_norm": 8.13108921, "learning_rate": 7.07e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.09597, "epoch": 0.3959786, "global_step/max_steps": "8515/21503", "percentage": "39.60%", "elapsed_time": "1d 0h 38m 45s", "remaining_time": "1d 13h 35m 34s"}
{"loss": 0.71177244, "token_acc": 0.82286822, "grad_norm": 7.11887264, "learning_rate": 7.07e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096001, "epoch": 0.39621111, "global_step/max_steps": "8520/21503", "percentage": "39.62%", "elapsed_time": "1d 0h 39m 8s", "remaining_time": "1d 13h 33m 57s"}
{"loss": 0.80698109, "token_acc": 0.80755177, "grad_norm": 5.54286671, "learning_rate": 7.06e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096033, "epoch": 0.39644363, "global_step/max_steps": "8525/21503", "percentage": "39.65%", "elapsed_time": "1d 0h 39m 31s", "remaining_time": "1d 13h 32m 21s"}
{"loss": 0.76750193, "token_acc": 0.80243662, "grad_norm": 5.64161968, "learning_rate": 7.06e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096065, "epoch": 0.39667615, "global_step/max_steps": "8530/21503", "percentage": "39.67%", "elapsed_time": "1d 0h 39m 54s", "remaining_time": "1d 13h 30m 44s"}
{"loss": 0.66597733, "token_acc": 0.83386454, "grad_norm": 6.30740833, "learning_rate": 7.06e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096097, "epoch": 0.39690867, "global_step/max_steps": "8535/21503", "percentage": "39.69%", "elapsed_time": "1d 0h 40m 15s", "remaining_time": "1d 13h 29m 6s"}
{"loss": 0.69532743, "token_acc": 0.8302926, "grad_norm": 6.31752825, "learning_rate": 7.05e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096129, "epoch": 0.39714119, "global_step/max_steps": "8540/21503", "percentage": "39.72%", "elapsed_time": "1d 0h 40m 38s", "remaining_time": "1d 13h 27m 29s"}
{"loss": 0.75543442, "token_acc": 0.79958246, "grad_norm": 7.03125668, "learning_rate": 7.05e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.09616, "epoch": 0.39737371, "global_step/max_steps": "8545/21503", "percentage": "39.74%", "elapsed_time": "1d 0h 41m 1s", "remaining_time": "1d 13h 25m 54s"}
{"loss": 0.72926388, "token_acc": 0.81062013, "grad_norm": 9.93776417, "learning_rate": 7.04e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096192, "epoch": 0.39760622, "global_step/max_steps": "8550/21503", "percentage": "39.76%", "elapsed_time": "1d 0h 41m 24s", "remaining_time": "1d 13h 24m 17s"}
{"eval_loss": 0.6203534, "eval_runtime": 294.7863, "eval_samples_per_second": 11.788, "eval_steps_per_second": 11.788, "epoch": 0.39760622, "global_step/max_steps": "8550/21503", "percentage": "39.76%", "elapsed_time": "1d 0h 46m 19s", "remaining_time": "1d 13h 31m 44s"}
{"loss": 0.73908362, "token_acc": 0.81978462, "grad_norm": 7.46390057, "learning_rate": 7.04e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095905, "epoch": 0.39783874, "global_step/max_steps": "8555/21503", "percentage": "39.79%", "elapsed_time": "1d 0h 46m 42s", "remaining_time": "1d 13h 30m 8s"}
{"loss": 0.66250567, "token_acc": 0.82613594, "grad_norm": 5.60983229, "learning_rate": 7.04e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095936, "epoch": 0.39807126, "global_step/max_steps": "8560/21503", "percentage": "39.81%", "elapsed_time": "1d 0h 47m 6s", "remaining_time": "1d 13h 28m 33s"}
{"loss": 0.59750729, "token_acc": 0.84899095, "grad_norm": 5.43430138, "learning_rate": 7.03e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095967, "epoch": 0.39830378, "global_step/max_steps": "8565/21503", "percentage": "39.83%", "elapsed_time": "1d 0h 47m 29s", "remaining_time": "1d 13h 26m 56s"}
{"loss": 0.65772386, "token_acc": 0.84158036, "grad_norm": 6.72133732, "learning_rate": 7.03e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095998, "epoch": 0.3985363, "global_step/max_steps": "8570/21503", "percentage": "39.85%", "elapsed_time": "1d 0h 47m 52s", "remaining_time": "1d 13h 25m 21s"}
{"loss": 0.77551026, "token_acc": 0.79671379, "grad_norm": 6.66374874, "learning_rate": 7.03e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096029, "epoch": 0.39876882, "global_step/max_steps": "8575/21503", "percentage": "39.88%", "elapsed_time": "1d 0h 48m 15s", "remaining_time": "1d 13h 23m 45s"}
{"loss": 0.71564045, "token_acc": 0.82849891, "grad_norm": 8.37984562, "learning_rate": 7.02e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096061, "epoch": 0.39900133, "global_step/max_steps": "8580/21503", "percentage": "39.90%", "elapsed_time": "1d 0h 48m 38s", "remaining_time": "1d 13h 22m 8s"}
{"loss": 0.67624578, "token_acc": 0.84113973, "grad_norm": 6.52379084, "learning_rate": 7.02e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096092, "epoch": 0.39923385, "global_step/max_steps": "8585/21503", "percentage": "39.92%", "elapsed_time": "1d 0h 49m 1s", "remaining_time": "1d 13h 20m 33s"}
{"loss": 0.76855907, "token_acc": 0.82611833, "grad_norm": 5.71816683, "learning_rate": 7.02e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096122, "epoch": 0.39946637, "global_step/max_steps": "8590/21503", "percentage": "39.95%", "elapsed_time": "1d 0h 49m 25s", "remaining_time": "1d 13h 18m 59s"}
{"loss": 0.65386744, "token_acc": 0.84068891, "grad_norm": 5.62320089, "learning_rate": 7.01e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096154, "epoch": 0.39969889, "global_step/max_steps": "8595/21503", "percentage": "39.97%", "elapsed_time": "1d 0h 49m 47s", "remaining_time": "1d 13h 17m 23s"}
{"loss": 0.70336089, "token_acc": 0.82834507, "grad_norm": 8.36141872, "learning_rate": 7.01e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096185, "epoch": 0.39993141, "global_step/max_steps": "8600/21503", "percentage": "39.99%", "elapsed_time": "1d 0h 50m 10s", "remaining_time": "1d 13h 15m 46s"}
{"eval_loss": 0.62188232, "eval_runtime": 292.7751, "eval_samples_per_second": 11.869, "eval_steps_per_second": 11.869, "epoch": 0.39993141, "global_step/max_steps": "8600/21503", "percentage": "39.99%", "elapsed_time": "1d 0h 55m 3s", "remaining_time": "1d 13h 23m 6s"}
{"loss": 0.74031186, "token_acc": 0.81902353, "grad_norm": 7.39115047, "learning_rate": 7.01e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095902, "epoch": 0.40016393, "global_step/max_steps": "8605/21503", "percentage": "40.02%", "elapsed_time": "1d 0h 55m 27s", "remaining_time": "1d 13h 21m 31s"}
{"loss": 0.65018191, "token_acc": 0.83092287, "grad_norm": 7.3200593, "learning_rate": 7e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095933, "epoch": 0.40039644, "global_step/max_steps": "8610/21503", "percentage": "40.04%", "elapsed_time": "1d 0h 55m 49s", "remaining_time": "1d 13h 19m 55s"}
{"loss": 0.60490313, "token_acc": 0.84953344, "grad_norm": 5.359231, "learning_rate": 7e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095965, "epoch": 0.40062896, "global_step/max_steps": "8615/21503", "percentage": "40.06%", "elapsed_time": "1d 0h 56m 12s", "remaining_time": "1d 13h 18m 19s"}
{"loss": 0.77244968, "token_acc": 0.812749, "grad_norm": 7.46732378, "learning_rate": 7e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095996, "epoch": 0.40086148, "global_step/max_steps": "8620/21503", "percentage": "40.09%", "elapsed_time": "1d 0h 56m 35s", "remaining_time": "1d 13h 16m 43s"}
{"loss": 0.67791862, "token_acc": 0.82326951, "grad_norm": 7.39833117, "learning_rate": 6.99e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096027, "epoch": 0.401094, "global_step/max_steps": "8625/21503", "percentage": "40.11%", "elapsed_time": "1d 0h 56m 58s", "remaining_time": "1d 13h 15m 7s"}
{"loss": 0.85419188, "token_acc": 0.78212468, "grad_norm": 6.00281668, "learning_rate": 6.99e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096057, "epoch": 0.40132652, "global_step/max_steps": "8630/21503", "percentage": "40.13%", "elapsed_time": "1d 0h 57m 22s", "remaining_time": "1d 13h 13m 33s"}
{"loss": 0.70695086, "token_acc": 0.82427401, "grad_norm": 5.53563499, "learning_rate": 6.99e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096089, "epoch": 0.40155903, "global_step/max_steps": "8635/21503", "percentage": "40.16%", "elapsed_time": "1d 0h 57m 44s", "remaining_time": "1d 13h 11m 57s"}
{"loss": 0.78995242, "token_acc": 0.81446166, "grad_norm": 9.84820366, "learning_rate": 6.98e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.09612, "epoch": 0.40179155, "global_step/max_steps": "8640/21503", "percentage": "40.18%", "elapsed_time": "1d 0h 58m 7s", "remaining_time": "1d 13h 10m 21s"}
{"loss": 0.69187808, "token_acc": 0.83562139, "grad_norm": 4.75589037, "learning_rate": 6.98e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096151, "epoch": 0.40202407, "global_step/max_steps": "8645/21503", "percentage": "40.20%", "elapsed_time": "1d 0h 58m 30s", "remaining_time": "1d 13h 8m 46s"}
{"loss": 0.70258269, "token_acc": 0.82901368, "grad_norm": 7.15121126, "learning_rate": 6.97e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096183, "epoch": 0.40225659, "global_step/max_steps": "8650/21503", "percentage": "40.23%", "elapsed_time": "1d 0h 58m 52s", "remaining_time": "1d 13h 7m 10s"}
{"eval_loss": 0.61997986, "eval_runtime": 293.9287, "eval_samples_per_second": 11.823, "eval_steps_per_second": 11.823, "epoch": 0.40225659, "global_step/max_steps": "8650/21503", "percentage": "40.23%", "elapsed_time": "1d 1h 3m 46s", "remaining_time": "1d 13h 14m 27s"}
{"loss": 0.71464076, "token_acc": 0.81996997, "grad_norm": 5.38720608, "learning_rate": 6.97e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.0959, "epoch": 0.40248911, "global_step/max_steps": "8655/21503", "percentage": "40.25%", "elapsed_time": "1d 1h 4m 9s", "remaining_time": "1d 13h 12m 52s"}
{"loss": 0.7553164, "token_acc": 0.83164129, "grad_norm": 10.00133038, "learning_rate": 6.97e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095931, "epoch": 0.40272163, "global_step/max_steps": "8660/21503", "percentage": "40.27%", "elapsed_time": "1d 1h 4m 32s", "remaining_time": "1d 13h 11m 16s"}
{"loss": 0.79569926, "token_acc": 0.8115117, "grad_norm": 4.90222359, "learning_rate": 6.96e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095962, "epoch": 0.40295414, "global_step/max_steps": "8665/21503", "percentage": "40.30%", "elapsed_time": "1d 1h 4m 55s", "remaining_time": "1d 13h 9m 41s"}
{"loss": 0.75411639, "token_acc": 0.82081174, "grad_norm": 8.35180187, "learning_rate": 6.96e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095994, "epoch": 0.40318666, "global_step/max_steps": "8670/21503", "percentage": "40.32%", "elapsed_time": "1d 1h 5m 17s", "remaining_time": "1d 13h 8m 4s"}
{"loss": 0.69001727, "token_acc": 0.83053691, "grad_norm": 5.43808889, "learning_rate": 6.96e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096026, "epoch": 0.40341918, "global_step/max_steps": "8675/21503", "percentage": "40.34%", "elapsed_time": "1d 1h 5m 39s", "remaining_time": "1d 13h 6m 28s"}
{"loss": 0.7927372, "token_acc": 0.80335033, "grad_norm": 6.12433004, "learning_rate": 6.95e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096057, "epoch": 0.4036517, "global_step/max_steps": "8680/21503", "percentage": "40.37%", "elapsed_time": "1d 1h 6m 2s", "remaining_time": "1d 13h 4m 52s"}
{"loss": 0.71603317, "token_acc": 0.82909091, "grad_norm": 8.31825829, "learning_rate": 6.95e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096089, "epoch": 0.40388422, "global_step/max_steps": "8685/21503", "percentage": "40.39%", "elapsed_time": "1d 1h 6m 25s", "remaining_time": "1d 13h 3m 17s"}
{"loss": 0.6082027, "token_acc": 0.85397338, "grad_norm": 5.61981058, "learning_rate": 6.95e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.09612, "epoch": 0.40411674, "global_step/max_steps": "8690/21503", "percentage": "40.41%", "elapsed_time": "1d 1h 6m 47s", "remaining_time": "1d 13h 1m 41s"}
{"loss": 0.60058413, "token_acc": 0.84297521, "grad_norm": 6.68493986, "learning_rate": 6.94e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.09615, "epoch": 0.40434925, "global_step/max_steps": "8695/21503", "percentage": "40.44%", "elapsed_time": "1d 1h 7m 11s", "remaining_time": "1d 13h 0m 7s"}
{"loss": 0.6406508, "token_acc": 0.83485679, "grad_norm": 6.46277571, "learning_rate": 6.94e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.09618, "epoch": 0.40458177, "global_step/max_steps": "8700/21503", "percentage": "40.46%", "elapsed_time": "1d 1h 7m 35s", "remaining_time": "1d 12h 58m 34s"}
{"eval_loss": 0.61945093, "eval_runtime": 291.2015, "eval_samples_per_second": 11.933, "eval_steps_per_second": 11.933, "epoch": 0.40458177, "global_step/max_steps": "8700/21503", "percentage": "40.46%", "elapsed_time": "1d 1h 12m 26s", "remaining_time": "1d 13h 5m 43s"}
{"loss": 0.77018399, "token_acc": 0.81904352, "grad_norm": 7.09371042, "learning_rate": 6.94e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.0959, "epoch": 0.40481429, "global_step/max_steps": "8705/21503", "percentage": "40.48%", "elapsed_time": "1d 1h 12m 51s", "remaining_time": "1d 13h 4m 10s"}
{"loss": 0.73410869, "token_acc": 0.83292383, "grad_norm": 9.27556133, "learning_rate": 6.93e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095932, "epoch": 0.40504681, "global_step/max_steps": "8710/21503", "percentage": "40.51%", "elapsed_time": "1d 1h 13m 12s", "remaining_time": "1d 13h 2m 34s"}
{"loss": 0.63804679, "token_acc": 0.83506944, "grad_norm": 6.43833256, "learning_rate": 6.93e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095964, "epoch": 0.40527933, "global_step/max_steps": "8715/21503", "percentage": "40.53%", "elapsed_time": "1d 1h 13m 35s", "remaining_time": "1d 13h 0m 57s"}
{"loss": 0.62090364, "token_acc": 0.83979328, "grad_norm": 6.66199589, "learning_rate": 6.92e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095995, "epoch": 0.40551185, "global_step/max_steps": "8720/21503", "percentage": "40.55%", "elapsed_time": "1d 1h 13m 58s", "remaining_time": "1d 12h 59m 23s"}
{"loss": 0.69945726, "token_acc": 0.8341075, "grad_norm": 7.79861069, "learning_rate": 6.92e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096025, "epoch": 0.40574436, "global_step/max_steps": "8725/21503", "percentage": "40.58%", "elapsed_time": "1d 1h 14m 21s", "remaining_time": "1d 12h 57m 48s"}
{"loss": 0.68998775, "token_acc": 0.81941235, "grad_norm": 8.07105732, "learning_rate": 6.92e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096055, "epoch": 0.40597688, "global_step/max_steps": "8730/21503", "percentage": "40.60%", "elapsed_time": "1d 1h 14m 44s", "remaining_time": "1d 12h 56m 14s"}
{"loss": 0.68090487, "token_acc": 0.83941892, "grad_norm": 9.45144367, "learning_rate": 6.91e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096087, "epoch": 0.4062094, "global_step/max_steps": "8735/21503", "percentage": "40.62%", "elapsed_time": "1d 1h 15m 6s", "remaining_time": "1d 12h 54m 39s"}
{"loss": 0.62278633, "token_acc": 0.84865264, "grad_norm": 8.28596783, "learning_rate": 6.91e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096117, "epoch": 0.40644192, "global_step/max_steps": "8740/21503", "percentage": "40.65%", "elapsed_time": "1d 1h 15m 30s", "remaining_time": "1d 12h 53m 5s"}
{"loss": 0.82976522, "token_acc": 0.80681818, "grad_norm": 6.14511108, "learning_rate": 6.91e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096148, "epoch": 0.40667444, "global_step/max_steps": "8745/21503", "percentage": "40.67%", "elapsed_time": "1d 1h 15m 53s", "remaining_time": "1d 12h 51m 30s"}
{"loss": 0.66510992, "token_acc": 0.8276581, "grad_norm": 7.01316404, "learning_rate": 6.9e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096179, "epoch": 0.40690695, "global_step/max_steps": "8750/21503", "percentage": "40.69%", "elapsed_time": "1d 1h 16m 15s", "remaining_time": "1d 12h 49m 55s"}
{"eval_loss": 0.62212998, "eval_runtime": 292.4864, "eval_samples_per_second": 11.881, "eval_steps_per_second": 11.881, "epoch": 0.40690695, "global_step/max_steps": "8750/21503", "percentage": "40.69%", "elapsed_time": "1d 1h 21m 8s", "remaining_time": "1d 12h 57m 1s"}
{"loss": 0.77172585, "token_acc": 0.82000544, "grad_norm": 7.36884403, "learning_rate": 6.9e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095902, "epoch": 0.40713947, "global_step/max_steps": "8755/21503", "percentage": "40.72%", "elapsed_time": "1d 1h 21m 31s", "remaining_time": "1d 12h 55m 27s"}
{"loss": 0.75382776, "token_acc": 0.82950613, "grad_norm": 8.73015785, "learning_rate": 6.9e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095932, "epoch": 0.40737199, "global_step/max_steps": "8760/21503", "percentage": "40.74%", "elapsed_time": "1d 1h 21m 54s", "remaining_time": "1d 12h 53m 53s"}
{"loss": 0.72680197, "token_acc": 0.82509917, "grad_norm": 5.82636309, "learning_rate": 6.89e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095962, "epoch": 0.40760451, "global_step/max_steps": "8765/21503", "percentage": "40.76%", "elapsed_time": "1d 1h 22m 17s", "remaining_time": "1d 12h 52m 19s"}
{"loss": 0.72478657, "token_acc": 0.82478632, "grad_norm": 7.25645542, "learning_rate": 6.89e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095992, "epoch": 0.40783703, "global_step/max_steps": "8770/21503", "percentage": "40.79%", "elapsed_time": "1d 1h 22m 41s", "remaining_time": "1d 12h 50m 46s"}
{"loss": 0.648665, "token_acc": 0.82167517, "grad_norm": 5.47748947, "learning_rate": 6.89e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096022, "epoch": 0.40806955, "global_step/max_steps": "8775/21503", "percentage": "40.81%", "elapsed_time": "1d 1h 23m 5s", "remaining_time": "1d 12h 49m 12s"}
{"loss": 0.64430923, "token_acc": 0.84345898, "grad_norm": 8.23330116, "learning_rate": 6.88e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096053, "epoch": 0.40830206, "global_step/max_steps": "8780/21503", "percentage": "40.83%", "elapsed_time": "1d 1h 23m 27s", "remaining_time": "1d 12h 47m 38s"}
{"loss": 0.81402903, "token_acc": 0.80265891, "grad_norm": 9.86405659, "learning_rate": 6.88e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096083, "epoch": 0.40853458, "global_step/max_steps": "8785/21503", "percentage": "40.85%", "elapsed_time": "1d 1h 23m 50s", "remaining_time": "1d 12h 46m 3s"}
{"loss": 0.69302311, "token_acc": 0.83272364, "grad_norm": 7.31030989, "learning_rate": 6.88e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096114, "epoch": 0.4087671, "global_step/max_steps": "8790/21503", "percentage": "40.88%", "elapsed_time": "1d 1h 24m 13s", "remaining_time": "1d 12h 44m 30s"}
{"loss": 0.68721762, "token_acc": 0.82752156, "grad_norm": 7.78805017, "learning_rate": 6.87e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096144, "epoch": 0.40899962, "global_step/max_steps": "8795/21503", "percentage": "40.90%", "elapsed_time": "1d 1h 24m 36s", "remaining_time": "1d 12h 42m 56s"}
{"loss": 0.62617249, "token_acc": 0.84050445, "grad_norm": 6.27639675, "learning_rate": 6.87e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096175, "epoch": 0.40923214, "global_step/max_steps": "8800/21503", "percentage": "40.92%", "elapsed_time": "1d 1h 24m 59s", "remaining_time": "1d 12h 41m 21s"}
{"eval_loss": 0.61929142, "eval_runtime": 291.4338, "eval_samples_per_second": 11.924, "eval_steps_per_second": 11.924, "epoch": 0.40923214, "global_step/max_steps": "8800/21503", "percentage": "40.92%", "elapsed_time": "1d 1h 29m 50s", "remaining_time": "1d 12h 48m 22s"}
{"loss": 0.5885149, "token_acc": 0.82077229, "grad_norm": 6.18439293, "learning_rate": 6.86e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.0959, "epoch": 0.40946466, "global_step/max_steps": "8805/21503", "percentage": "40.95%", "elapsed_time": "1d 1h 30m 14s", "remaining_time": "1d 12h 46m 48s"}
{"loss": 0.6702795, "token_acc": 0.82456829, "grad_norm": 7.02732944, "learning_rate": 6.86e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095931, "epoch": 0.40969717, "global_step/max_steps": "8810/21503", "percentage": "40.97%", "elapsed_time": "1d 1h 30m 36s", "remaining_time": "1d 12h 45m 13s"}
{"loss": 0.775599, "token_acc": 0.81868567, "grad_norm": 7.64309835, "learning_rate": 6.86e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095961, "epoch": 0.40992969, "global_step/max_steps": "8815/21503", "percentage": "40.99%", "elapsed_time": "1d 1h 30m 59s", "remaining_time": "1d 12h 43m 39s"}
{"loss": 0.76077929, "token_acc": 0.80682191, "grad_norm": 7.11703444, "learning_rate": 6.85e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095992, "epoch": 0.41016221, "global_step/max_steps": "8820/21503", "percentage": "41.02%", "elapsed_time": "1d 1h 31m 22s", "remaining_time": "1d 12h 42m 5s"}
{"loss": 0.6519228, "token_acc": 0.82896155, "grad_norm": 5.77566719, "learning_rate": 6.85e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096022, "epoch": 0.41039473, "global_step/max_steps": "8825/21503", "percentage": "41.04%", "elapsed_time": "1d 1h 31m 45s", "remaining_time": "1d 12h 40m 31s"}
{"loss": 0.73885007, "token_acc": 0.81837683, "grad_norm": 7.27347374, "learning_rate": 6.85e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096052, "epoch": 0.41062725, "global_step/max_steps": "8830/21503", "percentage": "41.06%", "elapsed_time": "1d 1h 32m 8s", "remaining_time": "1d 12h 38m 58s"}
{"loss": 0.56212854, "token_acc": 0.85478681, "grad_norm": 5.88762283, "learning_rate": 6.84e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096083, "epoch": 0.41085977, "global_step/max_steps": "8835/21503", "percentage": "41.09%", "elapsed_time": "1d 1h 32m 31s", "remaining_time": "1d 12h 37m 23s"}
{"loss": 0.69212594, "token_acc": 0.8310536, "grad_norm": 7.27102661, "learning_rate": 6.84e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096114, "epoch": 0.41109228, "global_step/max_steps": "8840/21503", "percentage": "41.11%", "elapsed_time": "1d 1h 32m 53s", "remaining_time": "1d 12h 35m 49s"}
{"loss": 0.71823883, "token_acc": 0.83475091, "grad_norm": 8.45950317, "learning_rate": 6.84e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096145, "epoch": 0.4113248, "global_step/max_steps": "8845/21503", "percentage": "41.13%", "elapsed_time": "1d 1h 33m 16s", "remaining_time": "1d 12h 34m 15s"}
{"loss": 0.7506031, "token_acc": 0.81900631, "grad_norm": 7.94595814, "learning_rate": 6.83e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096175, "epoch": 0.41155732, "global_step/max_steps": "8850/21503", "percentage": "41.16%", "elapsed_time": "1d 1h 33m 39s", "remaining_time": "1d 12h 32m 41s"}
{"eval_loss": 0.61837447, "eval_runtime": 293.1435, "eval_samples_per_second": 11.854, "eval_steps_per_second": 11.854, "epoch": 0.41155732, "global_step/max_steps": "8850/21503", "percentage": "41.16%", "elapsed_time": "1d 1h 38m 32s", "remaining_time": "1d 12h 39m 40s"}
{"loss": 0.6559175, "token_acc": 0.82024793, "grad_norm": 7.76120329, "learning_rate": 6.83e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.0959, "epoch": 0.41178984, "global_step/max_steps": "8855/21503", "percentage": "41.18%", "elapsed_time": "1d 1h 38m 55s", "remaining_time": "1d 12h 38m 6s"}
{"loss": 0.75818529, "token_acc": 0.81065652, "grad_norm": 6.70403194, "learning_rate": 6.83e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095931, "epoch": 0.41202236, "global_step/max_steps": "8860/21503", "percentage": "41.20%", "elapsed_time": "1d 1h 39m 17s", "remaining_time": "1d 12h 36m 31s"}
{"loss": 0.74969873, "token_acc": 0.81693221, "grad_norm": 6.42346621, "learning_rate": 6.82e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095961, "epoch": 0.41225487, "global_step/max_steps": "8865/21503", "percentage": "41.23%", "elapsed_time": "1d 1h 39m 41s", "remaining_time": "1d 12h 34m 59s"}
{"loss": 0.69482107, "token_acc": 0.82608696, "grad_norm": 5.88769531, "learning_rate": 6.82e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095991, "epoch": 0.41248739, "global_step/max_steps": "8870/21503", "percentage": "41.25%", "elapsed_time": "1d 1h 40m 4s", "remaining_time": "1d 12h 33m 25s"}
{"loss": 0.68069849, "token_acc": 0.8140625, "grad_norm": 7.56540871, "learning_rate": 6.81e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096021, "epoch": 0.41271991, "global_step/max_steps": "8875/21503", "percentage": "41.27%", "elapsed_time": "1d 1h 40m 27s", "remaining_time": "1d 12h 31m 52s"}
{"loss": 0.73119664, "token_acc": 0.83488176, "grad_norm": 9.71287155, "learning_rate": 6.81e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096051, "epoch": 0.41295243, "global_step/max_steps": "8880/21503", "percentage": "41.30%", "elapsed_time": "1d 1h 40m 51s", "remaining_time": "1d 12h 30m 19s"}
{"loss": 0.74405637, "token_acc": 0.81270537, "grad_norm": 6.43382931, "learning_rate": 6.81e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.09608, "epoch": 0.41318495, "global_step/max_steps": "8885/21503", "percentage": "41.32%", "elapsed_time": "1d 1h 41m 14s", "remaining_time": "1d 12h 28m 47s"}
{"loss": 0.77258539, "token_acc": 0.81826401, "grad_norm": 4.98017359, "learning_rate": 6.8e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.09611, "epoch": 0.41341747, "global_step/max_steps": "8890/21503", "percentage": "41.34%", "elapsed_time": "1d 1h 41m 37s", "remaining_time": "1d 12h 27m 14s"}
{"loss": 0.62359562, "token_acc": 0.83940704, "grad_norm": 7.03593969, "learning_rate": 6.8e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096141, "epoch": 0.41364998, "global_step/max_steps": "8895/21503", "percentage": "41.37%", "elapsed_time": "1d 1h 42m 0s", "remaining_time": "1d 12h 25m 40s"}
{"loss": 0.6124022, "token_acc": 0.84694265, "grad_norm": 8.03186703, "learning_rate": 6.8e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096172, "epoch": 0.4138825, "global_step/max_steps": "8900/21503", "percentage": "41.39%", "elapsed_time": "1d 1h 42m 22s", "remaining_time": "1d 12h 24m 6s"}
{"eval_loss": 0.61910748, "eval_runtime": 295.2805, "eval_samples_per_second": 11.768, "eval_steps_per_second": 11.768, "epoch": 0.4138825, "global_step/max_steps": "8900/21503", "percentage": "41.39%", "elapsed_time": "1d 1h 47m 18s", "remaining_time": "1d 12h 31m 4s"}
{"loss": 0.67152777, "token_acc": 0.82067186, "grad_norm": 7.60252428, "learning_rate": 6.79e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095895, "epoch": 0.41411502, "global_step/max_steps": "8905/21503", "percentage": "41.41%", "elapsed_time": "1d 1h 47m 41s", "remaining_time": "1d 12h 29m 32s"}
{"loss": 0.77059908, "token_acc": 0.80764075, "grad_norm": 6.76197243, "learning_rate": 6.79e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095925, "epoch": 0.41434754, "global_step/max_steps": "8910/21503", "percentage": "41.44%", "elapsed_time": "1d 1h 48m 4s", "remaining_time": "1d 12h 27m 59s"}
{"loss": 0.67033167, "token_acc": 0.83215844, "grad_norm": 6.94569302, "learning_rate": 6.79e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095955, "epoch": 0.41458006, "global_step/max_steps": "8915/21503", "percentage": "41.46%", "elapsed_time": "1d 1h 48m 27s", "remaining_time": "1d 12h 26m 26s"}
{"loss": 0.65812106, "token_acc": 0.83868411, "grad_norm": 6.60468197, "learning_rate": 6.78e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095986, "epoch": 0.41481258, "global_step/max_steps": "8920/21503", "percentage": "41.48%", "elapsed_time": "1d 1h 48m 50s", "remaining_time": "1d 12h 24m 51s"}
{"loss": 0.70419784, "token_acc": 0.8179746, "grad_norm": 6.90980816, "learning_rate": 6.78e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096015, "epoch": 0.41504509, "global_step/max_steps": "8925/21503", "percentage": "41.51%", "elapsed_time": "1d 1h 49m 13s", "remaining_time": "1d 12h 23m 19s"}
{"loss": 0.63400202, "token_acc": 0.83087943, "grad_norm": 8.91896248, "learning_rate": 6.77e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096045, "epoch": 0.41527761, "global_step/max_steps": "8930/21503", "percentage": "41.53%", "elapsed_time": "1d 1h 49m 36s", "remaining_time": "1d 12h 21m 46s"}
{"loss": 0.6915, "token_acc": 0.83016477, "grad_norm": 8.38397312, "learning_rate": 6.77e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096075, "epoch": 0.41551013, "global_step/max_steps": "8935/21503", "percentage": "41.55%", "elapsed_time": "1d 1h 49m 59s", "remaining_time": "1d 12h 20m 13s"}
{"loss": 0.70166998, "token_acc": 0.82613391, "grad_norm": 7.24580383, "learning_rate": 6.77e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096106, "epoch": 0.41574265, "global_step/max_steps": "8940/21503", "percentage": "41.58%", "elapsed_time": "1d 1h 50m 22s", "remaining_time": "1d 12h 18m 40s"}
{"loss": 0.85546827, "token_acc": 0.79209226, "grad_norm": 7.52577972, "learning_rate": 6.76e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096135, "epoch": 0.41597517, "global_step/max_steps": "8945/21503", "percentage": "41.60%", "elapsed_time": "1d 1h 50m 45s", "remaining_time": "1d 12h 17m 8s"}
{"loss": 0.75399337, "token_acc": 0.80973592, "grad_norm": 6.91605663, "learning_rate": 6.76e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096165, "epoch": 0.41620769, "global_step/max_steps": "8950/21503", "percentage": "41.62%", "elapsed_time": "1d 1h 51m 9s", "remaining_time": "1d 12h 15m 35s"}
{"eval_loss": 0.61942816, "eval_runtime": 293.896, "eval_samples_per_second": 11.824, "eval_steps_per_second": 11.824, "epoch": 0.41620769, "global_step/max_steps": "8950/21503", "percentage": "41.62%", "elapsed_time": "1d 1h 56m 2s", "remaining_time": "1d 12h 22m 28s"}
{"loss": 0.65320058, "token_acc": 0.82112169, "grad_norm": 6.3170867, "learning_rate": 6.76e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095891, "epoch": 0.4164402, "global_step/max_steps": "8955/21503", "percentage": "41.65%", "elapsed_time": "1d 1h 56m 27s", "remaining_time": "1d 12h 20m 56s"}
{"loss": 0.76306839, "token_acc": 0.80831826, "grad_norm": 7.50930882, "learning_rate": 6.75e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.09592, "epoch": 0.41667272, "global_step/max_steps": "8960/21503", "percentage": "41.67%", "elapsed_time": "1d 1h 56m 50s", "remaining_time": "1d 12h 19m 24s"}
{"loss": 0.62244515, "token_acc": 0.85815126, "grad_norm": 8.19624329, "learning_rate": 6.75e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.09595, "epoch": 0.41690524, "global_step/max_steps": "8965/21503", "percentage": "41.69%", "elapsed_time": "1d 1h 57m 13s", "remaining_time": "1d 12h 17m 51s"}
{"loss": 0.71879916, "token_acc": 0.82778001, "grad_norm": 7.7924943, "learning_rate": 6.75e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.09598, "epoch": 0.41713776, "global_step/max_steps": "8970/21503", "percentage": "41.72%", "elapsed_time": "1d 1h 57m 36s", "remaining_time": "1d 12h 16m 18s"}
{"loss": 0.72894335, "token_acc": 0.81811822, "grad_norm": 5.68185139, "learning_rate": 6.74e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096009, "epoch": 0.41737028, "global_step/max_steps": "8975/21503", "percentage": "41.74%", "elapsed_time": "1d 1h 58m 0s", "remaining_time": "1d 12h 14m 46s"}
{"loss": 0.68358531, "token_acc": 0.84175935, "grad_norm": 12.69056034, "learning_rate": 6.74e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.09604, "epoch": 0.41760279, "global_step/max_steps": "8980/21503", "percentage": "41.76%", "elapsed_time": "1d 1h 58m 22s", "remaining_time": "1d 12h 13m 13s"}
{"loss": 0.7906692, "token_acc": 0.81824765, "grad_norm": 6.00642157, "learning_rate": 6.74e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.09607, "epoch": 0.41783531, "global_step/max_steps": "8985/21503", "percentage": "41.78%", "elapsed_time": "1d 1h 58m 45s", "remaining_time": "1d 12h 11m 41s"}
{"loss": 0.74647026, "token_acc": 0.81800263, "grad_norm": 6.35852671, "learning_rate": 6.73e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.0961, "epoch": 0.41806783, "global_step/max_steps": "8990/21503", "percentage": "41.81%", "elapsed_time": "1d 1h 59m 8s", "remaining_time": "1d 12h 10m 7s"}
{"loss": 0.76474571, "token_acc": 0.8158474, "grad_norm": 9.47359562, "learning_rate": 6.73e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.09613, "epoch": 0.41830035, "global_step/max_steps": "8995/21503", "percentage": "41.83%", "elapsed_time": "1d 1h 59m 30s", "remaining_time": "1d 12h 8m 35s"}
{"loss": 0.74463625, "token_acc": 0.80649437, "grad_norm": 5.88131332, "learning_rate": 6.72e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.09616, "epoch": 0.41853287, "global_step/max_steps": "9000/21503", "percentage": "41.85%", "elapsed_time": "1d 1h 59m 54s", "remaining_time": "1d 12h 7m 3s"}
{"eval_loss": 0.61716968, "eval_runtime": 297.804, "eval_samples_per_second": 11.669, "eval_steps_per_second": 11.669, "epoch": 0.41853287, "global_step/max_steps": "9000/21503", "percentage": "41.85%", "elapsed_time": "1d 2h 4m 52s", "remaining_time": "1d 12h 13m 56s"}
{"loss": 0.62712774, "token_acc": 0.82036708, "grad_norm": 10.64440536, "learning_rate": 6.72e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095884, "epoch": 0.41876539, "global_step/max_steps": "9005/21503", "percentage": "41.88%", "elapsed_time": "1d 2h 5m 15s", "remaining_time": "1d 12h 12m 24s"}
{"loss": 0.62667975, "token_acc": 0.83636977, "grad_norm": 5.75175905, "learning_rate": 6.72e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095913, "epoch": 0.4189979, "global_step/max_steps": "9010/21503", "percentage": "41.90%", "elapsed_time": "1d 2h 5m 38s", "remaining_time": "1d 12h 10m 52s"}
{"loss": 0.66862431, "token_acc": 0.83323371, "grad_norm": 7.08682489, "learning_rate": 6.71e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095942, "epoch": 0.41923042, "global_step/max_steps": "9015/21503", "percentage": "41.92%", "elapsed_time": "1d 2h 6m 2s", "remaining_time": "1d 12h 9m 20s"}
{"loss": 0.63350649, "token_acc": 0.84783427, "grad_norm": 6.73115301, "learning_rate": 6.71e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095972, "epoch": 0.41946294, "global_step/max_steps": "9020/21503", "percentage": "41.95%", "elapsed_time": "1d 2h 6m 25s", "remaining_time": "1d 12h 7m 49s"}
{"loss": 0.79640899, "token_acc": 0.81687094, "grad_norm": 6.62751102, "learning_rate": 6.71e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096002, "epoch": 0.41969546, "global_step/max_steps": "9025/21503", "percentage": "41.97%", "elapsed_time": "1d 2h 6m 48s", "remaining_time": "1d 12h 6m 16s"}
{"loss": 0.69108701, "token_acc": 0.83162461, "grad_norm": 6.41198826, "learning_rate": 6.7e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096031, "epoch": 0.41992798, "global_step/max_steps": "9030/21503", "percentage": "41.99%", "elapsed_time": "1d 2h 7m 11s", "remaining_time": "1d 12h 4m 44s"}
{"loss": 0.61854849, "token_acc": 0.8502076, "grad_norm": 5.19227457, "learning_rate": 6.7e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.09606, "epoch": 0.4201605, "global_step/max_steps": "9035/21503", "percentage": "42.02%", "elapsed_time": "1d 2h 7m 35s", "remaining_time": "1d 12h 3m 13s"}
{"loss": 0.84393024, "token_acc": 0.80518639, "grad_norm": 9.89551449, "learning_rate": 6.7e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.09609, "epoch": 0.42039301, "global_step/max_steps": "9040/21503", "percentage": "42.04%", "elapsed_time": "1d 2h 7m 58s", "remaining_time": "1d 12h 1m 41s"}
{"loss": 0.70713696, "token_acc": 0.82482014, "grad_norm": 7.79142284, "learning_rate": 6.69e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096119, "epoch": 0.42062553, "global_step/max_steps": "9045/21503", "percentage": "42.06%", "elapsed_time": "1d 2h 8m 21s", "remaining_time": "1d 12h 0m 9s"}
{"loss": 0.717308, "token_acc": 0.82357967, "grad_norm": 7.3534646, "learning_rate": 6.69e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096149, "epoch": 0.42085805, "global_step/max_steps": "9050/21503", "percentage": "42.09%", "elapsed_time": "1d 2h 8m 44s", "remaining_time": "1d 11h 58m 37s"}
{"eval_loss": 0.61705452, "eval_runtime": 295.4839, "eval_samples_per_second": 11.76, "eval_steps_per_second": 11.76, "epoch": 0.42085805, "global_step/max_steps": "9050/21503", "percentage": "42.09%", "elapsed_time": "1d 2h 13m 40s", "remaining_time": "1d 12h 5m 24s"}
{"loss": 0.69463968, "token_acc": 0.82071739, "grad_norm": 6.84294224, "learning_rate": 6.68e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095877, "epoch": 0.42109057, "global_step/max_steps": "9055/21503", "percentage": "42.11%", "elapsed_time": "1d 2h 14m 3s", "remaining_time": "1d 12h 3m 52s"}
{"loss": 0.7505971, "token_acc": 0.81428571, "grad_norm": 8.14249802, "learning_rate": 6.68e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095907, "epoch": 0.42132309, "global_step/max_steps": "9060/21503", "percentage": "42.13%", "elapsed_time": "1d 2h 14m 26s", "remaining_time": "1d 12h 2m 19s"}
{"loss": 0.69957752, "token_acc": 0.82556244, "grad_norm": 8.18049526, "learning_rate": 6.68e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095937, "epoch": 0.42155561, "global_step/max_steps": "9065/21503", "percentage": "42.16%", "elapsed_time": "1d 2h 14m 49s", "remaining_time": "1d 12h 0m 47s"}
{"loss": 0.69104943, "token_acc": 0.83241859, "grad_norm": 9.9119463, "learning_rate": 6.67e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095967, "epoch": 0.42178812, "global_step/max_steps": "9070/21503", "percentage": "42.18%", "elapsed_time": "1d 2h 15m 11s", "remaining_time": "1d 11h 59m 14s"}
{"loss": 0.66323857, "token_acc": 0.83263452, "grad_norm": 7.65514612, "learning_rate": 6.67e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095996, "epoch": 0.42202064, "global_step/max_steps": "9075/21503", "percentage": "42.20%", "elapsed_time": "1d 2h 15m 34s", "remaining_time": "1d 11h 57m 42s"}
{"loss": 0.73143826, "token_acc": 0.81329726, "grad_norm": 9.68153763, "learning_rate": 6.67e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096026, "epoch": 0.42225316, "global_step/max_steps": "9080/21503", "percentage": "42.23%", "elapsed_time": "1d 2h 15m 57s", "remaining_time": "1d 11h 56m 10s"}
{"loss": 0.66151628, "token_acc": 0.83417594, "grad_norm": 6.7427702, "learning_rate": 6.66e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096056, "epoch": 0.42248568, "global_step/max_steps": "9085/21503", "percentage": "42.25%", "elapsed_time": "1d 2h 16m 20s", "remaining_time": "1d 11h 54m 38s"}
{"loss": 0.64853349, "token_acc": 0.83557147, "grad_norm": 7.63606358, "learning_rate": 6.66e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096085, "epoch": 0.4227182, "global_step/max_steps": "9090/21503", "percentage": "42.27%", "elapsed_time": "1d 2h 16m 43s", "remaining_time": "1d 11h 53m 6s"}
{"loss": 0.69729114, "token_acc": 0.82636778, "grad_norm": 7.49742174, "learning_rate": 6.66e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096114, "epoch": 0.42295071, "global_step/max_steps": "9095/21503", "percentage": "42.30%", "elapsed_time": "1d 2h 17m 6s", "remaining_time": "1d 11h 51m 36s"}
{"loss": 0.75755949, "token_acc": 0.80716253, "grad_norm": 8.55473137, "learning_rate": 6.65e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096143, "epoch": 0.42318323, "global_step/max_steps": "9100/21503", "percentage": "42.32%", "elapsed_time": "1d 2h 17m 30s", "remaining_time": "1d 11h 50m 5s"}
{"eval_loss": 0.61524647, "eval_runtime": 294.8661, "eval_samples_per_second": 11.785, "eval_steps_per_second": 11.785, "epoch": 0.42318323, "global_step/max_steps": "9100/21503", "percentage": "42.32%", "elapsed_time": "1d 2h 22m 25s", "remaining_time": "1d 11h 56m 47s"}
{"loss": 0.79073234, "token_acc": 0.82086513, "grad_norm": 5.97367382, "learning_rate": 6.65e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095874, "epoch": 0.42341575, "global_step/max_steps": "9105/21503", "percentage": "42.34%", "elapsed_time": "1d 2h 22m 48s", "remaining_time": "1d 11h 55m 15s"}
{"loss": 0.80260315, "token_acc": 0.80438871, "grad_norm": 6.82549095, "learning_rate": 6.64e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095903, "epoch": 0.42364827, "global_step/max_steps": "9110/21503", "percentage": "42.37%", "elapsed_time": "1d 2h 23m 11s", "remaining_time": "1d 11h 53m 43s"}
{"loss": 0.62628155, "token_acc": 0.84323128, "grad_norm": 7.02531862, "learning_rate": 6.64e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095931, "epoch": 0.42388079, "global_step/max_steps": "9115/21503", "percentage": "42.39%", "elapsed_time": "1d 2h 23m 35s", "remaining_time": "1d 11h 52m 13s"}
{"loss": 0.69274406, "token_acc": 0.82181955, "grad_norm": 7.37258148, "learning_rate": 6.64e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095961, "epoch": 0.42411331, "global_step/max_steps": "9120/21503", "percentage": "42.41%", "elapsed_time": "1d 2h 23m 57s", "remaining_time": "1d 11h 50m 41s"}
{"loss": 0.72576551, "token_acc": 0.81967775, "grad_norm": 7.31734753, "learning_rate": 6.63e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.09599, "epoch": 0.42434582, "global_step/max_steps": "9125/21503", "percentage": "42.44%", "elapsed_time": "1d 2h 24m 21s", "remaining_time": "1d 11h 49m 10s"}
{"loss": 0.61217237, "token_acc": 0.85644258, "grad_norm": 7.70687819, "learning_rate": 6.63e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096019, "epoch": 0.42457834, "global_step/max_steps": "9130/21503", "percentage": "42.46%", "elapsed_time": "1d 2h 24m 45s", "remaining_time": "1d 11h 47m 40s"}
{"loss": 0.70469775, "token_acc": 0.82632342, "grad_norm": 7.67342043, "learning_rate": 6.63e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096048, "epoch": 0.42481086, "global_step/max_steps": "9135/21503", "percentage": "42.48%", "elapsed_time": "1d 2h 25m 7s", "remaining_time": "1d 11h 46m 7s"}
{"loss": 0.74572797, "token_acc": 0.82591256, "grad_norm": 7.61945581, "learning_rate": 6.62e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096077, "epoch": 0.42504338, "global_step/max_steps": "9140/21503", "percentage": "42.51%", "elapsed_time": "1d 2h 25m 31s", "remaining_time": "1d 11h 44m 37s"}
{"loss": 0.6203609, "token_acc": 0.8454416, "grad_norm": 5.78313112, "learning_rate": 6.62e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096107, "epoch": 0.4252759, "global_step/max_steps": "9145/21503", "percentage": "42.53%", "elapsed_time": "1d 2h 25m 54s", "remaining_time": "1d 11h 43m 5s"}
{"loss": 0.74716086, "token_acc": 0.8127882, "grad_norm": 6.52548027, "learning_rate": 6.62e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096136, "epoch": 0.42550842, "global_step/max_steps": "9150/21503", "percentage": "42.55%", "elapsed_time": "1d 2h 26m 17s", "remaining_time": "1d 11h 41m 34s"}
{"eval_loss": 0.6166175, "eval_runtime": 291.944, "eval_samples_per_second": 11.903, "eval_steps_per_second": 11.903, "epoch": 0.42550842, "global_step/max_steps": "9150/21503", "percentage": "42.55%", "elapsed_time": "1d 2h 31m 9s", "remaining_time": "1d 11h 48m 8s"}
{"loss": 0.61043706, "token_acc": 0.82151811, "grad_norm": 6.97315025, "learning_rate": 6.61e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095871, "epoch": 0.42574093, "global_step/max_steps": "9155/21503", "percentage": "42.58%", "elapsed_time": "1d 2h 31m 33s", "remaining_time": "1d 11h 46m 38s"}
{"loss": 0.68627892, "token_acc": 0.82922824, "grad_norm": 8.26586151, "learning_rate": 6.61e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095899, "epoch": 0.42597345, "global_step/max_steps": "9160/21503", "percentage": "42.60%", "elapsed_time": "1d 2h 31m 56s", "remaining_time": "1d 11h 45m 7s"}
{"loss": 0.74666152, "token_acc": 0.82635522, "grad_norm": 8.37632179, "learning_rate": 6.6e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095929, "epoch": 0.42620597, "global_step/max_steps": "9165/21503", "percentage": "42.62%", "elapsed_time": "1d 2h 32m 19s", "remaining_time": "1d 11h 43m 35s"}
{"loss": 0.596628, "token_acc": 0.84876905, "grad_norm": 8.68383789, "learning_rate": 6.6e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095958, "epoch": 0.42643849, "global_step/max_steps": "9170/21503", "percentage": "42.65%", "elapsed_time": "1d 2h 32m 42s", "remaining_time": "1d 11h 42m 4s"}
{"loss": 0.66622491, "token_acc": 0.85120643, "grad_norm": 6.87987423, "learning_rate": 6.6e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095988, "epoch": 0.42667101, "global_step/max_steps": "9175/21503", "percentage": "42.67%", "elapsed_time": "1d 2h 33m 4s", "remaining_time": "1d 11h 40m 32s"}
{"loss": 0.64162302, "token_acc": 0.8420463, "grad_norm": 7.13949203, "learning_rate": 6.59e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096016, "epoch": 0.42690353, "global_step/max_steps": "9180/21503", "percentage": "42.69%", "elapsed_time": "1d 2h 33m 28s", "remaining_time": "1d 11h 39m 2s"}
{"loss": 0.68112688, "token_acc": 0.8341675, "grad_norm": 8.10097504, "learning_rate": 6.59e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096045, "epoch": 0.42713604, "global_step/max_steps": "9185/21503", "percentage": "42.71%", "elapsed_time": "1d 2h 33m 51s", "remaining_time": "1d 11h 37m 31s"}
{"loss": 0.67999268, "token_acc": 0.83559457, "grad_norm": 5.82956409, "learning_rate": 6.59e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096074, "epoch": 0.42736856, "global_step/max_steps": "9190/21503", "percentage": "42.74%", "elapsed_time": "1d 2h 34m 14s", "remaining_time": "1d 11h 36m 0s"}
{"loss": 0.74343781, "token_acc": 0.82556953, "grad_norm": 8.35464096, "learning_rate": 6.58e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096103, "epoch": 0.42760108, "global_step/max_steps": "9195/21503", "percentage": "42.76%", "elapsed_time": "1d 2h 34m 38s", "remaining_time": "1d 11h 34m 30s"}
{"loss": 0.73223295, "token_acc": 0.82040953, "grad_norm": 6.56908989, "learning_rate": 6.58e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096132, "epoch": 0.4278336, "global_step/max_steps": "9200/21503", "percentage": "42.78%", "elapsed_time": "1d 2h 35m 1s", "remaining_time": "1d 11h 33m 0s"}
{"eval_loss": 0.6154604, "eval_runtime": 292.0196, "eval_samples_per_second": 11.9, "eval_steps_per_second": 11.9, "epoch": 0.4278336, "global_step/max_steps": "9200/21503", "percentage": "42.78%", "elapsed_time": "1d 2h 39m 53s", "remaining_time": "1d 11h 39m 30s"}
{"loss": 0.70645237, "token_acc": 0.82137064, "grad_norm": 6.18499613, "learning_rate": 6.58e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095868, "epoch": 0.42806612, "global_step/max_steps": "9205/21503", "percentage": "42.81%", "elapsed_time": "1d 2h 40m 16s", "remaining_time": "1d 11h 37m 59s"}
{"loss": 0.63219781, "token_acc": 0.856917, "grad_norm": 6.94110394, "learning_rate": 6.57e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095897, "epoch": 0.42829863, "global_step/max_steps": "9210/21503", "percentage": "42.83%", "elapsed_time": "1d 2h 40m 40s", "remaining_time": "1d 11h 36m 29s"}
{"loss": 0.71423802, "token_acc": 0.82536998, "grad_norm": 7.98379993, "learning_rate": 6.57e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095927, "epoch": 0.42853115, "global_step/max_steps": "9215/21503", "percentage": "42.85%", "elapsed_time": "1d 2h 41m 2s", "remaining_time": "1d 11h 34m 57s"}
{"loss": 0.73493485, "token_acc": 0.81204013, "grad_norm": 7.8501482, "learning_rate": 6.56e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095955, "epoch": 0.42876367, "global_step/max_steps": "9220/21503", "percentage": "42.88%", "elapsed_time": "1d 2h 41m 26s", "remaining_time": "1d 11h 33m 27s"}
{"loss": 0.65888338, "token_acc": 0.8419504, "grad_norm": 8.24466324, "learning_rate": 6.56e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095985, "epoch": 0.42899619, "global_step/max_steps": "9225/21503", "percentage": "42.90%", "elapsed_time": "1d 2h 41m 48s", "remaining_time": "1d 11h 31m 55s"}
{"loss": 0.72320328, "token_acc": 0.82633588, "grad_norm": 8.52620697, "learning_rate": 6.56e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096015, "epoch": 0.42922871, "global_step/max_steps": "9230/21503", "percentage": "42.92%", "elapsed_time": "1d 2h 42m 10s", "remaining_time": "1d 11h 30m 24s"}
{"loss": 0.59622893, "token_acc": 0.8554295, "grad_norm": 7.53907442, "learning_rate": 6.55e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096043, "epoch": 0.42946123, "global_step/max_steps": "9235/21503", "percentage": "42.95%", "elapsed_time": "1d 2h 42m 34s", "remaining_time": "1d 11h 28m 53s"}
{"loss": 0.78094373, "token_acc": 0.80776637, "grad_norm": 7.94359636, "learning_rate": 6.55e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096072, "epoch": 0.42969374, "global_step/max_steps": "9240/21503", "percentage": "42.97%", "elapsed_time": "1d 2h 42m 57s", "remaining_time": "1d 11h 27m 23s"}
{"loss": 0.77097683, "token_acc": 0.81535407, "grad_norm": 6.92651272, "learning_rate": 6.55e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096101, "epoch": 0.42992626, "global_step/max_steps": "9245/21503", "percentage": "42.99%", "elapsed_time": "1d 2h 43m 20s", "remaining_time": "1d 11h 25m 52s"}
{"loss": 0.79526076, "token_acc": 0.81258065, "grad_norm": 5.47207165, "learning_rate": 6.54e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.09613, "epoch": 0.43015878, "global_step/max_steps": "9250/21503", "percentage": "43.02%", "elapsed_time": "1d 2h 43m 43s", "remaining_time": "1d 11h 24m 22s"}
{"eval_loss": 0.61975789, "eval_runtime": 296.7723, "eval_samples_per_second": 11.709, "eval_steps_per_second": 11.709, "epoch": 0.43015878, "global_step/max_steps": "9250/21503", "percentage": "43.02%", "elapsed_time": "1d 2h 48m 40s", "remaining_time": "1d 11h 30m 55s"}
{"loss": 0.68348222, "token_acc": 0.82151907, "grad_norm": 7.5315299, "learning_rate": 6.54e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095863, "epoch": 0.4303913, "global_step/max_steps": "9255/21503", "percentage": "43.04%", "elapsed_time": "1d 2h 49m 3s", "remaining_time": "1d 11h 29m 25s"}
{"loss": 0.62621231, "token_acc": 0.84470675, "grad_norm": 7.34089375, "learning_rate": 6.54e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095892, "epoch": 0.43062382, "global_step/max_steps": "9260/21503", "percentage": "43.06%", "elapsed_time": "1d 2h 49m 26s", "remaining_time": "1d 11h 27m 53s"}
{"loss": 0.74999046, "token_acc": 0.81592862, "grad_norm": 7.02142429, "learning_rate": 6.53e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095922, "epoch": 0.43085634, "global_step/max_steps": "9265/21503", "percentage": "43.09%", "elapsed_time": "1d 2h 49m 48s", "remaining_time": "1d 11h 26m 22s"}
{"loss": 0.65299859, "token_acc": 0.83822502, "grad_norm": 6.47442722, "learning_rate": 6.53e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.09595, "epoch": 0.43108885, "global_step/max_steps": "9270/21503", "percentage": "43.11%", "elapsed_time": "1d 2h 50m 12s", "remaining_time": "1d 11h 24m 52s"}
{"loss": 0.57984185, "token_acc": 0.8486917, "grad_norm": 8.94859219, "learning_rate": 6.52e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.09598, "epoch": 0.43132137, "global_step/max_steps": "9275/21503", "percentage": "43.13%", "elapsed_time": "1d 2h 50m 34s", "remaining_time": "1d 11h 23m 21s"}
{"loss": 0.66435666, "token_acc": 0.82511556, "grad_norm": 6.60084963, "learning_rate": 6.52e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096009, "epoch": 0.43155389, "global_step/max_steps": "9280/21503", "percentage": "43.16%", "elapsed_time": "1d 2h 50m 57s", "remaining_time": "1d 11h 21m 50s"}
{"loss": 0.59865408, "token_acc": 0.84654896, "grad_norm": 6.30312061, "learning_rate": 6.52e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096037, "epoch": 0.43178641, "global_step/max_steps": "9285/21503", "percentage": "43.18%", "elapsed_time": "1d 2h 51m 20s", "remaining_time": "1d 11h 20m 21s"}
{"loss": 0.66989074, "token_acc": 0.82723759, "grad_norm": 6.50342655, "learning_rate": 6.51e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096067, "epoch": 0.43201893, "global_step/max_steps": "9290/21503", "percentage": "43.20%", "elapsed_time": "1d 2h 51m 43s", "remaining_time": "1d 11h 18m 50s"}
{"loss": 0.56662817, "token_acc": 0.86126932, "grad_norm": 6.88097239, "learning_rate": 6.51e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096096, "epoch": 0.43225145, "global_step/max_steps": "9295/21503", "percentage": "43.23%", "elapsed_time": "1d 2h 52m 6s", "remaining_time": "1d 11h 17m 19s"}
{"loss": 0.74734616, "token_acc": 0.8108931, "grad_norm": 8.26741791, "learning_rate": 6.51e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096124, "epoch": 0.43248396, "global_step/max_steps": "9300/21503", "percentage": "43.25%", "elapsed_time": "1d 2h 52m 29s", "remaining_time": "1d 11h 15m 50s"}
{"eval_loss": 0.614649, "eval_runtime": 294.9014, "eval_samples_per_second": 11.784, "eval_steps_per_second": 11.784, "epoch": 0.43248396, "global_step/max_steps": "9300/21503", "percentage": "43.25%", "elapsed_time": "1d 2h 57m 24s", "remaining_time": "1d 11h 22m 17s"}
{"loss": 0.6427382, "token_acc": 0.82125863, "grad_norm": 7.16798449, "learning_rate": 6.5e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.09586, "epoch": 0.43271648, "global_step/max_steps": "9305/21503", "percentage": "43.27%", "elapsed_time": "1d 2h 57m 48s", "remaining_time": "1d 11h 20m 48s"}
{"loss": 0.89222231, "token_acc": 0.76080774, "grad_norm": 3.98808336, "learning_rate": 6.5e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095888, "epoch": 0.432949, "global_step/max_steps": "9310/21503", "percentage": "43.30%", "elapsed_time": "1d 2h 58m 12s", "remaining_time": "1d 11h 19m 18s"}
{"loss": 0.58386574, "token_acc": 0.84958014, "grad_norm": 6.4133153, "learning_rate": 6.5e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095916, "epoch": 0.43318152, "global_step/max_steps": "9315/21503", "percentage": "43.32%", "elapsed_time": "1d 2h 58m 35s", "remaining_time": "1d 11h 17m 48s"}
{"loss": 0.68388524, "token_acc": 0.82885271, "grad_norm": 6.6423769, "learning_rate": 6.49e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095945, "epoch": 0.43341404, "global_step/max_steps": "9320/21503", "percentage": "43.34%", "elapsed_time": "1d 2h 58m 58s", "remaining_time": "1d 11h 16m 18s"}
{"loss": 0.72658391, "token_acc": 0.82780236, "grad_norm": 5.4830308, "learning_rate": 6.49e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095973, "epoch": 0.43364655, "global_step/max_steps": "9325/21503", "percentage": "43.37%", "elapsed_time": "1d 2h 59m 22s", "remaining_time": "1d 11h 14m 49s"}
{"loss": 0.69727902, "token_acc": 0.82201405, "grad_norm": 7.24689054, "learning_rate": 6.48e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096002, "epoch": 0.43387907, "global_step/max_steps": "9330/21503", "percentage": "43.39%", "elapsed_time": "1d 2h 59m 45s", "remaining_time": "1d 11h 13m 19s"}
{"loss": 0.59699001, "token_acc": 0.84421204, "grad_norm": 7.13783884, "learning_rate": 6.48e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096031, "epoch": 0.43411159, "global_step/max_steps": "9335/21503", "percentage": "43.41%", "elapsed_time": "1d 3h 0m 8s", "remaining_time": "1d 11h 11m 49s"}
{"loss": 0.70843892, "token_acc": 0.8310231, "grad_norm": 5.95429325, "learning_rate": 6.48e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.09606, "epoch": 0.43434411, "global_step/max_steps": "9340/21503", "percentage": "43.44%", "elapsed_time": "1d 3h 0m 30s", "remaining_time": "1d 11h 10m 18s"}
{"loss": 0.66756005, "token_acc": 0.84389823, "grad_norm": 8.76480389, "learning_rate": 6.47e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096089, "epoch": 0.43457663, "global_step/max_steps": "9345/21503", "percentage": "43.46%", "elapsed_time": "1d 3h 0m 53s", "remaining_time": "1d 11h 8m 48s"}
{"loss": 0.71757765, "token_acc": 0.81799037, "grad_norm": 6.77636194, "learning_rate": 6.47e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096117, "epoch": 0.43480915, "global_step/max_steps": "9350/21503", "percentage": "43.48%", "elapsed_time": "1d 3h 1m 17s", "remaining_time": "1d 11h 7m 19s"}
{"eval_loss": 0.61284697, "eval_runtime": 296.4157, "eval_samples_per_second": 11.723, "eval_steps_per_second": 11.723, "epoch": 0.43480915, "global_step/max_steps": "9350/21503", "percentage": "43.48%", "elapsed_time": "1d 3h 6m 13s", "remaining_time": "1d 11h 13m 44s"}
{"loss": 0.80063629, "token_acc": 0.82137518, "grad_norm": 8.77733612, "learning_rate": 6.47e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095853, "epoch": 0.43504166, "global_step/max_steps": "9355/21503", "percentage": "43.51%", "elapsed_time": "1d 3h 6m 37s", "remaining_time": "1d 11h 12m 15s"}
{"loss": 0.5721518, "token_acc": 0.84475194, "grad_norm": 6.730299, "learning_rate": 6.46e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095882, "epoch": 0.43527418, "global_step/max_steps": "9360/21503", "percentage": "43.53%", "elapsed_time": "1d 3h 7m 0s", "remaining_time": "1d 11h 10m 45s"}
{"loss": 0.61184001, "token_acc": 0.83764136, "grad_norm": 10.87058353, "learning_rate": 6.46e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095911, "epoch": 0.4355067, "global_step/max_steps": "9365/21503", "percentage": "43.55%", "elapsed_time": "1d 3h 7m 22s", "remaining_time": "1d 11h 9m 14s"}
{"loss": 0.67480526, "token_acc": 0.83658009, "grad_norm": 6.95726442, "learning_rate": 6.45e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.09594, "epoch": 0.43573922, "global_step/max_steps": "9370/21503", "percentage": "43.58%", "elapsed_time": "1d 3h 7m 45s", "remaining_time": "1d 11h 7m 44s"}
{"loss": 0.66401296, "token_acc": 0.83763693, "grad_norm": 5.89567709, "learning_rate": 6.45e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095969, "epoch": 0.43597174, "global_step/max_steps": "9375/21503", "percentage": "43.60%", "elapsed_time": "1d 3h 8m 7s", "remaining_time": "1d 11h 6m 14s"}
{"loss": 0.68395615, "token_acc": 0.83633842, "grad_norm": 6.72666836, "learning_rate": 6.45e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095997, "epoch": 0.43620426, "global_step/max_steps": "9380/21503", "percentage": "43.62%", "elapsed_time": "1d 3h 8m 30s", "remaining_time": "1d 11h 4m 44s"}
{"loss": 0.75827141, "token_acc": 0.81628454, "grad_norm": 5.22257757, "learning_rate": 6.44e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096025, "epoch": 0.43643677, "global_step/max_steps": "9385/21503", "percentage": "43.65%", "elapsed_time": "1d 3h 8m 55s", "remaining_time": "1d 11h 3m 16s"}
{"loss": 0.68512588, "token_acc": 0.83729781, "grad_norm": 6.47253275, "learning_rate": 6.44e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096053, "epoch": 0.43666929, "global_step/max_steps": "9390/21503", "percentage": "43.67%", "elapsed_time": "1d 3h 9m 18s", "remaining_time": "1d 11h 1m 46s"}
{"loss": 0.62696767, "token_acc": 0.85481305, "grad_norm": 8.41592884, "learning_rate": 6.44e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096081, "epoch": 0.43690181, "global_step/max_steps": "9395/21503", "percentage": "43.69%", "elapsed_time": "1d 3h 9m 41s", "remaining_time": "1d 11h 0m 17s"}
{"loss": 0.66948628, "token_acc": 0.83369099, "grad_norm": 7.9225688, "learning_rate": 6.43e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096111, "epoch": 0.43713433, "global_step/max_steps": "9400/21503", "percentage": "43.71%", "elapsed_time": "1d 3h 10m 3s", "remaining_time": "1d 10h 58m 47s"}
{"eval_loss": 0.61353254, "eval_runtime": 294.7694, "eval_samples_per_second": 11.789, "eval_steps_per_second": 11.789, "epoch": 0.43713433, "global_step/max_steps": "9400/21503", "percentage": "43.71%", "elapsed_time": "1d 3h 14m 58s", "remaining_time": "1d 11h 5m 7s"}
{"loss": 0.83996296, "token_acc": 0.82110474, "grad_norm": 6.31735563, "learning_rate": 6.43e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095848, "epoch": 0.43736685, "global_step/max_steps": "9405/21503", "percentage": "43.74%", "elapsed_time": "1d 3h 15m 23s", "remaining_time": "1d 11h 3m 39s"}
{"loss": 0.71003838, "token_acc": 0.82167263, "grad_norm": 6.06274557, "learning_rate": 6.43e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095877, "epoch": 0.43759937, "global_step/max_steps": "9410/21503", "percentage": "43.76%", "elapsed_time": "1d 3h 15m 45s", "remaining_time": "1d 11h 2m 9s"}
{"loss": 0.80236025, "token_acc": 0.80471731, "grad_norm": 9.1537466, "learning_rate": 6.42e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095905, "epoch": 0.43783188, "global_step/max_steps": "9415/21503", "percentage": "43.78%", "elapsed_time": "1d 3h 16m 10s", "remaining_time": "1d 11h 0m 41s"}
{"loss": 0.65098481, "token_acc": 0.82999102, "grad_norm": 6.36064434, "learning_rate": 6.42e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095933, "epoch": 0.4380644, "global_step/max_steps": "9420/21503", "percentage": "43.81%", "elapsed_time": "1d 3h 16m 32s", "remaining_time": "1d 10h 59m 11s"}
{"loss": 0.71762228, "token_acc": 0.81334761, "grad_norm": 6.68410873, "learning_rate": 6.41e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095962, "epoch": 0.43829692, "global_step/max_steps": "9425/21503", "percentage": "43.83%", "elapsed_time": "1d 3h 16m 55s", "remaining_time": "1d 10h 57m 41s"}
{"loss": 0.62331953, "token_acc": 0.84315143, "grad_norm": 6.66787052, "learning_rate": 6.41e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095992, "epoch": 0.43852944, "global_step/max_steps": "9430/21503", "percentage": "43.85%", "elapsed_time": "1d 3h 17m 17s", "remaining_time": "1d 10h 56m 11s"}
{"loss": 0.68929448, "token_acc": 0.8342416, "grad_norm": 8.70856285, "learning_rate": 6.41e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.09602, "epoch": 0.43876196, "global_step/max_steps": "9435/21503", "percentage": "43.88%", "elapsed_time": "1d 3h 17m 40s", "remaining_time": "1d 10h 54m 42s"}
{"loss": 0.67145362, "token_acc": 0.82653791, "grad_norm": 8.57196903, "learning_rate": 6.4e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096049, "epoch": 0.43899447, "global_step/max_steps": "9440/21503", "percentage": "43.90%", "elapsed_time": "1d 3h 18m 3s", "remaining_time": "1d 10h 53m 12s"}
{"loss": 0.79178171, "token_acc": 0.79198767, "grad_norm": 5.26194715, "learning_rate": 6.4e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096077, "epoch": 0.43922699, "global_step/max_steps": "9445/21503", "percentage": "43.92%", "elapsed_time": "1d 3h 18m 26s", "remaining_time": "1d 10h 51m 43s"}
{"loss": 0.88726082, "token_acc": 0.76602959, "grad_norm": 7.90193367, "learning_rate": 6.4e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096105, "epoch": 0.43945951, "global_step/max_steps": "9450/21503", "percentage": "43.95%", "elapsed_time": "1d 3h 18m 50s", "remaining_time": "1d 10h 50m 15s"}
{"eval_loss": 0.61359829, "eval_runtime": 298.3506, "eval_samples_per_second": 11.647, "eval_steps_per_second": 11.647, "epoch": 0.43945951, "global_step/max_steps": "9450/21503", "percentage": "43.95%", "elapsed_time": "1d 3h 23m 48s", "remaining_time": "1d 10h 56m 35s"}
{"loss": 0.67290792, "token_acc": 0.82194379, "grad_norm": 6.66086197, "learning_rate": 6.39e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095841, "epoch": 0.43969203, "global_step/max_steps": "9455/21503", "percentage": "43.97%", "elapsed_time": "1d 3h 24m 12s", "remaining_time": "1d 10h 55m 7s"}
{"loss": 0.75583782, "token_acc": 0.80950463, "grad_norm": 9.1591053, "learning_rate": 6.39e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.09587, "epoch": 0.43992455, "global_step/max_steps": "9460/21503", "percentage": "43.99%", "elapsed_time": "1d 3h 24m 35s", "remaining_time": "1d 10h 53m 37s"}
{"loss": 0.64360113, "token_acc": 0.84274919, "grad_norm": 8.16812706, "learning_rate": 6.38e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095899, "epoch": 0.44015707, "global_step/max_steps": "9465/21503", "percentage": "44.02%", "elapsed_time": "1d 3h 24m 57s", "remaining_time": "1d 10h 52m 8s"}
{"loss": 0.60135984, "token_acc": 0.84899214, "grad_norm": 7.54007292, "learning_rate": 6.38e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095926, "epoch": 0.44038958, "global_step/max_steps": "9470/21503", "percentage": "44.04%", "elapsed_time": "1d 3h 25m 21s", "remaining_time": "1d 10h 50m 39s"}
{"loss": 0.77163014, "token_acc": 0.81146179, "grad_norm": 9.31090069, "learning_rate": 6.38e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095954, "epoch": 0.4406221, "global_step/max_steps": "9475/21503", "percentage": "44.06%", "elapsed_time": "1d 3h 25m 44s", "remaining_time": "1d 10h 49m 11s"}
{"loss": 0.66901259, "token_acc": 0.82850635, "grad_norm": 7.38821745, "learning_rate": 6.37e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095983, "epoch": 0.44085462, "global_step/max_steps": "9480/21503", "percentage": "44.09%", "elapsed_time": "1d 3h 26m 7s", "remaining_time": "1d 10h 47m 41s"}
{"loss": 0.73872385, "token_acc": 0.82003829, "grad_norm": 6.65829563, "learning_rate": 6.37e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096011, "epoch": 0.44108714, "global_step/max_steps": "9485/21503", "percentage": "44.11%", "elapsed_time": "1d 3h 26m 30s", "remaining_time": "1d 10h 46m 12s"}
{"loss": 0.80515604, "token_acc": 0.79847095, "grad_norm": 8.474617, "learning_rate": 6.37e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096039, "epoch": 0.44131966, "global_step/max_steps": "9490/21503", "percentage": "44.13%", "elapsed_time": "1d 3h 26m 53s", "remaining_time": "1d 10h 44m 43s"}
{"loss": 0.66352897, "token_acc": 0.83552029, "grad_norm": 6.57658243, "learning_rate": 6.36e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096068, "epoch": 0.44155218, "global_step/max_steps": "9495/21503", "percentage": "44.16%", "elapsed_time": "1d 3h 27m 16s", "remaining_time": "1d 10h 43m 14s"}
{"loss": 0.548841, "token_acc": 0.85907106, "grad_norm": 7.21621132, "learning_rate": 6.36e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096096, "epoch": 0.44178469, "global_step/max_steps": "9500/21503", "percentage": "44.18%", "elapsed_time": "1d 3h 27m 39s", "remaining_time": "1d 10h 41m 46s"}
{"eval_loss": 0.61169499, "eval_runtime": 297.3772, "eval_samples_per_second": 11.685, "eval_steps_per_second": 11.685, "epoch": 0.44178469, "global_step/max_steps": "9500/21503", "percentage": "44.18%", "elapsed_time": "1d 3h 32m 37s", "remaining_time": "1d 10h 48m 2s"}
{"loss": 0.63988166, "token_acc": 0.82257948, "grad_norm": 6.45458031, "learning_rate": 6.36e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095836, "epoch": 0.44201721, "global_step/max_steps": "9505/21503", "percentage": "44.20%", "elapsed_time": "1d 3h 33m 0s", "remaining_time": "1d 10h 46m 33s"}
{"loss": 0.62986131, "token_acc": 0.82173601, "grad_norm": 7.41010571, "learning_rate": 6.35e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095864, "epoch": 0.44224973, "global_step/max_steps": "9510/21503", "percentage": "44.23%", "elapsed_time": "1d 3h 33m 23s", "remaining_time": "1d 10h 45m 4s"}
{"loss": 0.64107261, "token_acc": 0.84457923, "grad_norm": 7.98026323, "learning_rate": 6.35e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095891, "epoch": 0.44248225, "global_step/max_steps": "9515/21503", "percentage": "44.25%", "elapsed_time": "1d 3h 33m 46s", "remaining_time": "1d 10h 43m 36s"}
{"loss": 0.70232549, "token_acc": 0.81846581, "grad_norm": 7.57375336, "learning_rate": 6.34e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095919, "epoch": 0.44271477, "global_step/max_steps": "9520/21503", "percentage": "44.27%", "elapsed_time": "1d 3h 34m 10s", "remaining_time": "1d 10h 42m 8s"}
{"loss": 0.67727818, "token_acc": 0.8359739, "grad_norm": 8.31531525, "learning_rate": 6.34e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095948, "epoch": 0.44294729, "global_step/max_steps": "9525/21503", "percentage": "44.30%", "elapsed_time": "1d 3h 34m 32s", "remaining_time": "1d 10h 40m 38s"}
{"loss": 0.81969728, "token_acc": 0.79564652, "grad_norm": 6.79246283, "learning_rate": 6.34e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095976, "epoch": 0.4431798, "global_step/max_steps": "9530/21503", "percentage": "44.32%", "elapsed_time": "1d 3h 34m 55s", "remaining_time": "1d 10h 39m 9s"}
{"loss": 0.76937804, "token_acc": 0.81129758, "grad_norm": 8.11408234, "learning_rate": 6.33e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096004, "epoch": 0.44341232, "global_step/max_steps": "9535/21503", "percentage": "44.34%", "elapsed_time": "1d 3h 35m 18s", "remaining_time": "1d 10h 37m 41s"}
{"loss": 0.75599694, "token_acc": 0.82702916, "grad_norm": 9.5504961, "learning_rate": 6.33e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096033, "epoch": 0.44364484, "global_step/max_steps": "9540/21503", "percentage": "44.37%", "elapsed_time": "1d 3h 35m 40s", "remaining_time": "1d 10h 36m 11s"}
{"loss": 0.71919613, "token_acc": 0.81496948, "grad_norm": 6.72586298, "learning_rate": 6.33e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096061, "epoch": 0.44387736, "global_step/max_steps": "9545/21503", "percentage": "44.39%", "elapsed_time": "1d 3h 36m 3s", "remaining_time": "1d 10h 34m 42s"}
{"loss": 0.69958587, "token_acc": 0.83427072, "grad_norm": 7.2138176, "learning_rate": 6.32e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.09609, "epoch": 0.44410988, "global_step/max_steps": "9550/21503", "percentage": "44.41%", "elapsed_time": "1d 3h 36m 25s", "remaining_time": "1d 10h 33m 13s"}
{"eval_loss": 0.60969961, "eval_runtime": 297.0553, "eval_samples_per_second": 11.698, "eval_steps_per_second": 11.698, "epoch": 0.44410988, "global_step/max_steps": "9550/21503", "percentage": "44.41%", "elapsed_time": "1d 3h 41m 22s", "remaining_time": "1d 10h 39m 25s"}
{"loss": 0.71516562, "token_acc": 0.82185911, "grad_norm": 7.75794363, "learning_rate": 6.32e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095831, "epoch": 0.44434239, "global_step/max_steps": "9555/21503", "percentage": "44.44%", "elapsed_time": "1d 3h 41m 46s", "remaining_time": "1d 10h 37m 56s"}
{"loss": 0.5690259, "token_acc": 0.85393258, "grad_norm": 5.5801692, "learning_rate": 6.31e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.09586, "epoch": 0.44457491, "global_step/max_steps": "9560/21503", "percentage": "44.46%", "elapsed_time": "1d 3h 42m 8s", "remaining_time": "1d 10h 36m 27s"}
{"loss": 0.80354462, "token_acc": 0.79252835, "grad_norm": 8.3434391, "learning_rate": 6.31e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095888, "epoch": 0.44480743, "global_step/max_steps": "9565/21503", "percentage": "44.48%", "elapsed_time": "1d 3h 42m 31s", "remaining_time": "1d 10h 34m 59s"}
{"loss": 0.72852473, "token_acc": 0.81942544, "grad_norm": 7.24553347, "learning_rate": 6.31e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095915, "epoch": 0.44503995, "global_step/max_steps": "9570/21503", "percentage": "44.51%", "elapsed_time": "1d 3h 42m 55s", "remaining_time": "1d 10h 33m 31s"}
{"loss": 0.72784328, "token_acc": 0.81399377, "grad_norm": 7.12809229, "learning_rate": 6.3e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095943, "epoch": 0.44527247, "global_step/max_steps": "9575/21503", "percentage": "44.53%", "elapsed_time": "1d 3h 43m 18s", "remaining_time": "1d 10h 32m 2s"}
{"loss": 0.81999464, "token_acc": 0.80709374, "grad_norm": 7.35676384, "learning_rate": 6.3e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095972, "epoch": 0.44550499, "global_step/max_steps": "9580/21503", "percentage": "44.55%", "elapsed_time": "1d 3h 43m 40s", "remaining_time": "1d 10h 30m 34s"}
{"loss": 0.61578665, "token_acc": 0.83373063, "grad_norm": 5.83234835, "learning_rate": 6.3e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096, "epoch": 0.4457375, "global_step/max_steps": "9585/21503", "percentage": "44.58%", "elapsed_time": "1d 3h 44m 3s", "remaining_time": "1d 10h 29m 5s"}
{"loss": 0.68488841, "token_acc": 0.82654792, "grad_norm": 8.00037861, "learning_rate": 6.29e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096029, "epoch": 0.44597002, "global_step/max_steps": "9590/21503", "percentage": "44.60%", "elapsed_time": "1d 3h 44m 25s", "remaining_time": "1d 10h 27m 36s"}
{"loss": 0.80126934, "token_acc": 0.79660363, "grad_norm": 9.08332062, "learning_rate": 6.29e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096056, "epoch": 0.44620254, "global_step/max_steps": "9595/21503", "percentage": "44.62%", "elapsed_time": "1d 3h 44m 49s", "remaining_time": "1d 10h 26m 8s"}
{"loss": 0.74232545, "token_acc": 0.82295877, "grad_norm": 8.78388882, "learning_rate": 6.28e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096083, "epoch": 0.44643506, "global_step/max_steps": "9600/21503", "percentage": "44.64%", "elapsed_time": "1d 3h 45m 12s", "remaining_time": "1d 10h 24m 41s"}
{"eval_loss": 0.60703409, "eval_runtime": 293.5483, "eval_samples_per_second": 11.838, "eval_steps_per_second": 11.838, "epoch": 0.44643506, "global_step/max_steps": "9600/21503", "percentage": "44.64%", "elapsed_time": "1d 3h 50m 6s", "remaining_time": "1d 10h 30m 45s"}
{"loss": 0.6096343, "token_acc": 0.82304997, "grad_norm": 8.8926487, "learning_rate": 6.28e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095829, "epoch": 0.44666758, "global_step/max_steps": "9605/21503", "percentage": "44.67%", "elapsed_time": "1d 3h 50m 29s", "remaining_time": "1d 10h 29m 17s"}
{"loss": 0.67248726, "token_acc": 0.83308802, "grad_norm": 6.95007324, "learning_rate": 6.28e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095858, "epoch": 0.4469001, "global_step/max_steps": "9610/21503", "percentage": "44.69%", "elapsed_time": "1d 3h 50m 52s", "remaining_time": "1d 10h 27m 49s"}
{"loss": 0.62819514, "token_acc": 0.831643, "grad_norm": 6.85259676, "learning_rate": 6.27e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095886, "epoch": 0.44713261, "global_step/max_steps": "9615/21503", "percentage": "44.71%", "elapsed_time": "1d 3h 51m 15s", "remaining_time": "1d 10h 26m 20s"}
{"loss": 0.72414279, "token_acc": 0.82503506, "grad_norm": 7.13679504, "learning_rate": 6.27e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095913, "epoch": 0.44736513, "global_step/max_steps": "9620/21503", "percentage": "44.74%", "elapsed_time": "1d 3h 51m 38s", "remaining_time": "1d 10h 24m 52s"}
{"loss": 0.64710021, "token_acc": 0.83664534, "grad_norm": 6.10106659, "learning_rate": 6.27e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095941, "epoch": 0.44759765, "global_step/max_steps": "9625/21503", "percentage": "44.76%", "elapsed_time": "1d 3h 52m 1s", "remaining_time": "1d 10h 23m 24s"}
{"loss": 0.72276492, "token_acc": 0.83444537, "grad_norm": 7.33857155, "learning_rate": 6.26e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095969, "epoch": 0.44783017, "global_step/max_steps": "9630/21503", "percentage": "44.78%", "elapsed_time": "1d 3h 52m 24s", "remaining_time": "1d 10h 21m 56s"}
{"loss": 0.77521276, "token_acc": 0.81412639, "grad_norm": 7.87385607, "learning_rate": 6.26e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095998, "epoch": 0.44806269, "global_step/max_steps": "9635/21503", "percentage": "44.81%", "elapsed_time": "1d 3h 52m 46s", "remaining_time": "1d 10h 20m 27s"}
{"loss": 0.80947504, "token_acc": 0.8117284, "grad_norm": 7.64382839, "learning_rate": 6.25e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096026, "epoch": 0.44829521, "global_step/max_steps": "9640/21503", "percentage": "44.83%", "elapsed_time": "1d 3h 53m 8s", "remaining_time": "1d 10h 18m 58s"}
{"loss": 0.71153345, "token_acc": 0.81030736, "grad_norm": 6.18812609, "learning_rate": 6.25e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096054, "epoch": 0.44852772, "global_step/max_steps": "9645/21503", "percentage": "44.85%", "elapsed_time": "1d 3h 53m 31s", "remaining_time": "1d 10h 17m 30s"}
{"loss": 0.59741888, "token_acc": 0.86227771, "grad_norm": 6.33468246, "learning_rate": 6.25e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096083, "epoch": 0.44876024, "global_step/max_steps": "9650/21503", "percentage": "44.88%", "elapsed_time": "1d 3h 53m 54s", "remaining_time": "1d 10h 16m 2s"}
{"eval_loss": 0.60799474, "eval_runtime": 293.8957, "eval_samples_per_second": 11.824, "eval_steps_per_second": 11.824, "epoch": 0.44876024, "global_step/max_steps": "9650/21503", "percentage": "44.88%", "elapsed_time": "1d 3h 58m 47s", "remaining_time": "1d 10h 22m 3s"}
{"loss": 0.68154192, "token_acc": 0.8224101, "grad_norm": 6.79186916, "learning_rate": 6.24e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.09583, "epoch": 0.44899276, "global_step/max_steps": "9655/21503", "percentage": "44.90%", "elapsed_time": "1d 3h 59m 11s", "remaining_time": "1d 10h 20m 35s"}
{"loss": 0.52720551, "token_acc": 0.87651007, "grad_norm": 6.40257072, "learning_rate": 6.24e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095857, "epoch": 0.44922528, "global_step/max_steps": "9660/21503", "percentage": "44.92%", "elapsed_time": "1d 3h 59m 34s", "remaining_time": "1d 10h 19m 8s"}
{"loss": 0.72841401, "token_acc": 0.80716544, "grad_norm": 7.07694817, "learning_rate": 6.24e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095885, "epoch": 0.4494578, "global_step/max_steps": "9665/21503", "percentage": "44.95%", "elapsed_time": "1d 3h 59m 57s", "remaining_time": "1d 10h 17m 39s"}
{"loss": 0.60183182, "token_acc": 0.84957541, "grad_norm": 8.33540154, "learning_rate": 6.23e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095913, "epoch": 0.44969031, "global_step/max_steps": "9670/21503", "percentage": "44.97%", "elapsed_time": "1d 4h 0m 20s", "remaining_time": "1d 10h 16m 12s"}
{"loss": 0.69304304, "token_acc": 0.82810022, "grad_norm": 5.77927208, "learning_rate": 6.23e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.09594, "epoch": 0.44992283, "global_step/max_steps": "9675/21503", "percentage": "44.99%", "elapsed_time": "1d 4h 0m 43s", "remaining_time": "1d 10h 14m 45s"}
{"loss": 0.69945693, "token_acc": 0.82828283, "grad_norm": 6.19983816, "learning_rate": 6.23e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095968, "epoch": 0.45015535, "global_step/max_steps": "9680/21503", "percentage": "45.02%", "elapsed_time": "1d 4h 1m 6s", "remaining_time": "1d 10h 13m 16s"}
{"loss": 0.70594535, "token_acc": 0.84528302, "grad_norm": 7.95042801, "learning_rate": 6.22e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095997, "epoch": 0.45038787, "global_step/max_steps": "9685/21503", "percentage": "45.04%", "elapsed_time": "1d 4h 1m 28s", "remaining_time": "1d 10h 11m 48s"}
{"loss": 0.67497072, "token_acc": 0.82284319, "grad_norm": 6.88602495, "learning_rate": 6.22e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096023, "epoch": 0.45062039, "global_step/max_steps": "9690/21503", "percentage": "45.06%", "elapsed_time": "1d 4h 1m 52s", "remaining_time": "1d 10h 10m 21s"}
{"loss": 0.66525345, "token_acc": 0.83381325, "grad_norm": 7.6887002, "learning_rate": 6.21e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096051, "epoch": 0.45085291, "global_step/max_steps": "9695/21503", "percentage": "45.09%", "elapsed_time": "1d 4h 2m 16s", "remaining_time": "1d 10h 8m 54s"}
{"loss": 0.58740745, "token_acc": 0.84909301, "grad_norm": 8.23791122, "learning_rate": 6.21e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096079, "epoch": 0.45108542, "global_step/max_steps": "9700/21503", "percentage": "45.11%", "elapsed_time": "1d 4h 2m 38s", "remaining_time": "1d 10h 7m 26s"}
{"eval_loss": 0.60885912, "eval_runtime": 293.3921, "eval_samples_per_second": 11.844, "eval_steps_per_second": 11.844, "epoch": 0.45108542, "global_step/max_steps": "9700/21503", "percentage": "45.11%", "elapsed_time": "1d 4h 7m 32s", "remaining_time": "1d 10h 13m 23s"}
{"loss": 0.58417149, "token_acc": 0.82307115, "grad_norm": 7.01781225, "learning_rate": 6.21e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095827, "epoch": 0.45131794, "global_step/max_steps": "9705/21503", "percentage": "45.13%", "elapsed_time": "1d 4h 7m 56s", "remaining_time": "1d 10h 11m 57s"}
{"loss": 0.73160496, "token_acc": 0.81872749, "grad_norm": 7.08427191, "learning_rate": 6.2e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095854, "epoch": 0.45155046, "global_step/max_steps": "9710/21503", "percentage": "45.16%", "elapsed_time": "1d 4h 8m 19s", "remaining_time": "1d 10h 10m 30s"}
{"loss": 0.77821436, "token_acc": 0.80794447, "grad_norm": 7.32863808, "learning_rate": 6.2e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095882, "epoch": 0.45178298, "global_step/max_steps": "9715/21503", "percentage": "45.18%", "elapsed_time": "1d 4h 8m 41s", "remaining_time": "1d 10h 9m 1s"}
{"loss": 0.66890831, "token_acc": 0.82851051, "grad_norm": 9.6059103, "learning_rate": 6.2e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.09591, "epoch": 0.4520155, "global_step/max_steps": "9720/21503", "percentage": "45.20%", "elapsed_time": "1d 4h 9m 4s", "remaining_time": "1d 10h 7m 34s"}
{"loss": 0.60247979, "token_acc": 0.84641509, "grad_norm": 9.34113503, "learning_rate": 6.19e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095938, "epoch": 0.45224802, "global_step/max_steps": "9725/21503", "percentage": "45.23%", "elapsed_time": "1d 4h 9m 27s", "remaining_time": "1d 10h 6m 7s"}
{"loss": 0.70388269, "token_acc": 0.84263495, "grad_norm": 9.24858665, "learning_rate": 6.19e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095965, "epoch": 0.45248053, "global_step/max_steps": "9730/21503", "percentage": "45.25%", "elapsed_time": "1d 4h 9m 50s", "remaining_time": "1d 10h 4m 39s"}
{"loss": 0.73993988, "token_acc": 0.81605729, "grad_norm": 7.36564875, "learning_rate": 6.18e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095993, "epoch": 0.45271305, "global_step/max_steps": "9735/21503", "percentage": "45.27%", "elapsed_time": "1d 4h 10m 13s", "remaining_time": "1d 10h 3m 11s"}
{"loss": 0.60847812, "token_acc": 0.85644125, "grad_norm": 7.46102715, "learning_rate": 6.18e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096021, "epoch": 0.45294557, "global_step/max_steps": "9740/21503", "percentage": "45.30%", "elapsed_time": "1d 4h 10m 36s", "remaining_time": "1d 10h 1m 44s"}
{"loss": 0.77239046, "token_acc": 0.82857143, "grad_norm": 6.41875982, "learning_rate": 6.18e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096048, "epoch": 0.45317809, "global_step/max_steps": "9745/21503", "percentage": "45.32%", "elapsed_time": "1d 4h 10m 59s", "remaining_time": "1d 10h 0m 17s"}
{"loss": 0.59033012, "token_acc": 0.85786802, "grad_norm": 7.49629211, "learning_rate": 6.17e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096076, "epoch": 0.45341061, "global_step/max_steps": "9750/21503", "percentage": "45.34%", "elapsed_time": "1d 4h 11m 22s", "remaining_time": "1d 9h 58m 50s"}
{"eval_loss": 0.60940778, "eval_runtime": 294.2374, "eval_samples_per_second": 11.81, "eval_steps_per_second": 11.81, "epoch": 0.45341061, "global_step/max_steps": "9750/21503", "percentage": "45.34%", "elapsed_time": "1d 4h 16m 16s", "remaining_time": "1d 10h 4m 45s"}
{"loss": 0.70496774, "token_acc": 0.82285086, "grad_norm": 8.31629562, "learning_rate": 6.17e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095825, "epoch": 0.45364313, "global_step/max_steps": "9755/21503", "percentage": "45.37%", "elapsed_time": "1d 4h 16m 39s", "remaining_time": "1d 10h 3m 18s"}
{"loss": 0.70907831, "token_acc": 0.82359155, "grad_norm": 7.59016228, "learning_rate": 6.17e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095852, "epoch": 0.45387564, "global_step/max_steps": "9760/21503", "percentage": "45.39%", "elapsed_time": "1d 4h 17m 3s", "remaining_time": "1d 10h 1m 51s"}
{"loss": 0.62740021, "token_acc": 0.83058608, "grad_norm": 5.76701975, "learning_rate": 6.16e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095879, "epoch": 0.45410816, "global_step/max_steps": "9765/21503", "percentage": "45.41%", "elapsed_time": "1d 4h 17m 27s", "remaining_time": "1d 10h 0m 25s"}
{"loss": 0.73910608, "token_acc": 0.82832128, "grad_norm": 7.16868782, "learning_rate": 6.16e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095906, "epoch": 0.45434068, "global_step/max_steps": "9770/21503", "percentage": "45.44%", "elapsed_time": "1d 4h 17m 50s", "remaining_time": "1d 9h 58m 58s"}
{"loss": 0.68225875, "token_acc": 0.83558282, "grad_norm": 6.73416948, "learning_rate": 6.15e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095934, "epoch": 0.4545732, "global_step/max_steps": "9775/21503", "percentage": "45.46%", "elapsed_time": "1d 4h 18m 13s", "remaining_time": "1d 9h 57m 30s"}
{"loss": 0.62680397, "token_acc": 0.84199512, "grad_norm": 9.30061531, "learning_rate": 6.15e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095961, "epoch": 0.45480572, "global_step/max_steps": "9780/21503", "percentage": "45.48%", "elapsed_time": "1d 4h 18m 36s", "remaining_time": "1d 9h 56m 4s"}
{"loss": 0.64261484, "token_acc": 0.84196018, "grad_norm": 5.77178574, "learning_rate": 6.15e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095989, "epoch": 0.45503823, "global_step/max_steps": "9785/21503", "percentage": "45.51%", "elapsed_time": "1d 4h 18m 58s", "remaining_time": "1d 9h 54m 36s"}
{"loss": 0.73096819, "token_acc": 0.82100488, "grad_norm": 8.09038925, "learning_rate": 6.14e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096017, "epoch": 0.45527075, "global_step/max_steps": "9790/21503", "percentage": "45.53%", "elapsed_time": "1d 4h 19m 20s", "remaining_time": "1d 9h 53m 8s"}
{"loss": 0.73537364, "token_acc": 0.81555091, "grad_norm": 7.39322901, "learning_rate": 6.14e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096045, "epoch": 0.45550327, "global_step/max_steps": "9795/21503", "percentage": "45.55%", "elapsed_time": "1d 4h 19m 43s", "remaining_time": "1d 9h 51m 40s"}
{"loss": 0.65239625, "token_acc": 0.8372362, "grad_norm": 6.25749207, "learning_rate": 6.14e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096073, "epoch": 0.45573579, "global_step/max_steps": "9800/21503", "percentage": "45.58%", "elapsed_time": "1d 4h 20m 5s", "remaining_time": "1d 9h 50m 12s"}
{"eval_loss": 0.60955024, "eval_runtime": 292.7828, "eval_samples_per_second": 11.869, "eval_steps_per_second": 11.869, "epoch": 0.45573579, "global_step/max_steps": "9800/21503", "percentage": "45.58%", "elapsed_time": "1d 4h 24m 57s", "remaining_time": "1d 9h 56m 2s"}
{"loss": 0.67463818, "token_acc": 0.82267934, "grad_norm": 6.88323832, "learning_rate": 6.13e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095826, "epoch": 0.45596831, "global_step/max_steps": "9805/21503", "percentage": "45.60%", "elapsed_time": "1d 4h 25m 20s", "remaining_time": "1d 9h 54m 35s"}
{"loss": 0.72465177, "token_acc": 0.82321619, "grad_norm": 7.61645412, "learning_rate": 6.13e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095854, "epoch": 0.45620083, "global_step/max_steps": "9810/21503", "percentage": "45.62%", "elapsed_time": "1d 4h 25m 43s", "remaining_time": "1d 9h 53m 7s"}
{"loss": 0.71343422, "token_acc": 0.83082077, "grad_norm": 7.24408197, "learning_rate": 6.12e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095881, "epoch": 0.45643334, "global_step/max_steps": "9815/21503", "percentage": "45.64%", "elapsed_time": "1d 4h 26m 5s", "remaining_time": "1d 9h 51m 40s"}
{"loss": 0.66425934, "token_acc": 0.83961593, "grad_norm": 7.02089596, "learning_rate": 6.12e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095908, "epoch": 0.45666586, "global_step/max_steps": "9820/21503", "percentage": "45.67%", "elapsed_time": "1d 4h 26m 29s", "remaining_time": "1d 9h 50m 13s"}
{"loss": 0.70886292, "token_acc": 0.8352989, "grad_norm": 8.28398991, "learning_rate": 6.12e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095936, "epoch": 0.45689838, "global_step/max_steps": "9825/21503", "percentage": "45.69%", "elapsed_time": "1d 4h 26m 51s", "remaining_time": "1d 9h 48m 46s"}
{"loss": 0.63221803, "token_acc": 0.85137386, "grad_norm": 7.58105469, "learning_rate": 6.11e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095964, "epoch": 0.4571309, "global_step/max_steps": "9830/21503", "percentage": "45.71%", "elapsed_time": "1d 4h 27m 14s", "remaining_time": "1d 9h 47m 19s"}
{"loss": 0.7602973, "token_acc": 0.80704085, "grad_norm": 7.43442345, "learning_rate": 6.11e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095991, "epoch": 0.45736342, "global_step/max_steps": "9835/21503", "percentage": "45.74%", "elapsed_time": "1d 4h 27m 37s", "remaining_time": "1d 9h 45m 52s"}
{"loss": 0.65991678, "token_acc": 0.83356498, "grad_norm": 7.41282177, "learning_rate": 6.11e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096019, "epoch": 0.45759594, "global_step/max_steps": "9840/21503", "percentage": "45.76%", "elapsed_time": "1d 4h 27m 59s", "remaining_time": "1d 9h 44m 25s"}
{"loss": 0.62754683, "token_acc": 0.84967105, "grad_norm": 5.75611973, "learning_rate": 6.1e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096047, "epoch": 0.45782845, "global_step/max_steps": "9845/21503", "percentage": "45.78%", "elapsed_time": "1d 4h 28m 21s", "remaining_time": "1d 9h 42m 58s"}
{"loss": 0.67554874, "token_acc": 0.83318777, "grad_norm": 7.0973134, "learning_rate": 6.1e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096075, "epoch": 0.45806097, "global_step/max_steps": "9850/21503", "percentage": "45.81%", "elapsed_time": "1d 4h 28m 43s", "remaining_time": "1d 9h 41m 30s"}
{"eval_loss": 0.6061334, "eval_runtime": 293.067, "eval_samples_per_second": 11.857, "eval_steps_per_second": 11.857, "epoch": 0.45806097, "global_step/max_steps": "9850/21503", "percentage": "45.81%", "elapsed_time": "1d 4h 33m 36s", "remaining_time": "1d 9h 47m 16s"}
{"loss": 0.686587, "token_acc": 0.82283518, "grad_norm": 6.99318838, "learning_rate": 6.09e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095827, "epoch": 0.45829349, "global_step/max_steps": "9855/21503", "percentage": "45.83%", "elapsed_time": "1d 4h 34m 1s", "remaining_time": "1d 9h 45m 51s"}
{"loss": 0.60536656, "token_acc": 0.84274571, "grad_norm": 5.58705425, "learning_rate": 6.09e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095854, "epoch": 0.45852601, "global_step/max_steps": "9860/21503", "percentage": "45.85%", "elapsed_time": "1d 4h 34m 24s", "remaining_time": "1d 9h 44m 25s"}
{"loss": 0.7458684, "token_acc": 0.80890761, "grad_norm": 7.55317211, "learning_rate": 6.09e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095881, "epoch": 0.45875853, "global_step/max_steps": "9865/21503", "percentage": "45.88%", "elapsed_time": "1d 4h 34m 47s", "remaining_time": "1d 9h 42m 59s"}
{"loss": 0.765944, "token_acc": 0.81846581, "grad_norm": 5.86291552, "learning_rate": 6.08e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095908, "epoch": 0.45899105, "global_step/max_steps": "9870/21503", "percentage": "45.90%", "elapsed_time": "1d 4h 35m 10s", "remaining_time": "1d 9h 41m 33s"}
{"loss": 0.65930557, "token_acc": 0.83130699, "grad_norm": 8.96963406, "learning_rate": 6.08e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095935, "epoch": 0.45922356, "global_step/max_steps": "9875/21503", "percentage": "45.92%", "elapsed_time": "1d 4h 35m 34s", "remaining_time": "1d 9h 40m 7s"}
{"loss": 0.64265194, "token_acc": 0.84133238, "grad_norm": 7.29805136, "learning_rate": 6.08e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095962, "epoch": 0.45945608, "global_step/max_steps": "9880/21503", "percentage": "45.95%", "elapsed_time": "1d 4h 35m 57s", "remaining_time": "1d 9h 38m 41s"}
{"loss": 0.7200954, "token_acc": 0.82645467, "grad_norm": 5.74927425, "learning_rate": 6.07e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095989, "epoch": 0.4596886, "global_step/max_steps": "9885/21503", "percentage": "45.97%", "elapsed_time": "1d 4h 36m 20s", "remaining_time": "1d 9h 37m 14s"}
{"loss": 0.68625941, "token_acc": 0.82174065, "grad_norm": 8.4453249, "learning_rate": 6.07e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096016, "epoch": 0.45992112, "global_step/max_steps": "9890/21503", "percentage": "45.99%", "elapsed_time": "1d 4h 36m 43s", "remaining_time": "1d 9h 35m 48s"}
{"loss": 0.548704, "token_acc": 0.86262204, "grad_norm": 6.03585768, "learning_rate": 6.06e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096043, "epoch": 0.46015364, "global_step/max_steps": "9895/21503", "percentage": "46.02%", "elapsed_time": "1d 4h 37m 6s", "remaining_time": "1d 9h 34m 22s"}
{"loss": 0.79273934, "token_acc": 0.79912664, "grad_norm": 6.48151779, "learning_rate": 6.06e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.09607, "epoch": 0.46038615, "global_step/max_steps": "9900/21503", "percentage": "46.04%", "elapsed_time": "1d 4h 37m 29s", "remaining_time": "1d 9h 32m 56s"}
{"eval_loss": 0.60785466, "eval_runtime": 294.4453, "eval_samples_per_second": 11.802, "eval_steps_per_second": 11.802, "epoch": 0.46038615, "global_step/max_steps": "9900/21503", "percentage": "46.04%", "elapsed_time": "1d 4h 42m 24s", "remaining_time": "1d 9h 38m 41s"}
{"loss": 0.62235384, "token_acc": 0.8235761, "grad_norm": 6.82231474, "learning_rate": 6.06e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095823, "epoch": 0.46061867, "global_step/max_steps": "9905/21503", "percentage": "46.06%", "elapsed_time": "1d 4h 42m 47s", "remaining_time": "1d 9h 37m 15s"}
{"loss": 0.76006761, "token_acc": 0.81757755, "grad_norm": 8.35405064, "learning_rate": 6.05e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095849, "epoch": 0.46085119, "global_step/max_steps": "9910/21503", "percentage": "46.09%", "elapsed_time": "1d 4h 43m 11s", "remaining_time": "1d 9h 35m 49s"}
{"loss": 0.75915003, "token_acc": 0.82443082, "grad_norm": 8.26642704, "learning_rate": 6.05e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095877, "epoch": 0.46108371, "global_step/max_steps": "9915/21503", "percentage": "46.11%", "elapsed_time": "1d 4h 43m 33s", "remaining_time": "1d 9h 34m 22s"}
{"loss": 0.7405787, "token_acc": 0.83341067, "grad_norm": 6.54428577, "learning_rate": 6.05e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095904, "epoch": 0.46131623, "global_step/max_steps": "9920/21503", "percentage": "46.13%", "elapsed_time": "1d 4h 43m 56s", "remaining_time": "1d 9h 32m 56s"}
{"loss": 0.61447539, "token_acc": 0.84334601, "grad_norm": 6.95791531, "learning_rate": 6.04e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095931, "epoch": 0.46154875, "global_step/max_steps": "9925/21503", "percentage": "46.16%", "elapsed_time": "1d 4h 44m 19s", "remaining_time": "1d 9h 31m 30s"}
{"loss": 0.59752755, "token_acc": 0.84262948, "grad_norm": 7.50882578, "learning_rate": 6.04e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095959, "epoch": 0.46178126, "global_step/max_steps": "9930/21503", "percentage": "46.18%", "elapsed_time": "1d 4h 44m 41s", "remaining_time": "1d 9h 30m 3s"}
{"loss": 0.63605461, "token_acc": 0.8471028, "grad_norm": 7.72009802, "learning_rate": 6.03e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095986, "epoch": 0.46201378, "global_step/max_steps": "9935/21503", "percentage": "46.20%", "elapsed_time": "1d 4h 45m 4s", "remaining_time": "1d 9h 28m 37s"}
{"loss": 0.69737945, "token_acc": 0.81050596, "grad_norm": 8.50807667, "learning_rate": 6.03e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096013, "epoch": 0.4622463, "global_step/max_steps": "9940/21503", "percentage": "46.23%", "elapsed_time": "1d 4h 45m 27s", "remaining_time": "1d 9h 27m 11s"}
{"loss": 0.73623066, "token_acc": 0.82076205, "grad_norm": 8.0804863, "learning_rate": 6.03e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.09604, "epoch": 0.46247882, "global_step/max_steps": "9945/21503", "percentage": "46.25%", "elapsed_time": "1d 4h 45m 49s", "remaining_time": "1d 9h 25m 44s"}
{"loss": 0.64609299, "token_acc": 0.84288425, "grad_norm": 6.59077263, "learning_rate": 6.02e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096068, "epoch": 0.46271134, "global_step/max_steps": "9950/21503", "percentage": "46.27%", "elapsed_time": "1d 4h 46m 12s", "remaining_time": "1d 9h 24m 18s"}
{"eval_loss": 0.60456973, "eval_runtime": 292.8994, "eval_samples_per_second": 11.864, "eval_steps_per_second": 11.864, "epoch": 0.46271134, "global_step/max_steps": "9950/21503", "percentage": "46.27%", "elapsed_time": "1d 4h 51m 5s", "remaining_time": "1d 9h 29m 58s"}
{"loss": 0.61790009, "token_acc": 0.82319688, "grad_norm": 9.88988113, "learning_rate": 6.02e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095824, "epoch": 0.46294386, "global_step/max_steps": "9955/21503", "percentage": "46.30%", "elapsed_time": "1d 4h 51m 28s", "remaining_time": "1d 9h 28m 32s"}
{"loss": 0.70128517, "token_acc": 0.83717537, "grad_norm": 7.87137842, "learning_rate": 6.02e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095851, "epoch": 0.46317637, "global_step/max_steps": "9960/21503", "percentage": "46.32%", "elapsed_time": "1d 4h 51m 50s", "remaining_time": "1d 9h 27m 5s"}
{"loss": 0.56437235, "token_acc": 0.85451573, "grad_norm": 6.38356781, "learning_rate": 6.01e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095879, "epoch": 0.46340889, "global_step/max_steps": "9965/21503", "percentage": "46.34%", "elapsed_time": "1d 4h 52m 12s", "remaining_time": "1d 9h 25m 39s"}
{"loss": 0.66776824, "token_acc": 0.83617021, "grad_norm": 8.29100609, "learning_rate": 6.01e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095906, "epoch": 0.46364141, "global_step/max_steps": "9970/21503", "percentage": "46.37%", "elapsed_time": "1d 4h 52m 35s", "remaining_time": "1d 9h 24m 12s"}
{"loss": 0.68447094, "token_acc": 0.83731466, "grad_norm": 8.12922382, "learning_rate": 6e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095934, "epoch": 0.46387393, "global_step/max_steps": "9975/21503", "percentage": "46.39%", "elapsed_time": "1d 4h 52m 57s", "remaining_time": "1d 9h 22m 46s"}
{"loss": 0.76008019, "token_acc": 0.80422659, "grad_norm": 5.14558697, "learning_rate": 6e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095961, "epoch": 0.46410645, "global_step/max_steps": "9980/21503", "percentage": "46.41%", "elapsed_time": "1d 4h 53m 20s", "remaining_time": "1d 9h 21m 19s"}
{"loss": 0.83569336, "token_acc": 0.78276353, "grad_norm": 9.66207123, "learning_rate": 6e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095988, "epoch": 0.46433897, "global_step/max_steps": "9985/21503", "percentage": "46.44%", "elapsed_time": "1d 4h 53m 43s", "remaining_time": "1d 9h 19m 54s"}
{"loss": 0.69959593, "token_acc": 0.82776089, "grad_norm": 10.05209064, "learning_rate": 5.99e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096015, "epoch": 0.46457148, "global_step/max_steps": "9990/21503", "percentage": "46.46%", "elapsed_time": "1d 4h 54m 5s", "remaining_time": "1d 9h 18m 27s"}
{"loss": 0.71624737, "token_acc": 0.82844322, "grad_norm": 6.37227726, "learning_rate": 5.99e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096043, "epoch": 0.464804, "global_step/max_steps": "9995/21503", "percentage": "46.48%", "elapsed_time": "1d 4h 54m 27s", "remaining_time": "1d 9h 17m 1s"}
{"loss": 0.63387809, "token_acc": 0.83049645, "grad_norm": 6.91749525, "learning_rate": 5.99e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.09607, "epoch": 0.46503652, "global_step/max_steps": "10000/21503", "percentage": "46.51%", "elapsed_time": "1d 4h 54m 50s", "remaining_time": "1d 9h 15m 35s"}
{"eval_loss": 0.60570872, "eval_runtime": 291.3624, "eval_samples_per_second": 11.927, "eval_steps_per_second": 11.927, "epoch": 0.46503652, "global_step/max_steps": "10000/21503", "percentage": "46.51%", "elapsed_time": "1d 4h 59m 41s", "remaining_time": "1d 9h 21m 10s"}
{"loss": 0.74584489, "token_acc": 0.82331818, "grad_norm": 7.60431719, "learning_rate": 5.98e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095829, "epoch": 0.46526904, "global_step/max_steps": "10005/21503", "percentage": "46.53%", "elapsed_time": "1d 5h 0m 5s", "remaining_time": "1d 9h 19m 44s"}
{"loss": 0.70331593, "token_acc": 0.8245614, "grad_norm": 7.11359882, "learning_rate": 5.98e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095855, "epoch": 0.46550156, "global_step/max_steps": "10010/21503", "percentage": "46.55%", "elapsed_time": "1d 5h 0m 28s", "remaining_time": "1d 9h 18m 19s"}
{"loss": 0.55093498, "token_acc": 0.86539297, "grad_norm": 9.22055721, "learning_rate": 5.97e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095882, "epoch": 0.46573407, "global_step/max_steps": "10015/21503", "percentage": "46.57%", "elapsed_time": "1d 5h 0m 51s", "remaining_time": "1d 9h 16m 54s"}
{"loss": 0.71419106, "token_acc": 0.82888283, "grad_norm": 5.77235508, "learning_rate": 5.97e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095908, "epoch": 0.46596659, "global_step/max_steps": "10020/21503", "percentage": "46.60%", "elapsed_time": "1d 5h 1m 14s", "remaining_time": "1d 9h 15m 28s"}
{"loss": 0.66630597, "token_acc": 0.8441601, "grad_norm": 7.26519823, "learning_rate": 5.97e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095935, "epoch": 0.46619911, "global_step/max_steps": "10025/21503", "percentage": "46.62%", "elapsed_time": "1d 5h 1m 37s", "remaining_time": "1d 9h 14m 3s"}
{"loss": 0.69374099, "token_acc": 0.83248547, "grad_norm": 7.73107338, "learning_rate": 5.96e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095961, "epoch": 0.46643163, "global_step/max_steps": "10030/21503", "percentage": "46.64%", "elapsed_time": "1d 5h 2m 1s", "remaining_time": "1d 9h 12m 38s"}
{"loss": 0.7169713, "token_acc": 0.80959137, "grad_norm": 6.6409812, "learning_rate": 5.96e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095987, "epoch": 0.46666415, "global_step/max_steps": "10035/21503", "percentage": "46.67%", "elapsed_time": "1d 5h 2m 24s", "remaining_time": "1d 9h 11m 13s"}
{"loss": 0.71444302, "token_acc": 0.83010057, "grad_norm": 6.78478193, "learning_rate": 5.95e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096013, "epoch": 0.46689667, "global_step/max_steps": "10040/21503", "percentage": "46.69%", "elapsed_time": "1d 5h 2m 48s", "remaining_time": "1d 9h 9m 49s"}
{"loss": 0.63986716, "token_acc": 0.83117816, "grad_norm": 7.64796305, "learning_rate": 5.95e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.09604, "epoch": 0.46712918, "global_step/max_steps": "10045/21503", "percentage": "46.71%", "elapsed_time": "1d 5h 3m 11s", "remaining_time": "1d 9h 8m 24s"}
{"loss": 0.70395012, "token_acc": 0.81917519, "grad_norm": 4.5471468, "learning_rate": 5.95e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096067, "epoch": 0.4673617, "global_step/max_steps": "10050/21503", "percentage": "46.74%", "elapsed_time": "1d 5h 3m 34s", "remaining_time": "1d 9h 6m 58s"}
{"eval_loss": 0.60453498, "eval_runtime": 291.4717, "eval_samples_per_second": 11.922, "eval_steps_per_second": 11.922, "epoch": 0.4673617, "global_step/max_steps": "10050/21503", "percentage": "46.74%", "elapsed_time": "1d 5h 8m 25s", "remaining_time": "1d 9h 12m 30s"}
{"loss": 0.69203067, "token_acc": 0.82351859, "grad_norm": 9.99838543, "learning_rate": 5.94e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095827, "epoch": 0.46759422, "global_step/max_steps": "10055/21503", "percentage": "46.76%", "elapsed_time": "1d 5h 8m 48s", "remaining_time": "1d 9h 11m 5s"}
{"loss": 0.81967363, "token_acc": 0.78672199, "grad_norm": 5.99777317, "learning_rate": 5.94e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095852, "epoch": 0.46782674, "global_step/max_steps": "10060/21503", "percentage": "46.78%", "elapsed_time": "1d 5h 9m 12s", "remaining_time": "1d 9h 9m 41s"}
{"loss": 0.63921318, "token_acc": 0.85404058, "grad_norm": 7.60271072, "learning_rate": 5.94e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095879, "epoch": 0.46805926, "global_step/max_steps": "10065/21503", "percentage": "46.81%", "elapsed_time": "1d 5h 9m 35s", "remaining_time": "1d 9h 8m 15s"}
{"loss": 0.68634677, "token_acc": 0.82988073, "grad_norm": 5.81719637, "learning_rate": 5.93e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095906, "epoch": 0.46829178, "global_step/max_steps": "10070/21503", "percentage": "46.83%", "elapsed_time": "1d 5h 9m 58s", "remaining_time": "1d 9h 6m 50s"}
{"loss": 0.65440698, "token_acc": 0.82916053, "grad_norm": 6.113554, "learning_rate": 5.93e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095932, "epoch": 0.46852429, "global_step/max_steps": "10075/21503", "percentage": "46.85%", "elapsed_time": "1d 5h 10m 21s", "remaining_time": "1d 9h 5m 25s"}
{"loss": 0.75105915, "token_acc": 0.81307382, "grad_norm": 7.65765524, "learning_rate": 5.92e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095959, "epoch": 0.46875681, "global_step/max_steps": "10080/21503", "percentage": "46.88%", "elapsed_time": "1d 5h 10m 44s", "remaining_time": "1d 9h 4m 0s"}
{"loss": 0.71526351, "token_acc": 0.81709184, "grad_norm": 5.73448563, "learning_rate": 5.92e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095983, "epoch": 0.46898933, "global_step/max_steps": "10085/21503", "percentage": "46.90%", "elapsed_time": "1d 5h 11m 10s", "remaining_time": "1d 9h 2m 38s"}
{"loss": 0.70449462, "token_acc": 0.8162097, "grad_norm": 7.42374325, "learning_rate": 5.92e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.09601, "epoch": 0.46922185, "global_step/max_steps": "10090/21503", "percentage": "46.92%", "elapsed_time": "1d 5h 11m 33s", "remaining_time": "1d 9h 1m 12s"}
{"loss": 0.65935378, "token_acc": 0.84600639, "grad_norm": 6.36493731, "learning_rate": 5.91e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096037, "epoch": 0.46945437, "global_step/max_steps": "10095/21503", "percentage": "46.95%", "elapsed_time": "1d 5h 11m 55s", "remaining_time": "1d 8h 59m 47s"}
{"loss": 0.6156496, "token_acc": 0.85200846, "grad_norm": 6.76808023, "learning_rate": 5.91e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096063, "epoch": 0.46968689, "global_step/max_steps": "10100/21503", "percentage": "46.97%", "elapsed_time": "1d 5h 12m 18s", "remaining_time": "1d 8h 58m 22s"}
{"eval_loss": 0.6128177, "eval_runtime": 291.3128, "eval_samples_per_second": 11.929, "eval_steps_per_second": 11.929, "epoch": 0.46968689, "global_step/max_steps": "10100/21503", "percentage": "46.97%", "elapsed_time": "1d 5h 17m 10s", "remaining_time": "1d 9h 3m 51s"}
{"loss": 0.74585829, "token_acc": 0.82278189, "grad_norm": 5.99005842, "learning_rate": 5.91e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095824, "epoch": 0.4699194, "global_step/max_steps": "10105/21503", "percentage": "46.99%", "elapsed_time": "1d 5h 17m 33s", "remaining_time": "1d 9h 2m 27s"}
{"loss": 0.76964726, "token_acc": 0.81118104, "grad_norm": 9.34148121, "learning_rate": 5.9e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095851, "epoch": 0.47015192, "global_step/max_steps": "10110/21503", "percentage": "47.02%", "elapsed_time": "1d 5h 17m 56s", "remaining_time": "1d 9h 1m 1s"}
{"loss": 0.70214796, "token_acc": 0.8248538, "grad_norm": 6.02050352, "learning_rate": 5.9e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095877, "epoch": 0.47038444, "global_step/max_steps": "10115/21503", "percentage": "47.04%", "elapsed_time": "1d 5h 18m 20s", "remaining_time": "1d 8h 59m 37s"}
{"loss": 0.65429535, "token_acc": 0.83184713, "grad_norm": 6.66007757, "learning_rate": 5.89e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095902, "epoch": 0.47061696, "global_step/max_steps": "10120/21503", "percentage": "47.06%", "elapsed_time": "1d 5h 18m 44s", "remaining_time": "1d 8h 58m 13s"}
{"loss": 0.71049833, "token_acc": 0.83357988, "grad_norm": 7.62783194, "learning_rate": 5.89e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095929, "epoch": 0.47084948, "global_step/max_steps": "10125/21503", "percentage": "47.09%", "elapsed_time": "1d 5h 19m 6s", "remaining_time": "1d 8h 56m 48s"}
{"loss": 0.62527189, "token_acc": 0.84274194, "grad_norm": 6.60500908, "learning_rate": 5.89e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095956, "epoch": 0.47108199, "global_step/max_steps": "10130/21503", "percentage": "47.11%", "elapsed_time": "1d 5h 19m 29s", "remaining_time": "1d 8h 55m 22s"}
{"loss": 0.67586284, "token_acc": 0.84104995, "grad_norm": 7.56428576, "learning_rate": 5.88e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095983, "epoch": 0.47131451, "global_step/max_steps": "10135/21503", "percentage": "47.13%", "elapsed_time": "1d 5h 19m 51s", "remaining_time": "1d 8h 53m 57s"}
{"loss": 0.64840078, "token_acc": 0.83548261, "grad_norm": 6.06852818, "learning_rate": 5.88e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096009, "epoch": 0.47154703, "global_step/max_steps": "10140/21503", "percentage": "47.16%", "elapsed_time": "1d 5h 20m 14s", "remaining_time": "1d 8h 52m 33s"}
{"loss": 0.64427271, "token_acc": 0.83965403, "grad_norm": 5.98420429, "learning_rate": 5.88e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096035, "epoch": 0.47177955, "global_step/max_steps": "10145/21503", "percentage": "47.18%", "elapsed_time": "1d 5h 20m 38s", "remaining_time": "1d 8h 51m 8s"}
{"loss": 0.62941885, "token_acc": 0.84862385, "grad_norm": 8.4978466, "learning_rate": 5.87e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096062, "epoch": 0.47201207, "global_step/max_steps": "10150/21503", "percentage": "47.20%", "elapsed_time": "1d 5h 21m 0s", "remaining_time": "1d 8h 49m 43s"}
{"eval_loss": 0.60523731, "eval_runtime": 292.5147, "eval_samples_per_second": 11.88, "eval_steps_per_second": 11.88, "epoch": 0.47201207, "global_step/max_steps": "10150/21503", "percentage": "47.20%", "elapsed_time": "1d 5h 25m 52s", "remaining_time": "1d 8h 55m 10s"}
{"loss": 0.6738255, "token_acc": 0.82389332, "grad_norm": 8.09453392, "learning_rate": 5.87e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095824, "epoch": 0.47224459, "global_step/max_steps": "10155/21503", "percentage": "47.23%", "elapsed_time": "1d 5h 26m 15s", "remaining_time": "1d 8h 53m 45s"}
{"loss": 0.71458206, "token_acc": 0.82574874, "grad_norm": 8.37475395, "learning_rate": 5.86e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.09585, "epoch": 0.4724771, "global_step/max_steps": "10160/21503", "percentage": "47.25%", "elapsed_time": "1d 5h 26m 38s", "remaining_time": "1d 8h 52m 20s"}
{"loss": 0.65027609, "token_acc": 0.84044598, "grad_norm": 6.8985157, "learning_rate": 5.86e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095876, "epoch": 0.47270962, "global_step/max_steps": "10165/21503", "percentage": "47.27%", "elapsed_time": "1d 5h 27m 1s", "remaining_time": "1d 8h 50m 56s"}
{"loss": 0.63456903, "token_acc": 0.85612929, "grad_norm": 7.77545595, "learning_rate": 5.86e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095903, "epoch": 0.47294214, "global_step/max_steps": "10170/21503", "percentage": "47.30%", "elapsed_time": "1d 5h 27m 24s", "remaining_time": "1d 8h 49m 31s"}
{"loss": 0.66807241, "token_acc": 0.83013504, "grad_norm": 7.38317204, "learning_rate": 5.85e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095929, "epoch": 0.47317466, "global_step/max_steps": "10175/21503", "percentage": "47.32%", "elapsed_time": "1d 5h 27m 47s", "remaining_time": "1d 8h 48m 6s"}
{"loss": 0.73794613, "token_acc": 0.8111346, "grad_norm": 7.91336203, "learning_rate": 5.85e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095955, "epoch": 0.47340718, "global_step/max_steps": "10180/21503", "percentage": "47.34%", "elapsed_time": "1d 5h 28m 11s", "remaining_time": "1d 8h 46m 43s"}
{"loss": 0.76782508, "token_acc": 0.81488934, "grad_norm": 10.53313065, "learning_rate": 5.85e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.09598, "epoch": 0.4736397, "global_step/max_steps": "10185/21503", "percentage": "47.37%", "elapsed_time": "1d 5h 28m 35s", "remaining_time": "1d 8h 45m 20s"}
{"loss": 0.68075128, "token_acc": 0.83333333, "grad_norm": 8.05494118, "learning_rate": 5.84e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096006, "epoch": 0.47387221, "global_step/max_steps": "10190/21503", "percentage": "47.39%", "elapsed_time": "1d 5h 28m 59s", "remaining_time": "1d 8h 43m 56s"}
{"loss": 0.68383265, "token_acc": 0.82284608, "grad_norm": 6.9609437, "learning_rate": 5.84e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096032, "epoch": 0.47410473, "global_step/max_steps": "10195/21503", "percentage": "47.41%", "elapsed_time": "1d 5h 29m 22s", "remaining_time": "1d 8h 42m 31s"}
{"loss": 0.71642437, "token_acc": 0.81650339, "grad_norm": 8.9474659, "learning_rate": 5.83e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096059, "epoch": 0.47433725, "global_step/max_steps": "10200/21503", "percentage": "47.44%", "elapsed_time": "1d 5h 29m 44s", "remaining_time": "1d 8h 41m 7s"}
{"eval_loss": 0.60350269, "eval_runtime": 291.2419, "eval_samples_per_second": 11.932, "eval_steps_per_second": 11.932, "epoch": 0.47433725, "global_step/max_steps": "10200/21503", "percentage": "47.44%", "elapsed_time": "1d 5h 34m 35s", "remaining_time": "1d 8h 46m 29s"}
{"loss": 0.68234439, "token_acc": 0.82352376, "grad_norm": 6.6514082, "learning_rate": 5.83e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095822, "epoch": 0.47456977, "global_step/max_steps": "10205/21503", "percentage": "47.46%", "elapsed_time": "1d 5h 34m 59s", "remaining_time": "1d 8h 45m 5s"}
{"loss": 0.68683867, "token_acc": 0.82390694, "grad_norm": 8.35775566, "learning_rate": 5.83e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095849, "epoch": 0.47480229, "global_step/max_steps": "10210/21503", "percentage": "47.48%", "elapsed_time": "1d 5h 35m 21s", "remaining_time": "1d 8h 43m 40s"}
{"loss": 0.67644677, "token_acc": 0.83043722, "grad_norm": 5.05812359, "learning_rate": 5.82e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095875, "epoch": 0.47503481, "global_step/max_steps": "10215/21503", "percentage": "47.50%", "elapsed_time": "1d 5h 35m 44s", "remaining_time": "1d 8h 42m 16s"}
{"loss": 0.65774837, "token_acc": 0.84780938, "grad_norm": 6.21880817, "learning_rate": 5.82e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095901, "epoch": 0.47526732, "global_step/max_steps": "10220/21503", "percentage": "47.53%", "elapsed_time": "1d 5h 36m 7s", "remaining_time": "1d 8h 40m 51s"}
{"loss": 0.81461782, "token_acc": 0.80128205, "grad_norm": 5.84410954, "learning_rate": 5.81e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095928, "epoch": 0.47549984, "global_step/max_steps": "10225/21503", "percentage": "47.55%", "elapsed_time": "1d 5h 36m 29s", "remaining_time": "1d 8h 39m 26s"}
{"loss": 0.64915624, "token_acc": 0.8438869, "grad_norm": 6.90438318, "learning_rate": 5.81e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095954, "epoch": 0.47573236, "global_step/max_steps": "10230/21503", "percentage": "47.57%", "elapsed_time": "1d 5h 36m 52s", "remaining_time": "1d 8h 38m 2s"}
{"loss": 0.7037137, "token_acc": 0.82744043, "grad_norm": 8.63725567, "learning_rate": 5.81e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095981, "epoch": 0.47596488, "global_step/max_steps": "10235/21503", "percentage": "47.60%", "elapsed_time": "1d 5h 37m 15s", "remaining_time": "1d 8h 36m 37s"}
{"loss": 0.62805324, "token_acc": 0.84921764, "grad_norm": 6.77254486, "learning_rate": 5.8e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096007, "epoch": 0.4761974, "global_step/max_steps": "10240/21503", "percentage": "47.62%", "elapsed_time": "1d 5h 37m 38s", "remaining_time": "1d 8h 35m 14s"}
{"loss": 0.66729259, "token_acc": 0.82144042, "grad_norm": 9.06159878, "learning_rate": 5.8e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096033, "epoch": 0.47642991, "global_step/max_steps": "10245/21503", "percentage": "47.64%", "elapsed_time": "1d 5h 38m 1s", "remaining_time": "1d 8h 33m 50s"}
{"loss": 0.77359271, "token_acc": 0.80925861, "grad_norm": 7.21175385, "learning_rate": 5.8e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096059, "epoch": 0.47666243, "global_step/max_steps": "10250/21503", "percentage": "47.67%", "elapsed_time": "1d 5h 38m 24s", "remaining_time": "1d 8h 32m 26s"}
{"eval_loss": 0.6029526, "eval_runtime": 293.6988, "eval_samples_per_second": 11.832, "eval_steps_per_second": 11.832, "epoch": 0.47666243, "global_step/max_steps": "10250/21503", "percentage": "47.67%", "elapsed_time": "1d 5h 43m 18s", "remaining_time": "1d 8h 37m 48s"}
{"loss": 0.61487551, "token_acc": 0.82446464, "grad_norm": 8.00287533, "learning_rate": 5.79e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095821, "epoch": 0.47689495, "global_step/max_steps": "10255/21503", "percentage": "47.69%", "elapsed_time": "1d 5h 43m 41s", "remaining_time": "1d 8h 36m 24s"}
{"loss": 0.68196979, "token_acc": 0.82471378, "grad_norm": 8.44099522, "learning_rate": 5.79e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095847, "epoch": 0.47712747, "global_step/max_steps": "10260/21503", "percentage": "47.71%", "elapsed_time": "1d 5h 44m 4s", "remaining_time": "1d 8h 35m 0s"}
{"loss": 0.7811295, "token_acc": 0.79873586, "grad_norm": 7.98078442, "learning_rate": 5.78e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095874, "epoch": 0.47735999, "global_step/max_steps": "10265/21503", "percentage": "47.74%", "elapsed_time": "1d 5h 44m 27s", "remaining_time": "1d 8h 33m 36s"}
{"loss": 0.7386106, "token_acc": 0.8175307, "grad_norm": 8.87431622, "learning_rate": 5.78e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.0959, "epoch": 0.47759251, "global_step/max_steps": "10270/21503", "percentage": "47.76%", "elapsed_time": "1d 5h 44m 50s", "remaining_time": "1d 8h 32m 11s"}
{"loss": 0.67547245, "token_acc": 0.839059, "grad_norm": 7.54012108, "learning_rate": 5.78e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095927, "epoch": 0.47782502, "global_step/max_steps": "10275/21503", "percentage": "47.78%", "elapsed_time": "1d 5h 45m 12s", "remaining_time": "1d 8h 30m 47s"}
{"loss": 0.64541583, "token_acc": 0.85725338, "grad_norm": 9.22672081, "learning_rate": 5.77e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095952, "epoch": 0.47805754, "global_step/max_steps": "10280/21503", "percentage": "47.81%", "elapsed_time": "1d 5h 45m 36s", "remaining_time": "1d 8h 29m 24s"}
{"loss": 0.63154864, "token_acc": 0.84343229, "grad_norm": 8.08572865, "learning_rate": 5.77e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095979, "epoch": 0.47829006, "global_step/max_steps": "10285/21503", "percentage": "47.83%", "elapsed_time": "1d 5h 45m 59s", "remaining_time": "1d 8h 28m 0s"}
{"loss": 0.70620337, "token_acc": 0.82734407, "grad_norm": 9.33485699, "learning_rate": 5.77e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096004, "epoch": 0.47852258, "global_step/max_steps": "10290/21503", "percentage": "47.85%", "elapsed_time": "1d 5h 46m 22s", "remaining_time": "1d 8h 26m 36s"}
{"loss": 0.6935555, "token_acc": 0.83922191, "grad_norm": 9.93091488, "learning_rate": 5.76e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.09603, "epoch": 0.4787551, "global_step/max_steps": "10295/21503", "percentage": "47.88%", "elapsed_time": "1d 5h 46m 46s", "remaining_time": "1d 8h 25m 13s"}
{"loss": 0.52647896, "token_acc": 0.87542088, "grad_norm": 6.25760746, "learning_rate": 5.76e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096056, "epoch": 0.47898762, "global_step/max_steps": "10300/21503", "percentage": "47.90%", "elapsed_time": "1d 5h 47m 9s", "remaining_time": "1d 8h 23m 49s"}
{"eval_loss": 0.60434407, "eval_runtime": 292.2265, "eval_samples_per_second": 11.891, "eval_steps_per_second": 11.891, "epoch": 0.47898762, "global_step/max_steps": "10300/21503", "percentage": "47.90%", "elapsed_time": "1d 5h 52m 1s", "remaining_time": "1d 8h 29m 7s"}
{"loss": 0.64313259, "token_acc": 0.82438549, "grad_norm": 6.72624207, "learning_rate": 5.75e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.09582, "epoch": 0.47922013, "global_step/max_steps": "10305/21503", "percentage": "47.92%", "elapsed_time": "1d 5h 52m 25s", "remaining_time": "1d 8h 27m 44s"}
{"loss": 0.61765013, "token_acc": 0.84243176, "grad_norm": 6.87141275, "learning_rate": 5.75e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095846, "epoch": 0.47945265, "global_step/max_steps": "10310/21503", "percentage": "47.95%", "elapsed_time": "1d 5h 52m 48s", "remaining_time": "1d 8h 26m 20s"}
{"loss": 0.69146013, "token_acc": 0.81885856, "grad_norm": 7.73274422, "learning_rate": 5.75e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095872, "epoch": 0.47968517, "global_step/max_steps": "10315/21503", "percentage": "47.97%", "elapsed_time": "1d 5h 53m 10s", "remaining_time": "1d 8h 24m 56s"}
{"loss": 0.64108849, "token_acc": 0.82411576, "grad_norm": 4.60790777, "learning_rate": 5.74e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095898, "epoch": 0.47991769, "global_step/max_steps": "10320/21503", "percentage": "47.99%", "elapsed_time": "1d 5h 53m 34s", "remaining_time": "1d 8h 23m 33s"}
{"loss": 0.62771263, "token_acc": 0.84841454, "grad_norm": 5.81528664, "learning_rate": 5.74e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095924, "epoch": 0.48015021, "global_step/max_steps": "10325/21503", "percentage": "48.02%", "elapsed_time": "1d 5h 53m 56s", "remaining_time": "1d 8h 22m 9s"}
{"loss": 0.83278494, "token_acc": 0.79529696, "grad_norm": 7.11084557, "learning_rate": 5.74e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.09595, "epoch": 0.48038273, "global_step/max_steps": "10330/21503", "percentage": "48.04%", "elapsed_time": "1d 5h 54m 20s", "remaining_time": "1d 8h 20m 45s"}
{"loss": 0.77314811, "token_acc": 0.81585678, "grad_norm": 7.15982389, "learning_rate": 5.73e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095976, "epoch": 0.48061524, "global_step/max_steps": "10335/21503", "percentage": "48.06%", "elapsed_time": "1d 5h 54m 42s", "remaining_time": "1d 8h 19m 22s"}
{"loss": 0.66044922, "token_acc": 0.82785714, "grad_norm": 5.6211524, "learning_rate": 5.73e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096002, "epoch": 0.48084776, "global_step/max_steps": "10340/21503", "percentage": "48.09%", "elapsed_time": "1d 5h 55m 5s", "remaining_time": "1d 8h 17m 58s"}
{"loss": 0.72067857, "token_acc": 0.81818182, "grad_norm": 6.3528471, "learning_rate": 5.72e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096028, "epoch": 0.48108028, "global_step/max_steps": "10345/21503", "percentage": "48.11%", "elapsed_time": "1d 5h 55m 28s", "remaining_time": "1d 8h 16m 34s"}
{"loss": 0.76126418, "token_acc": 0.81565754, "grad_norm": 6.40288782, "learning_rate": 5.72e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096054, "epoch": 0.4813128, "global_step/max_steps": "10350/21503", "percentage": "48.13%", "elapsed_time": "1d 5h 55m 51s", "remaining_time": "1d 8h 15m 11s"}
{"eval_loss": 0.60412586, "eval_runtime": 292.4376, "eval_samples_per_second": 11.883, "eval_steps_per_second": 11.883, "epoch": 0.4813128, "global_step/max_steps": "10350/21503", "percentage": "48.13%", "elapsed_time": "1d 6h 0m 43s", "remaining_time": "1d 8h 20m 26s"}
{"loss": 0.6299593, "token_acc": 0.8244488, "grad_norm": 6.93434525, "learning_rate": 5.72e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095819, "epoch": 0.48154532, "global_step/max_steps": "10355/21503", "percentage": "48.16%", "elapsed_time": "1d 6h 1m 8s", "remaining_time": "1d 8h 19m 4s"}
{"loss": 0.79009099, "token_acc": 0.79865772, "grad_norm": 5.55903196, "learning_rate": 5.71e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095845, "epoch": 0.48177783, "global_step/max_steps": "10360/21503", "percentage": "48.18%", "elapsed_time": "1d 6h 1m 31s", "remaining_time": "1d 8h 17m 40s"}
{"loss": 0.78117146, "token_acc": 0.81628329, "grad_norm": 6.34378672, "learning_rate": 5.71e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.09587, "epoch": 0.48201035, "global_step/max_steps": "10365/21503", "percentage": "48.20%", "elapsed_time": "1d 6h 1m 54s", "remaining_time": "1d 8h 16m 17s"}
{"loss": 0.6617238, "token_acc": 0.82877148, "grad_norm": 8.41432571, "learning_rate": 5.7e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095896, "epoch": 0.48224287, "global_step/max_steps": "10370/21503", "percentage": "48.23%", "elapsed_time": "1d 6h 2m 18s", "remaining_time": "1d 8h 14m 54s"}
{"loss": 0.63149099, "token_acc": 0.84618143, "grad_norm": 6.82339764, "learning_rate": 5.7e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095922, "epoch": 0.48247539, "global_step/max_steps": "10375/21503", "percentage": "48.25%", "elapsed_time": "1d 6h 2m 40s", "remaining_time": "1d 8h 13m 30s"}
{"loss": 0.5414093, "token_acc": 0.86365438, "grad_norm": 6.53188229, "learning_rate": 5.7e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095948, "epoch": 0.48270791, "global_step/max_steps": "10380/21503", "percentage": "48.27%", "elapsed_time": "1d 6h 3m 3s", "remaining_time": "1d 8h 12m 7s"}
{"loss": 0.67723446, "token_acc": 0.83083884, "grad_norm": 6.15019512, "learning_rate": 5.69e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095974, "epoch": 0.48294043, "global_step/max_steps": "10385/21503", "percentage": "48.30%", "elapsed_time": "1d 6h 3m 26s", "remaining_time": "1d 8h 10m 43s"}
{"loss": 0.72193971, "token_acc": 0.82321744, "grad_norm": 5.84765053, "learning_rate": 5.69e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096, "epoch": 0.48317294, "global_step/max_steps": "10390/21503", "percentage": "48.32%", "elapsed_time": "1d 6h 3m 49s", "remaining_time": "1d 8h 9m 20s"}
{"loss": 0.70715761, "token_acc": 0.82415749, "grad_norm": 5.66129017, "learning_rate": 5.69e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096025, "epoch": 0.48340546, "global_step/max_steps": "10395/21503", "percentage": "48.34%", "elapsed_time": "1d 6h 4m 12s", "remaining_time": "1d 8h 7m 57s"}
{"loss": 0.67450223, "token_acc": 0.83113456, "grad_norm": 7.16728544, "learning_rate": 5.68e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096051, "epoch": 0.48363798, "global_step/max_steps": "10400/21503", "percentage": "48.37%", "elapsed_time": "1d 6h 4m 35s", "remaining_time": "1d 8h 6m 34s"}
{"eval_loss": 0.6045686, "eval_runtime": 291.1795, "eval_samples_per_second": 11.934, "eval_steps_per_second": 11.934, "epoch": 0.48363798, "global_step/max_steps": "10400/21503", "percentage": "48.37%", "elapsed_time": "1d 6h 9m 26s", "remaining_time": "1d 8h 11m 45s"}
{"loss": 0.76018085, "token_acc": 0.82373131, "grad_norm": 6.55899429, "learning_rate": 5.68e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.09582, "epoch": 0.4838705, "global_step/max_steps": "10405/21503", "percentage": "48.39%", "elapsed_time": "1d 6h 9m 49s", "remaining_time": "1d 8h 10m 21s"}
{"loss": 0.61905966, "token_acc": 0.84854859, "grad_norm": 9.05815983, "learning_rate": 5.67e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095845, "epoch": 0.48410302, "global_step/max_steps": "10410/21503", "percentage": "48.41%", "elapsed_time": "1d 6h 10m 12s", "remaining_time": "1d 8h 8m 58s"}
{"loss": 0.73643379, "token_acc": 0.82573941, "grad_norm": 6.31693363, "learning_rate": 5.67e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095871, "epoch": 0.48433554, "global_step/max_steps": "10415/21503", "percentage": "48.44%", "elapsed_time": "1d 6h 10m 34s", "remaining_time": "1d 8h 7m 34s"}
{"loss": 0.76492558, "token_acc": 0.80715898, "grad_norm": 9.49757004, "learning_rate": 5.67e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095897, "epoch": 0.48456805, "global_step/max_steps": "10420/21503", "percentage": "48.46%", "elapsed_time": "1d 6h 10m 57s", "remaining_time": "1d 8h 6m 11s"}
{"loss": 0.68804297, "token_acc": 0.82590476, "grad_norm": 7.51504517, "learning_rate": 5.66e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095923, "epoch": 0.48480057, "global_step/max_steps": "10425/21503", "percentage": "48.48%", "elapsed_time": "1d 6h 11m 21s", "remaining_time": "1d 8h 4m 48s"}
{"loss": 0.80337934, "token_acc": 0.8061657, "grad_norm": 7.98789358, "learning_rate": 5.66e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095948, "epoch": 0.48503309, "global_step/max_steps": "10430/21503", "percentage": "48.50%", "elapsed_time": "1d 6h 11m 44s", "remaining_time": "1d 8h 3m 25s"}
{"loss": 0.66674562, "token_acc": 0.84482759, "grad_norm": 8.10406971, "learning_rate": 5.66e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095974, "epoch": 0.48526561, "global_step/max_steps": "10435/21503", "percentage": "48.53%", "elapsed_time": "1d 6h 12m 7s", "remaining_time": "1d 8h 2m 2s"}
{"loss": 0.66134248, "token_acc": 0.85257032, "grad_norm": 7.8781395, "learning_rate": 5.65e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096, "epoch": 0.48549813, "global_step/max_steps": "10440/21503", "percentage": "48.55%", "elapsed_time": "1d 6h 12m 29s", "remaining_time": "1d 8h 0m 39s"}
{"loss": 0.64581213, "token_acc": 0.82799473, "grad_norm": 9.73891926, "learning_rate": 5.65e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096026, "epoch": 0.48573065, "global_step/max_steps": "10445/21503", "percentage": "48.57%", "elapsed_time": "1d 6h 12m 52s", "remaining_time": "1d 7h 59m 16s"}
{"loss": 0.6806787, "token_acc": 0.83395138, "grad_norm": 6.28954697, "learning_rate": 5.64e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096052, "epoch": 0.48596316, "global_step/max_steps": "10450/21503", "percentage": "48.60%", "elapsed_time": "1d 6h 13m 14s", "remaining_time": "1d 7h 57m 52s"}
{"eval_loss": 0.60164595, "eval_runtime": 292.0162, "eval_samples_per_second": 11.9, "eval_steps_per_second": 11.9, "epoch": 0.48596316, "global_step/max_steps": "10450/21503", "percentage": "48.60%", "elapsed_time": "1d 6h 18m 6s", "remaining_time": "1d 8h 3m 1s"}
{"loss": 0.57800674, "token_acc": 0.82410716, "grad_norm": 8.3683424, "learning_rate": 5.64e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095821, "epoch": 0.48619568, "global_step/max_steps": "10455/21503", "percentage": "48.62%", "elapsed_time": "1d 6h 18m 29s", "remaining_time": "1d 8h 1m 38s"}
{"loss": 0.71206856, "token_acc": 0.83165906, "grad_norm": 8.04305744, "learning_rate": 5.64e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095847, "epoch": 0.4864282, "global_step/max_steps": "10460/21503", "percentage": "48.64%", "elapsed_time": "1d 6h 18m 52s", "remaining_time": "1d 8h 0m 14s"}
{"loss": 0.86139965, "token_acc": 0.78305085, "grad_norm": 8.70664883, "learning_rate": 5.63e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095873, "epoch": 0.48666072, "global_step/max_steps": "10465/21503", "percentage": "48.67%", "elapsed_time": "1d 6h 19m 14s", "remaining_time": "1d 7h 58m 51s"}
{"loss": 0.66883016, "token_acc": 0.83634571, "grad_norm": 7.21015644, "learning_rate": 5.63e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095899, "epoch": 0.48689324, "global_step/max_steps": "10470/21503", "percentage": "48.69%", "elapsed_time": "1d 6h 19m 36s", "remaining_time": "1d 7h 57m 27s"}
{"loss": 0.73846517, "token_acc": 0.81480295, "grad_norm": 6.83191586, "learning_rate": 5.62e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095925, "epoch": 0.48712575, "global_step/max_steps": "10475/21503", "percentage": "48.71%", "elapsed_time": "1d 6h 19m 59s", "remaining_time": "1d 7h 56m 4s"}
{"loss": 0.6526783, "token_acc": 0.84571661, "grad_norm": 8.79302692, "learning_rate": 5.62e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095951, "epoch": 0.48735827, "global_step/max_steps": "10480/21503", "percentage": "48.74%", "elapsed_time": "1d 6h 20m 22s", "remaining_time": "1d 7h 54m 41s"}
{"loss": 0.7427938, "token_acc": 0.81372855, "grad_norm": 6.19475317, "learning_rate": 5.62e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095977, "epoch": 0.48759079, "global_step/max_steps": "10485/21503", "percentage": "48.76%", "elapsed_time": "1d 6h 20m 44s", "remaining_time": "1d 7h 53m 18s"}
{"loss": 0.75353565, "token_acc": 0.81242497, "grad_norm": 7.28908873, "learning_rate": 5.61e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096002, "epoch": 0.48782331, "global_step/max_steps": "10490/21503", "percentage": "48.78%", "elapsed_time": "1d 6h 21m 7s", "remaining_time": "1d 7h 51m 55s"}
{"loss": 0.82180433, "token_acc": 0.79213675, "grad_norm": 8.47250366, "learning_rate": 5.61e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096028, "epoch": 0.48805583, "global_step/max_steps": "10495/21503", "percentage": "48.81%", "elapsed_time": "1d 6h 21m 30s", "remaining_time": "1d 7h 50m 32s"}
{"loss": 0.66808019, "token_acc": 0.83558325, "grad_norm": 6.73674345, "learning_rate": 5.61e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096054, "epoch": 0.48828835, "global_step/max_steps": "10500/21503", "percentage": "48.83%", "elapsed_time": "1d 6h 21m 53s", "remaining_time": "1d 7h 49m 10s"}
{"eval_loss": 0.60224134, "eval_runtime": 293.5956, "eval_samples_per_second": 11.836, "eval_steps_per_second": 11.836, "epoch": 0.48828835, "global_step/max_steps": "10500/21503", "percentage": "48.83%", "elapsed_time": "1d 6h 26m 47s", "remaining_time": "1d 7h 54m 18s"}
{"loss": 0.70892773, "token_acc": 0.82379991, "grad_norm": 6.92911911, "learning_rate": 5.6e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095822, "epoch": 0.48852086, "global_step/max_steps": "10505/21503", "percentage": "48.85%", "elapsed_time": "1d 6h 27m 10s", "remaining_time": "1d 7h 52m 55s"}
{"loss": 0.65306449, "token_acc": 0.83752418, "grad_norm": 5.99254847, "learning_rate": 5.6e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095847, "epoch": 0.48875338, "global_step/max_steps": "10510/21503", "percentage": "48.88%", "elapsed_time": "1d 6h 27m 33s", "remaining_time": "1d 7h 51m 32s"}
{"loss": 0.71102467, "token_acc": 0.82035494, "grad_norm": 6.1301403, "learning_rate": 5.59e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095873, "epoch": 0.4889859, "global_step/max_steps": "10515/21503", "percentage": "48.90%", "elapsed_time": "1d 6h 27m 56s", "remaining_time": "1d 7h 50m 9s"}
{"loss": 0.6460587, "token_acc": 0.85111465, "grad_norm": 8.60098839, "learning_rate": 5.59e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095898, "epoch": 0.48921842, "global_step/max_steps": "10520/21503", "percentage": "48.92%", "elapsed_time": "1d 6h 28m 19s", "remaining_time": "1d 7h 48m 47s"}
{"loss": 0.75748515, "token_acc": 0.80530973, "grad_norm": 7.91016293, "learning_rate": 5.59e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095924, "epoch": 0.48945094, "global_step/max_steps": "10525/21503", "percentage": "48.95%", "elapsed_time": "1d 6h 28m 42s", "remaining_time": "1d 7h 47m 24s"}
{"loss": 0.59500256, "token_acc": 0.84827377, "grad_norm": 6.96576643, "learning_rate": 5.58e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095949, "epoch": 0.48968346, "global_step/max_steps": "10530/21503", "percentage": "48.97%", "elapsed_time": "1d 6h 29m 5s", "remaining_time": "1d 7h 46m 2s"}
{"loss": 0.70048361, "token_acc": 0.81491841, "grad_norm": 7.77105188, "learning_rate": 5.58e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095974, "epoch": 0.48991597, "global_step/max_steps": "10535/21503", "percentage": "48.99%", "elapsed_time": "1d 6h 29m 29s", "remaining_time": "1d 7h 44m 41s"}
{"loss": 0.76743383, "token_acc": 0.80252509, "grad_norm": 8.51248169, "learning_rate": 5.58e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095999, "epoch": 0.49014849, "global_step/max_steps": "10540/21503", "percentage": "49.02%", "elapsed_time": "1d 6h 29m 52s", "remaining_time": "1d 7h 43m 18s"}
{"loss": 0.68226514, "token_acc": 0.81551662, "grad_norm": 4.97601938, "learning_rate": 5.57e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096025, "epoch": 0.49038101, "global_step/max_steps": "10545/21503", "percentage": "49.04%", "elapsed_time": "1d 6h 30m 15s", "remaining_time": "1d 7h 41m 56s"}
{"loss": 0.72299709, "token_acc": 0.82469636, "grad_norm": 7.17593193, "learning_rate": 5.57e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.09605, "epoch": 0.49061353, "global_step/max_steps": "10550/21503", "percentage": "49.06%", "elapsed_time": "1d 6h 30m 38s", "remaining_time": "1d 7h 40m 34s"}
{"eval_loss": 0.59960938, "eval_runtime": 295.1161, "eval_samples_per_second": 11.775, "eval_steps_per_second": 11.775, "epoch": 0.49061353, "global_step/max_steps": "10550/21503", "percentage": "49.06%", "elapsed_time": "1d 6h 35m 33s", "remaining_time": "1d 7h 45m 40s"}
{"loss": 0.66029553, "token_acc": 0.82432877, "grad_norm": 6.38210201, "learning_rate": 5.56e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095818, "epoch": 0.49084605, "global_step/max_steps": "10555/21503", "percentage": "49.09%", "elapsed_time": "1d 6h 35m 56s", "remaining_time": "1d 7h 44m 18s"}
{"loss": 0.65073447, "token_acc": 0.83473684, "grad_norm": 7.59570265, "learning_rate": 5.56e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095843, "epoch": 0.49107857, "global_step/max_steps": "10560/21503", "percentage": "49.11%", "elapsed_time": "1d 6h 36m 20s", "remaining_time": "1d 7h 42m 56s"}
{"loss": 0.64679389, "token_acc": 0.83948757, "grad_norm": 8.05088425, "learning_rate": 5.56e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095868, "epoch": 0.49131108, "global_step/max_steps": "10565/21503", "percentage": "49.13%", "elapsed_time": "1d 6h 36m 43s", "remaining_time": "1d 7h 41m 34s"}
{"loss": 0.64989009, "token_acc": 0.83198925, "grad_norm": 5.6289444, "learning_rate": 5.55e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095893, "epoch": 0.4915436, "global_step/max_steps": "10570/21503", "percentage": "49.16%", "elapsed_time": "1d 6h 37m 6s", "remaining_time": "1d 7h 40m 12s"}
{"loss": 0.66635971, "token_acc": 0.82866667, "grad_norm": 7.67854548, "learning_rate": 5.55e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095918, "epoch": 0.49177612, "global_step/max_steps": "10575/21503", "percentage": "49.18%", "elapsed_time": "1d 6h 37m 29s", "remaining_time": "1d 7h 38m 50s"}
{"loss": 0.58697824, "token_acc": 0.85829533, "grad_norm": 6.15904999, "learning_rate": 5.54e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095944, "epoch": 0.49200864, "global_step/max_steps": "10580/21503", "percentage": "49.20%", "elapsed_time": "1d 6h 37m 52s", "remaining_time": "1d 7h 37m 27s"}
{"loss": 0.63434124, "token_acc": 0.83867983, "grad_norm": 5.80260134, "learning_rate": 5.54e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095969, "epoch": 0.49224116, "global_step/max_steps": "10585/21503", "percentage": "49.23%", "elapsed_time": "1d 6h 38m 15s", "remaining_time": "1d 7h 36m 5s"}
{"loss": 0.75683827, "token_acc": 0.80635754, "grad_norm": 7.77803087, "learning_rate": 5.54e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095994, "epoch": 0.49247367, "global_step/max_steps": "10590/21503", "percentage": "49.25%", "elapsed_time": "1d 6h 38m 39s", "remaining_time": "1d 7h 34m 44s"}
{"loss": 0.67084894, "token_acc": 0.83327508, "grad_norm": 6.50686598, "learning_rate": 5.53e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096019, "epoch": 0.49270619, "global_step/max_steps": "10595/21503", "percentage": "49.27%", "elapsed_time": "1d 6h 39m 2s", "remaining_time": "1d 7h 33m 22s"}
{"loss": 0.61507592, "token_acc": 0.84087237, "grad_norm": 7.49494934, "learning_rate": 5.53e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096045, "epoch": 0.49293871, "global_step/max_steps": "10600/21503", "percentage": "49.30%", "elapsed_time": "1d 6h 39m 25s", "remaining_time": "1d 7h 31m 59s"}
{"eval_loss": 0.60052359, "eval_runtime": 295.1347, "eval_samples_per_second": 11.774, "eval_steps_per_second": 11.774, "epoch": 0.49293871, "global_step/max_steps": "10600/21503", "percentage": "49.30%", "elapsed_time": "1d 6h 44m 20s", "remaining_time": "1d 7h 37m 3s"}
{"loss": 0.66998773, "token_acc": 0.82431439, "grad_norm": 10.07514668, "learning_rate": 5.53e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095813, "epoch": 0.49317123, "global_step/max_steps": "10605/21503", "percentage": "49.32%", "elapsed_time": "1d 6h 44m 44s", "remaining_time": "1d 7h 35m 42s"}
{"loss": 0.65534492, "token_acc": 0.8335005, "grad_norm": 7.28811026, "learning_rate": 5.52e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095837, "epoch": 0.49340375, "global_step/max_steps": "10610/21503", "percentage": "49.34%", "elapsed_time": "1d 6h 45m 8s", "remaining_time": "1d 7h 34m 21s"}
{"loss": 0.72240653, "token_acc": 0.82308276, "grad_norm": 6.84056997, "learning_rate": 5.52e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095863, "epoch": 0.49363627, "global_step/max_steps": "10615/21503", "percentage": "49.37%", "elapsed_time": "1d 6h 45m 30s", "remaining_time": "1d 7h 32m 58s"}
{"loss": 0.66794229, "token_acc": 0.83462819, "grad_norm": 6.87560225, "learning_rate": 5.51e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095888, "epoch": 0.49386878, "global_step/max_steps": "10620/21503", "percentage": "49.39%", "elapsed_time": "1d 6h 45m 53s", "remaining_time": "1d 7h 31m 36s"}
{"loss": 0.67764025, "token_acc": 0.82847458, "grad_norm": 8.05936527, "learning_rate": 5.51e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095913, "epoch": 0.4941013, "global_step/max_steps": "10625/21503", "percentage": "49.41%", "elapsed_time": "1d 6h 46m 16s", "remaining_time": "1d 7h 30m 14s"}
{"loss": 0.78586178, "token_acc": 0.80715851, "grad_norm": 8.24202347, "learning_rate": 5.51e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095938, "epoch": 0.49433382, "global_step/max_steps": "10630/21503", "percentage": "49.43%", "elapsed_time": "1d 6h 46m 39s", "remaining_time": "1d 7h 28m 52s"}
{"loss": 0.58518791, "token_acc": 0.85927852, "grad_norm": 7.44107866, "learning_rate": 5.5e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095963, "epoch": 0.49456634, "global_step/max_steps": "10635/21503", "percentage": "49.46%", "elapsed_time": "1d 6h 47m 3s", "remaining_time": "1d 7h 27m 31s"}
{"loss": 0.63066664, "token_acc": 0.83796589, "grad_norm": 6.33524513, "learning_rate": 5.5e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095988, "epoch": 0.49479886, "global_step/max_steps": "10640/21503", "percentage": "49.48%", "elapsed_time": "1d 6h 47m 26s", "remaining_time": "1d 7h 26m 9s"}
{"loss": 0.57138453, "token_acc": 0.85443038, "grad_norm": 9.67719936, "learning_rate": 5.49e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096014, "epoch": 0.49503138, "global_step/max_steps": "10645/21503", "percentage": "49.50%", "elapsed_time": "1d 6h 47m 49s", "remaining_time": "1d 7h 24m 47s"}
{"loss": 0.64325099, "token_acc": 0.84309427, "grad_norm": 7.01099491, "learning_rate": 5.49e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096038, "epoch": 0.49526389, "global_step/max_steps": "10650/21503", "percentage": "49.53%", "elapsed_time": "1d 6h 48m 12s", "remaining_time": "1d 7h 23m 26s"}
{"eval_loss": 0.6011095, "eval_runtime": 292.8707, "eval_samples_per_second": 11.865, "eval_steps_per_second": 11.865, "epoch": 0.49526389, "global_step/max_steps": "10650/21503", "percentage": "49.53%", "elapsed_time": "1d 6h 53m 5s", "remaining_time": "1d 7h 28m 24s"}
{"loss": 0.75603943, "token_acc": 0.82355582, "grad_norm": 9.23379421, "learning_rate": 5.49e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.09581, "epoch": 0.49549641, "global_step/max_steps": "10655/21503", "percentage": "49.55%", "elapsed_time": "1d 6h 53m 29s", "remaining_time": "1d 7h 27m 3s"}
{"loss": 0.67025719, "token_acc": 0.84011628, "grad_norm": 10.12290192, "learning_rate": 5.48e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095835, "epoch": 0.49572893, "global_step/max_steps": "10660/21503", "percentage": "49.57%", "elapsed_time": "1d 6h 53m 52s", "remaining_time": "1d 7h 25m 41s"}
{"loss": 0.61925683, "token_acc": 0.84347121, "grad_norm": 7.14739895, "learning_rate": 5.48e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.09586, "epoch": 0.49596145, "global_step/max_steps": "10665/21503", "percentage": "49.60%", "elapsed_time": "1d 6h 54m 15s", "remaining_time": "1d 7h 24m 20s"}
{"loss": 0.74365425, "token_acc": 0.81475356, "grad_norm": 7.78243065, "learning_rate": 5.48e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095885, "epoch": 0.49619397, "global_step/max_steps": "10670/21503", "percentage": "49.62%", "elapsed_time": "1d 6h 54m 38s", "remaining_time": "1d 7h 22m 58s"}
{"loss": 0.75771604, "token_acc": 0.8254644, "grad_norm": 9.92634773, "learning_rate": 5.47e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095911, "epoch": 0.49642648, "global_step/max_steps": "10675/21503", "percentage": "49.64%", "elapsed_time": "1d 6h 55m 1s", "remaining_time": "1d 7h 21m 36s"}
{"loss": 0.68472319, "token_acc": 0.84040747, "grad_norm": 6.96430922, "learning_rate": 5.47e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095935, "epoch": 0.496659, "global_step/max_steps": "10680/21503", "percentage": "49.67%", "elapsed_time": "1d 6h 55m 24s", "remaining_time": "1d 7h 20m 15s"}
{"loss": 0.89174852, "token_acc": 0.76959545, "grad_norm": 8.40974903, "learning_rate": 5.46e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.09596, "epoch": 0.49689152, "global_step/max_steps": "10685/21503", "percentage": "49.69%", "elapsed_time": "1d 6h 55m 48s", "remaining_time": "1d 7h 18m 54s"}
{"loss": 0.70449591, "token_acc": 0.84377968, "grad_norm": 8.86585426, "learning_rate": 5.46e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095986, "epoch": 0.49712404, "global_step/max_steps": "10690/21503", "percentage": "49.71%", "elapsed_time": "1d 6h 56m 10s", "remaining_time": "1d 7h 17m 31s"}
{"loss": 0.7044086, "token_acc": 0.81953911, "grad_norm": 8.8744297, "learning_rate": 5.46e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096011, "epoch": 0.49735656, "global_step/max_steps": "10695/21503", "percentage": "49.74%", "elapsed_time": "1d 6h 56m 33s", "remaining_time": "1d 7h 16m 10s"}
{"loss": 0.74430265, "token_acc": 0.81622269, "grad_norm": 7.48028326, "learning_rate": 5.45e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.096036, "epoch": 0.49758908, "global_step/max_steps": "10700/21503", "percentage": "49.76%", "elapsed_time": "1d 6h 56m 56s", "remaining_time": "1d 7h 14m 49s"}
{"eval_loss": 0.60135347, "eval_runtime": 297.2319, "eval_samples_per_second": 11.691, "eval_steps_per_second": 11.691, "epoch": 0.49758908, "global_step/max_steps": "10700/21503", "percentage": "49.76%", "elapsed_time": "1d 7h 1m 54s", "remaining_time": "1d 7h 19m 49s"}
{"loss": 0.78003511, "token_acc": 0.82312412, "grad_norm": 4.38559723, "learning_rate": 5.45e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095803, "epoch": 0.49782159, "global_step/max_steps": "10705/21503", "percentage": "49.78%", "elapsed_time": "1d 7h 2m 19s", "remaining_time": "1d 7h 18m 29s"}
{"loss": 0.63949018, "token_acc": 0.84912377, "grad_norm": 7.6840291, "learning_rate": 5.45e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095827, "epoch": 0.49805411, "global_step/max_steps": "10710/21503", "percentage": "49.81%", "elapsed_time": "1d 7h 2m 43s", "remaining_time": "1d 7h 17m 9s"}
{"loss": 0.59743762, "token_acc": 0.8384532, "grad_norm": 8.53474617, "learning_rate": 5.44e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095852, "epoch": 0.49828663, "global_step/max_steps": "10715/21503", "percentage": "49.83%", "elapsed_time": "1d 7h 3m 6s", "remaining_time": "1d 7h 15m 48s"}
{"loss": 0.61147408, "token_acc": 0.85609756, "grad_norm": 6.34986544, "learning_rate": 5.44e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095877, "epoch": 0.49851915, "global_step/max_steps": "10720/21503", "percentage": "49.85%", "elapsed_time": "1d 7h 3m 29s", "remaining_time": "1d 7h 14m 26s"}
{"loss": 0.75909462, "token_acc": 0.81890582, "grad_norm": 8.97901058, "learning_rate": 5.43e-06, "memory(GiB)": 36.53, "train_speed(iter/s)": 0.095902, "epoch": 0.49875167, "global_step/max_steps": "10725/21503", "percentage": "49.88%", "elapsed_time": "1d 7h 3m 52s", "remaining_time": "1d 7h 13m 5s"}
{"loss": 0.60386415, "token_acc": 0.85173979, "grad_norm": 6.77615452, "learning_rate": 5.43e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095925, "epoch": 0.49898419, "global_step/max_steps": "10730/21503", "percentage": "49.90%", "elapsed_time": "1d 7h 4m 17s", "remaining_time": "1d 7h 11m 46s"}
{"loss": 0.61125793, "token_acc": 0.85354223, "grad_norm": 5.19842958, "learning_rate": 5.43e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.09595, "epoch": 0.4992167, "global_step/max_steps": "10735/21503", "percentage": "49.92%", "elapsed_time": "1d 7h 4m 40s", "remaining_time": "1d 7h 10m 24s"}
{"loss": 0.68798332, "token_acc": 0.83127995, "grad_norm": 8.50297165, "learning_rate": 5.42e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095975, "epoch": 0.49944922, "global_step/max_steps": "10740/21503", "percentage": "49.95%", "elapsed_time": "1d 7h 5m 4s", "remaining_time": "1d 7h 9m 4s"}
{"loss": 0.74863424, "token_acc": 0.82128378, "grad_norm": 8.34909058, "learning_rate": 5.42e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095999, "epoch": 0.49968174, "global_step/max_steps": "10745/21503", "percentage": "49.97%", "elapsed_time": "1d 7h 5m 27s", "remaining_time": "1d 7h 7m 43s"}
{"loss": 0.64543347, "token_acc": 0.82077454, "grad_norm": 5.16649866, "learning_rate": 5.41e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.096024, "epoch": 0.49991426, "global_step/max_steps": "10750/21503", "percentage": "49.99%", "elapsed_time": "1d 7h 5m 50s", "remaining_time": "1d 7h 6m 21s"}
{"eval_loss": 0.60078013, "eval_runtime": 295.4874, "eval_samples_per_second": 11.76, "eval_steps_per_second": 11.76, "epoch": 0.49991426, "global_step/max_steps": "10750/21503", "percentage": "49.99%", "elapsed_time": "1d 7h 10m 46s", "remaining_time": "1d 7h 11m 17s"}
{"loss": 0.66814775, "token_acc": 0.82528581, "grad_norm": 6.76112413, "learning_rate": 5.41e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095796, "epoch": 0.50014678, "global_step/max_steps": "10755/21503", "percentage": "50.02%", "elapsed_time": "1d 7h 11m 9s", "remaining_time": "1d 7h 9m 56s"}
{"loss": 0.82420597, "token_acc": 0.80100236, "grad_norm": 6.28730106, "learning_rate": 5.41e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095821, "epoch": 0.5003793, "global_step/max_steps": "10760/21503", "percentage": "50.04%", "elapsed_time": "1d 7h 11m 32s", "remaining_time": "1d 7h 8m 34s"}
{"loss": 0.68695126, "token_acc": 0.81944884, "grad_norm": 6.48829317, "learning_rate": 5.4e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095846, "epoch": 0.50061181, "global_step/max_steps": "10765/21503", "percentage": "50.06%", "elapsed_time": "1d 7h 11m 55s", "remaining_time": "1d 7h 7m 13s"}
{"loss": 0.73336229, "token_acc": 0.82631579, "grad_norm": 5.36072683, "learning_rate": 5.4e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095871, "epoch": 0.50084433, "global_step/max_steps": "10770/21503", "percentage": "50.09%", "elapsed_time": "1d 7h 12m 18s", "remaining_time": "1d 7h 5m 52s"}
{"loss": 0.64618177, "token_acc": 0.83794296, "grad_norm": 9.92155075, "learning_rate": 5.4e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095896, "epoch": 0.50107685, "global_step/max_steps": "10775/21503", "percentage": "50.11%", "elapsed_time": "1d 7h 12m 40s", "remaining_time": "1d 7h 4m 30s"}
{"loss": 0.78171473, "token_acc": 0.81708902, "grad_norm": 6.71007156, "learning_rate": 5.39e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095921, "epoch": 0.50130937, "global_step/max_steps": "10780/21503", "percentage": "50.13%", "elapsed_time": "1d 7h 13m 4s", "remaining_time": "1d 7h 3m 9s"}
{"loss": 0.66035633, "token_acc": 0.82720247, "grad_norm": 8.0813942, "learning_rate": 5.39e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095945, "epoch": 0.50154189, "global_step/max_steps": "10785/21503", "percentage": "50.16%", "elapsed_time": "1d 7h 13m 27s", "remaining_time": "1d 7h 1m 49s"}
{"loss": 0.67096639, "token_acc": 0.8350973, "grad_norm": 6.16849518, "learning_rate": 5.38e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095971, "epoch": 0.5017744, "global_step/max_steps": "10790/21503", "percentage": "50.18%", "elapsed_time": "1d 7h 13m 49s", "remaining_time": "1d 7h 0m 27s"}
{"loss": 0.5740963, "token_acc": 0.86880907, "grad_norm": 5.78797054, "learning_rate": 5.38e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095997, "epoch": 0.50200692, "global_step/max_steps": "10795/21503", "percentage": "50.20%", "elapsed_time": "1d 7h 14m 11s", "remaining_time": "1d 6h 59m 5s"}
{"loss": 0.70490313, "token_acc": 0.82160963, "grad_norm": 7.65947056, "learning_rate": 5.38e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.096022, "epoch": 0.50223944, "global_step/max_steps": "10800/21503", "percentage": "50.23%", "elapsed_time": "1d 7h 14m 33s", "remaining_time": "1d 6h 57m 43s"}
{"eval_loss": 0.59800684, "eval_runtime": 292.8256, "eval_samples_per_second": 11.867, "eval_steps_per_second": 11.867, "epoch": 0.50223944, "global_step/max_steps": "10800/21503", "percentage": "50.23%", "elapsed_time": "1d 7h 19m 26s", "remaining_time": "1d 7h 2m 33s"}
{"loss": 0.63170772, "token_acc": 0.8252225, "grad_norm": 9.11786938, "learning_rate": 5.37e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095797, "epoch": 0.50247196, "global_step/max_steps": "10805/21503", "percentage": "50.25%", "elapsed_time": "1d 7h 19m 50s", "remaining_time": "1d 7h 1m 13s"}
{"loss": 0.69808502, "token_acc": 0.83561077, "grad_norm": 9.5031004, "learning_rate": 5.37e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095822, "epoch": 0.50270448, "global_step/max_steps": "10810/21503", "percentage": "50.27%", "elapsed_time": "1d 7h 20m 12s", "remaining_time": "1d 6h 59m 51s"}
{"loss": 0.76188812, "token_acc": 0.82050226, "grad_norm": 10.00473976, "learning_rate": 5.36e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095847, "epoch": 0.502937, "global_step/max_steps": "10815/21503", "percentage": "50.30%", "elapsed_time": "1d 7h 20m 35s", "remaining_time": "1d 6h 58m 30s"}
{"loss": 0.85867863, "token_acc": 0.80970943, "grad_norm": 6.89396477, "learning_rate": 5.36e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095872, "epoch": 0.50316951, "global_step/max_steps": "10820/21503", "percentage": "50.32%", "elapsed_time": "1d 7h 20m 58s", "remaining_time": "1d 6h 57m 9s"}
{"loss": 0.63374338, "token_acc": 0.84534038, "grad_norm": 6.22441721, "learning_rate": 5.36e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095897, "epoch": 0.50340203, "global_step/max_steps": "10825/21503", "percentage": "50.34%", "elapsed_time": "1d 7h 21m 21s", "remaining_time": "1d 6h 55m 48s"}
{"loss": 0.67622442, "token_acc": 0.83950617, "grad_norm": 6.45004368, "learning_rate": 5.35e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095922, "epoch": 0.50363455, "global_step/max_steps": "10830/21503", "percentage": "50.37%", "elapsed_time": "1d 7h 21m 44s", "remaining_time": "1d 6h 54m 27s"}
{"loss": 0.7612596, "token_acc": 0.8089563, "grad_norm": 7.789783, "learning_rate": 5.35e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095947, "epoch": 0.50386707, "global_step/max_steps": "10835/21503", "percentage": "50.39%", "elapsed_time": "1d 7h 22m 7s", "remaining_time": "1d 6h 53m 6s"}
{"loss": 0.5151895, "token_acc": 0.86062603, "grad_norm": 8.25801468, "learning_rate": 5.35e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095971, "epoch": 0.50409959, "global_step/max_steps": "10840/21503", "percentage": "50.41%", "elapsed_time": "1d 7h 22m 30s", "remaining_time": "1d 6h 51m 45s"}
{"loss": 0.71089764, "token_acc": 0.81809524, "grad_norm": 6.24186039, "learning_rate": 5.34e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095996, "epoch": 0.50433211, "global_step/max_steps": "10845/21503", "percentage": "50.43%", "elapsed_time": "1d 7h 22m 53s", "remaining_time": "1d 6h 50m 25s"}
{"loss": 0.63716903, "token_acc": 0.84525447, "grad_norm": 6.14653015, "learning_rate": 5.34e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.096021, "epoch": 0.50456462, "global_step/max_steps": "10850/21503", "percentage": "50.46%", "elapsed_time": "1d 7h 23m 15s", "remaining_time": "1d 6h 49m 3s"}
{"eval_loss": 0.59833628, "eval_runtime": 290.2492, "eval_samples_per_second": 11.972, "eval_steps_per_second": 11.972, "epoch": 0.50456462, "global_step/max_steps": "10850/21503", "percentage": "50.46%", "elapsed_time": "1d 7h 28m 5s", "remaining_time": "1d 6h 53m 48s"}
{"loss": 0.59997969, "token_acc": 0.82513338, "grad_norm": 7.17383814, "learning_rate": 5.33e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.0958, "epoch": 0.50479714, "global_step/max_steps": "10855/21503", "percentage": "50.48%", "elapsed_time": "1d 7h 28m 29s", "remaining_time": "1d 6h 52m 28s"}
{"loss": 0.51984706, "token_acc": 0.86258562, "grad_norm": 6.50334072, "learning_rate": 5.33e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095825, "epoch": 0.50502966, "global_step/max_steps": "10860/21503", "percentage": "50.50%", "elapsed_time": "1d 7h 28m 51s", "remaining_time": "1d 6h 51m 6s"}
{"loss": 0.55352955, "token_acc": 0.84655449, "grad_norm": 7.50430346, "learning_rate": 5.33e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.09585, "epoch": 0.50526218, "global_step/max_steps": "10865/21503", "percentage": "50.53%", "elapsed_time": "1d 7h 29m 13s", "remaining_time": "1d 6h 49m 45s"}
{"loss": 0.70137005, "token_acc": 0.83287483, "grad_norm": 7.13867998, "learning_rate": 5.32e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095875, "epoch": 0.5054947, "global_step/max_steps": "10870/21503", "percentage": "50.55%", "elapsed_time": "1d 7h 29m 36s", "remaining_time": "1d 6h 48m 24s"}
{"loss": 0.63431854, "token_acc": 0.84255019, "grad_norm": 6.77884817, "learning_rate": 5.32e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095899, "epoch": 0.50572722, "global_step/max_steps": "10875/21503", "percentage": "50.57%", "elapsed_time": "1d 7h 29m 59s", "remaining_time": "1d 6h 47m 4s"}
{"loss": 0.7110847, "token_acc": 0.81710442, "grad_norm": 6.90584803, "learning_rate": 5.31e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095924, "epoch": 0.50595973, "global_step/max_steps": "10880/21503", "percentage": "50.60%", "elapsed_time": "1d 7h 30m 23s", "remaining_time": "1d 6h 45m 43s"}
{"loss": 0.61313448, "token_acc": 0.83700159, "grad_norm": 10.56027889, "learning_rate": 5.31e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095948, "epoch": 0.50619225, "global_step/max_steps": "10885/21503", "percentage": "50.62%", "elapsed_time": "1d 7h 30m 46s", "remaining_time": "1d 6h 44m 23s"}
{"loss": 0.68838921, "token_acc": 0.82931809, "grad_norm": 8.73283386, "learning_rate": 5.31e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095973, "epoch": 0.50642477, "global_step/max_steps": "10890/21503", "percentage": "50.64%", "elapsed_time": "1d 7h 31m 9s", "remaining_time": "1d 6h 43m 3s"}
{"loss": 0.69240232, "token_acc": 0.83224223, "grad_norm": 7.83041668, "learning_rate": 5.3e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095998, "epoch": 0.50665729, "global_step/max_steps": "10895/21503", "percentage": "50.67%", "elapsed_time": "1d 7h 31m 32s", "remaining_time": "1d 6h 41m 42s"}
{"loss": 0.60573416, "token_acc": 0.83913604, "grad_norm": 7.29291248, "learning_rate": 5.3e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.096023, "epoch": 0.50688981, "global_step/max_steps": "10900/21503", "percentage": "50.69%", "elapsed_time": "1d 7h 31m 54s", "remaining_time": "1d 6h 40m 21s"}
{"eval_loss": 0.60034037, "eval_runtime": 290.5621, "eval_samples_per_second": 11.96, "eval_steps_per_second": 11.96, "epoch": 0.50688981, "global_step/max_steps": "10900/21503", "percentage": "50.69%", "elapsed_time": "1d 7h 36m 45s", "remaining_time": "1d 6h 45m 4s"}
{"loss": 0.71029577, "token_acc": 0.82420881, "grad_norm": 9.88039684, "learning_rate": 5.3e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095802, "epoch": 0.50712232, "global_step/max_steps": "10905/21503", "percentage": "50.71%", "elapsed_time": "1d 7h 37m 7s", "remaining_time": "1d 6h 43m 43s"}
{"loss": 0.70981441, "token_acc": 0.81580529, "grad_norm": 7.28565121, "learning_rate": 5.29e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095826, "epoch": 0.50735484, "global_step/max_steps": "10910/21503", "percentage": "50.74%", "elapsed_time": "1d 7h 37m 31s", "remaining_time": "1d 6h 42m 23s"}
{"loss": 0.68319387, "token_acc": 0.83023001, "grad_norm": 7.89753771, "learning_rate": 5.29e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095851, "epoch": 0.50758736, "global_step/max_steps": "10915/21503", "percentage": "50.76%", "elapsed_time": "1d 7h 37m 54s", "remaining_time": "1d 6h 41m 2s"}
{"loss": 0.59242873, "token_acc": 0.85526955, "grad_norm": 7.62747765, "learning_rate": 5.28e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095876, "epoch": 0.50781988, "global_step/max_steps": "10920/21503", "percentage": "50.78%", "elapsed_time": "1d 7h 38m 16s", "remaining_time": "1d 6h 39m 42s"}
{"loss": 0.61853013, "token_acc": 0.85548654, "grad_norm": 8.80014229, "learning_rate": 5.28e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095901, "epoch": 0.5080524, "global_step/max_steps": "10925/21503", "percentage": "50.81%", "elapsed_time": "1d 7h 38m 39s", "remaining_time": "1d 6h 38m 21s"}
{"loss": 0.81397772, "token_acc": 0.80359503, "grad_norm": 7.8655057, "learning_rate": 5.28e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095925, "epoch": 0.50828492, "global_step/max_steps": "10930/21503", "percentage": "50.83%", "elapsed_time": "1d 7h 39m 2s", "remaining_time": "1d 6h 37m 1s"}
{"loss": 0.75409231, "token_acc": 0.80908584, "grad_norm": 6.9022193, "learning_rate": 5.27e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.09595, "epoch": 0.50851743, "global_step/max_steps": "10935/21503", "percentage": "50.85%", "elapsed_time": "1d 7h 39m 25s", "remaining_time": "1d 6h 35m 40s"}
{"loss": 0.6599215, "token_acc": 0.83696099, "grad_norm": 7.47100687, "learning_rate": 5.27e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095975, "epoch": 0.50874995, "global_step/max_steps": "10940/21503", "percentage": "50.88%", "elapsed_time": "1d 7h 39m 47s", "remaining_time": "1d 6h 34m 19s"}
{"loss": 0.6189352, "token_acc": 0.84722222, "grad_norm": 7.93570662, "learning_rate": 5.26e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.096, "epoch": 0.50898247, "global_step/max_steps": "10945/21503", "percentage": "50.90%", "elapsed_time": "1d 7h 40m 10s", "remaining_time": "1d 6h 32m 59s"}
{"loss": 0.66234984, "token_acc": 0.82591876, "grad_norm": 7.15129709, "learning_rate": 5.26e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.096024, "epoch": 0.50921499, "global_step/max_steps": "10950/21503", "percentage": "50.92%", "elapsed_time": "1d 7h 40m 33s", "remaining_time": "1d 6h 31m 39s"}
{"eval_loss": 0.59663004, "eval_runtime": 293.6356, "eval_samples_per_second": 11.834, "eval_steps_per_second": 11.834, "epoch": 0.50921499, "global_step/max_steps": "10950/21503", "percentage": "50.92%", "elapsed_time": "1d 7h 45m 27s", "remaining_time": "1d 6h 36m 22s"}
{"loss": 0.62274647, "token_acc": 0.82528247, "grad_norm": 7.96453142, "learning_rate": 5.26e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095802, "epoch": 0.50944751, "global_step/max_steps": "10955/21503", "percentage": "50.95%", "elapsed_time": "1d 7h 45m 50s", "remaining_time": "1d 6h 35m 2s"}
{"loss": 0.57880793, "token_acc": 0.85087719, "grad_norm": 8.21861362, "learning_rate": 5.25e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095826, "epoch": 0.50968003, "global_step/max_steps": "10960/21503", "percentage": "50.97%", "elapsed_time": "1d 7h 46m 13s", "remaining_time": "1d 6h 33m 41s"}
{"loss": 0.64660687, "token_acc": 0.84496997, "grad_norm": 7.50087881, "learning_rate": 5.25e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095851, "epoch": 0.50991254, "global_step/max_steps": "10965/21503", "percentage": "50.99%", "elapsed_time": "1d 7h 46m 35s", "remaining_time": "1d 6h 32m 21s"}
{"loss": 0.69200001, "token_acc": 0.84279476, "grad_norm": 9.07535172, "learning_rate": 5.25e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095875, "epoch": 0.51014506, "global_step/max_steps": "10970/21503", "percentage": "51.02%", "elapsed_time": "1d 7h 46m 59s", "remaining_time": "1d 6h 31m 1s"}
{"loss": 0.78497281, "token_acc": 0.81007345, "grad_norm": 7.48638439, "learning_rate": 5.24e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.0959, "epoch": 0.51037758, "global_step/max_steps": "10975/21503", "percentage": "51.04%", "elapsed_time": "1d 7h 47m 21s", "remaining_time": "1d 6h 29m 40s"}
{"loss": 0.6393332, "token_acc": 0.83865053, "grad_norm": 8.97643948, "learning_rate": 5.24e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095924, "epoch": 0.5106101, "global_step/max_steps": "10980/21503", "percentage": "51.06%", "elapsed_time": "1d 7h 47m 45s", "remaining_time": "1d 6h 28m 20s"}
{"loss": 0.75202508, "token_acc": 0.81778584, "grad_norm": 5.60468006, "learning_rate": 5.23e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095949, "epoch": 0.51084262, "global_step/max_steps": "10985/21503", "percentage": "51.09%", "elapsed_time": "1d 7h 48m 8s", "remaining_time": "1d 6h 27m 0s"}
{"loss": 0.74322271, "token_acc": 0.82390608, "grad_norm": 6.23155499, "learning_rate": 5.23e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095973, "epoch": 0.51107514, "global_step/max_steps": "10990/21503", "percentage": "51.11%", "elapsed_time": "1d 7h 48m 30s", "remaining_time": "1d 6h 25m 40s"}
{"loss": 0.67539773, "token_acc": 0.82204677, "grad_norm": 6.98336411, "learning_rate": 5.23e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095998, "epoch": 0.51130765, "global_step/max_steps": "10995/21503", "percentage": "51.13%", "elapsed_time": "1d 7h 48m 53s", "remaining_time": "1d 6h 24m 20s"}
{"loss": 0.68623977, "token_acc": 0.82740954, "grad_norm": 7.33032036, "learning_rate": 5.22e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.096023, "epoch": 0.51154017, "global_step/max_steps": "11000/21503", "percentage": "51.16%", "elapsed_time": "1d 7h 49m 16s", "remaining_time": "1d 6h 23m 0s"}
{"eval_loss": 0.59904492, "eval_runtime": 293.7218, "eval_samples_per_second": 11.831, "eval_steps_per_second": 11.831, "epoch": 0.51154017, "global_step/max_steps": "11000/21503", "percentage": "51.16%", "elapsed_time": "1d 7h 54m 9s", "remaining_time": "1d 6h 27m 40s"}
{"loss": 0.58963223, "token_acc": 0.8254891, "grad_norm": 6.857234, "learning_rate": 5.22e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095801, "epoch": 0.51177269, "global_step/max_steps": "11005/21503", "percentage": "51.18%", "elapsed_time": "1d 7h 54m 33s", "remaining_time": "1d 6h 26m 20s"}
{"loss": 0.58652287, "token_acc": 0.84198646, "grad_norm": 7.77486134, "learning_rate": 5.21e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095825, "epoch": 0.51200521, "global_step/max_steps": "11010/21503", "percentage": "51.20%", "elapsed_time": "1d 7h 54m 56s", "remaining_time": "1d 6h 25m 1s"}
{"loss": 0.67166228, "token_acc": 0.83044316, "grad_norm": 8.88673687, "learning_rate": 5.21e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.09585, "epoch": 0.51223773, "global_step/max_steps": "11015/21503", "percentage": "51.23%", "elapsed_time": "1d 7h 55m 19s", "remaining_time": "1d 6h 23m 41s"}
{"loss": 0.64207554, "token_acc": 0.83766646, "grad_norm": 6.1452651, "learning_rate": 5.21e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095874, "epoch": 0.51247024, "global_step/max_steps": "11020/21503", "percentage": "51.25%", "elapsed_time": "1d 7h 55m 42s", "remaining_time": "1d 6h 22m 21s"}
{"loss": 0.66534839, "token_acc": 0.83666062, "grad_norm": 8.65272331, "learning_rate": 5.2e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095898, "epoch": 0.51270276, "global_step/max_steps": "11025/21503", "percentage": "51.27%", "elapsed_time": "1d 7h 56m 5s", "remaining_time": "1d 6h 21m 1s"}
{"loss": 0.67264204, "token_acc": 0.8368984, "grad_norm": 8.55153275, "learning_rate": 5.2e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095923, "epoch": 0.51293528, "global_step/max_steps": "11030/21503", "percentage": "51.30%", "elapsed_time": "1d 7h 56m 27s", "remaining_time": "1d 6h 19m 41s"}
{"loss": 0.51927433, "token_acc": 0.86952998, "grad_norm": 8.13207436, "learning_rate": 5.2e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095947, "epoch": 0.5131678, "global_step/max_steps": "11035/21503", "percentage": "51.32%", "elapsed_time": "1d 7h 56m 51s", "remaining_time": "1d 6h 18m 21s"}
{"loss": 0.67047338, "token_acc": 0.82002349, "grad_norm": 5.11624908, "learning_rate": 5.19e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095971, "epoch": 0.51340032, "global_step/max_steps": "11040/21503", "percentage": "51.34%", "elapsed_time": "1d 7h 57m 14s", "remaining_time": "1d 6h 17m 2s"}
{"loss": 0.67377644, "token_acc": 0.81839864, "grad_norm": 7.49602985, "learning_rate": 5.19e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095995, "epoch": 0.51363284, "global_step/max_steps": "11045/21503", "percentage": "51.36%", "elapsed_time": "1d 7h 57m 38s", "remaining_time": "1d 6h 15m 43s"}
{"loss": 0.68309216, "token_acc": 0.82839814, "grad_norm": 8.29166603, "learning_rate": 5.18e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.096019, "epoch": 0.51386535, "global_step/max_steps": "11050/21503", "percentage": "51.39%", "elapsed_time": "1d 7h 58m 0s", "remaining_time": "1d 6h 14m 23s"}
{"eval_loss": 0.59621727, "eval_runtime": 296.7148, "eval_samples_per_second": 11.712, "eval_steps_per_second": 11.712, "epoch": 0.51386535, "global_step/max_steps": "11050/21503", "percentage": "51.39%", "elapsed_time": "1d 8h 2m 57s", "remaining_time": "1d 6h 19m 4s"}
{"loss": 0.57334342, "token_acc": 0.8254608, "grad_norm": 8.21020222, "learning_rate": 5.18e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095795, "epoch": 0.51409787, "global_step/max_steps": "11055/21503", "percentage": "51.41%", "elapsed_time": "1d 8h 3m 22s", "remaining_time": "1d 6h 17m 45s"}
{"loss": 0.70046105, "token_acc": 0.82465057, "grad_norm": 7.53735876, "learning_rate": 5.18e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.09582, "epoch": 0.51433039, "global_step/max_steps": "11060/21503", "percentage": "51.43%", "elapsed_time": "1d 8h 3m 44s", "remaining_time": "1d 6h 16m 25s"}
{"loss": 0.6619822, "token_acc": 0.83041771, "grad_norm": 8.39875317, "learning_rate": 5.17e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095844, "epoch": 0.51456291, "global_step/max_steps": "11065/21503", "percentage": "51.46%", "elapsed_time": "1d 8h 4m 7s", "remaining_time": "1d 6h 15m 5s"}
{"loss": 0.61368566, "token_acc": 0.847487, "grad_norm": 4.92556524, "learning_rate": 5.17e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095868, "epoch": 0.51479543, "global_step/max_steps": "11070/21503", "percentage": "51.48%", "elapsed_time": "1d 8h 4m 30s", "remaining_time": "1d 6h 13m 46s"}
{"loss": 0.69143806, "token_acc": 0.81832444, "grad_norm": 6.47576952, "learning_rate": 5.16e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095893, "epoch": 0.51502795, "global_step/max_steps": "11075/21503", "percentage": "51.50%", "elapsed_time": "1d 8h 4m 53s", "remaining_time": "1d 6h 12m 26s"}
{"loss": 0.60142579, "token_acc": 0.85724534, "grad_norm": 6.65824795, "learning_rate": 5.16e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095916, "epoch": 0.51526046, "global_step/max_steps": "11080/21503", "percentage": "51.53%", "elapsed_time": "1d 8h 5m 16s", "remaining_time": "1d 6h 11m 7s"}
{"loss": 0.69530215, "token_acc": 0.82595047, "grad_norm": 7.9238615, "learning_rate": 5.16e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095941, "epoch": 0.51549298, "global_step/max_steps": "11085/21503", "percentage": "51.55%", "elapsed_time": "1d 8h 5m 39s", "remaining_time": "1d 6h 9m 47s"}
{"loss": 0.47870712, "token_acc": 0.87798495, "grad_norm": 5.60823345, "learning_rate": 5.15e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095965, "epoch": 0.5157255, "global_step/max_steps": "11090/21503", "percentage": "51.57%", "elapsed_time": "1d 8h 6m 2s", "remaining_time": "1d 6h 8m 28s"}
{"loss": 0.65159268, "token_acc": 0.81643411, "grad_norm": 6.86381292, "learning_rate": 5.15e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095989, "epoch": 0.51595802, "global_step/max_steps": "11095/21503", "percentage": "51.60%", "elapsed_time": "1d 8h 6m 25s", "remaining_time": "1d 6h 7m 8s"}
{"loss": 0.72097101, "token_acc": 0.83701777, "grad_norm": 9.98377037, "learning_rate": 5.15e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.096014, "epoch": 0.51619054, "global_step/max_steps": "11100/21503", "percentage": "51.62%", "elapsed_time": "1d 8h 6m 47s", "remaining_time": "1d 6h 5m 48s"}
{"eval_loss": 0.59515482, "eval_runtime": 292.8437, "eval_samples_per_second": 11.866, "eval_steps_per_second": 11.866, "epoch": 0.51619054, "global_step/max_steps": "11100/21503", "percentage": "51.62%", "elapsed_time": "1d 8h 11m 40s", "remaining_time": "1d 6h 10m 23s"}
{"loss": 0.59734936, "token_acc": 0.82551192, "grad_norm": 7.77969646, "learning_rate": 5.14e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095795, "epoch": 0.51642306, "global_step/max_steps": "11105/21503", "percentage": "51.64%", "elapsed_time": "1d 8h 12m 4s", "remaining_time": "1d 6h 9m 4s"}
{"loss": 0.68427382, "token_acc": 0.81429165, "grad_norm": 8.00535393, "learning_rate": 5.14e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095819, "epoch": 0.51665557, "global_step/max_steps": "11110/21503", "percentage": "51.67%", "elapsed_time": "1d 8h 12m 27s", "remaining_time": "1d 6h 7m 44s"}
{"loss": 0.61875596, "token_acc": 0.84541235, "grad_norm": 7.51013613, "learning_rate": 5.13e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095842, "epoch": 0.51688809, "global_step/max_steps": "11115/21503", "percentage": "51.69%", "elapsed_time": "1d 8h 12m 51s", "remaining_time": "1d 6h 6m 26s"}
{"loss": 0.67189054, "token_acc": 0.83019415, "grad_norm": 7.75509167, "learning_rate": 5.13e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095866, "epoch": 0.51712061, "global_step/max_steps": "11120/21503", "percentage": "51.71%", "elapsed_time": "1d 8h 13m 14s", "remaining_time": "1d 6h 5m 7s"}
{"loss": 0.64814739, "token_acc": 0.83748222, "grad_norm": 6.52587891, "learning_rate": 5.13e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095891, "epoch": 0.51735313, "global_step/max_steps": "11125/21503", "percentage": "51.74%", "elapsed_time": "1d 8h 13m 37s", "remaining_time": "1d 6h 3m 47s"}
{"loss": 0.64706092, "token_acc": 0.84112872, "grad_norm": 9.18529224, "learning_rate": 5.12e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095915, "epoch": 0.51758565, "global_step/max_steps": "11130/21503", "percentage": "51.76%", "elapsed_time": "1d 8h 14m 0s", "remaining_time": "1d 6h 2m 27s"}
{"loss": 0.69267993, "token_acc": 0.82727896, "grad_norm": 6.86017752, "learning_rate": 5.12e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.09594, "epoch": 0.51781816, "global_step/max_steps": "11135/21503", "percentage": "51.78%", "elapsed_time": "1d 8h 14m 22s", "remaining_time": "1d 6h 1m 7s"}
{"loss": 0.51683712, "token_acc": 0.8749556, "grad_norm": 6.13983393, "learning_rate": 5.11e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095964, "epoch": 0.51805068, "global_step/max_steps": "11140/21503", "percentage": "51.81%", "elapsed_time": "1d 8h 14m 45s", "remaining_time": "1d 5h 59m 48s"}
{"loss": 0.70395269, "token_acc": 0.82023911, "grad_norm": 7.04421854, "learning_rate": 5.11e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095988, "epoch": 0.5182832, "global_step/max_steps": "11145/21503", "percentage": "51.83%", "elapsed_time": "1d 8h 15m 8s", "remaining_time": "1d 5h 58m 29s"}
{"loss": 0.66302991, "token_acc": 0.84202085, "grad_norm": 8.80414391, "learning_rate": 5.11e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.096012, "epoch": 0.51851572, "global_step/max_steps": "11150/21503", "percentage": "51.85%", "elapsed_time": "1d 8h 15m 30s", "remaining_time": "1d 5h 57m 9s"}
{"eval_loss": 0.59498638, "eval_runtime": 298.501, "eval_samples_per_second": 11.642, "eval_steps_per_second": 11.642, "epoch": 0.51851572, "global_step/max_steps": "11150/21503", "percentage": "51.85%", "elapsed_time": "1d 8h 20m 29s", "remaining_time": "1d 6h 1m 46s"}
{"loss": 0.6842433, "token_acc": 0.8257058, "grad_norm": 7.55370283, "learning_rate": 5.1e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095789, "epoch": 0.51874824, "global_step/max_steps": "11155/21503", "percentage": "51.88%", "elapsed_time": "1d 8h 20m 53s", "remaining_time": "1d 6h 0m 29s"}
{"loss": 0.68843007, "token_acc": 0.83140694, "grad_norm": 7.63083649, "learning_rate": 5.1e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095813, "epoch": 0.51898076, "global_step/max_steps": "11160/21503", "percentage": "51.90%", "elapsed_time": "1d 8h 21m 17s", "remaining_time": "1d 5h 59m 10s"}
{"loss": 0.59247179, "token_acc": 0.845838, "grad_norm": 6.86963367, "learning_rate": 5.1e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095837, "epoch": 0.51921327, "global_step/max_steps": "11165/21503", "percentage": "51.92%", "elapsed_time": "1d 8h 21m 39s", "remaining_time": "1d 5h 57m 50s"}
{"loss": 0.70528159, "token_acc": 0.83195691, "grad_norm": 7.15024137, "learning_rate": 5.09e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095861, "epoch": 0.51944579, "global_step/max_steps": "11170/21503", "percentage": "51.95%", "elapsed_time": "1d 8h 22m 2s", "remaining_time": "1d 5h 56m 30s"}
{"loss": 0.65151262, "token_acc": 0.83380884, "grad_norm": 7.9684186, "learning_rate": 5.09e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095885, "epoch": 0.51967831, "global_step/max_steps": "11175/21503", "percentage": "51.97%", "elapsed_time": "1d 8h 22m 25s", "remaining_time": "1d 5h 55m 11s"}
{"loss": 0.61262965, "token_acc": 0.85522023, "grad_norm": 8.40583324, "learning_rate": 5.08e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095909, "epoch": 0.51991083, "global_step/max_steps": "11180/21503", "percentage": "51.99%", "elapsed_time": "1d 8h 22m 48s", "remaining_time": "1d 5h 53m 53s"}
{"loss": 0.6180336, "token_acc": 0.84219734, "grad_norm": 7.45015192, "learning_rate": 5.08e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095933, "epoch": 0.52014335, "global_step/max_steps": "11185/21503", "percentage": "52.02%", "elapsed_time": "1d 8h 23m 11s", "remaining_time": "1d 5h 52m 33s"}
{"loss": 0.65314426, "token_acc": 0.83416726, "grad_norm": 6.71384573, "learning_rate": 5.08e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095957, "epoch": 0.52037587, "global_step/max_steps": "11190/21503", "percentage": "52.04%", "elapsed_time": "1d 8h 23m 34s", "remaining_time": "1d 5h 51m 15s"}
{"loss": 0.74372892, "token_acc": 0.81607832, "grad_norm": 8.38123226, "learning_rate": 5.07e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095981, "epoch": 0.52060838, "global_step/max_steps": "11195/21503", "percentage": "52.06%", "elapsed_time": "1d 8h 23m 57s", "remaining_time": "1d 5h 49m 56s"}
{"loss": 0.75987358, "token_acc": 0.81870711, "grad_norm": 7.85769129, "learning_rate": 5.07e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.096004, "epoch": 0.5208409, "global_step/max_steps": "11200/21503", "percentage": "52.09%", "elapsed_time": "1d 8h 24m 21s", "remaining_time": "1d 5h 48m 37s"}
{"eval_loss": 0.59624481, "eval_runtime": 296.2073, "eval_samples_per_second": 11.732, "eval_steps_per_second": 11.732, "epoch": 0.5208409, "global_step/max_steps": "11200/21503", "percentage": "52.09%", "elapsed_time": "1d 8h 29m 17s", "remaining_time": "1d 5h 53m 10s"}
{"loss": 0.65609112, "token_acc": 0.82495998, "grad_norm": 7.90691328, "learning_rate": 5.06e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095784, "epoch": 0.52107342, "global_step/max_steps": "11205/21503", "percentage": "52.11%", "elapsed_time": "1d 8h 29m 41s", "remaining_time": "1d 5h 51m 52s"}
{"loss": 0.74308839, "token_acc": 0.79775641, "grad_norm": 6.18092585, "learning_rate": 5.06e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095808, "epoch": 0.52130594, "global_step/max_steps": "11210/21503", "percentage": "52.13%", "elapsed_time": "1d 8h 30m 4s", "remaining_time": "1d 5h 50m 33s"}
{"loss": 0.50300665, "token_acc": 0.8800136, "grad_norm": 9.74209785, "learning_rate": 5.06e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095832, "epoch": 0.52153846, "global_step/max_steps": "11215/21503", "percentage": "52.16%", "elapsed_time": "1d 8h 30m 27s", "remaining_time": "1d 5h 49m 14s"}
{"loss": 0.55861607, "token_acc": 0.86078821, "grad_norm": 7.67693329, "learning_rate": 5.05e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095856, "epoch": 0.52177098, "global_step/max_steps": "11220/21503", "percentage": "52.18%", "elapsed_time": "1d 8h 30m 49s", "remaining_time": "1d 5h 47m 54s"}
{"loss": 0.74189839, "token_acc": 0.80170576, "grad_norm": 8.4166317, "learning_rate": 5.05e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095881, "epoch": 0.52200349, "global_step/max_steps": "11225/21503", "percentage": "52.20%", "elapsed_time": "1d 8h 31m 12s", "remaining_time": "1d 5h 46m 35s"}
{"loss": 0.70044241, "token_acc": 0.82338654, "grad_norm": 5.84184837, "learning_rate": 5.05e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095905, "epoch": 0.52223601, "global_step/max_steps": "11230/21503", "percentage": "52.23%", "elapsed_time": "1d 8h 31m 35s", "remaining_time": "1d 5h 45m 16s"}
{"loss": 0.66463985, "token_acc": 0.83070486, "grad_norm": 9.23090172, "learning_rate": 5.04e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095929, "epoch": 0.52246853, "global_step/max_steps": "11235/21503", "percentage": "52.25%", "elapsed_time": "1d 8h 31m 57s", "remaining_time": "1d 5h 43m 57s"}
{"loss": 0.5914628, "token_acc": 0.85423603, "grad_norm": 8.23694897, "learning_rate": 5.04e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095953, "epoch": 0.52270105, "global_step/max_steps": "11240/21503", "percentage": "52.27%", "elapsed_time": "1d 8h 32m 20s", "remaining_time": "1d 5h 42m 38s"}
{"loss": 0.7465477, "token_acc": 0.8043956, "grad_norm": 6.67723083, "learning_rate": 5.03e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095977, "epoch": 0.52293357, "global_step/max_steps": "11245/21503", "percentage": "52.30%", "elapsed_time": "1d 8h 32m 43s", "remaining_time": "1d 5h 41m 19s"}
{"loss": 0.60813313, "token_acc": 0.8427753, "grad_norm": 7.63891077, "learning_rate": 5.03e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.096001, "epoch": 0.52316608, "global_step/max_steps": "11250/21503", "percentage": "52.32%", "elapsed_time": "1d 8h 33m 5s", "remaining_time": "1d 5h 40m 0s"}
{"eval_loss": 0.59219724, "eval_runtime": 290.7907, "eval_samples_per_second": 11.95, "eval_steps_per_second": 11.95, "epoch": 0.52316608, "global_step/max_steps": "11250/21503", "percentage": "52.32%", "elapsed_time": "1d 8h 37m 56s", "remaining_time": "1d 5h 44m 25s"}
{"loss": 0.7295114, "token_acc": 0.82562368, "grad_norm": 7.56006622, "learning_rate": 5.03e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095787, "epoch": 0.5233986, "global_step/max_steps": "11255/21503", "percentage": "52.34%", "elapsed_time": "1d 8h 38m 20s", "remaining_time": "1d 5h 43m 7s"}
{"loss": 0.70387559, "token_acc": 0.83306056, "grad_norm": 6.87358141, "learning_rate": 5.02e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095811, "epoch": 0.52363112, "global_step/max_steps": "11260/21503", "percentage": "52.36%", "elapsed_time": "1d 8h 38m 42s", "remaining_time": "1d 5h 41m 48s"}
{"loss": 0.66314478, "token_acc": 0.83171521, "grad_norm": 6.96904612, "learning_rate": 5.02e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095836, "epoch": 0.52386364, "global_step/max_steps": "11265/21503", "percentage": "52.39%", "elapsed_time": "1d 8h 39m 4s", "remaining_time": "1d 5h 40m 28s"}
{"loss": 0.62367196, "token_acc": 0.82807669, "grad_norm": 6.52167797, "learning_rate": 5.01e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095859, "epoch": 0.52409616, "global_step/max_steps": "11270/21503", "percentage": "52.41%", "elapsed_time": "1d 8h 39m 28s", "remaining_time": "1d 5h 39m 10s"}
{"loss": 0.62853408, "token_acc": 0.83756906, "grad_norm": 9.97301769, "learning_rate": 5.01e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095883, "epoch": 0.52432868, "global_step/max_steps": "11275/21503", "percentage": "52.43%", "elapsed_time": "1d 8h 39m 50s", "remaining_time": "1d 5h 37m 51s"}
{"loss": 0.6574904, "token_acc": 0.83709913, "grad_norm": 9.72734261, "learning_rate": 5.01e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095907, "epoch": 0.52456119, "global_step/max_steps": "11280/21503", "percentage": "52.46%", "elapsed_time": "1d 8h 40m 13s", "remaining_time": "1d 5h 36m 32s"}
{"loss": 0.63723121, "token_acc": 0.8438914, "grad_norm": 8.46003628, "learning_rate": 5e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095931, "epoch": 0.52479371, "global_step/max_steps": "11285/21503", "percentage": "52.48%", "elapsed_time": "1d 8h 40m 36s", "remaining_time": "1d 5h 35m 13s"}
{"loss": 0.69300594, "token_acc": 0.82481752, "grad_norm": 7.1250701, "learning_rate": 5e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095955, "epoch": 0.52502623, "global_step/max_steps": "11290/21503", "percentage": "52.50%", "elapsed_time": "1d 8h 40m 58s", "remaining_time": "1d 5h 33m 54s"}
{"loss": 0.76080308, "token_acc": 0.81326561, "grad_norm": 4.94678402, "learning_rate": 5e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095979, "epoch": 0.52525875, "global_step/max_steps": "11295/21503", "percentage": "52.53%", "elapsed_time": "1d 8h 41m 22s", "remaining_time": "1d 5h 32m 36s"}
{"loss": 0.74356985, "token_acc": 0.81542969, "grad_norm": 6.03840351, "learning_rate": 4.99e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.096003, "epoch": 0.52549127, "global_step/max_steps": "11300/21503", "percentage": "52.55%", "elapsed_time": "1d 8h 41m 44s", "remaining_time": "1d 5h 31m 17s"}
{"eval_loss": 0.59520018, "eval_runtime": 291.1034, "eval_samples_per_second": 11.937, "eval_steps_per_second": 11.937, "epoch": 0.52549127, "global_step/max_steps": "11300/21503", "percentage": "52.55%", "elapsed_time": "1d 8h 46m 35s", "remaining_time": "1d 5h 35m 40s"}
{"loss": 0.57464104, "token_acc": 0.82641346, "grad_norm": 8.40684032, "learning_rate": 4.99e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.09579, "epoch": 0.52572379, "global_step/max_steps": "11305/21503", "percentage": "52.57%", "elapsed_time": "1d 8h 46m 58s", "remaining_time": "1d 5h 34m 22s"}
{"loss": 0.68614936, "token_acc": 0.82267909, "grad_norm": 7.57234526, "learning_rate": 4.98e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095813, "epoch": 0.5259563, "global_step/max_steps": "11310/21503", "percentage": "52.60%", "elapsed_time": "1d 8h 47m 22s", "remaining_time": "1d 5h 33m 3s"}
{"loss": 0.64272532, "token_acc": 0.84241164, "grad_norm": 7.23248529, "learning_rate": 4.98e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095837, "epoch": 0.52618882, "global_step/max_steps": "11315/21503", "percentage": "52.62%", "elapsed_time": "1d 8h 47m 44s", "remaining_time": "1d 5h 31m 44s"}
{"loss": 0.73656292, "token_acc": 0.82388179, "grad_norm": 6.93946934, "learning_rate": 4.98e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095861, "epoch": 0.52642134, "global_step/max_steps": "11320/21503", "percentage": "52.64%", "elapsed_time": "1d 8h 48m 7s", "remaining_time": "1d 5h 30m 26s"}
{"loss": 0.7492373, "token_acc": 0.81896182, "grad_norm": 9.32814503, "learning_rate": 4.97e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095885, "epoch": 0.52665386, "global_step/max_steps": "11325/21503", "percentage": "52.67%", "elapsed_time": "1d 8h 48m 30s", "remaining_time": "1d 5h 29m 7s"}
{"loss": 0.6783175, "token_acc": 0.84136691, "grad_norm": 5.63763857, "learning_rate": 4.97e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095909, "epoch": 0.52688638, "global_step/max_steps": "11330/21503", "percentage": "52.69%", "elapsed_time": "1d 8h 48m 52s", "remaining_time": "1d 5h 27m 49s"}
{"loss": 0.6275362, "token_acc": 0.84489051, "grad_norm": 6.44747734, "learning_rate": 4.97e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095933, "epoch": 0.5271189, "global_step/max_steps": "11335/21503", "percentage": "52.71%", "elapsed_time": "1d 8h 49m 14s", "remaining_time": "1d 5h 26m 30s"}
{"loss": 0.68387699, "token_acc": 0.80778739, "grad_norm": 6.67728901, "learning_rate": 4.96e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095956, "epoch": 0.52735141, "global_step/max_steps": "11340/21503", "percentage": "52.74%", "elapsed_time": "1d 8h 49m 38s", "remaining_time": "1d 5h 25m 12s"}
{"loss": 0.67761149, "token_acc": 0.8311828, "grad_norm": 8.42552662, "learning_rate": 4.96e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.09598, "epoch": 0.52758393, "global_step/max_steps": "11345/21503", "percentage": "52.76%", "elapsed_time": "1d 8h 50m 1s", "remaining_time": "1d 5h 23m 54s"}
{"loss": 0.62117338, "token_acc": 0.8471243, "grad_norm": 6.21077156, "learning_rate": 4.95e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.096004, "epoch": 0.52781645, "global_step/max_steps": "11350/21503", "percentage": "52.78%", "elapsed_time": "1d 8h 50m 23s", "remaining_time": "1d 5h 22m 35s"}
{"eval_loss": 0.59343064, "eval_runtime": 291.2941, "eval_samples_per_second": 11.93, "eval_steps_per_second": 11.93, "epoch": 0.52781645, "global_step/max_steps": "11350/21503", "percentage": "52.78%", "elapsed_time": "1d 8h 55m 14s", "remaining_time": "1d 5h 26m 55s"}
{"loss": 0.67204642, "token_acc": 0.82621751, "grad_norm": 9.92587185, "learning_rate": 4.95e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095792, "epoch": 0.52804897, "global_step/max_steps": "11355/21503", "percentage": "52.81%", "elapsed_time": "1d 8h 55m 38s", "remaining_time": "1d 5h 25m 38s"}
{"loss": 0.62494755, "token_acc": 0.84584806, "grad_norm": 9.35028934, "learning_rate": 4.95e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095815, "epoch": 0.52828149, "global_step/max_steps": "11360/21503", "percentage": "52.83%", "elapsed_time": "1d 8h 56m 1s", "remaining_time": "1d 5h 24m 19s"}
{"loss": 0.71657696, "token_acc": 0.82180451, "grad_norm": 9.15757942, "learning_rate": 4.94e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095839, "epoch": 0.528514, "global_step/max_steps": "11365/21503", "percentage": "52.85%", "elapsed_time": "1d 8h 56m 24s", "remaining_time": "1d 5h 23m 1s"}
{"loss": 0.70716701, "token_acc": 0.81726833, "grad_norm": 8.20099735, "learning_rate": 4.94e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095863, "epoch": 0.52874652, "global_step/max_steps": "11370/21503", "percentage": "52.88%", "elapsed_time": "1d 8h 56m 47s", "remaining_time": "1d 5h 21m 43s"}
{"loss": 0.57381454, "token_acc": 0.86716792, "grad_norm": 6.97262621, "learning_rate": 4.93e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095887, "epoch": 0.52897904, "global_step/max_steps": "11375/21503", "percentage": "52.90%", "elapsed_time": "1d 8h 57m 9s", "remaining_time": "1d 5h 20m 24s"}
{"loss": 0.65404334, "token_acc": 0.83756708, "grad_norm": 6.22920322, "learning_rate": 4.93e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095909, "epoch": 0.52921156, "global_step/max_steps": "11380/21503", "percentage": "52.92%", "elapsed_time": "1d 8h 57m 33s", "remaining_time": "1d 5h 19m 7s"}
{"loss": 0.62071614, "token_acc": 0.84584401, "grad_norm": 7.37665892, "learning_rate": 4.93e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095933, "epoch": 0.52944408, "global_step/max_steps": "11385/21503", "percentage": "52.95%", "elapsed_time": "1d 8h 57m 56s", "remaining_time": "1d 5h 17m 49s"}
{"loss": 0.58333073, "token_acc": 0.84776613, "grad_norm": 9.0491066, "learning_rate": 4.92e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095957, "epoch": 0.5296766, "global_step/max_steps": "11390/21503", "percentage": "52.97%", "elapsed_time": "1d 8h 58m 19s", "remaining_time": "1d 5h 16m 31s"}
{"loss": 0.61904039, "token_acc": 0.83113456, "grad_norm": 8.15107918, "learning_rate": 4.92e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.09598, "epoch": 0.52990911, "global_step/max_steps": "11395/21503", "percentage": "52.99%", "elapsed_time": "1d 8h 58m 42s", "remaining_time": "1d 5h 15m 13s"}
{"loss": 0.61192026, "token_acc": 0.84711643, "grad_norm": 6.33862591, "learning_rate": 4.92e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.096004, "epoch": 0.53014163, "global_step/max_steps": "11400/21503", "percentage": "53.02%", "elapsed_time": "1d 8h 59m 5s", "remaining_time": "1d 5h 13m 55s"}
{"eval_loss": 0.59219909, "eval_runtime": 291.4397, "eval_samples_per_second": 11.924, "eval_steps_per_second": 11.924, "epoch": 0.53014163, "global_step/max_steps": "11400/21503", "percentage": "53.02%", "elapsed_time": "1d 9h 3m 56s", "remaining_time": "1d 5h 18m 13s"}
{"loss": 0.56256242, "token_acc": 0.8265072, "grad_norm": 7.00453806, "learning_rate": 4.91e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095792, "epoch": 0.53037415, "global_step/max_steps": "11405/21503", "percentage": "53.04%", "elapsed_time": "1d 9h 4m 20s", "remaining_time": "1d 5h 16m 55s"}
{"loss": 0.66454501, "token_acc": 0.81840362, "grad_norm": 7.33757019, "learning_rate": 4.91e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095815, "epoch": 0.53060667, "global_step/max_steps": "11410/21503", "percentage": "53.06%", "elapsed_time": "1d 9h 4m 42s", "remaining_time": "1d 5h 15m 37s"}
{"loss": 0.67872601, "token_acc": 0.82796032, "grad_norm": 7.54811478, "learning_rate": 4.9e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095839, "epoch": 0.53083919, "global_step/max_steps": "11415/21503", "percentage": "53.09%", "elapsed_time": "1d 9h 5m 5s", "remaining_time": "1d 5h 14m 19s"}
{"loss": 0.70734243, "token_acc": 0.82931354, "grad_norm": 6.17782307, "learning_rate": 4.9e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095863, "epoch": 0.53107171, "global_step/max_steps": "11420/21503", "percentage": "53.11%", "elapsed_time": "1d 9h 5m 28s", "remaining_time": "1d 5h 13m 1s"}
{"loss": 0.68526554, "token_acc": 0.83436087, "grad_norm": 6.37184525, "learning_rate": 4.9e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095887, "epoch": 0.53130422, "global_step/max_steps": "11425/21503", "percentage": "53.13%", "elapsed_time": "1d 9h 5m 50s", "remaining_time": "1d 5h 11m 43s"}
{"loss": 0.65680037, "token_acc": 0.84110886, "grad_norm": 4.98555946, "learning_rate": 4.89e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.09591, "epoch": 0.53153674, "global_step/max_steps": "11430/21503", "percentage": "53.16%", "elapsed_time": "1d 9h 6m 13s", "remaining_time": "1d 5h 10m 24s"}
{"loss": 0.59472084, "token_acc": 0.85800086, "grad_norm": 8.73669434, "learning_rate": 4.89e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095934, "epoch": 0.53176926, "global_step/max_steps": "11435/21503", "percentage": "53.18%", "elapsed_time": "1d 9h 6m 35s", "remaining_time": "1d 5h 9m 6s"}
{"loss": 0.65200281, "token_acc": 0.85295196, "grad_norm": 8.29121685, "learning_rate": 4.88e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095958, "epoch": 0.53200178, "global_step/max_steps": "11440/21503", "percentage": "53.20%", "elapsed_time": "1d 9h 6m 58s", "remaining_time": "1d 5h 7m 48s"}
{"loss": 0.5053174, "token_acc": 0.87433962, "grad_norm": 7.76177597, "learning_rate": 4.88e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095982, "epoch": 0.5322343, "global_step/max_steps": "11445/21503", "percentage": "53.23%", "elapsed_time": "1d 9h 7m 20s", "remaining_time": "1d 5h 6m 30s"}
{"loss": 0.51610894, "token_acc": 0.85368537, "grad_norm": 7.20860004, "learning_rate": 4.88e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.096005, "epoch": 0.53246682, "global_step/max_steps": "11450/21503", "percentage": "53.25%", "elapsed_time": "1d 9h 7m 44s", "remaining_time": "1d 5h 5m 12s"}
{"eval_loss": 0.59299272, "eval_runtime": 290.0243, "eval_samples_per_second": 11.982, "eval_steps_per_second": 11.982, "epoch": 0.53246682, "global_step/max_steps": "11450/21503", "percentage": "53.25%", "elapsed_time": "1d 9h 12m 34s", "remaining_time": "1d 5h 9m 27s"}
{"loss": 0.65296464, "token_acc": 0.82631238, "grad_norm": 8.39334774, "learning_rate": 4.87e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095796, "epoch": 0.53269933, "global_step/max_steps": "11455/21503", "percentage": "53.27%", "elapsed_time": "1d 9h 12m 57s", "remaining_time": "1d 5h 8m 9s"}
{"loss": 0.75715899, "token_acc": 0.82449726, "grad_norm": 7.04005623, "learning_rate": 4.87e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095819, "epoch": 0.53293185, "global_step/max_steps": "11460/21503", "percentage": "53.29%", "elapsed_time": "1d 9h 13m 19s", "remaining_time": "1d 5h 6m 51s"}
{"loss": 0.5826334, "token_acc": 0.83913765, "grad_norm": 6.09945822, "learning_rate": 4.87e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095843, "epoch": 0.53316437, "global_step/max_steps": "11465/21503", "percentage": "53.32%", "elapsed_time": "1d 9h 13m 43s", "remaining_time": "1d 5h 5m 34s"}
{"loss": 0.64259624, "token_acc": 0.84352579, "grad_norm": 8.370718, "learning_rate": 4.86e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095866, "epoch": 0.53339689, "global_step/max_steps": "11470/21503", "percentage": "53.34%", "elapsed_time": "1d 9h 14m 6s", "remaining_time": "1d 5h 4m 16s"}
{"loss": 0.64204345, "token_acc": 0.84337784, "grad_norm": 8.30896854, "learning_rate": 4.86e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095888, "epoch": 0.53362941, "global_step/max_steps": "11475/21503", "percentage": "53.36%", "elapsed_time": "1d 9h 14m 30s", "remaining_time": "1d 5h 2m 59s"}
{"loss": 0.66278381, "token_acc": 0.83819018, "grad_norm": 6.8845458, "learning_rate": 4.85e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095912, "epoch": 0.53386192, "global_step/max_steps": "11480/21503", "percentage": "53.39%", "elapsed_time": "1d 9h 14m 53s", "remaining_time": "1d 5h 1m 42s"}
{"loss": 0.65206895, "token_acc": 0.84556314, "grad_norm": 8.79321289, "learning_rate": 4.85e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095936, "epoch": 0.53409444, "global_step/max_steps": "11485/21503", "percentage": "53.41%", "elapsed_time": "1d 9h 15m 15s", "remaining_time": "1d 5h 0m 23s"}
{"loss": 0.58191934, "token_acc": 0.85105634, "grad_norm": 9.04566193, "learning_rate": 4.85e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095959, "epoch": 0.53432696, "global_step/max_steps": "11490/21503", "percentage": "53.43%", "elapsed_time": "1d 9h 15m 38s", "remaining_time": "1d 4h 59m 6s"}
{"loss": 0.70854416, "token_acc": 0.81474334, "grad_norm": 7.69013453, "learning_rate": 4.84e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095983, "epoch": 0.53455948, "global_step/max_steps": "11495/21503", "percentage": "53.46%", "elapsed_time": "1d 9h 16m 1s", "remaining_time": "1d 4h 57m 48s"}
{"loss": 0.66161108, "token_acc": 0.82221434, "grad_norm": 7.20871544, "learning_rate": 4.84e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.096006, "epoch": 0.534792, "global_step/max_steps": "11500/21503", "percentage": "53.48%", "elapsed_time": "1d 9h 16m 23s", "remaining_time": "1d 4h 56m 30s"}
{"eval_loss": 0.59301919, "eval_runtime": 290.603, "eval_samples_per_second": 11.958, "eval_steps_per_second": 11.958, "epoch": 0.534792, "global_step/max_steps": "11500/21503", "percentage": "53.48%", "elapsed_time": "1d 9h 21m 13s", "remaining_time": "1d 5h 0m 43s"}
{"loss": 0.63947487, "token_acc": 0.82675754, "grad_norm": 6.3961401, "learning_rate": 4.83e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095797, "epoch": 0.53502452, "global_step/max_steps": "11505/21503", "percentage": "53.50%", "elapsed_time": "1d 9h 21m 36s", "remaining_time": "1d 4h 59m 25s"}
{"loss": 0.63116646, "token_acc": 0.82890652, "grad_norm": 7.51082373, "learning_rate": 4.83e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095821, "epoch": 0.53525703, "global_step/max_steps": "11510/21503", "percentage": "53.53%", "elapsed_time": "1d 9h 21m 59s", "remaining_time": "1d 4h 58m 7s"}
{"loss": 0.81645269, "token_acc": 0.81567231, "grad_norm": 7.69300842, "learning_rate": 4.83e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095844, "epoch": 0.53548955, "global_step/max_steps": "11515/21503", "percentage": "53.55%", "elapsed_time": "1d 9h 22m 22s", "remaining_time": "1d 4h 56m 50s"}
{"loss": 0.7618259, "token_acc": 0.82301846, "grad_norm": 9.58385468, "learning_rate": 4.82e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095868, "epoch": 0.53572207, "global_step/max_steps": "11520/21503", "percentage": "53.57%", "elapsed_time": "1d 9h 22m 45s", "remaining_time": "1d 4h 55m 32s"}
{"loss": 0.68415899, "token_acc": 0.83219066, "grad_norm": 7.0624609, "learning_rate": 4.82e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095891, "epoch": 0.53595459, "global_step/max_steps": "11525/21503", "percentage": "53.60%", "elapsed_time": "1d 9h 23m 8s", "remaining_time": "1d 4h 54m 15s"}
{"loss": 0.73561354, "token_acc": 0.81561584, "grad_norm": 9.6605978, "learning_rate": 4.82e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095914, "epoch": 0.53618711, "global_step/max_steps": "11530/21503", "percentage": "53.62%", "elapsed_time": "1d 9h 23m 31s", "remaining_time": "1d 4h 52m 58s"}
{"loss": 0.6264122, "token_acc": 0.83827567, "grad_norm": 5.60949278, "learning_rate": 4.81e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095938, "epoch": 0.53641963, "global_step/max_steps": "11535/21503", "percentage": "53.64%", "elapsed_time": "1d 9h 23m 54s", "remaining_time": "1d 4h 51m 40s"}
{"loss": 0.59421821, "token_acc": 0.85255799, "grad_norm": 8.03640079, "learning_rate": 4.81e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095961, "epoch": 0.53665214, "global_step/max_steps": "11540/21503", "percentage": "53.67%", "elapsed_time": "1d 9h 24m 17s", "remaining_time": "1d 4h 50m 23s"}
{"loss": 0.74264035, "token_acc": 0.8122102, "grad_norm": 6.38782263, "learning_rate": 4.8e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095984, "epoch": 0.53688466, "global_step/max_steps": "11545/21503", "percentage": "53.69%", "elapsed_time": "1d 9h 24m 40s", "remaining_time": "1d 4h 49m 6s"}
{"loss": 0.64989605, "token_acc": 0.82401575, "grad_norm": 7.0807333, "learning_rate": 4.8e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.096007, "epoch": 0.53711718, "global_step/max_steps": "11550/21503", "percentage": "53.71%", "elapsed_time": "1d 9h 25m 3s", "remaining_time": "1d 4h 47m 48s"}
{"eval_loss": 0.59186286, "eval_runtime": 288.3253, "eval_samples_per_second": 12.052, "eval_steps_per_second": 12.052, "epoch": 0.53711718, "global_step/max_steps": "11550/21503", "percentage": "53.71%", "elapsed_time": "1d 9h 29m 51s", "remaining_time": "1d 4h 51m 57s"}
{"loss": 0.5990891, "token_acc": 0.82642924, "grad_norm": 9.15064049, "learning_rate": 4.8e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095801, "epoch": 0.5373497, "global_step/max_steps": "11555/21503", "percentage": "53.74%", "elapsed_time": "1d 9h 30m 13s", "remaining_time": "1d 4h 50m 39s"}
{"loss": 0.63915305, "token_acc": 0.83913193, "grad_norm": 8.702281, "learning_rate": 4.79e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095825, "epoch": 0.53758222, "global_step/max_steps": "11560/21503", "percentage": "53.76%", "elapsed_time": "1d 9h 30m 36s", "remaining_time": "1d 4h 49m 22s"}
{"loss": 0.78984575, "token_acc": 0.81296081, "grad_norm": 8.72360325, "learning_rate": 4.79e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095849, "epoch": 0.53781474, "global_step/max_steps": "11565/21503", "percentage": "53.78%", "elapsed_time": "1d 9h 30m 58s", "remaining_time": "1d 4h 48m 3s"}
{"loss": 0.61949434, "token_acc": 0.84422442, "grad_norm": 7.3179636, "learning_rate": 4.78e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095872, "epoch": 0.53804725, "global_step/max_steps": "11570/21503", "percentage": "53.81%", "elapsed_time": "1d 9h 31m 21s", "remaining_time": "1d 4h 46m 46s"}
{"loss": 0.67923841, "token_acc": 0.83994126, "grad_norm": 10.04311466, "learning_rate": 4.78e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095895, "epoch": 0.53827977, "global_step/max_steps": "11575/21503", "percentage": "53.83%", "elapsed_time": "1d 9h 31m 44s", "remaining_time": "1d 4h 45m 29s"}
{"loss": 0.58847098, "token_acc": 0.85623487, "grad_norm": 6.0993495, "learning_rate": 4.78e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095918, "epoch": 0.53851229, "global_step/max_steps": "11580/21503", "percentage": "53.85%", "elapsed_time": "1d 9h 32m 7s", "remaining_time": "1d 4h 44m 12s"}
{"loss": 0.59780006, "token_acc": 0.85560731, "grad_norm": 9.13571453, "learning_rate": 4.77e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095942, "epoch": 0.53874481, "global_step/max_steps": "11585/21503", "percentage": "53.88%", "elapsed_time": "1d 9h 32m 29s", "remaining_time": "1d 4h 42m 54s"}
{"loss": 0.60942802, "token_acc": 0.84485724, "grad_norm": 6.8902359, "learning_rate": 4.77e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095966, "epoch": 0.53897733, "global_step/max_steps": "11590/21503", "percentage": "53.90%", "elapsed_time": "1d 9h 32m 52s", "remaining_time": "1d 4h 41m 37s"}
{"loss": 0.55535479, "token_acc": 0.86365242, "grad_norm": 7.56653929, "learning_rate": 4.77e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095988, "epoch": 0.53920984, "global_step/max_steps": "11595/21503", "percentage": "53.92%", "elapsed_time": "1d 9h 33m 15s", "remaining_time": "1d 4h 40m 20s"}
{"loss": 0.62864151, "token_acc": 0.83696348, "grad_norm": 7.85557508, "learning_rate": 4.76e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.096012, "epoch": 0.53944236, "global_step/max_steps": "11600/21503", "percentage": "53.95%", "elapsed_time": "1d 9h 33m 38s", "remaining_time": "1d 4h 39m 3s"}
{"eval_loss": 0.59548861, "eval_runtime": 290.9344, "eval_samples_per_second": 11.944, "eval_steps_per_second": 11.944, "epoch": 0.53944236, "global_step/max_steps": "11600/21503", "percentage": "53.95%", "elapsed_time": "1d 9h 38m 29s", "remaining_time": "1d 4h 43m 11s"}
{"loss": 0.61335373, "token_acc": 0.82691783, "grad_norm": 7.70735216, "learning_rate": 4.76e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095804, "epoch": 0.53967488, "global_step/max_steps": "11605/21503", "percentage": "53.97%", "elapsed_time": "1d 9h 38m 52s", "remaining_time": "1d 4h 41m 55s"}
{"loss": 0.63418174, "token_acc": 0.83787822, "grad_norm": 8.72699261, "learning_rate": 4.75e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095827, "epoch": 0.5399074, "global_step/max_steps": "11610/21503", "percentage": "53.99%", "elapsed_time": "1d 9h 39m 15s", "remaining_time": "1d 4h 40m 37s"}
{"loss": 0.63990064, "token_acc": 0.84936666, "grad_norm": 6.60331583, "learning_rate": 4.75e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.09585, "epoch": 0.54013992, "global_step/max_steps": "11615/21503", "percentage": "54.02%", "elapsed_time": "1d 9h 39m 38s", "remaining_time": "1d 4h 39m 20s"}
{"loss": 0.793889, "token_acc": 0.80959813, "grad_norm": 6.98332071, "learning_rate": 4.75e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095874, "epoch": 0.54037244, "global_step/max_steps": "11620/21503", "percentage": "54.04%", "elapsed_time": "1d 9h 40m 0s", "remaining_time": "1d 4h 38m 3s"}
{"loss": 0.54647694, "token_acc": 0.86741494, "grad_norm": 7.96128273, "learning_rate": 4.74e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095897, "epoch": 0.54060495, "global_step/max_steps": "11625/21503", "percentage": "54.06%", "elapsed_time": "1d 9h 40m 23s", "remaining_time": "1d 4h 36m 46s"}
{"loss": 0.76289997, "token_acc": 0.8200692, "grad_norm": 8.47422695, "learning_rate": 4.74e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.09592, "epoch": 0.54083747, "global_step/max_steps": "11630/21503", "percentage": "54.09%", "elapsed_time": "1d 9h 40m 46s", "remaining_time": "1d 4h 35m 29s"}
{"loss": 0.55804873, "token_acc": 0.85718912, "grad_norm": 6.80976391, "learning_rate": 4.73e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095943, "epoch": 0.54106999, "global_step/max_steps": "11635/21503", "percentage": "54.11%", "elapsed_time": "1d 9h 41m 9s", "remaining_time": "1d 4h 34m 12s"}
{"loss": 0.72028966, "token_acc": 0.82215342, "grad_norm": 6.00094652, "learning_rate": 4.73e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095966, "epoch": 0.54130251, "global_step/max_steps": "11640/21503", "percentage": "54.13%", "elapsed_time": "1d 9h 41m 32s", "remaining_time": "1d 4h 32m 55s"}
{"loss": 0.65656075, "token_acc": 0.84479123, "grad_norm": 6.93701315, "learning_rate": 4.73e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095989, "epoch": 0.54153503, "global_step/max_steps": "11645/21503", "percentage": "54.16%", "elapsed_time": "1d 9h 41m 55s", "remaining_time": "1d 4h 31m 38s"}
{"loss": 0.75687289, "token_acc": 0.80557151, "grad_norm": 8.26584911, "learning_rate": 4.72e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.096013, "epoch": 0.54176755, "global_step/max_steps": "11650/21503", "percentage": "54.18%", "elapsed_time": "1d 9h 42m 17s", "remaining_time": "1d 4h 30m 21s"}
{"eval_loss": 0.59185225, "eval_runtime": 296.0765, "eval_samples_per_second": 11.737, "eval_steps_per_second": 11.737, "epoch": 0.54176755, "global_step/max_steps": "11650/21503", "percentage": "54.18%", "elapsed_time": "1d 9h 47m 14s", "remaining_time": "1d 4h 34m 32s"}
{"loss": 0.68850355, "token_acc": 0.82654319, "grad_norm": 11.34377384, "learning_rate": 4.72e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095801, "epoch": 0.54200006, "global_step/max_steps": "11655/21503", "percentage": "54.20%", "elapsed_time": "1d 9h 47m 37s", "remaining_time": "1d 4h 33m 15s"}
{"loss": 0.78288422, "token_acc": 0.81667948, "grad_norm": 8.52844906, "learning_rate": 4.72e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095824, "epoch": 0.54223258, "global_step/max_steps": "11660/21503", "percentage": "54.22%", "elapsed_time": "1d 9h 48m 0s", "remaining_time": "1d 4h 31m 58s"}
{"loss": 0.71470857, "token_acc": 0.81896256, "grad_norm": 8.46249676, "learning_rate": 4.71e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095847, "epoch": 0.5424651, "global_step/max_steps": "11665/21503", "percentage": "54.25%", "elapsed_time": "1d 9h 48m 23s", "remaining_time": "1d 4h 30m 42s"}
{"loss": 0.63663321, "token_acc": 0.83696416, "grad_norm": 7.33003712, "learning_rate": 4.71e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.09587, "epoch": 0.54269762, "global_step/max_steps": "11670/21503", "percentage": "54.27%", "elapsed_time": "1d 9h 48m 47s", "remaining_time": "1d 4h 29m 26s"}
{"loss": 0.73966236, "token_acc": 0.81812012, "grad_norm": 7.16612339, "learning_rate": 4.7e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095892, "epoch": 0.54293014, "global_step/max_steps": "11675/21503", "percentage": "54.29%", "elapsed_time": "1d 9h 49m 11s", "remaining_time": "1d 4h 28m 10s"}
{"loss": 0.6534286, "token_acc": 0.83633094, "grad_norm": 8.05452251, "learning_rate": 4.7e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095915, "epoch": 0.54316266, "global_step/max_steps": "11680/21503", "percentage": "54.32%", "elapsed_time": "1d 9h 49m 34s", "remaining_time": "1d 4h 26m 53s"}
{"loss": 0.73061113, "token_acc": 0.81201687, "grad_norm": 6.42641973, "learning_rate": 4.7e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095938, "epoch": 0.54339517, "global_step/max_steps": "11685/21503", "percentage": "54.34%", "elapsed_time": "1d 9h 49m 56s", "remaining_time": "1d 4h 25m 36s"}
{"loss": 0.57614961, "token_acc": 0.86559803, "grad_norm": 8.69697285, "learning_rate": 4.69e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095962, "epoch": 0.54362769, "global_step/max_steps": "11690/21503", "percentage": "54.36%", "elapsed_time": "1d 9h 50m 19s", "remaining_time": "1d 4h 24m 19s"}
{"loss": 0.66629229, "token_acc": 0.83183569, "grad_norm": 6.54118919, "learning_rate": 4.69e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095985, "epoch": 0.54386021, "global_step/max_steps": "11695/21503", "percentage": "54.39%", "elapsed_time": "1d 9h 50m 42s", "remaining_time": "1d 4h 23m 2s"}
{"loss": 0.59191518, "token_acc": 0.84857904, "grad_norm": 8.9995575, "learning_rate": 4.68e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.096007, "epoch": 0.54409273, "global_step/max_steps": "11700/21503", "percentage": "54.41%", "elapsed_time": "1d 9h 51m 5s", "remaining_time": "1d 4h 21m 46s"}
{"eval_loss": 0.59109598, "eval_runtime": 295.316, "eval_samples_per_second": 11.767, "eval_steps_per_second": 11.767, "epoch": 0.54409273, "global_step/max_steps": "11700/21503", "percentage": "54.41%", "elapsed_time": "1d 9h 56m 0s", "remaining_time": "1d 4h 25m 54s"}
{"loss": 0.66892948, "token_acc": 0.82569544, "grad_norm": 11.52777958, "learning_rate": 4.68e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095797, "epoch": 0.54432525, "global_step/max_steps": "11705/21503", "percentage": "54.43%", "elapsed_time": "1d 9h 56m 24s", "remaining_time": "1d 4h 24m 38s"}
{"loss": 0.77428212, "token_acc": 0.81616969, "grad_norm": 7.01366043, "learning_rate": 4.68e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095821, "epoch": 0.54455776, "global_step/max_steps": "11710/21503", "percentage": "54.46%", "elapsed_time": "1d 9h 56m 47s", "remaining_time": "1d 4h 23m 21s"}
{"loss": 0.70517831, "token_acc": 0.82499149, "grad_norm": 6.96117353, "learning_rate": 4.67e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095843, "epoch": 0.54479028, "global_step/max_steps": "11715/21503", "percentage": "54.48%", "elapsed_time": "1d 9h 57m 10s", "remaining_time": "1d 4h 22m 4s"}
{"loss": 0.64733682, "token_acc": 0.85005553, "grad_norm": 8.2611866, "learning_rate": 4.67e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095867, "epoch": 0.5450228, "global_step/max_steps": "11720/21503", "percentage": "54.50%", "elapsed_time": "1d 9h 57m 33s", "remaining_time": "1d 4h 20m 47s"}
{"loss": 0.74455185, "token_acc": 0.81274336, "grad_norm": 7.99486637, "learning_rate": 4.67e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095889, "epoch": 0.54525532, "global_step/max_steps": "11725/21503", "percentage": "54.53%", "elapsed_time": "1d 9h 57m 56s", "remaining_time": "1d 4h 19m 31s"}
{"loss": 0.83851891, "token_acc": 0.80549828, "grad_norm": 6.61134624, "learning_rate": 4.66e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095912, "epoch": 0.54548784, "global_step/max_steps": "11730/21503", "percentage": "54.55%", "elapsed_time": "1d 9h 58m 19s", "remaining_time": "1d 4h 18m 15s"}
{"loss": 0.58920574, "token_acc": 0.84996841, "grad_norm": 6.89641142, "learning_rate": 4.66e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095935, "epoch": 0.54572036, "global_step/max_steps": "11735/21503", "percentage": "54.57%", "elapsed_time": "1d 9h 58m 41s", "remaining_time": "1d 4h 16m 58s"}
{"loss": 0.58177886, "token_acc": 0.85445469, "grad_norm": 6.74559212, "learning_rate": 4.65e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095959, "epoch": 0.54595287, "global_step/max_steps": "11740/21503", "percentage": "54.60%", "elapsed_time": "1d 9h 59m 4s", "remaining_time": "1d 4h 15m 41s"}
{"loss": 0.76109624, "token_acc": 0.81030115, "grad_norm": 5.59011126, "learning_rate": 4.65e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095981, "epoch": 0.54618539, "global_step/max_steps": "11745/21503", "percentage": "54.62%", "elapsed_time": "1d 9h 59m 27s", "remaining_time": "1d 4h 14m 25s"}
{"loss": 0.69215178, "token_acc": 0.83046268, "grad_norm": 8.09312344, "learning_rate": 4.65e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.096004, "epoch": 0.54641791, "global_step/max_steps": "11750/21503", "percentage": "54.64%", "elapsed_time": "1d 9h 59m 50s", "remaining_time": "1d 4h 13m 9s"}
{"eval_loss": 0.59029311, "eval_runtime": 294.1316, "eval_samples_per_second": 11.814, "eval_steps_per_second": 11.814, "epoch": 0.54641791, "global_step/max_steps": "11750/21503", "percentage": "54.64%", "elapsed_time": "1d 10h 4m 44s", "remaining_time": "1d 4h 17m 13s"}
{"loss": 0.65995774, "token_acc": 0.8267957, "grad_norm": 6.68897629, "learning_rate": 4.64e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095795, "epoch": 0.54665043, "global_step/max_steps": "11755/21503", "percentage": "54.67%", "elapsed_time": "1d 10h 5m 9s", "remaining_time": "1d 4h 15m 58s"}
{"loss": 0.67253532, "token_acc": 0.82448118, "grad_norm": 7.70131683, "learning_rate": 4.64e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095819, "epoch": 0.54688295, "global_step/max_steps": "11760/21503", "percentage": "54.69%", "elapsed_time": "1d 10h 5m 31s", "remaining_time": "1d 4h 14m 41s"}
{"loss": 0.67902746, "token_acc": 0.8225134, "grad_norm": 7.66807842, "learning_rate": 4.63e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095842, "epoch": 0.54711547, "global_step/max_steps": "11765/21503", "percentage": "54.71%", "elapsed_time": "1d 10h 5m 54s", "remaining_time": "1d 4h 13m 25s"}
{"loss": 0.62712927, "token_acc": 0.84381422, "grad_norm": 8.04808998, "learning_rate": 4.63e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095865, "epoch": 0.54734798, "global_step/max_steps": "11770/21503", "percentage": "54.74%", "elapsed_time": "1d 10h 6m 17s", "remaining_time": "1d 4h 12m 8s"}
{"loss": 0.73238702, "token_acc": 0.81400966, "grad_norm": 9.47883415, "learning_rate": 4.63e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095888, "epoch": 0.5475805, "global_step/max_steps": "11775/21503", "percentage": "54.76%", "elapsed_time": "1d 10h 6m 39s", "remaining_time": "1d 4h 10m 51s"}
{"loss": 0.56369834, "token_acc": 0.85891601, "grad_norm": 8.77560425, "learning_rate": 4.62e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.09591, "epoch": 0.54781302, "global_step/max_steps": "11780/21503", "percentage": "54.78%", "elapsed_time": "1d 10h 7m 2s", "remaining_time": "1d 4h 9m 35s"}
{"loss": 0.7762671, "token_acc": 0.80984952, "grad_norm": 7.39385843, "learning_rate": 4.62e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095933, "epoch": 0.54804554, "global_step/max_steps": "11785/21503", "percentage": "54.81%", "elapsed_time": "1d 10h 7m 25s", "remaining_time": "1d 4h 8m 19s"}
{"loss": 0.63641758, "token_acc": 0.834214, "grad_norm": 8.18192959, "learning_rate": 4.62e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095956, "epoch": 0.54827806, "global_step/max_steps": "11790/21503", "percentage": "54.83%", "elapsed_time": "1d 10h 7m 48s", "remaining_time": "1d 4h 7m 3s"}
{"loss": 0.75439701, "token_acc": 0.81234177, "grad_norm": 6.37143803, "learning_rate": 4.61e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095978, "epoch": 0.54851058, "global_step/max_steps": "11795/21503", "percentage": "54.85%", "elapsed_time": "1d 10h 8m 12s", "remaining_time": "1d 4h 5m 47s"}
{"loss": 0.60988507, "token_acc": 0.8399006, "grad_norm": 7.37403774, "learning_rate": 4.61e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.096001, "epoch": 0.54874309, "global_step/max_steps": "11800/21503", "percentage": "54.88%", "elapsed_time": "1d 10h 8m 35s", "remaining_time": "1d 4h 4m 31s"}
{"eval_loss": 0.59275109, "eval_runtime": 294.3173, "eval_samples_per_second": 11.807, "eval_steps_per_second": 11.807, "epoch": 0.54874309, "global_step/max_steps": "11800/21503", "percentage": "54.88%", "elapsed_time": "1d 10h 13m 29s", "remaining_time": "1d 4h 8m 33s"}
{"loss": 0.76208601, "token_acc": 0.82655372, "grad_norm": 11.76854038, "learning_rate": 4.6e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095794, "epoch": 0.54897561, "global_step/max_steps": "11805/21503", "percentage": "54.90%", "elapsed_time": "1d 10h 13m 52s", "remaining_time": "1d 4h 7m 17s"}
{"loss": 0.60555263, "token_acc": 0.84587696, "grad_norm": 6.8304019, "learning_rate": 4.6e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095817, "epoch": 0.54920813, "global_step/max_steps": "11810/21503", "percentage": "54.92%", "elapsed_time": "1d 10h 14m 15s", "remaining_time": "1d 4h 6m 1s"}
{"loss": 0.72613282, "token_acc": 0.80481541, "grad_norm": 7.89128399, "learning_rate": 4.6e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.09584, "epoch": 0.54944065, "global_step/max_steps": "11815/21503", "percentage": "54.95%", "elapsed_time": "1d 10h 14m 38s", "remaining_time": "1d 4h 4m 45s"}
{"loss": 0.81324606, "token_acc": 0.80113636, "grad_norm": 6.93885517, "learning_rate": 4.59e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095863, "epoch": 0.54967317, "global_step/max_steps": "11820/21503", "percentage": "54.97%", "elapsed_time": "1d 10h 15m 0s", "remaining_time": "1d 4h 3m 28s"}
{"loss": 0.58984809, "token_acc": 0.84420643, "grad_norm": 6.90013361, "learning_rate": 4.59e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095886, "epoch": 0.54990568, "global_step/max_steps": "11825/21503", "percentage": "54.99%", "elapsed_time": "1d 10h 15m 23s", "remaining_time": "1d 4h 2m 12s"}
{"loss": 0.66091065, "token_acc": 0.82939725, "grad_norm": 6.82213259, "learning_rate": 4.58e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095909, "epoch": 0.5501382, "global_step/max_steps": "11830/21503", "percentage": "55.02%", "elapsed_time": "1d 10h 15m 45s", "remaining_time": "1d 4h 0m 55s"}
{"loss": 0.60869098, "token_acc": 0.83932695, "grad_norm": 7.0903368, "learning_rate": 4.58e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095932, "epoch": 0.55037072, "global_step/max_steps": "11835/21503", "percentage": "55.04%", "elapsed_time": "1d 10h 16m 8s", "remaining_time": "1d 3h 59m 39s"}
{"loss": 0.72399096, "token_acc": 0.82220007, "grad_norm": 7.86870956, "learning_rate": 4.58e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095955, "epoch": 0.55060324, "global_step/max_steps": "11840/21503", "percentage": "55.06%", "elapsed_time": "1d 10h 16m 31s", "remaining_time": "1d 3h 58m 23s"}
{"loss": 0.72382731, "token_acc": 0.82534044, "grad_norm": 7.85229826, "learning_rate": 4.57e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095977, "epoch": 0.55083576, "global_step/max_steps": "11845/21503", "percentage": "55.09%", "elapsed_time": "1d 10h 16m 54s", "remaining_time": "1d 3h 57m 7s"}
{"loss": 0.62130127, "token_acc": 0.85797491, "grad_norm": 8.4723711, "learning_rate": 4.57e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.096001, "epoch": 0.55106828, "global_step/max_steps": "11850/21503", "percentage": "55.11%", "elapsed_time": "1d 10h 17m 16s", "remaining_time": "1d 3h 55m 51s"}
{"eval_loss": 0.58872807, "eval_runtime": 293.7275, "eval_samples_per_second": 11.831, "eval_steps_per_second": 11.831, "epoch": 0.55106828, "global_step/max_steps": "11850/21503", "percentage": "55.11%", "elapsed_time": "1d 10h 22m 10s", "remaining_time": "1d 3h 59m 50s"}
{"loss": 0.51552467, "token_acc": 0.82757706, "grad_norm": 8.16541672, "learning_rate": 4.57e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095795, "epoch": 0.55130079, "global_step/max_steps": "11855/21503", "percentage": "55.13%", "elapsed_time": "1d 10h 22m 33s", "remaining_time": "1d 3h 58m 35s"}
{"loss": 0.59775486, "token_acc": 0.85016287, "grad_norm": 7.23956537, "learning_rate": 4.56e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095817, "epoch": 0.55153331, "global_step/max_steps": "11860/21503", "percentage": "55.16%", "elapsed_time": "1d 10h 22m 57s", "remaining_time": "1d 3h 57m 19s"}
{"loss": 0.8376049, "token_acc": 0.80803011, "grad_norm": 8.12662697, "learning_rate": 4.56e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095839, "epoch": 0.55176583, "global_step/max_steps": "11865/21503", "percentage": "55.18%", "elapsed_time": "1d 10h 23m 20s", "remaining_time": "1d 3h 56m 4s"}
{"loss": 0.63669815, "token_acc": 0.83457304, "grad_norm": 6.35827255, "learning_rate": 4.55e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095862, "epoch": 0.55199835, "global_step/max_steps": "11870/21503", "percentage": "55.20%", "elapsed_time": "1d 10h 23m 44s", "remaining_time": "1d 3h 54m 48s"}
{"loss": 0.77415605, "token_acc": 0.82430144, "grad_norm": 7.45095682, "learning_rate": 4.55e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095884, "epoch": 0.55223087, "global_step/max_steps": "11875/21503", "percentage": "55.22%", "elapsed_time": "1d 10h 24m 7s", "remaining_time": "1d 3h 53m 32s"}
{"loss": 0.70313025, "token_acc": 0.83194234, "grad_norm": 7.98688936, "learning_rate": 4.55e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095907, "epoch": 0.55246339, "global_step/max_steps": "11880/21503", "percentage": "55.25%", "elapsed_time": "1d 10h 24m 29s", "remaining_time": "1d 3h 52m 16s"}
{"loss": 0.67987194, "token_acc": 0.8283247, "grad_norm": 7.91353655, "learning_rate": 4.54e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095929, "epoch": 0.5526959, "global_step/max_steps": "11885/21503", "percentage": "55.27%", "elapsed_time": "1d 10h 24m 52s", "remaining_time": "1d 3h 51m 1s"}
{"loss": 0.65098329, "token_acc": 0.83176594, "grad_norm": 7.33779335, "learning_rate": 4.54e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095952, "epoch": 0.55292842, "global_step/max_steps": "11890/21503", "percentage": "55.29%", "elapsed_time": "1d 10h 25m 15s", "remaining_time": "1d 3h 49m 45s"}
{"loss": 0.635393, "token_acc": 0.83378016, "grad_norm": 8.42006588, "learning_rate": 4.54e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095975, "epoch": 0.55316094, "global_step/max_steps": "11895/21503", "percentage": "55.32%", "elapsed_time": "1d 10h 25m 38s", "remaining_time": "1d 3h 48m 29s"}
{"loss": 0.78756332, "token_acc": 0.80314203, "grad_norm": 6.82348394, "learning_rate": 4.53e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095998, "epoch": 0.55339346, "global_step/max_steps": "11900/21503", "percentage": "55.34%", "elapsed_time": "1d 10h 26m 0s", "remaining_time": "1d 3h 47m 13s"}
{"eval_loss": 0.58977032, "eval_runtime": 295.526, "eval_samples_per_second": 11.759, "eval_steps_per_second": 11.759, "epoch": 0.55339346, "global_step/max_steps": "11900/21503", "percentage": "55.34%", "elapsed_time": "1d 10h 30m 56s", "remaining_time": "1d 3h 51m 11s"}
{"loss": 0.69307156, "token_acc": 0.82612077, "grad_norm": 8.59767056, "learning_rate": 4.53e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095792, "epoch": 0.55362598, "global_step/max_steps": "11905/21503", "percentage": "55.36%", "elapsed_time": "1d 10h 31m 19s", "remaining_time": "1d 3h 49m 56s"}
{"loss": 0.66560431, "token_acc": 0.8314431, "grad_norm": 8.75144863, "learning_rate": 4.52e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095815, "epoch": 0.5538585, "global_step/max_steps": "11910/21503", "percentage": "55.39%", "elapsed_time": "1d 10h 31m 42s", "remaining_time": "1d 3h 48m 40s"}
{"loss": 0.91147566, "token_acc": 0.78121059, "grad_norm": 6.74794769, "learning_rate": 4.52e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095838, "epoch": 0.55409101, "global_step/max_steps": "11915/21503", "percentage": "55.41%", "elapsed_time": "1d 10h 32m 4s", "remaining_time": "1d 3h 47m 24s"}
{"loss": 0.76723342, "token_acc": 0.81401709, "grad_norm": 7.46894312, "learning_rate": 4.52e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.09586, "epoch": 0.55432353, "global_step/max_steps": "11920/21503", "percentage": "55.43%", "elapsed_time": "1d 10h 32m 27s", "remaining_time": "1d 3h 46m 8s"}
{"loss": 0.77324171, "token_acc": 0.82100531, "grad_norm": 7.41734409, "learning_rate": 4.51e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095883, "epoch": 0.55455605, "global_step/max_steps": "11925/21503", "percentage": "55.46%", "elapsed_time": "1d 10h 32m 50s", "remaining_time": "1d 3h 44m 52s"}
{"loss": 0.7324338, "token_acc": 0.83341428, "grad_norm": 7.62965775, "learning_rate": 4.51e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095905, "epoch": 0.55478857, "global_step/max_steps": "11930/21503", "percentage": "55.48%", "elapsed_time": "1d 10h 33m 13s", "remaining_time": "1d 3h 43m 37s"}
{"loss": 0.73920708, "token_acc": 0.82200071, "grad_norm": 7.58089828, "learning_rate": 4.5e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095928, "epoch": 0.55502109, "global_step/max_steps": "11935/21503", "percentage": "55.50%", "elapsed_time": "1d 10h 33m 35s", "remaining_time": "1d 3h 42m 21s"}
{"loss": 0.80827398, "token_acc": 0.79443586, "grad_norm": 8.21138954, "learning_rate": 4.5e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095951, "epoch": 0.5552536, "global_step/max_steps": "11940/21503", "percentage": "55.53%", "elapsed_time": "1d 10h 33m 58s", "remaining_time": "1d 3h 41m 5s"}
{"loss": 0.68673706, "token_acc": 0.82047293, "grad_norm": 6.07345152, "learning_rate": 4.5e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095974, "epoch": 0.55548612, "global_step/max_steps": "11945/21503", "percentage": "55.55%", "elapsed_time": "1d 10h 34m 21s", "remaining_time": "1d 3h 39m 49s"}
{"loss": 0.79885764, "token_acc": 0.80125087, "grad_norm": 6.63905621, "learning_rate": 4.49e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095996, "epoch": 0.55571864, "global_step/max_steps": "11950/21503", "percentage": "55.57%", "elapsed_time": "1d 10h 34m 43s", "remaining_time": "1d 3h 38m 34s"}
{"eval_loss": 0.58858562, "eval_runtime": 295.4879, "eval_samples_per_second": 11.76, "eval_steps_per_second": 11.76, "epoch": 0.55571864, "global_step/max_steps": "11950/21503", "percentage": "55.57%", "elapsed_time": "1d 10h 39m 39s", "remaining_time": "1d 3h 42m 30s"}
{"loss": 0.74927039, "token_acc": 0.82571856, "grad_norm": 6.84950161, "learning_rate": 4.49e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095791, "epoch": 0.55595116, "global_step/max_steps": "11955/21503", "percentage": "55.60%", "elapsed_time": "1d 10h 40m 2s", "remaining_time": "1d 3h 41m 14s"}
{"loss": 0.70836864, "token_acc": 0.80931065, "grad_norm": 8.92417145, "learning_rate": 4.49e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095814, "epoch": 0.55618368, "global_step/max_steps": "11960/21503", "percentage": "55.62%", "elapsed_time": "1d 10h 40m 25s", "remaining_time": "1d 3h 39m 59s"}
{"loss": 0.67952738, "token_acc": 0.82205207, "grad_norm": 5.73816013, "learning_rate": 4.48e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095836, "epoch": 0.5564162, "global_step/max_steps": "11965/21503", "percentage": "55.64%", "elapsed_time": "1d 10h 40m 48s", "remaining_time": "1d 3h 38m 44s"}
{"loss": 0.72468767, "token_acc": 0.82083634, "grad_norm": 9.78307343, "learning_rate": 4.48e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095858, "epoch": 0.55664871, "global_step/max_steps": "11970/21503", "percentage": "55.67%", "elapsed_time": "1d 10h 41m 11s", "remaining_time": "1d 3h 37m 28s"}
{"loss": 0.64365215, "token_acc": 0.83471074, "grad_norm": 7.1469202, "learning_rate": 4.47e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095881, "epoch": 0.55688123, "global_step/max_steps": "11975/21503", "percentage": "55.69%", "elapsed_time": "1d 10h 41m 34s", "remaining_time": "1d 3h 36m 13s"}
{"loss": 0.69518061, "token_acc": 0.82301529, "grad_norm": 7.04888058, "learning_rate": 4.47e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095902, "epoch": 0.55711375, "global_step/max_steps": "11980/21503", "percentage": "55.71%", "elapsed_time": "1d 10h 41m 58s", "remaining_time": "1d 3h 34m 58s"}
{"loss": 0.6891386, "token_acc": 0.81445312, "grad_norm": 5.96165514, "learning_rate": 4.47e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095925, "epoch": 0.55734627, "global_step/max_steps": "11985/21503", "percentage": "55.74%", "elapsed_time": "1d 10h 42m 21s", "remaining_time": "1d 3h 33m 43s"}
{"loss": 0.60404806, "token_acc": 0.84898521, "grad_norm": 6.89448786, "learning_rate": 4.46e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095947, "epoch": 0.55757879, "global_step/max_steps": "11990/21503", "percentage": "55.76%", "elapsed_time": "1d 10h 42m 44s", "remaining_time": "1d 3h 32m 28s"}
{"loss": 0.78829904, "token_acc": 0.80409259, "grad_norm": 6.74959946, "learning_rate": 4.46e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.09597, "epoch": 0.55781131, "global_step/max_steps": "11995/21503", "percentage": "55.78%", "elapsed_time": "1d 10h 43m 6s", "remaining_time": "1d 3h 31m 12s"}
{"loss": 0.72592211, "token_acc": 0.82539063, "grad_norm": 8.95167637, "learning_rate": 4.45e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095992, "epoch": 0.55804382, "global_step/max_steps": "12000/21503", "percentage": "55.81%", "elapsed_time": "1d 10h 43m 30s", "remaining_time": "1d 3h 29m 57s"}
{"eval_loss": 0.5902968, "eval_runtime": 294.0747, "eval_samples_per_second": 11.817, "eval_steps_per_second": 11.817, "epoch": 0.55804382, "global_step/max_steps": "12000/21503", "percentage": "55.81%", "elapsed_time": "1d 10h 48m 24s", "remaining_time": "1d 3h 33m 50s"}
{"loss": 0.58341784, "token_acc": 0.82731168, "grad_norm": 6.93931246, "learning_rate": 4.45e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095789, "epoch": 0.55827634, "global_step/max_steps": "12005/21503", "percentage": "55.83%", "elapsed_time": "1d 10h 48m 47s", "remaining_time": "1d 3h 32m 35s"}
{"loss": 0.71936359, "token_acc": 0.82459249, "grad_norm": 9.75509739, "learning_rate": 4.45e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095811, "epoch": 0.55850886, "global_step/max_steps": "12010/21503", "percentage": "55.85%", "elapsed_time": "1d 10h 49m 10s", "remaining_time": "1d 3h 31m 19s"}
{"loss": 0.59618368, "token_acc": 0.84664087, "grad_norm": 6.74008322, "learning_rate": 4.44e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095834, "epoch": 0.55874138, "global_step/max_steps": "12015/21503", "percentage": "55.88%", "elapsed_time": "1d 10h 49m 33s", "remaining_time": "1d 3h 30m 4s"}
{"loss": 0.55136023, "token_acc": 0.85719598, "grad_norm": 10.71270847, "learning_rate": 4.44e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095856, "epoch": 0.5589739, "global_step/max_steps": "12020/21503", "percentage": "55.90%", "elapsed_time": "1d 10h 49m 56s", "remaining_time": "1d 3h 28m 49s"}
{"loss": 0.59590406, "token_acc": 0.86296975, "grad_norm": 7.62248755, "learning_rate": 4.44e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095878, "epoch": 0.55920642, "global_step/max_steps": "12025/21503", "percentage": "55.92%", "elapsed_time": "1d 10h 50m 19s", "remaining_time": "1d 3h 27m 34s"}
{"loss": 0.74225645, "token_acc": 0.82417929, "grad_norm": 7.5239954, "learning_rate": 4.43e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.0959, "epoch": 0.55943893, "global_step/max_steps": "12030/21503", "percentage": "55.95%", "elapsed_time": "1d 10h 50m 42s", "remaining_time": "1d 3h 26m 19s"}
{"loss": 0.61669755, "token_acc": 0.84451105, "grad_norm": 7.10502195, "learning_rate": 4.43e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095923, "epoch": 0.55967145, "global_step/max_steps": "12035/21503", "percentage": "55.97%", "elapsed_time": "1d 10h 51m 5s", "remaining_time": "1d 3h 25m 4s"}
{"loss": 0.55841231, "token_acc": 0.85, "grad_norm": 7.01157522, "learning_rate": 4.42e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095944, "epoch": 0.55990397, "global_step/max_steps": "12040/21503", "percentage": "55.99%", "elapsed_time": "1d 10h 51m 29s", "remaining_time": "1d 3h 23m 49s"}
{"loss": 0.71201496, "token_acc": 0.81800066, "grad_norm": 8.52341461, "learning_rate": 4.42e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095966, "epoch": 0.56013649, "global_step/max_steps": "12045/21503", "percentage": "56.02%", "elapsed_time": "1d 10h 51m 52s", "remaining_time": "1d 3h 22m 35s"}
{"loss": 0.64499779, "token_acc": 0.84132231, "grad_norm": 10.58093357, "learning_rate": 4.42e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095989, "epoch": 0.56036901, "global_step/max_steps": "12050/21503", "percentage": "56.04%", "elapsed_time": "1d 10h 52m 15s", "remaining_time": "1d 3h 21m 20s"}
{"eval_loss": 0.58994687, "eval_runtime": 293.9174, "eval_samples_per_second": 11.823, "eval_steps_per_second": 11.823, "epoch": 0.56036901, "global_step/max_steps": "12050/21503", "percentage": "56.04%", "elapsed_time": "1d 10h 57m 9s", "remaining_time": "1d 3h 25m 10s"}
{"loss": 0.73457937, "token_acc": 0.82706978, "grad_norm": 6.27055073, "learning_rate": 4.41e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095786, "epoch": 0.56060152, "global_step/max_steps": "12055/21503", "percentage": "56.06%", "elapsed_time": "1d 10h 57m 32s", "remaining_time": "1d 3h 23m 55s"}
{"loss": 0.63485937, "token_acc": 0.84316447, "grad_norm": 6.68102789, "learning_rate": 4.41e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095809, "epoch": 0.56083404, "global_step/max_steps": "12060/21503", "percentage": "56.09%", "elapsed_time": "1d 10h 57m 55s", "remaining_time": "1d 3h 22m 40s"}
{"loss": 0.65050206, "token_acc": 0.82985685, "grad_norm": 8.46578693, "learning_rate": 4.41e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095831, "epoch": 0.56106656, "global_step/max_steps": "12065/21503", "percentage": "56.11%", "elapsed_time": "1d 10h 58m 18s", "remaining_time": "1d 3h 21m 25s"}
{"loss": 0.86367407, "token_acc": 0.80113636, "grad_norm": 7.1572237, "learning_rate": 4.4e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095854, "epoch": 0.56129908, "global_step/max_steps": "12070/21503", "percentage": "56.13%", "elapsed_time": "1d 10h 58m 40s", "remaining_time": "1d 3h 20m 10s"}
{"loss": 0.71395249, "token_acc": 0.83305785, "grad_norm": 6.01890516, "learning_rate": 4.4e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095876, "epoch": 0.5615316, "global_step/max_steps": "12075/21503", "percentage": "56.15%", "elapsed_time": "1d 10h 59m 3s", "remaining_time": "1d 3h 18m 55s"}
{"loss": 0.84450426, "token_acc": 0.79407616, "grad_norm": 6.58313274, "learning_rate": 4.39e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095899, "epoch": 0.56176412, "global_step/max_steps": "12080/21503", "percentage": "56.18%", "elapsed_time": "1d 10h 59m 25s", "remaining_time": "1d 3h 17m 39s"}
{"loss": 0.64927654, "token_acc": 0.8364486, "grad_norm": 8.30800819, "learning_rate": 4.39e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.09592, "epoch": 0.56199663, "global_step/max_steps": "12085/21503", "percentage": "56.20%", "elapsed_time": "1d 10h 59m 49s", "remaining_time": "1d 3h 16m 25s"}
{"loss": 0.5420804, "token_acc": 0.86391603, "grad_norm": 7.71538973, "learning_rate": 4.39e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095943, "epoch": 0.56222915, "global_step/max_steps": "12090/21503", "percentage": "56.22%", "elapsed_time": "1d 11h 0m 12s", "remaining_time": "1d 3h 15m 10s"}
{"loss": 0.73791151, "token_acc": 0.82197355, "grad_norm": 7.16784763, "learning_rate": 4.38e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095965, "epoch": 0.56246167, "global_step/max_steps": "12095/21503", "percentage": "56.25%", "elapsed_time": "1d 11h 0m 35s", "remaining_time": "1d 3h 13m 55s"}
{"loss": 0.69501042, "token_acc": 0.83542039, "grad_norm": 7.90661573, "learning_rate": 4.38e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095987, "epoch": 0.56269419, "global_step/max_steps": "12100/21503", "percentage": "56.27%", "elapsed_time": "1d 11h 0m 57s", "remaining_time": "1d 3h 12m 40s"}
{"eval_loss": 0.58895051, "eval_runtime": 292.1716, "eval_samples_per_second": 11.894, "eval_steps_per_second": 11.894, "epoch": 0.56269419, "global_step/max_steps": "12100/21503", "percentage": "56.27%", "elapsed_time": "1d 11h 5m 50s", "remaining_time": "1d 3h 16m 27s"}
{"loss": 0.68538003, "token_acc": 0.82690818, "grad_norm": 6.19940948, "learning_rate": 4.37e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095787, "epoch": 0.56292671, "global_step/max_steps": "12105/21503", "percentage": "56.29%", "elapsed_time": "1d 11h 6m 14s", "remaining_time": "1d 3h 15m 13s"}
{"loss": 0.60813174, "token_acc": 0.83535201, "grad_norm": 5.90180874, "learning_rate": 4.37e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095809, "epoch": 0.56315923, "global_step/max_steps": "12110/21503", "percentage": "56.32%", "elapsed_time": "1d 11h 6m 37s", "remaining_time": "1d 3h 13m 58s"}
{"loss": 0.69957461, "token_acc": 0.81682298, "grad_norm": 7.53703022, "learning_rate": 4.37e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095831, "epoch": 0.56339174, "global_step/max_steps": "12115/21503", "percentage": "56.34%", "elapsed_time": "1d 11h 7m 0s", "remaining_time": "1d 3h 12m 44s"}
{"loss": 0.59189787, "token_acc": 0.84762235, "grad_norm": 7.50744486, "learning_rate": 4.36e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095853, "epoch": 0.56362426, "global_step/max_steps": "12120/21503", "percentage": "56.36%", "elapsed_time": "1d 11h 7m 23s", "remaining_time": "1d 3h 11m 29s"}
{"loss": 0.72932777, "token_acc": 0.82511368, "grad_norm": 7.61538696, "learning_rate": 4.36e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095875, "epoch": 0.56385678, "global_step/max_steps": "12125/21503", "percentage": "56.39%", "elapsed_time": "1d 11h 7m 46s", "remaining_time": "1d 3h 10m 14s"}
{"loss": 0.66620226, "token_acc": 0.83184965, "grad_norm": 7.20743942, "learning_rate": 4.36e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095898, "epoch": 0.5640893, "global_step/max_steps": "12130/21503", "percentage": "56.41%", "elapsed_time": "1d 11h 8m 8s", "remaining_time": "1d 3h 8m 59s"}
{"loss": 0.6410337, "token_acc": 0.83780372, "grad_norm": 11.29114532, "learning_rate": 4.35e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.09592, "epoch": 0.56432182, "global_step/max_steps": "12135/21503", "percentage": "56.43%", "elapsed_time": "1d 11h 8m 31s", "remaining_time": "1d 3h 7m 44s"}
{"loss": 0.71205511, "token_acc": 0.81509891, "grad_norm": 8.10857391, "learning_rate": 4.35e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095942, "epoch": 0.56455434, "global_step/max_steps": "12140/21503", "percentage": "56.46%", "elapsed_time": "1d 11h 8m 54s", "remaining_time": "1d 3h 6m 29s"}
{"loss": 0.66265283, "token_acc": 0.83485915, "grad_norm": 8.06312943, "learning_rate": 4.34e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095964, "epoch": 0.56478685, "global_step/max_steps": "12145/21503", "percentage": "56.48%", "elapsed_time": "1d 11h 9m 18s", "remaining_time": "1d 3h 5m 15s"}
{"loss": 0.66407785, "token_acc": 0.81857523, "grad_norm": 7.96891594, "learning_rate": 4.34e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095986, "epoch": 0.56501937, "global_step/max_steps": "12150/21503", "percentage": "56.50%", "elapsed_time": "1d 11h 9m 40s", "remaining_time": "1d 3h 4m 0s"}
{"eval_loss": 0.58616489, "eval_runtime": 290.5533, "eval_samples_per_second": 11.96, "eval_steps_per_second": 11.96, "epoch": 0.56501937, "global_step/max_steps": "12150/21503", "percentage": "56.50%", "elapsed_time": "1d 11h 14m 31s", "remaining_time": "1d 3h 7m 44s"}
{"loss": 0.62986312, "token_acc": 0.82825162, "grad_norm": 8.72737885, "learning_rate": 4.34e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095788, "epoch": 0.56525189, "global_step/max_steps": "12155/21503", "percentage": "56.53%", "elapsed_time": "1d 11h 14m 54s", "remaining_time": "1d 3h 6m 30s"}
{"loss": 0.62780557, "token_acc": 0.84247854, "grad_norm": 8.19133568, "learning_rate": 4.33e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095811, "epoch": 0.56548441, "global_step/max_steps": "12160/21503", "percentage": "56.55%", "elapsed_time": "1d 11h 15m 16s", "remaining_time": "1d 3h 5m 15s"}
{"loss": 0.65804453, "token_acc": 0.83790801, "grad_norm": 9.83374214, "learning_rate": 4.33e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095833, "epoch": 0.56571693, "global_step/max_steps": "12165/21503", "percentage": "56.57%", "elapsed_time": "1d 11h 15m 39s", "remaining_time": "1d 3h 4m 0s"}
{"loss": 0.59975066, "token_acc": 0.85374554, "grad_norm": 6.14854479, "learning_rate": 4.32e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095855, "epoch": 0.56594944, "global_step/max_steps": "12170/21503", "percentage": "56.60%", "elapsed_time": "1d 11h 16m 2s", "remaining_time": "1d 3h 2m 45s"}
{"loss": 0.56882463, "token_acc": 0.84737249, "grad_norm": 6.66876698, "learning_rate": 4.32e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095877, "epoch": 0.56618196, "global_step/max_steps": "12175/21503", "percentage": "56.62%", "elapsed_time": "1d 11h 16m 24s", "remaining_time": "1d 3h 1m 30s"}
{"loss": 0.71622009, "token_acc": 0.83250415, "grad_norm": 8.07073498, "learning_rate": 4.32e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.0959, "epoch": 0.56641448, "global_step/max_steps": "12180/21503", "percentage": "56.64%", "elapsed_time": "1d 11h 16m 47s", "remaining_time": "1d 3h 0m 15s"}
{"loss": 0.75184832, "token_acc": 0.80491716, "grad_norm": 8.31356144, "learning_rate": 4.31e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095922, "epoch": 0.566647, "global_step/max_steps": "12185/21503", "percentage": "56.67%", "elapsed_time": "1d 11h 17m 10s", "remaining_time": "1d 2h 59m 1s"}
{"loss": 0.84943399, "token_acc": 0.77928335, "grad_norm": 5.88566065, "learning_rate": 4.31e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095944, "epoch": 0.56687952, "global_step/max_steps": "12190/21503", "percentage": "56.69%", "elapsed_time": "1d 11h 17m 33s", "remaining_time": "1d 2h 57m 47s"}
{"loss": 0.63030438, "token_acc": 0.84426505, "grad_norm": 9.46756458, "learning_rate": 4.31e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095966, "epoch": 0.56711204, "global_step/max_steps": "12195/21503", "percentage": "56.71%", "elapsed_time": "1d 11h 17m 55s", "remaining_time": "1d 2h 56m 32s"}
{"loss": 0.6847559, "token_acc": 0.8275608, "grad_norm": 5.60188007, "learning_rate": 4.3e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095988, "epoch": 0.56734455, "global_step/max_steps": "12200/21503", "percentage": "56.74%", "elapsed_time": "1d 11h 18m 18s", "remaining_time": "1d 2h 55m 17s"}
{"eval_loss": 0.58793378, "eval_runtime": 294.3451, "eval_samples_per_second": 11.806, "eval_steps_per_second": 11.806, "epoch": 0.56734455, "global_step/max_steps": "12200/21503", "percentage": "56.74%", "elapsed_time": "1d 11h 23m 13s", "remaining_time": "1d 2h 59m 2s"}
{"loss": 0.67612519, "token_acc": 0.82787129, "grad_norm": 9.66036892, "learning_rate": 4.3e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095788, "epoch": 0.56757707, "global_step/max_steps": "12205/21503", "percentage": "56.76%", "elapsed_time": "1d 11h 23m 36s", "remaining_time": "1d 2h 57m 48s"}
{"loss": 0.67493482, "token_acc": 0.84326923, "grad_norm": 8.12336254, "learning_rate": 4.29e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.09581, "epoch": 0.56780959, "global_step/max_steps": "12210/21503", "percentage": "56.78%", "elapsed_time": "1d 11h 23m 58s", "remaining_time": "1d 2h 56m 33s"}
{"loss": 0.6176517, "token_acc": 0.83751696, "grad_norm": 8.09050083, "learning_rate": 4.29e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095833, "epoch": 0.56804211, "global_step/max_steps": "12215/21503", "percentage": "56.81%", "elapsed_time": "1d 11h 24m 21s", "remaining_time": "1d 2h 55m 18s"}
{"loss": 0.62939253, "token_acc": 0.83612527, "grad_norm": 7.93869829, "learning_rate": 4.29e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095855, "epoch": 0.56827463, "global_step/max_steps": "12220/21503", "percentage": "56.83%", "elapsed_time": "1d 11h 24m 44s", "remaining_time": "1d 2h 54m 4s"}
{"loss": 0.57419782, "token_acc": 0.85482734, "grad_norm": 8.97048855, "learning_rate": 4.28e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095877, "epoch": 0.56850715, "global_step/max_steps": "12225/21503", "percentage": "56.85%", "elapsed_time": "1d 11h 25m 6s", "remaining_time": "1d 2h 52m 49s"}
{"loss": 0.62725902, "token_acc": 0.83774298, "grad_norm": 6.57832289, "learning_rate": 4.28e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095899, "epoch": 0.56873966, "global_step/max_steps": "12230/21503", "percentage": "56.88%", "elapsed_time": "1d 11h 25m 30s", "remaining_time": "1d 2h 51m 35s"}
{"loss": 0.6227747, "token_acc": 0.83897638, "grad_norm": 9.83286858, "learning_rate": 4.28e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.09592, "epoch": 0.56897218, "global_step/max_steps": "12235/21503", "percentage": "56.90%", "elapsed_time": "1d 11h 25m 53s", "remaining_time": "1d 2h 50m 21s"}
{"loss": 0.66916175, "token_acc": 0.83327213, "grad_norm": 7.56429005, "learning_rate": 4.27e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095942, "epoch": 0.5692047, "global_step/max_steps": "12240/21503", "percentage": "56.92%", "elapsed_time": "1d 11h 26m 17s", "remaining_time": "1d 2h 49m 7s"}
{"loss": 0.61014562, "token_acc": 0.8562477, "grad_norm": 7.92784309, "learning_rate": 4.27e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095964, "epoch": 0.56943722, "global_step/max_steps": "12245/21503", "percentage": "56.95%", "elapsed_time": "1d 11h 26m 39s", "remaining_time": "1d 2h 47m 53s"}
{"loss": 0.68234262, "token_acc": 0.83485594, "grad_norm": 7.50439835, "learning_rate": 4.26e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095986, "epoch": 0.56966974, "global_step/max_steps": "12250/21503", "percentage": "56.97%", "elapsed_time": "1d 11h 27m 2s", "remaining_time": "1d 2h 46m 39s"}
{"eval_loss": 0.58615911, "eval_runtime": 295.5018, "eval_samples_per_second": 11.76, "eval_steps_per_second": 11.76, "epoch": 0.56966974, "global_step/max_steps": "12250/21503", "percentage": "56.97%", "elapsed_time": "1d 11h 31m 58s", "remaining_time": "1d 2h 50m 22s"}
{"loss": 0.65280437, "token_acc": 0.82780912, "grad_norm": 5.38118172, "learning_rate": 4.26e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095786, "epoch": 0.56990226, "global_step/max_steps": "12255/21503", "percentage": "56.99%", "elapsed_time": "1d 11h 32m 21s", "remaining_time": "1d 2h 49m 8s"}
{"loss": 0.79822168, "token_acc": 0.78434941, "grad_norm": 6.92330503, "learning_rate": 4.26e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095808, "epoch": 0.57013477, "global_step/max_steps": "12260/21503", "percentage": "57.02%", "elapsed_time": "1d 11h 32m 44s", "remaining_time": "1d 2h 47m 54s"}
{"loss": 0.64750619, "token_acc": 0.84682613, "grad_norm": 8.10471535, "learning_rate": 4.25e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095829, "epoch": 0.57036729, "global_step/max_steps": "12265/21503", "percentage": "57.04%", "elapsed_time": "1d 11h 33m 7s", "remaining_time": "1d 2h 46m 40s"}
{"loss": 0.66804638, "token_acc": 0.84140481, "grad_norm": 7.67034531, "learning_rate": 4.25e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095852, "epoch": 0.57059981, "global_step/max_steps": "12270/21503", "percentage": "57.06%", "elapsed_time": "1d 11h 33m 30s", "remaining_time": "1d 2h 45m 25s"}
{"loss": 0.71385403, "token_acc": 0.82493468, "grad_norm": 10.76437092, "learning_rate": 4.25e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095874, "epoch": 0.57083233, "global_step/max_steps": "12275/21503", "percentage": "57.09%", "elapsed_time": "1d 11h 33m 52s", "remaining_time": "1d 2h 44m 11s"}
{"loss": 0.58672071, "token_acc": 0.85304804, "grad_norm": 9.68017673, "learning_rate": 4.24e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095896, "epoch": 0.57106485, "global_step/max_steps": "12280/21503", "percentage": "57.11%", "elapsed_time": "1d 11h 34m 14s", "remaining_time": "1d 2h 42m 56s"}
{"loss": 0.63216152, "token_acc": 0.83486563, "grad_norm": 6.8272357, "learning_rate": 4.24e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095918, "epoch": 0.57129736, "global_step/max_steps": "12285/21503", "percentage": "57.13%", "elapsed_time": "1d 11h 34m 38s", "remaining_time": "1d 2h 41m 42s"}
{"loss": 0.79467478, "token_acc": 0.8071506, "grad_norm": 7.80153084, "learning_rate": 4.23e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.09594, "epoch": 0.57152988, "global_step/max_steps": "12290/21503", "percentage": "57.15%", "elapsed_time": "1d 11h 35m 0s", "remaining_time": "1d 2h 40m 28s"}
{"loss": 0.64621115, "token_acc": 0.83384239, "grad_norm": 7.39088011, "learning_rate": 4.23e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095962, "epoch": 0.5717624, "global_step/max_steps": "12295/21503", "percentage": "57.18%", "elapsed_time": "1d 11h 35m 23s", "remaining_time": "1d 2h 39m 14s"}
{"loss": 0.66026011, "token_acc": 0.83389958, "grad_norm": 9.42201805, "learning_rate": 4.23e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095984, "epoch": 0.57199492, "global_step/max_steps": "12300/21503", "percentage": "57.20%", "elapsed_time": "1d 11h 35m 45s", "remaining_time": "1d 2h 38m 0s"}
{"eval_loss": 0.58565766, "eval_runtime": 291.848, "eval_samples_per_second": 11.907, "eval_steps_per_second": 11.907, "epoch": 0.57199492, "global_step/max_steps": "12300/21503", "percentage": "57.20%", "elapsed_time": "1d 11h 40m 37s", "remaining_time": "1d 2h 41m 38s"}
{"loss": 0.54411469, "token_acc": 0.8283153, "grad_norm": 7.99228811, "learning_rate": 4.22e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095787, "epoch": 0.57222744, "global_step/max_steps": "12305/21503", "percentage": "57.22%", "elapsed_time": "1d 11h 41m 1s", "remaining_time": "1d 2h 40m 25s"}
{"loss": 0.63293781, "token_acc": 0.84298881, "grad_norm": 7.50260496, "learning_rate": 4.22e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095809, "epoch": 0.57245996, "global_step/max_steps": "12310/21503", "percentage": "57.25%", "elapsed_time": "1d 11h 41m 24s", "remaining_time": "1d 2h 39m 11s"}
{"loss": 0.78188744, "token_acc": 0.80220713, "grad_norm": 6.39504719, "learning_rate": 4.21e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.09583, "epoch": 0.57269247, "global_step/max_steps": "12315/21503", "percentage": "57.27%", "elapsed_time": "1d 11h 41m 49s", "remaining_time": "1d 2h 37m 58s"}
{"loss": 0.71440253, "token_acc": 0.82488853, "grad_norm": 12.19460011, "learning_rate": 4.21e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095852, "epoch": 0.57292499, "global_step/max_steps": "12320/21503", "percentage": "57.29%", "elapsed_time": "1d 11h 42m 11s", "remaining_time": "1d 2h 36m 43s"}
{"loss": 0.66078181, "token_acc": 0.83057281, "grad_norm": 7.28534651, "learning_rate": 4.21e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095874, "epoch": 0.57315751, "global_step/max_steps": "12325/21503", "percentage": "57.32%", "elapsed_time": "1d 11h 42m 34s", "remaining_time": "1d 2h 35m 29s"}
{"loss": 0.73272357, "token_acc": 0.83005008, "grad_norm": 6.92343903, "learning_rate": 4.2e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095896, "epoch": 0.57339003, "global_step/max_steps": "12330/21503", "percentage": "57.34%", "elapsed_time": "1d 11h 42m 56s", "remaining_time": "1d 2h 34m 15s"}
{"loss": 0.65317583, "token_acc": 0.84129622, "grad_norm": 9.08766174, "learning_rate": 4.2e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095919, "epoch": 0.57362255, "global_step/max_steps": "12335/21503", "percentage": "57.36%", "elapsed_time": "1d 11h 43m 18s", "remaining_time": "1d 2h 33m 0s"}
{"loss": 0.65408554, "token_acc": 0.83426184, "grad_norm": 8.43198395, "learning_rate": 4.2e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095942, "epoch": 0.57385507, "global_step/max_steps": "12340/21503", "percentage": "57.39%", "elapsed_time": "1d 11h 43m 39s", "remaining_time": "1d 2h 31m 45s"}
{"loss": 0.64062986, "token_acc": 0.83006782, "grad_norm": 7.26953077, "learning_rate": 4.19e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095964, "epoch": 0.57408758, "global_step/max_steps": "12345/21503", "percentage": "57.41%", "elapsed_time": "1d 11h 44m 2s", "remaining_time": "1d 2h 30m 31s"}
{"loss": 0.77859321, "token_acc": 0.79453836, "grad_norm": 8.62626553, "learning_rate": 4.19e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095985, "epoch": 0.5743201, "global_step/max_steps": "12350/21503", "percentage": "57.43%", "elapsed_time": "1d 11h 44m 25s", "remaining_time": "1d 2h 29m 18s"}
{"eval_loss": 0.58444154, "eval_runtime": 291.785, "eval_samples_per_second": 11.909, "eval_steps_per_second": 11.909, "epoch": 0.5743201, "global_step/max_steps": "12350/21503", "percentage": "57.43%", "elapsed_time": "1d 11h 49m 17s", "remaining_time": "1d 2h 32m 54s"}
{"loss": 0.61060319, "token_acc": 0.82825168, "grad_norm": 9.09610367, "learning_rate": 4.18e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.09579, "epoch": 0.57455262, "global_step/max_steps": "12355/21503", "percentage": "57.46%", "elapsed_time": "1d 11h 49m 39s", "remaining_time": "1d 2h 31m 40s"}
{"loss": 0.78233814, "token_acc": 0.80399647, "grad_norm": 6.92556095, "learning_rate": 4.18e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095812, "epoch": 0.57478514, "global_step/max_steps": "12360/21503", "percentage": "57.48%", "elapsed_time": "1d 11h 50m 2s", "remaining_time": "1d 2h 30m 26s"}
{"loss": 0.64646916, "token_acc": 0.83136658, "grad_norm": 7.29280043, "learning_rate": 4.18e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095834, "epoch": 0.57501766, "global_step/max_steps": "12365/21503", "percentage": "57.50%", "elapsed_time": "1d 11h 50m 25s", "remaining_time": "1d 2h 29m 12s"}
{"loss": 0.61179342, "token_acc": 0.83596639, "grad_norm": 8.34546757, "learning_rate": 4.17e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095856, "epoch": 0.57525018, "global_step/max_steps": "12370/21503", "percentage": "57.53%", "elapsed_time": "1d 11h 50m 47s", "remaining_time": "1d 2h 27m 57s"}
{"loss": 0.549512, "token_acc": 0.85902031, "grad_norm": 5.22800398, "learning_rate": 4.17e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095878, "epoch": 0.57548269, "global_step/max_steps": "12375/21503", "percentage": "57.55%", "elapsed_time": "1d 11h 51m 9s", "remaining_time": "1d 2h 26m 43s"}
{"loss": 0.71397858, "token_acc": 0.81752066, "grad_norm": 10.15715694, "learning_rate": 4.17e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.0959, "epoch": 0.57571521, "global_step/max_steps": "12380/21503", "percentage": "57.57%", "elapsed_time": "1d 11h 51m 32s", "remaining_time": "1d 2h 25m 30s"}
{"loss": 0.58114104, "token_acc": 0.84595385, "grad_norm": 8.81885052, "learning_rate": 4.16e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095922, "epoch": 0.57594773, "global_step/max_steps": "12385/21503", "percentage": "57.60%", "elapsed_time": "1d 11h 51m 55s", "remaining_time": "1d 2h 24m 16s"}
{"loss": 0.67799368, "token_acc": 0.82024724, "grad_norm": 7.77677393, "learning_rate": 4.16e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095944, "epoch": 0.57618025, "global_step/max_steps": "12390/21503", "percentage": "57.62%", "elapsed_time": "1d 11h 52m 18s", "remaining_time": "1d 2h 23m 2s"}
{"loss": 0.57919888, "token_acc": 0.85449034, "grad_norm": 6.84290457, "learning_rate": 4.15e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095965, "epoch": 0.57641277, "global_step/max_steps": "12395/21503", "percentage": "57.64%", "elapsed_time": "1d 11h 52m 40s", "remaining_time": "1d 2h 21m 48s"}
{"loss": 0.73705926, "token_acc": 0.81190926, "grad_norm": 6.90264606, "learning_rate": 4.15e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095988, "epoch": 0.57664528, "global_step/max_steps": "12400/21503", "percentage": "57.67%", "elapsed_time": "1d 11h 53m 3s", "remaining_time": "1d 2h 20m 34s"}
{"eval_loss": 0.58413619, "eval_runtime": 291.209, "eval_samples_per_second": 11.933, "eval_steps_per_second": 11.933, "epoch": 0.57664528, "global_step/max_steps": "12400/21503", "percentage": "57.67%", "elapsed_time": "1d 11h 57m 54s", "remaining_time": "1d 2h 24m 8s"}
{"loss": 0.58850908, "token_acc": 0.82856363, "grad_norm": 8.64594269, "learning_rate": 4.15e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095792, "epoch": 0.5768778, "global_step/max_steps": "12405/21503", "percentage": "57.69%", "elapsed_time": "1d 11h 58m 18s", "remaining_time": "1d 2h 22m 56s"}
{"loss": 0.56497674, "token_acc": 0.85570687, "grad_norm": 9.00079632, "learning_rate": 4.14e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095814, "epoch": 0.57711032, "global_step/max_steps": "12410/21503", "percentage": "57.71%", "elapsed_time": "1d 11h 58m 42s", "remaining_time": "1d 2h 21m 42s"}
{"loss": 0.57989793, "token_acc": 0.86438417, "grad_norm": 8.41707897, "learning_rate": 4.14e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095835, "epoch": 0.57734284, "global_step/max_steps": "12415/21503", "percentage": "57.74%", "elapsed_time": "1d 11h 59m 4s", "remaining_time": "1d 2h 20m 29s"}
{"loss": 0.7484993, "token_acc": 0.81716678, "grad_norm": 7.8120513, "learning_rate": 4.14e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095857, "epoch": 0.57757536, "global_step/max_steps": "12420/21503", "percentage": "57.76%", "elapsed_time": "1d 11h 59m 27s", "remaining_time": "1d 2h 19m 15s"}
{"loss": 0.63215742, "token_acc": 0.84392828, "grad_norm": 6.61522579, "learning_rate": 4.13e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095879, "epoch": 0.57780788, "global_step/max_steps": "12425/21503", "percentage": "57.78%", "elapsed_time": "1d 11h 59m 49s", "remaining_time": "1d 2h 18m 1s"}
{"loss": 0.64890623, "token_acc": 0.84019461, "grad_norm": 9.89170742, "learning_rate": 4.13e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095901, "epoch": 0.57804039, "global_step/max_steps": "12430/21503", "percentage": "57.81%", "elapsed_time": "1d 12h 0m 12s", "remaining_time": "1d 2h 16m 47s"}
{"loss": 0.71491528, "token_acc": 0.81937603, "grad_norm": 6.71879959, "learning_rate": 4.12e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095923, "epoch": 0.57827291, "global_step/max_steps": "12435/21503", "percentage": "57.83%", "elapsed_time": "1d 12h 0m 34s", "remaining_time": "1d 2h 15m 33s"}
{"loss": 0.59380136, "token_acc": 0.84444444, "grad_norm": 7.43734407, "learning_rate": 4.12e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095946, "epoch": 0.57850543, "global_step/max_steps": "12440/21503", "percentage": "57.85%", "elapsed_time": "1d 12h 0m 56s", "remaining_time": "1d 2h 14m 19s"}
{"loss": 0.61257935, "token_acc": 0.83875249, "grad_norm": 6.788064, "learning_rate": 4.12e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095967, "epoch": 0.57873795, "global_step/max_steps": "12445/21503", "percentage": "57.88%", "elapsed_time": "1d 12h 1m 19s", "remaining_time": "1d 2h 13m 6s"}
{"loss": 0.61329756, "token_acc": 0.84328071, "grad_norm": 9.03939438, "learning_rate": 4.11e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095989, "epoch": 0.57897047, "global_step/max_steps": "12450/21503", "percentage": "57.90%", "elapsed_time": "1d 12h 1m 41s", "remaining_time": "1d 2h 11m 52s"}
{"eval_loss": 0.58350116, "eval_runtime": 291.6729, "eval_samples_per_second": 11.914, "eval_steps_per_second": 11.914, "epoch": 0.57897047, "global_step/max_steps": "12450/21503", "percentage": "57.90%", "elapsed_time": "1d 12h 6m 33s", "remaining_time": "1d 2h 15m 24s"}
{"loss": 0.72120328, "token_acc": 0.82812438, "grad_norm": 6.86741352, "learning_rate": 4.11e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095795, "epoch": 0.57920299, "global_step/max_steps": "12455/21503", "percentage": "57.92%", "elapsed_time": "1d 12h 6m 56s", "remaining_time": "1d 2h 14m 11s"}
{"loss": 0.77843356, "token_acc": 0.80154466, "grad_norm": 8.36139393, "learning_rate": 4.1e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095817, "epoch": 0.5794355, "global_step/max_steps": "12460/21503", "percentage": "57.95%", "elapsed_time": "1d 12h 7m 19s", "remaining_time": "1d 2h 12m 57s"}
{"loss": 0.64389353, "token_acc": 0.83749134, "grad_norm": 6.55636835, "learning_rate": 4.1e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095838, "epoch": 0.57966802, "global_step/max_steps": "12465/21503", "percentage": "57.97%", "elapsed_time": "1d 12h 7m 42s", "remaining_time": "1d 2h 11m 44s"}
{"loss": 0.6152308, "token_acc": 0.84798762, "grad_norm": 6.51118851, "learning_rate": 4.1e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.09586, "epoch": 0.57990054, "global_step/max_steps": "12470/21503", "percentage": "57.99%", "elapsed_time": "1d 12h 8m 5s", "remaining_time": "1d 2h 10m 30s"}
{"loss": 0.71762271, "token_acc": 0.82522671, "grad_norm": 9.09487057, "learning_rate": 4.09e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095881, "epoch": 0.58013306, "global_step/max_steps": "12475/21503", "percentage": "58.02%", "elapsed_time": "1d 12h 8m 28s", "remaining_time": "1d 2h 9m 17s"}
{"loss": 0.55617232, "token_acc": 0.86294416, "grad_norm": 8.88550854, "learning_rate": 4.09e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095903, "epoch": 0.58036558, "global_step/max_steps": "12480/21503", "percentage": "58.04%", "elapsed_time": "1d 12h 8m 51s", "remaining_time": "1d 2h 8m 4s"}
{"loss": 0.70909486, "token_acc": 0.81930547, "grad_norm": 8.38582039, "learning_rate": 4.09e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095924, "epoch": 0.5805981, "global_step/max_steps": "12485/21503", "percentage": "58.06%", "elapsed_time": "1d 12h 9m 14s", "remaining_time": "1d 2h 6m 51s"}
{"loss": 0.73216014, "token_acc": 0.83693138, "grad_norm": 8.58313656, "learning_rate": 4.08e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095945, "epoch": 0.58083061, "global_step/max_steps": "12490/21503", "percentage": "58.08%", "elapsed_time": "1d 12h 9m 37s", "remaining_time": "1d 2h 5m 38s"}
{"loss": 0.64283977, "token_acc": 0.84675909, "grad_norm": 7.68780804, "learning_rate": 4.08e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095967, "epoch": 0.58106313, "global_step/max_steps": "12495/21503", "percentage": "58.11%", "elapsed_time": "1d 12h 10m 0s", "remaining_time": "1d 2h 4m 24s"}
{"loss": 0.65869861, "token_acc": 0.83896104, "grad_norm": 8.04113102, "learning_rate": 4.07e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095989, "epoch": 0.58129565, "global_step/max_steps": "12500/21503", "percentage": "58.13%", "elapsed_time": "1d 12h 10m 22s", "remaining_time": "1d 2h 3m 11s"}
{"eval_loss": 0.58435595, "eval_runtime": 290.4963, "eval_samples_per_second": 11.962, "eval_steps_per_second": 11.962, "epoch": 0.58129565, "global_step/max_steps": "12500/21503", "percentage": "58.13%", "elapsed_time": "1d 12h 15m 12s", "remaining_time": "1d 2h 6m 40s"}
{"loss": 0.65035052, "token_acc": 0.82804523, "grad_norm": 8.2643404, "learning_rate": 4.07e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095797, "epoch": 0.58152817, "global_step/max_steps": "12505/21503", "percentage": "58.15%", "elapsed_time": "1d 12h 15m 36s", "remaining_time": "1d 2h 5m 27s"}
{"loss": 0.68741007, "token_acc": 0.82935026, "grad_norm": 8.27204227, "learning_rate": 4.07e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095819, "epoch": 0.58176069, "global_step/max_steps": "12510/21503", "percentage": "58.18%", "elapsed_time": "1d 12h 15m 58s", "remaining_time": "1d 2h 4m 13s"}
{"loss": 0.67201405, "token_acc": 0.839741, "grad_norm": 7.30724764, "learning_rate": 4.06e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.09584, "epoch": 0.5819932, "global_step/max_steps": "12515/21503", "percentage": "58.20%", "elapsed_time": "1d 12h 16m 21s", "remaining_time": "1d 2h 3m 0s"}
{"loss": 0.65707493, "token_acc": 0.82145237, "grad_norm": 5.76570511, "learning_rate": 4.06e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095862, "epoch": 0.58222572, "global_step/max_steps": "12520/21503", "percentage": "58.22%", "elapsed_time": "1d 12h 16m 44s", "remaining_time": "1d 2h 1m 47s"}
{"loss": 0.68575993, "token_acc": 0.84376493, "grad_norm": 10.11680222, "learning_rate": 4.06e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095884, "epoch": 0.58245824, "global_step/max_steps": "12525/21503", "percentage": "58.25%", "elapsed_time": "1d 12h 17m 6s", "remaining_time": "1d 2h 0m 34s"}
{"loss": 0.66959186, "token_acc": 0.8444125, "grad_norm": 9.83465576, "learning_rate": 4.05e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095905, "epoch": 0.58269076, "global_step/max_steps": "12530/21503", "percentage": "58.27%", "elapsed_time": "1d 12h 17m 29s", "remaining_time": "1d 1h 59m 21s"}
{"loss": 0.65293312, "token_acc": 0.8379413, "grad_norm": 9.24962139, "learning_rate": 4.05e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095927, "epoch": 0.58292328, "global_step/max_steps": "12535/21503", "percentage": "58.29%", "elapsed_time": "1d 12h 17m 52s", "remaining_time": "1d 1h 58m 7s"}
{"loss": 0.55675445, "token_acc": 0.86900826, "grad_norm": 8.80243683, "learning_rate": 4.04e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095948, "epoch": 0.5831558, "global_step/max_steps": "12540/21503", "percentage": "58.32%", "elapsed_time": "1d 12h 18m 15s", "remaining_time": "1d 1h 56m 55s"}
{"loss": 0.61596174, "token_acc": 0.85153374, "grad_norm": 8.02292347, "learning_rate": 4.04e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.09597, "epoch": 0.58338831, "global_step/max_steps": "12545/21503", "percentage": "58.34%", "elapsed_time": "1d 12h 18m 37s", "remaining_time": "1d 1h 55m 41s"}
{"loss": 0.7440321, "token_acc": 0.8174475, "grad_norm": 8.53778744, "learning_rate": 4.04e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095991, "epoch": 0.58362083, "global_step/max_steps": "12550/21503", "percentage": "58.36%", "elapsed_time": "1d 12h 19m 0s", "remaining_time": "1d 1h 54m 28s"}
{"eval_loss": 0.58584321, "eval_runtime": 291.3931, "eval_samples_per_second": 11.925, "eval_steps_per_second": 11.925, "epoch": 0.58362083, "global_step/max_steps": "12550/21503", "percentage": "58.36%", "elapsed_time": "1d 12h 23m 52s", "remaining_time": "1d 1h 57m 56s"}
{"loss": 0.67833195, "token_acc": 0.82823003, "grad_norm": 9.39013863, "learning_rate": 4.03e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095798, "epoch": 0.58385335, "global_step/max_steps": "12555/21503", "percentage": "58.39%", "elapsed_time": "1d 12h 24m 16s", "remaining_time": "1d 1h 56m 44s"}
{"loss": 0.74145994, "token_acc": 0.81627297, "grad_norm": 9.66921616, "learning_rate": 4.03e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095819, "epoch": 0.58408587, "global_step/max_steps": "12560/21503", "percentage": "58.41%", "elapsed_time": "1d 12h 24m 39s", "remaining_time": "1d 1h 55m 31s"}
{"loss": 0.62002873, "token_acc": 0.8414403, "grad_norm": 6.6903019, "learning_rate": 4.03e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.09584, "epoch": 0.58431839, "global_step/max_steps": "12565/21503", "percentage": "58.43%", "elapsed_time": "1d 12h 25m 3s", "remaining_time": "1d 1h 54m 19s"}
{"loss": 0.59030352, "token_acc": 0.85316265, "grad_norm": 7.84466934, "learning_rate": 4.02e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095862, "epoch": 0.58455091, "global_step/max_steps": "12570/21503", "percentage": "58.46%", "elapsed_time": "1d 12h 25m 25s", "remaining_time": "1d 1h 53m 6s"}
{"loss": 0.5819212, "token_acc": 0.8545809, "grad_norm": 8.2358427, "learning_rate": 4.02e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095884, "epoch": 0.58478342, "global_step/max_steps": "12575/21503", "percentage": "58.48%", "elapsed_time": "1d 12h 25m 48s", "remaining_time": "1d 1h 51m 52s"}
{"loss": 0.74593787, "token_acc": 0.8132009, "grad_norm": 8.18455219, "learning_rate": 4.01e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095905, "epoch": 0.58501594, "global_step/max_steps": "12580/21503", "percentage": "58.50%", "elapsed_time": "1d 12h 26m 11s", "remaining_time": "1d 1h 50m 39s"}
{"loss": 0.62247562, "token_acc": 0.8384337, "grad_norm": 6.24169159, "learning_rate": 4.01e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095926, "epoch": 0.58524846, "global_step/max_steps": "12585/21503", "percentage": "58.53%", "elapsed_time": "1d 12h 26m 34s", "remaining_time": "1d 1h 49m 27s"}
{"loss": 0.57632842, "token_acc": 0.85163776, "grad_norm": 8.50803375, "learning_rate": 4.01e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095948, "epoch": 0.58548098, "global_step/max_steps": "12590/21503", "percentage": "58.55%", "elapsed_time": "1d 12h 26m 56s", "remaining_time": "1d 1h 48m 14s"}
{"loss": 0.52582636, "token_acc": 0.86191733, "grad_norm": 8.4212532, "learning_rate": 4e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095969, "epoch": 0.5857135, "global_step/max_steps": "12595/21503", "percentage": "58.57%", "elapsed_time": "1d 12h 27m 19s", "remaining_time": "1d 1h 47m 1s"}
{"loss": 0.64167433, "token_acc": 0.83572404, "grad_norm": 7.33412027, "learning_rate": 4e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.09599, "epoch": 0.58594602, "global_step/max_steps": "12600/21503", "percentage": "58.60%", "elapsed_time": "1d 12h 27m 43s", "remaining_time": "1d 1h 45m 49s"}
{"eval_loss": 0.58271521, "eval_runtime": 292.4291, "eval_samples_per_second": 11.883, "eval_steps_per_second": 11.883, "epoch": 0.58594602, "global_step/max_steps": "12600/21503", "percentage": "58.60%", "elapsed_time": "1d 12h 32m 35s", "remaining_time": "1d 1h 49m 15s"}
{"loss": 0.59050536, "token_acc": 0.82917285, "grad_norm": 8.85120583, "learning_rate": 4e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095798, "epoch": 0.58617853, "global_step/max_steps": "12605/21503", "percentage": "58.62%", "elapsed_time": "1d 12h 32m 59s", "remaining_time": "1d 1h 48m 2s"}
{"loss": 0.71064844, "token_acc": 0.80663329, "grad_norm": 6.92124939, "learning_rate": 3.99e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095819, "epoch": 0.58641105, "global_step/max_steps": "12610/21503", "percentage": "58.64%", "elapsed_time": "1d 12h 33m 21s", "remaining_time": "1d 1h 46m 50s"}
{"loss": 0.63158197, "token_acc": 0.83411131, "grad_norm": 7.96790266, "learning_rate": 3.99e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095841, "epoch": 0.58664357, "global_step/max_steps": "12615/21503", "percentage": "58.67%", "elapsed_time": "1d 12h 33m 44s", "remaining_time": "1d 1h 45m 37s"}
{"loss": 0.58694906, "token_acc": 0.8605852, "grad_norm": 7.79425573, "learning_rate": 3.98e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095862, "epoch": 0.58687609, "global_step/max_steps": "12620/21503", "percentage": "58.69%", "elapsed_time": "1d 12h 34m 7s", "remaining_time": "1d 1h 44m 24s"}
{"loss": 0.68229818, "token_acc": 0.82757149, "grad_norm": 10.99494553, "learning_rate": 3.98e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095883, "epoch": 0.58710861, "global_step/max_steps": "12625/21503", "percentage": "58.71%", "elapsed_time": "1d 12h 34m 30s", "remaining_time": "1d 1h 43m 11s"}
{"loss": 0.61117458, "token_acc": 0.85473263, "grad_norm": 7.38089752, "learning_rate": 3.98e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095904, "epoch": 0.58734112, "global_step/max_steps": "12630/21503", "percentage": "58.74%", "elapsed_time": "1d 12h 34m 54s", "remaining_time": "1d 1h 41m 59s"}
{"loss": 0.61437154, "token_acc": 0.84864013, "grad_norm": 6.48157024, "learning_rate": 3.97e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095925, "epoch": 0.58757364, "global_step/max_steps": "12635/21503", "percentage": "58.76%", "elapsed_time": "1d 12h 35m 16s", "remaining_time": "1d 1h 40m 46s"}
{"loss": 0.68530722, "token_acc": 0.82070631, "grad_norm": 8.56424236, "learning_rate": 3.97e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095947, "epoch": 0.58780616, "global_step/max_steps": "12640/21503", "percentage": "58.78%", "elapsed_time": "1d 12h 35m 39s", "remaining_time": "1d 1h 39m 34s"}
{"loss": 0.54568124, "token_acc": 0.86477987, "grad_norm": 6.76515722, "learning_rate": 3.97e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095968, "epoch": 0.58803868, "global_step/max_steps": "12645/21503", "percentage": "58.81%", "elapsed_time": "1d 12h 36m 2s", "remaining_time": "1d 1h 38m 21s"}
{"loss": 0.63212953, "token_acc": 0.84092664, "grad_norm": 8.51491642, "learning_rate": 3.96e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095989, "epoch": 0.5882712, "global_step/max_steps": "12650/21503", "percentage": "58.83%", "elapsed_time": "1d 12h 36m 26s", "remaining_time": "1d 1h 37m 9s"}
{"eval_loss": 0.58448815, "eval_runtime": 291.3342, "eval_samples_per_second": 11.928, "eval_steps_per_second": 11.928, "epoch": 0.5882712, "global_step/max_steps": "12650/21503", "percentage": "58.83%", "elapsed_time": "1d 12h 41m 17s", "remaining_time": "1d 1h 40m 33s"}
{"loss": 0.58591056, "token_acc": 0.82874958, "grad_norm": 8.12054348, "learning_rate": 3.96e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095798, "epoch": 0.58850372, "global_step/max_steps": "12655/21503", "percentage": "58.85%", "elapsed_time": "1d 12h 41m 40s", "remaining_time": "1d 1h 39m 20s"}
{"loss": 0.59018064, "token_acc": 0.84593838, "grad_norm": 9.27128792, "learning_rate": 3.95e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095819, "epoch": 0.58873623, "global_step/max_steps": "12660/21503", "percentage": "58.88%", "elapsed_time": "1d 12h 42m 3s", "remaining_time": "1d 1h 38m 8s"}
{"loss": 0.6747705, "token_acc": 0.83480326, "grad_norm": 6.45236826, "learning_rate": 3.95e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.09584, "epoch": 0.58896875, "global_step/max_steps": "12665/21503", "percentage": "58.90%", "elapsed_time": "1d 12h 42m 27s", "remaining_time": "1d 1h 36m 56s"}
{"loss": 0.69103913, "token_acc": 0.82271881, "grad_norm": 5.98210478, "learning_rate": 3.95e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095861, "epoch": 0.58920127, "global_step/max_steps": "12670/21503", "percentage": "58.92%", "elapsed_time": "1d 12h 42m 50s", "remaining_time": "1d 1h 35m 44s"}
{"loss": 0.5870296, "token_acc": 0.85423197, "grad_norm": 9.3663559, "learning_rate": 3.94e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095881, "epoch": 0.58943379, "global_step/max_steps": "12675/21503", "percentage": "58.95%", "elapsed_time": "1d 12h 43m 14s", "remaining_time": "1d 1h 34m 32s"}
{"loss": 0.64490447, "token_acc": 0.84680253, "grad_norm": 8.06082439, "learning_rate": 3.94e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095902, "epoch": 0.58966631, "global_step/max_steps": "12680/21503", "percentage": "58.97%", "elapsed_time": "1d 12h 43m 37s", "remaining_time": "1d 1h 33m 19s"}
{"loss": 0.66217117, "token_acc": 0.82705846, "grad_norm": 8.35085678, "learning_rate": 3.94e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095923, "epoch": 0.58989883, "global_step/max_steps": "12685/21503", "percentage": "58.99%", "elapsed_time": "1d 12h 44m 0s", "remaining_time": "1d 1h 32m 7s"}
{"loss": 0.68915472, "token_acc": 0.83421986, "grad_norm": 7.20222998, "learning_rate": 3.93e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095945, "epoch": 0.59013134, "global_step/max_steps": "12690/21503", "percentage": "59.02%", "elapsed_time": "1d 12h 44m 22s", "remaining_time": "1d 1h 30m 54s"}
{"loss": 0.64768887, "token_acc": 0.84479371, "grad_norm": 7.00357246, "learning_rate": 3.93e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095967, "epoch": 0.59036386, "global_step/max_steps": "12695/21503", "percentage": "59.04%", "elapsed_time": "1d 12h 44m 45s", "remaining_time": "1d 1h 29m 41s"}
{"loss": 0.71073084, "token_acc": 0.82698816, "grad_norm": 9.95398808, "learning_rate": 3.92e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095987, "epoch": 0.59059638, "global_step/max_steps": "12700/21503", "percentage": "59.06%", "elapsed_time": "1d 12h 45m 9s", "remaining_time": "1d 1h 28m 29s"}
{"eval_loss": 0.5821237, "eval_runtime": 291.7847, "eval_samples_per_second": 11.909, "eval_steps_per_second": 11.909, "epoch": 0.59059638, "global_step/max_steps": "12700/21503", "percentage": "59.06%", "elapsed_time": "1d 12h 50m 0s", "remaining_time": "1d 1h 31m 52s"}
{"loss": 0.58396378, "token_acc": 0.82901762, "grad_norm": 5.73991871, "learning_rate": 3.92e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095797, "epoch": 0.5908289, "global_step/max_steps": "12705/21503", "percentage": "59.08%", "elapsed_time": "1d 12h 50m 24s", "remaining_time": "1d 1h 30m 40s"}
{"loss": 0.55484376, "token_acc": 0.86887836, "grad_norm": 8.68928432, "learning_rate": 3.92e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095818, "epoch": 0.59106142, "global_step/max_steps": "12710/21503", "percentage": "59.11%", "elapsed_time": "1d 12h 50m 47s", "remaining_time": "1d 1h 29m 27s"}
{"loss": 0.66014829, "token_acc": 0.84917175, "grad_norm": 8.82809925, "learning_rate": 3.91e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095839, "epoch": 0.59129394, "global_step/max_steps": "12715/21503", "percentage": "59.13%", "elapsed_time": "1d 12h 51m 9s", "remaining_time": "1d 1h 28m 15s"}
{"loss": 0.6170507, "token_acc": 0.85879218, "grad_norm": 8.25056171, "learning_rate": 3.91e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.09586, "epoch": 0.59152645, "global_step/max_steps": "12720/21503", "percentage": "59.15%", "elapsed_time": "1d 12h 51m 32s", "remaining_time": "1d 1h 27m 2s"}
{"loss": 0.74926405, "token_acc": 0.81944444, "grad_norm": 6.98050737, "learning_rate": 3.91e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095882, "epoch": 0.59175897, "global_step/max_steps": "12725/21503", "percentage": "59.18%", "elapsed_time": "1d 12h 51m 55s", "remaining_time": "1d 1h 25m 49s"}
{"loss": 0.6248363, "token_acc": 0.83364662, "grad_norm": 8.53927517, "learning_rate": 3.9e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095902, "epoch": 0.59199149, "global_step/max_steps": "12730/21503", "percentage": "59.20%", "elapsed_time": "1d 12h 52m 18s", "remaining_time": "1d 1h 24m 38s"}
{"loss": 0.66633949, "token_acc": 0.8276754, "grad_norm": 7.44926262, "learning_rate": 3.9e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095923, "epoch": 0.59222401, "global_step/max_steps": "12735/21503", "percentage": "59.22%", "elapsed_time": "1d 12h 52m 41s", "remaining_time": "1d 1h 23m 26s"}
{"loss": 0.63345366, "token_acc": 0.84152652, "grad_norm": 8.02650833, "learning_rate": 3.89e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095945, "epoch": 0.59245653, "global_step/max_steps": "12740/21503", "percentage": "59.25%", "elapsed_time": "1d 12h 53m 4s", "remaining_time": "1d 1h 22m 13s"}
{"loss": 0.69412155, "token_acc": 0.83459848, "grad_norm": 8.78693867, "learning_rate": 3.89e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095966, "epoch": 0.59268904, "global_step/max_steps": "12745/21503", "percentage": "59.27%", "elapsed_time": "1d 12h 53m 27s", "remaining_time": "1d 1h 21m 1s"}
{"loss": 0.60773191, "token_acc": 0.84686406, "grad_norm": 6.68617868, "learning_rate": 3.89e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095987, "epoch": 0.59292156, "global_step/max_steps": "12750/21503", "percentage": "59.29%", "elapsed_time": "1d 12h 53m 49s", "remaining_time": "1d 1h 19m 48s"}
{"eval_loss": 0.58213979, "eval_runtime": 291.4567, "eval_samples_per_second": 11.923, "eval_steps_per_second": 11.923, "epoch": 0.59292156, "global_step/max_steps": "12750/21503", "percentage": "59.29%", "elapsed_time": "1d 12h 58m 41s", "remaining_time": "1d 1h 23m 8s"}
{"loss": 0.54173732, "token_acc": 0.82941997, "grad_norm": 7.0078063, "learning_rate": 3.88e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095798, "epoch": 0.59315408, "global_step/max_steps": "12755/21503", "percentage": "59.32%", "elapsed_time": "1d 12h 59m 4s", "remaining_time": "1d 1h 21m 57s"}
{"loss": 0.67921276, "token_acc": 0.83121897, "grad_norm": 6.33791018, "learning_rate": 3.88e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095819, "epoch": 0.5933866, "global_step/max_steps": "12760/21503", "percentage": "59.34%", "elapsed_time": "1d 12h 59m 27s", "remaining_time": "1d 1h 20m 45s"}
{"loss": 0.7165204, "token_acc": 0.82163743, "grad_norm": 8.6604929, "learning_rate": 3.88e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.09584, "epoch": 0.59361912, "global_step/max_steps": "12765/21503", "percentage": "59.36%", "elapsed_time": "1d 12h 59m 50s", "remaining_time": "1d 1h 19m 32s"}
{"loss": 0.69899311, "token_acc": 0.81998631, "grad_norm": 7.19734192, "learning_rate": 3.87e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095861, "epoch": 0.59385164, "global_step/max_steps": "12770/21503", "percentage": "59.39%", "elapsed_time": "1d 13h 0m 13s", "remaining_time": "1d 1h 18m 20s"}
{"loss": 0.6296062, "token_acc": 0.83371298, "grad_norm": 6.2493968, "learning_rate": 3.87e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095882, "epoch": 0.59408415, "global_step/max_steps": "12775/21503", "percentage": "59.41%", "elapsed_time": "1d 13h 0m 36s", "remaining_time": "1d 1h 17m 8s"}
{"loss": 0.6844027, "token_acc": 0.83684864, "grad_norm": 6.07109022, "learning_rate": 3.86e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095903, "epoch": 0.59431667, "global_step/max_steps": "12780/21503", "percentage": "59.43%", "elapsed_time": "1d 13h 0m 59s", "remaining_time": "1d 1h 15m 56s"}
{"loss": 0.82788029, "token_acc": 0.79723502, "grad_norm": 7.89120007, "learning_rate": 3.86e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095924, "epoch": 0.59454919, "global_step/max_steps": "12785/21503", "percentage": "59.46%", "elapsed_time": "1d 13h 1m 22s", "remaining_time": "1d 1h 14m 44s"}
{"loss": 0.64551091, "token_acc": 0.84159188, "grad_norm": 9.56163883, "learning_rate": 3.86e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095945, "epoch": 0.59478171, "global_step/max_steps": "12790/21503", "percentage": "59.48%", "elapsed_time": "1d 13h 1m 45s", "remaining_time": "1d 1h 13m 32s"}
{"loss": 0.71299796, "token_acc": 0.79469122, "grad_norm": 7.37773705, "learning_rate": 3.85e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095965, "epoch": 0.59501423, "global_step/max_steps": "12795/21503", "percentage": "59.50%", "elapsed_time": "1d 13h 2m 8s", "remaining_time": "1d 1h 12m 20s"}
{"loss": 0.79469557, "token_acc": 0.80701145, "grad_norm": 7.44731903, "learning_rate": 3.85e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095987, "epoch": 0.59524675, "global_step/max_steps": "12800/21503", "percentage": "59.53%", "elapsed_time": "1d 13h 2m 31s", "remaining_time": "1d 1h 11m 8s"}
{"eval_loss": 0.58358943, "eval_runtime": 290.9893, "eval_samples_per_second": 11.942, "eval_steps_per_second": 11.942, "epoch": 0.59524675, "global_step/max_steps": "12800/21503", "percentage": "59.53%", "elapsed_time": "1d 13h 7m 22s", "remaining_time": "1d 1h 14m 26s"}
{"loss": 0.58253684, "token_acc": 0.82928044, "grad_norm": 8.09436035, "learning_rate": 3.85e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095798, "epoch": 0.59547926, "global_step/max_steps": "12805/21503", "percentage": "59.55%", "elapsed_time": "1d 13h 7m 45s", "remaining_time": "1d 1h 13m 14s"}
{"loss": 0.63239698, "token_acc": 0.84249201, "grad_norm": 7.13044643, "learning_rate": 3.84e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095819, "epoch": 0.59571178, "global_step/max_steps": "12810/21503", "percentage": "59.57%", "elapsed_time": "1d 13h 8m 9s", "remaining_time": "1d 1h 12m 2s"}
{"loss": 0.63362627, "token_acc": 0.83672152, "grad_norm": 8.11547565, "learning_rate": 3.84e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.09584, "epoch": 0.5959443, "global_step/max_steps": "12815/21503", "percentage": "59.60%", "elapsed_time": "1d 13h 8m 31s", "remaining_time": "1d 1h 10m 50s"}
{"loss": 0.69360504, "token_acc": 0.82131207, "grad_norm": 9.91349888, "learning_rate": 3.83e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095861, "epoch": 0.59617682, "global_step/max_steps": "12820/21503", "percentage": "59.62%", "elapsed_time": "1d 13h 8m 54s", "remaining_time": "1d 1h 9m 38s"}
{"loss": 0.56945658, "token_acc": 0.8766328, "grad_norm": 8.24488831, "learning_rate": 3.83e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095881, "epoch": 0.59640934, "global_step/max_steps": "12825/21503", "percentage": "59.64%", "elapsed_time": "1d 13h 9m 19s", "remaining_time": "1d 1h 8m 27s"}
{"loss": 0.74746776, "token_acc": 0.82971916, "grad_norm": 6.95888853, "learning_rate": 3.83e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095902, "epoch": 0.59664186, "global_step/max_steps": "12830/21503", "percentage": "59.67%", "elapsed_time": "1d 13h 9m 42s", "remaining_time": "1d 1h 7m 15s"}
{"loss": 0.67519503, "token_acc": 0.83651926, "grad_norm": 7.21980524, "learning_rate": 3.82e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095923, "epoch": 0.59687437, "global_step/max_steps": "12835/21503", "percentage": "59.69%", "elapsed_time": "1d 13h 10m 5s", "remaining_time": "1d 1h 6m 4s"}
{"loss": 0.64472041, "token_acc": 0.83364278, "grad_norm": 7.97552252, "learning_rate": 3.82e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095943, "epoch": 0.59710689, "global_step/max_steps": "12840/21503", "percentage": "59.71%", "elapsed_time": "1d 13h 10m 29s", "remaining_time": "1d 1h 4m 52s"}
{"loss": 0.64012175, "token_acc": 0.83585056, "grad_norm": 8.00240421, "learning_rate": 3.82e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095963, "epoch": 0.59733941, "global_step/max_steps": "12845/21503", "percentage": "59.74%", "elapsed_time": "1d 13h 10m 52s", "remaining_time": "1d 1h 3m 41s"}
{"loss": 0.58227615, "token_acc": 0.85313093, "grad_norm": 8.33043766, "learning_rate": 3.81e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095984, "epoch": 0.59757193, "global_step/max_steps": "12850/21503", "percentage": "59.76%", "elapsed_time": "1d 13h 11m 15s", "remaining_time": "1d 1h 2m 29s"}
{"eval_loss": 0.58132696, "eval_runtime": 290.2078, "eval_samples_per_second": 11.974, "eval_steps_per_second": 11.974, "epoch": 0.59757193, "global_step/max_steps": "12850/21503", "percentage": "59.76%", "elapsed_time": "1d 13h 16m 5s", "remaining_time": "1d 1h 5m 45s"}
{"loss": 0.69849486, "token_acc": 0.82867536, "grad_norm": 6.68916464, "learning_rate": 3.81e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095798, "epoch": 0.59780445, "global_step/max_steps": "12855/21503", "percentage": "59.78%", "elapsed_time": "1d 13h 16m 28s", "remaining_time": "1d 1h 4m 33s"}
{"loss": 0.71836867, "token_acc": 0.81826189, "grad_norm": 7.69291258, "learning_rate": 3.8e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095819, "epoch": 0.59803696, "global_step/max_steps": "12860/21503", "percentage": "59.81%", "elapsed_time": "1d 13h 16m 51s", "remaining_time": "1d 1h 3m 21s"}
{"loss": 0.70708923, "token_acc": 0.82979334, "grad_norm": 7.31823397, "learning_rate": 3.8e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.09584, "epoch": 0.59826948, "global_step/max_steps": "12865/21503", "percentage": "59.83%", "elapsed_time": "1d 13h 17m 14s", "remaining_time": "1d 1h 2m 9s"}
{"loss": 0.70832796, "token_acc": 0.83104345, "grad_norm": 8.46946239, "learning_rate": 3.8e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095861, "epoch": 0.598502, "global_step/max_steps": "12870/21503", "percentage": "59.85%", "elapsed_time": "1d 13h 17m 37s", "remaining_time": "1d 1h 0m 57s"}
{"loss": 0.56969299, "token_acc": 0.85714286, "grad_norm": 9.08245754, "learning_rate": 3.79e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095882, "epoch": 0.59873452, "global_step/max_steps": "12875/21503", "percentage": "59.88%", "elapsed_time": "1d 13h 17m 59s", "remaining_time": "1d 0h 59m 45s"}
{"loss": 0.75114985, "token_acc": 0.81738467, "grad_norm": 9.04974365, "learning_rate": 3.79e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095903, "epoch": 0.59896704, "global_step/max_steps": "12880/21503", "percentage": "59.90%", "elapsed_time": "1d 13h 18m 22s", "remaining_time": "1d 0h 58m 33s"}
{"loss": 0.56140647, "token_acc": 0.84814682, "grad_norm": 9.38152885, "learning_rate": 3.79e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095924, "epoch": 0.59919956, "global_step/max_steps": "12885/21503", "percentage": "59.92%", "elapsed_time": "1d 13h 18m 45s", "remaining_time": "1d 0h 57m 22s"}
{"loss": 0.57663822, "token_acc": 0.85522496, "grad_norm": 8.04911804, "learning_rate": 3.78e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095945, "epoch": 0.59943207, "global_step/max_steps": "12890/21503", "percentage": "59.95%", "elapsed_time": "1d 13h 19m 7s", "remaining_time": "1d 0h 56m 10s"}
{"loss": 0.68926806, "token_acc": 0.82991304, "grad_norm": 6.83262348, "learning_rate": 3.78e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095966, "epoch": 0.59966459, "global_step/max_steps": "12895/21503", "percentage": "59.97%", "elapsed_time": "1d 13h 19m 30s", "remaining_time": "1d 0h 54m 58s"}
{"loss": 0.67013168, "token_acc": 0.83029453, "grad_norm": 8.11955261, "learning_rate": 3.77e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095987, "epoch": 0.59989711, "global_step/max_steps": "12900/21503", "percentage": "59.99%", "elapsed_time": "1d 13h 19m 52s", "remaining_time": "1d 0h 53m 46s"}
{"eval_loss": 0.58048826, "eval_runtime": 290.8058, "eval_samples_per_second": 11.95, "eval_steps_per_second": 11.95, "epoch": 0.59989711, "global_step/max_steps": "12900/21503", "percentage": "59.99%", "elapsed_time": "1d 13h 24m 43s", "remaining_time": "1d 0h 57m 0s"}
{"loss": 0.65001168, "token_acc": 0.8292998, "grad_norm": 9.42883778, "learning_rate": 3.77e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095801, "epoch": 0.60012963, "global_step/max_steps": "12905/21503", "percentage": "60.01%", "elapsed_time": "1d 13h 25m 6s", "remaining_time": "1d 0h 55m 48s"}
{"loss": 0.5859549, "token_acc": 0.83223031, "grad_norm": 8.7236557, "learning_rate": 3.77e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095821, "epoch": 0.60036215, "global_step/max_steps": "12910/21503", "percentage": "60.04%", "elapsed_time": "1d 13h 25m 29s", "remaining_time": "1d 0h 54m 37s"}
{"loss": 0.70682163, "token_acc": 0.82899851, "grad_norm": 7.60242653, "learning_rate": 3.76e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095843, "epoch": 0.60059467, "global_step/max_steps": "12915/21503", "percentage": "60.06%", "elapsed_time": "1d 13h 25m 51s", "remaining_time": "1d 0h 53m 25s"}
{"loss": 0.73751507, "token_acc": 0.81467056, "grad_norm": 7.8326683, "learning_rate": 3.76e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095864, "epoch": 0.60082718, "global_step/max_steps": "12920/21503", "percentage": "60.08%", "elapsed_time": "1d 13h 26m 14s", "remaining_time": "1d 0h 52m 13s"}
{"loss": 0.80591145, "token_acc": 0.78782803, "grad_norm": 8.14323044, "learning_rate": 3.76e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095884, "epoch": 0.6010597, "global_step/max_steps": "12925/21503", "percentage": "60.11%", "elapsed_time": "1d 13h 26m 37s", "remaining_time": "1d 0h 51m 1s"}
{"loss": 0.57848811, "token_acc": 0.84832159, "grad_norm": 6.75911856, "learning_rate": 3.75e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095905, "epoch": 0.60129222, "global_step/max_steps": "12930/21503", "percentage": "60.13%", "elapsed_time": "1d 13h 27m 1s", "remaining_time": "1d 0h 49m 50s"}
{"loss": 0.62978826, "token_acc": 0.8391791, "grad_norm": 7.46581221, "learning_rate": 3.75e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095925, "epoch": 0.60152474, "global_step/max_steps": "12935/21503", "percentage": "60.15%", "elapsed_time": "1d 13h 27m 24s", "remaining_time": "1d 0h 48m 39s"}
{"loss": 0.74516149, "token_acc": 0.81641026, "grad_norm": 7.30921984, "learning_rate": 3.74e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095947, "epoch": 0.60175726, "global_step/max_steps": "12940/21503", "percentage": "60.18%", "elapsed_time": "1d 13h 27m 46s", "remaining_time": "1d 0h 47m 27s"}
{"loss": 0.78991961, "token_acc": 0.80730659, "grad_norm": 8.28935528, "learning_rate": 3.74e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095968, "epoch": 0.60198978, "global_step/max_steps": "12945/21503", "percentage": "60.20%", "elapsed_time": "1d 13h 28m 9s", "remaining_time": "1d 0h 46m 15s"}
{"loss": 0.65451183, "token_acc": 0.81811798, "grad_norm": 8.10840797, "learning_rate": 3.74e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095988, "epoch": 0.60222229, "global_step/max_steps": "12950/21503", "percentage": "60.22%", "elapsed_time": "1d 13h 28m 31s", "remaining_time": "1d 0h 45m 4s"}
{"eval_loss": 0.58238298, "eval_runtime": 292.6367, "eval_samples_per_second": 11.875, "eval_steps_per_second": 11.875, "epoch": 0.60222229, "global_step/max_steps": "12950/21503", "percentage": "60.22%", "elapsed_time": "1d 13h 33m 24s", "remaining_time": "1d 0h 48m 17s"}
{"loss": 0.65219898, "token_acc": 0.82861815, "grad_norm": 8.29249954, "learning_rate": 3.73e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095801, "epoch": 0.60245481, "global_step/max_steps": "12955/21503", "percentage": "60.25%", "elapsed_time": "1d 13h 33m 47s", "remaining_time": "1d 0h 47m 6s"}
{"loss": 0.67248373, "token_acc": 0.84373788, "grad_norm": 10.9768219, "learning_rate": 3.73e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095822, "epoch": 0.60268733, "global_step/max_steps": "12960/21503", "percentage": "60.27%", "elapsed_time": "1d 13h 34m 10s", "remaining_time": "1d 0h 45m 54s"}
{"loss": 0.76331029, "token_acc": 0.8059814, "grad_norm": 7.34429312, "learning_rate": 3.73e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095842, "epoch": 0.60291985, "global_step/max_steps": "12965/21503", "percentage": "60.29%", "elapsed_time": "1d 13h 34m 34s", "remaining_time": "1d 0h 44m 43s"}
{"loss": 0.70927057, "token_acc": 0.8277598, "grad_norm": 8.6653614, "learning_rate": 3.72e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095862, "epoch": 0.60315237, "global_step/max_steps": "12970/21503", "percentage": "60.32%", "elapsed_time": "1d 13h 34m 58s", "remaining_time": "1d 0h 43m 33s"}
{"loss": 0.60856118, "token_acc": 0.83962683, "grad_norm": 8.47538376, "learning_rate": 3.72e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095882, "epoch": 0.60338488, "global_step/max_steps": "12975/21503", "percentage": "60.34%", "elapsed_time": "1d 13h 35m 21s", "remaining_time": "1d 0h 42m 22s"}
{"loss": 0.71047215, "token_acc": 0.81946364, "grad_norm": 5.80856419, "learning_rate": 3.71e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095903, "epoch": 0.6036174, "global_step/max_steps": "12980/21503", "percentage": "60.36%", "elapsed_time": "1d 13h 35m 44s", "remaining_time": "1d 0h 41m 10s"}
{"loss": 0.65462351, "token_acc": 0.828125, "grad_norm": 6.99335814, "learning_rate": 3.71e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095924, "epoch": 0.60384992, "global_step/max_steps": "12985/21503", "percentage": "60.39%", "elapsed_time": "1d 13h 36m 8s", "remaining_time": "1d 0h 39m 59s"}
{"loss": 0.69304514, "token_acc": 0.83001808, "grad_norm": 8.32250404, "learning_rate": 3.71e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095944, "epoch": 0.60408244, "global_step/max_steps": "12990/21503", "percentage": "60.41%", "elapsed_time": "1d 13h 36m 31s", "remaining_time": "1d 0h 38m 48s"}
{"loss": 0.59288621, "token_acc": 0.85949367, "grad_norm": 9.36544132, "learning_rate": 3.7e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095964, "epoch": 0.60431496, "global_step/max_steps": "12995/21503", "percentage": "60.43%", "elapsed_time": "1d 13h 36m 55s", "remaining_time": "1d 0h 37m 38s"}
{"loss": 0.62759528, "token_acc": 0.84736842, "grad_norm": 7.08116198, "learning_rate": 3.7e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095984, "epoch": 0.60454748, "global_step/max_steps": "13000/21503", "percentage": "60.46%", "elapsed_time": "1d 13h 37m 18s", "remaining_time": "1d 0h 36m 27s"}
{"eval_loss": 0.58246362, "eval_runtime": 290.8141, "eval_samples_per_second": 11.949, "eval_steps_per_second": 11.949, "epoch": 0.60454748, "global_step/max_steps": "13000/21503", "percentage": "60.46%", "elapsed_time": "1d 13h 42m 9s", "remaining_time": "1d 0h 39m 37s"}
{"loss": 0.631321, "token_acc": 0.82887726, "grad_norm": 6.18698406, "learning_rate": 3.7e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095799, "epoch": 0.60477999, "global_step/max_steps": "13005/21503", "percentage": "60.48%", "elapsed_time": "1d 13h 42m 32s", "remaining_time": "1d 0h 38m 26s"}
{"loss": 0.82411566, "token_acc": 0.80112994, "grad_norm": 9.29638672, "learning_rate": 3.69e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.09582, "epoch": 0.60501251, "global_step/max_steps": "13010/21503", "percentage": "60.50%", "elapsed_time": "1d 13h 42m 55s", "remaining_time": "1d 0h 37m 14s"}
{"loss": 0.65208516, "token_acc": 0.84006908, "grad_norm": 7.9132123, "learning_rate": 3.69e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.09584, "epoch": 0.60524503, "global_step/max_steps": "13015/21503", "percentage": "60.53%", "elapsed_time": "1d 13h 43m 18s", "remaining_time": "1d 0h 36m 3s"}
{"loss": 0.64115143, "token_acc": 0.8310962, "grad_norm": 7.70374441, "learning_rate": 3.68e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095861, "epoch": 0.60547755, "global_step/max_steps": "13020/21503", "percentage": "60.55%", "elapsed_time": "1d 13h 43m 41s", "remaining_time": "1d 0h 34m 52s"}
{"loss": 0.60279584, "token_acc": 0.84851733, "grad_norm": 9.64415646, "learning_rate": 3.68e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095882, "epoch": 0.60571007, "global_step/max_steps": "13025/21503", "percentage": "60.57%", "elapsed_time": "1d 13h 44m 4s", "remaining_time": "1d 0h 33m 41s"}
{"loss": 0.6812789, "token_acc": 0.82785371, "grad_norm": 10.0267334, "learning_rate": 3.68e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095902, "epoch": 0.60594259, "global_step/max_steps": "13030/21503", "percentage": "60.60%", "elapsed_time": "1d 13h 44m 27s", "remaining_time": "1d 0h 32m 30s"}
{"loss": 0.63150187, "token_acc": 0.84086799, "grad_norm": 8.00976276, "learning_rate": 3.67e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095922, "epoch": 0.6061751, "global_step/max_steps": "13035/21503", "percentage": "60.62%", "elapsed_time": "1d 13h 44m 50s", "remaining_time": "1d 0h 31m 19s"}
{"loss": 0.83862476, "token_acc": 0.8117284, "grad_norm": 9.46361065, "learning_rate": 3.67e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095943, "epoch": 0.60640762, "global_step/max_steps": "13040/21503", "percentage": "60.64%", "elapsed_time": "1d 13h 45m 13s", "remaining_time": "1d 0h 30m 8s"}
{"loss": 0.64007215, "token_acc": 0.84542816, "grad_norm": 7.5177021, "learning_rate": 3.67e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095964, "epoch": 0.60664014, "global_step/max_steps": "13045/21503", "percentage": "60.67%", "elapsed_time": "1d 13h 45m 36s", "remaining_time": "1d 0h 28m 57s"}
{"loss": 0.60208163, "token_acc": 0.84432799, "grad_norm": 8.28809357, "learning_rate": 3.66e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095984, "epoch": 0.60687266, "global_step/max_steps": "13050/21503", "percentage": "60.69%", "elapsed_time": "1d 13h 46m 0s", "remaining_time": "1d 0h 27m 46s"}
{"eval_loss": 0.58130985, "eval_runtime": 292.0744, "eval_samples_per_second": 11.898, "eval_steps_per_second": 11.898, "epoch": 0.60687266, "global_step/max_steps": "13050/21503", "percentage": "60.69%", "elapsed_time": "1d 13h 50m 52s", "remaining_time": "1d 0h 30m 56s"}
{"loss": 0.6771801, "token_acc": 0.8286899, "grad_norm": 6.002388, "learning_rate": 3.66e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095799, "epoch": 0.60710518, "global_step/max_steps": "13055/21503", "percentage": "60.71%", "elapsed_time": "1d 13h 51m 15s", "remaining_time": "1d 0h 29m 44s"}
{"loss": 0.7498508, "token_acc": 0.81523096, "grad_norm": 8.34850407, "learning_rate": 3.66e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095819, "epoch": 0.60733769, "global_step/max_steps": "13060/21503", "percentage": "60.74%", "elapsed_time": "1d 13h 51m 37s", "remaining_time": "1d 0h 28m 33s"}
{"loss": 0.66232133, "token_acc": 0.82699187, "grad_norm": 6.03151512, "learning_rate": 3.65e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.09584, "epoch": 0.60757021, "global_step/max_steps": "13065/21503", "percentage": "60.76%", "elapsed_time": "1d 13h 52m 0s", "remaining_time": "1d 0h 27m 22s"}
{"loss": 0.57821035, "token_acc": 0.86028088, "grad_norm": 8.77165127, "learning_rate": 3.65e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095861, "epoch": 0.60780273, "global_step/max_steps": "13070/21503", "percentage": "60.78%", "elapsed_time": "1d 13h 52m 23s", "remaining_time": "1d 0h 26m 11s"}
{"loss": 0.57172265, "token_acc": 0.85291859, "grad_norm": 9.95758915, "learning_rate": 3.64e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095881, "epoch": 0.60803525, "global_step/max_steps": "13075/21503", "percentage": "60.81%", "elapsed_time": "1d 13h 52m 46s", "remaining_time": "1d 0h 25m 0s"}
{"loss": 0.62822394, "token_acc": 0.8373354, "grad_norm": 9.75504398, "learning_rate": 3.64e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095902, "epoch": 0.60826777, "global_step/max_steps": "13080/21503", "percentage": "60.83%", "elapsed_time": "1d 13h 53m 8s", "remaining_time": "1d 0h 23m 49s"}
{"loss": 0.7247118, "token_acc": 0.81979119, "grad_norm": 9.72081375, "learning_rate": 3.64e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095923, "epoch": 0.60850029, "global_step/max_steps": "13085/21503", "percentage": "60.85%", "elapsed_time": "1d 13h 53m 31s", "remaining_time": "1d 0h 22m 37s"}
{"loss": 0.66648684, "token_acc": 0.83586406, "grad_norm": 7.89688158, "learning_rate": 3.63e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095943, "epoch": 0.6087328, "global_step/max_steps": "13090/21503", "percentage": "60.88%", "elapsed_time": "1d 13h 53m 55s", "remaining_time": "1d 0h 21m 27s"}
{"loss": 0.81780787, "token_acc": 0.77841635, "grad_norm": 7.92525673, "learning_rate": 3.63e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095963, "epoch": 0.60896532, "global_step/max_steps": "13095/21503", "percentage": "60.90%", "elapsed_time": "1d 13h 54m 17s", "remaining_time": "1d 0h 20m 16s"}
{"loss": 0.51274219, "token_acc": 0.8643181, "grad_norm": 8.73812485, "learning_rate": 3.63e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095984, "epoch": 0.60919784, "global_step/max_steps": "13100/21503", "percentage": "60.92%", "elapsed_time": "1d 13h 54m 40s", "remaining_time": "1d 0h 19m 5s"}
{"eval_loss": 0.58075446, "eval_runtime": 294.0126, "eval_samples_per_second": 11.819, "eval_steps_per_second": 11.819, "epoch": 0.60919784, "global_step/max_steps": "13100/21503", "percentage": "60.92%", "elapsed_time": "1d 13h 59m 34s", "remaining_time": "1d 0h 22m 14s"}
{"loss": 0.64969702, "token_acc": 0.82923039, "grad_norm": 7.59791613, "learning_rate": 3.62e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095798, "epoch": 0.60943036, "global_step/max_steps": "13105/21503", "percentage": "60.94%", "elapsed_time": "1d 13h 59m 58s", "remaining_time": "1d 0h 21m 3s"}
{"loss": 0.55603971, "token_acc": 0.86210805, "grad_norm": 7.86601019, "learning_rate": 3.62e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095819, "epoch": 0.60966288, "global_step/max_steps": "13110/21503", "percentage": "60.97%", "elapsed_time": "1d 14h 0m 20s", "remaining_time": "1d 0h 19m 52s"}
{"loss": 0.57557325, "token_acc": 0.85871224, "grad_norm": 10.03438759, "learning_rate": 3.61e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095839, "epoch": 0.6098954, "global_step/max_steps": "13115/21503", "percentage": "60.99%", "elapsed_time": "1d 14h 0m 44s", "remaining_time": "1d 0h 18m 41s"}
{"loss": 0.53215356, "token_acc": 0.8643453, "grad_norm": 6.88977194, "learning_rate": 3.61e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095859, "epoch": 0.61012791, "global_step/max_steps": "13120/21503", "percentage": "61.01%", "elapsed_time": "1d 14h 1m 7s", "remaining_time": "1d 0h 17m 31s"}
{"loss": 0.75922489, "token_acc": 0.80450118, "grad_norm": 9.34017754, "learning_rate": 3.61e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.09588, "epoch": 0.61036043, "global_step/max_steps": "13125/21503", "percentage": "61.04%", "elapsed_time": "1d 14h 1m 30s", "remaining_time": "1d 0h 16m 20s"}
{"loss": 0.59405441, "token_acc": 0.86396637, "grad_norm": 9.32217884, "learning_rate": 3.6e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095901, "epoch": 0.61059295, "global_step/max_steps": "13130/21503", "percentage": "61.06%", "elapsed_time": "1d 14h 1m 52s", "remaining_time": "1d 0h 15m 9s"}
{"loss": 0.62647681, "token_acc": 0.8332737, "grad_norm": 9.26490879, "learning_rate": 3.6e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095921, "epoch": 0.61082547, "global_step/max_steps": "13135/21503", "percentage": "61.08%", "elapsed_time": "1d 14h 2m 15s", "remaining_time": "1d 0h 13m 58s"}
{"loss": 0.76032252, "token_acc": 0.80683704, "grad_norm": 8.1989212, "learning_rate": 3.6e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095941, "epoch": 0.61105799, "global_step/max_steps": "13140/21503", "percentage": "61.11%", "elapsed_time": "1d 14h 2m 38s", "remaining_time": "1d 0h 12m 47s"}
{"loss": 0.68042235, "token_acc": 0.82572325, "grad_norm": 10.89584637, "learning_rate": 3.59e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095962, "epoch": 0.61129051, "global_step/max_steps": "13145/21503", "percentage": "61.13%", "elapsed_time": "1d 14h 3m 1s", "remaining_time": "1d 0h 11m 37s"}
{"loss": 0.71446166, "token_acc": 0.81766094, "grad_norm": 11.36979103, "learning_rate": 3.59e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095982, "epoch": 0.61152302, "global_step/max_steps": "13150/21503", "percentage": "61.15%", "elapsed_time": "1d 14h 3m 24s", "remaining_time": "1d 0h 10m 26s"}
{"eval_loss": 0.58252293, "eval_runtime": 293.787, "eval_samples_per_second": 11.828, "eval_steps_per_second": 11.828, "epoch": 0.61152302, "global_step/max_steps": "13150/21503", "percentage": "61.15%", "elapsed_time": "1d 14h 8m 18s", "remaining_time": "1d 0h 13m 33s"}
{"loss": 0.72751217, "token_acc": 0.82879845, "grad_norm": 8.71914387, "learning_rate": 3.59e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095797, "epoch": 0.61175554, "global_step/max_steps": "13155/21503", "percentage": "61.18%", "elapsed_time": "1d 14h 8m 41s", "remaining_time": "1d 0h 12m 22s"}
{"loss": 0.65114813, "token_acc": 0.83542379, "grad_norm": 7.49649429, "learning_rate": 3.58e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095818, "epoch": 0.61198806, "global_step/max_steps": "13160/21503", "percentage": "61.20%", "elapsed_time": "1d 14h 9m 4s", "remaining_time": "1d 0h 11m 11s"}
{"loss": 0.5719172, "token_acc": 0.83982087, "grad_norm": 7.97627735, "learning_rate": 3.58e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095838, "epoch": 0.61222058, "global_step/max_steps": "13165/21503", "percentage": "61.22%", "elapsed_time": "1d 14h 9m 26s", "remaining_time": "1d 0h 10m 0s"}
{"loss": 0.67318654, "token_acc": 0.8383915, "grad_norm": 8.02461147, "learning_rate": 3.57e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095859, "epoch": 0.6124531, "global_step/max_steps": "13170/21503", "percentage": "61.25%", "elapsed_time": "1d 14h 9m 49s", "remaining_time": "1d 0h 8m 49s"}
{"loss": 0.62239513, "token_acc": 0.84699156, "grad_norm": 7.20292091, "learning_rate": 3.57e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095879, "epoch": 0.61268561, "global_step/max_steps": "13175/21503", "percentage": "61.27%", "elapsed_time": "1d 14h 10m 12s", "remaining_time": "1d 0h 7m 39s"}
{"loss": 0.56266074, "token_acc": 0.86121593, "grad_norm": 10.92460251, "learning_rate": 3.57e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.0959, "epoch": 0.61291813, "global_step/max_steps": "13180/21503", "percentage": "61.29%", "elapsed_time": "1d 14h 10m 34s", "remaining_time": "1d 0h 6m 28s"}
{"loss": 0.72957792, "token_acc": 0.8218287, "grad_norm": 7.20861197, "learning_rate": 3.56e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.09592, "epoch": 0.61315065, "global_step/max_steps": "13185/21503", "percentage": "61.32%", "elapsed_time": "1d 14h 10m 57s", "remaining_time": "1d 0h 5m 17s"}
{"loss": 0.56553006, "token_acc": 0.85832949, "grad_norm": 9.75580788, "learning_rate": 3.56e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095941, "epoch": 0.61338317, "global_step/max_steps": "13190/21503", "percentage": "61.34%", "elapsed_time": "1d 14h 11m 20s", "remaining_time": "1d 0h 4m 6s"}
{"loss": 0.55938778, "token_acc": 0.86209216, "grad_norm": 8.56541061, "learning_rate": 3.56e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095961, "epoch": 0.61361569, "global_step/max_steps": "13195/21503", "percentage": "61.36%", "elapsed_time": "1d 14h 11m 43s", "remaining_time": "1d 0h 2m 56s"}
{"loss": 0.70323558, "token_acc": 0.82384641, "grad_norm": 9.32791042, "learning_rate": 3.55e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095982, "epoch": 0.61384821, "global_step/max_steps": "13200/21503", "percentage": "61.39%", "elapsed_time": "1d 14h 12m 6s", "remaining_time": "1d 0h 1m 46s"}
{"eval_loss": 0.58116138, "eval_runtime": 292.8198, "eval_samples_per_second": 11.867, "eval_steps_per_second": 11.867, "epoch": 0.61384821, "global_step/max_steps": "13200/21503", "percentage": "61.39%", "elapsed_time": "1d 14h 16m 58s", "remaining_time": "1d 0h 4m 50s"}
{"loss": 0.66837177, "token_acc": 0.82943277, "grad_norm": 5.98413324, "learning_rate": 3.55e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095797, "epoch": 0.61408072, "global_step/max_steps": "13205/21503", "percentage": "61.41%", "elapsed_time": "1d 14h 17m 22s", "remaining_time": "1d 0h 3m 40s"}
{"loss": 0.7758616, "token_acc": 0.81180928, "grad_norm": 7.55771589, "learning_rate": 3.54e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095818, "epoch": 0.61431324, "global_step/max_steps": "13210/21503", "percentage": "61.43%", "elapsed_time": "1d 14h 17m 45s", "remaining_time": "1d 0h 2m 29s"}
{"loss": 0.57756076, "token_acc": 0.86229205, "grad_norm": 7.70755148, "learning_rate": 3.54e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095838, "epoch": 0.61454576, "global_step/max_steps": "13215/21503", "percentage": "61.46%", "elapsed_time": "1d 14h 18m 8s", "remaining_time": "1d 0h 1m 18s"}
{"loss": 0.59038577, "token_acc": 0.85480876, "grad_norm": 6.94278812, "learning_rate": 3.54e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095858, "epoch": 0.61477828, "global_step/max_steps": "13220/21503", "percentage": "61.48%", "elapsed_time": "1d 14h 18m 31s", "remaining_time": "1d 0h 0m 8s"}
{"loss": 0.77493148, "token_acc": 0.8158176, "grad_norm": 7.96882915, "learning_rate": 3.53e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095879, "epoch": 0.6150108, "global_step/max_steps": "13225/21503", "percentage": "61.50%", "elapsed_time": "1d 14h 18m 54s", "remaining_time": "23h 58m 57s"}
{"loss": 0.72896242, "token_acc": 0.8090257, "grad_norm": 7.35878754, "learning_rate": 3.53e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095899, "epoch": 0.61524332, "global_step/max_steps": "13230/21503", "percentage": "61.53%", "elapsed_time": "1d 14h 19m 17s", "remaining_time": "23h 57m 47s"}
{"loss": 0.61732135, "token_acc": 0.84237726, "grad_norm": 6.56384945, "learning_rate": 3.53e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095919, "epoch": 0.61547583, "global_step/max_steps": "13235/21503", "percentage": "61.55%", "elapsed_time": "1d 14h 19m 40s", "remaining_time": "23h 56m 37s"}
{"loss": 0.64939642, "token_acc": 0.83772819, "grad_norm": 9.10913658, "learning_rate": 3.52e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.09594, "epoch": 0.61570835, "global_step/max_steps": "13240/21503", "percentage": "61.57%", "elapsed_time": "1d 14h 20m 3s", "remaining_time": "23h 55m 26s"}
{"loss": 0.66018224, "token_acc": 0.83825474, "grad_norm": 9.26567554, "learning_rate": 3.52e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.09596, "epoch": 0.61594087, "global_step/max_steps": "13245/21503", "percentage": "61.60%", "elapsed_time": "1d 14h 20m 25s", "remaining_time": "23h 54m 16s"}
{"loss": 0.64464264, "token_acc": 0.83142162, "grad_norm": 8.4090395, "learning_rate": 3.52e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095981, "epoch": 0.61617339, "global_step/max_steps": "13250/21503", "percentage": "61.62%", "elapsed_time": "1d 14h 20m 48s", "remaining_time": "23h 53m 6s"}
{"eval_loss": 0.58194643, "eval_runtime": 294.1628, "eval_samples_per_second": 11.813, "eval_steps_per_second": 11.813, "epoch": 0.61617339, "global_step/max_steps": "13250/21503", "percentage": "61.62%", "elapsed_time": "1d 14h 25m 42s", "remaining_time": "23h 56m 9s"}
{"loss": 0.73312731, "token_acc": 0.82812812, "grad_norm": 6.00867271, "learning_rate": 3.51e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095796, "epoch": 0.61640591, "global_step/max_steps": "13255/21503", "percentage": "61.64%", "elapsed_time": "1d 14h 26m 6s", "remaining_time": "23h 54m 59s"}
{"loss": 0.57204313, "token_acc": 0.85607676, "grad_norm": 6.87428284, "learning_rate": 3.51e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095815, "epoch": 0.61663843, "global_step/max_steps": "13260/21503", "percentage": "61.67%", "elapsed_time": "1d 14h 26m 30s", "remaining_time": "23h 53m 49s"}
{"loss": 0.69211397, "token_acc": 0.8224266, "grad_norm": 9.70329094, "learning_rate": 3.5e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095836, "epoch": 0.61687094, "global_step/max_steps": "13265/21503", "percentage": "61.69%", "elapsed_time": "1d 14h 26m 53s", "remaining_time": "23h 52m 39s"}
{"loss": 0.65253434, "token_acc": 0.84084778, "grad_norm": 7.231071, "learning_rate": 3.5e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095857, "epoch": 0.61710346, "global_step/max_steps": "13270/21503", "percentage": "61.71%", "elapsed_time": "1d 14h 27m 15s", "remaining_time": "23h 51m 28s"}
{"loss": 0.75205579, "token_acc": 0.8154848, "grad_norm": 7.91595411, "learning_rate": 3.5e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095877, "epoch": 0.61733598, "global_step/max_steps": "13275/21503", "percentage": "61.74%", "elapsed_time": "1d 14h 27m 39s", "remaining_time": "23h 50m 18s"}
{"loss": 0.57953053, "token_acc": 0.85636434, "grad_norm": 7.64652348, "learning_rate": 3.49e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095897, "epoch": 0.6175685, "global_step/max_steps": "13280/21503", "percentage": "61.76%", "elapsed_time": "1d 14h 28m 2s", "remaining_time": "23h 49m 8s"}
{"loss": 0.74708123, "token_acc": 0.82511924, "grad_norm": 8.84235573, "learning_rate": 3.49e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095917, "epoch": 0.61780102, "global_step/max_steps": "13285/21503", "percentage": "61.78%", "elapsed_time": "1d 14h 28m 25s", "remaining_time": "23h 47m 58s"}
{"loss": 0.75136828, "token_acc": 0.82462173, "grad_norm": 6.61776543, "learning_rate": 3.49e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095937, "epoch": 0.61803353, "global_step/max_steps": "13290/21503", "percentage": "61.81%", "elapsed_time": "1d 14h 28m 48s", "remaining_time": "23h 46m 48s"}
{"loss": 0.60566692, "token_acc": 0.85225778, "grad_norm": 11.11661339, "learning_rate": 3.48e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095956, "epoch": 0.61826605, "global_step/max_steps": "13295/21503", "percentage": "61.83%", "elapsed_time": "1d 14h 29m 12s", "remaining_time": "23h 45m 38s"}
{"loss": 0.64252191, "token_acc": 0.83593034, "grad_norm": 8.06344414, "learning_rate": 3.48e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095976, "epoch": 0.61849857, "global_step/max_steps": "13300/21503", "percentage": "61.85%", "elapsed_time": "1d 14h 29m 36s", "remaining_time": "23h 44m 29s"}
{"eval_loss": 0.58116502, "eval_runtime": 293.3389, "eval_samples_per_second": 11.846, "eval_steps_per_second": 11.846, "epoch": 0.61849857, "global_step/max_steps": "13300/21503", "percentage": "61.85%", "elapsed_time": "1d 14h 34m 29s", "remaining_time": "23h 47m 30s"}
{"loss": 0.77947173, "token_acc": 0.82797504, "grad_norm": 8.37948513, "learning_rate": 3.47e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095793, "epoch": 0.61873109, "global_step/max_steps": "13305/21503", "percentage": "61.88%", "elapsed_time": "1d 14h 34m 53s", "remaining_time": "23h 46m 20s"}
{"loss": 0.77535772, "token_acc": 0.78709882, "grad_norm": 8.65719795, "learning_rate": 3.47e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095813, "epoch": 0.61896361, "global_step/max_steps": "13310/21503", "percentage": "61.90%", "elapsed_time": "1d 14h 35m 15s", "remaining_time": "23h 45m 10s"}
{"loss": 0.68255553, "token_acc": 0.82375333, "grad_norm": 7.73517656, "learning_rate": 3.47e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095834, "epoch": 0.61919613, "global_step/max_steps": "13315/21503", "percentage": "61.92%", "elapsed_time": "1d 14h 35m 38s", "remaining_time": "23h 43m 59s"}
{"loss": 0.64580703, "token_acc": 0.8359375, "grad_norm": 11.01814938, "learning_rate": 3.46e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095854, "epoch": 0.61942864, "global_step/max_steps": "13320/21503", "percentage": "61.94%", "elapsed_time": "1d 14h 36m 0s", "remaining_time": "23h 42m 48s"}
{"loss": 0.64347587, "token_acc": 0.82574189, "grad_norm": 5.23194122, "learning_rate": 3.46e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095875, "epoch": 0.61966116, "global_step/max_steps": "13325/21503", "percentage": "61.97%", "elapsed_time": "1d 14h 36m 22s", "remaining_time": "23h 41m 38s"}
{"loss": 0.69330149, "token_acc": 0.82902137, "grad_norm": 9.33646297, "learning_rate": 3.46e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095896, "epoch": 0.61989368, "global_step/max_steps": "13330/21503", "percentage": "61.99%", "elapsed_time": "1d 14h 36m 44s", "remaining_time": "23h 40m 27s"}
{"loss": 0.64572611, "token_acc": 0.83446635, "grad_norm": 7.16357613, "learning_rate": 3.45e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095917, "epoch": 0.6201262, "global_step/max_steps": "13335/21503", "percentage": "62.01%", "elapsed_time": "1d 14h 37m 6s", "remaining_time": "23h 39m 17s"}
{"loss": 0.64146242, "token_acc": 0.83561208, "grad_norm": 5.74924469, "learning_rate": 3.45e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095937, "epoch": 0.62035872, "global_step/max_steps": "13340/21503", "percentage": "62.04%", "elapsed_time": "1d 14h 37m 28s", "remaining_time": "23h 38m 6s"}
{"loss": 0.53339324, "token_acc": 0.86519337, "grad_norm": 8.3688097, "learning_rate": 3.45e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095957, "epoch": 0.62059124, "global_step/max_steps": "13345/21503", "percentage": "62.06%", "elapsed_time": "1d 14h 37m 52s", "remaining_time": "23h 36m 56s"}
{"loss": 0.7009202, "token_acc": 0.81586585, "grad_norm": 6.09876394, "learning_rate": 3.44e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095977, "epoch": 0.62082375, "global_step/max_steps": "13350/21503", "percentage": "62.08%", "elapsed_time": "1d 14h 38m 15s", "remaining_time": "23h 35m 47s"}
{"eval_loss": 0.57975733, "eval_runtime": 293.8327, "eval_samples_per_second": 11.826, "eval_steps_per_second": 11.826, "epoch": 0.62082375, "global_step/max_steps": "13350/21503", "percentage": "62.08%", "elapsed_time": "1d 14h 43m 9s", "remaining_time": "23h 38m 46s"}
{"loss": 0.68942585, "token_acc": 0.82963644, "grad_norm": 5.72232246, "learning_rate": 3.44e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095795, "epoch": 0.62105627, "global_step/max_steps": "13355/21503", "percentage": "62.11%", "elapsed_time": "1d 14h 43m 32s", "remaining_time": "23h 37m 36s"}
{"loss": 0.63129249, "token_acc": 0.85434873, "grad_norm": 8.34636402, "learning_rate": 3.43e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095816, "epoch": 0.62128879, "global_step/max_steps": "13360/21503", "percentage": "62.13%", "elapsed_time": "1d 14h 43m 54s", "remaining_time": "23h 36m 25s"}
{"loss": 0.61622844, "token_acc": 0.83258089, "grad_norm": 6.66335344, "learning_rate": 3.43e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095835, "epoch": 0.62152131, "global_step/max_steps": "13365/21503", "percentage": "62.15%", "elapsed_time": "1d 14h 44m 17s", "remaining_time": "23h 35m 16s"}
{"loss": 0.71606517, "token_acc": 0.82500683, "grad_norm": 9.39245987, "learning_rate": 3.43e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095855, "epoch": 0.62175383, "global_step/max_steps": "13370/21503", "percentage": "62.18%", "elapsed_time": "1d 14h 44m 41s", "remaining_time": "23h 34m 6s"}
{"loss": 0.64738731, "token_acc": 0.84190762, "grad_norm": 6.70923662, "learning_rate": 3.42e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095875, "epoch": 0.62198635, "global_step/max_steps": "13375/21503", "percentage": "62.20%", "elapsed_time": "1d 14h 45m 4s", "remaining_time": "23h 32m 56s"}
{"loss": 0.74887753, "token_acc": 0.81743081, "grad_norm": 8.36786366, "learning_rate": 3.42e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095896, "epoch": 0.62221886, "global_step/max_steps": "13380/21503", "percentage": "62.22%", "elapsed_time": "1d 14h 45m 25s", "remaining_time": "23h 31m 46s"}
{"loss": 0.52929997, "token_acc": 0.87265332, "grad_norm": 7.59137774, "learning_rate": 3.42e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095916, "epoch": 0.62245138, "global_step/max_steps": "13385/21503", "percentage": "62.25%", "elapsed_time": "1d 14h 45m 48s", "remaining_time": "23h 30m 36s"}
{"loss": 0.76895452, "token_acc": 0.82176235, "grad_norm": 7.73105621, "learning_rate": 3.41e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095937, "epoch": 0.6226839, "global_step/max_steps": "13390/21503", "percentage": "62.27%", "elapsed_time": "1d 14h 46m 10s", "remaining_time": "23h 29m 25s"}
{"loss": 0.66945839, "token_acc": 0.83031605, "grad_norm": 8.29542065, "learning_rate": 3.41e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095958, "epoch": 0.62291642, "global_step/max_steps": "13395/21503", "percentage": "62.29%", "elapsed_time": "1d 14h 46m 32s", "remaining_time": "23h 28m 15s"}
{"loss": 0.73019981, "token_acc": 0.81899964, "grad_norm": 8.75963402, "learning_rate": 3.41e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095979, "epoch": 0.62314894, "global_step/max_steps": "13400/21503", "percentage": "62.32%", "elapsed_time": "1d 14h 46m 54s", "remaining_time": "23h 27m 4s"}
{"eval_loss": 0.57867527, "eval_runtime": 293.4147, "eval_samples_per_second": 11.843, "eval_steps_per_second": 11.843, "epoch": 0.62314894, "global_step/max_steps": "13400/21503", "percentage": "62.32%", "elapsed_time": "1d 14h 51m 47s", "remaining_time": "23h 30m 2s"}
{"loss": 0.78726621, "token_acc": 0.82896159, "grad_norm": 7.83732033, "learning_rate": 3.4e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095798, "epoch": 0.62338145, "global_step/max_steps": "13405/21503", "percentage": "62.34%", "elapsed_time": "1d 14h 52m 9s", "remaining_time": "23h 28m 52s"}
{"loss": 0.6132421, "token_acc": 0.83088456, "grad_norm": 9.12521839, "learning_rate": 3.4e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095818, "epoch": 0.62361397, "global_step/max_steps": "13410/21503", "percentage": "62.36%", "elapsed_time": "1d 14h 52m 32s", "remaining_time": "23h 27m 42s"}
{"loss": 0.49155464, "token_acc": 0.87744361, "grad_norm": 6.47242737, "learning_rate": 3.39e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095838, "epoch": 0.62384649, "global_step/max_steps": "13415/21503", "percentage": "62.39%", "elapsed_time": "1d 14h 52m 56s", "remaining_time": "23h 26m 32s"}
{"loss": 0.62311077, "token_acc": 0.84843017, "grad_norm": 7.6983943, "learning_rate": 3.39e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095858, "epoch": 0.62407901, "global_step/max_steps": "13420/21503", "percentage": "62.41%", "elapsed_time": "1d 14h 53m 18s", "remaining_time": "23h 25m 22s"}
{"loss": 0.63243232, "token_acc": 0.85543964, "grad_norm": 9.80225849, "learning_rate": 3.39e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095879, "epoch": 0.62431153, "global_step/max_steps": "13425/21503", "percentage": "62.43%", "elapsed_time": "1d 14h 53m 40s", "remaining_time": "23h 24m 11s"}
{"loss": 0.65854745, "token_acc": 0.85060781, "grad_norm": 8.11238098, "learning_rate": 3.38e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095899, "epoch": 0.62454405, "global_step/max_steps": "13430/21503", "percentage": "62.46%", "elapsed_time": "1d 14h 54m 3s", "remaining_time": "23h 23m 2s"}
{"loss": 0.56679649, "token_acc": 0.85223765, "grad_norm": 7.87432814, "learning_rate": 3.38e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095919, "epoch": 0.62477656, "global_step/max_steps": "13435/21503", "percentage": "62.48%", "elapsed_time": "1d 14h 54m 26s", "remaining_time": "23h 21m 52s"}
{"loss": 0.63648334, "token_acc": 0.84347048, "grad_norm": 9.90482521, "learning_rate": 3.38e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095939, "epoch": 0.62500908, "global_step/max_steps": "13440/21503", "percentage": "62.50%", "elapsed_time": "1d 14h 54m 48s", "remaining_time": "23h 20m 42s"}
{"loss": 0.76694922, "token_acc": 0.81664411, "grad_norm": 11.40217686, "learning_rate": 3.37e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095959, "epoch": 0.6252416, "global_step/max_steps": "13445/21503", "percentage": "62.53%", "elapsed_time": "1d 14h 55m 11s", "remaining_time": "23h 19m 33s"}
{"loss": 0.54118342, "token_acc": 0.86851346, "grad_norm": 8.77189445, "learning_rate": 3.37e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095979, "epoch": 0.62547412, "global_step/max_steps": "13450/21503", "percentage": "62.55%", "elapsed_time": "1d 14h 55m 34s", "remaining_time": "23h 18m 23s"}
{"eval_loss": 0.57776159, "eval_runtime": 290.3126, "eval_samples_per_second": 11.97, "eval_steps_per_second": 11.97, "epoch": 0.62547412, "global_step/max_steps": "13450/21503", "percentage": "62.55%", "elapsed_time": "1d 15h 0m 24s", "remaining_time": "23h 21m 17s"}
{"loss": 0.58532128, "token_acc": 0.82965625, "grad_norm": 9.1264801, "learning_rate": 3.37e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095801, "epoch": 0.62570664, "global_step/max_steps": "13455/21503", "percentage": "62.57%", "elapsed_time": "1d 15h 0m 47s", "remaining_time": "23h 20m 7s"}
{"loss": 0.57653146, "token_acc": 0.85974429, "grad_norm": 9.62608337, "learning_rate": 3.36e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095821, "epoch": 0.62593916, "global_step/max_steps": "13460/21503", "percentage": "62.60%", "elapsed_time": "1d 15h 1m 9s", "remaining_time": "23h 18m 57s"}
{"loss": 0.65114956, "token_acc": 0.80367321, "grad_norm": 11.66816807, "learning_rate": 3.36e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095841, "epoch": 0.62617167, "global_step/max_steps": "13465/21503", "percentage": "62.62%", "elapsed_time": "1d 15h 1m 32s", "remaining_time": "23h 17m 48s"}
{"loss": 0.70176358, "token_acc": 0.82722815, "grad_norm": 6.140625, "learning_rate": 3.35e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095861, "epoch": 0.62640419, "global_step/max_steps": "13470/21503", "percentage": "62.64%", "elapsed_time": "1d 15h 1m 55s", "remaining_time": "23h 16m 38s"}
{"loss": 0.71016436, "token_acc": 0.82018409, "grad_norm": 8.74337769, "learning_rate": 3.35e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095881, "epoch": 0.62663671, "global_step/max_steps": "13475/21503", "percentage": "62.67%", "elapsed_time": "1d 15h 2m 18s", "remaining_time": "23h 15m 28s"}
{"loss": 0.63933616, "token_acc": 0.83542488, "grad_norm": 6.70293379, "learning_rate": 3.35e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.0959, "epoch": 0.62686923, "global_step/max_steps": "13480/21503", "percentage": "62.69%", "elapsed_time": "1d 15h 2m 42s", "remaining_time": "23h 14m 19s"}
{"loss": 0.69316235, "token_acc": 0.8219291, "grad_norm": 9.11452103, "learning_rate": 3.34e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.095921, "epoch": 0.62710175, "global_step/max_steps": "13485/21503", "percentage": "62.71%", "elapsed_time": "1d 15h 3m 4s", "remaining_time": "23h 13m 9s"}
{"loss": 0.64453855, "token_acc": 0.82703488, "grad_norm": 7.91551828, "learning_rate": 3.34e-06, "memory(GiB)": 40.03, "train_speed(iter/s)": 0.09594, "epoch": 0.62733427, "global_step/max_steps": "13490/21503", "percentage": "62.74%", "elapsed_time": "1d 15h 3m 27s", "remaining_time": "23h 12m 0s"}
{"loss": 0.77539344, "token_acc": 0.76836009, "grad_norm": 10.83313942, "learning_rate": 3.34e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095959, "epoch": 0.62756678, "global_step/max_steps": "13495/21503", "percentage": "62.76%", "elapsed_time": "1d 15h 3m 52s", "remaining_time": "23h 10m 52s"}
{"loss": 0.74685464, "token_acc": 0.80088496, "grad_norm": 7.67288446, "learning_rate": 3.33e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095979, "epoch": 0.6277993, "global_step/max_steps": "13500/21503", "percentage": "62.78%", "elapsed_time": "1d 15h 4m 15s", "remaining_time": "23h 9m 42s"}
{"eval_loss": 0.57707137, "eval_runtime": 293.1909, "eval_samples_per_second": 11.852, "eval_steps_per_second": 11.852, "epoch": 0.6277993, "global_step/max_steps": "13500/21503", "percentage": "62.78%", "elapsed_time": "1d 15h 9m 8s", "remaining_time": "23h 12m 36s"}
{"loss": 0.53578053, "token_acc": 0.83043099, "grad_norm": 8.18341064, "learning_rate": 3.33e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095799, "epoch": 0.62803182, "global_step/max_steps": "13505/21503", "percentage": "62.81%", "elapsed_time": "1d 15h 9m 31s", "remaining_time": "23h 11m 26s"}
{"loss": 0.58762426, "token_acc": 0.86179982, "grad_norm": 8.50880241, "learning_rate": 3.33e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.09582, "epoch": 0.62826434, "global_step/max_steps": "13510/21503", "percentage": "62.83%", "elapsed_time": "1d 15h 9m 53s", "remaining_time": "23h 10m 16s"}
{"loss": 0.65242887, "token_acc": 0.83026223, "grad_norm": 8.15119362, "learning_rate": 3.32e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.09584, "epoch": 0.62849686, "global_step/max_steps": "13515/21503", "percentage": "62.85%", "elapsed_time": "1d 15h 10m 16s", "remaining_time": "23h 9m 7s"}
{"loss": 0.54650707, "token_acc": 0.85171361, "grad_norm": 11.72116947, "learning_rate": 3.32e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.09586, "epoch": 0.62872937, "global_step/max_steps": "13520/21503", "percentage": "62.87%", "elapsed_time": "1d 15h 10m 38s", "remaining_time": "23h 7m 57s"}
{"loss": 0.62805681, "token_acc": 0.84767394, "grad_norm": 5.96403456, "learning_rate": 3.31e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095881, "epoch": 0.62896189, "global_step/max_steps": "13525/21503", "percentage": "62.90%", "elapsed_time": "1d 15h 11m 0s", "remaining_time": "23h 6m 47s"}
{"loss": 0.66031756, "token_acc": 0.83533225, "grad_norm": 6.9879837, "learning_rate": 3.31e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095901, "epoch": 0.62919441, "global_step/max_steps": "13530/21503", "percentage": "62.92%", "elapsed_time": "1d 15h 11m 22s", "remaining_time": "23h 5m 37s"}
{"loss": 0.61144176, "token_acc": 0.84371585, "grad_norm": 8.83331871, "learning_rate": 3.31e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095921, "epoch": 0.62942693, "global_step/max_steps": "13535/21503", "percentage": "62.94%", "elapsed_time": "1d 15h 11m 45s", "remaining_time": "23h 4m 27s"}
{"loss": 0.64043775, "token_acc": 0.8379737, "grad_norm": 7.67104721, "learning_rate": 3.3e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095941, "epoch": 0.62965945, "global_step/max_steps": "13540/21503", "percentage": "62.97%", "elapsed_time": "1d 15h 12m 8s", "remaining_time": "23h 3m 18s"}
{"loss": 0.57349524, "token_acc": 0.86046512, "grad_norm": 8.29164219, "learning_rate": 3.3e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095962, "epoch": 0.62989197, "global_step/max_steps": "13545/21503", "percentage": "62.99%", "elapsed_time": "1d 15h 12m 29s", "remaining_time": "23h 2m 8s"}
{"loss": 0.64132075, "token_acc": 0.84017829, "grad_norm": 8.43901443, "learning_rate": 3.3e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095982, "epoch": 0.63012448, "global_step/max_steps": "13550/21503", "percentage": "63.01%", "elapsed_time": "1d 15h 12m 51s", "remaining_time": "23h 0m 58s"}
{"eval_loss": 0.57808095, "eval_runtime": 289.0829, "eval_samples_per_second": 12.021, "eval_steps_per_second": 12.021, "epoch": 0.63012448, "global_step/max_steps": "13550/21503", "percentage": "63.01%", "elapsed_time": "1d 15h 17m 40s", "remaining_time": "23h 3m 48s"}
{"loss": 0.73496017, "token_acc": 0.82858823, "grad_norm": 6.43293476, "learning_rate": 3.29e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095805, "epoch": 0.630357, "global_step/max_steps": "13555/21503", "percentage": "63.04%", "elapsed_time": "1d 15h 18m 5s", "remaining_time": "23h 2m 40s"}
{"loss": 0.56915855, "token_acc": 0.85588822, "grad_norm": 7.73900223, "learning_rate": 3.29e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095825, "epoch": 0.63058952, "global_step/max_steps": "13560/21503", "percentage": "63.06%", "elapsed_time": "1d 15h 18m 28s", "remaining_time": "23h 1m 30s"}
{"loss": 0.7265131, "token_acc": 0.83241409, "grad_norm": 8.96771145, "learning_rate": 3.29e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095845, "epoch": 0.63082204, "global_step/max_steps": "13565/21503", "percentage": "63.08%", "elapsed_time": "1d 15h 18m 50s", "remaining_time": "23h 0m 21s"}
{"loss": 0.67216334, "token_acc": 0.83809877, "grad_norm": 7.71522427, "learning_rate": 3.28e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095865, "epoch": 0.63105456, "global_step/max_steps": "13570/21503", "percentage": "63.11%", "elapsed_time": "1d 15h 19m 12s", "remaining_time": "22h 59m 11s"}
{"loss": 0.69471254, "token_acc": 0.81416415, "grad_norm": 6.48072529, "learning_rate": 3.28e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095885, "epoch": 0.63128708, "global_step/max_steps": "13575/21503", "percentage": "63.13%", "elapsed_time": "1d 15h 19m 35s", "remaining_time": "22h 58m 1s"}
{"loss": 0.62446837, "token_acc": 0.84390814, "grad_norm": 8.17464066, "learning_rate": 3.27e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095905, "epoch": 0.63151959, "global_step/max_steps": "13580/21503", "percentage": "63.15%", "elapsed_time": "1d 15h 19m 58s", "remaining_time": "22h 56m 52s"}
{"loss": 0.65200667, "token_acc": 0.82984757, "grad_norm": 10.56082726, "learning_rate": 3.27e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095926, "epoch": 0.63175211, "global_step/max_steps": "13585/21503", "percentage": "63.18%", "elapsed_time": "1d 15h 20m 20s", "remaining_time": "22h 55m 43s"}
{"loss": 0.61910143, "token_acc": 0.84413258, "grad_norm": 6.40247297, "learning_rate": 3.27e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095945, "epoch": 0.63198463, "global_step/max_steps": "13590/21503", "percentage": "63.20%", "elapsed_time": "1d 15h 20m 43s", "remaining_time": "22h 54m 34s"}
{"loss": 0.83727446, "token_acc": 0.80083857, "grad_norm": 9.32621288, "learning_rate": 3.26e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095966, "epoch": 0.63221715, "global_step/max_steps": "13595/21503", "percentage": "63.22%", "elapsed_time": "1d 15h 21m 4s", "remaining_time": "22h 53m 24s"}
{"loss": 0.67954874, "token_acc": 0.81970948, "grad_norm": 5.5329113, "learning_rate": 3.26e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095986, "epoch": 0.63244967, "global_step/max_steps": "13600/21503", "percentage": "63.25%", "elapsed_time": "1d 15h 21m 26s", "remaining_time": "22h 52m 14s"}
{"eval_loss": 0.57721907, "eval_runtime": 295.8738, "eval_samples_per_second": 11.745, "eval_steps_per_second": 11.745, "epoch": 0.63244967, "global_step/max_steps": "13600/21503", "percentage": "63.25%", "elapsed_time": "1d 15h 26m 22s", "remaining_time": "22h 55m 6s"}
{"loss": 0.71512055, "token_acc": 0.82872765, "grad_norm": 5.55509281, "learning_rate": 3.26e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095804, "epoch": 0.63268219, "global_step/max_steps": "13605/21503", "percentage": "63.27%", "elapsed_time": "1d 15h 26m 47s", "remaining_time": "22h 53m 58s"}
{"loss": 0.71401157, "token_acc": 0.83677522, "grad_norm": 8.7474699, "learning_rate": 3.25e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095824, "epoch": 0.6329147, "global_step/max_steps": "13610/21503", "percentage": "63.29%", "elapsed_time": "1d 15h 27m 10s", "remaining_time": "22h 52m 49s"}
{"loss": 0.67310386, "token_acc": 0.83136095, "grad_norm": 6.20857477, "learning_rate": 3.25e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095844, "epoch": 0.63314722, "global_step/max_steps": "13615/21503", "percentage": "63.32%", "elapsed_time": "1d 15h 27m 33s", "remaining_time": "22h 51m 40s"}
{"loss": 0.72631149, "token_acc": 0.82597592, "grad_norm": 9.04067039, "learning_rate": 3.25e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095864, "epoch": 0.63337974, "global_step/max_steps": "13620/21503", "percentage": "63.34%", "elapsed_time": "1d 15h 27m 56s", "remaining_time": "22h 50m 31s"}
{"loss": 0.63132429, "token_acc": 0.85243997, "grad_norm": 9.78035927, "learning_rate": 3.24e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095884, "epoch": 0.63361226, "global_step/max_steps": "13625/21503", "percentage": "63.36%", "elapsed_time": "1d 15h 28m 18s", "remaining_time": "22h 49m 21s"}
{"loss": 0.5538475, "token_acc": 0.86699917, "grad_norm": 8.34622288, "learning_rate": 3.24e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095904, "epoch": 0.63384478, "global_step/max_steps": "13630/21503", "percentage": "63.39%", "elapsed_time": "1d 15h 28m 41s", "remaining_time": "22h 48m 12s"}
{"loss": 0.63329859, "token_acc": 0.86228034, "grad_norm": 7.38973713, "learning_rate": 3.24e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095924, "epoch": 0.63407729, "global_step/max_steps": "13635/21503", "percentage": "63.41%", "elapsed_time": "1d 15h 29m 3s", "remaining_time": "22h 47m 3s"}
{"loss": 0.56704497, "token_acc": 0.86350148, "grad_norm": 7.63755512, "learning_rate": 3.23e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095944, "epoch": 0.63430981, "global_step/max_steps": "13640/21503", "percentage": "63.43%", "elapsed_time": "1d 15h 29m 26s", "remaining_time": "22h 45m 53s"}
{"loss": 0.68675504, "token_acc": 0.83196415, "grad_norm": 8.66691971, "learning_rate": 3.23e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095964, "epoch": 0.63454233, "global_step/max_steps": "13645/21503", "percentage": "63.46%", "elapsed_time": "1d 15h 29m 49s", "remaining_time": "22h 44m 45s"}
{"loss": 0.61069398, "token_acc": 0.84175824, "grad_norm": 9.447999, "learning_rate": 3.22e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095983, "epoch": 0.63477485, "global_step/max_steps": "13650/21503", "percentage": "63.48%", "elapsed_time": "1d 15h 30m 12s", "remaining_time": "22h 43m 36s"}
{"eval_loss": 0.57877815, "eval_runtime": 291.6325, "eval_samples_per_second": 11.916, "eval_steps_per_second": 11.916, "epoch": 0.63477485, "global_step/max_steps": "13650/21503", "percentage": "63.48%", "elapsed_time": "1d 15h 35m 4s", "remaining_time": "22h 46m 24s"}
{"loss": 0.73823285, "token_acc": 0.82931547, "grad_norm": 8.59967041, "learning_rate": 3.22e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095806, "epoch": 0.63500737, "global_step/max_steps": "13655/21503", "percentage": "63.50%", "elapsed_time": "1d 15h 35m 27s", "remaining_time": "22h 45m 15s"}
{"loss": 0.71470251, "token_acc": 0.82709951, "grad_norm": 9.6819458, "learning_rate": 3.22e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095826, "epoch": 0.63523989, "global_step/max_steps": "13660/21503", "percentage": "63.53%", "elapsed_time": "1d 15h 35m 49s", "remaining_time": "22h 44m 6s"}
{"loss": 0.70099087, "token_acc": 0.83295711, "grad_norm": 6.67445421, "learning_rate": 3.21e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095846, "epoch": 0.6354724, "global_step/max_steps": "13665/21503", "percentage": "63.55%", "elapsed_time": "1d 15h 36m 12s", "remaining_time": "22h 42m 56s"}
{"loss": 0.79567657, "token_acc": 0.79881036, "grad_norm": 7.11359167, "learning_rate": 3.21e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095866, "epoch": 0.63570492, "global_step/max_steps": "13670/21503", "percentage": "63.57%", "elapsed_time": "1d 15h 36m 34s", "remaining_time": "22h 41m 47s"}
{"loss": 0.61469383, "token_acc": 0.84516955, "grad_norm": 8.43250942, "learning_rate": 3.21e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095885, "epoch": 0.63593744, "global_step/max_steps": "13675/21503", "percentage": "63.60%", "elapsed_time": "1d 15h 36m 58s", "remaining_time": "22h 40m 39s"}
{"loss": 0.61743875, "token_acc": 0.8505386, "grad_norm": 7.30909014, "learning_rate": 3.2e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095905, "epoch": 0.63616996, "global_step/max_steps": "13680/21503", "percentage": "63.62%", "elapsed_time": "1d 15h 37m 20s", "remaining_time": "22h 39m 29s"}
{"loss": 0.65219851, "token_acc": 0.83708431, "grad_norm": 9.9917202, "learning_rate": 3.2e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095925, "epoch": 0.63640248, "global_step/max_steps": "13685/21503", "percentage": "63.64%", "elapsed_time": "1d 15h 37m 43s", "remaining_time": "22h 38m 21s"}
{"loss": 0.61207891, "token_acc": 0.84556878, "grad_norm": 6.45687532, "learning_rate": 3.2e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095945, "epoch": 0.636635, "global_step/max_steps": "13690/21503", "percentage": "63.67%", "elapsed_time": "1d 15h 38m 5s", "remaining_time": "22h 37m 12s"}
{"loss": 0.59260402, "token_acc": 0.85150308, "grad_norm": 6.28323841, "learning_rate": 3.19e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095965, "epoch": 0.63686751, "global_step/max_steps": "13695/21503", "percentage": "63.69%", "elapsed_time": "1d 15h 38m 28s", "remaining_time": "22h 36m 2s"}
{"loss": 0.68755293, "token_acc": 0.83137552, "grad_norm": 6.85843325, "learning_rate": 3.19e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095984, "epoch": 0.63710003, "global_step/max_steps": "13700/21503", "percentage": "63.71%", "elapsed_time": "1d 15h 38m 51s", "remaining_time": "22h 34m 54s"}
{"eval_loss": 0.5758279, "eval_runtime": 293.8539, "eval_samples_per_second": 11.826, "eval_steps_per_second": 11.826, "epoch": 0.63710003, "global_step/max_steps": "13700/21503", "percentage": "63.71%", "elapsed_time": "1d 15h 43m 45s", "remaining_time": "22h 37m 41s"}
{"loss": 0.56771989, "token_acc": 0.83063813, "grad_norm": 8.78311634, "learning_rate": 3.18e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095807, "epoch": 0.63733255, "global_step/max_steps": "13705/21503", "percentage": "63.74%", "elapsed_time": "1d 15h 44m 8s", "remaining_time": "22h 36m 32s"}
{"loss": 0.64765916, "token_acc": 0.84058942, "grad_norm": 8.00585938, "learning_rate": 3.18e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095827, "epoch": 0.63756507, "global_step/max_steps": "13710/21503", "percentage": "63.76%", "elapsed_time": "1d 15h 44m 30s", "remaining_time": "22h 35m 23s"}
{"loss": 0.64333973, "token_acc": 0.84044874, "grad_norm": 6.11649084, "learning_rate": 3.18e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095846, "epoch": 0.63779759, "global_step/max_steps": "13715/21503", "percentage": "63.78%", "elapsed_time": "1d 15h 44m 53s", "remaining_time": "22h 34m 14s"}
{"loss": 0.63085537, "token_acc": 0.84745141, "grad_norm": 8.65496349, "learning_rate": 3.17e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095866, "epoch": 0.63803011, "global_step/max_steps": "13720/21503", "percentage": "63.81%", "elapsed_time": "1d 15h 45m 16s", "remaining_time": "22h 33m 6s"}
{"loss": 0.66953106, "token_acc": 0.83039738, "grad_norm": 8.51541519, "learning_rate": 3.17e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095886, "epoch": 0.63826262, "global_step/max_steps": "13725/21503", "percentage": "63.83%", "elapsed_time": "1d 15h 45m 38s", "remaining_time": "22h 31m 57s"}
{"loss": 0.61827273, "token_acc": 0.8479587, "grad_norm": 8.29044533, "learning_rate": 3.17e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095906, "epoch": 0.63849514, "global_step/max_steps": "13730/21503", "percentage": "63.85%", "elapsed_time": "1d 15h 46m 1s", "remaining_time": "22h 30m 48s"}
{"loss": 0.56739225, "token_acc": 0.85983922, "grad_norm": 6.58256865, "learning_rate": 3.16e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095925, "epoch": 0.63872766, "global_step/max_steps": "13735/21503", "percentage": "63.87%", "elapsed_time": "1d 15h 46m 25s", "remaining_time": "22h 29m 40s"}
{"loss": 0.64394608, "token_acc": 0.84290541, "grad_norm": 7.43300724, "learning_rate": 3.16e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095945, "epoch": 0.63896018, "global_step/max_steps": "13740/21503", "percentage": "63.90%", "elapsed_time": "1d 15h 46m 47s", "remaining_time": "22h 28m 31s"}
{"loss": 0.5517416, "token_acc": 0.86095618, "grad_norm": 9.42244053, "learning_rate": 3.16e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095964, "epoch": 0.6391927, "global_step/max_steps": "13745/21503", "percentage": "63.92%", "elapsed_time": "1d 15h 47m 9s", "remaining_time": "22h 27m 22s"}
{"loss": 0.61564841, "token_acc": 0.84742647, "grad_norm": 9.67404079, "learning_rate": 3.15e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095984, "epoch": 0.63942521, "global_step/max_steps": "13750/21503", "percentage": "63.94%", "elapsed_time": "1d 15h 47m 32s", "remaining_time": "22h 26m 13s"}
{"eval_loss": 0.57604754, "eval_runtime": 294.3994, "eval_samples_per_second": 11.804, "eval_steps_per_second": 11.804, "epoch": 0.63942521, "global_step/max_steps": "13750/21503", "percentage": "63.94%", "elapsed_time": "1d 15h 52m 27s", "remaining_time": "22h 28m 59s"}
{"loss": 0.60115719, "token_acc": 0.83059737, "grad_norm": 7.03012705, "learning_rate": 3.15e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095807, "epoch": 0.63965773, "global_step/max_steps": "13755/21503", "percentage": "63.97%", "elapsed_time": "1d 15h 52m 50s", "remaining_time": "22h 27m 51s"}
{"loss": 0.66164589, "token_acc": 0.84363503, "grad_norm": 9.28232384, "learning_rate": 3.15e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095826, "epoch": 0.63989025, "global_step/max_steps": "13760/21503", "percentage": "63.99%", "elapsed_time": "1d 15h 53m 13s", "remaining_time": "22h 26m 42s"}
{"loss": 0.73028836, "token_acc": 0.81733495, "grad_norm": 6.60313845, "learning_rate": 3.14e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095846, "epoch": 0.64012277, "global_step/max_steps": "13765/21503", "percentage": "64.01%", "elapsed_time": "1d 15h 53m 36s", "remaining_time": "22h 25m 33s"}
{"loss": 0.85983515, "token_acc": 0.79328165, "grad_norm": 5.09721375, "learning_rate": 3.14e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095865, "epoch": 0.64035529, "global_step/max_steps": "13770/21503", "percentage": "64.04%", "elapsed_time": "1d 15h 53m 59s", "remaining_time": "22h 24m 25s"}
{"loss": 0.66773996, "token_acc": 0.83113456, "grad_norm": 8.14072609, "learning_rate": 3.13e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095885, "epoch": 0.64058781, "global_step/max_steps": "13775/21503", "percentage": "64.06%", "elapsed_time": "1d 15h 54m 21s", "remaining_time": "22h 23m 16s"}
{"loss": 0.55884867, "token_acc": 0.85257985, "grad_norm": 9.43906593, "learning_rate": 3.13e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095905, "epoch": 0.64082032, "global_step/max_steps": "13780/21503", "percentage": "64.08%", "elapsed_time": "1d 15h 54m 43s", "remaining_time": "22h 22m 7s"}
{"loss": 0.69604836, "token_acc": 0.83110715, "grad_norm": 6.78334808, "learning_rate": 3.13e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095924, "epoch": 0.64105284, "global_step/max_steps": "13785/21503", "percentage": "64.11%", "elapsed_time": "1d 15h 55m 7s", "remaining_time": "22h 20m 59s"}
{"loss": 0.70828414, "token_acc": 0.82309185, "grad_norm": 6.21895313, "learning_rate": 3.12e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095942, "epoch": 0.64128536, "global_step/max_steps": "13790/21503", "percentage": "64.13%", "elapsed_time": "1d 15h 55m 31s", "remaining_time": "22h 19m 51s"}
{"loss": 0.75095944, "token_acc": 0.81897866, "grad_norm": 8.97940159, "learning_rate": 3.12e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095962, "epoch": 0.64151788, "global_step/max_steps": "13795/21503", "percentage": "64.15%", "elapsed_time": "1d 15h 55m 54s", "remaining_time": "22h 18m 43s"}
{"loss": 0.64991055, "token_acc": 0.82170322, "grad_norm": 6.3141923, "learning_rate": 3.12e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095981, "epoch": 0.6417504, "global_step/max_steps": "13800/21503", "percentage": "64.18%", "elapsed_time": "1d 15h 56m 17s", "remaining_time": "22h 17m 35s"}
{"eval_loss": 0.57449734, "eval_runtime": 294.748, "eval_samples_per_second": 11.79, "eval_steps_per_second": 11.79, "epoch": 0.6417504, "global_step/max_steps": "13800/21503", "percentage": "64.18%", "elapsed_time": "1d 16h 1m 12s", "remaining_time": "22h 20m 19s"}
{"loss": 0.71958547, "token_acc": 0.82977276, "grad_norm": 6.62521839, "learning_rate": 3.11e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095804, "epoch": 0.64198292, "global_step/max_steps": "13805/21503", "percentage": "64.20%", "elapsed_time": "1d 16h 1m 35s", "remaining_time": "22h 19m 11s"}
{"loss": 0.63388686, "token_acc": 0.84330299, "grad_norm": 7.3114295, "learning_rate": 3.11e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095823, "epoch": 0.64221543, "global_step/max_steps": "13810/21503", "percentage": "64.22%", "elapsed_time": "1d 16h 1m 59s", "remaining_time": "22h 18m 3s"}
{"loss": 0.66338944, "token_acc": 0.83066453, "grad_norm": 12.81394291, "learning_rate": 3.11e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095842, "epoch": 0.64244795, "global_step/max_steps": "13815/21503", "percentage": "64.25%", "elapsed_time": "1d 16h 2m 23s", "remaining_time": "22h 16m 55s"}
{"loss": 0.71066566, "token_acc": 0.82388154, "grad_norm": 6.48326445, "learning_rate": 3.1e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095862, "epoch": 0.64268047, "global_step/max_steps": "13820/21503", "percentage": "64.27%", "elapsed_time": "1d 16h 2m 45s", "remaining_time": "22h 15m 46s"}
{"loss": 0.82992058, "token_acc": 0.77850356, "grad_norm": 8.26489925, "learning_rate": 3.1e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095881, "epoch": 0.64291299, "global_step/max_steps": "13825/21503", "percentage": "64.29%", "elapsed_time": "1d 16h 3m 9s", "remaining_time": "22h 14m 38s"}
{"loss": 0.65486188, "token_acc": 0.82829625, "grad_norm": 8.50506592, "learning_rate": 3.1e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.0959, "epoch": 0.64314551, "global_step/max_steps": "13830/21503", "percentage": "64.32%", "elapsed_time": "1d 16h 3m 32s", "remaining_time": "22h 13m 30s"}
{"loss": 0.62972612, "token_acc": 0.83759502, "grad_norm": 6.44133043, "learning_rate": 3.09e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095919, "epoch": 0.64337803, "global_step/max_steps": "13835/21503", "percentage": "64.34%", "elapsed_time": "1d 16h 3m 55s", "remaining_time": "22h 12m 22s"}
{"loss": 0.76810966, "token_acc": 0.80788177, "grad_norm": 9.39210987, "learning_rate": 3.09e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095939, "epoch": 0.64361054, "global_step/max_steps": "13840/21503", "percentage": "64.36%", "elapsed_time": "1d 16h 4m 18s", "remaining_time": "22h 11m 13s"}
{"loss": 0.71659322, "token_acc": 0.82934021, "grad_norm": 8.62150764, "learning_rate": 3.09e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095958, "epoch": 0.64384306, "global_step/max_steps": "13845/21503", "percentage": "64.39%", "elapsed_time": "1d 16h 4m 40s", "remaining_time": "22h 10m 5s"}
{"loss": 0.60850563, "token_acc": 0.8465704, "grad_norm": 8.87404633, "learning_rate": 3.08e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095978, "epoch": 0.64407558, "global_step/max_steps": "13850/21503", "percentage": "64.41%", "elapsed_time": "1d 16h 5m 3s", "remaining_time": "22h 8m 56s"}
{"eval_loss": 0.57658195, "eval_runtime": 291.2604, "eval_samples_per_second": 11.931, "eval_steps_per_second": 11.931, "epoch": 0.64407558, "global_step/max_steps": "13850/21503", "percentage": "64.41%", "elapsed_time": "1d 16h 9m 55s", "remaining_time": "22h 11m 37s"}
{"loss": 0.68713846, "token_acc": 0.82984191, "grad_norm": 8.00168037, "learning_rate": 3.08e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095803, "epoch": 0.6443081, "global_step/max_steps": "13855/21503", "percentage": "64.43%", "elapsed_time": "1d 16h 10m 19s", "remaining_time": "22h 10m 30s"}
{"loss": 0.67528625, "token_acc": 0.83497221, "grad_norm": 5.72632742, "learning_rate": 3.07e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095823, "epoch": 0.64454062, "global_step/max_steps": "13860/21503", "percentage": "64.46%", "elapsed_time": "1d 16h 10m 41s", "remaining_time": "22h 9m 21s"}
{"loss": 0.66720424, "token_acc": 0.83071342, "grad_norm": 6.49394751, "learning_rate": 3.07e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095842, "epoch": 0.64477313, "global_step/max_steps": "13865/21503", "percentage": "64.48%", "elapsed_time": "1d 16h 11m 4s", "remaining_time": "22h 8m 13s"}
{"loss": 0.60206504, "token_acc": 0.84910486, "grad_norm": 8.69766521, "learning_rate": 3.07e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095862, "epoch": 0.64500565, "global_step/max_steps": "13870/21503", "percentage": "64.50%", "elapsed_time": "1d 16h 11m 27s", "remaining_time": "22h 7m 4s"}
{"loss": 0.62944989, "token_acc": 0.84238935, "grad_norm": 7.54493332, "learning_rate": 3.06e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095881, "epoch": 0.64523817, "global_step/max_steps": "13875/21503", "percentage": "64.53%", "elapsed_time": "1d 16h 11m 50s", "remaining_time": "22h 5m 56s"}
{"loss": 0.68694386, "token_acc": 0.84076717, "grad_norm": 9.88242722, "learning_rate": 3.06e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095901, "epoch": 0.64547069, "global_step/max_steps": "13880/21503", "percentage": "64.55%", "elapsed_time": "1d 16h 12m 12s", "remaining_time": "22h 4m 48s"}
{"loss": 0.62434702, "token_acc": 0.83958603, "grad_norm": 7.94822359, "learning_rate": 3.06e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.09592, "epoch": 0.64570321, "global_step/max_steps": "13885/21503", "percentage": "64.57%", "elapsed_time": "1d 16h 12m 35s", "remaining_time": "22h 3m 40s"}
{"loss": 0.75952148, "token_acc": 0.82339361, "grad_norm": 8.72234249, "learning_rate": 3.05e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.09594, "epoch": 0.64593573, "global_step/max_steps": "13890/21503", "percentage": "64.60%", "elapsed_time": "1d 16h 12m 58s", "remaining_time": "22h 2m 31s"}
{"loss": 0.68327446, "token_acc": 0.83181358, "grad_norm": 8.995368, "learning_rate": 3.05e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095959, "epoch": 0.64616824, "global_step/max_steps": "13895/21503", "percentage": "64.62%", "elapsed_time": "1d 16h 13m 21s", "remaining_time": "22h 1m 23s"}
{"loss": 0.62838593, "token_acc": 0.84953704, "grad_norm": 8.11850834, "learning_rate": 3.05e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095978, "epoch": 0.64640076, "global_step/max_steps": "13900/21503", "percentage": "64.64%", "elapsed_time": "1d 16h 13m 44s", "remaining_time": "22h 0m 15s"}
{"eval_loss": 0.57500315, "eval_runtime": 292.3705, "eval_samples_per_second": 11.886, "eval_steps_per_second": 11.886, "epoch": 0.64640076, "global_step/max_steps": "13900/21503", "percentage": "64.64%", "elapsed_time": "1d 16h 18m 36s", "remaining_time": "22h 2m 55s"}
{"loss": 0.64338384, "token_acc": 0.82985888, "grad_norm": 6.90622139, "learning_rate": 3.04e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095804, "epoch": 0.64663328, "global_step/max_steps": "13905/21503", "percentage": "64.67%", "elapsed_time": "1d 16h 18m 59s", "remaining_time": "22h 1m 47s"}
{"loss": 0.58083777, "token_acc": 0.84015257, "grad_norm": 7.20153618, "learning_rate": 3.04e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095824, "epoch": 0.6468658, "global_step/max_steps": "13910/21503", "percentage": "64.69%", "elapsed_time": "1d 16h 19m 22s", "remaining_time": "22h 0m 39s"}
{"loss": 0.59457951, "token_acc": 0.84973357, "grad_norm": 6.92456007, "learning_rate": 3.04e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095843, "epoch": 0.64709832, "global_step/max_steps": "13915/21503", "percentage": "64.71%", "elapsed_time": "1d 16h 19m 45s", "remaining_time": "21h 59m 31s"}
{"loss": 0.68319674, "token_acc": 0.83655914, "grad_norm": 9.05067635, "learning_rate": 3.03e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095862, "epoch": 0.64733084, "global_step/max_steps": "13920/21503", "percentage": "64.74%", "elapsed_time": "1d 16h 20m 8s", "remaining_time": "21h 58m 22s"}
{"loss": 0.56083918, "token_acc": 0.85561878, "grad_norm": 8.4566412, "learning_rate": 3.03e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095882, "epoch": 0.64756335, "global_step/max_steps": "13925/21503", "percentage": "64.76%", "elapsed_time": "1d 16h 20m 30s", "remaining_time": "21h 57m 14s"}
{"loss": 0.66486444, "token_acc": 0.82371349, "grad_norm": 6.57384062, "learning_rate": 3.02e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095901, "epoch": 0.64779587, "global_step/max_steps": "13930/21503", "percentage": "64.78%", "elapsed_time": "1d 16h 20m 54s", "remaining_time": "21h 56m 7s"}
{"loss": 0.64717841, "token_acc": 0.84308131, "grad_norm": 9.13306713, "learning_rate": 3.02e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.09592, "epoch": 0.64802839, "global_step/max_steps": "13935/21503", "percentage": "64.80%", "elapsed_time": "1d 16h 21m 16s", "remaining_time": "21h 54m 58s"}
{"loss": 0.68238187, "token_acc": 0.84636969, "grad_norm": 8.26430893, "learning_rate": 3.02e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.09594, "epoch": 0.64826091, "global_step/max_steps": "13940/21503", "percentage": "64.83%", "elapsed_time": "1d 16h 21m 39s", "remaining_time": "21h 53m 50s"}
{"loss": 0.58143196, "token_acc": 0.86203866, "grad_norm": 7.37654352, "learning_rate": 3.01e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095959, "epoch": 0.64849343, "global_step/max_steps": "13945/21503", "percentage": "64.85%", "elapsed_time": "1d 16h 22m 2s", "remaining_time": "21h 52m 42s"}
{"loss": 0.65278363, "token_acc": 0.82959801, "grad_norm": 6.57182026, "learning_rate": 3.01e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095978, "epoch": 0.64872595, "global_step/max_steps": "13950/21503", "percentage": "64.87%", "elapsed_time": "1d 16h 22m 25s", "remaining_time": "21h 51m 35s"}
{"eval_loss": 0.57419461, "eval_runtime": 295.9557, "eval_samples_per_second": 11.742, "eval_steps_per_second": 11.742, "epoch": 0.64872595, "global_step/max_steps": "13950/21503", "percentage": "64.87%", "elapsed_time": "1d 16h 27m 21s", "remaining_time": "21h 54m 15s"}
{"loss": 0.56265922, "token_acc": 0.83135369, "grad_norm": 7.55763435, "learning_rate": 3.01e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095801, "epoch": 0.64895846, "global_step/max_steps": "13955/21503", "percentage": "64.90%", "elapsed_time": "1d 16h 27m 46s", "remaining_time": "21h 53m 8s"}
{"loss": 0.66406384, "token_acc": 0.84244857, "grad_norm": 10.29442215, "learning_rate": 3e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.09582, "epoch": 0.64919098, "global_step/max_steps": "13960/21503", "percentage": "64.92%", "elapsed_time": "1d 16h 28m 9s", "remaining_time": "21h 52m 0s"}
{"loss": 0.63783965, "token_acc": 0.85503472, "grad_norm": 9.17708969, "learning_rate": 3e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.09584, "epoch": 0.6494235, "global_step/max_steps": "13965/21503", "percentage": "64.94%", "elapsed_time": "1d 16h 28m 31s", "remaining_time": "21h 50m 52s"}
{"loss": 0.66960435, "token_acc": 0.83458904, "grad_norm": 7.76169538, "learning_rate": 3e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095859, "epoch": 0.64965602, "global_step/max_steps": "13970/21503", "percentage": "64.97%", "elapsed_time": "1d 16h 28m 55s", "remaining_time": "21h 49m 44s"}
{"loss": 0.73015332, "token_acc": 0.81809554, "grad_norm": 8.44753075, "learning_rate": 2.99e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095878, "epoch": 0.64988854, "global_step/max_steps": "13975/21503", "percentage": "64.99%", "elapsed_time": "1d 16h 29m 18s", "remaining_time": "21h 48m 36s"}
{"loss": 0.68156776, "token_acc": 0.82776089, "grad_norm": 5.71042299, "learning_rate": 2.99e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095897, "epoch": 0.65012105, "global_step/max_steps": "13980/21503", "percentage": "65.01%", "elapsed_time": "1d 16h 29m 41s", "remaining_time": "21h 47m 28s"}
{"loss": 0.61255183, "token_acc": 0.8398314, "grad_norm": 7.33379984, "learning_rate": 2.99e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095915, "epoch": 0.65035357, "global_step/max_steps": "13985/21503", "percentage": "65.04%", "elapsed_time": "1d 16h 30m 5s", "remaining_time": "21h 46m 21s"}
{"loss": 0.78131342, "token_acc": 0.78008572, "grad_norm": 5.48187685, "learning_rate": 2.98e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095935, "epoch": 0.65058609, "global_step/max_steps": "13990/21503", "percentage": "65.06%", "elapsed_time": "1d 16h 30m 28s", "remaining_time": "21h 45m 13s"}
{"loss": 0.51769953, "token_acc": 0.86393659, "grad_norm": 7.97532845, "learning_rate": 2.98e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095953, "epoch": 0.65081861, "global_step/max_steps": "13995/21503", "percentage": "65.08%", "elapsed_time": "1d 16h 30m 51s", "remaining_time": "21h 44m 6s"}
{"loss": 0.61938682, "token_acc": 0.8512966, "grad_norm": 9.1635704, "learning_rate": 2.98e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095973, "epoch": 0.65105113, "global_step/max_steps": "14000/21503", "percentage": "65.11%", "elapsed_time": "1d 16h 31m 14s", "remaining_time": "21h 42m 58s"}
{"eval_loss": 0.57346582, "eval_runtime": 295.8049, "eval_samples_per_second": 11.748, "eval_steps_per_second": 11.748, "epoch": 0.65105113, "global_step/max_steps": "14000/21503", "percentage": "65.11%", "elapsed_time": "1d 16h 36m 10s", "remaining_time": "21h 45m 36s"}
{"loss": 0.77719464, "token_acc": 0.82989103, "grad_norm": 6.88422394, "learning_rate": 2.97e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095798, "epoch": 0.65128365, "global_step/max_steps": "14005/21503", "percentage": "65.13%", "elapsed_time": "1d 16h 36m 33s", "remaining_time": "21h 44m 28s"}
{"loss": 0.61130776, "token_acc": 0.852149, "grad_norm": 6.87109232, "learning_rate": 2.97e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095816, "epoch": 0.65151616, "global_step/max_steps": "14010/21503", "percentage": "65.15%", "elapsed_time": "1d 16h 36m 57s", "remaining_time": "21h 43m 21s"}
{"loss": 0.74573598, "token_acc": 0.82878315, "grad_norm": 9.44448948, "learning_rate": 2.96e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095836, "epoch": 0.65174868, "global_step/max_steps": "14015/21503", "percentage": "65.18%", "elapsed_time": "1d 16h 37m 19s", "remaining_time": "21h 42m 13s"}
{"loss": 0.70247893, "token_acc": 0.82348274, "grad_norm": 8.06130695, "learning_rate": 2.96e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095855, "epoch": 0.6519812, "global_step/max_steps": "14020/21503", "percentage": "65.20%", "elapsed_time": "1d 16h 37m 42s", "remaining_time": "21h 41m 5s"}
{"loss": 0.73702207, "token_acc": 0.81261596, "grad_norm": 6.83537674, "learning_rate": 2.96e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095874, "epoch": 0.65221372, "global_step/max_steps": "14025/21503", "percentage": "65.22%", "elapsed_time": "1d 16h 38m 4s", "remaining_time": "21h 39m 57s"}
{"loss": 0.64534817, "token_acc": 0.83828383, "grad_norm": 8.67605686, "learning_rate": 2.95e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095894, "epoch": 0.65244624, "global_step/max_steps": "14030/21503", "percentage": "65.25%", "elapsed_time": "1d 16h 38m 27s", "remaining_time": "21h 38m 50s"}
{"loss": 0.62237802, "token_acc": 0.83573487, "grad_norm": 5.36727953, "learning_rate": 2.95e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095913, "epoch": 0.65267876, "global_step/max_steps": "14035/21503", "percentage": "65.27%", "elapsed_time": "1d 16h 38m 50s", "remaining_time": "21h 37m 42s"}
{"loss": 0.61867366, "token_acc": 0.84496431, "grad_norm": 6.28085041, "learning_rate": 2.95e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095932, "epoch": 0.65291127, "global_step/max_steps": "14040/21503", "percentage": "65.29%", "elapsed_time": "1d 16h 39m 13s", "remaining_time": "21h 36m 34s"}
{"loss": 0.68442392, "token_acc": 0.83813202, "grad_norm": 7.41170168, "learning_rate": 2.94e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095952, "epoch": 0.65314379, "global_step/max_steps": "14045/21503", "percentage": "65.32%", "elapsed_time": "1d 16h 39m 35s", "remaining_time": "21h 35m 26s"}
{"loss": 0.45699325, "token_acc": 0.88477366, "grad_norm": 6.25632381, "learning_rate": 2.94e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095971, "epoch": 0.65337631, "global_step/max_steps": "14050/21503", "percentage": "65.34%", "elapsed_time": "1d 16h 39m 58s", "remaining_time": "21h 34m 18s"}
{"eval_loss": 0.57469761, "eval_runtime": 295.928, "eval_samples_per_second": 11.743, "eval_steps_per_second": 11.743, "epoch": 0.65337631, "global_step/max_steps": "14050/21503", "percentage": "65.34%", "elapsed_time": "1d 16h 44m 54s", "remaining_time": "21h 36m 55s"}
{"loss": 0.59566512, "token_acc": 0.83146166, "grad_norm": 9.88311195, "learning_rate": 2.94e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095796, "epoch": 0.65360883, "global_step/max_steps": "14055/21503", "percentage": "65.36%", "elapsed_time": "1d 16h 45m 18s", "remaining_time": "21h 35m 48s"}
{"loss": 0.76508641, "token_acc": 0.79983682, "grad_norm": 6.37638521, "learning_rate": 2.93e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095815, "epoch": 0.65384135, "global_step/max_steps": "14060/21503", "percentage": "65.39%", "elapsed_time": "1d 16h 45m 41s", "remaining_time": "21h 34m 41s"}
{"loss": 0.55901408, "token_acc": 0.86576301, "grad_norm": 7.58630276, "learning_rate": 2.93e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095834, "epoch": 0.65407387, "global_step/max_steps": "14065/21503", "percentage": "65.41%", "elapsed_time": "1d 16h 46m 3s", "remaining_time": "21h 33m 33s"}
{"loss": 0.57775431, "token_acc": 0.86117647, "grad_norm": 8.94262409, "learning_rate": 2.93e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095853, "epoch": 0.65430638, "global_step/max_steps": "14070/21503", "percentage": "65.43%", "elapsed_time": "1d 16h 46m 26s", "remaining_time": "21h 32m 25s"}
{"loss": 0.64952016, "token_acc": 0.83772302, "grad_norm": 7.7164135, "learning_rate": 2.92e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095872, "epoch": 0.6545389, "global_step/max_steps": "14075/21503", "percentage": "65.46%", "elapsed_time": "1d 16h 46m 50s", "remaining_time": "21h 31m 18s"}
{"loss": 0.59884939, "token_acc": 0.84448217, "grad_norm": 6.94449568, "learning_rate": 2.92e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095891, "epoch": 0.65477142, "global_step/max_steps": "14080/21503", "percentage": "65.48%", "elapsed_time": "1d 16h 47m 13s", "remaining_time": "21h 30m 10s"}
{"loss": 0.60869765, "token_acc": 0.8399396, "grad_norm": 8.53555965, "learning_rate": 2.92e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.09591, "epoch": 0.65500394, "global_step/max_steps": "14085/21503", "percentage": "65.50%", "elapsed_time": "1d 16h 47m 36s", "remaining_time": "21h 29m 3s"}
{"loss": 0.6461452, "token_acc": 0.83412322, "grad_norm": 7.03681898, "learning_rate": 2.91e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095928, "epoch": 0.65523646, "global_step/max_steps": "14090/21503", "percentage": "65.53%", "elapsed_time": "1d 16h 48m 0s", "remaining_time": "21h 27m 56s"}
{"loss": 0.6820972, "token_acc": 0.83652718, "grad_norm": 9.43223095, "learning_rate": 2.91e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095948, "epoch": 0.65546897, "global_step/max_steps": "14095/21503", "percentage": "65.55%", "elapsed_time": "1d 16h 48m 22s", "remaining_time": "21h 26m 48s"}
{"loss": 0.66490235, "token_acc": 0.83579584, "grad_norm": 7.8167038, "learning_rate": 2.91e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095967, "epoch": 0.65570149, "global_step/max_steps": "14100/21503", "percentage": "65.57%", "elapsed_time": "1d 16h 48m 45s", "remaining_time": "21h 25m 41s"}
{"eval_loss": 0.5727616, "eval_runtime": 296.5335, "eval_samples_per_second": 11.719, "eval_steps_per_second": 11.719, "epoch": 0.65570149, "global_step/max_steps": "14100/21503", "percentage": "65.57%", "elapsed_time": "1d 16h 53m 42s", "remaining_time": "21h 28m 16s"}
{"loss": 0.68842726, "token_acc": 0.83114729, "grad_norm": 9.0456543, "learning_rate": 2.9e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095792, "epoch": 0.65593401, "global_step/max_steps": "14105/21503", "percentage": "65.60%", "elapsed_time": "1d 16h 54m 5s", "remaining_time": "21h 27m 9s"}
{"loss": 0.63902674, "token_acc": 0.84402277, "grad_norm": 8.36978817, "learning_rate": 2.9e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095811, "epoch": 0.65616653, "global_step/max_steps": "14110/21503", "percentage": "65.62%", "elapsed_time": "1d 16h 54m 28s", "remaining_time": "21h 26m 1s"}
{"loss": 0.68676167, "token_acc": 0.8194259, "grad_norm": 9.52407646, "learning_rate": 2.89e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095831, "epoch": 0.65639905, "global_step/max_steps": "14115/21503", "percentage": "65.64%", "elapsed_time": "1d 16h 54m 50s", "remaining_time": "21h 24m 54s"}
{"loss": 0.82452707, "token_acc": 0.78843661, "grad_norm": 4.4605298, "learning_rate": 2.89e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095849, "epoch": 0.65663157, "global_step/max_steps": "14120/21503", "percentage": "65.67%", "elapsed_time": "1d 16h 55m 14s", "remaining_time": "21h 23m 47s"}
{"loss": 0.70640745, "token_acc": 0.8225, "grad_norm": 8.33835697, "learning_rate": 2.89e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095868, "epoch": 0.65686408, "global_step/max_steps": "14125/21503", "percentage": "65.69%", "elapsed_time": "1d 16h 55m 37s", "remaining_time": "21h 22m 39s"}
{"loss": 0.61550646, "token_acc": 0.85372225, "grad_norm": 8.58897591, "learning_rate": 2.88e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095887, "epoch": 0.6570966, "global_step/max_steps": "14130/21503", "percentage": "65.71%", "elapsed_time": "1d 16h 56m 0s", "remaining_time": "21h 21m 32s"}
{"loss": 0.65040998, "token_acc": 0.83697813, "grad_norm": 6.64737415, "learning_rate": 2.88e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095907, "epoch": 0.65732912, "global_step/max_steps": "14135/21503", "percentage": "65.74%", "elapsed_time": "1d 16h 56m 22s", "remaining_time": "21h 20m 24s"}
{"loss": 0.75175662, "token_acc": 0.8156511, "grad_norm": 6.29285479, "learning_rate": 2.88e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095926, "epoch": 0.65756164, "global_step/max_steps": "14140/21503", "percentage": "65.76%", "elapsed_time": "1d 16h 56m 45s", "remaining_time": "21h 19m 17s"}
{"loss": 0.60026441, "token_acc": 0.85776031, "grad_norm": 6.53395224, "learning_rate": 2.87e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095945, "epoch": 0.65779416, "global_step/max_steps": "14145/21503", "percentage": "65.78%", "elapsed_time": "1d 16h 57m 7s", "remaining_time": "21h 18m 9s"}
{"loss": 0.63532705, "token_acc": 0.84710744, "grad_norm": 8.17267227, "learning_rate": 2.87e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095965, "epoch": 0.65802668, "global_step/max_steps": "14150/21503", "percentage": "65.80%", "elapsed_time": "1d 16h 57m 29s", "remaining_time": "21h 17m 1s"}
{"eval_loss": 0.57364875, "eval_runtime": 291.4912, "eval_samples_per_second": 11.921, "eval_steps_per_second": 11.921, "epoch": 0.65802668, "global_step/max_steps": "14150/21503", "percentage": "65.80%", "elapsed_time": "1d 17h 2m 21s", "remaining_time": "21h 19m 33s"}
{"loss": 0.61444077, "token_acc": 0.83096992, "grad_norm": 8.13296318, "learning_rate": 2.87e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095794, "epoch": 0.65825919, "global_step/max_steps": "14155/21503", "percentage": "65.83%", "elapsed_time": "1d 17h 2m 44s", "remaining_time": "21h 18m 25s"}
{"loss": 0.7096581, "token_acc": 0.81620051, "grad_norm": 8.01396465, "learning_rate": 2.86e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095814, "epoch": 0.65849171, "global_step/max_steps": "14160/21503", "percentage": "65.85%", "elapsed_time": "1d 17h 3m 6s", "remaining_time": "21h 17m 18s"}
{"loss": 0.66259518, "token_acc": 0.83299458, "grad_norm": 6.89502335, "learning_rate": 2.86e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095833, "epoch": 0.65872423, "global_step/max_steps": "14165/21503", "percentage": "65.87%", "elapsed_time": "1d 17h 3m 28s", "remaining_time": "21h 16m 10s"}
{"loss": 0.73252201, "token_acc": 0.81075763, "grad_norm": 5.41002607, "learning_rate": 2.86e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095853, "epoch": 0.65895675, "global_step/max_steps": "14170/21503", "percentage": "65.90%", "elapsed_time": "1d 17h 3m 50s", "remaining_time": "21h 15m 2s"}
{"loss": 0.68873425, "token_acc": 0.82526525, "grad_norm": 7.33572578, "learning_rate": 2.85e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095872, "epoch": 0.65918927, "global_step/max_steps": "14175/21503", "percentage": "65.92%", "elapsed_time": "1d 17h 4m 13s", "remaining_time": "21h 13m 55s"}
{"loss": 0.75959387, "token_acc": 0.80953958, "grad_norm": 8.46199989, "learning_rate": 2.85e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095891, "epoch": 0.65942179, "global_step/max_steps": "14180/21503", "percentage": "65.94%", "elapsed_time": "1d 17h 4m 36s", "remaining_time": "21h 12m 47s"}
{"loss": 0.73255777, "token_acc": 0.80769231, "grad_norm": 8.14322472, "learning_rate": 2.85e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.09591, "epoch": 0.6596543, "global_step/max_steps": "14185/21503", "percentage": "65.97%", "elapsed_time": "1d 17h 4m 58s", "remaining_time": "21h 11m 40s"}
{"loss": 0.65819473, "token_acc": 0.83651478, "grad_norm": 8.33886909, "learning_rate": 2.84e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.09593, "epoch": 0.65988682, "global_step/max_steps": "14190/21503", "percentage": "65.99%", "elapsed_time": "1d 17h 5m 20s", "remaining_time": "21h 10m 32s"}
{"loss": 0.73665075, "token_acc": 0.80356047, "grad_norm": 7.93830252, "learning_rate": 2.84e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095948, "epoch": 0.66011934, "global_step/max_steps": "14195/21503", "percentage": "66.01%", "elapsed_time": "1d 17h 5m 44s", "remaining_time": "21h 9m 26s"}
{"loss": 0.63172574, "token_acc": 0.83574198, "grad_norm": 8.49276161, "learning_rate": 2.84e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095967, "epoch": 0.66035186, "global_step/max_steps": "14200/21503", "percentage": "66.04%", "elapsed_time": "1d 17h 6m 7s", "remaining_time": "21h 8m 19s"}
{"eval_loss": 0.57480913, "eval_runtime": 292.2811, "eval_samples_per_second": 11.889, "eval_steps_per_second": 11.889, "epoch": 0.66035186, "global_step/max_steps": "14200/21503", "percentage": "66.04%", "elapsed_time": "1d 17h 10m 59s", "remaining_time": "21h 10m 49s"}
{"loss": 0.62705307, "token_acc": 0.8306502, "grad_norm": 9.48365116, "learning_rate": 2.83e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095796, "epoch": 0.66058438, "global_step/max_steps": "14205/21503", "percentage": "66.06%", "elapsed_time": "1d 17h 11m 23s", "remaining_time": "21h 9m 42s"}
{"loss": 0.62661581, "token_acc": 0.84132554, "grad_norm": 11.27563858, "learning_rate": 2.83e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095815, "epoch": 0.66081689, "global_step/max_steps": "14210/21503", "percentage": "66.08%", "elapsed_time": "1d 17h 11m 47s", "remaining_time": "21h 8m 35s"}
{"loss": 0.57247829, "token_acc": 0.85664336, "grad_norm": 6.4860754, "learning_rate": 2.83e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095834, "epoch": 0.66104941, "global_step/max_steps": "14215/21503", "percentage": "66.11%", "elapsed_time": "1d 17h 12m 9s", "remaining_time": "21h 7m 28s"}
{"loss": 0.7338717, "token_acc": 0.81082024, "grad_norm": 8.65391254, "learning_rate": 2.82e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095852, "epoch": 0.66128193, "global_step/max_steps": "14220/21503", "percentage": "66.13%", "elapsed_time": "1d 17h 12m 32s", "remaining_time": "21h 6m 21s"}
{"loss": 0.71803761, "token_acc": 0.81648639, "grad_norm": 8.97234058, "learning_rate": 2.82e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095872, "epoch": 0.66151445, "global_step/max_steps": "14225/21503", "percentage": "66.15%", "elapsed_time": "1d 17h 12m 55s", "remaining_time": "21h 5m 13s"}
{"loss": 0.70365, "token_acc": 0.82449407, "grad_norm": 7.88917303, "learning_rate": 2.82e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095891, "epoch": 0.66174697, "global_step/max_steps": "14230/21503", "percentage": "66.18%", "elapsed_time": "1d 17h 13m 17s", "remaining_time": "21h 4m 6s"}
{"loss": 0.58585553, "token_acc": 0.84224202, "grad_norm": 10.81304359, "learning_rate": 2.81e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.09591, "epoch": 0.66197949, "global_step/max_steps": "14235/21503", "percentage": "66.20%", "elapsed_time": "1d 17h 13m 40s", "remaining_time": "21h 2m 59s"}
{"loss": 0.63523021, "token_acc": 0.84859385, "grad_norm": 8.5220623, "learning_rate": 2.81e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095929, "epoch": 0.662212, "global_step/max_steps": "14240/21503", "percentage": "66.22%", "elapsed_time": "1d 17h 14m 3s", "remaining_time": "21h 1m 52s"}
{"loss": 0.63363123, "token_acc": 0.83692506, "grad_norm": 8.5445137, "learning_rate": 2.8e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095948, "epoch": 0.66244452, "global_step/max_steps": "14245/21503", "percentage": "66.25%", "elapsed_time": "1d 17h 14m 26s", "remaining_time": "21h 0m 45s"}
{"loss": 0.64259644, "token_acc": 0.82461205, "grad_norm": 9.95628357, "learning_rate": 2.8e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095966, "epoch": 0.66267704, "global_step/max_steps": "14250/21503", "percentage": "66.27%", "elapsed_time": "1d 17h 14m 49s", "remaining_time": "20h 59m 38s"}
{"eval_loss": 0.57386059, "eval_runtime": 291.7651, "eval_samples_per_second": 11.91, "eval_steps_per_second": 11.91, "epoch": 0.66267704, "global_step/max_steps": "14250/21503", "percentage": "66.27%", "elapsed_time": "1d 17h 19m 41s", "remaining_time": "21h 2m 7s"}
{"loss": 0.62930918, "token_acc": 0.83058778, "grad_norm": 9.03381443, "learning_rate": 2.8e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095797, "epoch": 0.66290956, "global_step/max_steps": "14255/21503", "percentage": "66.29%", "elapsed_time": "1d 17h 20m 3s", "remaining_time": "21h 0m 59s"}
{"loss": 0.54360771, "token_acc": 0.85508607, "grad_norm": 7.85627031, "learning_rate": 2.79e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095816, "epoch": 0.66314208, "global_step/max_steps": "14260/21503", "percentage": "66.32%", "elapsed_time": "1d 17h 20m 26s", "remaining_time": "20h 59m 52s"}
{"loss": 0.67062783, "token_acc": 0.83473389, "grad_norm": 8.68062019, "learning_rate": 2.79e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095836, "epoch": 0.6633746, "global_step/max_steps": "14265/21503", "percentage": "66.34%", "elapsed_time": "1d 17h 20m 48s", "remaining_time": "20h 58m 45s"}
{"loss": 0.67280827, "token_acc": 0.83572969, "grad_norm": 8.09739113, "learning_rate": 2.79e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095855, "epoch": 0.66360711, "global_step/max_steps": "14270/21503", "percentage": "66.36%", "elapsed_time": "1d 17h 21m 10s", "remaining_time": "20h 57m 37s"}
{"loss": 0.72388034, "token_acc": 0.82927771, "grad_norm": 6.79045963, "learning_rate": 2.78e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095874, "epoch": 0.66383963, "global_step/max_steps": "14275/21503", "percentage": "66.39%", "elapsed_time": "1d 17h 21m 33s", "remaining_time": "20h 56m 30s"}
{"loss": 0.67908726, "token_acc": 0.83116096, "grad_norm": 7.59042406, "learning_rate": 2.78e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095892, "epoch": 0.66407215, "global_step/max_steps": "14280/21503", "percentage": "66.41%", "elapsed_time": "1d 17h 21m 57s", "remaining_time": "20h 55m 24s"}
{"loss": 0.67805676, "token_acc": 0.82565191, "grad_norm": 8.50634384, "learning_rate": 2.78e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095911, "epoch": 0.66430467, "global_step/max_steps": "14285/21503", "percentage": "66.43%", "elapsed_time": "1d 17h 22m 20s", "remaining_time": "20h 54m 17s"}
{"loss": 0.70886197, "token_acc": 0.82160234, "grad_norm": 8.42460537, "learning_rate": 2.77e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.09593, "epoch": 0.66453719, "global_step/max_steps": "14290/21503", "percentage": "66.46%", "elapsed_time": "1d 17h 22m 42s", "remaining_time": "20h 53m 10s"}
{"loss": 0.69114933, "token_acc": 0.81510622, "grad_norm": 8.80929756, "learning_rate": 2.77e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095949, "epoch": 0.66476971, "global_step/max_steps": "14295/21503", "percentage": "66.48%", "elapsed_time": "1d 17h 23m 4s", "remaining_time": "20h 52m 2s"}
{"loss": 0.56680479, "token_acc": 0.8501395, "grad_norm": 6.64925098, "learning_rate": 2.77e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095968, "epoch": 0.66500222, "global_step/max_steps": "14300/21503", "percentage": "66.50%", "elapsed_time": "1d 17h 23m 27s", "remaining_time": "20h 50m 56s"}
{"eval_loss": 0.5735752, "eval_runtime": 292.2407, "eval_samples_per_second": 11.891, "eval_steps_per_second": 11.891, "epoch": 0.66500222, "global_step/max_steps": "14300/21503", "percentage": "66.50%", "elapsed_time": "1d 17h 28m 19s", "remaining_time": "20h 53m 23s"}
{"loss": 0.60788498, "token_acc": 0.83088088, "grad_norm": 9.93341446, "learning_rate": 2.76e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095799, "epoch": 0.66523474, "global_step/max_steps": "14305/21503", "percentage": "66.53%", "elapsed_time": "1d 17h 28m 42s", "remaining_time": "20h 52m 16s"}
{"loss": 0.76738667, "token_acc": 0.81103335, "grad_norm": 9.00854301, "learning_rate": 2.76e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095818, "epoch": 0.66546726, "global_step/max_steps": "14310/21503", "percentage": "66.55%", "elapsed_time": "1d 17h 29m 5s", "remaining_time": "20h 51m 9s"}
{"loss": 0.59746709, "token_acc": 0.84924827, "grad_norm": 8.77670956, "learning_rate": 2.76e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095837, "epoch": 0.66569978, "global_step/max_steps": "14315/21503", "percentage": "66.57%", "elapsed_time": "1d 17h 29m 27s", "remaining_time": "20h 50m 2s"}
{"loss": 0.65599499, "token_acc": 0.85446205, "grad_norm": 9.20003605, "learning_rate": 2.75e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095856, "epoch": 0.6659323, "global_step/max_steps": "14320/21503", "percentage": "66.60%", "elapsed_time": "1d 17h 29m 50s", "remaining_time": "20h 48m 55s"}
{"loss": 0.66822953, "token_acc": 0.82621951, "grad_norm": 8.36912632, "learning_rate": 2.75e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095875, "epoch": 0.66616481, "global_step/max_steps": "14325/21503", "percentage": "66.62%", "elapsed_time": "1d 17h 30m 12s", "remaining_time": "20h 47m 48s"}
{"loss": 0.71679516, "token_acc": 0.82325426, "grad_norm": 9.20305538, "learning_rate": 2.75e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095894, "epoch": 0.66639733, "global_step/max_steps": "14330/21503", "percentage": "66.64%", "elapsed_time": "1d 17h 30m 35s", "remaining_time": "20h 46m 40s"}
{"loss": 0.66953268, "token_acc": 0.83780277, "grad_norm": 8.59557056, "learning_rate": 2.74e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095913, "epoch": 0.66662985, "global_step/max_steps": "14335/21503", "percentage": "66.67%", "elapsed_time": "1d 17h 30m 57s", "remaining_time": "20h 45m 34s"}
{"loss": 0.5996942, "token_acc": 0.85684647, "grad_norm": 10.05733395, "learning_rate": 2.74e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095932, "epoch": 0.66686237, "global_step/max_steps": "14340/21503", "percentage": "66.69%", "elapsed_time": "1d 17h 31m 20s", "remaining_time": "20h 44m 27s"}
{"loss": 0.63576288, "token_acc": 0.84331797, "grad_norm": 7.97670078, "learning_rate": 2.74e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095951, "epoch": 0.66709489, "global_step/max_steps": "14345/21503", "percentage": "66.71%", "elapsed_time": "1d 17h 31m 43s", "remaining_time": "20h 43m 20s"}
{"loss": 0.62156549, "token_acc": 0.8468543, "grad_norm": 8.13727951, "learning_rate": 2.73e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095969, "epoch": 0.66732741, "global_step/max_steps": "14350/21503", "percentage": "66.73%", "elapsed_time": "1d 17h 32m 6s", "remaining_time": "20h 42m 14s"}
{"eval_loss": 0.57122022, "eval_runtime": 294.1138, "eval_samples_per_second": 11.815, "eval_steps_per_second": 11.815, "epoch": 0.66732741, "global_step/max_steps": "14350/21503", "percentage": "66.73%", "elapsed_time": "1d 17h 37m 0s", "remaining_time": "20h 44m 40s"}
{"loss": 0.60878305, "token_acc": 0.83075614, "grad_norm": 7.59531593, "learning_rate": 2.73e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095799, "epoch": 0.66755992, "global_step/max_steps": "14355/21503", "percentage": "66.76%", "elapsed_time": "1d 17h 37m 24s", "remaining_time": "20h 43m 34s"}
{"loss": 0.63833027, "token_acc": 0.84376387, "grad_norm": 9.15139961, "learning_rate": 2.73e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095818, "epoch": 0.66779244, "global_step/max_steps": "14360/21503", "percentage": "66.78%", "elapsed_time": "1d 17h 37m 47s", "remaining_time": "20h 42m 27s"}
{"loss": 0.71063466, "token_acc": 0.81243184, "grad_norm": 8.15334606, "learning_rate": 2.72e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095837, "epoch": 0.66802496, "global_step/max_steps": "14365/21503", "percentage": "66.80%", "elapsed_time": "1d 17h 38m 10s", "remaining_time": "20h 41m 20s"}
{"loss": 0.58511653, "token_acc": 0.8472173, "grad_norm": 9.87823391, "learning_rate": 2.72e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095855, "epoch": 0.66825748, "global_step/max_steps": "14370/21503", "percentage": "66.83%", "elapsed_time": "1d 17h 38m 33s", "remaining_time": "20h 40m 14s"}
{"loss": 0.64584064, "token_acc": 0.83955638, "grad_norm": 7.44288826, "learning_rate": 2.72e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095873, "epoch": 0.66849, "global_step/max_steps": "14375/21503", "percentage": "66.85%", "elapsed_time": "1d 17h 38m 57s", "remaining_time": "20h 39m 7s"}
{"loss": 0.61568823, "token_acc": 0.83521739, "grad_norm": 8.39272785, "learning_rate": 2.71e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095893, "epoch": 0.66872252, "global_step/max_steps": "14380/21503", "percentage": "66.87%", "elapsed_time": "1d 17h 39m 19s", "remaining_time": "20h 38m 0s"}
{"loss": 0.56981716, "token_acc": 0.85571726, "grad_norm": 7.72255039, "learning_rate": 2.71e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095911, "epoch": 0.66895503, "global_step/max_steps": "14385/21503", "percentage": "66.90%", "elapsed_time": "1d 17h 39m 42s", "remaining_time": "20h 36m 54s"}
{"loss": 0.6607986, "token_acc": 0.82314149, "grad_norm": 7.97969961, "learning_rate": 2.71e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.09593, "epoch": 0.66918755, "global_step/max_steps": "14390/21503", "percentage": "66.92%", "elapsed_time": "1d 17h 40m 5s", "remaining_time": "20h 35m 47s"}
{"loss": 0.59288602, "token_acc": 0.85182508, "grad_norm": 7.39163971, "learning_rate": 2.7e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095948, "epoch": 0.66942007, "global_step/max_steps": "14395/21503", "percentage": "66.94%", "elapsed_time": "1d 17h 40m 28s", "remaining_time": "20h 34m 41s"}
{"loss": 0.53822713, "token_acc": 0.86504333, "grad_norm": 8.90728378, "learning_rate": 2.7e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095967, "epoch": 0.66965259, "global_step/max_steps": "14400/21503", "percentage": "66.97%", "elapsed_time": "1d 17h 40m 51s", "remaining_time": "20h 33m 34s"}
{"eval_loss": 0.57375962, "eval_runtime": 297.3936, "eval_samples_per_second": 11.685, "eval_steps_per_second": 11.685, "epoch": 0.66965259, "global_step/max_steps": "14400/21503", "percentage": "66.97%", "elapsed_time": "1d 17h 45m 48s", "remaining_time": "20h 36m 1s"}
{"loss": 0.65973678, "token_acc": 0.83082989, "grad_norm": 6.1460309, "learning_rate": 2.69e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095796, "epoch": 0.66988511, "global_step/max_steps": "14405/21503", "percentage": "66.99%", "elapsed_time": "1d 17h 46m 11s", "remaining_time": "20h 34m 54s"}
{"loss": 0.5947196, "token_acc": 0.84732297, "grad_norm": 6.51329184, "learning_rate": 2.69e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095815, "epoch": 0.67011763, "global_step/max_steps": "14410/21503", "percentage": "67.01%", "elapsed_time": "1d 17h 46m 33s", "remaining_time": "20h 33m 48s"}
{"loss": 0.59922523, "token_acc": 0.85951607, "grad_norm": 9.858675, "learning_rate": 2.69e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095834, "epoch": 0.67035014, "global_step/max_steps": "14415/21503", "percentage": "67.04%", "elapsed_time": "1d 17h 46m 56s", "remaining_time": "20h 32m 41s"}
{"loss": 0.61490231, "token_acc": 0.83907238, "grad_norm": 6.77427053, "learning_rate": 2.68e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095852, "epoch": 0.67058266, "global_step/max_steps": "14420/21503", "percentage": "67.06%", "elapsed_time": "1d 17h 47m 19s", "remaining_time": "20h 31m 34s"}
{"loss": 0.59451036, "token_acc": 0.86499485, "grad_norm": 9.59594822, "learning_rate": 2.68e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095871, "epoch": 0.67081518, "global_step/max_steps": "14425/21503", "percentage": "67.08%", "elapsed_time": "1d 17h 47m 42s", "remaining_time": "20h 30m 28s"}
{"loss": 0.6018611, "token_acc": 0.85747847, "grad_norm": 10.32415104, "learning_rate": 2.68e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.09589, "epoch": 0.6710477, "global_step/max_steps": "14430/21503", "percentage": "67.11%", "elapsed_time": "1d 17h 48m 5s", "remaining_time": "20h 29m 21s"}
{"loss": 0.62579665, "token_acc": 0.84698071, "grad_norm": 6.82516956, "learning_rate": 2.67e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095908, "epoch": 0.67128022, "global_step/max_steps": "14435/21503", "percentage": "67.13%", "elapsed_time": "1d 17h 48m 28s", "remaining_time": "20h 28m 15s"}
{"loss": 0.60993028, "token_acc": 0.84252644, "grad_norm": 6.61841393, "learning_rate": 2.67e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095927, "epoch": 0.67151273, "global_step/max_steps": "14440/21503", "percentage": "67.15%", "elapsed_time": "1d 17h 48m 51s", "remaining_time": "20h 27m 8s"}
{"loss": 0.62741432, "token_acc": 0.83321918, "grad_norm": 8.45978737, "learning_rate": 2.67e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095946, "epoch": 0.67174525, "global_step/max_steps": "14445/21503", "percentage": "67.18%", "elapsed_time": "1d 17h 49m 13s", "remaining_time": "20h 26m 2s"}
{"loss": 0.57920494, "token_acc": 0.85881175, "grad_norm": 7.2215867, "learning_rate": 2.66e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095965, "epoch": 0.67197777, "global_step/max_steps": "14450/21503", "percentage": "67.20%", "elapsed_time": "1d 17h 49m 35s", "remaining_time": "20h 24m 55s"}
{"eval_loss": 0.57381141, "eval_runtime": 294.5723, "eval_samples_per_second": 11.797, "eval_steps_per_second": 11.797, "epoch": 0.67197777, "global_step/max_steps": "14450/21503", "percentage": "67.20%", "elapsed_time": "1d 17h 54m 30s", "remaining_time": "20h 27m 19s"}
{"loss": 0.62015204, "token_acc": 0.83051322, "grad_norm": 9.87445354, "learning_rate": 2.66e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095796, "epoch": 0.67221029, "global_step/max_steps": "14455/21503", "percentage": "67.22%", "elapsed_time": "1d 17h 54m 53s", "remaining_time": "20h 26m 13s"}
{"loss": 0.67537107, "token_acc": 0.83979885, "grad_norm": 6.52264166, "learning_rate": 2.66e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095814, "epoch": 0.67244281, "global_step/max_steps": "14460/21503", "percentage": "67.25%", "elapsed_time": "1d 17h 55m 16s", "remaining_time": "20h 25m 6s"}
{"loss": 0.683324, "token_acc": 0.83072917, "grad_norm": 7.37481737, "learning_rate": 2.65e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095833, "epoch": 0.67267533, "global_step/max_steps": "14465/21503", "percentage": "67.27%", "elapsed_time": "1d 17h 55m 39s", "remaining_time": "20h 24m 0s"}
{"loss": 0.72635098, "token_acc": 0.81828874, "grad_norm": 7.53401184, "learning_rate": 2.65e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095851, "epoch": 0.67290784, "global_step/max_steps": "14470/21503", "percentage": "67.29%", "elapsed_time": "1d 17h 56m 2s", "remaining_time": "20h 22m 54s"}
{"loss": 0.75874205, "token_acc": 0.80963773, "grad_norm": 7.65002108, "learning_rate": 2.65e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.09587, "epoch": 0.67314036, "global_step/max_steps": "14475/21503", "percentage": "67.32%", "elapsed_time": "1d 17h 56m 25s", "remaining_time": "20h 21m 47s"}
{"loss": 0.76666813, "token_acc": 0.80956938, "grad_norm": 8.88990307, "learning_rate": 2.64e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095888, "epoch": 0.67337288, "global_step/max_steps": "14480/21503", "percentage": "67.34%", "elapsed_time": "1d 17h 56m 49s", "remaining_time": "20h 20m 41s"}
{"loss": 0.71089902, "token_acc": 0.81588817, "grad_norm": 8.15017605, "learning_rate": 2.64e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095907, "epoch": 0.6736054, "global_step/max_steps": "14485/21503", "percentage": "67.36%", "elapsed_time": "1d 17h 57m 11s", "remaining_time": "20h 19m 35s"}
{"loss": 0.72781501, "token_acc": 0.76678766, "grad_norm": 8.93472385, "learning_rate": 2.64e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095924, "epoch": 0.67383792, "global_step/max_steps": "14490/21503", "percentage": "67.39%", "elapsed_time": "1d 17h 57m 36s", "remaining_time": "20h 18m 29s"}
{"loss": 0.57463975, "token_acc": 0.86167513, "grad_norm": 11.42200279, "learning_rate": 2.63e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095943, "epoch": 0.67407044, "global_step/max_steps": "14495/21503", "percentage": "67.41%", "elapsed_time": "1d 17h 57m 59s", "remaining_time": "20h 17m 23s"}
{"loss": 0.7092299, "token_acc": 0.82058824, "grad_norm": 9.18592453, "learning_rate": 2.63e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095961, "epoch": 0.67430295, "global_step/max_steps": "14500/21503", "percentage": "67.43%", "elapsed_time": "1d 17h 58m 22s", "remaining_time": "20h 16m 17s"}
{"eval_loss": 0.57146084, "eval_runtime": 291.671, "eval_samples_per_second": 11.914, "eval_steps_per_second": 11.914, "epoch": 0.67430295, "global_step/max_steps": "14500/21503", "percentage": "67.43%", "elapsed_time": "1d 18h 3m 13s", "remaining_time": "20h 18m 37s"}
{"loss": 0.69177079, "token_acc": 0.83092271, "grad_norm": 10.09558201, "learning_rate": 2.63e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095795, "epoch": 0.67453547, "global_step/max_steps": "14505/21503", "percentage": "67.46%", "elapsed_time": "1d 18h 3m 36s", "remaining_time": "20h 17m 31s"}
{"loss": 0.63947334, "token_acc": 0.83920961, "grad_norm": 9.78551674, "learning_rate": 2.62e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095814, "epoch": 0.67476799, "global_step/max_steps": "14510/21503", "percentage": "67.48%", "elapsed_time": "1d 18h 3m 58s", "remaining_time": "20h 16m 24s"}
{"loss": 0.66024466, "token_acc": 0.83497988, "grad_norm": 7.49968624, "learning_rate": 2.62e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095833, "epoch": 0.67500051, "global_step/max_steps": "14515/21503", "percentage": "67.50%", "elapsed_time": "1d 18h 4m 20s", "remaining_time": "20h 15m 18s"}
{"loss": 0.71004906, "token_acc": 0.82749326, "grad_norm": 8.83856678, "learning_rate": 2.62e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095852, "epoch": 0.67523303, "global_step/max_steps": "14520/21503", "percentage": "67.53%", "elapsed_time": "1d 18h 4m 42s", "remaining_time": "20h 14m 11s"}
{"loss": 0.67647705, "token_acc": 0.82861586, "grad_norm": 10.4447422, "learning_rate": 2.61e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095871, "epoch": 0.67546555, "global_step/max_steps": "14525/21503", "percentage": "67.55%", "elapsed_time": "1d 18h 5m 5s", "remaining_time": "20h 13m 5s"}
{"loss": 0.6187933, "token_acc": 0.85356743, "grad_norm": 7.48112154, "learning_rate": 2.61e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.09589, "epoch": 0.67569806, "global_step/max_steps": "14530/21503", "percentage": "67.57%", "elapsed_time": "1d 18h 5m 28s", "remaining_time": "20h 11m 58s"}
{"loss": 0.56807785, "token_acc": 0.86038961, "grad_norm": 7.32049084, "learning_rate": 2.61e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095908, "epoch": 0.67593058, "global_step/max_steps": "14535/21503", "percentage": "67.60%", "elapsed_time": "1d 18h 5m 51s", "remaining_time": "20h 10m 52s"}
{"loss": 0.67363853, "token_acc": 0.82269044, "grad_norm": 9.28853226, "learning_rate": 2.6e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095926, "epoch": 0.6761631, "global_step/max_steps": "14540/21503", "percentage": "67.62%", "elapsed_time": "1d 18h 6m 14s", "remaining_time": "20h 9m 47s"}
{"loss": 0.56993337, "token_acc": 0.86808156, "grad_norm": 8.69141293, "learning_rate": 2.6e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095945, "epoch": 0.67639562, "global_step/max_steps": "14545/21503", "percentage": "67.64%", "elapsed_time": "1d 18h 6m 36s", "remaining_time": "20h 8m 40s"}
{"loss": 0.58404026, "token_acc": 0.8597561, "grad_norm": 6.89905739, "learning_rate": 2.6e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095964, "epoch": 0.67662814, "global_step/max_steps": "14550/21503", "percentage": "67.66%", "elapsed_time": "1d 18h 6m 59s", "remaining_time": "20h 7m 34s"}
{"eval_loss": 0.57135123, "eval_runtime": 293.982, "eval_samples_per_second": 11.82, "eval_steps_per_second": 11.82, "epoch": 0.67662814, "global_step/max_steps": "14550/21503", "percentage": "67.66%", "elapsed_time": "1d 18h 11m 53s", "remaining_time": "20h 9m 54s"}
{"loss": 0.63752947, "token_acc": 0.83149355, "grad_norm": 7.83390808, "learning_rate": 2.59e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095796, "epoch": 0.67686065, "global_step/max_steps": "14555/21503", "percentage": "67.69%", "elapsed_time": "1d 18h 12m 16s", "remaining_time": "20h 8m 48s"}
{"loss": 0.62677321, "token_acc": 0.84916915, "grad_norm": 10.36740494, "learning_rate": 2.59e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095815, "epoch": 0.67709317, "global_step/max_steps": "14560/21503", "percentage": "67.71%", "elapsed_time": "1d 18h 12m 39s", "remaining_time": "20h 7m 42s"}
{"loss": 0.69221344, "token_acc": 0.83853516, "grad_norm": 8.34431553, "learning_rate": 2.59e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095833, "epoch": 0.67732569, "global_step/max_steps": "14565/21503", "percentage": "67.73%", "elapsed_time": "1d 18h 13m 2s", "remaining_time": "20h 6m 36s"}
{"loss": 0.62347813, "token_acc": 0.85860943, "grad_norm": 8.41271782, "learning_rate": 2.58e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095852, "epoch": 0.67755821, "global_step/max_steps": "14570/21503", "percentage": "67.76%", "elapsed_time": "1d 18h 13m 25s", "remaining_time": "20h 5m 30s"}
{"loss": 0.66549706, "token_acc": 0.83651738, "grad_norm": 6.04308605, "learning_rate": 2.58e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.09587, "epoch": 0.67779073, "global_step/max_steps": "14575/21503", "percentage": "67.78%", "elapsed_time": "1d 18h 13m 47s", "remaining_time": "20h 4m 24s"}
{"loss": 0.63519182, "token_acc": 0.82876254, "grad_norm": 7.90921879, "learning_rate": 2.58e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095889, "epoch": 0.67802325, "global_step/max_steps": "14580/21503", "percentage": "67.80%", "elapsed_time": "1d 18h 14m 10s", "remaining_time": "20h 3m 17s"}
{"loss": 0.69277945, "token_acc": 0.83533448, "grad_norm": 7.43532896, "learning_rate": 2.57e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095908, "epoch": 0.67825576, "global_step/max_steps": "14585/21503", "percentage": "67.83%", "elapsed_time": "1d 18h 14m 32s", "remaining_time": "20h 2m 11s"}
{"loss": 0.65998731, "token_acc": 0.83051499, "grad_norm": 9.59237289, "learning_rate": 2.57e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095927, "epoch": 0.67848828, "global_step/max_steps": "14590/21503", "percentage": "67.85%", "elapsed_time": "1d 18h 14m 54s", "remaining_time": "20h 1m 5s"}
{"loss": 0.63642097, "token_acc": 0.83194398, "grad_norm": 7.77950764, "learning_rate": 2.57e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095946, "epoch": 0.6787208, "global_step/max_steps": "14595/21503", "percentage": "67.87%", "elapsed_time": "1d 18h 15m 17s", "remaining_time": "19h 59m 58s"}
{"loss": 0.60357857, "token_acc": 0.84872825, "grad_norm": 7.69349051, "learning_rate": 2.56e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095964, "epoch": 0.67895332, "global_step/max_steps": "14600/21503", "percentage": "67.90%", "elapsed_time": "1d 18h 15m 39s", "remaining_time": "19h 58m 52s"}
{"eval_loss": 0.57277703, "eval_runtime": 291.4508, "eval_samples_per_second": 11.923, "eval_steps_per_second": 11.923, "epoch": 0.67895332, "global_step/max_steps": "14600/21503", "percentage": "67.90%", "elapsed_time": "1d 18h 20m 31s", "remaining_time": "20h 1m 10s"}
{"loss": 0.64797392, "token_acc": 0.8313284, "grad_norm": 9.6533556, "learning_rate": 2.56e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095799, "epoch": 0.67918584, "global_step/max_steps": "14605/21503", "percentage": "67.92%", "elapsed_time": "1d 18h 20m 53s", "remaining_time": "20h 0m 4s"}
{"loss": 0.62881508, "token_acc": 0.83693517, "grad_norm": 5.43248987, "learning_rate": 2.56e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095818, "epoch": 0.67941836, "global_step/max_steps": "14610/21503", "percentage": "67.94%", "elapsed_time": "1d 18h 21m 16s", "remaining_time": "19h 58m 58s"}
{"loss": 0.71262088, "token_acc": 0.83217446, "grad_norm": 8.89526749, "learning_rate": 2.55e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095836, "epoch": 0.67965087, "global_step/max_steps": "14615/21503", "percentage": "67.97%", "elapsed_time": "1d 18h 21m 39s", "remaining_time": "19h 57m 52s"}
{"loss": 0.59018922, "token_acc": 0.85268631, "grad_norm": 6.11708593, "learning_rate": 2.55e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095855, "epoch": 0.67988339, "global_step/max_steps": "14620/21503", "percentage": "67.99%", "elapsed_time": "1d 18h 22m 1s", "remaining_time": "19h 56m 46s"}
{"loss": 0.62933769, "token_acc": 0.83956321, "grad_norm": 7.73963404, "learning_rate": 2.55e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095873, "epoch": 0.68011591, "global_step/max_steps": "14625/21503", "percentage": "68.01%", "elapsed_time": "1d 18h 22m 24s", "remaining_time": "19h 55m 40s"}
{"loss": 0.51953893, "token_acc": 0.85958771, "grad_norm": 9.09712601, "learning_rate": 2.54e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095892, "epoch": 0.68034843, "global_step/max_steps": "14630/21503", "percentage": "68.04%", "elapsed_time": "1d 18h 22m 47s", "remaining_time": "19h 54m 34s"}
{"loss": 0.71670079, "token_acc": 0.84157986, "grad_norm": 7.75396156, "learning_rate": 2.54e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095911, "epoch": 0.68058095, "global_step/max_steps": "14635/21503", "percentage": "68.06%", "elapsed_time": "1d 18h 23m 9s", "remaining_time": "19h 53m 27s"}
{"loss": 0.64326358, "token_acc": 0.85082305, "grad_norm": 8.2126627, "learning_rate": 2.54e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.09593, "epoch": 0.68081347, "global_step/max_steps": "14640/21503", "percentage": "68.08%", "elapsed_time": "1d 18h 23m 30s", "remaining_time": "19h 52m 21s"}
{"loss": 0.62670541, "token_acc": 0.84744526, "grad_norm": 8.01890755, "learning_rate": 2.53e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095949, "epoch": 0.68104598, "global_step/max_steps": "14645/21503", "percentage": "68.11%", "elapsed_time": "1d 18h 23m 52s", "remaining_time": "19h 51m 15s"}
{"loss": 0.72215772, "token_acc": 0.8208, "grad_norm": 8.44670773, "learning_rate": 2.53e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095968, "epoch": 0.6812785, "global_step/max_steps": "14650/21503", "percentage": "68.13%", "elapsed_time": "1d 18h 24m 14s", "remaining_time": "19h 50m 9s"}
{"eval_loss": 0.57129079, "eval_runtime": 292.4027, "eval_samples_per_second": 11.884, "eval_steps_per_second": 11.884, "epoch": 0.6812785, "global_step/max_steps": "14650/21503", "percentage": "68.13%", "elapsed_time": "1d 18h 29m 7s", "remaining_time": "19h 52m 25s"}
{"loss": 0.50408554, "token_acc": 0.83151604, "grad_norm": 8.56879234, "learning_rate": 2.53e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095803, "epoch": 0.68151102, "global_step/max_steps": "14655/21503", "percentage": "68.15%", "elapsed_time": "1d 18h 29m 30s", "remaining_time": "19h 51m 20s"}
{"loss": 0.60680795, "token_acc": 0.83873427, "grad_norm": 8.43877983, "learning_rate": 2.52e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095821, "epoch": 0.68174354, "global_step/max_steps": "14660/21503", "percentage": "68.18%", "elapsed_time": "1d 18h 29m 53s", "remaining_time": "19h 50m 14s"}
{"loss": 0.67532487, "token_acc": 0.83903676, "grad_norm": 7.25932121, "learning_rate": 2.52e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095839, "epoch": 0.68197606, "global_step/max_steps": "14665/21503", "percentage": "68.20%", "elapsed_time": "1d 18h 30m 16s", "remaining_time": "19h 49m 8s"}
{"loss": 0.67402744, "token_acc": 0.83938488, "grad_norm": 9.77151966, "learning_rate": 2.52e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095858, "epoch": 0.68220857, "global_step/max_steps": "14670/21503", "percentage": "68.22%", "elapsed_time": "1d 18h 30m 38s", "remaining_time": "19h 48m 2s"}
{"loss": 0.63711176, "token_acc": 0.83098592, "grad_norm": 10.08480263, "learning_rate": 2.51e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095877, "epoch": 0.68244109, "global_step/max_steps": "14675/21503", "percentage": "68.25%", "elapsed_time": "1d 18h 31m 1s", "remaining_time": "19h 46m 56s"}
{"loss": 0.62242289, "token_acc": 0.84123055, "grad_norm": 11.25171089, "learning_rate": 2.51e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095896, "epoch": 0.68267361, "global_step/max_steps": "14680/21503", "percentage": "68.27%", "elapsed_time": "1d 18h 31m 22s", "remaining_time": "19h 45m 50s"}
{"loss": 0.64420686, "token_acc": 0.84222894, "grad_norm": 6.67312479, "learning_rate": 2.51e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095914, "epoch": 0.68290613, "global_step/max_steps": "14685/21503", "percentage": "68.29%", "elapsed_time": "1d 18h 31m 45s", "remaining_time": "19h 44m 44s"}
{"loss": 0.68464117, "token_acc": 0.83182244, "grad_norm": 8.05036163, "learning_rate": 2.5e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095933, "epoch": 0.68313865, "global_step/max_steps": "14690/21503", "percentage": "68.32%", "elapsed_time": "1d 18h 32m 8s", "remaining_time": "19h 43m 38s"}
{"loss": 0.61423264, "token_acc": 0.84804368, "grad_norm": 8.62397003, "learning_rate": 2.5e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095952, "epoch": 0.68337117, "global_step/max_steps": "14695/21503", "percentage": "68.34%", "elapsed_time": "1d 18h 32m 29s", "remaining_time": "19h 42m 32s"}
{"loss": 0.6094542, "token_acc": 0.85129381, "grad_norm": 8.76355171, "learning_rate": 2.5e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095971, "epoch": 0.68360368, "global_step/max_steps": "14700/21503", "percentage": "68.36%", "elapsed_time": "1d 18h 32m 51s", "remaining_time": "19h 41m 26s"}
{"eval_loss": 0.56952912, "eval_runtime": 291.8592, "eval_samples_per_second": 11.906, "eval_steps_per_second": 11.906, "epoch": 0.68360368, "global_step/max_steps": "14700/21503", "percentage": "68.36%", "elapsed_time": "1d 18h 37m 43s", "remaining_time": "19h 43m 41s"}
{"loss": 0.56305113, "token_acc": 0.83208833, "grad_norm": 7.14462233, "learning_rate": 2.49e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095806, "epoch": 0.6838362, "global_step/max_steps": "14705/21503", "percentage": "68.39%", "elapsed_time": "1d 18h 38m 6s", "remaining_time": "19h 42m 35s"}
{"loss": 0.65587406, "token_acc": 0.83588064, "grad_norm": 9.40154934, "learning_rate": 2.49e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095825, "epoch": 0.68406872, "global_step/max_steps": "14710/21503", "percentage": "68.41%", "elapsed_time": "1d 18h 38m 29s", "remaining_time": "19h 41m 29s"}
{"loss": 0.70107026, "token_acc": 0.82179132, "grad_norm": 8.55559731, "learning_rate": 2.49e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095843, "epoch": 0.68430124, "global_step/max_steps": "14715/21503", "percentage": "68.43%", "elapsed_time": "1d 18h 38m 52s", "remaining_time": "19h 40m 24s"}
{"loss": 0.73871922, "token_acc": 0.81627784, "grad_norm": 7.8398242, "learning_rate": 2.48e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095861, "epoch": 0.68453376, "global_step/max_steps": "14720/21503", "percentage": "68.46%", "elapsed_time": "1d 18h 39m 14s", "remaining_time": "19h 39m 18s"}
{"loss": 0.66054826, "token_acc": 0.83979328, "grad_norm": 7.01991701, "learning_rate": 2.48e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.09588, "epoch": 0.68476628, "global_step/max_steps": "14725/21503", "percentage": "68.48%", "elapsed_time": "1d 18h 39m 37s", "remaining_time": "19h 38m 12s"}
{"loss": 0.67201061, "token_acc": 0.84582358, "grad_norm": 10.25475025, "learning_rate": 2.48e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095898, "epoch": 0.68499879, "global_step/max_steps": "14730/21503", "percentage": "68.50%", "elapsed_time": "1d 18h 40m 0s", "remaining_time": "19h 37m 6s"}
{"loss": 0.75516653, "token_acc": 0.79769001, "grad_norm": 9.27777195, "learning_rate": 2.47e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095917, "epoch": 0.68523131, "global_step/max_steps": "14735/21503", "percentage": "68.53%", "elapsed_time": "1d 18h 40m 22s", "remaining_time": "19h 36m 1s"}
{"loss": 0.61670504, "token_acc": 0.84900398, "grad_norm": 9.81440067, "learning_rate": 2.47e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095935, "epoch": 0.68546383, "global_step/max_steps": "14740/21503", "percentage": "68.55%", "elapsed_time": "1d 18h 40m 45s", "remaining_time": "19h 34m 55s"}
{"loss": 0.65479975, "token_acc": 0.83464567, "grad_norm": 6.58009529, "learning_rate": 2.47e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095954, "epoch": 0.68569635, "global_step/max_steps": "14745/21503", "percentage": "68.57%", "elapsed_time": "1d 18h 41m 7s", "remaining_time": "19h 33m 49s"}
{"loss": 0.6417048, "token_acc": 0.8397272, "grad_norm": 8.51587677, "learning_rate": 2.46e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095972, "epoch": 0.68592887, "global_step/max_steps": "14750/21503", "percentage": "68.60%", "elapsed_time": "1d 18h 41m 29s", "remaining_time": "19h 32m 43s"}
{"eval_loss": 0.5697549, "eval_runtime": 292.9245, "eval_samples_per_second": 11.863, "eval_steps_per_second": 11.863, "epoch": 0.68592887, "global_step/max_steps": "14750/21503", "percentage": "68.60%", "elapsed_time": "1d 18h 46m 22s", "remaining_time": "19h 34m 57s"}
{"loss": 0.58476148, "token_acc": 0.83171142, "grad_norm": 7.71666622, "learning_rate": 2.46e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095807, "epoch": 0.68616139, "global_step/max_steps": "14755/21503", "percentage": "68.62%", "elapsed_time": "1d 18h 46m 46s", "remaining_time": "19h 33m 52s"}
{"loss": 0.58905787, "token_acc": 0.85346707, "grad_norm": 9.12504864, "learning_rate": 2.46e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095826, "epoch": 0.6863939, "global_step/max_steps": "14760/21503", "percentage": "68.64%", "elapsed_time": "1d 18h 47m 9s", "remaining_time": "19h 32m 47s"}
{"loss": 0.56996288, "token_acc": 0.85174129, "grad_norm": 10.58772087, "learning_rate": 2.45e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095844, "epoch": 0.68662642, "global_step/max_steps": "14765/21503", "percentage": "68.66%", "elapsed_time": "1d 18h 47m 32s", "remaining_time": "19h 31m 41s"}
{"loss": 0.55978765, "token_acc": 0.85714286, "grad_norm": 9.08311367, "learning_rate": 2.45e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095862, "epoch": 0.68685894, "global_step/max_steps": "14770/21503", "percentage": "68.69%", "elapsed_time": "1d 18h 47m 55s", "remaining_time": "19h 30m 36s"}
{"loss": 0.57285094, "token_acc": 0.85308908, "grad_norm": 7.75703239, "learning_rate": 2.45e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.09588, "epoch": 0.68709146, "global_step/max_steps": "14775/21503", "percentage": "68.71%", "elapsed_time": "1d 18h 48m 17s", "remaining_time": "19h 29m 30s"}
{"loss": 0.6882061, "token_acc": 0.81136597, "grad_norm": 9.354949, "learning_rate": 2.44e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095898, "epoch": 0.68732398, "global_step/max_steps": "14780/21503", "percentage": "68.73%", "elapsed_time": "1d 18h 48m 41s", "remaining_time": "19h 28m 25s"}
{"loss": 0.81163568, "token_acc": 0.78323108, "grad_norm": 7.42095232, "learning_rate": 2.44e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095916, "epoch": 0.68755649, "global_step/max_steps": "14785/21503", "percentage": "68.76%", "elapsed_time": "1d 18h 49m 4s", "remaining_time": "19h 27m 20s"}
{"loss": 0.73201065, "token_acc": 0.80409449, "grad_norm": 7.16271687, "learning_rate": 2.44e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095934, "epoch": 0.68778901, "global_step/max_steps": "14790/21503", "percentage": "68.78%", "elapsed_time": "1d 18h 49m 28s", "remaining_time": "19h 26m 15s"}
{"loss": 0.65628939, "token_acc": 0.83293365, "grad_norm": 9.99370193, "learning_rate": 2.43e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095952, "epoch": 0.68802153, "global_step/max_steps": "14795/21503", "percentage": "68.80%", "elapsed_time": "1d 18h 49m 51s", "remaining_time": "19h 25m 9s"}
{"loss": 0.6879189, "token_acc": 0.82006472, "grad_norm": 6.78319502, "learning_rate": 2.43e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.09597, "epoch": 0.68825405, "global_step/max_steps": "14800/21503", "percentage": "68.83%", "elapsed_time": "1d 18h 50m 14s", "remaining_time": "19h 24m 4s"}
{"eval_loss": 0.57115346, "eval_runtime": 291.7537, "eval_samples_per_second": 11.911, "eval_steps_per_second": 11.911, "epoch": 0.68825405, "global_step/max_steps": "14800/21503", "percentage": "68.83%", "elapsed_time": "1d 18h 55m 5s", "remaining_time": "19h 26m 16s"}
{"loss": 0.58816853, "token_acc": 0.831437, "grad_norm": 8.59450626, "learning_rate": 2.43e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095807, "epoch": 0.68848657, "global_step/max_steps": "14805/21503", "percentage": "68.85%", "elapsed_time": "1d 18h 55m 28s", "remaining_time": "19h 25m 10s"}
{"loss": 0.68066359, "token_acc": 0.83543819, "grad_norm": 6.91159105, "learning_rate": 2.42e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095826, "epoch": 0.68871909, "global_step/max_steps": "14810/21503", "percentage": "68.87%", "elapsed_time": "1d 18h 55m 50s", "remaining_time": "19h 24m 5s"}
{"loss": 0.66474056, "token_acc": 0.83929903, "grad_norm": 10.00881004, "learning_rate": 2.42e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095845, "epoch": 0.6889516, "global_step/max_steps": "14815/21503", "percentage": "68.90%", "elapsed_time": "1d 18h 56m 12s", "remaining_time": "19h 22m 59s"}
{"loss": 0.6704154, "token_acc": 0.83171658, "grad_norm": 7.69184351, "learning_rate": 2.42e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095863, "epoch": 0.68918412, "global_step/max_steps": "14820/21503", "percentage": "68.92%", "elapsed_time": "1d 18h 56m 35s", "remaining_time": "19h 21m 53s"}
{"loss": 0.67918744, "token_acc": 0.83794057, "grad_norm": 7.42516804, "learning_rate": 2.41e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095881, "epoch": 0.68941664, "global_step/max_steps": "14825/21503", "percentage": "68.94%", "elapsed_time": "1d 18h 56m 58s", "remaining_time": "19h 20m 48s"}
{"loss": 0.63384995, "token_acc": 0.8356896, "grad_norm": 7.71575165, "learning_rate": 2.41e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095899, "epoch": 0.68964916, "global_step/max_steps": "14830/21503", "percentage": "68.97%", "elapsed_time": "1d 18h 57m 21s", "remaining_time": "19h 19m 43s"}
{"loss": 0.67651625, "token_acc": 0.8386277, "grad_norm": 10.07250214, "learning_rate": 2.41e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095917, "epoch": 0.68988168, "global_step/max_steps": "14835/21503", "percentage": "68.99%", "elapsed_time": "1d 18h 57m 44s", "remaining_time": "19h 18m 38s"}
{"loss": 0.57231917, "token_acc": 0.86144068, "grad_norm": 10.85426903, "learning_rate": 2.4e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095935, "epoch": 0.6901142, "global_step/max_steps": "14840/21503", "percentage": "69.01%", "elapsed_time": "1d 18h 58m 7s", "remaining_time": "19h 17m 32s"}
{"loss": 0.64720945, "token_acc": 0.84577677, "grad_norm": 9.74733257, "learning_rate": 2.4e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095954, "epoch": 0.69034671, "global_step/max_steps": "14845/21503", "percentage": "69.04%", "elapsed_time": "1d 18h 58m 29s", "remaining_time": "19h 16m 27s"}
{"loss": 0.668891, "token_acc": 0.83679834, "grad_norm": 7.17539883, "learning_rate": 2.4e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095971, "epoch": 0.69057923, "global_step/max_steps": "14850/21503", "percentage": "69.06%", "elapsed_time": "1d 18h 58m 53s", "remaining_time": "19h 15m 22s"}
{"eval_loss": 0.57007271, "eval_runtime": 291.5929, "eval_samples_per_second": 11.917, "eval_steps_per_second": 11.917, "epoch": 0.69057923, "global_step/max_steps": "14850/21503", "percentage": "69.06%", "elapsed_time": "1d 19h 3m 44s", "remaining_time": "19h 17m 33s"}
{"loss": 0.6421607, "token_acc": 0.83142141, "grad_norm": 9.81166172, "learning_rate": 2.39e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095808, "epoch": 0.69081175, "global_step/max_steps": "14855/21503", "percentage": "69.08%", "elapsed_time": "1d 19h 4m 9s", "remaining_time": "19h 16m 28s"}
{"loss": 0.63857579, "token_acc": 0.83740741, "grad_norm": 9.5375843, "learning_rate": 2.39e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095826, "epoch": 0.69104427, "global_step/max_steps": "14860/21503", "percentage": "69.11%", "elapsed_time": "1d 19h 4m 32s", "remaining_time": "19h 15m 23s"}
{"loss": 0.65194621, "token_acc": 0.83990871, "grad_norm": 7.41393375, "learning_rate": 2.39e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095845, "epoch": 0.69127679, "global_step/max_steps": "14865/21503", "percentage": "69.13%", "elapsed_time": "1d 19h 4m 54s", "remaining_time": "19h 14m 17s"}
{"loss": 0.65242162, "token_acc": 0.83817062, "grad_norm": 8.83354759, "learning_rate": 2.38e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095863, "epoch": 0.69150931, "global_step/max_steps": "14870/21503", "percentage": "69.15%", "elapsed_time": "1d 19h 5m 16s", "remaining_time": "19h 13m 12s"}
{"loss": 0.66945577, "token_acc": 0.82934712, "grad_norm": 7.55951738, "learning_rate": 2.38e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095881, "epoch": 0.69174182, "global_step/max_steps": "14875/21503", "percentage": "69.18%", "elapsed_time": "1d 19h 5m 39s", "remaining_time": "19h 12m 6s"}
{"loss": 0.66516008, "token_acc": 0.83778317, "grad_norm": 9.77806377, "learning_rate": 2.38e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.0959, "epoch": 0.69197434, "global_step/max_steps": "14880/21503", "percentage": "69.20%", "elapsed_time": "1d 19h 6m 1s", "remaining_time": "19h 11m 1s"}
{"loss": 0.6411315, "token_acc": 0.85615809, "grad_norm": 5.98613596, "learning_rate": 2.37e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095919, "epoch": 0.69220686, "global_step/max_steps": "14885/21503", "percentage": "69.22%", "elapsed_time": "1d 19h 6m 23s", "remaining_time": "19h 9m 55s"}
{"loss": 0.60269756, "token_acc": 0.85382284, "grad_norm": 7.49376869, "learning_rate": 2.37e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095937, "epoch": 0.69243938, "global_step/max_steps": "14890/21503", "percentage": "69.25%", "elapsed_time": "1d 19h 6m 45s", "remaining_time": "19h 8m 50s"}
{"loss": 0.60314837, "token_acc": 0.85637417, "grad_norm": 9.83943939, "learning_rate": 2.37e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095955, "epoch": 0.6926719, "global_step/max_steps": "14895/21503", "percentage": "69.27%", "elapsed_time": "1d 19h 7m 8s", "remaining_time": "19h 7m 45s"}
{"loss": 0.7842536, "token_acc": 0.79745455, "grad_norm": 9.16292477, "learning_rate": 2.36e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095973, "epoch": 0.69290441, "global_step/max_steps": "14900/21503", "percentage": "69.29%", "elapsed_time": "1d 19h 7m 31s", "remaining_time": "19h 6m 40s"}
{"eval_loss": 0.56990921, "eval_runtime": 292.1984, "eval_samples_per_second": 11.893, "eval_steps_per_second": 11.893, "epoch": 0.69290441, "global_step/max_steps": "14900/21503", "percentage": "69.29%", "elapsed_time": "1d 19h 12m 23s", "remaining_time": "19h 8m 49s"}
{"loss": 0.71187239, "token_acc": 0.83122444, "grad_norm": 6.95413065, "learning_rate": 2.36e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095811, "epoch": 0.69313693, "global_step/max_steps": "14905/21503", "percentage": "69.32%", "elapsed_time": "1d 19h 12m 46s", "remaining_time": "19h 7m 44s"}
{"loss": 0.64223237, "token_acc": 0.8529996, "grad_norm": 7.1591053, "learning_rate": 2.36e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095829, "epoch": 0.69336945, "global_step/max_steps": "14910/21503", "percentage": "69.34%", "elapsed_time": "1d 19h 13m 9s", "remaining_time": "19h 6m 39s"}
{"loss": 0.64271135, "token_acc": 0.83676317, "grad_norm": 8.15894985, "learning_rate": 2.35e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095847, "epoch": 0.69360197, "global_step/max_steps": "14915/21503", "percentage": "69.36%", "elapsed_time": "1d 19h 13m 31s", "remaining_time": "19h 5m 34s"}
{"loss": 0.87221699, "token_acc": 0.80153649, "grad_norm": 9.41769981, "learning_rate": 2.35e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095865, "epoch": 0.69383449, "global_step/max_steps": "14920/21503", "percentage": "69.39%", "elapsed_time": "1d 19h 13m 54s", "remaining_time": "19h 4m 29s"}
{"loss": 0.77273579, "token_acc": 0.80695652, "grad_norm": 9.30954456, "learning_rate": 2.35e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095883, "epoch": 0.69406701, "global_step/max_steps": "14925/21503", "percentage": "69.41%", "elapsed_time": "1d 19h 14m 18s", "remaining_time": "19h 3m 24s"}
{"loss": 0.65194564, "token_acc": 0.83689743, "grad_norm": 6.38400602, "learning_rate": 2.34e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095901, "epoch": 0.69429952, "global_step/max_steps": "14930/21503", "percentage": "69.43%", "elapsed_time": "1d 19h 14m 41s", "remaining_time": "19h 2m 19s"}
{"loss": 0.73002062, "token_acc": 0.81882022, "grad_norm": 7.07876396, "learning_rate": 2.34e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095918, "epoch": 0.69453204, "global_step/max_steps": "14935/21503", "percentage": "69.46%", "elapsed_time": "1d 19h 15m 5s", "remaining_time": "19h 1m 15s"}
{"loss": 0.69806557, "token_acc": 0.82214082, "grad_norm": 9.6626091, "learning_rate": 2.34e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095936, "epoch": 0.69476456, "global_step/max_steps": "14940/21503", "percentage": "69.48%", "elapsed_time": "1d 19h 15m 29s", "remaining_time": "19h 0m 10s"}
{"loss": 0.64424558, "token_acc": 0.83772088, "grad_norm": 9.97400475, "learning_rate": 2.33e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095954, "epoch": 0.69499708, "global_step/max_steps": "14945/21503", "percentage": "69.50%", "elapsed_time": "1d 19h 15m 51s", "remaining_time": "18h 59m 5s"}
{"loss": 0.63420963, "token_acc": 0.85407296, "grad_norm": 9.71705055, "learning_rate": 2.33e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095972, "epoch": 0.6952296, "global_step/max_steps": "14950/21503", "percentage": "69.53%", "elapsed_time": "1d 19h 16m 14s", "remaining_time": "18h 58m 0s"}
{"eval_loss": 0.56902051, "eval_runtime": 296.494, "eval_samples_per_second": 11.72, "eval_steps_per_second": 11.72, "epoch": 0.6952296, "global_step/max_steps": "14950/21503", "percentage": "69.53%", "elapsed_time": "1d 19h 21m 10s", "remaining_time": "19h 0m 10s"}
{"loss": 0.66900549, "token_acc": 0.83138616, "grad_norm": 8.1653862, "learning_rate": 2.33e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095807, "epoch": 0.69546212, "global_step/max_steps": "14955/21503", "percentage": "69.55%", "elapsed_time": "1d 19h 21m 34s", "remaining_time": "18h 59m 5s"}
{"loss": 0.71645675, "token_acc": 0.81998054, "grad_norm": 8.74892616, "learning_rate": 2.32e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095826, "epoch": 0.69569463, "global_step/max_steps": "14960/21503", "percentage": "69.57%", "elapsed_time": "1d 19h 21m 56s", "remaining_time": "18h 58m 0s"}
{"loss": 0.63945141, "token_acc": 0.83604605, "grad_norm": 9.91205883, "learning_rate": 2.32e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095844, "epoch": 0.69592715, "global_step/max_steps": "14965/21503", "percentage": "69.59%", "elapsed_time": "1d 19h 22m 19s", "remaining_time": "18h 56m 55s"}
{"loss": 0.67261615, "token_acc": 0.83517139, "grad_norm": 7.21843147, "learning_rate": 2.32e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095862, "epoch": 0.69615967, "global_step/max_steps": "14970/21503", "percentage": "69.62%", "elapsed_time": "1d 19h 22m 41s", "remaining_time": "18h 55m 49s"}
{"loss": 0.65272565, "token_acc": 0.83835815, "grad_norm": 9.27365589, "learning_rate": 2.32e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.09588, "epoch": 0.69639219, "global_step/max_steps": "14975/21503", "percentage": "69.64%", "elapsed_time": "1d 19h 23m 3s", "remaining_time": "18h 54m 44s"}
{"loss": 0.74976559, "token_acc": 0.82823062, "grad_norm": 8.34816647, "learning_rate": 2.31e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095899, "epoch": 0.69662471, "global_step/max_steps": "14980/21503", "percentage": "69.66%", "elapsed_time": "1d 19h 23m 26s", "remaining_time": "18h 53m 39s"}
{"loss": 0.73586984, "token_acc": 0.82080159, "grad_norm": 9.88561153, "learning_rate": 2.31e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095917, "epoch": 0.69685723, "global_step/max_steps": "14985/21503", "percentage": "69.69%", "elapsed_time": "1d 19h 23m 48s", "remaining_time": "18h 52m 34s"}
{"loss": 0.61138258, "token_acc": 0.83910997, "grad_norm": 10.03195381, "learning_rate": 2.31e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095935, "epoch": 0.69708974, "global_step/max_steps": "14990/21503", "percentage": "69.71%", "elapsed_time": "1d 19h 24m 10s", "remaining_time": "18h 51m 29s"}
{"loss": 0.63859711, "token_acc": 0.84951644, "grad_norm": 7.13198185, "learning_rate": 2.3e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095953, "epoch": 0.69732226, "global_step/max_steps": "14995/21503", "percentage": "69.73%", "elapsed_time": "1d 19h 24m 34s", "remaining_time": "18h 50m 24s"}
{"loss": 0.77087207, "token_acc": 0.8125, "grad_norm": 10.53445244, "learning_rate": 2.3e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.09597, "epoch": 0.69755478, "global_step/max_steps": "15000/21503", "percentage": "69.76%", "elapsed_time": "1d 19h 24m 57s", "remaining_time": "18h 49m 20s"}
{"eval_loss": 0.56875914, "eval_runtime": 297.5632, "eval_samples_per_second": 11.678, "eval_steps_per_second": 11.678, "epoch": 0.69755478, "global_step/max_steps": "15000/21503", "percentage": "69.76%", "elapsed_time": "1d 19h 29m 55s", "remaining_time": "18h 51m 29s"}
{"loss": 0.62304602, "token_acc": 0.83126271, "grad_norm": 10.11367798, "learning_rate": 2.3e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095806, "epoch": 0.6977873, "global_step/max_steps": "15005/21503", "percentage": "69.78%", "elapsed_time": "1d 19h 30m 19s", "remaining_time": "18h 50m 24s"}
{"loss": 0.71719227, "token_acc": 0.80321285, "grad_norm": 6.39254808, "learning_rate": 2.29e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095824, "epoch": 0.69801982, "global_step/max_steps": "15010/21503", "percentage": "69.80%", "elapsed_time": "1d 19h 30m 41s", "remaining_time": "18h 49m 19s"}
{"loss": 0.72336464, "token_acc": 0.80268908, "grad_norm": 8.73266506, "learning_rate": 2.29e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095842, "epoch": 0.69825233, "global_step/max_steps": "15015/21503", "percentage": "69.83%", "elapsed_time": "1d 19h 31m 4s", "remaining_time": "18h 48m 14s"}
{"loss": 0.62881012, "token_acc": 0.83890845, "grad_norm": 7.69555616, "learning_rate": 2.29e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095859, "epoch": 0.69848485, "global_step/max_steps": "15020/21503", "percentage": "69.85%", "elapsed_time": "1d 19h 31m 27s", "remaining_time": "18h 47m 10s"}
{"loss": 0.63225737, "token_acc": 0.83736264, "grad_norm": 8.41308975, "learning_rate": 2.28e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095878, "epoch": 0.69871737, "global_step/max_steps": "15025/21503", "percentage": "69.87%", "elapsed_time": "1d 19h 31m 50s", "remaining_time": "18h 46m 5s"}
{"loss": 0.66833925, "token_acc": 0.83580923, "grad_norm": 8.21416378, "learning_rate": 2.28e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095896, "epoch": 0.69894989, "global_step/max_steps": "15030/21503", "percentage": "69.90%", "elapsed_time": "1d 19h 32m 12s", "remaining_time": "18h 45m 0s"}
{"loss": 0.61497579, "token_acc": 0.84615385, "grad_norm": 6.66269255, "learning_rate": 2.28e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095913, "epoch": 0.69918241, "global_step/max_steps": "15035/21503", "percentage": "69.92%", "elapsed_time": "1d 19h 32m 36s", "remaining_time": "18h 43m 55s"}
{"loss": 0.62169695, "token_acc": 0.84436774, "grad_norm": 8.12133789, "learning_rate": 2.27e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.09593, "epoch": 0.69941493, "global_step/max_steps": "15040/21503", "percentage": "69.94%", "elapsed_time": "1d 19h 33m 0s", "remaining_time": "18h 42m 51s"}
{"loss": 0.69834318, "token_acc": 0.82545455, "grad_norm": 7.08973551, "learning_rate": 2.27e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095948, "epoch": 0.69964744, "global_step/max_steps": "15045/21503", "percentage": "69.97%", "elapsed_time": "1d 19h 33m 23s", "remaining_time": "18h 41m 47s"}
{"loss": 0.49322205, "token_acc": 0.87571871, "grad_norm": 9.89014053, "learning_rate": 2.27e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095966, "epoch": 0.69987996, "global_step/max_steps": "15050/21503", "percentage": "69.99%", "elapsed_time": "1d 19h 33m 46s", "remaining_time": "18h 40m 42s"}
{"eval_loss": 0.56948614, "eval_runtime": 295.1351, "eval_samples_per_second": 11.774, "eval_steps_per_second": 11.774, "epoch": 0.69987996, "global_step/max_steps": "15050/21503", "percentage": "69.99%", "elapsed_time": "1d 19h 38m 41s", "remaining_time": "18h 42m 49s"}
{"loss": 0.74394145, "token_acc": 0.8303879, "grad_norm": 9.60088634, "learning_rate": 2.26e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095803, "epoch": 0.70011248, "global_step/max_steps": "15055/21503", "percentage": "70.01%", "elapsed_time": "1d 19h 39m 5s", "remaining_time": "18h 41m 44s"}
{"loss": 0.63222442, "token_acc": 0.83933718, "grad_norm": 7.07492876, "learning_rate": 2.26e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095821, "epoch": 0.700345, "global_step/max_steps": "15060/21503", "percentage": "70.04%", "elapsed_time": "1d 19h 39m 28s", "remaining_time": "18h 40m 40s"}
{"loss": 0.64227643, "token_acc": 0.84803731, "grad_norm": 9.14241982, "learning_rate": 2.26e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095839, "epoch": 0.70057752, "global_step/max_steps": "15065/21503", "percentage": "70.06%", "elapsed_time": "1d 19h 39m 50s", "remaining_time": "18h 39m 35s"}
{"loss": 0.70754128, "token_acc": 0.83501137, "grad_norm": 8.40816593, "learning_rate": 2.25e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095857, "epoch": 0.70081004, "global_step/max_steps": "15070/21503", "percentage": "70.08%", "elapsed_time": "1d 19h 40m 13s", "remaining_time": "18h 38m 30s"}
{"loss": 0.5903667, "token_acc": 0.84760213, "grad_norm": 9.42923927, "learning_rate": 2.25e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095874, "epoch": 0.70104255, "global_step/max_steps": "15075/21503", "percentage": "70.11%", "elapsed_time": "1d 19h 40m 37s", "remaining_time": "18h 37m 26s"}
{"loss": 0.60247941, "token_acc": 0.85673117, "grad_norm": 6.77219152, "learning_rate": 2.25e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095892, "epoch": 0.70127507, "global_step/max_steps": "15080/21503", "percentage": "70.13%", "elapsed_time": "1d 19h 41m 0s", "remaining_time": "18h 36m 21s"}
{"loss": 0.55903206, "token_acc": 0.85318306, "grad_norm": 6.20989323, "learning_rate": 2.24e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095909, "epoch": 0.70150759, "global_step/max_steps": "15085/21503", "percentage": "70.15%", "elapsed_time": "1d 19h 41m 24s", "remaining_time": "18h 35m 17s"}
{"loss": 0.6542767, "token_acc": 0.82974856, "grad_norm": 7.73540306, "learning_rate": 2.24e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095927, "epoch": 0.70174011, "global_step/max_steps": "15090/21503", "percentage": "70.18%", "elapsed_time": "1d 19h 41m 47s", "remaining_time": "18h 34m 13s"}
{"loss": 0.67914786, "token_acc": 0.82636172, "grad_norm": 8.27112675, "learning_rate": 2.24e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095944, "epoch": 0.70197263, "global_step/max_steps": "15095/21503", "percentage": "70.20%", "elapsed_time": "1d 19h 42m 11s", "remaining_time": "18h 33m 9s"}
{"loss": 0.70141678, "token_acc": 0.82352941, "grad_norm": 7.20958281, "learning_rate": 2.23e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095961, "epoch": 0.70220515, "global_step/max_steps": "15100/21503", "percentage": "70.22%", "elapsed_time": "1d 19h 42m 35s", "remaining_time": "18h 32m 4s"}
{"eval_loss": 0.56751484, "eval_runtime": 293.9971, "eval_samples_per_second": 11.82, "eval_steps_per_second": 11.82, "epoch": 0.70220515, "global_step/max_steps": "15100/21503", "percentage": "70.22%", "elapsed_time": "1d 19h 47m 29s", "remaining_time": "18h 34m 9s"}
{"loss": 0.655549, "token_acc": 0.83207214, "grad_norm": 8.52597523, "learning_rate": 2.23e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.0958, "epoch": 0.70243766, "global_step/max_steps": "15105/21503", "percentage": "70.25%", "elapsed_time": "1d 19h 47m 52s", "remaining_time": "18h 33m 5s"}
{"loss": 0.70855861, "token_acc": 0.83535819, "grad_norm": 7.57533979, "learning_rate": 2.23e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095818, "epoch": 0.70267018, "global_step/max_steps": "15110/21503", "percentage": "70.27%", "elapsed_time": "1d 19h 48m 15s", "remaining_time": "18h 32m 0s"}
{"loss": 0.62826533, "token_acc": 0.84852167, "grad_norm": 8.0034771, "learning_rate": 2.23e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095835, "epoch": 0.7029027, "global_step/max_steps": "15115/21503", "percentage": "70.29%", "elapsed_time": "1d 19h 48m 39s", "remaining_time": "18h 30m 56s"}
{"loss": 0.60936913, "token_acc": 0.83676471, "grad_norm": 9.93739605, "learning_rate": 2.22e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095852, "epoch": 0.70313522, "global_step/max_steps": "15120/21503", "percentage": "70.32%", "elapsed_time": "1d 19h 49m 2s", "remaining_time": "18h 29m 52s"}
{"loss": 0.68082871, "token_acc": 0.82642916, "grad_norm": 8.04349899, "learning_rate": 2.22e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.09587, "epoch": 0.70336774, "global_step/max_steps": "15125/21503", "percentage": "70.34%", "elapsed_time": "1d 19h 49m 25s", "remaining_time": "18h 28m 47s"}
{"loss": 0.61848536, "token_acc": 0.85355148, "grad_norm": 7.49090528, "learning_rate": 2.22e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095888, "epoch": 0.70360025, "global_step/max_steps": "15130/21503", "percentage": "70.36%", "elapsed_time": "1d 19h 49m 48s", "remaining_time": "18h 27m 43s"}
{"loss": 0.74803753, "token_acc": 0.81755127, "grad_norm": 8.32775974, "learning_rate": 2.21e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095905, "epoch": 0.70383277, "global_step/max_steps": "15135/21503", "percentage": "70.39%", "elapsed_time": "1d 19h 50m 11s", "remaining_time": "18h 26m 38s"}
{"loss": 0.6199996, "token_acc": 0.84507042, "grad_norm": 9.7026968, "learning_rate": 2.21e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095923, "epoch": 0.70406529, "global_step/max_steps": "15140/21503", "percentage": "70.41%", "elapsed_time": "1d 19h 50m 34s", "remaining_time": "18h 25m 34s"}
{"loss": 0.71289196, "token_acc": 0.83555556, "grad_norm": 6.73332739, "learning_rate": 2.21e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095941, "epoch": 0.70429781, "global_step/max_steps": "15145/21503", "percentage": "70.43%", "elapsed_time": "1d 19h 50m 57s", "remaining_time": "18h 24m 29s"}
{"loss": 0.61613054, "token_acc": 0.83204693, "grad_norm": 5.54394579, "learning_rate": 2.2e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095958, "epoch": 0.70453033, "global_step/max_steps": "15150/21503", "percentage": "70.46%", "elapsed_time": "1d 19h 51m 20s", "remaining_time": "18h 23m 25s"}
{"eval_loss": 0.56831968, "eval_runtime": 291.8022, "eval_samples_per_second": 11.909, "eval_steps_per_second": 11.909, "epoch": 0.70453033, "global_step/max_steps": "15150/21503", "percentage": "70.46%", "elapsed_time": "1d 19h 56m 12s", "remaining_time": "18h 25m 28s"}
{"loss": 0.70568814, "token_acc": 0.83140115, "grad_norm": 8.16523361, "learning_rate": 2.2e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095798, "epoch": 0.70476285, "global_step/max_steps": "15155/21503", "percentage": "70.48%", "elapsed_time": "1d 19h 56m 37s", "remaining_time": "18h 24m 24s"}
{"loss": 0.64746675, "token_acc": 0.84206774, "grad_norm": 6.68837595, "learning_rate": 2.2e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095816, "epoch": 0.70499536, "global_step/max_steps": "15160/21503", "percentage": "70.50%", "elapsed_time": "1d 19h 57m 0s", "remaining_time": "18h 23m 19s"}
{"loss": 0.69673491, "token_acc": 0.83566722, "grad_norm": 8.08335209, "learning_rate": 2.19e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095833, "epoch": 0.70522788, "global_step/max_steps": "15165/21503", "percentage": "70.53%", "elapsed_time": "1d 19h 57m 22s", "remaining_time": "18h 22m 15s"}
{"loss": 0.63878326, "token_acc": 0.83912642, "grad_norm": 8.43288803, "learning_rate": 2.19e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095851, "epoch": 0.7054604, "global_step/max_steps": "15170/21503", "percentage": "70.55%", "elapsed_time": "1d 19h 57m 46s", "remaining_time": "18h 21m 11s"}
{"loss": 0.63570232, "token_acc": 0.83691573, "grad_norm": 10.10170746, "learning_rate": 2.19e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095868, "epoch": 0.70569292, "global_step/max_steps": "15175/21503", "percentage": "70.57%", "elapsed_time": "1d 19h 58m 9s", "remaining_time": "18h 20m 7s"}
{"loss": 0.72310581, "token_acc": 0.8384532, "grad_norm": 9.89687729, "learning_rate": 2.18e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095886, "epoch": 0.70592544, "global_step/max_steps": "15180/21503", "percentage": "70.59%", "elapsed_time": "1d 19h 58m 32s", "remaining_time": "18h 19m 2s"}
{"loss": 0.74217119, "token_acc": 0.80990532, "grad_norm": 7.17142868, "learning_rate": 2.18e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095904, "epoch": 0.70615796, "global_step/max_steps": "15185/21503", "percentage": "70.62%", "elapsed_time": "1d 19h 58m 55s", "remaining_time": "18h 17m 58s"}
{"loss": 0.57852397, "token_acc": 0.8532567, "grad_norm": 9.13636589, "learning_rate": 2.18e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095922, "epoch": 0.70639047, "global_step/max_steps": "15190/21503", "percentage": "70.64%", "elapsed_time": "1d 19h 59m 18s", "remaining_time": "18h 16m 54s"}
{"loss": 0.75732923, "token_acc": 0.82091097, "grad_norm": 7.74101973, "learning_rate": 2.17e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095939, "epoch": 0.70662299, "global_step/max_steps": "15195/21503", "percentage": "70.66%", "elapsed_time": "1d 19h 59m 41s", "remaining_time": "18h 15m 49s"}
{"loss": 0.68558164, "token_acc": 0.82985188, "grad_norm": 8.93434334, "learning_rate": 2.17e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095957, "epoch": 0.70685551, "global_step/max_steps": "15200/21503", "percentage": "70.69%", "elapsed_time": "1d 20h 0m 4s", "remaining_time": "18h 14m 45s"}
{"eval_loss": 0.56716043, "eval_runtime": 292.0237, "eval_samples_per_second": 11.9, "eval_steps_per_second": 11.9, "epoch": 0.70685551, "global_step/max_steps": "15200/21503", "percentage": "70.69%", "elapsed_time": "1d 20h 4m 56s", "remaining_time": "18h 16m 46s"}
{"loss": 0.57084637, "token_acc": 0.83255539, "grad_norm": 11.45596409, "learning_rate": 2.17e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095798, "epoch": 0.70708803, "global_step/max_steps": "15205/21503", "percentage": "70.71%", "elapsed_time": "1d 20h 5m 19s", "remaining_time": "18h 15m 42s"}
{"loss": 0.7240098, "token_acc": 0.81699772, "grad_norm": 7.00110912, "learning_rate": 2.16e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095815, "epoch": 0.70732055, "global_step/max_steps": "15210/21503", "percentage": "70.73%", "elapsed_time": "1d 20h 5m 42s", "remaining_time": "18h 14m 38s"}
{"loss": 0.56198401, "token_acc": 0.8600823, "grad_norm": 8.62884521, "learning_rate": 2.16e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095833, "epoch": 0.70755307, "global_step/max_steps": "15215/21503", "percentage": "70.76%", "elapsed_time": "1d 20h 6m 5s", "remaining_time": "18h 13m 33s"}
{"loss": 0.5228055, "token_acc": 0.86765211, "grad_norm": 7.95669937, "learning_rate": 2.16e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095851, "epoch": 0.70778558, "global_step/max_steps": "15220/21503", "percentage": "70.78%", "elapsed_time": "1d 20h 6m 27s", "remaining_time": "18h 12m 29s"}
{"loss": 0.6586771, "token_acc": 0.84678899, "grad_norm": 11.05910683, "learning_rate": 2.16e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095869, "epoch": 0.7080181, "global_step/max_steps": "15225/21503", "percentage": "70.80%", "elapsed_time": "1d 20h 6m 50s", "remaining_time": "18h 11m 25s"}
{"loss": 0.65752783, "token_acc": 0.81535948, "grad_norm": 8.30784607, "learning_rate": 2.15e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095887, "epoch": 0.70825062, "global_step/max_steps": "15230/21503", "percentage": "70.83%", "elapsed_time": "1d 20h 7m 13s", "remaining_time": "18h 10m 20s"}
{"loss": 0.66531658, "token_acc": 0.82741935, "grad_norm": 7.2473011, "learning_rate": 2.15e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095904, "epoch": 0.70848314, "global_step/max_steps": "15235/21503", "percentage": "70.85%", "elapsed_time": "1d 20h 7m 36s", "remaining_time": "18h 9m 17s"}
{"loss": 0.65540981, "token_acc": 0.84387198, "grad_norm": 8.11744308, "learning_rate": 2.15e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095922, "epoch": 0.70871566, "global_step/max_steps": "15240/21503", "percentage": "70.87%", "elapsed_time": "1d 20h 7m 59s", "remaining_time": "18h 8m 12s"}
{"loss": 0.62793016, "token_acc": 0.83715013, "grad_norm": 8.17955875, "learning_rate": 2.14e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095939, "epoch": 0.70894817, "global_step/max_steps": "15245/21503", "percentage": "70.90%", "elapsed_time": "1d 20h 8m 22s", "remaining_time": "18h 7m 8s"}
{"loss": 0.74715142, "token_acc": 0.81925869, "grad_norm": 9.25925255, "learning_rate": 2.14e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095958, "epoch": 0.70918069, "global_step/max_steps": "15250/21503", "percentage": "70.92%", "elapsed_time": "1d 20h 8m 44s", "remaining_time": "18h 6m 4s"}
{"eval_loss": 0.56827384, "eval_runtime": 294.5503, "eval_samples_per_second": 11.798, "eval_steps_per_second": 11.798, "epoch": 0.70918069, "global_step/max_steps": "15250/21503", "percentage": "70.92%", "elapsed_time": "1d 20h 13m 38s", "remaining_time": "18h 8m 4s"}
{"loss": 0.65114856, "token_acc": 0.832306, "grad_norm": 9.73388577, "learning_rate": 2.14e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095797, "epoch": 0.70941321, "global_step/max_steps": "15255/21503", "percentage": "70.94%", "elapsed_time": "1d 20h 14m 2s", "remaining_time": "18h 7m 0s"}
{"loss": 0.64392033, "token_acc": 0.83596215, "grad_norm": 6.68508148, "learning_rate": 2.13e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095815, "epoch": 0.70964573, "global_step/max_steps": "15260/21503", "percentage": "70.97%", "elapsed_time": "1d 20h 14m 25s", "remaining_time": "18h 5m 56s"}
{"loss": 0.66265821, "token_acc": 0.84825701, "grad_norm": 6.54547501, "learning_rate": 2.13e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095833, "epoch": 0.70987825, "global_step/max_steps": "15265/21503", "percentage": "70.99%", "elapsed_time": "1d 20h 14m 47s", "remaining_time": "18h 4m 52s"}
{"loss": 0.66823201, "token_acc": 0.82433271, "grad_norm": 8.42164993, "learning_rate": 2.13e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.09585, "epoch": 0.71011077, "global_step/max_steps": "15270/21503", "percentage": "71.01%", "elapsed_time": "1d 20h 15m 10s", "remaining_time": "18h 3m 48s"}
{"loss": 0.70983267, "token_acc": 0.82159336, "grad_norm": 7.35525227, "learning_rate": 2.12e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095868, "epoch": 0.71034328, "global_step/max_steps": "15275/21503", "percentage": "71.04%", "elapsed_time": "1d 20h 15m 33s", "remaining_time": "18h 2m 44s"}
{"loss": 0.6275835, "token_acc": 0.83633094, "grad_norm": 8.24786472, "learning_rate": 2.12e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095886, "epoch": 0.7105758, "global_step/max_steps": "15280/21503", "percentage": "71.06%", "elapsed_time": "1d 20h 15m 56s", "remaining_time": "18h 1m 40s"}
{"loss": 0.71846614, "token_acc": 0.79798995, "grad_norm": 10.89165974, "learning_rate": 2.12e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095903, "epoch": 0.71080832, "global_step/max_steps": "15285/21503", "percentage": "71.08%", "elapsed_time": "1d 20h 16m 19s", "remaining_time": "18h 0m 36s"}
{"loss": 0.54843712, "token_acc": 0.8663251, "grad_norm": 8.51864624, "learning_rate": 2.11e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095921, "epoch": 0.71104084, "global_step/max_steps": "15290/21503", "percentage": "71.11%", "elapsed_time": "1d 20h 16m 41s", "remaining_time": "17h 59m 32s"}
{"loss": 0.44772658, "token_acc": 0.88837704, "grad_norm": 8.54529858, "learning_rate": 2.11e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095938, "epoch": 0.71127336, "global_step/max_steps": "15295/21503", "percentage": "71.13%", "elapsed_time": "1d 20h 17m 5s", "remaining_time": "17h 58m 28s"}
{"loss": 0.64691577, "token_acc": 0.83702791, "grad_norm": 9.23174667, "learning_rate": 2.11e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095956, "epoch": 0.71150588, "global_step/max_steps": "15300/21503", "percentage": "71.15%", "elapsed_time": "1d 20h 17m 28s", "remaining_time": "17h 57m 24s"}
{"eval_loss": 0.56661427, "eval_runtime": 292.2752, "eval_samples_per_second": 11.889, "eval_steps_per_second": 11.889, "epoch": 0.71150588, "global_step/max_steps": "15300/21503", "percentage": "71.15%", "elapsed_time": "1d 20h 22m 20s", "remaining_time": "17h 59m 22s"}
{"loss": 0.61793237, "token_acc": 0.8329655, "grad_norm": 8.66163158, "learning_rate": 2.1e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095797, "epoch": 0.71173839, "global_step/max_steps": "15305/21503", "percentage": "71.18%", "elapsed_time": "1d 20h 22m 44s", "remaining_time": "17h 58m 19s"}
{"loss": 0.58692136, "token_acc": 0.8610321, "grad_norm": 9.69371891, "learning_rate": 2.1e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095815, "epoch": 0.71197091, "global_step/max_steps": "15310/21503", "percentage": "71.20%", "elapsed_time": "1d 20h 23m 6s", "remaining_time": "17h 57m 14s"}
{"loss": 0.60688305, "token_acc": 0.83765182, "grad_norm": 10.75803566, "learning_rate": 2.1e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095833, "epoch": 0.71220343, "global_step/max_steps": "15315/21503", "percentage": "71.22%", "elapsed_time": "1d 20h 23m 29s", "remaining_time": "17h 56m 10s"}
{"loss": 0.79717274, "token_acc": 0.79544191, "grad_norm": 7.33087206, "learning_rate": 2.1e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.09585, "epoch": 0.71243595, "global_step/max_steps": "15320/21503", "percentage": "71.25%", "elapsed_time": "1d 20h 23m 52s", "remaining_time": "17h 55m 6s"}
{"loss": 0.82052193, "token_acc": 0.78842676, "grad_norm": 8.34497929, "learning_rate": 2.09e-06, "memory(GiB)": 43.68, "train_speed(iter/s)": 0.095868, "epoch": 0.71266847, "global_step/max_steps": "15325/21503", "percentage": "71.27%", "elapsed_time": "1d 20h 24m 15s", "remaining_time": "17h 54m 2s"}
{"loss": 0.75967031, "token_acc": 0.76475155, "grad_norm": 8.69791698, "learning_rate": 2.09e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095885, "epoch": 0.71290099, "global_step/max_steps": "15330/21503", "percentage": "71.29%", "elapsed_time": "1d 20h 24m 39s", "remaining_time": "17h 52m 59s"}
{"loss": 0.63882742, "token_acc": 0.86220603, "grad_norm": 9.91609192, "learning_rate": 2.09e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095902, "epoch": 0.7131335, "global_step/max_steps": "15335/21503", "percentage": "71.32%", "elapsed_time": "1d 20h 25m 3s", "remaining_time": "17h 51m 55s"}
{"loss": 0.6312068, "token_acc": 0.84902036, "grad_norm": 8.30448246, "learning_rate": 2.08e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095919, "epoch": 0.71336602, "global_step/max_steps": "15340/21503", "percentage": "71.34%", "elapsed_time": "1d 20h 25m 25s", "remaining_time": "17h 50m 51s"}
{"loss": 0.6591598, "token_acc": 0.83905668, "grad_norm": 9.3680687, "learning_rate": 2.08e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095937, "epoch": 0.71359854, "global_step/max_steps": "15345/21503", "percentage": "71.36%", "elapsed_time": "1d 20h 25m 48s", "remaining_time": "17h 49m 47s"}
{"loss": 0.61383929, "token_acc": 0.8444, "grad_norm": 6.6365509, "learning_rate": 2.08e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095955, "epoch": 0.71383106, "global_step/max_steps": "15350/21503", "percentage": "71.39%", "elapsed_time": "1d 20h 26m 10s", "remaining_time": "17h 48m 43s"}
{"eval_loss": 0.5672307, "eval_runtime": 292.2735, "eval_samples_per_second": 11.89, "eval_steps_per_second": 11.89, "epoch": 0.71383106, "global_step/max_steps": "15350/21503", "percentage": "71.39%", "elapsed_time": "1d 20h 31m 3s", "remaining_time": "17h 50m 40s"}
{"loss": 0.70989671, "token_acc": 0.83211574, "grad_norm": 7.13635731, "learning_rate": 2.07e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095797, "epoch": 0.71406358, "global_step/max_steps": "15355/21503", "percentage": "71.41%", "elapsed_time": "1d 20h 31m 26s", "remaining_time": "17h 49m 37s"}
{"loss": 0.66000595, "token_acc": 0.83209088, "grad_norm": 6.8172369, "learning_rate": 2.07e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095815, "epoch": 0.71429609, "global_step/max_steps": "15360/21503", "percentage": "71.43%", "elapsed_time": "1d 20h 31m 49s", "remaining_time": "17h 48m 33s"}
{"loss": 0.68502159, "token_acc": 0.8294155, "grad_norm": 6.26317072, "learning_rate": 2.07e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095832, "epoch": 0.71452861, "global_step/max_steps": "15365/21503", "percentage": "71.46%", "elapsed_time": "1d 20h 32m 11s", "remaining_time": "17h 47m 29s"}
{"loss": 0.63428612, "token_acc": 0.84105461, "grad_norm": 7.01837969, "learning_rate": 2.06e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09585, "epoch": 0.71476113, "global_step/max_steps": "15370/21503", "percentage": "71.48%", "elapsed_time": "1d 20h 32m 34s", "remaining_time": "17h 46m 25s"}
{"loss": 0.67249846, "token_acc": 0.83345865, "grad_norm": 11.08875084, "learning_rate": 2.06e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095868, "epoch": 0.71499365, "global_step/max_steps": "15375/21503", "percentage": "71.50%", "elapsed_time": "1d 20h 32m 56s", "remaining_time": "17h 45m 21s"}
{"loss": 0.60775557, "token_acc": 0.84238038, "grad_norm": 9.44314289, "learning_rate": 2.06e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095886, "epoch": 0.71522617, "global_step/max_steps": "15380/21503", "percentage": "71.52%", "elapsed_time": "1d 20h 33m 19s", "remaining_time": "17h 44m 17s"}
{"loss": 0.67031722, "token_acc": 0.82404125, "grad_norm": 9.81209183, "learning_rate": 2.05e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095903, "epoch": 0.71545869, "global_step/max_steps": "15385/21503", "percentage": "71.55%", "elapsed_time": "1d 20h 33m 41s", "remaining_time": "17h 43m 13s"}
{"loss": 0.61202621, "token_acc": 0.84988628, "grad_norm": 7.72834778, "learning_rate": 2.05e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095921, "epoch": 0.7156912, "global_step/max_steps": "15390/21503", "percentage": "71.57%", "elapsed_time": "1d 20h 34m 4s", "remaining_time": "17h 42m 9s"}
{"loss": 0.67000594, "token_acc": 0.83513043, "grad_norm": 6.38916397, "learning_rate": 2.05e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095939, "epoch": 0.71592372, "global_step/max_steps": "15395/21503", "percentage": "71.59%", "elapsed_time": "1d 20h 34m 27s", "remaining_time": "17h 41m 5s"}
{"loss": 0.60295572, "token_acc": 0.84408221, "grad_norm": 6.53329277, "learning_rate": 2.05e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095956, "epoch": 0.71615624, "global_step/max_steps": "15400/21503", "percentage": "71.62%", "elapsed_time": "1d 20h 34m 49s", "remaining_time": "17h 40m 1s"}
{"eval_loss": 0.56754375, "eval_runtime": 292.8256, "eval_samples_per_second": 11.867, "eval_steps_per_second": 11.867, "epoch": 0.71615624, "global_step/max_steps": "15400/21503", "percentage": "71.62%", "elapsed_time": "1d 20h 39m 42s", "remaining_time": "17h 41m 57s"}
{"loss": 0.4989192, "token_acc": 0.83335874, "grad_norm": 7.73358345, "learning_rate": 2.04e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095799, "epoch": 0.71638876, "global_step/max_steps": "15405/21503", "percentage": "71.64%", "elapsed_time": "1d 20h 40m 5s", "remaining_time": "17h 40m 54s"}
{"loss": 0.67033639, "token_acc": 0.83321454, "grad_norm": 10.46281147, "learning_rate": 2.04e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095816, "epoch": 0.71662128, "global_step/max_steps": "15410/21503", "percentage": "71.66%", "elapsed_time": "1d 20h 40m 28s", "remaining_time": "17h 39m 50s"}
{"loss": 0.67638397, "token_acc": 0.84276986, "grad_norm": 10.10872841, "learning_rate": 2.04e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095834, "epoch": 0.7168538, "global_step/max_steps": "15415/21503", "percentage": "71.69%", "elapsed_time": "1d 20h 40m 51s", "remaining_time": "17h 38m 46s"}
{"loss": 0.64655323, "token_acc": 0.84645515, "grad_norm": 7.71739054, "learning_rate": 2.03e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095851, "epoch": 0.71708631, "global_step/max_steps": "15420/21503", "percentage": "71.71%", "elapsed_time": "1d 20h 41m 14s", "remaining_time": "17h 37m 42s"}
{"loss": 0.80909328, "token_acc": 0.80315722, "grad_norm": 7.59849834, "learning_rate": 2.03e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095868, "epoch": 0.71731883, "global_step/max_steps": "15425/21503", "percentage": "71.73%", "elapsed_time": "1d 20h 41m 38s", "remaining_time": "17h 36m 39s"}
{"loss": 0.60421238, "token_acc": 0.85587019, "grad_norm": 7.44565678, "learning_rate": 2.03e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095885, "epoch": 0.71755135, "global_step/max_steps": "15430/21503", "percentage": "71.76%", "elapsed_time": "1d 20h 42m 1s", "remaining_time": "17h 35m 36s"}
{"loss": 0.69279881, "token_acc": 0.83350288, "grad_norm": 8.98222923, "learning_rate": 2.02e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095903, "epoch": 0.71778387, "global_step/max_steps": "15435/21503", "percentage": "71.78%", "elapsed_time": "1d 20h 42m 23s", "remaining_time": "17h 34m 32s"}
{"loss": 0.68547215, "token_acc": 0.83818182, "grad_norm": 8.38237858, "learning_rate": 2.02e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095921, "epoch": 0.71801639, "global_step/max_steps": "15440/21503", "percentage": "71.80%", "elapsed_time": "1d 20h 42m 46s", "remaining_time": "17h 33m 28s"}
{"loss": 0.62107992, "token_acc": 0.85276482, "grad_norm": 6.91179705, "learning_rate": 2.02e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095938, "epoch": 0.7182489, "global_step/max_steps": "15445/21503", "percentage": "71.83%", "elapsed_time": "1d 20h 43m 8s", "remaining_time": "17h 32m 24s"}
{"loss": 0.71801391, "token_acc": 0.81646031, "grad_norm": 8.02644539, "learning_rate": 2.01e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095955, "epoch": 0.71848142, "global_step/max_steps": "15450/21503", "percentage": "71.85%", "elapsed_time": "1d 20h 43m 31s", "remaining_time": "17h 31m 21s"}
{"eval_loss": 0.56756729, "eval_runtime": 294.7585, "eval_samples_per_second": 11.789, "eval_steps_per_second": 11.789, "epoch": 0.71848142, "global_step/max_steps": "15450/21503", "percentage": "71.85%", "elapsed_time": "1d 20h 48m 26s", "remaining_time": "17h 33m 16s"}
{"loss": 0.62166433, "token_acc": 0.83242367, "grad_norm": 9.90437794, "learning_rate": 2.01e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095797, "epoch": 0.71871394, "global_step/max_steps": "15455/21503", "percentage": "71.87%", "elapsed_time": "1d 20h 48m 49s", "remaining_time": "17h 32m 13s"}
{"loss": 0.61211967, "token_acc": 0.84024683, "grad_norm": 6.8368988, "learning_rate": 2.01e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095815, "epoch": 0.71894646, "global_step/max_steps": "15460/21503", "percentage": "71.90%", "elapsed_time": "1d 20h 49m 12s", "remaining_time": "17h 31m 9s"}
{"loss": 0.58979287, "token_acc": 0.84889275, "grad_norm": 11.11691666, "learning_rate": 2.01e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095832, "epoch": 0.71917898, "global_step/max_steps": "15465/21503", "percentage": "71.92%", "elapsed_time": "1d 20h 49m 35s", "remaining_time": "17h 30m 5s"}
{"loss": 0.59433637, "token_acc": 0.84887947, "grad_norm": 9.30239105, "learning_rate": 2e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09585, "epoch": 0.7194115, "global_step/max_steps": "15470/21503", "percentage": "71.94%", "elapsed_time": "1d 20h 49m 57s", "remaining_time": "17h 29m 2s"}
{"loss": 0.55565677, "token_acc": 0.86072607, "grad_norm": 9.43570995, "learning_rate": 2e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095867, "epoch": 0.71964401, "global_step/max_steps": "15475/21503", "percentage": "71.97%", "elapsed_time": "1d 20h 50m 21s", "remaining_time": "17h 27m 58s"}
{"loss": 0.67589712, "token_acc": 0.83156699, "grad_norm": 9.04785156, "learning_rate": 2e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095885, "epoch": 0.71987653, "global_step/max_steps": "15480/21503", "percentage": "71.99%", "elapsed_time": "1d 20h 50m 43s", "remaining_time": "17h 26m 54s"}
{"loss": 0.58218284, "token_acc": 0.8466948, "grad_norm": 9.41070843, "learning_rate": 1.99e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095902, "epoch": 0.72010905, "global_step/max_steps": "15485/21503", "percentage": "72.01%", "elapsed_time": "1d 20h 51m 6s", "remaining_time": "17h 25m 51s"}
{"loss": 0.61441636, "token_acc": 0.85488014, "grad_norm": 9.90568352, "learning_rate": 1.99e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095919, "epoch": 0.72034157, "global_step/max_steps": "15490/21503", "percentage": "72.04%", "elapsed_time": "1d 20h 51m 29s", "remaining_time": "17h 24m 47s"}
{"loss": 0.54179506, "token_acc": 0.8679031, "grad_norm": 9.40357876, "learning_rate": 1.99e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095937, "epoch": 0.72057409, "global_step/max_steps": "15495/21503", "percentage": "72.06%", "elapsed_time": "1d 20h 51m 52s", "remaining_time": "17h 23m 44s"}
{"loss": 0.59369559, "token_acc": 0.85947205, "grad_norm": 7.02471924, "learning_rate": 1.98e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095954, "epoch": 0.72080661, "global_step/max_steps": "15500/21503", "percentage": "72.08%", "elapsed_time": "1d 20h 52m 15s", "remaining_time": "17h 22m 40s"}
{"eval_loss": 0.56640774, "eval_runtime": 292.9703, "eval_samples_per_second": 11.861, "eval_steps_per_second": 11.861, "epoch": 0.72080661, "global_step/max_steps": "15500/21503", "percentage": "72.08%", "elapsed_time": "1d 20h 57m 8s", "remaining_time": "17h 24m 34s"}
{"loss": 0.58205829, "token_acc": 0.8331125, "grad_norm": 9.33689499, "learning_rate": 1.98e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095798, "epoch": 0.72103912, "global_step/max_steps": "15505/21503", "percentage": "72.11%", "elapsed_time": "1d 20h 57m 31s", "remaining_time": "17h 23m 30s"}
{"loss": 0.58494039, "token_acc": 0.83966245, "grad_norm": 7.72777987, "learning_rate": 1.98e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095815, "epoch": 0.72127164, "global_step/max_steps": "15510/21503", "percentage": "72.13%", "elapsed_time": "1d 20h 57m 53s", "remaining_time": "17h 22m 27s"}
{"loss": 0.69123321, "token_acc": 0.83250249, "grad_norm": 8.47520828, "learning_rate": 1.97e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095832, "epoch": 0.72150416, "global_step/max_steps": "15515/21503", "percentage": "72.15%", "elapsed_time": "1d 20h 58m 16s", "remaining_time": "17h 21m 23s"}
{"loss": 0.6353631, "token_acc": 0.82917933, "grad_norm": 7.06951952, "learning_rate": 1.97e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09585, "epoch": 0.72173668, "global_step/max_steps": "15520/21503", "percentage": "72.18%", "elapsed_time": "1d 20h 58m 39s", "remaining_time": "17h 20m 20s"}
{"loss": 0.71564341, "token_acc": 0.82140275, "grad_norm": 11.5724535, "learning_rate": 1.97e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095867, "epoch": 0.7219692, "global_step/max_steps": "15525/21503", "percentage": "72.20%", "elapsed_time": "1d 20h 59m 2s", "remaining_time": "17h 19m 17s"}
{"loss": 0.7011518, "token_acc": 0.80551724, "grad_norm": 11.5834856, "learning_rate": 1.97e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095884, "epoch": 0.72220172, "global_step/max_steps": "15530/21503", "percentage": "72.22%", "elapsed_time": "1d 20h 59m 25s", "remaining_time": "17h 18m 13s"}
{"loss": 0.67505388, "token_acc": 0.82613769, "grad_norm": 10.23689556, "learning_rate": 1.96e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095902, "epoch": 0.72243423, "global_step/max_steps": "15535/21503", "percentage": "72.25%", "elapsed_time": "1d 20h 59m 48s", "remaining_time": "17h 17m 10s"}
{"loss": 0.59374151, "token_acc": 0.86049333, "grad_norm": 7.54406261, "learning_rate": 1.96e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095919, "epoch": 0.72266675, "global_step/max_steps": "15540/21503", "percentage": "72.27%", "elapsed_time": "1d 21h 0m 10s", "remaining_time": "17h 16m 6s"}
{"loss": 0.62299027, "token_acc": 0.83105865, "grad_norm": 7.39937782, "learning_rate": 1.96e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095937, "epoch": 0.72289927, "global_step/max_steps": "15545/21503", "percentage": "72.29%", "elapsed_time": "1d 21h 0m 33s", "remaining_time": "17h 15m 3s"}
{"loss": 0.65604362, "token_acc": 0.83880379, "grad_norm": 9.3068676, "learning_rate": 1.95e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095955, "epoch": 0.72313179, "global_step/max_steps": "15550/21503", "percentage": "72.32%", "elapsed_time": "1d 21h 0m 55s", "remaining_time": "17h 13m 59s"}
{"eval_loss": 0.565723, "eval_runtime": 291.9442, "eval_samples_per_second": 11.903, "eval_steps_per_second": 11.903, "epoch": 0.72313179, "global_step/max_steps": "15550/21503", "percentage": "72.32%", "elapsed_time": "1d 21h 5m 47s", "remaining_time": "17h 15m 51s"}
{"loss": 0.58302374, "token_acc": 0.83338113, "grad_norm": 7.04497337, "learning_rate": 1.95e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095799, "epoch": 0.72336431, "global_step/max_steps": "15555/21503", "percentage": "72.34%", "elapsed_time": "1d 21h 6m 10s", "remaining_time": "17h 14m 48s"}
{"loss": 0.67372041, "token_acc": 0.83694307, "grad_norm": 6.38156557, "learning_rate": 1.95e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095817, "epoch": 0.72359682, "global_step/max_steps": "15560/21503", "percentage": "72.36%", "elapsed_time": "1d 21h 6m 32s", "remaining_time": "17h 13m 44s"}
{"loss": 0.71579905, "token_acc": 0.83282409, "grad_norm": 9.84653378, "learning_rate": 1.94e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095834, "epoch": 0.72382934, "global_step/max_steps": "15565/21503", "percentage": "72.39%", "elapsed_time": "1d 21h 6m 56s", "remaining_time": "17h 12m 41s"}
{"loss": 0.85525074, "token_acc": 0.77709751, "grad_norm": 7.8619113, "learning_rate": 1.94e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095851, "epoch": 0.72406186, "global_step/max_steps": "15570/21503", "percentage": "72.41%", "elapsed_time": "1d 21h 7m 19s", "remaining_time": "17h 11m 38s"}
{"loss": 0.62857718, "token_acc": 0.83743842, "grad_norm": 7.18562698, "learning_rate": 1.94e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095868, "epoch": 0.72429438, "global_step/max_steps": "15575/21503", "percentage": "72.43%", "elapsed_time": "1d 21h 7m 42s", "remaining_time": "17h 10m 34s"}
{"loss": 0.88545952, "token_acc": 0.78327125, "grad_norm": 7.60891962, "learning_rate": 1.93e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095886, "epoch": 0.7245269, "global_step/max_steps": "15580/21503", "percentage": "72.46%", "elapsed_time": "1d 21h 8m 5s", "remaining_time": "17h 9m 31s"}
{"loss": 0.51880898, "token_acc": 0.86639947, "grad_norm": 8.92005444, "learning_rate": 1.93e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095903, "epoch": 0.72475942, "global_step/max_steps": "15585/21503", "percentage": "72.48%", "elapsed_time": "1d 21h 8m 27s", "remaining_time": "17h 8m 27s"}
{"loss": 0.69749508, "token_acc": 0.83195592, "grad_norm": 7.9525609, "learning_rate": 1.93e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09592, "epoch": 0.72499193, "global_step/max_steps": "15590/21503", "percentage": "72.50%", "elapsed_time": "1d 21h 8m 51s", "remaining_time": "17h 7m 25s"}
{"loss": 0.72522011, "token_acc": 0.82129156, "grad_norm": 7.01435947, "learning_rate": 1.93e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095937, "epoch": 0.72522445, "global_step/max_steps": "15595/21503", "percentage": "72.52%", "elapsed_time": "1d 21h 9m 14s", "remaining_time": "17h 6m 21s"}
{"loss": 0.64414063, "token_acc": 0.84091793, "grad_norm": 7.96905994, "learning_rate": 1.92e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095954, "epoch": 0.72545697, "global_step/max_steps": "15600/21503", "percentage": "72.55%", "elapsed_time": "1d 21h 9m 36s", "remaining_time": "17h 5m 18s"}
{"eval_loss": 0.5666154, "eval_runtime": 294.9961, "eval_samples_per_second": 11.78, "eval_steps_per_second": 11.78, "epoch": 0.72545697, "global_step/max_steps": "15600/21503", "percentage": "72.55%", "elapsed_time": "1d 21h 14m 31s", "remaining_time": "17h 7m 10s"}
{"loss": 0.72169113, "token_acc": 0.83196038, "grad_norm": 11.72997665, "learning_rate": 1.92e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095798, "epoch": 0.72568949, "global_step/max_steps": "15605/21503", "percentage": "72.57%", "elapsed_time": "1d 21h 14m 55s", "remaining_time": "17h 6m 7s"}
{"loss": 0.6861125, "token_acc": 0.8221914, "grad_norm": 8.04870319, "learning_rate": 1.92e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095814, "epoch": 0.72592201, "global_step/max_steps": "15610/21503", "percentage": "72.59%", "elapsed_time": "1d 21h 15m 19s", "remaining_time": "17h 5m 4s"}
{"loss": 0.73413868, "token_acc": 0.82611506, "grad_norm": 6.78984451, "learning_rate": 1.91e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095832, "epoch": 0.72615453, "global_step/max_steps": "15615/21503", "percentage": "72.62%", "elapsed_time": "1d 21h 15m 41s", "remaining_time": "17h 4m 0s"}
{"loss": 0.62454033, "token_acc": 0.84598832, "grad_norm": 7.03751612, "learning_rate": 1.91e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095849, "epoch": 0.72638704, "global_step/max_steps": "15620/21503", "percentage": "72.64%", "elapsed_time": "1d 21h 16m 4s", "remaining_time": "17h 2m 57s"}
{"loss": 0.68377342, "token_acc": 0.8298049, "grad_norm": 10.63133144, "learning_rate": 1.91e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095866, "epoch": 0.72661956, "global_step/max_steps": "15625/21503", "percentage": "72.66%", "elapsed_time": "1d 21h 16m 27s", "remaining_time": "17h 1m 54s"}
{"loss": 0.5465148, "token_acc": 0.86484375, "grad_norm": 8.50107956, "learning_rate": 1.9e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095883, "epoch": 0.72685208, "global_step/max_steps": "15630/21503", "percentage": "72.69%", "elapsed_time": "1d 21h 16m 51s", "remaining_time": "17h 0m 51s"}
{"loss": 0.61691036, "token_acc": 0.85552622, "grad_norm": 8.95076084, "learning_rate": 1.9e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.0959, "epoch": 0.7270846, "global_step/max_steps": "15635/21503", "percentage": "72.71%", "elapsed_time": "1d 21h 17m 14s", "remaining_time": "16h 59m 48s"}
{"loss": 0.66085072, "token_acc": 0.84263959, "grad_norm": 8.5628252, "learning_rate": 1.9e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095917, "epoch": 0.72731712, "global_step/max_steps": "15640/21503", "percentage": "72.73%", "elapsed_time": "1d 21h 17m 36s", "remaining_time": "16h 58m 45s"}
{"loss": 0.65098982, "token_acc": 0.82053872, "grad_norm": 9.35679054, "learning_rate": 1.9e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095934, "epoch": 0.72754964, "global_step/max_steps": "15645/21503", "percentage": "72.76%", "elapsed_time": "1d 21h 18m 0s", "remaining_time": "16h 57m 42s"}
{"loss": 0.55931373, "token_acc": 0.86959818, "grad_norm": 11.47359943, "learning_rate": 1.89e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095951, "epoch": 0.72778215, "global_step/max_steps": "15650/21503", "percentage": "72.78%", "elapsed_time": "1d 21h 18m 23s", "remaining_time": "16h 56m 39s"}
{"eval_loss": 0.56553495, "eval_runtime": 294.0032, "eval_samples_per_second": 11.82, "eval_steps_per_second": 11.82, "epoch": 0.72778215, "global_step/max_steps": "15650/21503", "percentage": "72.78%", "elapsed_time": "1d 21h 23m 17s", "remaining_time": "16h 58m 29s"}
{"loss": 0.63950472, "token_acc": 0.83265983, "grad_norm": 5.6240592, "learning_rate": 1.89e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095795, "epoch": 0.72801467, "global_step/max_steps": "15655/21503", "percentage": "72.80%", "elapsed_time": "1d 21h 23m 41s", "remaining_time": "16h 57m 26s"}
{"loss": 0.68492332, "token_acc": 0.82559682, "grad_norm": 8.76508141, "learning_rate": 1.89e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095813, "epoch": 0.72824719, "global_step/max_steps": "15660/21503", "percentage": "72.83%", "elapsed_time": "1d 21h 24m 3s", "remaining_time": "16h 56m 23s"}
{"loss": 0.55331035, "token_acc": 0.85686962, "grad_norm": 9.39916039, "learning_rate": 1.88e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09583, "epoch": 0.72847971, "global_step/max_steps": "15665/21503", "percentage": "72.85%", "elapsed_time": "1d 21h 24m 26s", "remaining_time": "16h 55m 20s"}
{"loss": 0.57191219, "token_acc": 0.85392354, "grad_norm": 7.85256052, "learning_rate": 1.88e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095848, "epoch": 0.72871223, "global_step/max_steps": "15670/21503", "percentage": "72.87%", "elapsed_time": "1d 21h 24m 47s", "remaining_time": "16h 54m 16s"}
{"loss": 0.55686841, "token_acc": 0.85678482, "grad_norm": 9.1488409, "learning_rate": 1.88e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095865, "epoch": 0.72894474, "global_step/max_steps": "15675/21503", "percentage": "72.90%", "elapsed_time": "1d 21h 25m 10s", "remaining_time": "16h 53m 13s"}
{"loss": 0.60522499, "token_acc": 0.84879725, "grad_norm": 6.87287664, "learning_rate": 1.87e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095883, "epoch": 0.72917726, "global_step/max_steps": "15680/21503", "percentage": "72.92%", "elapsed_time": "1d 21h 25m 33s", "remaining_time": "16h 52m 10s"}
{"loss": 0.59923625, "token_acc": 0.85518591, "grad_norm": 7.46429157, "learning_rate": 1.87e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.0959, "epoch": 0.72940978, "global_step/max_steps": "15685/21503", "percentage": "72.94%", "elapsed_time": "1d 21h 25m 55s", "remaining_time": "16h 51m 7s"}
{"loss": 0.69588761, "token_acc": 0.82929857, "grad_norm": 10.3474369, "learning_rate": 1.87e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095918, "epoch": 0.7296423, "global_step/max_steps": "15690/21503", "percentage": "72.97%", "elapsed_time": "1d 21h 26m 17s", "remaining_time": "16h 50m 4s"}
{"loss": 0.76354074, "token_acc": 0.81414702, "grad_norm": 7.47376394, "learning_rate": 1.87e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095935, "epoch": 0.72987482, "global_step/max_steps": "15695/21503", "percentage": "72.99%", "elapsed_time": "1d 21h 26m 40s", "remaining_time": "16h 49m 0s"}
{"loss": 0.67448592, "token_acc": 0.83689024, "grad_norm": 6.55632305, "learning_rate": 1.86e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095952, "epoch": 0.73010734, "global_step/max_steps": "15700/21503", "percentage": "73.01%", "elapsed_time": "1d 21h 27m 2s", "remaining_time": "16h 47m 57s"}
{"eval_loss": 0.56544322, "eval_runtime": 295.1311, "eval_samples_per_second": 11.774, "eval_steps_per_second": 11.774, "epoch": 0.73010734, "global_step/max_steps": "15700/21503", "percentage": "73.01%", "elapsed_time": "1d 21h 31m 57s", "remaining_time": "16h 49m 46s"}
{"loss": 0.63043327, "token_acc": 0.83316901, "grad_norm": 7.9423914, "learning_rate": 1.86e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095797, "epoch": 0.73033985, "global_step/max_steps": "15705/21503", "percentage": "73.04%", "elapsed_time": "1d 21h 32m 20s", "remaining_time": "16h 48m 43s"}
{"loss": 0.64480882, "token_acc": 0.83627797, "grad_norm": 10.44458675, "learning_rate": 1.86e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095814, "epoch": 0.73057237, "global_step/max_steps": "15710/21503", "percentage": "73.06%", "elapsed_time": "1d 21h 32m 42s", "remaining_time": "16h 47m 40s"}
{"loss": 0.68164949, "token_acc": 0.82596246, "grad_norm": 7.1575346, "learning_rate": 1.85e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095832, "epoch": 0.73080489, "global_step/max_steps": "15715/21503", "percentage": "73.08%", "elapsed_time": "1d 21h 33m 5s", "remaining_time": "16h 46m 37s"}
{"loss": 0.6713624, "token_acc": 0.83715507, "grad_norm": 7.53075981, "learning_rate": 1.85e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095849, "epoch": 0.73103741, "global_step/max_steps": "15720/21503", "percentage": "73.11%", "elapsed_time": "1d 21h 33m 28s", "remaining_time": "16h 45m 34s"}
{"loss": 0.7240819, "token_acc": 0.80819672, "grad_norm": 8.83544636, "learning_rate": 1.85e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095865, "epoch": 0.73126993, "global_step/max_steps": "15725/21503", "percentage": "73.13%", "elapsed_time": "1d 21h 33m 52s", "remaining_time": "16h 44m 31s"}
{"loss": 0.63593121, "token_acc": 0.844531, "grad_norm": 9.41449738, "learning_rate": 1.84e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095882, "epoch": 0.73150245, "global_step/max_steps": "15730/21503", "percentage": "73.15%", "elapsed_time": "1d 21h 34m 15s", "remaining_time": "16h 43m 29s"}
{"loss": 0.63795161, "token_acc": 0.83640993, "grad_norm": 10.99672222, "learning_rate": 1.84e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095899, "epoch": 0.73173496, "global_step/max_steps": "15735/21503", "percentage": "73.18%", "elapsed_time": "1d 21h 34m 37s", "remaining_time": "16h 42m 26s"}
{"loss": 0.69422231, "token_acc": 0.8277654, "grad_norm": 10.7357769, "learning_rate": 1.84e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095917, "epoch": 0.73196748, "global_step/max_steps": "15740/21503", "percentage": "73.20%", "elapsed_time": "1d 21h 35m 0s", "remaining_time": "16h 41m 23s"}
{"loss": 0.68011618, "token_acc": 0.83202945, "grad_norm": 8.52105904, "learning_rate": 1.84e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095934, "epoch": 0.7322, "global_step/max_steps": "15745/21503", "percentage": "73.22%", "elapsed_time": "1d 21h 35m 23s", "remaining_time": "16h 40m 20s"}
{"loss": 0.67791038, "token_acc": 0.82715361, "grad_norm": 6.81304646, "learning_rate": 1.83e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095951, "epoch": 0.73243252, "global_step/max_steps": "15750/21503", "percentage": "73.25%", "elapsed_time": "1d 21h 35m 45s", "remaining_time": "16h 39m 17s"}
{"eval_loss": 0.56680071, "eval_runtime": 294.0271, "eval_samples_per_second": 11.819, "eval_steps_per_second": 11.819, "epoch": 0.73243252, "global_step/max_steps": "15750/21503", "percentage": "73.25%", "elapsed_time": "1d 21h 40m 39s", "remaining_time": "16h 41m 4s"}
{"loss": 0.54529033, "token_acc": 0.83304766, "grad_norm": 9.1161232, "learning_rate": 1.83e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095796, "epoch": 0.73266504, "global_step/max_steps": "15755/21503", "percentage": "73.27%", "elapsed_time": "1d 21h 41m 3s", "remaining_time": "16h 40m 2s"}
{"loss": 0.71438432, "token_acc": 0.81326502, "grad_norm": 5.67310381, "learning_rate": 1.83e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095813, "epoch": 0.73289756, "global_step/max_steps": "15760/21503", "percentage": "73.29%", "elapsed_time": "1d 21h 41m 26s", "remaining_time": "16h 38m 59s"}
{"loss": 0.62553563, "token_acc": 0.83023395, "grad_norm": 8.8151989, "learning_rate": 1.82e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09583, "epoch": 0.73313007, "global_step/max_steps": "15765/21503", "percentage": "73.32%", "elapsed_time": "1d 21h 41m 50s", "remaining_time": "16h 37m 57s"}
{"loss": 0.5208077, "token_acc": 0.8714511, "grad_norm": 7.65089512, "learning_rate": 1.82e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095847, "epoch": 0.73336259, "global_step/max_steps": "15770/21503", "percentage": "73.34%", "elapsed_time": "1d 21h 42m 12s", "remaining_time": "16h 36m 54s"}
{"loss": 0.50866122, "token_acc": 0.86867516, "grad_norm": 6.71837568, "learning_rate": 1.82e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095864, "epoch": 0.73359511, "global_step/max_steps": "15775/21503", "percentage": "73.36%", "elapsed_time": "1d 21h 42m 36s", "remaining_time": "16h 35m 51s"}
{"loss": 0.67464685, "token_acc": 0.83618012, "grad_norm": 9.22013283, "learning_rate": 1.81e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095881, "epoch": 0.73382763, "global_step/max_steps": "15780/21503", "percentage": "73.39%", "elapsed_time": "1d 21h 42m 58s", "remaining_time": "16h 34m 48s"}
{"loss": 0.55224123, "token_acc": 0.86634401, "grad_norm": 7.65732098, "learning_rate": 1.81e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095898, "epoch": 0.73406015, "global_step/max_steps": "15785/21503", "percentage": "73.41%", "elapsed_time": "1d 21h 43m 22s", "remaining_time": "16h 33m 45s"}
{"loss": 0.67904348, "token_acc": 0.82994608, "grad_norm": 10.65982819, "learning_rate": 1.81e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095915, "epoch": 0.73429266, "global_step/max_steps": "15790/21503", "percentage": "73.43%", "elapsed_time": "1d 21h 43m 45s", "remaining_time": "16h 32m 43s"}
{"loss": 0.78036685, "token_acc": 0.80018762, "grad_norm": 5.57041502, "learning_rate": 1.81e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095931, "epoch": 0.73452518, "global_step/max_steps": "15795/21503", "percentage": "73.45%", "elapsed_time": "1d 21h 44m 8s", "remaining_time": "16h 31m 40s"}
{"loss": 0.76262407, "token_acc": 0.7994817, "grad_norm": 11.06748867, "learning_rate": 1.8e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095948, "epoch": 0.7347577, "global_step/max_steps": "15800/21503", "percentage": "73.48%", "elapsed_time": "1d 21h 44m 32s", "remaining_time": "16h 30m 38s"}
{"eval_loss": 0.56439793, "eval_runtime": 296.0923, "eval_samples_per_second": 11.736, "eval_steps_per_second": 11.736, "epoch": 0.7347577, "global_step/max_steps": "15800/21503", "percentage": "73.48%", "elapsed_time": "1d 21h 49m 28s", "remaining_time": "16h 32m 25s"}
{"loss": 0.60311112, "token_acc": 0.83304544, "grad_norm": 10.09076977, "learning_rate": 1.8e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095793, "epoch": 0.73499022, "global_step/max_steps": "15805/21503", "percentage": "73.50%", "elapsed_time": "1d 21h 49m 51s", "remaining_time": "16h 31m 22s"}
{"loss": 0.60448823, "token_acc": 0.83566879, "grad_norm": 8.19032001, "learning_rate": 1.8e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095809, "epoch": 0.73522274, "global_step/max_steps": "15810/21503", "percentage": "73.52%", "elapsed_time": "1d 21h 50m 14s", "remaining_time": "16h 30m 19s"}
{"loss": 0.65403666, "token_acc": 0.82336383, "grad_norm": 6.57352591, "learning_rate": 1.79e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095826, "epoch": 0.73545526, "global_step/max_steps": "15815/21503", "percentage": "73.55%", "elapsed_time": "1d 21h 50m 37s", "remaining_time": "16h 29m 17s"}
{"loss": 0.62742019, "token_acc": 0.84972562, "grad_norm": 10.95427704, "learning_rate": 1.79e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095843, "epoch": 0.73568777, "global_step/max_steps": "15820/21503", "percentage": "73.57%", "elapsed_time": "1d 21h 51m 0s", "remaining_time": "16h 28m 14s"}
{"loss": 0.67232966, "token_acc": 0.8216978, "grad_norm": 7.76631498, "learning_rate": 1.79e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09586, "epoch": 0.73592029, "global_step/max_steps": "15825/21503", "percentage": "73.59%", "elapsed_time": "1d 21h 51m 24s", "remaining_time": "16h 27m 12s"}
{"loss": 0.77411256, "token_acc": 0.80475594, "grad_norm": 10.62308502, "learning_rate": 1.79e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095877, "epoch": 0.73615281, "global_step/max_steps": "15830/21503", "percentage": "73.62%", "elapsed_time": "1d 21h 51m 47s", "remaining_time": "16h 26m 9s"}
{"loss": 0.6203536, "token_acc": 0.84296578, "grad_norm": 8.32430172, "learning_rate": 1.78e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095894, "epoch": 0.73638533, "global_step/max_steps": "15835/21503", "percentage": "73.64%", "elapsed_time": "1d 21h 52m 10s", "remaining_time": "16h 25m 7s"}
{"loss": 0.68239512, "token_acc": 0.83158896, "grad_norm": 6.43761158, "learning_rate": 1.78e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095911, "epoch": 0.73661785, "global_step/max_steps": "15840/21503", "percentage": "73.66%", "elapsed_time": "1d 21h 52m 32s", "remaining_time": "16h 24m 4s"}
{"loss": 0.62245317, "token_acc": 0.83922427, "grad_norm": 7.32639027, "learning_rate": 1.78e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095928, "epoch": 0.73685037, "global_step/max_steps": "15845/21503", "percentage": "73.69%", "elapsed_time": "1d 21h 52m 55s", "remaining_time": "16h 23m 1s"}
{"loss": 0.74460163, "token_acc": 0.81428043, "grad_norm": 8.88248444, "learning_rate": 1.77e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095945, "epoch": 0.73708288, "global_step/max_steps": "15850/21503", "percentage": "73.71%", "elapsed_time": "1d 21h 53m 18s", "remaining_time": "16h 21m 59s"}
{"eval_loss": 0.56736141, "eval_runtime": 293.6289, "eval_samples_per_second": 11.835, "eval_steps_per_second": 11.835, "epoch": 0.73708288, "global_step/max_steps": "15850/21503", "percentage": "73.71%", "elapsed_time": "1d 21h 58m 12s", "remaining_time": "16h 23m 43s"}
{"loss": 0.73932681, "token_acc": 0.8325765, "grad_norm": 8.33707237, "learning_rate": 1.77e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095791, "epoch": 0.7373154, "global_step/max_steps": "15855/21503", "percentage": "73.73%", "elapsed_time": "1d 21h 58m 35s", "remaining_time": "16h 22m 41s"}
{"loss": 0.59239044, "token_acc": 0.85594512, "grad_norm": 6.72947073, "learning_rate": 1.77e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095808, "epoch": 0.73754792, "global_step/max_steps": "15860/21503", "percentage": "73.76%", "elapsed_time": "1d 21h 58m 58s", "remaining_time": "16h 21m 38s"}
{"loss": 0.81384192, "token_acc": 0.80523352, "grad_norm": 10.68433666, "learning_rate": 1.76e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095825, "epoch": 0.73778044, "global_step/max_steps": "15865/21503", "percentage": "73.78%", "elapsed_time": "1d 21h 59m 21s", "remaining_time": "16h 20m 36s"}
{"loss": 0.6489748, "token_acc": 0.84893617, "grad_norm": 9.12749863, "learning_rate": 1.76e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095842, "epoch": 0.73801296, "global_step/max_steps": "15870/21503", "percentage": "73.80%", "elapsed_time": "1d 21h 59m 44s", "remaining_time": "16h 19m 33s"}
{"loss": 0.57908134, "token_acc": 0.85126859, "grad_norm": 13.21903419, "learning_rate": 1.76e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095859, "epoch": 0.73824548, "global_step/max_steps": "15875/21503", "percentage": "73.83%", "elapsed_time": "1d 22h 0m 7s", "remaining_time": "16h 18m 30s"}
{"loss": 0.68102307, "token_acc": 0.8141503, "grad_norm": 7.87359428, "learning_rate": 1.76e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095876, "epoch": 0.73847799, "global_step/max_steps": "15880/21503", "percentage": "73.85%", "elapsed_time": "1d 22h 0m 30s", "remaining_time": "16h 17m 28s"}
{"loss": 0.71904349, "token_acc": 0.82002782, "grad_norm": 7.81275225, "learning_rate": 1.75e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095893, "epoch": 0.73871051, "global_step/max_steps": "15885/21503", "percentage": "73.87%", "elapsed_time": "1d 22h 0m 53s", "remaining_time": "16h 16m 26s"}
{"loss": 0.66848617, "token_acc": 0.83431488, "grad_norm": 8.47116566, "learning_rate": 1.75e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09591, "epoch": 0.73894303, "global_step/max_steps": "15890/21503", "percentage": "73.90%", "elapsed_time": "1d 22h 1m 16s", "remaining_time": "16h 15m 23s"}
{"loss": 0.67902875, "token_acc": 0.83175206, "grad_norm": 9.8350544, "learning_rate": 1.75e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095926, "epoch": 0.73917555, "global_step/max_steps": "15895/21503", "percentage": "73.92%", "elapsed_time": "1d 22h 1m 39s", "remaining_time": "16h 14m 21s"}
{"loss": 0.66216702, "token_acc": 0.83186141, "grad_norm": 8.9183979, "learning_rate": 1.74e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095943, "epoch": 0.73940807, "global_step/max_steps": "15900/21503", "percentage": "73.94%", "elapsed_time": "1d 22h 2m 2s", "remaining_time": "16h 13m 18s"}
{"eval_loss": 0.56442511, "eval_runtime": 292.8436, "eval_samples_per_second": 11.866, "eval_steps_per_second": 11.866, "epoch": 0.73940807, "global_step/max_steps": "15900/21503", "percentage": "73.94%", "elapsed_time": "1d 22h 6m 55s", "remaining_time": "16h 15m 2s"}
{"loss": 0.62442298, "token_acc": 0.83333466, "grad_norm": 7.58683825, "learning_rate": 1.74e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095791, "epoch": 0.73964058, "global_step/max_steps": "15905/21503", "percentage": "73.97%", "elapsed_time": "1d 22h 7m 18s", "remaining_time": "16h 13m 59s"}
{"loss": 0.64225702, "token_acc": 0.84730421, "grad_norm": 7.99952269, "learning_rate": 1.74e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095808, "epoch": 0.7398731, "global_step/max_steps": "15910/21503", "percentage": "73.99%", "elapsed_time": "1d 22h 7m 41s", "remaining_time": "16h 12m 57s"}
{"loss": 0.76617579, "token_acc": 0.81478569, "grad_norm": 7.4505024, "learning_rate": 1.74e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095824, "epoch": 0.74010562, "global_step/max_steps": "15915/21503", "percentage": "74.01%", "elapsed_time": "1d 22h 8m 4s", "remaining_time": "16h 11m 54s"}
{"loss": 0.64779525, "token_acc": 0.83383686, "grad_norm": 9.62798405, "learning_rate": 1.73e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095841, "epoch": 0.74033814, "global_step/max_steps": "15920/21503", "percentage": "74.04%", "elapsed_time": "1d 22h 8m 28s", "remaining_time": "16h 10m 52s"}
{"loss": 0.64868784, "token_acc": 0.83376147, "grad_norm": 9.84359932, "learning_rate": 1.73e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095858, "epoch": 0.74057066, "global_step/max_steps": "15925/21503", "percentage": "74.06%", "elapsed_time": "1d 22h 8m 51s", "remaining_time": "16h 9m 50s"}
{"loss": 0.71415553, "token_acc": 0.8325718, "grad_norm": 9.12418652, "learning_rate": 1.73e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095875, "epoch": 0.74080318, "global_step/max_steps": "15930/21503", "percentage": "74.08%", "elapsed_time": "1d 22h 9m 13s", "remaining_time": "16h 8m 47s"}
{"loss": 0.67168574, "token_acc": 0.84054834, "grad_norm": 9.00808144, "learning_rate": 1.72e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095892, "epoch": 0.74103569, "global_step/max_steps": "15935/21503", "percentage": "74.11%", "elapsed_time": "1d 22h 9m 37s", "remaining_time": "16h 7m 45s"}
{"loss": 0.66291108, "token_acc": 0.83480409, "grad_norm": 8.32922935, "learning_rate": 1.72e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095908, "epoch": 0.74126821, "global_step/max_steps": "15940/21503", "percentage": "74.13%", "elapsed_time": "1d 22h 10m 0s", "remaining_time": "16h 6m 43s"}
{"loss": 0.49824162, "token_acc": 0.8744856, "grad_norm": 7.30465364, "learning_rate": 1.72e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095926, "epoch": 0.74150073, "global_step/max_steps": "15945/21503", "percentage": "74.15%", "elapsed_time": "1d 22h 10m 22s", "remaining_time": "16h 5m 40s"}
{"loss": 0.64524736, "token_acc": 0.83825702, "grad_norm": 6.44486904, "learning_rate": 1.72e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095943, "epoch": 0.74173325, "global_step/max_steps": "15950/21503", "percentage": "74.18%", "elapsed_time": "1d 22h 10m 44s", "remaining_time": "16h 4m 38s"}
{"eval_loss": 0.5636093, "eval_runtime": 291.7132, "eval_samples_per_second": 11.912, "eval_steps_per_second": 11.912, "epoch": 0.74173325, "global_step/max_steps": "15950/21503", "percentage": "74.18%", "elapsed_time": "1d 22h 15m 36s", "remaining_time": "16h 6m 19s"}
{"loss": 0.68366599, "token_acc": 0.83324002, "grad_norm": 7.70983362, "learning_rate": 1.71e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095791, "epoch": 0.74196577, "global_step/max_steps": "15955/21503", "percentage": "74.20%", "elapsed_time": "1d 22h 15m 59s", "remaining_time": "16h 5m 17s"}
{"loss": 0.66346521, "token_acc": 0.83993533, "grad_norm": 9.40170479, "learning_rate": 1.71e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095808, "epoch": 0.74219829, "global_step/max_steps": "15960/21503", "percentage": "74.22%", "elapsed_time": "1d 22h 16m 22s", "remaining_time": "16h 4m 14s"}
{"loss": 0.75408797, "token_acc": 0.82732372, "grad_norm": 8.09825897, "learning_rate": 1.71e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095826, "epoch": 0.7424308, "global_step/max_steps": "15965/21503", "percentage": "74.25%", "elapsed_time": "1d 22h 16m 44s", "remaining_time": "16h 3m 12s"}
{"loss": 0.61241412, "token_acc": 0.84952063, "grad_norm": 10.0109396, "learning_rate": 1.7e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095843, "epoch": 0.74266332, "global_step/max_steps": "15970/21503", "percentage": "74.27%", "elapsed_time": "1d 22h 17m 6s", "remaining_time": "16h 2m 9s"}
{"loss": 0.71344366, "token_acc": 0.83010262, "grad_norm": 10.1454401, "learning_rate": 1.7e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09586, "epoch": 0.74289584, "global_step/max_steps": "15975/21503", "percentage": "74.29%", "elapsed_time": "1d 22h 17m 28s", "remaining_time": "16h 1m 7s"}
{"loss": 0.6635231, "token_acc": 0.82620424, "grad_norm": 8.14071369, "learning_rate": 1.7e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095877, "epoch": 0.74312836, "global_step/max_steps": "15980/21503", "percentage": "74.32%", "elapsed_time": "1d 22h 17m 51s", "remaining_time": "16h 0m 5s"}
{"loss": 0.60878782, "token_acc": 0.83940116, "grad_norm": 6.78627968, "learning_rate": 1.7e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095894, "epoch": 0.74336088, "global_step/max_steps": "15985/21503", "percentage": "74.34%", "elapsed_time": "1d 22h 18m 13s", "remaining_time": "15h 59m 2s"}
{"loss": 0.6415596, "token_acc": 0.84389886, "grad_norm": 9.08250904, "learning_rate": 1.69e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095912, "epoch": 0.7435934, "global_step/max_steps": "15990/21503", "percentage": "74.36%", "elapsed_time": "1d 22h 18m 35s", "remaining_time": "15h 57m 59s"}
{"loss": 0.69630308, "token_acc": 0.8396861, "grad_norm": 7.58002043, "learning_rate": 1.69e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095929, "epoch": 0.74382591, "global_step/max_steps": "15995/21503", "percentage": "74.38%", "elapsed_time": "1d 22h 18m 57s", "remaining_time": "15h 56m 57s"}
{"loss": 0.63573422, "token_acc": 0.835908, "grad_norm": 7.41015482, "learning_rate": 1.69e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095946, "epoch": 0.74405843, "global_step/max_steps": "16000/21503", "percentage": "74.41%", "elapsed_time": "1d 22h 19m 20s", "remaining_time": "15h 55m 55s"}
{"eval_loss": 0.56479925, "eval_runtime": 291.7146, "eval_samples_per_second": 11.912, "eval_steps_per_second": 11.912, "epoch": 0.74405843, "global_step/max_steps": "16000/21503", "percentage": "74.41%", "elapsed_time": "1d 22h 24m 12s", "remaining_time": "15h 57m 35s"}
{"loss": 0.53881474, "token_acc": 0.83371015, "grad_norm": 7.56822634, "learning_rate": 1.68e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095795, "epoch": 0.74429095, "global_step/max_steps": "16005/21503", "percentage": "74.43%", "elapsed_time": "1d 22h 24m 34s", "remaining_time": "15h 56m 33s"}
{"loss": 0.57571006, "token_acc": 0.85727525, "grad_norm": 8.07730484, "learning_rate": 1.68e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095811, "epoch": 0.74452347, "global_step/max_steps": "16010/21503", "percentage": "74.45%", "elapsed_time": "1d 22h 24m 58s", "remaining_time": "15h 55m 31s"}
{"loss": 0.68285236, "token_acc": 0.82208238, "grad_norm": 8.20462418, "learning_rate": 1.68e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095829, "epoch": 0.74475599, "global_step/max_steps": "16015/21503", "percentage": "74.48%", "elapsed_time": "1d 22h 25m 20s", "remaining_time": "15h 54m 28s"}
{"loss": 0.76555676, "token_acc": 0.80576923, "grad_norm": 7.58066368, "learning_rate": 1.67e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095846, "epoch": 0.7449885, "global_step/max_steps": "16020/21503", "percentage": "74.50%", "elapsed_time": "1d 22h 25m 43s", "remaining_time": "15h 53m 26s"}
{"loss": 0.71816258, "token_acc": 0.83473185, "grad_norm": 7.32138586, "learning_rate": 1.67e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095863, "epoch": 0.74522102, "global_step/max_steps": "16025/21503", "percentage": "74.52%", "elapsed_time": "1d 22h 26m 6s", "remaining_time": "15h 52m 24s"}
{"loss": 0.66720657, "token_acc": 0.83762058, "grad_norm": 10.68291378, "learning_rate": 1.67e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09588, "epoch": 0.74545354, "global_step/max_steps": "16030/21503", "percentage": "74.55%", "elapsed_time": "1d 22h 26m 28s", "remaining_time": "15h 51m 21s"}
{"loss": 0.63921366, "token_acc": 0.84592593, "grad_norm": 8.95948029, "learning_rate": 1.67e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095897, "epoch": 0.74568606, "global_step/max_steps": "16035/21503", "percentage": "74.57%", "elapsed_time": "1d 22h 26m 51s", "remaining_time": "15h 50m 19s"}
{"loss": 0.56778083, "token_acc": 0.86079329, "grad_norm": 8.299613, "learning_rate": 1.66e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095913, "epoch": 0.74591858, "global_step/max_steps": "16040/21503", "percentage": "74.59%", "elapsed_time": "1d 22h 27m 14s", "remaining_time": "15h 49m 17s"}
{"loss": 0.55132561, "token_acc": 0.85741935, "grad_norm": 7.42401266, "learning_rate": 1.66e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09593, "epoch": 0.7461511, "global_step/max_steps": "16045/21503", "percentage": "74.62%", "elapsed_time": "1d 22h 27m 37s", "remaining_time": "15h 48m 15s"}
{"loss": 0.74176483, "token_acc": 0.80853518, "grad_norm": 7.40708494, "learning_rate": 1.66e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095947, "epoch": 0.74638361, "global_step/max_steps": "16050/21503", "percentage": "74.64%", "elapsed_time": "1d 22h 28m 0s", "remaining_time": "15h 47m 13s"}
{"eval_loss": 0.56429476, "eval_runtime": 292.8114, "eval_samples_per_second": 11.868, "eval_steps_per_second": 11.868, "epoch": 0.74638361, "global_step/max_steps": "16050/21503", "percentage": "74.64%", "elapsed_time": "1d 22h 32m 53s", "remaining_time": "15h 48m 53s"}
{"loss": 0.57942505, "token_acc": 0.83407911, "grad_norm": 7.71851254, "learning_rate": 1.65e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095796, "epoch": 0.74661613, "global_step/max_steps": "16055/21503", "percentage": "74.66%", "elapsed_time": "1d 22h 33m 16s", "remaining_time": "15h 47m 51s"}
{"loss": 0.55877109, "token_acc": 0.85755534, "grad_norm": 7.85019541, "learning_rate": 1.65e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095812, "epoch": 0.74684865, "global_step/max_steps": "16060/21503", "percentage": "74.69%", "elapsed_time": "1d 22h 33m 38s", "remaining_time": "15h 46m 48s"}
{"loss": 0.80993729, "token_acc": 0.80028986, "grad_norm": 9.20813847, "learning_rate": 1.65e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095829, "epoch": 0.74708117, "global_step/max_steps": "16065/21503", "percentage": "74.71%", "elapsed_time": "1d 22h 34m 1s", "remaining_time": "15h 45m 46s"}
{"loss": 0.64409642, "token_acc": 0.83351831, "grad_norm": 10.44491386, "learning_rate": 1.65e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095846, "epoch": 0.74731369, "global_step/max_steps": "16070/21503", "percentage": "74.73%", "elapsed_time": "1d 22h 34m 25s", "remaining_time": "15h 44m 44s"}
{"loss": 0.65189242, "token_acc": 0.83167296, "grad_norm": 9.75209141, "learning_rate": 1.64e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095863, "epoch": 0.74754621, "global_step/max_steps": "16075/21503", "percentage": "74.76%", "elapsed_time": "1d 22h 34m 47s", "remaining_time": "15h 43m 42s"}
{"loss": 0.63214626, "token_acc": 0.83609646, "grad_norm": 8.18756962, "learning_rate": 1.64e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095879, "epoch": 0.74777872, "global_step/max_steps": "16080/21503", "percentage": "74.78%", "elapsed_time": "1d 22h 35m 10s", "remaining_time": "15h 42m 40s"}
{"loss": 0.65076251, "token_acc": 0.83320669, "grad_norm": 9.65122986, "learning_rate": 1.64e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095896, "epoch": 0.74801124, "global_step/max_steps": "16085/21503", "percentage": "74.80%", "elapsed_time": "1d 22h 35m 33s", "remaining_time": "15h 41m 38s"}
{"loss": 0.69095235, "token_acc": 0.82981487, "grad_norm": 8.28392601, "learning_rate": 1.63e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095913, "epoch": 0.74824376, "global_step/max_steps": "16090/21503", "percentage": "74.83%", "elapsed_time": "1d 22h 35m 56s", "remaining_time": "15h 40m 36s"}
{"loss": 0.66959076, "token_acc": 0.8302583, "grad_norm": 8.17387104, "learning_rate": 1.63e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09593, "epoch": 0.74847628, "global_step/max_steps": "16095/21503", "percentage": "74.85%", "elapsed_time": "1d 22h 36m 18s", "remaining_time": "15h 39m 34s"}
{"loss": 0.65006933, "token_acc": 0.83882149, "grad_norm": 6.88532877, "learning_rate": 1.63e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095947, "epoch": 0.7487088, "global_step/max_steps": "16100/21503", "percentage": "74.87%", "elapsed_time": "1d 22h 36m 41s", "remaining_time": "15h 38m 32s"}
{"eval_loss": 0.56553137, "eval_runtime": 295.4483, "eval_samples_per_second": 11.762, "eval_steps_per_second": 11.762, "epoch": 0.7487088, "global_step/max_steps": "16100/21503", "percentage": "74.87%", "elapsed_time": "1d 22h 41m 36s", "remaining_time": "15h 40m 11s"}
{"loss": 0.60703869, "token_acc": 0.83362968, "grad_norm": 8.97481537, "learning_rate": 1.63e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095794, "epoch": 0.74894132, "global_step/max_steps": "16105/21503", "percentage": "74.90%", "elapsed_time": "1d 22h 42m 0s", "remaining_time": "15h 39m 9s"}
{"loss": 0.80329294, "token_acc": 0.7996732, "grad_norm": 6.0818181, "learning_rate": 1.62e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095811, "epoch": 0.74917383, "global_step/max_steps": "16110/21503", "percentage": "74.92%", "elapsed_time": "1d 22h 42m 23s", "remaining_time": "15h 38m 8s"}
{"loss": 0.56405234, "token_acc": 0.85541401, "grad_norm": 11.37548256, "learning_rate": 1.62e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095827, "epoch": 0.74940635, "global_step/max_steps": "16115/21503", "percentage": "74.94%", "elapsed_time": "1d 22h 42m 46s", "remaining_time": "15h 37m 5s"}
{"loss": 0.64955974, "token_acc": 0.83941606, "grad_norm": 8.13470173, "learning_rate": 1.62e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095844, "epoch": 0.74963887, "global_step/max_steps": "16120/21503", "percentage": "74.97%", "elapsed_time": "1d 22h 43m 9s", "remaining_time": "15h 36m 4s"}
{"loss": 0.64054461, "token_acc": 0.84228076, "grad_norm": 10.17063141, "learning_rate": 1.61e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09586, "epoch": 0.74987139, "global_step/max_steps": "16125/21503", "percentage": "74.99%", "elapsed_time": "1d 22h 43m 33s", "remaining_time": "15h 35m 2s"}
{"loss": 0.65305376, "token_acc": 0.83255034, "grad_norm": 6.24458408, "learning_rate": 1.61e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095877, "epoch": 0.75010391, "global_step/max_steps": "16130/21503", "percentage": "75.01%", "elapsed_time": "1d 22h 43m 56s", "remaining_time": "15h 34m 0s"}
{"loss": 0.57144098, "token_acc": 0.84917044, "grad_norm": 7.81848621, "learning_rate": 1.61e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095894, "epoch": 0.75033642, "global_step/max_steps": "16135/21503", "percentage": "75.04%", "elapsed_time": "1d 22h 44m 18s", "remaining_time": "15h 32m 58s"}
{"loss": 0.66046386, "token_acc": 0.84262554, "grad_norm": 9.4465456, "learning_rate": 1.61e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095911, "epoch": 0.75056894, "global_step/max_steps": "16140/21503", "percentage": "75.06%", "elapsed_time": "1d 22h 44m 41s", "remaining_time": "15h 31m 56s"}
{"loss": 0.65497327, "token_acc": 0.8540146, "grad_norm": 7.68799877, "learning_rate": 1.6e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095927, "epoch": 0.75080146, "global_step/max_steps": "16145/21503", "percentage": "75.08%", "elapsed_time": "1d 22h 45m 4s", "remaining_time": "15h 30m 54s"}
{"loss": 0.62902012, "token_acc": 0.84062059, "grad_norm": 8.27269077, "learning_rate": 1.6e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095944, "epoch": 0.75103398, "global_step/max_steps": "16150/21503", "percentage": "75.11%", "elapsed_time": "1d 22h 45m 26s", "remaining_time": "15h 29m 52s"}
{"eval_loss": 0.56349611, "eval_runtime": 292.755, "eval_samples_per_second": 11.87, "eval_steps_per_second": 11.87, "epoch": 0.75103398, "global_step/max_steps": "16150/21503", "percentage": "75.11%", "elapsed_time": "1d 22h 50m 19s", "remaining_time": "15h 31m 29s"}
{"loss": 0.63020859, "token_acc": 0.83282316, "grad_norm": 8.65075779, "learning_rate": 1.6e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095794, "epoch": 0.7512665, "global_step/max_steps": "16155/21503", "percentage": "75.13%", "elapsed_time": "1d 22h 50m 42s", "remaining_time": "15h 30m 27s"}
{"loss": 0.84676132, "token_acc": 0.78790412, "grad_norm": 9.49666691, "learning_rate": 1.6e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095811, "epoch": 0.75149902, "global_step/max_steps": "16160/21503", "percentage": "75.15%", "elapsed_time": "1d 22h 51m 5s", "remaining_time": "15h 29m 26s"}
{"loss": 0.65538416, "token_acc": 0.83113006, "grad_norm": 11.60748005, "learning_rate": 1.59e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095828, "epoch": 0.75173153, "global_step/max_steps": "16165/21503", "percentage": "75.18%", "elapsed_time": "1d 22h 51m 28s", "remaining_time": "15h 28m 24s"}
{"loss": 0.6012136, "token_acc": 0.84344147, "grad_norm": 7.8536582, "learning_rate": 1.59e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095844, "epoch": 0.75196405, "global_step/max_steps": "16170/21503", "percentage": "75.20%", "elapsed_time": "1d 22h 51m 51s", "remaining_time": "15h 27m 22s"}
{"loss": 0.56518793, "token_acc": 0.85837793, "grad_norm": 8.31190491, "learning_rate": 1.59e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095861, "epoch": 0.75219657, "global_step/max_steps": "16175/21503", "percentage": "75.22%", "elapsed_time": "1d 22h 52m 14s", "remaining_time": "15h 26m 20s"}
{"loss": 0.74269538, "token_acc": 0.8138833, "grad_norm": 7.72923231, "learning_rate": 1.58e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095877, "epoch": 0.75242909, "global_step/max_steps": "16180/21503", "percentage": "75.25%", "elapsed_time": "1d 22h 52m 37s", "remaining_time": "15h 25m 18s"}
{"loss": 0.62746639, "token_acc": 0.84268775, "grad_norm": 7.05692816, "learning_rate": 1.58e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095894, "epoch": 0.75266161, "global_step/max_steps": "16185/21503", "percentage": "75.27%", "elapsed_time": "1d 22h 53m 0s", "remaining_time": "15h 24m 17s"}
{"loss": 0.74168806, "token_acc": 0.82612872, "grad_norm": 7.35341883, "learning_rate": 1.58e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09591, "epoch": 0.75289413, "global_step/max_steps": "16190/21503", "percentage": "75.29%", "elapsed_time": "1d 22h 53m 23s", "remaining_time": "15h 23m 15s"}
{"loss": 0.54169502, "token_acc": 0.86167367, "grad_norm": 10.3845005, "learning_rate": 1.58e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095926, "epoch": 0.75312664, "global_step/max_steps": "16195/21503", "percentage": "75.32%", "elapsed_time": "1d 22h 53m 46s", "remaining_time": "15h 22m 13s"}
{"loss": 0.63713055, "token_acc": 0.842686, "grad_norm": 8.49144363, "learning_rate": 1.57e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095943, "epoch": 0.75335916, "global_step/max_steps": "16200/21503", "percentage": "75.34%", "elapsed_time": "1d 22h 54m 10s", "remaining_time": "15h 21m 12s"}
{"eval_loss": 0.56260777, "eval_runtime": 294.2238, "eval_samples_per_second": 11.811, "eval_steps_per_second": 11.811, "epoch": 0.75335916, "global_step/max_steps": "16200/21503", "percentage": "75.34%", "elapsed_time": "1d 22h 59m 4s", "remaining_time": "15h 22m 48s"}
{"loss": 0.59923306, "token_acc": 0.8337118, "grad_norm": 8.9195919, "learning_rate": 1.57e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095793, "epoch": 0.75359168, "global_step/max_steps": "16205/21503", "percentage": "75.36%", "elapsed_time": "1d 22h 59m 27s", "remaining_time": "15h 21m 46s"}
{"loss": 0.67492399, "token_acc": 0.84203297, "grad_norm": 8.25503159, "learning_rate": 1.57e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095809, "epoch": 0.7538242, "global_step/max_steps": "16210/21503", "percentage": "75.38%", "elapsed_time": "1d 22h 59m 49s", "remaining_time": "15h 20m 45s"}
{"loss": 0.64557762, "token_acc": 0.83922463, "grad_norm": 8.52231121, "learning_rate": 1.56e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095825, "epoch": 0.75405672, "global_step/max_steps": "16215/21503", "percentage": "75.41%", "elapsed_time": "1d 23h 0m 14s", "remaining_time": "15h 19m 43s"}
{"loss": 0.6254149, "token_acc": 0.83736188, "grad_norm": 8.54866123, "learning_rate": 1.56e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095842, "epoch": 0.75428924, "global_step/max_steps": "16220/21503", "percentage": "75.43%", "elapsed_time": "1d 23h 0m 37s", "remaining_time": "15h 18m 42s"}
{"loss": 0.62566371, "token_acc": 0.84217293, "grad_norm": 7.64175463, "learning_rate": 1.56e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095858, "epoch": 0.75452175, "global_step/max_steps": "16225/21503", "percentage": "75.45%", "elapsed_time": "1d 23h 1m 0s", "remaining_time": "15h 17m 40s"}
{"loss": 0.77659192, "token_acc": 0.81473354, "grad_norm": 7.49433136, "learning_rate": 1.56e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095874, "epoch": 0.75475427, "global_step/max_steps": "16230/21503", "percentage": "75.48%", "elapsed_time": "1d 23h 1m 23s", "remaining_time": "15h 16m 38s"}
{"loss": 0.77157393, "token_acc": 0.80636692, "grad_norm": 6.19007969, "learning_rate": 1.55e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095891, "epoch": 0.75498679, "global_step/max_steps": "16235/21503", "percentage": "75.50%", "elapsed_time": "1d 23h 1m 46s", "remaining_time": "15h 15m 37s"}
{"loss": 0.62552538, "token_acc": 0.84766795, "grad_norm": 9.88250065, "learning_rate": 1.55e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095907, "epoch": 0.75521931, "global_step/max_steps": "16240/21503", "percentage": "75.52%", "elapsed_time": "1d 23h 2m 9s", "remaining_time": "15h 14m 35s"}
{"loss": 0.67344146, "token_acc": 0.83557783, "grad_norm": 8.65963554, "learning_rate": 1.55e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095924, "epoch": 0.75545183, "global_step/max_steps": "16245/21503", "percentage": "75.55%", "elapsed_time": "1d 23h 2m 32s", "remaining_time": "15h 13m 34s"}
{"loss": 0.6697125, "token_acc": 0.83969728, "grad_norm": 8.26206112, "learning_rate": 1.54e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095941, "epoch": 0.75568434, "global_step/max_steps": "16250/21503", "percentage": "75.57%", "elapsed_time": "1d 23h 2m 55s", "remaining_time": "15h 12m 32s"}
{"eval_loss": 0.56376529, "eval_runtime": 293.9564, "eval_samples_per_second": 11.821, "eval_steps_per_second": 11.821, "epoch": 0.75568434, "global_step/max_steps": "16250/21503", "percentage": "75.57%", "elapsed_time": "1d 23h 7m 49s", "remaining_time": "15h 14m 7s"}
{"loss": 0.73405738, "token_acc": 0.83271776, "grad_norm": 7.4316783, "learning_rate": 1.54e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095791, "epoch": 0.75591686, "global_step/max_steps": "16255/21503", "percentage": "75.59%", "elapsed_time": "1d 23h 8m 12s", "remaining_time": "15h 13m 6s"}
{"loss": 0.6868834, "token_acc": 0.80883797, "grad_norm": 8.09665108, "learning_rate": 1.54e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095807, "epoch": 0.75614938, "global_step/max_steps": "16260/21503", "percentage": "75.62%", "elapsed_time": "1d 23h 8m 35s", "remaining_time": "15h 12m 4s"}
{"loss": 0.57521214, "token_acc": 0.85941546, "grad_norm": 8.4517355, "learning_rate": 1.54e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095824, "epoch": 0.7563819, "global_step/max_steps": "16265/21503", "percentage": "75.64%", "elapsed_time": "1d 23h 8m 57s", "remaining_time": "15h 11m 2s"}
{"loss": 0.57727127, "token_acc": 0.85179045, "grad_norm": 8.33230782, "learning_rate": 1.53e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09584, "epoch": 0.75661442, "global_step/max_steps": "16270/21503", "percentage": "75.66%", "elapsed_time": "1d 23h 9m 21s", "remaining_time": "15h 10m 1s"}
{"loss": 0.63668494, "token_acc": 0.84306714, "grad_norm": 7.69717169, "learning_rate": 1.53e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095857, "epoch": 0.75684694, "global_step/max_steps": "16275/21503", "percentage": "75.69%", "elapsed_time": "1d 23h 9m 44s", "remaining_time": "15h 8m 59s"}
{"loss": 0.5415359, "token_acc": 0.87061574, "grad_norm": 6.65643787, "learning_rate": 1.53e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095874, "epoch": 0.75707945, "global_step/max_steps": "16280/21503", "percentage": "75.71%", "elapsed_time": "1d 23h 10m 6s", "remaining_time": "15h 7m 57s"}
{"loss": 0.62828045, "token_acc": 0.85358392, "grad_norm": 10.45480442, "learning_rate": 1.53e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09589, "epoch": 0.75731197, "global_step/max_steps": "16285/21503", "percentage": "75.73%", "elapsed_time": "1d 23h 10m 29s", "remaining_time": "15h 6m 56s"}
{"loss": 0.6014308, "token_acc": 0.84384384, "grad_norm": 10.95079422, "learning_rate": 1.52e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095907, "epoch": 0.75754449, "global_step/max_steps": "16290/21503", "percentage": "75.76%", "elapsed_time": "1d 23h 10m 51s", "remaining_time": "15h 5m 54s"}
{"loss": 0.64849377, "token_acc": 0.83226837, "grad_norm": 8.46028519, "learning_rate": 1.52e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095924, "epoch": 0.75777701, "global_step/max_steps": "16295/21503", "percentage": "75.78%", "elapsed_time": "1d 23h 11m 14s", "remaining_time": "15h 4m 53s"}
{"loss": 0.74547739, "token_acc": 0.81061947, "grad_norm": 9.40495396, "learning_rate": 1.52e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09594, "epoch": 0.75800953, "global_step/max_steps": "16300/21503", "percentage": "75.80%", "elapsed_time": "1d 23h 11m 37s", "remaining_time": "15h 3m 51s"}
{"eval_loss": 0.56258702, "eval_runtime": 293.7911, "eval_samples_per_second": 11.828, "eval_steps_per_second": 11.828, "epoch": 0.75800953, "global_step/max_steps": "16300/21503", "percentage": "75.80%", "elapsed_time": "1d 23h 16m 31s", "remaining_time": "15h 5m 25s"}
{"loss": 0.62045808, "token_acc": 0.83395203, "grad_norm": 7.18881035, "learning_rate": 1.51e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095791, "epoch": 0.75824205, "global_step/max_steps": "16305/21503", "percentage": "75.83%", "elapsed_time": "1d 23h 16m 54s", "remaining_time": "15h 4m 24s"}
{"loss": 0.66773744, "token_acc": 0.82742931, "grad_norm": 10.46860504, "learning_rate": 1.51e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095807, "epoch": 0.75847456, "global_step/max_steps": "16310/21503", "percentage": "75.85%", "elapsed_time": "1d 23h 17m 17s", "remaining_time": "15h 3m 22s"}
{"loss": 0.61373634, "token_acc": 0.8480924, "grad_norm": 12.96751499, "learning_rate": 1.51e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095824, "epoch": 0.75870708, "global_step/max_steps": "16315/21503", "percentage": "75.87%", "elapsed_time": "1d 23h 17m 40s", "remaining_time": "15h 2m 21s"}
{"loss": 0.744735, "token_acc": 0.81650165, "grad_norm": 6.79563951, "learning_rate": 1.51e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09584, "epoch": 0.7589396, "global_step/max_steps": "16320/21503", "percentage": "75.90%", "elapsed_time": "1d 23h 18m 3s", "remaining_time": "15h 1m 19s"}
{"loss": 0.60215702, "token_acc": 0.84909671, "grad_norm": 8.06355667, "learning_rate": 1.5e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095856, "epoch": 0.75917212, "global_step/max_steps": "16325/21503", "percentage": "75.92%", "elapsed_time": "1d 23h 18m 27s", "remaining_time": "15h 0m 18s"}
{"loss": 0.5568656, "token_acc": 0.86354542, "grad_norm": 7.1797576, "learning_rate": 1.5e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095872, "epoch": 0.75940464, "global_step/max_steps": "16330/21503", "percentage": "75.94%", "elapsed_time": "1d 23h 18m 50s", "remaining_time": "14h 59m 17s"}
{"loss": 0.58658462, "token_acc": 0.85242654, "grad_norm": 5.94771814, "learning_rate": 1.5e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095888, "epoch": 0.75963716, "global_step/max_steps": "16335/21503", "percentage": "75.97%", "elapsed_time": "1d 23h 19m 14s", "remaining_time": "14h 58m 16s"}
{"loss": 0.52022834, "token_acc": 0.86889154, "grad_norm": 7.10080767, "learning_rate": 1.5e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095905, "epoch": 0.75986967, "global_step/max_steps": "16340/21503", "percentage": "75.99%", "elapsed_time": "1d 23h 19m 37s", "remaining_time": "14h 57m 14s"}
{"loss": 0.61015978, "token_acc": 0.8434629, "grad_norm": 11.71853733, "learning_rate": 1.49e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095921, "epoch": 0.76010219, "global_step/max_steps": "16345/21503", "percentage": "76.01%", "elapsed_time": "1d 23h 20m 0s", "remaining_time": "14h 56m 13s"}
{"loss": 0.74672146, "token_acc": 0.81112637, "grad_norm": 10.82721329, "learning_rate": 1.49e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095937, "epoch": 0.76033471, "global_step/max_steps": "16350/21503", "percentage": "76.04%", "elapsed_time": "1d 23h 20m 24s", "remaining_time": "14h 55m 12s"}
{"eval_loss": 0.56252211, "eval_runtime": 293.4663, "eval_samples_per_second": 11.841, "eval_steps_per_second": 11.841, "epoch": 0.76033471, "global_step/max_steps": "16350/21503", "percentage": "76.04%", "elapsed_time": "1d 23h 25m 18s", "remaining_time": "14h 56m 44s"}
{"loss": 0.64834309, "token_acc": 0.83339201, "grad_norm": 6.72618246, "learning_rate": 1.49e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095788, "epoch": 0.76056723, "global_step/max_steps": "16355/21503", "percentage": "76.06%", "elapsed_time": "1d 23h 25m 41s", "remaining_time": "14h 55m 43s"}
{"loss": 0.58267946, "token_acc": 0.85650558, "grad_norm": 9.85825539, "learning_rate": 1.48e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095804, "epoch": 0.76079975, "global_step/max_steps": "16360/21503", "percentage": "76.08%", "elapsed_time": "1d 23h 26m 4s", "remaining_time": "14h 54m 42s"}
{"loss": 0.63931174, "token_acc": 0.84597365, "grad_norm": 6.0644145, "learning_rate": 1.48e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095821, "epoch": 0.76103226, "global_step/max_steps": "16365/21503", "percentage": "76.11%", "elapsed_time": "1d 23h 26m 27s", "remaining_time": "14h 53m 40s"}
{"loss": 0.55280046, "token_acc": 0.87088157, "grad_norm": 8.90199471, "learning_rate": 1.48e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095838, "epoch": 0.76126478, "global_step/max_steps": "16370/21503", "percentage": "76.13%", "elapsed_time": "1d 23h 26m 49s", "remaining_time": "14h 52m 39s"}
{"loss": 0.53745508, "token_acc": 0.86764706, "grad_norm": 10.54874802, "learning_rate": 1.48e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095854, "epoch": 0.7614973, "global_step/max_steps": "16375/21503", "percentage": "76.15%", "elapsed_time": "1d 23h 27m 12s", "remaining_time": "14h 51m 38s"}
{"loss": 0.75310125, "token_acc": 0.82099698, "grad_norm": 8.56450176, "learning_rate": 1.47e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09587, "epoch": 0.76172982, "global_step/max_steps": "16380/21503", "percentage": "76.18%", "elapsed_time": "1d 23h 27m 36s", "remaining_time": "14h 50m 36s"}
{"loss": 0.60962167, "token_acc": 0.84167289, "grad_norm": 7.5661025, "learning_rate": 1.47e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095886, "epoch": 0.76196234, "global_step/max_steps": "16385/21503", "percentage": "76.20%", "elapsed_time": "1d 23h 27m 59s", "remaining_time": "14h 49m 35s"}
{"loss": 0.64812875, "token_acc": 0.8470255, "grad_norm": 9.33034325, "learning_rate": 1.47e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095903, "epoch": 0.76219486, "global_step/max_steps": "16390/21503", "percentage": "76.22%", "elapsed_time": "1d 23h 28m 21s", "remaining_time": "14h 48m 34s"}
{"loss": 0.61929498, "token_acc": 0.84596229, "grad_norm": 11.43049145, "learning_rate": 1.47e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095919, "epoch": 0.76242737, "global_step/max_steps": "16395/21503", "percentage": "76.25%", "elapsed_time": "1d 23h 28m 45s", "remaining_time": "14h 47m 33s"}
{"loss": 0.76837153, "token_acc": 0.82299349, "grad_norm": 11.15816784, "learning_rate": 1.46e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095936, "epoch": 0.76265989, "global_step/max_steps": "16400/21503", "percentage": "76.27%", "elapsed_time": "1d 23h 29m 7s", "remaining_time": "14h 46m 31s"}
{"eval_loss": 0.56307083, "eval_runtime": 293.6494, "eval_samples_per_second": 11.834, "eval_steps_per_second": 11.834, "epoch": 0.76265989, "global_step/max_steps": "16400/21503", "percentage": "76.27%", "elapsed_time": "1d 23h 34m 1s", "remaining_time": "14h 48m 3s"}
{"loss": 0.67368078, "token_acc": 0.83320212, "grad_norm": 7.21604156, "learning_rate": 1.46e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095787, "epoch": 0.76289241, "global_step/max_steps": "16405/21503", "percentage": "76.29%", "elapsed_time": "1d 23h 34m 25s", "remaining_time": "14h 47m 2s"}
{"loss": 0.64050074, "token_acc": 0.83855083, "grad_norm": 9.32470512, "learning_rate": 1.46e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095803, "epoch": 0.76312493, "global_step/max_steps": "16410/21503", "percentage": "76.31%", "elapsed_time": "1d 23h 34m 48s", "remaining_time": "14h 46m 0s"}
{"loss": 0.7190702, "token_acc": 0.81798002, "grad_norm": 4.80824471, "learning_rate": 1.45e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095819, "epoch": 0.76335745, "global_step/max_steps": "16415/21503", "percentage": "76.34%", "elapsed_time": "1d 23h 35m 11s", "remaining_time": "14h 44m 59s"}
{"loss": 0.54686093, "token_acc": 0.8678557, "grad_norm": 9.507864, "learning_rate": 1.45e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095836, "epoch": 0.76358997, "global_step/max_steps": "16420/21503", "percentage": "76.36%", "elapsed_time": "1d 23h 35m 34s", "remaining_time": "14h 43m 58s"}
{"loss": 0.71337776, "token_acc": 0.82641509, "grad_norm": 8.98010921, "learning_rate": 1.45e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095852, "epoch": 0.76382248, "global_step/max_steps": "16425/21503", "percentage": "76.38%", "elapsed_time": "1d 23h 35m 57s", "remaining_time": "14h 42m 57s"}
{"loss": 0.68076663, "token_acc": 0.83315659, "grad_norm": 7.25274897, "learning_rate": 1.45e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095869, "epoch": 0.764055, "global_step/max_steps": "16430/21503", "percentage": "76.41%", "elapsed_time": "1d 23h 36m 19s", "remaining_time": "14h 41m 55s"}
{"loss": 0.5628366, "token_acc": 0.85309973, "grad_norm": 7.0165205, "learning_rate": 1.44e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095885, "epoch": 0.76428752, "global_step/max_steps": "16435/21503", "percentage": "76.43%", "elapsed_time": "1d 23h 36m 42s", "remaining_time": "14h 40m 54s"}
{"loss": 0.66371398, "token_acc": 0.82764811, "grad_norm": 7.27908325, "learning_rate": 1.44e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095902, "epoch": 0.76452004, "global_step/max_steps": "16440/21503", "percentage": "76.45%", "elapsed_time": "1d 23h 37m 4s", "remaining_time": "14h 39m 53s"}
{"loss": 0.55013266, "token_acc": 0.86550492, "grad_norm": 8.89866829, "learning_rate": 1.44e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095919, "epoch": 0.76475256, "global_step/max_steps": "16445/21503", "percentage": "76.48%", "elapsed_time": "1d 23h 37m 27s", "remaining_time": "14h 38m 52s"}
{"loss": 0.78553753, "token_acc": 0.81183388, "grad_norm": 7.709764, "learning_rate": 1.44e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095935, "epoch": 0.76498508, "global_step/max_steps": "16450/21503", "percentage": "76.50%", "elapsed_time": "1d 23h 37m 50s", "remaining_time": "14h 37m 51s"}
{"eval_loss": 0.56365389, "eval_runtime": 296.5811, "eval_samples_per_second": 11.717, "eval_steps_per_second": 11.717, "epoch": 0.76498508, "global_step/max_steps": "16450/21503", "percentage": "76.50%", "elapsed_time": "1d 23h 42m 46s", "remaining_time": "14h 39m 22s"}
{"loss": 0.71872239, "token_acc": 0.83276037, "grad_norm": 6.8517127, "learning_rate": 1.43e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095786, "epoch": 0.76521759, "global_step/max_steps": "16455/21503", "percentage": "76.52%", "elapsed_time": "1d 23h 43m 9s", "remaining_time": "14h 38m 20s"}
{"loss": 0.58325219, "token_acc": 0.86348267, "grad_norm": 6.914289, "learning_rate": 1.43e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095802, "epoch": 0.76545011, "global_step/max_steps": "16460/21503", "percentage": "76.55%", "elapsed_time": "1d 23h 43m 32s", "remaining_time": "14h 37m 19s"}
{"loss": 0.70054069, "token_acc": 0.84029108, "grad_norm": 7.56882381, "learning_rate": 1.43e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095818, "epoch": 0.76568263, "global_step/max_steps": "16465/21503", "percentage": "76.57%", "elapsed_time": "1d 23h 43m 55s", "remaining_time": "14h 36m 18s"}
{"loss": 0.60360804, "token_acc": 0.84385142, "grad_norm": 7.5363512, "learning_rate": 1.42e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095835, "epoch": 0.76591515, "global_step/max_steps": "16470/21503", "percentage": "76.59%", "elapsed_time": "1d 23h 44m 18s", "remaining_time": "14h 35m 17s"}
{"loss": 0.73307667, "token_acc": 0.81869159, "grad_norm": 7.14950037, "learning_rate": 1.42e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095851, "epoch": 0.76614767, "global_step/max_steps": "16475/21503", "percentage": "76.62%", "elapsed_time": "1d 23h 44m 41s", "remaining_time": "14h 34m 16s"}
{"loss": 0.76015019, "token_acc": 0.82122905, "grad_norm": 11.84374905, "learning_rate": 1.42e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095867, "epoch": 0.76638018, "global_step/max_steps": "16480/21503", "percentage": "76.64%", "elapsed_time": "1d 23h 45m 4s", "remaining_time": "14h 33m 15s"}
{"loss": 0.65968828, "token_acc": 0.83795918, "grad_norm": 8.46166706, "learning_rate": 1.42e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095884, "epoch": 0.7666127, "global_step/max_steps": "16485/21503", "percentage": "76.66%", "elapsed_time": "1d 23h 45m 26s", "remaining_time": "14h 32m 14s"}
{"loss": 0.7091259, "token_acc": 0.84475339, "grad_norm": 8.52076244, "learning_rate": 1.41e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.0959, "epoch": 0.76684522, "global_step/max_steps": "16490/21503", "percentage": "76.69%", "elapsed_time": "1d 23h 45m 48s", "remaining_time": "14h 31m 12s"}
{"loss": 0.56400762, "token_acc": 0.85225225, "grad_norm": 8.5650444, "learning_rate": 1.41e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095917, "epoch": 0.76707774, "global_step/max_steps": "16495/21503", "percentage": "76.71%", "elapsed_time": "1d 23h 46m 11s", "remaining_time": "14h 30m 11s"}
{"loss": 0.68886652, "token_acc": 0.82751469, "grad_norm": 7.39613867, "learning_rate": 1.41e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095934, "epoch": 0.76731026, "global_step/max_steps": "16500/21503", "percentage": "76.73%", "elapsed_time": "1d 23h 46m 33s", "remaining_time": "14h 29m 10s"}
{"eval_loss": 0.56210619, "eval_runtime": 291.388, "eval_samples_per_second": 11.926, "eval_steps_per_second": 11.926, "epoch": 0.76731026, "global_step/max_steps": "16500/21503", "percentage": "76.73%", "elapsed_time": "1d 23h 51m 25s", "remaining_time": "14h 30m 38s"}
{"loss": 0.70775394, "token_acc": 0.83328534, "grad_norm": 6.648314, "learning_rate": 1.41e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095787, "epoch": 0.76754278, "global_step/max_steps": "16505/21503", "percentage": "76.76%", "elapsed_time": "1d 23h 51m 49s", "remaining_time": "14h 29m 38s"}
{"loss": 0.69658709, "token_acc": 0.82252922, "grad_norm": 8.78261375, "learning_rate": 1.4e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095803, "epoch": 0.76777529, "global_step/max_steps": "16510/21503", "percentage": "76.78%", "elapsed_time": "1d 23h 52m 12s", "remaining_time": "14h 28m 37s"}
{"loss": 0.6986589, "token_acc": 0.81776275, "grad_norm": 7.74323654, "learning_rate": 1.4e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095819, "epoch": 0.76800781, "global_step/max_steps": "16515/21503", "percentage": "76.80%", "elapsed_time": "1d 23h 52m 36s", "remaining_time": "14h 27m 36s"}
{"loss": 0.62763772, "token_acc": 0.83224756, "grad_norm": 6.12365007, "learning_rate": 1.4e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095835, "epoch": 0.76824033, "global_step/max_steps": "16520/21503", "percentage": "76.83%", "elapsed_time": "1d 23h 52m 59s", "remaining_time": "14h 26m 35s"}
{"loss": 0.53561873, "token_acc": 0.87377964, "grad_norm": 7.92333221, "learning_rate": 1.4e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095851, "epoch": 0.76847285, "global_step/max_steps": "16525/21503", "percentage": "76.85%", "elapsed_time": "1d 23h 53m 22s", "remaining_time": "14h 25m 34s"}
{"loss": 0.70260696, "token_acc": 0.8280543, "grad_norm": 9.7987318, "learning_rate": 1.39e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095868, "epoch": 0.76870537, "global_step/max_steps": "16530/21503", "percentage": "76.87%", "elapsed_time": "1d 23h 53m 44s", "remaining_time": "14h 24m 33s"}
{"loss": 0.68179412, "token_acc": 0.82119878, "grad_norm": 8.68035507, "learning_rate": 1.39e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095884, "epoch": 0.76893789, "global_step/max_steps": "16535/21503", "percentage": "76.90%", "elapsed_time": "1d 23h 54m 7s", "remaining_time": "14h 23m 32s"}
{"loss": 0.62169442, "token_acc": 0.84337718, "grad_norm": 6.33102369, "learning_rate": 1.39e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.0959, "epoch": 0.7691704, "global_step/max_steps": "16540/21503", "percentage": "76.92%", "elapsed_time": "1d 23h 54m 31s", "remaining_time": "14h 22m 31s"}
{"loss": 0.82393742, "token_acc": 0.79354238, "grad_norm": 9.73369122, "learning_rate": 1.38e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095916, "epoch": 0.76940292, "global_step/max_steps": "16545/21503", "percentage": "76.94%", "elapsed_time": "1d 23h 54m 55s", "remaining_time": "14h 21m 31s"}
{"loss": 0.60253367, "token_acc": 0.84384, "grad_norm": 7.86898947, "learning_rate": 1.38e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095932, "epoch": 0.76963544, "global_step/max_steps": "16550/21503", "percentage": "76.97%", "elapsed_time": "1d 23h 55m 17s", "remaining_time": "14h 20m 30s"}
{"eval_loss": 0.56394368, "eval_runtime": 295.1839, "eval_samples_per_second": 11.772, "eval_steps_per_second": 11.772, "epoch": 0.76963544, "global_step/max_steps": "16550/21503", "percentage": "76.97%", "elapsed_time": "2d 0h 0m 13s", "remaining_time": "14h 21m 58s"}
{"loss": 0.6521915, "token_acc": 0.83311476, "grad_norm": 7.42732096, "learning_rate": 1.38e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095783, "epoch": 0.76986796, "global_step/max_steps": "16555/21503", "percentage": "76.99%", "elapsed_time": "2d 0h 0m 37s", "remaining_time": "14h 20m 58s"}
{"loss": 0.56463494, "token_acc": 0.84663646, "grad_norm": 8.59467983, "learning_rate": 1.38e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.0958, "epoch": 0.77010048, "global_step/max_steps": "16560/21503", "percentage": "77.01%", "elapsed_time": "2d 0h 1m 0s", "remaining_time": "14h 19m 57s"}
{"loss": 0.69215002, "token_acc": 0.82747489, "grad_norm": 8.93275452, "learning_rate": 1.37e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095815, "epoch": 0.770333, "global_step/max_steps": "16565/21503", "percentage": "77.04%", "elapsed_time": "2d 0h 1m 24s", "remaining_time": "14h 18m 56s"}
{"loss": 0.83883581, "token_acc": 0.79072498, "grad_norm": 6.56334639, "learning_rate": 1.37e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095832, "epoch": 0.77056551, "global_step/max_steps": "16570/21503", "percentage": "77.06%", "elapsed_time": "2d 0h 1m 47s", "remaining_time": "14h 17m 55s"}
{"loss": 0.62885962, "token_acc": 0.84232523, "grad_norm": 9.96120644, "learning_rate": 1.37e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095848, "epoch": 0.77079803, "global_step/max_steps": "16575/21503", "percentage": "77.08%", "elapsed_time": "2d 0h 2m 10s", "remaining_time": "14h 16m 54s"}
{"loss": 0.71086187, "token_acc": 0.82605558, "grad_norm": 5.87946367, "learning_rate": 1.37e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095863, "epoch": 0.77103055, "global_step/max_steps": "16580/21503", "percentage": "77.11%", "elapsed_time": "2d 0h 2m 34s", "remaining_time": "14h 15m 54s"}
{"loss": 0.66454353, "token_acc": 0.83663584, "grad_norm": 7.27499914, "learning_rate": 1.36e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095879, "epoch": 0.77126307, "global_step/max_steps": "16585/21503", "percentage": "77.13%", "elapsed_time": "2d 0h 2m 58s", "remaining_time": "14h 14m 53s"}
{"loss": 0.58541842, "token_acc": 0.84065156, "grad_norm": 8.00933361, "learning_rate": 1.36e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095895, "epoch": 0.77149559, "global_step/max_steps": "16590/21503", "percentage": "77.15%", "elapsed_time": "2d 0h 3m 20s", "remaining_time": "14h 13m 52s"}
{"loss": 0.69074349, "token_acc": 0.81842105, "grad_norm": 9.38066006, "learning_rate": 1.36e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095912, "epoch": 0.7717281, "global_step/max_steps": "16595/21503", "percentage": "77.18%", "elapsed_time": "2d 0h 3m 43s", "remaining_time": "14h 12m 52s"}
{"loss": 0.60521903, "token_acc": 0.84609375, "grad_norm": 7.91265535, "learning_rate": 1.36e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095928, "epoch": 0.77196062, "global_step/max_steps": "16600/21503", "percentage": "77.20%", "elapsed_time": "2d 0h 4m 6s", "remaining_time": "14h 11m 51s"}
{"eval_loss": 0.56138295, "eval_runtime": 292.7757, "eval_samples_per_second": 11.869, "eval_steps_per_second": 11.869, "epoch": 0.77196062, "global_step/max_steps": "16600/21503", "percentage": "77.20%", "elapsed_time": "2d 0h 8m 58s", "remaining_time": "14h 13m 17s"}
{"loss": 0.85871372, "token_acc": 0.83180836, "grad_norm": 8.54576588, "learning_rate": 1.35e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095782, "epoch": 0.77219314, "global_step/max_steps": "16605/21503", "percentage": "77.22%", "elapsed_time": "2d 0h 9m 22s", "remaining_time": "14h 12m 17s"}
{"loss": 0.68085017, "token_acc": 0.8245234, "grad_norm": 9.21217346, "learning_rate": 1.35e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095797, "epoch": 0.77242566, "global_step/max_steps": "16610/21503", "percentage": "77.25%", "elapsed_time": "2d 0h 9m 46s", "remaining_time": "14h 11m 16s"}
{"loss": 0.61664586, "token_acc": 0.84337349, "grad_norm": 7.88150358, "learning_rate": 1.35e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095814, "epoch": 0.77265818, "global_step/max_steps": "16615/21503", "percentage": "77.27%", "elapsed_time": "2d 0h 10m 9s", "remaining_time": "14h 10m 15s"}
{"loss": 0.60469995, "token_acc": 0.85127836, "grad_norm": 9.11475754, "learning_rate": 1.34e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09583, "epoch": 0.7728907, "global_step/max_steps": "16620/21503", "percentage": "77.29%", "elapsed_time": "2d 0h 10m 31s", "remaining_time": "14h 9m 14s"}
{"loss": 0.58142796, "token_acc": 0.84418212, "grad_norm": 8.17210674, "learning_rate": 1.34e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095846, "epoch": 0.77312321, "global_step/max_steps": "16625/21503", "percentage": "77.31%", "elapsed_time": "2d 0h 10m 54s", "remaining_time": "14h 8m 13s"}
{"loss": 0.58384552, "token_acc": 0.84536082, "grad_norm": 6.11977291, "learning_rate": 1.34e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095862, "epoch": 0.77335573, "global_step/max_steps": "16630/21503", "percentage": "77.34%", "elapsed_time": "2d 0h 11m 17s", "remaining_time": "14h 7m 13s"}
{"loss": 0.6670856, "token_acc": 0.84054431, "grad_norm": 9.69375324, "learning_rate": 1.34e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095879, "epoch": 0.77358825, "global_step/max_steps": "16635/21503", "percentage": "77.36%", "elapsed_time": "2d 0h 11m 40s", "remaining_time": "14h 6m 12s"}
{"loss": 0.69589024, "token_acc": 0.8172003, "grad_norm": 10.94957256, "learning_rate": 1.33e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095895, "epoch": 0.77382077, "global_step/max_steps": "16640/21503", "percentage": "77.38%", "elapsed_time": "2d 0h 12m 3s", "remaining_time": "14h 5m 11s"}
{"loss": 0.52980084, "token_acc": 0.85075529, "grad_norm": 6.8215704, "learning_rate": 1.33e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095911, "epoch": 0.77405329, "global_step/max_steps": "16645/21503", "percentage": "77.41%", "elapsed_time": "2d 0h 12m 25s", "remaining_time": "14h 4m 11s"}
{"loss": 0.63416114, "token_acc": 0.83905365, "grad_norm": 8.83475304, "learning_rate": 1.33e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095927, "epoch": 0.77428581, "global_step/max_steps": "16650/21503", "percentage": "77.43%", "elapsed_time": "2d 0h 12m 49s", "remaining_time": "14h 3m 10s"}
{"eval_loss": 0.56212342, "eval_runtime": 295.7835, "eval_samples_per_second": 11.748, "eval_steps_per_second": 11.748, "epoch": 0.77428581, "global_step/max_steps": "16650/21503", "percentage": "77.43%", "elapsed_time": "2d 0h 17m 45s", "remaining_time": "14h 4m 36s"}
{"loss": 0.63531337, "token_acc": 0.83383291, "grad_norm": 6.88567162, "learning_rate": 1.33e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09578, "epoch": 0.77451832, "global_step/max_steps": "16655/21503", "percentage": "77.45%", "elapsed_time": "2d 0h 18m 8s", "remaining_time": "14h 3m 36s"}
{"loss": 0.80556116, "token_acc": 0.79884534, "grad_norm": 6.53018904, "learning_rate": 1.32e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095796, "epoch": 0.77475084, "global_step/max_steps": "16660/21503", "percentage": "77.48%", "elapsed_time": "2d 0h 18m 31s", "remaining_time": "14h 2m 35s"}
{"loss": 0.66558475, "token_acc": 0.85083056, "grad_norm": 8.83742714, "learning_rate": 1.32e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095812, "epoch": 0.77498336, "global_step/max_steps": "16665/21503", "percentage": "77.50%", "elapsed_time": "2d 0h 18m 54s", "remaining_time": "14h 1m 34s"}
{"loss": 0.52332287, "token_acc": 0.872, "grad_norm": 6.30033207, "learning_rate": 1.32e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095828, "epoch": 0.77521588, "global_step/max_steps": "16670/21503", "percentage": "77.52%", "elapsed_time": "2d 0h 19m 16s", "remaining_time": "14h 0m 33s"}
{"loss": 0.80384836, "token_acc": 0.79613734, "grad_norm": 6.99478149, "learning_rate": 1.32e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095844, "epoch": 0.7754484, "global_step/max_steps": "16675/21503", "percentage": "77.55%", "elapsed_time": "2d 0h 19m 40s", "remaining_time": "13h 59m 33s"}
{"loss": 0.61161203, "token_acc": 0.84173564, "grad_norm": 7.42997456, "learning_rate": 1.31e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09586, "epoch": 0.77568092, "global_step/max_steps": "16680/21503", "percentage": "77.57%", "elapsed_time": "2d 0h 20m 3s", "remaining_time": "13h 58m 32s"}
{"loss": 0.59533205, "token_acc": 0.8514371, "grad_norm": 9.19026947, "learning_rate": 1.31e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095876, "epoch": 0.77591343, "global_step/max_steps": "16685/21503", "percentage": "77.59%", "elapsed_time": "2d 0h 20m 26s", "remaining_time": "13h 57m 32s"}
{"loss": 0.6601594, "token_acc": 0.82910798, "grad_norm": 8.54018593, "learning_rate": 1.31e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095892, "epoch": 0.77614595, "global_step/max_steps": "16690/21503", "percentage": "77.62%", "elapsed_time": "2d 0h 20m 49s", "remaining_time": "13h 56m 31s"}
{"loss": 0.59456363, "token_acc": 0.8420712, "grad_norm": 7.57883501, "learning_rate": 1.31e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095908, "epoch": 0.77637847, "global_step/max_steps": "16695/21503", "percentage": "77.64%", "elapsed_time": "2d 0h 21m 12s", "remaining_time": "13h 55m 31s"}
{"loss": 0.70086589, "token_acc": 0.81547619, "grad_norm": 6.72723722, "learning_rate": 1.3e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095924, "epoch": 0.77661099, "global_step/max_steps": "16700/21503", "percentage": "77.66%", "elapsed_time": "2d 0h 21m 35s", "remaining_time": "13h 54m 30s"}
{"eval_loss": 0.56219602, "eval_runtime": 295.9438, "eval_samples_per_second": 11.742, "eval_steps_per_second": 11.742, "epoch": 0.77661099, "global_step/max_steps": "16700/21503", "percentage": "77.66%", "elapsed_time": "2d 0h 26m 31s", "remaining_time": "13h 55m 55s"}
{"loss": 0.59424977, "token_acc": 0.83388946, "grad_norm": 7.4249053, "learning_rate": 1.3e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095777, "epoch": 0.77684351, "global_step/max_steps": "16705/21503", "percentage": "77.69%", "elapsed_time": "2d 0h 26m 55s", "remaining_time": "13h 54m 55s"}
{"loss": 0.77484264, "token_acc": 0.80646247, "grad_norm": 8.60203648, "learning_rate": 1.3e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095793, "epoch": 0.77707602, "global_step/max_steps": "16710/21503", "percentage": "77.71%", "elapsed_time": "2d 0h 27m 19s", "remaining_time": "13h 53m 55s"}
{"loss": 0.64516973, "token_acc": 0.83277342, "grad_norm": 10.39738846, "learning_rate": 1.3e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095808, "epoch": 0.77730854, "global_step/max_steps": "16715/21503", "percentage": "77.73%", "elapsed_time": "2d 0h 27m 42s", "remaining_time": "13h 52m 54s"}
{"loss": 0.62783756, "token_acc": 0.85670835, "grad_norm": 9.09061909, "learning_rate": 1.29e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095825, "epoch": 0.77754106, "global_step/max_steps": "16720/21503", "percentage": "77.76%", "elapsed_time": "2d 0h 28m 4s", "remaining_time": "13h 51m 53s"}
{"loss": 0.62248855, "token_acc": 0.83990318, "grad_norm": 6.7066412, "learning_rate": 1.29e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095841, "epoch": 0.77777358, "global_step/max_steps": "16725/21503", "percentage": "77.78%", "elapsed_time": "2d 0h 28m 27s", "remaining_time": "13h 50m 53s"}
{"loss": 0.66434011, "token_acc": 0.83264803, "grad_norm": 8.71819592, "learning_rate": 1.29e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095857, "epoch": 0.7780061, "global_step/max_steps": "16730/21503", "percentage": "77.80%", "elapsed_time": "2d 0h 28m 50s", "remaining_time": "13h 49m 52s"}
{"loss": 0.7027626, "token_acc": 0.8238441, "grad_norm": 8.24160194, "learning_rate": 1.29e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095873, "epoch": 0.77823862, "global_step/max_steps": "16735/21503", "percentage": "77.83%", "elapsed_time": "2d 0h 29m 13s", "remaining_time": "13h 48m 52s"}
{"loss": 0.61839833, "token_acc": 0.83874016, "grad_norm": 6.70403671, "learning_rate": 1.28e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095889, "epoch": 0.77847113, "global_step/max_steps": "16740/21503", "percentage": "77.85%", "elapsed_time": "2d 0h 29m 37s", "remaining_time": "13h 47m 52s"}
{"loss": 0.69943924, "token_acc": 0.8196496, "grad_norm": 7.66403151, "learning_rate": 1.28e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095904, "epoch": 0.77870365, "global_step/max_steps": "16745/21503", "percentage": "77.87%", "elapsed_time": "2d 0h 30m 0s", "remaining_time": "13h 46m 51s"}
{"loss": 0.72047853, "token_acc": 0.82097187, "grad_norm": 10.4188385, "learning_rate": 1.28e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09592, "epoch": 0.77893617, "global_step/max_steps": "16750/21503", "percentage": "77.90%", "elapsed_time": "2d 0h 30m 24s", "remaining_time": "13h 45m 51s"}
{"eval_loss": 0.56339943, "eval_runtime": 293.6917, "eval_samples_per_second": 11.832, "eval_steps_per_second": 11.832, "epoch": 0.77893617, "global_step/max_steps": "16750/21503", "percentage": "77.90%", "elapsed_time": "2d 0h 35m 17s", "remaining_time": "13h 47m 14s"}
{"loss": 0.60942631, "token_acc": 0.83369559, "grad_norm": 7.19098759, "learning_rate": 1.27e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095774, "epoch": 0.77916869, "global_step/max_steps": "16755/21503", "percentage": "77.92%", "elapsed_time": "2d 0h 35m 42s", "remaining_time": "13h 46m 14s"}
{"loss": 0.68891706, "token_acc": 0.82878271, "grad_norm": 9.65778542, "learning_rate": 1.27e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09579, "epoch": 0.77940121, "global_step/max_steps": "16760/21503", "percentage": "77.94%", "elapsed_time": "2d 0h 36m 5s", "remaining_time": "13h 45m 14s"}
{"loss": 0.67452965, "token_acc": 0.8335175, "grad_norm": 10.18605232, "learning_rate": 1.27e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095806, "epoch": 0.77963373, "global_step/max_steps": "16765/21503", "percentage": "77.97%", "elapsed_time": "2d 0h 36m 28s", "remaining_time": "13h 44m 13s"}
{"loss": 0.6191123, "token_acc": 0.85780201, "grad_norm": 9.89356136, "learning_rate": 1.27e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095822, "epoch": 0.77986624, "global_step/max_steps": "16770/21503", "percentage": "77.99%", "elapsed_time": "2d 0h 36m 50s", "remaining_time": "13h 43m 13s"}
{"loss": 0.66383729, "token_acc": 0.83195706, "grad_norm": 11.5168066, "learning_rate": 1.26e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095839, "epoch": 0.78009876, "global_step/max_steps": "16775/21503", "percentage": "78.01%", "elapsed_time": "2d 0h 37m 13s", "remaining_time": "13h 42m 12s"}
{"loss": 0.64834089, "token_acc": 0.83282141, "grad_norm": 10.24295807, "learning_rate": 1.26e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095855, "epoch": 0.78033128, "global_step/max_steps": "16780/21503", "percentage": "78.04%", "elapsed_time": "2d 0h 37m 36s", "remaining_time": "13h 41m 12s"}
{"loss": 0.63382864, "token_acc": 0.84782609, "grad_norm": 11.26280403, "learning_rate": 1.26e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095871, "epoch": 0.7805638, "global_step/max_steps": "16785/21503", "percentage": "78.06%", "elapsed_time": "2d 0h 37m 59s", "remaining_time": "13h 40m 11s"}
{"loss": 0.60819736, "token_acc": 0.84906937, "grad_norm": 6.66055012, "learning_rate": 1.26e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095887, "epoch": 0.78079632, "global_step/max_steps": "16790/21503", "percentage": "78.08%", "elapsed_time": "2d 0h 38m 22s", "remaining_time": "13h 39m 11s"}
{"loss": 0.60358891, "token_acc": 0.86079792, "grad_norm": 9.49515152, "learning_rate": 1.25e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095902, "epoch": 0.78102884, "global_step/max_steps": "16795/21503", "percentage": "78.11%", "elapsed_time": "2d 0h 38m 45s", "remaining_time": "13h 38m 11s"}
{"loss": 0.57943335, "token_acc": 0.85811623, "grad_norm": 8.45023251, "learning_rate": 1.25e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095918, "epoch": 0.78126135, "global_step/max_steps": "16800/21503", "percentage": "78.13%", "elapsed_time": "2d 0h 39m 9s", "remaining_time": "13h 37m 11s"}
{"eval_loss": 0.56149632, "eval_runtime": 296.7538, "eval_samples_per_second": 11.71, "eval_steps_per_second": 11.71, "epoch": 0.78126135, "global_step/max_steps": "16800/21503", "percentage": "78.13%", "elapsed_time": "2d 0h 44m 5s", "remaining_time": "13h 38m 34s"}
{"loss": 0.63521147, "token_acc": 0.83358454, "grad_norm": 8.02895546, "learning_rate": 1.25e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095771, "epoch": 0.78149387, "global_step/max_steps": "16805/21503", "percentage": "78.15%", "elapsed_time": "2d 0h 44m 30s", "remaining_time": "13h 37m 34s"}
{"loss": 0.87444143, "token_acc": 0.8024602, "grad_norm": 10.28671169, "learning_rate": 1.25e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095787, "epoch": 0.78172639, "global_step/max_steps": "16810/21503", "percentage": "78.18%", "elapsed_time": "2d 0h 44m 52s", "remaining_time": "13h 36m 33s"}
{"loss": 0.59195313, "token_acc": 0.85328467, "grad_norm": 10.46330357, "learning_rate": 1.24e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095803, "epoch": 0.78195891, "global_step/max_steps": "16815/21503", "percentage": "78.20%", "elapsed_time": "2d 0h 45m 16s", "remaining_time": "13h 35m 33s"}
{"loss": 0.63758688, "token_acc": 0.84846093, "grad_norm": 12.79599094, "learning_rate": 1.24e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095819, "epoch": 0.78219143, "global_step/max_steps": "16820/21503", "percentage": "78.22%", "elapsed_time": "2d 0h 45m 39s", "remaining_time": "13h 34m 33s"}
{"loss": 0.64982257, "token_acc": 0.84247104, "grad_norm": 7.51990128, "learning_rate": 1.24e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095834, "epoch": 0.78242394, "global_step/max_steps": "16825/21503", "percentage": "78.24%", "elapsed_time": "2d 0h 46m 2s", "remaining_time": "13h 33m 33s"}
{"loss": 0.6001637, "token_acc": 0.85639582, "grad_norm": 10.070961, "learning_rate": 1.24e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09585, "epoch": 0.78265646, "global_step/max_steps": "16830/21503", "percentage": "78.27%", "elapsed_time": "2d 0h 46m 25s", "remaining_time": "13h 32m 33s"}
{"loss": 0.60864973, "token_acc": 0.85686803, "grad_norm": 8.31798267, "learning_rate": 1.23e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095866, "epoch": 0.78288898, "global_step/max_steps": "16835/21503", "percentage": "78.29%", "elapsed_time": "2d 0h 46m 49s", "remaining_time": "13h 31m 32s"}
{"loss": 0.62676754, "token_acc": 0.83281734, "grad_norm": 8.985322, "learning_rate": 1.23e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095882, "epoch": 0.7831215, "global_step/max_steps": "16840/21503", "percentage": "78.31%", "elapsed_time": "2d 0h 47m 12s", "remaining_time": "13h 30m 32s"}
{"loss": 0.85213985, "token_acc": 0.79981939, "grad_norm": 6.23992491, "learning_rate": 1.23e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095898, "epoch": 0.78335402, "global_step/max_steps": "16845/21503", "percentage": "78.34%", "elapsed_time": "2d 0h 47m 35s", "remaining_time": "13h 29m 32s"}
{"loss": 0.68998475, "token_acc": 0.80748373, "grad_norm": 7.77477121, "learning_rate": 1.23e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095914, "epoch": 0.78358654, "global_step/max_steps": "16850/21503", "percentage": "78.36%", "elapsed_time": "2d 0h 47m 58s", "remaining_time": "13h 28m 32s"}
{"eval_loss": 0.56089765, "eval_runtime": 297.5458, "eval_samples_per_second": 11.679, "eval_steps_per_second": 11.679, "epoch": 0.78358654, "global_step/max_steps": "16850/21503", "percentage": "78.36%", "elapsed_time": "2d 0h 52m 56s", "remaining_time": "13h 29m 54s"}
{"loss": 0.55734816, "token_acc": 0.83415917, "grad_norm": 10.39241028, "learning_rate": 1.22e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095767, "epoch": 0.78381905, "global_step/max_steps": "16855/21503", "percentage": "78.38%", "elapsed_time": "2d 0h 53m 20s", "remaining_time": "13h 28m 54s"}
{"loss": 0.6622335, "token_acc": 0.83235294, "grad_norm": 7.27235651, "learning_rate": 1.22e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095783, "epoch": 0.78405157, "global_step/max_steps": "16860/21503", "percentage": "78.41%", "elapsed_time": "2d 0h 53m 43s", "remaining_time": "13h 27m 54s"}
{"loss": 0.76506147, "token_acc": 0.82711127, "grad_norm": 8.38416767, "learning_rate": 1.22e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095799, "epoch": 0.78428409, "global_step/max_steps": "16865/21503", "percentage": "78.43%", "elapsed_time": "2d 0h 54m 5s", "remaining_time": "13h 26m 53s"}
{"loss": 0.54920197, "token_acc": 0.8539993, "grad_norm": 7.80601263, "learning_rate": 1.22e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095815, "epoch": 0.78451661, "global_step/max_steps": "16870/21503", "percentage": "78.45%", "elapsed_time": "2d 0h 54m 28s", "remaining_time": "13h 25m 53s"}
{"loss": 0.60876245, "token_acc": 0.83567753, "grad_norm": 9.07713985, "learning_rate": 1.21e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095831, "epoch": 0.78474913, "global_step/max_steps": "16875/21503", "percentage": "78.48%", "elapsed_time": "2d 0h 54m 51s", "remaining_time": "13h 24m 53s"}
{"loss": 0.52961755, "token_acc": 0.86355845, "grad_norm": 9.59773636, "learning_rate": 1.21e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095846, "epoch": 0.78498165, "global_step/max_steps": "16880/21503", "percentage": "78.50%", "elapsed_time": "2d 0h 55m 14s", "remaining_time": "13h 23m 53s"}
{"loss": 0.64677749, "token_acc": 0.84867142, "grad_norm": 8.16498947, "learning_rate": 1.21e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095862, "epoch": 0.78521416, "global_step/max_steps": "16885/21503", "percentage": "78.52%", "elapsed_time": "2d 0h 55m 37s", "remaining_time": "13h 22m 53s"}
{"loss": 0.64735513, "token_acc": 0.83618844, "grad_norm": 7.90884256, "learning_rate": 1.21e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095878, "epoch": 0.78544668, "global_step/max_steps": "16890/21503", "percentage": "78.55%", "elapsed_time": "2d 0h 56m 0s", "remaining_time": "13h 21m 52s"}
{"loss": 0.53327026, "token_acc": 0.86449016, "grad_norm": 10.23126793, "learning_rate": 1.2e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095894, "epoch": 0.7856792, "global_step/max_steps": "16895/21503", "percentage": "78.57%", "elapsed_time": "2d 0h 56m 24s", "remaining_time": "13h 20m 53s"}
{"loss": 0.7031919, "token_acc": 0.83134422, "grad_norm": 8.05408573, "learning_rate": 1.2e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09591, "epoch": 0.78591172, "global_step/max_steps": "16900/21503", "percentage": "78.59%", "elapsed_time": "2d 0h 56m 47s", "remaining_time": "13h 19m 52s"}
{"eval_loss": 0.561566, "eval_runtime": 293.9684, "eval_samples_per_second": 11.821, "eval_steps_per_second": 11.821, "epoch": 0.78591172, "global_step/max_steps": "16900/21503", "percentage": "78.59%", "elapsed_time": "2d 1h 1m 41s", "remaining_time": "13h 21m 13s"}
{"loss": 0.69015036, "token_acc": 0.8336963, "grad_norm": 6.31291628, "learning_rate": 1.2e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095766, "epoch": 0.78614424, "global_step/max_steps": "16905/21503", "percentage": "78.62%", "elapsed_time": "2d 1h 2m 4s", "remaining_time": "13h 20m 13s"}
{"loss": 0.55657873, "token_acc": 0.85960591, "grad_norm": 9.28143787, "learning_rate": 1.2e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095781, "epoch": 0.78637676, "global_step/max_steps": "16910/21503", "percentage": "78.64%", "elapsed_time": "2d 1h 2m 28s", "remaining_time": "13h 19m 12s"}
{"loss": 0.63210058, "token_acc": 0.83068966, "grad_norm": 7.67714214, "learning_rate": 1.19e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095797, "epoch": 0.78660927, "global_step/max_steps": "16915/21503", "percentage": "78.66%", "elapsed_time": "2d 1h 2m 50s", "remaining_time": "13h 18m 12s"}
{"loss": 0.61211667, "token_acc": 0.84329678, "grad_norm": 8.29593754, "learning_rate": 1.19e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095813, "epoch": 0.78684179, "global_step/max_steps": "16920/21503", "percentage": "78.69%", "elapsed_time": "2d 1h 3m 13s", "remaining_time": "13h 17m 12s"}
{"loss": 0.60472288, "token_acc": 0.84782609, "grad_norm": 8.4597187, "learning_rate": 1.19e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095829, "epoch": 0.78707431, "global_step/max_steps": "16925/21503", "percentage": "78.71%", "elapsed_time": "2d 1h 3m 36s", "remaining_time": "13h 16m 12s"}
{"loss": 0.65663652, "token_acc": 0.84297521, "grad_norm": 12.99446678, "learning_rate": 1.19e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095845, "epoch": 0.78730683, "global_step/max_steps": "16930/21503", "percentage": "78.73%", "elapsed_time": "2d 1h 3m 59s", "remaining_time": "13h 15m 12s"}
{"loss": 0.62496648, "token_acc": 0.83411059, "grad_norm": 8.31626892, "learning_rate": 1.18e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09586, "epoch": 0.78753935, "global_step/max_steps": "16935/21503", "percentage": "78.76%", "elapsed_time": "2d 1h 4m 22s", "remaining_time": "13h 14m 12s"}
{"loss": 0.57349682, "token_acc": 0.85267547, "grad_norm": 6.81507683, "learning_rate": 1.18e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095876, "epoch": 0.78777186, "global_step/max_steps": "16940/21503", "percentage": "78.78%", "elapsed_time": "2d 1h 4m 45s", "remaining_time": "13h 13m 12s"}
{"loss": 0.61773586, "token_acc": 0.83754682, "grad_norm": 12.08248901, "learning_rate": 1.18e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095892, "epoch": 0.78800438, "global_step/max_steps": "16945/21503", "percentage": "78.80%", "elapsed_time": "2d 1h 5m 8s", "remaining_time": "13h 12m 12s"}
{"loss": 0.66625319, "token_acc": 0.83621642, "grad_norm": 8.1387043, "learning_rate": 1.18e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095908, "epoch": 0.7882369, "global_step/max_steps": "16950/21503", "percentage": "78.83%", "elapsed_time": "2d 1h 5m 31s", "remaining_time": "13h 11m 12s"}
{"eval_loss": 0.56084603, "eval_runtime": 290.8127, "eval_samples_per_second": 11.949, "eval_steps_per_second": 11.949, "epoch": 0.7882369, "global_step/max_steps": "16950/21503", "percentage": "78.83%", "elapsed_time": "2d 1h 10m 22s", "remaining_time": "13h 12m 30s"}
{"loss": 0.52419772, "token_acc": 0.83493341, "grad_norm": 8.2609129, "learning_rate": 1.17e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095766, "epoch": 0.78846942, "global_step/max_steps": "16955/21503", "percentage": "78.85%", "elapsed_time": "2d 1h 10m 45s", "remaining_time": "13h 11m 30s"}
{"loss": 0.6105329, "token_acc": 0.83497537, "grad_norm": 11.17722702, "learning_rate": 1.17e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095782, "epoch": 0.78870194, "global_step/max_steps": "16960/21503", "percentage": "78.87%", "elapsed_time": "2d 1h 11m 7s", "remaining_time": "13h 10m 30s"}
{"loss": 0.55711765, "token_acc": 0.85210728, "grad_norm": 8.79315186, "learning_rate": 1.17e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095798, "epoch": 0.78893446, "global_step/max_steps": "16965/21503", "percentage": "78.90%", "elapsed_time": "2d 1h 11m 30s", "remaining_time": "13h 9m 30s"}
{"loss": 0.65918899, "token_acc": 0.83804143, "grad_norm": 9.86899567, "learning_rate": 1.17e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095815, "epoch": 0.78916697, "global_step/max_steps": "16970/21503", "percentage": "78.92%", "elapsed_time": "2d 1h 11m 52s", "remaining_time": "13h 8m 30s"}
{"loss": 0.67958655, "token_acc": 0.8313253, "grad_norm": 8.86392593, "learning_rate": 1.16e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09583, "epoch": 0.78939949, "global_step/max_steps": "16975/21503", "percentage": "78.94%", "elapsed_time": "2d 1h 12m 16s", "remaining_time": "13h 7m 30s"}
{"loss": 0.64378686, "token_acc": 0.8402965, "grad_norm": 11.1501503, "learning_rate": 1.16e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095846, "epoch": 0.78963201, "global_step/max_steps": "16980/21503", "percentage": "78.97%", "elapsed_time": "2d 1h 12m 38s", "remaining_time": "13h 6m 30s"}
{"loss": 0.58749337, "token_acc": 0.85258493, "grad_norm": 8.44280052, "learning_rate": 1.16e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095862, "epoch": 0.78986453, "global_step/max_steps": "16985/21503", "percentage": "78.99%", "elapsed_time": "2d 1h 13m 1s", "remaining_time": "13h 5m 30s"}
{"loss": 0.6538908, "token_acc": 0.83952006, "grad_norm": 8.53968239, "learning_rate": 1.16e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095878, "epoch": 0.79009705, "global_step/max_steps": "16990/21503", "percentage": "79.01%", "elapsed_time": "2d 1h 13m 24s", "remaining_time": "13h 4m 30s"}
{"loss": 0.78017268, "token_acc": 0.81062874, "grad_norm": 8.99543285, "learning_rate": 1.15e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095893, "epoch": 0.79032957, "global_step/max_steps": "16995/21503", "percentage": "79.04%", "elapsed_time": "2d 1h 13m 47s", "remaining_time": "13h 3m 30s"}
{"loss": 0.62601633, "token_acc": 0.84269245, "grad_norm": 9.51955318, "learning_rate": 1.15e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095909, "epoch": 0.79056208, "global_step/max_steps": "17000/21503", "percentage": "79.06%", "elapsed_time": "2d 1h 14m 10s", "remaining_time": "13h 2m 30s"}
{"eval_loss": 0.56138062, "eval_runtime": 293.023, "eval_samples_per_second": 11.859, "eval_steps_per_second": 11.859, "epoch": 0.79056208, "global_step/max_steps": "17000/21503", "percentage": "79.06%", "elapsed_time": "2d 1h 19m 3s", "remaining_time": "13h 3m 48s"}
{"loss": 0.67306228, "token_acc": 0.8339752, "grad_norm": 8.27863979, "learning_rate": 1.15e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095767, "epoch": 0.7907946, "global_step/max_steps": "17005/21503", "percentage": "79.08%", "elapsed_time": "2d 1h 19m 26s", "remaining_time": "13h 2m 48s"}
{"loss": 0.72799931, "token_acc": 0.82862669, "grad_norm": 8.1408453, "learning_rate": 1.15e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095782, "epoch": 0.79102712, "global_step/max_steps": "17010/21503", "percentage": "79.11%", "elapsed_time": "2d 1h 19m 50s", "remaining_time": "13h 1m 48s"}
{"loss": 0.71423187, "token_acc": 0.82082794, "grad_norm": 5.94422436, "learning_rate": 1.14e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095798, "epoch": 0.79125964, "global_step/max_steps": "17015/21503", "percentage": "79.13%", "elapsed_time": "2d 1h 20m 13s", "remaining_time": "13h 0m 48s"}
{"loss": 0.63706927, "token_acc": 0.84144267, "grad_norm": 7.77011538, "learning_rate": 1.14e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095813, "epoch": 0.79149216, "global_step/max_steps": "17020/21503", "percentage": "79.15%", "elapsed_time": "2d 1h 20m 37s", "remaining_time": "12h 59m 48s"}
{"loss": 0.66719012, "token_acc": 0.82996324, "grad_norm": 8.38110542, "learning_rate": 1.14e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095829, "epoch": 0.79172468, "global_step/max_steps": "17025/21503", "percentage": "79.17%", "elapsed_time": "2d 1h 21m 0s", "remaining_time": "12h 58m 49s"}
{"loss": 0.68333278, "token_acc": 0.83077529, "grad_norm": 7.97450447, "learning_rate": 1.14e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095844, "epoch": 0.79195719, "global_step/max_steps": "17030/21503", "percentage": "79.20%", "elapsed_time": "2d 1h 21m 23s", "remaining_time": "12h 57m 49s"}
{"loss": 0.67883644, "token_acc": 0.82524613, "grad_norm": 8.34289074, "learning_rate": 1.13e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09586, "epoch": 0.79218971, "global_step/max_steps": "17035/21503", "percentage": "79.22%", "elapsed_time": "2d 1h 21m 46s", "remaining_time": "12h 56m 49s"}
{"loss": 0.59718747, "token_acc": 0.85014728, "grad_norm": 10.22259998, "learning_rate": 1.13e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095876, "epoch": 0.79242223, "global_step/max_steps": "17040/21503", "percentage": "79.24%", "elapsed_time": "2d 1h 22m 9s", "remaining_time": "12h 55m 49s"}
{"loss": 0.63541036, "token_acc": 0.84232523, "grad_norm": 9.33965015, "learning_rate": 1.13e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095892, "epoch": 0.79265475, "global_step/max_steps": "17045/21503", "percentage": "79.27%", "elapsed_time": "2d 1h 22m 32s", "remaining_time": "12h 54m 49s"}
{"loss": 0.52933054, "token_acc": 0.87037037, "grad_norm": 10.08513737, "learning_rate": 1.13e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095907, "epoch": 0.79288727, "global_step/max_steps": "17050/21503", "percentage": "79.29%", "elapsed_time": "2d 1h 22m 55s", "remaining_time": "12h 53m 50s"}
{"eval_loss": 0.56185907, "eval_runtime": 295.7006, "eval_samples_per_second": 11.752, "eval_steps_per_second": 11.752, "epoch": 0.79288727, "global_step/max_steps": "17050/21503", "percentage": "79.29%", "elapsed_time": "2d 1h 27m 50s", "remaining_time": "12h 55m 7s"}
{"loss": 0.55166783, "token_acc": 0.83422944, "grad_norm": 8.59231281, "learning_rate": 1.13e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095764, "epoch": 0.79311978, "global_step/max_steps": "17055/21503", "percentage": "79.31%", "elapsed_time": "2d 1h 28m 14s", "remaining_time": "12h 54m 7s"}
{"loss": 0.61281962, "token_acc": 0.84872611, "grad_norm": 9.83805943, "learning_rate": 1.12e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09578, "epoch": 0.7933523, "global_step/max_steps": "17060/21503", "percentage": "79.34%", "elapsed_time": "2d 1h 28m 36s", "remaining_time": "12h 53m 7s"}
{"loss": 0.72109275, "token_acc": 0.82565191, "grad_norm": 8.30873489, "learning_rate": 1.12e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095796, "epoch": 0.79358482, "global_step/max_steps": "17065/21503", "percentage": "79.36%", "elapsed_time": "2d 1h 28m 59s", "remaining_time": "12h 52m 7s"}
{"loss": 0.6857995, "token_acc": 0.82264498, "grad_norm": 9.24851322, "learning_rate": 1.12e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095811, "epoch": 0.79381734, "global_step/max_steps": "17070/21503", "percentage": "79.38%", "elapsed_time": "2d 1h 29m 22s", "remaining_time": "12h 51m 7s"}
{"loss": 0.62077165, "token_acc": 0.83179114, "grad_norm": 9.84824467, "learning_rate": 1.12e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095827, "epoch": 0.79404986, "global_step/max_steps": "17075/21503", "percentage": "79.41%", "elapsed_time": "2d 1h 29m 44s", "remaining_time": "12h 50m 7s"}
{"loss": 0.55689511, "token_acc": 0.86564224, "grad_norm": 8.39963436, "learning_rate": 1.11e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095843, "epoch": 0.79428238, "global_step/max_steps": "17080/21503", "percentage": "79.43%", "elapsed_time": "2d 1h 30m 7s", "remaining_time": "12h 49m 8s"}
{"loss": 0.68327832, "token_acc": 0.81775228, "grad_norm": 9.10649204, "learning_rate": 1.11e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095859, "epoch": 0.79451489, "global_step/max_steps": "17085/21503", "percentage": "79.45%", "elapsed_time": "2d 1h 30m 30s", "remaining_time": "12h 48m 8s"}
{"loss": 0.63651457, "token_acc": 0.82369436, "grad_norm": 7.39564991, "learning_rate": 1.11e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095874, "epoch": 0.79474741, "global_step/max_steps": "17090/21503", "percentage": "79.48%", "elapsed_time": "2d 1h 30m 53s", "remaining_time": "12h 47m 8s"}
{"loss": 0.53092694, "token_acc": 0.85773525, "grad_norm": 6.64949274, "learning_rate": 1.11e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09589, "epoch": 0.79497993, "global_step/max_steps": "17095/21503", "percentage": "79.50%", "elapsed_time": "2d 1h 31m 17s", "remaining_time": "12h 46m 9s"}
{"loss": 0.77134047, "token_acc": 0.78991292, "grad_norm": 8.48312855, "learning_rate": 1.1e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095905, "epoch": 0.79521245, "global_step/max_steps": "17100/21503", "percentage": "79.52%", "elapsed_time": "2d 1h 31m 40s", "remaining_time": "12h 45m 9s"}
{"eval_loss": 0.56057805, "eval_runtime": 293.2171, "eval_samples_per_second": 11.851, "eval_steps_per_second": 11.851, "epoch": 0.79521245, "global_step/max_steps": "17100/21503", "percentage": "79.52%", "elapsed_time": "2d 1h 36m 33s", "remaining_time": "12h 46m 25s"}
{"loss": 0.66814232, "token_acc": 0.8337288, "grad_norm": 8.21681213, "learning_rate": 1.1e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095763, "epoch": 0.79544497, "global_step/max_steps": "17105/21503", "percentage": "79.55%", "elapsed_time": "2d 1h 36m 56s", "remaining_time": "12h 45m 25s"}
{"loss": 0.63394761, "token_acc": 0.83910701, "grad_norm": 10.6782999, "learning_rate": 1.1e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095779, "epoch": 0.79567749, "global_step/max_steps": "17110/21503", "percentage": "79.57%", "elapsed_time": "2d 1h 37m 19s", "remaining_time": "12h 44m 25s"}
{"loss": 0.6219954, "token_acc": 0.82902064, "grad_norm": 7.15406752, "learning_rate": 1.1e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095795, "epoch": 0.79591, "global_step/max_steps": "17115/21503", "percentage": "79.59%", "elapsed_time": "2d 1h 37m 42s", "remaining_time": "12h 43m 26s"}
{"loss": 0.6709455, "token_acc": 0.82106547, "grad_norm": 9.73737431, "learning_rate": 1.09e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09581, "epoch": 0.79614252, "global_step/max_steps": "17120/21503", "percentage": "79.62%", "elapsed_time": "2d 1h 38m 6s", "remaining_time": "12h 42m 26s"}
{"loss": 0.66274881, "token_acc": 0.82980801, "grad_norm": 6.73367453, "learning_rate": 1.09e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095826, "epoch": 0.79637504, "global_step/max_steps": "17125/21503", "percentage": "79.64%", "elapsed_time": "2d 1h 38m 28s", "remaining_time": "12h 41m 26s"}
{"loss": 0.62060404, "token_acc": 0.83678756, "grad_norm": 7.74718475, "learning_rate": 1.09e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095842, "epoch": 0.79660756, "global_step/max_steps": "17130/21503", "percentage": "79.66%", "elapsed_time": "2d 1h 38m 52s", "remaining_time": "12h 40m 27s"}
{"loss": 0.62201109, "token_acc": 0.85531915, "grad_norm": 10.59061146, "learning_rate": 1.09e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095857, "epoch": 0.79684008, "global_step/max_steps": "17135/21503", "percentage": "79.69%", "elapsed_time": "2d 1h 39m 14s", "remaining_time": "12h 39m 27s"}
{"loss": 0.59197998, "token_acc": 0.84231465, "grad_norm": 8.54668713, "learning_rate": 1.08e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095873, "epoch": 0.7970726, "global_step/max_steps": "17140/21503", "percentage": "79.71%", "elapsed_time": "2d 1h 39m 38s", "remaining_time": "12h 38m 28s"}
{"loss": 0.52615867, "token_acc": 0.8734988, "grad_norm": 7.82195044, "learning_rate": 1.08e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095888, "epoch": 0.79730511, "global_step/max_steps": "17145/21503", "percentage": "79.73%", "elapsed_time": "2d 1h 40m 2s", "remaining_time": "12h 37m 28s"}
{"loss": 0.63013167, "token_acc": 0.83119266, "grad_norm": 10.94077969, "learning_rate": 1.08e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095903, "epoch": 0.79753763, "global_step/max_steps": "17150/21503", "percentage": "79.76%", "elapsed_time": "2d 1h 40m 25s", "remaining_time": "12h 36m 29s"}
{"eval_loss": 0.56044143, "eval_runtime": 296.127, "eval_samples_per_second": 11.735, "eval_steps_per_second": 11.735, "epoch": 0.79753763, "global_step/max_steps": "17150/21503", "percentage": "79.76%", "elapsed_time": "2d 1h 45m 22s", "remaining_time": "12h 37m 44s"}
{"loss": 0.61071482, "token_acc": 0.8342621, "grad_norm": 9.06560135, "learning_rate": 1.08e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09576, "epoch": 0.79777015, "global_step/max_steps": "17155/21503", "percentage": "79.78%", "elapsed_time": "2d 1h 45m 45s", "remaining_time": "12h 36m 45s"}
{"loss": 0.51852727, "token_acc": 0.86815263, "grad_norm": 8.32816124, "learning_rate": 1.07e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095776, "epoch": 0.79800267, "global_step/max_steps": "17160/21503", "percentage": "79.80%", "elapsed_time": "2d 1h 46m 7s", "remaining_time": "12h 35m 45s"}
{"loss": 0.63191438, "token_acc": 0.8422653, "grad_norm": 8.85650539, "learning_rate": 1.07e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095792, "epoch": 0.79823519, "global_step/max_steps": "17165/21503", "percentage": "79.83%", "elapsed_time": "2d 1h 46m 29s", "remaining_time": "12h 34m 45s"}
{"loss": 0.77743292, "token_acc": 0.81334655, "grad_norm": 9.31168175, "learning_rate": 1.07e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095808, "epoch": 0.7984677, "global_step/max_steps": "17170/21503", "percentage": "79.85%", "elapsed_time": "2d 1h 46m 52s", "remaining_time": "12h 33m 45s"}
{"loss": 0.6721518, "token_acc": 0.8283671, "grad_norm": 10.04396725, "learning_rate": 1.07e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095824, "epoch": 0.79870022, "global_step/max_steps": "17175/21503", "percentage": "79.87%", "elapsed_time": "2d 1h 47m 15s", "remaining_time": "12h 32m 46s"}
{"loss": 0.7782589, "token_acc": 0.8111563, "grad_norm": 7.66949701, "learning_rate": 1.06e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095839, "epoch": 0.79893274, "global_step/max_steps": "17180/21503", "percentage": "79.90%", "elapsed_time": "2d 1h 47m 38s", "remaining_time": "12h 31m 46s"}
{"loss": 0.5789763, "token_acc": 0.85283514, "grad_norm": 9.35018826, "learning_rate": 1.06e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095855, "epoch": 0.79916526, "global_step/max_steps": "17185/21503", "percentage": "79.92%", "elapsed_time": "2d 1h 48m 1s", "remaining_time": "12h 30m 47s"}
{"loss": 0.80868225, "token_acc": 0.8049076, "grad_norm": 8.21591187, "learning_rate": 1.06e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09587, "epoch": 0.79939778, "global_step/max_steps": "17190/21503", "percentage": "79.94%", "elapsed_time": "2d 1h 48m 24s", "remaining_time": "12h 29m 47s"}
{"loss": 0.60936565, "token_acc": 0.83606095, "grad_norm": 7.17542171, "learning_rate": 1.06e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095886, "epoch": 0.7996303, "global_step/max_steps": "17195/21503", "percentage": "79.97%", "elapsed_time": "2d 1h 48m 46s", "remaining_time": "12h 28m 48s"}
{"loss": 0.67916088, "token_acc": 0.82775431, "grad_norm": 8.8515358, "learning_rate": 1.06e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095902, "epoch": 0.79986281, "global_step/max_steps": "17200/21503", "percentage": "79.99%", "elapsed_time": "2d 1h 49m 9s", "remaining_time": "12h 27m 48s"}
{"eval_loss": 0.56147468, "eval_runtime": 297.9952, "eval_samples_per_second": 11.661, "eval_steps_per_second": 11.661, "epoch": 0.79986281, "global_step/max_steps": "17200/21503", "percentage": "79.99%", "elapsed_time": "2d 1h 54m 7s", "remaining_time": "12h 29m 3s"}
{"loss": 0.67903876, "token_acc": 0.83407108, "grad_norm": 9.05666447, "learning_rate": 1.05e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095758, "epoch": 0.80009533, "global_step/max_steps": "17205/21503", "percentage": "80.01%", "elapsed_time": "2d 1h 54m 31s", "remaining_time": "12h 28m 3s"}
{"loss": 0.61032577, "token_acc": 0.84881486, "grad_norm": 7.27931881, "learning_rate": 1.05e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095773, "epoch": 0.80032785, "global_step/max_steps": "17210/21503", "percentage": "80.04%", "elapsed_time": "2d 1h 54m 54s", "remaining_time": "12h 27m 4s"}
{"loss": 0.53453612, "token_acc": 0.86653307, "grad_norm": 8.82469273, "learning_rate": 1.05e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095789, "epoch": 0.80056037, "global_step/max_steps": "17215/21503", "percentage": "80.06%", "elapsed_time": "2d 1h 55m 17s", "remaining_time": "12h 26m 5s"}
{"loss": 0.64226484, "token_acc": 0.84125445, "grad_norm": 10.48231411, "learning_rate": 1.05e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095804, "epoch": 0.80079289, "global_step/max_steps": "17220/21503", "percentage": "80.08%", "elapsed_time": "2d 1h 55m 40s", "remaining_time": "12h 25m 5s"}
{"loss": 0.61831923, "token_acc": 0.84083543, "grad_norm": 10.24536896, "learning_rate": 1.04e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09582, "epoch": 0.80102541, "global_step/max_steps": "17225/21503", "percentage": "80.11%", "elapsed_time": "2d 1h 56m 3s", "remaining_time": "12h 24m 6s"}
{"loss": 0.70945659, "token_acc": 0.81402996, "grad_norm": 8.22883034, "learning_rate": 1.04e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095836, "epoch": 0.80125792, "global_step/max_steps": "17230/21503", "percentage": "80.13%", "elapsed_time": "2d 1h 56m 26s", "remaining_time": "12h 23m 6s"}
{"loss": 0.63505659, "token_acc": 0.83555556, "grad_norm": 8.72383785, "learning_rate": 1.04e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095851, "epoch": 0.80149044, "global_step/max_steps": "17235/21503", "percentage": "80.15%", "elapsed_time": "2d 1h 56m 50s", "remaining_time": "12h 22m 7s"}
{"loss": 0.75097284, "token_acc": 0.79752878, "grad_norm": 9.93916798, "learning_rate": 1.04e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095865, "epoch": 0.80172296, "global_step/max_steps": "17240/21503", "percentage": "80.17%", "elapsed_time": "2d 1h 57m 15s", "remaining_time": "12h 21m 8s"}
{"loss": 0.62162361, "token_acc": 0.84296091, "grad_norm": 8.15424633, "learning_rate": 1.03e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095881, "epoch": 0.80195548, "global_step/max_steps": "17245/21503", "percentage": "80.20%", "elapsed_time": "2d 1h 57m 38s", "remaining_time": "12h 20m 9s"}
{"loss": 0.52981052, "token_acc": 0.86926104, "grad_norm": 12.22282124, "learning_rate": 1.03e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095897, "epoch": 0.802188, "global_step/max_steps": "17250/21503", "percentage": "80.22%", "elapsed_time": "2d 1h 58m 1s", "remaining_time": "12h 19m 9s"}
{"eval_loss": 0.5603925, "eval_runtime": 296.949, "eval_samples_per_second": 11.702, "eval_steps_per_second": 11.702, "epoch": 0.802188, "global_step/max_steps": "17250/21503", "percentage": "80.22%", "elapsed_time": "2d 2h 2m 57s", "remaining_time": "12h 20m 23s"}
{"loss": 0.72139416, "token_acc": 0.83272866, "grad_norm": 11.59043312, "learning_rate": 1.03e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095754, "epoch": 0.80242052, "global_step/max_steps": "17255/21503", "percentage": "80.24%", "elapsed_time": "2d 2h 3m 21s", "remaining_time": "12h 19m 23s"}
{"loss": 0.64482584, "token_acc": 0.83423913, "grad_norm": 8.54554844, "learning_rate": 1.03e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095769, "epoch": 0.80265303, "global_step/max_steps": "17260/21503", "percentage": "80.27%", "elapsed_time": "2d 2h 3m 45s", "remaining_time": "12h 18m 24s"}
{"loss": 0.5769176, "token_acc": 0.86224318, "grad_norm": 9.63614178, "learning_rate": 1.02e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095785, "epoch": 0.80288555, "global_step/max_steps": "17265/21503", "percentage": "80.29%", "elapsed_time": "2d 2h 4m 7s", "remaining_time": "12h 17m 24s"}
{"loss": 0.6899178, "token_acc": 0.82316246, "grad_norm": 6.95793915, "learning_rate": 1.02e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.0958, "epoch": 0.80311807, "global_step/max_steps": "17270/21503", "percentage": "80.31%", "elapsed_time": "2d 2h 4m 31s", "remaining_time": "12h 16m 25s"}
{"loss": 0.64760742, "token_acc": 0.84186916, "grad_norm": 8.1560173, "learning_rate": 1.02e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095816, "epoch": 0.80335059, "global_step/max_steps": "17275/21503", "percentage": "80.34%", "elapsed_time": "2d 2h 4m 53s", "remaining_time": "12h 15m 26s"}
{"loss": 0.66551099, "token_acc": 0.83535282, "grad_norm": 8.87121487, "learning_rate": 1.02e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095831, "epoch": 0.80358311, "global_step/max_steps": "17280/21503", "percentage": "80.36%", "elapsed_time": "2d 2h 5m 17s", "remaining_time": "12h 14m 27s"}
{"loss": 0.74501462, "token_acc": 0.82079723, "grad_norm": 8.65011215, "learning_rate": 1.02e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095847, "epoch": 0.80381562, "global_step/max_steps": "17285/21503", "percentage": "80.38%", "elapsed_time": "2d 2h 5m 40s", "remaining_time": "12h 13m 27s"}
{"loss": 0.58967147, "token_acc": 0.85391377, "grad_norm": 11.10432529, "learning_rate": 1.01e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095862, "epoch": 0.80404814, "global_step/max_steps": "17290/21503", "percentage": "80.41%", "elapsed_time": "2d 2h 6m 2s", "remaining_time": "12h 12m 28s"}
{"loss": 0.64205756, "token_acc": 0.84148456, "grad_norm": 8.02106094, "learning_rate": 1.01e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095878, "epoch": 0.80428066, "global_step/max_steps": "17295/21503", "percentage": "80.43%", "elapsed_time": "2d 2h 6m 25s", "remaining_time": "12h 11m 29s"}
{"loss": 0.53979959, "token_acc": 0.86617406, "grad_norm": 9.28131294, "learning_rate": 1.01e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095893, "epoch": 0.80451318, "global_step/max_steps": "17300/21503", "percentage": "80.45%", "elapsed_time": "2d 2h 6m 49s", "remaining_time": "12h 10m 30s"}
{"eval_loss": 0.56026506, "eval_runtime": 294.7526, "eval_samples_per_second": 11.79, "eval_steps_per_second": 11.79, "epoch": 0.80451318, "global_step/max_steps": "17300/21503", "percentage": "80.45%", "elapsed_time": "2d 2h 11m 44s", "remaining_time": "12h 11m 41s"}
{"loss": 0.53883009, "token_acc": 0.8344243, "grad_norm": 10.98632908, "learning_rate": 1.01e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095752, "epoch": 0.8047457, "global_step/max_steps": "17305/21503", "percentage": "80.48%", "elapsed_time": "2d 2h 12m 7s", "remaining_time": "12h 10m 42s"}
{"loss": 0.66082559, "token_acc": 0.83333333, "grad_norm": 12.37436771, "learning_rate": 1e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095767, "epoch": 0.80497822, "global_step/max_steps": "17310/21503", "percentage": "80.50%", "elapsed_time": "2d 2h 12m 30s", "remaining_time": "12h 9m 43s"}
{"loss": 0.55810046, "token_acc": 0.85725369, "grad_norm": 8.3755827, "learning_rate": 1e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095783, "epoch": 0.80521073, "global_step/max_steps": "17315/21503", "percentage": "80.52%", "elapsed_time": "2d 2h 12m 53s", "remaining_time": "12h 8m 43s"}
{"loss": 0.70493016, "token_acc": 0.82282996, "grad_norm": 5.6248765, "learning_rate": 1e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095798, "epoch": 0.80544325, "global_step/max_steps": "17320/21503", "percentage": "80.55%", "elapsed_time": "2d 2h 13m 16s", "remaining_time": "12h 7m 44s"}
{"loss": 0.62452664, "token_acc": 0.85928962, "grad_norm": 9.35640907, "learning_rate": 1e-06, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095813, "epoch": 0.80567577, "global_step/max_steps": "17325/21503", "percentage": "80.57%", "elapsed_time": "2d 2h 13m 40s", "remaining_time": "12h 6m 45s"}
{"loss": 0.62614908, "token_acc": 0.83622351, "grad_norm": 7.53061295, "learning_rate": 9.9e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095829, "epoch": 0.80590829, "global_step/max_steps": "17330/21503", "percentage": "80.59%", "elapsed_time": "2d 2h 14m 2s", "remaining_time": "12h 5m 46s"}
{"loss": 0.66767554, "token_acc": 0.81426492, "grad_norm": 8.12159252, "learning_rate": 9.9e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095844, "epoch": 0.80614081, "global_step/max_steps": "17335/21503", "percentage": "80.62%", "elapsed_time": "2d 2h 14m 26s", "remaining_time": "12h 4m 47s"}
{"loss": 0.61267796, "token_acc": 0.85168067, "grad_norm": 7.37535, "learning_rate": 9.9e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09586, "epoch": 0.80637333, "global_step/max_steps": "17340/21503", "percentage": "80.64%", "elapsed_time": "2d 2h 14m 49s", "remaining_time": "12h 3m 48s"}
{"loss": 0.68624215, "token_acc": 0.84605027, "grad_norm": 10.83526421, "learning_rate": 9.9e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095875, "epoch": 0.80660584, "global_step/max_steps": "17345/21503", "percentage": "80.66%", "elapsed_time": "2d 2h 15m 11s", "remaining_time": "12h 2m 48s"}
{"loss": 0.73181086, "token_acc": 0.81468419, "grad_norm": 6.94946527, "learning_rate": 9.9e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095891, "epoch": 0.80683836, "global_step/max_steps": "17350/21503", "percentage": "80.69%", "elapsed_time": "2d 2h 15m 34s", "remaining_time": "12h 1m 49s"}
{"eval_loss": 0.56082678, "eval_runtime": 295.2159, "eval_samples_per_second": 11.771, "eval_steps_per_second": 11.771, "epoch": 0.80683836, "global_step/max_steps": "17350/21503", "percentage": "80.69%", "elapsed_time": "2d 2h 20m 29s", "remaining_time": "12h 3m 0s"}
{"loss": 0.64084916, "token_acc": 0.83420265, "grad_norm": 7.34558439, "learning_rate": 9.8e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09575, "epoch": 0.80707088, "global_step/max_steps": "17355/21503", "percentage": "80.71%", "elapsed_time": "2d 2h 20m 53s", "remaining_time": "12h 2m 1s"}
{"loss": 0.66120477, "token_acc": 0.81447831, "grad_norm": 10.60016632, "learning_rate": 9.8e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095765, "epoch": 0.8073034, "global_step/max_steps": "17360/21503", "percentage": "80.73%", "elapsed_time": "2d 2h 21m 15s", "remaining_time": "12h 1m 1s"}
{"loss": 0.63788948, "token_acc": 0.85530547, "grad_norm": 7.02918625, "learning_rate": 9.8e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095781, "epoch": 0.80753592, "global_step/max_steps": "17365/21503", "percentage": "80.76%", "elapsed_time": "2d 2h 21m 38s", "remaining_time": "12h 0m 2s"}
{"loss": 0.61316624, "token_acc": 0.84171598, "grad_norm": 6.68744707, "learning_rate": 9.8e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095797, "epoch": 0.80776844, "global_step/max_steps": "17370/21503", "percentage": "80.78%", "elapsed_time": "2d 2h 22m 1s", "remaining_time": "11h 59m 3s"}
{"loss": 0.69273777, "token_acc": 0.82331512, "grad_norm": 6.8546133, "learning_rate": 9.7e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095812, "epoch": 0.80800095, "global_step/max_steps": "17375/21503", "percentage": "80.80%", "elapsed_time": "2d 2h 22m 24s", "remaining_time": "11h 58m 4s"}
{"loss": 0.68061433, "token_acc": 0.82819723, "grad_norm": 9.13859558, "learning_rate": 9.7e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095828, "epoch": 0.80823347, "global_step/max_steps": "17380/21503", "percentage": "80.83%", "elapsed_time": "2d 2h 22m 47s", "remaining_time": "11h 57m 5s"}
{"loss": 0.61741872, "token_acc": 0.84036774, "grad_norm": 10.13608932, "learning_rate": 9.7e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095843, "epoch": 0.80846599, "global_step/max_steps": "17385/21503", "percentage": "80.85%", "elapsed_time": "2d 2h 23m 9s", "remaining_time": "11h 56m 5s"}
{"loss": 0.72489867, "token_acc": 0.81931464, "grad_norm": 9.11363888, "learning_rate": 9.7e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095859, "epoch": 0.80869851, "global_step/max_steps": "17390/21503", "percentage": "80.87%", "elapsed_time": "2d 2h 23m 32s", "remaining_time": "11h 55m 6s"}
{"loss": 0.56662688, "token_acc": 0.85900383, "grad_norm": 6.72400141, "learning_rate": 9.7e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095875, "epoch": 0.80893103, "global_step/max_steps": "17395/21503", "percentage": "80.90%", "elapsed_time": "2d 2h 23m 54s", "remaining_time": "11h 54m 7s"}
{"loss": 0.56672144, "token_acc": 0.85610143, "grad_norm": 6.46250916, "learning_rate": 9.6e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09589, "epoch": 0.80916354, "global_step/max_steps": "17400/21503", "percentage": "80.92%", "elapsed_time": "2d 2h 24m 17s", "remaining_time": "11h 53m 8s"}
{"eval_loss": 0.55991173, "eval_runtime": 294.7125, "eval_samples_per_second": 11.791, "eval_steps_per_second": 11.791, "epoch": 0.80916354, "global_step/max_steps": "17400/21503", "percentage": "80.92%", "elapsed_time": "2d 2h 29m 12s", "remaining_time": "11h 54m 17s"}
{"loss": 0.62274899, "token_acc": 0.83399099, "grad_norm": 11.61159706, "learning_rate": 9.6e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095749, "epoch": 0.80939606, "global_step/max_steps": "17405/21503", "percentage": "80.94%", "elapsed_time": "2d 2h 29m 37s", "remaining_time": "11h 53m 19s"}
{"loss": 0.67332087, "token_acc": 0.84147465, "grad_norm": 7.66918945, "learning_rate": 9.6e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095764, "epoch": 0.80962858, "global_step/max_steps": "17410/21503", "percentage": "80.97%", "elapsed_time": "2d 2h 30m 0s", "remaining_time": "11h 52m 20s"}
{"loss": 0.73082232, "token_acc": 0.82315522, "grad_norm": 7.76204062, "learning_rate": 9.6e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09578, "epoch": 0.8098611, "global_step/max_steps": "17415/21503", "percentage": "80.99%", "elapsed_time": "2d 2h 30m 23s", "remaining_time": "11h 51m 21s"}
{"loss": 0.59116488, "token_acc": 0.84717742, "grad_norm": 9.8955555, "learning_rate": 9.5e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095795, "epoch": 0.81009362, "global_step/max_steps": "17420/21503", "percentage": "81.01%", "elapsed_time": "2d 2h 30m 46s", "remaining_time": "11h 50m 22s"}
{"loss": 0.53128867, "token_acc": 0.86061588, "grad_norm": 8.81693649, "learning_rate": 9.5e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095811, "epoch": 0.81032614, "global_step/max_steps": "17425/21503", "percentage": "81.04%", "elapsed_time": "2d 2h 31m 8s", "remaining_time": "11h 49m 23s"}
{"loss": 0.64545259, "token_acc": 0.84516765, "grad_norm": 8.89999866, "learning_rate": 9.5e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095826, "epoch": 0.81055865, "global_step/max_steps": "17430/21503", "percentage": "81.06%", "elapsed_time": "2d 2h 31m 31s", "remaining_time": "11h 48m 24s"}
{"loss": 0.65155597, "token_acc": 0.85396704, "grad_norm": 9.89927673, "learning_rate": 9.5e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095842, "epoch": 0.81079117, "global_step/max_steps": "17435/21503", "percentage": "81.08%", "elapsed_time": "2d 2h 31m 54s", "remaining_time": "11h 47m 24s"}
{"loss": 0.60788646, "token_acc": 0.84729256, "grad_norm": 9.04886436, "learning_rate": 9.4e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095858, "epoch": 0.81102369, "global_step/max_steps": "17440/21503", "percentage": "81.10%", "elapsed_time": "2d 2h 32m 16s", "remaining_time": "11h 46m 25s"}
{"loss": 0.6650322, "token_acc": 0.83106367, "grad_norm": 7.78323174, "learning_rate": 9.4e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095873, "epoch": 0.81125621, "global_step/max_steps": "17445/21503", "percentage": "81.13%", "elapsed_time": "2d 2h 32m 40s", "remaining_time": "11h 45m 26s"}
{"loss": 0.61501269, "token_acc": 0.8462923, "grad_norm": 7.39462185, "learning_rate": 9.4e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095888, "epoch": 0.81148873, "global_step/max_steps": "17450/21503", "percentage": "81.15%", "elapsed_time": "2d 2h 33m 2s", "remaining_time": "11h 44m 27s"}
{"eval_loss": 0.55972952, "eval_runtime": 291.778, "eval_samples_per_second": 11.91, "eval_steps_per_second": 11.91, "epoch": 0.81148873, "global_step/max_steps": "17450/21503", "percentage": "81.15%", "elapsed_time": "2d 2h 37m 54s", "remaining_time": "11h 45m 35s"}
{"loss": 0.61396437, "token_acc": 0.83457207, "grad_norm": 8.46907902, "learning_rate": 9.4e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09575, "epoch": 0.81172125, "global_step/max_steps": "17455/21503", "percentage": "81.17%", "elapsed_time": "2d 2h 38m 17s", "remaining_time": "11h 44m 36s"}
{"loss": 0.60901284, "token_acc": 0.83939518, "grad_norm": 7.3746748, "learning_rate": 9.4e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095765, "epoch": 0.81195376, "global_step/max_steps": "17460/21503", "percentage": "81.20%", "elapsed_time": "2d 2h 38m 40s", "remaining_time": "11h 43m 37s"}
{"loss": 0.66234622, "token_acc": 0.8311079, "grad_norm": 10.85900307, "learning_rate": 9.3e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095781, "epoch": 0.81218628, "global_step/max_steps": "17465/21503", "percentage": "81.22%", "elapsed_time": "2d 2h 39m 3s", "remaining_time": "11h 42m 38s"}
{"loss": 0.7212739, "token_acc": 0.83650458, "grad_norm": 6.16780281, "learning_rate": 9.3e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095797, "epoch": 0.8124188, "global_step/max_steps": "17470/21503", "percentage": "81.24%", "elapsed_time": "2d 2h 39m 25s", "remaining_time": "11h 41m 39s"}
{"loss": 0.6452064, "token_acc": 0.84309357, "grad_norm": 9.17157555, "learning_rate": 9.3e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095812, "epoch": 0.81265132, "global_step/max_steps": "17475/21503", "percentage": "81.27%", "elapsed_time": "2d 2h 39m 47s", "remaining_time": "11h 40m 40s"}
{"loss": 0.52325692, "token_acc": 0.87046632, "grad_norm": 7.9619298, "learning_rate": 9.3e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095828, "epoch": 0.81288384, "global_step/max_steps": "17480/21503", "percentage": "81.29%", "elapsed_time": "2d 2h 40m 9s", "remaining_time": "11h 39m 41s"}
{"loss": 0.57517257, "token_acc": 0.85499624, "grad_norm": 7.13786745, "learning_rate": 9.2e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095844, "epoch": 0.81311636, "global_step/max_steps": "17485/21503", "percentage": "81.31%", "elapsed_time": "2d 2h 40m 32s", "remaining_time": "11h 38m 42s"}
{"loss": 0.56730132, "token_acc": 0.8622824, "grad_norm": 10.85989761, "learning_rate": 9.2e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095859, "epoch": 0.81334887, "global_step/max_steps": "17490/21503", "percentage": "81.34%", "elapsed_time": "2d 2h 40m 54s", "remaining_time": "11h 37m 43s"}
{"loss": 0.76717892, "token_acc": 0.81739507, "grad_norm": 9.52980232, "learning_rate": 9.2e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095875, "epoch": 0.81358139, "global_step/max_steps": "17495/21503", "percentage": "81.36%", "elapsed_time": "2d 2h 41m 17s", "remaining_time": "11h 36m 44s"}
{"loss": 0.63492999, "token_acc": 0.84042553, "grad_norm": 8.78061962, "learning_rate": 9.2e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09589, "epoch": 0.81381391, "global_step/max_steps": "17500/21503", "percentage": "81.38%", "elapsed_time": "2d 2h 41m 41s", "remaining_time": "11h 35m 45s"}
{"eval_loss": 0.55914664, "eval_runtime": 295.2355, "eval_samples_per_second": 11.77, "eval_steps_per_second": 11.77, "epoch": 0.81381391, "global_step/max_steps": "17500/21503", "percentage": "81.38%", "elapsed_time": "2d 2h 46m 36s", "remaining_time": "11h 36m 53s"}
{"loss": 0.65989418, "token_acc": 0.83373863, "grad_norm": 7.2249856, "learning_rate": 9.2e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095749, "epoch": 0.81404643, "global_step/max_steps": "17505/21503", "percentage": "81.41%", "elapsed_time": "2d 2h 47m 0s", "remaining_time": "11h 35m 54s"}
{"loss": 0.71777949, "token_acc": 0.81805792, "grad_norm": 11.27878952, "learning_rate": 9.1e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095765, "epoch": 0.81427895, "global_step/max_steps": "17510/21503", "percentage": "81.43%", "elapsed_time": "2d 2h 47m 23s", "remaining_time": "11h 34m 55s"}
{"loss": 0.5065845, "token_acc": 0.86316266, "grad_norm": 11.01458168, "learning_rate": 9.1e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09578, "epoch": 0.81451146, "global_step/max_steps": "17515/21503", "percentage": "81.45%", "elapsed_time": "2d 2h 47m 46s", "remaining_time": "11h 33m 56s"}
{"loss": 0.71041594, "token_acc": 0.82159315, "grad_norm": 7.52424765, "learning_rate": 9.1e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095796, "epoch": 0.81474398, "global_step/max_steps": "17520/21503", "percentage": "81.48%", "elapsed_time": "2d 2h 48m 8s", "remaining_time": "11h 32m 58s"}
{"loss": 0.58750796, "token_acc": 0.85142417, "grad_norm": 8.67385197, "learning_rate": 9.1e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095811, "epoch": 0.8149765, "global_step/max_steps": "17525/21503", "percentage": "81.50%", "elapsed_time": "2d 2h 48m 31s", "remaining_time": "11h 31m 59s"}
{"loss": 0.65996418, "token_acc": 0.82549882, "grad_norm": 11.21205616, "learning_rate": 9e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095826, "epoch": 0.81520902, "global_step/max_steps": "17530/21503", "percentage": "81.52%", "elapsed_time": "2d 2h 48m 55s", "remaining_time": "11h 31m 0s"}
{"loss": 0.57851968, "token_acc": 0.84895539, "grad_norm": 10.26616955, "learning_rate": 9e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095841, "epoch": 0.81544154, "global_step/max_steps": "17535/21503", "percentage": "81.55%", "elapsed_time": "2d 2h 49m 18s", "remaining_time": "11h 30m 1s"}
{"loss": 0.69997029, "token_acc": 0.82891332, "grad_norm": 10.36737251, "learning_rate": 9e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095857, "epoch": 0.81567406, "global_step/max_steps": "17540/21503", "percentage": "81.57%", "elapsed_time": "2d 2h 49m 41s", "remaining_time": "11h 29m 2s"}
{"loss": 0.74310155, "token_acc": 0.82286474, "grad_norm": 8.53845882, "learning_rate": 9e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095872, "epoch": 0.81590657, "global_step/max_steps": "17545/21503", "percentage": "81.59%", "elapsed_time": "2d 2h 50m 4s", "remaining_time": "11h 28m 4s"}
{"loss": 0.58437533, "token_acc": 0.84048641, "grad_norm": 8.28787231, "learning_rate": 9e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095887, "epoch": 0.81613909, "global_step/max_steps": "17550/21503", "percentage": "81.62%", "elapsed_time": "2d 2h 50m 27s", "remaining_time": "11h 27m 5s"}
{"eval_loss": 0.55935848, "eval_runtime": 297.4667, "eval_samples_per_second": 11.682, "eval_steps_per_second": 11.682, "epoch": 0.81613909, "global_step/max_steps": "17550/21503", "percentage": "81.62%", "elapsed_time": "2d 2h 55m 24s", "remaining_time": "11h 28m 12s"}
{"loss": 0.51838098, "token_acc": 0.83518303, "grad_norm": 7.79244232, "learning_rate": 8.9e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095747, "epoch": 0.81637161, "global_step/max_steps": "17555/21503", "percentage": "81.64%", "elapsed_time": "2d 2h 55m 48s", "remaining_time": "11h 27m 13s"}
{"loss": 0.55377507, "token_acc": 0.8717539, "grad_norm": 9.45762157, "learning_rate": 8.9e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095762, "epoch": 0.81660413, "global_step/max_steps": "17560/21503", "percentage": "81.66%", "elapsed_time": "2d 2h 56m 10s", "remaining_time": "11h 26m 14s"}
{"loss": 0.62996264, "token_acc": 0.84820684, "grad_norm": 9.28609085, "learning_rate": 8.9e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095776, "epoch": 0.81683665, "global_step/max_steps": "17565/21503", "percentage": "81.69%", "elapsed_time": "2d 2h 56m 35s", "remaining_time": "11h 25m 16s"}
{"loss": 0.75280771, "token_acc": 0.81460272, "grad_norm": 10.74019146, "learning_rate": 8.9e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095791, "epoch": 0.81706917, "global_step/max_steps": "17570/21503", "percentage": "81.71%", "elapsed_time": "2d 2h 56m 59s", "remaining_time": "11h 24m 17s"}
{"loss": 0.64128308, "token_acc": 0.83760059, "grad_norm": 8.12722492, "learning_rate": 8.8e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095807, "epoch": 0.81730168, "global_step/max_steps": "17575/21503", "percentage": "81.73%", "elapsed_time": "2d 2h 57m 21s", "remaining_time": "11h 23m 19s"}
{"loss": 0.60933094, "token_acc": 0.84543987, "grad_norm": 9.80479145, "learning_rate": 8.8e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095822, "epoch": 0.8175342, "global_step/max_steps": "17580/21503", "percentage": "81.76%", "elapsed_time": "2d 2h 57m 44s", "remaining_time": "11h 22m 20s"}
{"loss": 0.6556478, "token_acc": 0.84118738, "grad_norm": 9.03467369, "learning_rate": 8.8e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095838, "epoch": 0.81776672, "global_step/max_steps": "17585/21503", "percentage": "81.78%", "elapsed_time": "2d 2h 58m 7s", "remaining_time": "11h 21m 21s"}
{"loss": 0.64581223, "token_acc": 0.83480409, "grad_norm": 6.95334911, "learning_rate": 8.8e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095853, "epoch": 0.81799924, "global_step/max_steps": "17590/21503", "percentage": "81.80%", "elapsed_time": "2d 2h 58m 30s", "remaining_time": "11h 20m 22s"}
{"loss": 0.55753698, "token_acc": 0.84475921, "grad_norm": 6.96964788, "learning_rate": 8.8e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095867, "epoch": 0.81823176, "global_step/max_steps": "17595/21503", "percentage": "81.83%", "elapsed_time": "2d 2h 58m 54s", "remaining_time": "11h 19m 24s"}
{"loss": 0.53044558, "token_acc": 0.86859444, "grad_norm": 9.37848377, "learning_rate": 8.7e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095882, "epoch": 0.81846428, "global_step/max_steps": "17600/21503", "percentage": "81.85%", "elapsed_time": "2d 2h 59m 18s", "remaining_time": "11h 18m 26s"}
{"eval_loss": 0.55919498, "eval_runtime": 297.3176, "eval_samples_per_second": 11.688, "eval_steps_per_second": 11.688, "epoch": 0.81846428, "global_step/max_steps": "17600/21503", "percentage": "81.85%", "elapsed_time": "2d 3h 4m 15s", "remaining_time": "11h 19m 32s"}
{"loss": 0.59700227, "token_acc": 0.83421405, "grad_norm": 7.96857595, "learning_rate": 8.7e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095742, "epoch": 0.81869679, "global_step/max_steps": "17605/21503", "percentage": "81.87%", "elapsed_time": "2d 3h 4m 39s", "remaining_time": "11h 18m 33s"}
{"loss": 0.58272047, "token_acc": 0.85487321, "grad_norm": 8.82139301, "learning_rate": 8.7e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095757, "epoch": 0.81892931, "global_step/max_steps": "17610/21503", "percentage": "81.90%", "elapsed_time": "2d 3h 5m 1s", "remaining_time": "11h 17m 34s"}
{"loss": 0.65271864, "token_acc": 0.8406457, "grad_norm": 9.86064434, "learning_rate": 8.7e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095772, "epoch": 0.81916183, "global_step/max_steps": "17615/21503", "percentage": "81.92%", "elapsed_time": "2d 3h 5m 25s", "remaining_time": "11h 16m 36s"}
{"loss": 0.78855815, "token_acc": 0.79815258, "grad_norm": 10.43500137, "learning_rate": 8.7e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095788, "epoch": 0.81939435, "global_step/max_steps": "17620/21503", "percentage": "81.94%", "elapsed_time": "2d 3h 5m 48s", "remaining_time": "11h 15m 37s"}
{"loss": 0.68947859, "token_acc": 0.83708371, "grad_norm": 7.48883867, "learning_rate": 8.6e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095803, "epoch": 0.81962687, "global_step/max_steps": "17625/21503", "percentage": "81.97%", "elapsed_time": "2d 3h 6m 10s", "remaining_time": "11h 14m 38s"}
{"loss": 0.54574699, "token_acc": 0.86289483, "grad_norm": 10.05499172, "learning_rate": 8.6e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095818, "epoch": 0.81985938, "global_step/max_steps": "17630/21503", "percentage": "81.99%", "elapsed_time": "2d 3h 6m 33s", "remaining_time": "11h 13m 40s"}
{"loss": 0.64639993, "token_acc": 0.82490566, "grad_norm": 7.44955683, "learning_rate": 8.6e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095834, "epoch": 0.8200919, "global_step/max_steps": "17635/21503", "percentage": "82.01%", "elapsed_time": "2d 3h 6m 56s", "remaining_time": "11h 12m 41s"}
{"loss": 0.53052645, "token_acc": 0.86205828, "grad_norm": 9.35161877, "learning_rate": 8.6e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095849, "epoch": 0.82032442, "global_step/max_steps": "17640/21503", "percentage": "82.04%", "elapsed_time": "2d 3h 7m 19s", "remaining_time": "11h 11m 42s"}
{"loss": 0.61085272, "token_acc": 0.85430712, "grad_norm": 7.76871634, "learning_rate": 8.5e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095864, "epoch": 0.82055694, "global_step/max_steps": "17645/21503", "percentage": "82.06%", "elapsed_time": "2d 3h 7m 42s", "remaining_time": "11h 10m 44s"}
{"loss": 0.6189774, "token_acc": 0.84551437, "grad_norm": 7.62646627, "learning_rate": 8.5e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095879, "epoch": 0.82078946, "global_step/max_steps": "17650/21503", "percentage": "82.08%", "elapsed_time": "2d 3h 8m 5s", "remaining_time": "11h 9m 45s"}
{"eval_loss": 0.56001502, "eval_runtime": 292.3615, "eval_samples_per_second": 11.886, "eval_steps_per_second": 11.886, "epoch": 0.82078946, "global_step/max_steps": "17650/21503", "percentage": "82.08%", "elapsed_time": "2d 3h 12m 57s", "remaining_time": "11h 10m 49s"}
{"loss": 0.6006146, "token_acc": 0.83456082, "grad_norm": 13.7303133, "learning_rate": 8.5e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095742, "epoch": 0.82102198, "global_step/max_steps": "17655/21503", "percentage": "82.10%", "elapsed_time": "2d 3h 13m 20s", "remaining_time": "11h 9m 51s"}
{"loss": 0.72892904, "token_acc": 0.80856882, "grad_norm": 7.25646591, "learning_rate": 8.5e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095758, "epoch": 0.82125449, "global_step/max_steps": "17660/21503", "percentage": "82.13%", "elapsed_time": "2d 3h 13m 43s", "remaining_time": "11h 8m 52s"}
{"loss": 0.60450583, "token_acc": 0.8450987, "grad_norm": 7.93184376, "learning_rate": 8.5e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095773, "epoch": 0.82148701, "global_step/max_steps": "17665/21503", "percentage": "82.15%", "elapsed_time": "2d 3h 14m 6s", "remaining_time": "11h 7m 53s"}
{"loss": 0.67127528, "token_acc": 0.81705325, "grad_norm": 6.51909876, "learning_rate": 8.4e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095788, "epoch": 0.82171953, "global_step/max_steps": "17670/21503", "percentage": "82.17%", "elapsed_time": "2d 3h 14m 29s", "remaining_time": "11h 6m 55s"}
{"loss": 0.62340536, "token_acc": 0.83140958, "grad_norm": 8.83043575, "learning_rate": 8.4e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095804, "epoch": 0.82195205, "global_step/max_steps": "17675/21503", "percentage": "82.20%", "elapsed_time": "2d 3h 14m 51s", "remaining_time": "11h 5m 56s"}
{"loss": 0.59468889, "token_acc": 0.84611872, "grad_norm": 10.89756775, "learning_rate": 8.4e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095818, "epoch": 0.82218457, "global_step/max_steps": "17680/21503", "percentage": "82.22%", "elapsed_time": "2d 3h 15m 15s", "remaining_time": "11h 4m 58s"}
{"loss": 0.72450991, "token_acc": 0.83364209, "grad_norm": 8.04264545, "learning_rate": 8.4e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095834, "epoch": 0.82241709, "global_step/max_steps": "17685/21503", "percentage": "82.24%", "elapsed_time": "2d 3h 15m 38s", "remaining_time": "11h 3m 59s"}
{"loss": 0.64095888, "token_acc": 0.83011705, "grad_norm": 10.03080654, "learning_rate": 8.4e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095849, "epoch": 0.8226496, "global_step/max_steps": "17690/21503", "percentage": "82.27%", "elapsed_time": "2d 3h 16m 1s", "remaining_time": "11h 3m 1s"}
{"loss": 0.77126942, "token_acc": 0.8044164, "grad_norm": 8.64129448, "learning_rate": 8.3e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095864, "epoch": 0.82288212, "global_step/max_steps": "17695/21503", "percentage": "82.29%", "elapsed_time": "2d 3h 16m 24s", "remaining_time": "11h 2m 3s"}
{"loss": 0.66352854, "token_acc": 0.82991556, "grad_norm": 8.57259846, "learning_rate": 8.3e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095879, "epoch": 0.82311464, "global_step/max_steps": "17700/21503", "percentage": "82.31%", "elapsed_time": "2d 3h 16m 48s", "remaining_time": "11h 1m 4s"}
{"eval_loss": 0.5600428, "eval_runtime": 295.028, "eval_samples_per_second": 11.779, "eval_steps_per_second": 11.779, "epoch": 0.82311464, "global_step/max_steps": "17700/21503", "percentage": "82.31%", "elapsed_time": "2d 3h 21m 43s", "remaining_time": "11h 2m 8s"}
{"loss": 0.69630113, "token_acc": 0.8337467, "grad_norm": 7.2865777, "learning_rate": 8.3e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09574, "epoch": 0.82334716, "global_step/max_steps": "17705/21503", "percentage": "82.34%", "elapsed_time": "2d 3h 22m 6s", "remaining_time": "11h 1m 9s"}
{"loss": 0.7035471, "token_acc": 0.82920581, "grad_norm": 8.24351788, "learning_rate": 8.3e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095755, "epoch": 0.82357968, "global_step/max_steps": "17710/21503", "percentage": "82.36%", "elapsed_time": "2d 3h 22m 30s", "remaining_time": "11h 0m 11s"}
{"loss": 0.69322433, "token_acc": 0.83333333, "grad_norm": 7.25821733, "learning_rate": 8.2e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09577, "epoch": 0.8238122, "global_step/max_steps": "17715/21503", "percentage": "82.38%", "elapsed_time": "2d 3h 22m 53s", "remaining_time": "10h 59m 12s"}
{"loss": 0.62067947, "token_acc": 0.83644279, "grad_norm": 6.59385872, "learning_rate": 8.2e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095786, "epoch": 0.82404471, "global_step/max_steps": "17720/21503", "percentage": "82.41%", "elapsed_time": "2d 3h 23m 16s", "remaining_time": "10h 58m 14s"}
{"loss": 0.59929738, "token_acc": 0.85154185, "grad_norm": 9.2378397, "learning_rate": 8.2e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095801, "epoch": 0.82427723, "global_step/max_steps": "17725/21503", "percentage": "82.43%", "elapsed_time": "2d 3h 23m 39s", "remaining_time": "10h 57m 16s"}
{"loss": 0.59413753, "token_acc": 0.86118757, "grad_norm": 8.55127239, "learning_rate": 8.2e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095816, "epoch": 0.82450975, "global_step/max_steps": "17730/21503", "percentage": "82.45%", "elapsed_time": "2d 3h 24m 2s", "remaining_time": "10h 56m 17s"}
{"loss": 0.57089281, "token_acc": 0.8621108, "grad_norm": 8.0841198, "learning_rate": 8.2e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095831, "epoch": 0.82474227, "global_step/max_steps": "17735/21503", "percentage": "82.48%", "elapsed_time": "2d 3h 24m 25s", "remaining_time": "10h 55m 19s"}
{"loss": 0.55533166, "token_acc": 0.85574285, "grad_norm": 8.91951561, "learning_rate": 8.1e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095846, "epoch": 0.82497479, "global_step/max_steps": "17740/21503", "percentage": "82.50%", "elapsed_time": "2d 3h 24m 48s", "remaining_time": "10h 54m 20s"}
{"loss": 0.67587719, "token_acc": 0.82694455, "grad_norm": 8.33932304, "learning_rate": 8.1e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095861, "epoch": 0.8252073, "global_step/max_steps": "17745/21503", "percentage": "82.52%", "elapsed_time": "2d 3h 25m 11s", "remaining_time": "10h 53m 22s"}
{"loss": 0.70875278, "token_acc": 0.84465634, "grad_norm": 9.17522049, "learning_rate": 8.1e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095876, "epoch": 0.82543982, "global_step/max_steps": "17750/21503", "percentage": "82.55%", "elapsed_time": "2d 3h 25m 34s", "remaining_time": "10h 52m 24s"}
{"eval_loss": 0.559012, "eval_runtime": 297.7387, "eval_samples_per_second": 11.671, "eval_steps_per_second": 11.671, "epoch": 0.82543982, "global_step/max_steps": "17750/21503", "percentage": "82.55%", "elapsed_time": "2d 3h 30m 32s", "remaining_time": "10h 53m 27s"}
{"loss": 0.57519364, "token_acc": 0.83481851, "grad_norm": 6.34136772, "learning_rate": 8.1e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095737, "epoch": 0.82567234, "global_step/max_steps": "17755/21503", "percentage": "82.57%", "elapsed_time": "2d 3h 30m 55s", "remaining_time": "10h 52m 28s"}
{"loss": 0.60618343, "token_acc": 0.83715596, "grad_norm": 10.39660263, "learning_rate": 8.1e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095752, "epoch": 0.82590486, "global_step/max_steps": "17760/21503", "percentage": "82.59%", "elapsed_time": "2d 3h 31m 18s", "remaining_time": "10h 51m 30s"}
{"loss": 0.610113, "token_acc": 0.82819048, "grad_norm": 12.56267071, "learning_rate": 8e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095767, "epoch": 0.82613738, "global_step/max_steps": "17765/21503", "percentage": "82.62%", "elapsed_time": "2d 3h 31m 41s", "remaining_time": "10h 50m 32s"}
{"loss": 0.74633985, "token_acc": 0.82053458, "grad_norm": 11.74159336, "learning_rate": 8e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095783, "epoch": 0.8263699, "global_step/max_steps": "17770/21503", "percentage": "82.64%", "elapsed_time": "2d 3h 32m 4s", "remaining_time": "10h 49m 33s"}
{"loss": 0.697504, "token_acc": 0.84095494, "grad_norm": 8.21422482, "learning_rate": 8e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095798, "epoch": 0.82660241, "global_step/max_steps": "17775/21503", "percentage": "82.66%", "elapsed_time": "2d 3h 32m 26s", "remaining_time": "10h 48m 35s"}
{"loss": 0.64955392, "token_acc": 0.83732212, "grad_norm": 10.03931427, "learning_rate": 8e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095814, "epoch": 0.82683493, "global_step/max_steps": "17780/21503", "percentage": "82.69%", "elapsed_time": "2d 3h 32m 48s", "remaining_time": "10h 47m 36s"}
{"loss": 0.79571905, "token_acc": 0.7985459, "grad_norm": 7.7651391, "learning_rate": 8e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095829, "epoch": 0.82706745, "global_step/max_steps": "17785/21503", "percentage": "82.71%", "elapsed_time": "2d 3h 33m 11s", "remaining_time": "10h 46m 38s"}
{"loss": 0.58396306, "token_acc": 0.85329554, "grad_norm": 7.19899988, "learning_rate": 7.9e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095844, "epoch": 0.82729997, "global_step/max_steps": "17790/21503", "percentage": "82.73%", "elapsed_time": "2d 3h 33m 34s", "remaining_time": "10h 45m 40s"}
{"loss": 0.57134805, "token_acc": 0.85591507, "grad_norm": 9.43734837, "learning_rate": 7.9e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095859, "epoch": 0.82753249, "global_step/max_steps": "17795/21503", "percentage": "82.76%", "elapsed_time": "2d 3h 33m 56s", "remaining_time": "10h 44m 41s"}
{"loss": 0.68556461, "token_acc": 0.81089521, "grad_norm": 9.00360203, "learning_rate": 7.9e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095874, "epoch": 0.82776501, "global_step/max_steps": "17800/21503", "percentage": "82.78%", "elapsed_time": "2d 3h 34m 20s", "remaining_time": "10h 43m 43s"}
{"eval_loss": 0.55865145, "eval_runtime": 295.621, "eval_samples_per_second": 11.755, "eval_steps_per_second": 11.755, "epoch": 0.82776501, "global_step/max_steps": "17800/21503", "percentage": "82.78%", "elapsed_time": "2d 3h 39m 16s", "remaining_time": "10h 44m 45s"}
{"loss": 0.64978004, "token_acc": 0.83430712, "grad_norm": 10.38014984, "learning_rate": 7.9e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095736, "epoch": 0.82799752, "global_step/max_steps": "17805/21503", "percentage": "82.80%", "elapsed_time": "2d 3h 39m 39s", "remaining_time": "10h 43m 46s"}
{"loss": 0.67142124, "token_acc": 0.84065724, "grad_norm": 8.71587181, "learning_rate": 7.9e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095751, "epoch": 0.82823004, "global_step/max_steps": "17810/21503", "percentage": "82.83%", "elapsed_time": "2d 3h 40m 2s", "remaining_time": "10h 42m 48s"}
{"loss": 0.56112151, "token_acc": 0.86981402, "grad_norm": 7.51601553, "learning_rate": 7.8e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095767, "epoch": 0.82846256, "global_step/max_steps": "17815/21503", "percentage": "82.85%", "elapsed_time": "2d 3h 40m 24s", "remaining_time": "10h 41m 50s"}
{"loss": 0.67102685, "token_acc": 0.82820705, "grad_norm": 11.05263424, "learning_rate": 7.8e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095782, "epoch": 0.82869508, "global_step/max_steps": "17820/21503", "percentage": "82.87%", "elapsed_time": "2d 3h 40m 47s", "remaining_time": "10h 40m 51s"}
{"loss": 0.64337678, "token_acc": 0.83308974, "grad_norm": 7.30753136, "learning_rate": 7.8e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095797, "epoch": 0.8289276, "global_step/max_steps": "17825/21503", "percentage": "82.90%", "elapsed_time": "2d 3h 41m 10s", "remaining_time": "10h 39m 53s"}
{"loss": 0.69215012, "token_acc": 0.83590463, "grad_norm": 13.03749847, "learning_rate": 7.8e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095812, "epoch": 0.82916011, "global_step/max_steps": "17830/21503", "percentage": "82.92%", "elapsed_time": "2d 3h 41m 32s", "remaining_time": "10h 38m 55s"}
{"loss": 0.73724833, "token_acc": 0.81385006, "grad_norm": 8.32682037, "learning_rate": 7.7e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095827, "epoch": 0.82939263, "global_step/max_steps": "17835/21503", "percentage": "82.94%", "elapsed_time": "2d 3h 41m 55s", "remaining_time": "10h 37m 57s"}
{"loss": 0.57069492, "token_acc": 0.8526562, "grad_norm": 8.07068443, "learning_rate": 7.7e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095842, "epoch": 0.82962515, "global_step/max_steps": "17840/21503", "percentage": "82.97%", "elapsed_time": "2d 3h 42m 19s", "remaining_time": "10h 36m 59s"}
{"loss": 0.57316723, "token_acc": 0.86510638, "grad_norm": 9.8069973, "learning_rate": 7.7e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095857, "epoch": 0.82985767, "global_step/max_steps": "17845/21503", "percentage": "82.99%", "elapsed_time": "2d 3h 42m 42s", "remaining_time": "10h 36m 1s"}
{"loss": 0.71354995, "token_acc": 0.81121045, "grad_norm": 8.05537891, "learning_rate": 7.7e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095872, "epoch": 0.83009019, "global_step/max_steps": "17850/21503", "percentage": "83.01%", "elapsed_time": "2d 3h 43m 5s", "remaining_time": "10h 35m 2s"}
{"eval_loss": 0.55928189, "eval_runtime": 293.2615, "eval_samples_per_second": 11.849, "eval_steps_per_second": 11.849, "epoch": 0.83009019, "global_step/max_steps": "17850/21503", "percentage": "83.01%", "elapsed_time": "2d 3h 47m 58s", "remaining_time": "10h 36m 2s"}
{"loss": 0.51406603, "token_acc": 0.83526337, "grad_norm": 9.66715622, "learning_rate": 7.7e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095736, "epoch": 0.83032271, "global_step/max_steps": "17855/21503", "percentage": "83.03%", "elapsed_time": "2d 3h 48m 22s", "remaining_time": "10h 35m 4s"}
{"loss": 0.58355174, "token_acc": 0.85304212, "grad_norm": 7.98625565, "learning_rate": 7.6e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095751, "epoch": 0.83055522, "global_step/max_steps": "17860/21503", "percentage": "83.06%", "elapsed_time": "2d 3h 48m 45s", "remaining_time": "10h 34m 6s"}
{"loss": 0.56633677, "token_acc": 0.85641201, "grad_norm": 8.10910797, "learning_rate": 7.6e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095766, "epoch": 0.83078774, "global_step/max_steps": "17865/21503", "percentage": "83.08%", "elapsed_time": "2d 3h 49m 7s", "remaining_time": "10h 33m 8s"}
{"loss": 0.68676171, "token_acc": 0.83973164, "grad_norm": 10.03013802, "learning_rate": 7.6e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095782, "epoch": 0.83102026, "global_step/max_steps": "17870/21503", "percentage": "83.10%", "elapsed_time": "2d 3h 49m 29s", "remaining_time": "10h 32m 9s"}
{"loss": 0.62398572, "token_acc": 0.8506363, "grad_norm": 8.07884598, "learning_rate": 7.6e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095797, "epoch": 0.83125278, "global_step/max_steps": "17875/21503", "percentage": "83.13%", "elapsed_time": "2d 3h 49m 51s", "remaining_time": "10h 31m 11s"}
{"loss": 0.61000504, "token_acc": 0.84834755, "grad_norm": 8.25673389, "learning_rate": 7.6e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095812, "epoch": 0.8314853, "global_step/max_steps": "17880/21503", "percentage": "83.15%", "elapsed_time": "2d 3h 50m 14s", "remaining_time": "10h 30m 13s"}
{"loss": 0.731464, "token_acc": 0.81456311, "grad_norm": 7.66957283, "learning_rate": 7.5e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095828, "epoch": 0.83171782, "global_step/max_steps": "17885/21503", "percentage": "83.17%", "elapsed_time": "2d 3h 50m 36s", "remaining_time": "10h 29m 15s"}
{"loss": 0.76759124, "token_acc": 0.81132075, "grad_norm": 7.99979687, "learning_rate": 7.5e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095843, "epoch": 0.83195033, "global_step/max_steps": "17890/21503", "percentage": "83.20%", "elapsed_time": "2d 3h 50m 59s", "remaining_time": "10h 28m 17s"}
{"loss": 0.59735699, "token_acc": 0.85149573, "grad_norm": 7.20661306, "learning_rate": 7.5e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095858, "epoch": 0.83218285, "global_step/max_steps": "17895/21503", "percentage": "83.22%", "elapsed_time": "2d 3h 51m 21s", "remaining_time": "10h 27m 18s"}
{"loss": 0.59340091, "token_acc": 0.85306595, "grad_norm": 8.20995331, "learning_rate": 7.5e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095874, "epoch": 0.83241537, "global_step/max_steps": "17900/21503", "percentage": "83.24%", "elapsed_time": "2d 3h 51m 44s", "remaining_time": "10h 26m 20s"}
{"eval_loss": 0.55905676, "eval_runtime": 296.3204, "eval_samples_per_second": 11.727, "eval_steps_per_second": 11.727, "epoch": 0.83241537, "global_step/max_steps": "17900/21503", "percentage": "83.24%", "elapsed_time": "2d 3h 56m 40s", "remaining_time": "10h 27m 20s"}
{"loss": 0.6626225, "token_acc": 0.83398725, "grad_norm": 6.7865715, "learning_rate": 7.5e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095736, "epoch": 0.83264789, "global_step/max_steps": "17905/21503", "percentage": "83.27%", "elapsed_time": "2d 3h 57m 4s", "remaining_time": "10h 26m 22s"}
{"loss": 0.69664836, "token_acc": 0.82447665, "grad_norm": 9.30739498, "learning_rate": 7.4e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095751, "epoch": 0.83288041, "global_step/max_steps": "17910/21503", "percentage": "83.29%", "elapsed_time": "2d 3h 57m 28s", "remaining_time": "10h 25m 24s"}
{"loss": 0.48722334, "token_acc": 0.86129597, "grad_norm": 7.47057581, "learning_rate": 7.4e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095766, "epoch": 0.83311293, "global_step/max_steps": "17915/21503", "percentage": "83.31%", "elapsed_time": "2d 3h 57m 50s", "remaining_time": "10h 24m 26s"}
{"loss": 0.67263527, "token_acc": 0.83945475, "grad_norm": 11.07879353, "learning_rate": 7.4e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095781, "epoch": 0.83334544, "global_step/max_steps": "17920/21503", "percentage": "83.34%", "elapsed_time": "2d 3h 58m 13s", "remaining_time": "10h 23m 28s"}
{"loss": 0.64486365, "token_acc": 0.82620564, "grad_norm": 8.49586582, "learning_rate": 7.4e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095796, "epoch": 0.83357796, "global_step/max_steps": "17925/21503", "percentage": "83.36%", "elapsed_time": "2d 3h 58m 36s", "remaining_time": "10h 22m 30s"}
{"loss": 0.70034795, "token_acc": 0.8189077, "grad_norm": 6.00453997, "learning_rate": 7.4e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09581, "epoch": 0.83381048, "global_step/max_steps": "17930/21503", "percentage": "83.38%", "elapsed_time": "2d 3h 59m 0s", "remaining_time": "10h 21m 32s"}
{"loss": 0.67351198, "token_acc": 0.8234676, "grad_norm": 10.69922543, "learning_rate": 7.3e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095825, "epoch": 0.834043, "global_step/max_steps": "17935/21503", "percentage": "83.41%", "elapsed_time": "2d 3h 59m 23s", "remaining_time": "10h 20m 34s"}
{"loss": 0.79575214, "token_acc": 0.80790718, "grad_norm": 13.28243542, "learning_rate": 7.3e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09584, "epoch": 0.83427552, "global_step/max_steps": "17940/21503", "percentage": "83.43%", "elapsed_time": "2d 3h 59m 46s", "remaining_time": "10h 19m 36s"}
{"loss": 0.67399292, "token_acc": 0.83983573, "grad_norm": 7.70728636, "learning_rate": 7.3e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095855, "epoch": 0.83450803, "global_step/max_steps": "17945/21503", "percentage": "83.45%", "elapsed_time": "2d 4h 0m 9s", "remaining_time": "10h 18m 38s"}
{"loss": 0.5859808, "token_acc": 0.86038078, "grad_norm": 12.17508221, "learning_rate": 7.3e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09587, "epoch": 0.83474055, "global_step/max_steps": "17950/21503", "percentage": "83.48%", "elapsed_time": "2d 4h 0m 31s", "remaining_time": "10h 17m 40s"}
{"eval_loss": 0.55835116, "eval_runtime": 291.943, "eval_samples_per_second": 11.903, "eval_steps_per_second": 11.903, "epoch": 0.83474055, "global_step/max_steps": "17950/21503", "percentage": "83.48%", "elapsed_time": "2d 4h 5m 23s", "remaining_time": "10h 18m 38s"}
{"loss": 0.60259266, "token_acc": 0.83476635, "grad_norm": 8.12136269, "learning_rate": 7.3e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095736, "epoch": 0.83497307, "global_step/max_steps": "17955/21503", "percentage": "83.50%", "elapsed_time": "2d 4h 5m 47s", "remaining_time": "10h 17m 40s"}
{"loss": 0.7775435, "token_acc": 0.80442804, "grad_norm": 13.32832241, "learning_rate": 7.2e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095751, "epoch": 0.83520559, "global_step/max_steps": "17960/21503", "percentage": "83.52%", "elapsed_time": "2d 4h 6m 10s", "remaining_time": "10h 16m 42s"}
{"loss": 0.67704344, "token_acc": 0.83310992, "grad_norm": 8.01628017, "learning_rate": 7.2e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095766, "epoch": 0.83543811, "global_step/max_steps": "17965/21503", "percentage": "83.55%", "elapsed_time": "2d 4h 6m 33s", "remaining_time": "10h 15m 44s"}
{"loss": 0.57274327, "token_acc": 0.85370303, "grad_norm": 9.89971733, "learning_rate": 7.2e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095781, "epoch": 0.83567063, "global_step/max_steps": "17970/21503", "percentage": "83.57%", "elapsed_time": "2d 4h 6m 55s", "remaining_time": "10h 14m 46s"}
{"loss": 0.62816005, "token_acc": 0.84615385, "grad_norm": 9.24028969, "learning_rate": 7.2e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095796, "epoch": 0.83590314, "global_step/max_steps": "17975/21503", "percentage": "83.59%", "elapsed_time": "2d 4h 7m 18s", "remaining_time": "10h 13m 48s"}
{"loss": 0.86792908, "token_acc": 0.79223602, "grad_norm": 9.35508823, "learning_rate": 7.2e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095811, "epoch": 0.83613566, "global_step/max_steps": "17980/21503", "percentage": "83.62%", "elapsed_time": "2d 4h 7m 40s", "remaining_time": "10h 12m 50s"}
{"loss": 0.63451662, "token_acc": 0.8389313, "grad_norm": 9.1951437, "learning_rate": 7.1e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095826, "epoch": 0.83636818, "global_step/max_steps": "17985/21503", "percentage": "83.64%", "elapsed_time": "2d 4h 8m 3s", "remaining_time": "10h 11m 52s"}
{"loss": 0.69026055, "token_acc": 0.83419333, "grad_norm": 7.39987803, "learning_rate": 7.1e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095841, "epoch": 0.8366007, "global_step/max_steps": "17990/21503", "percentage": "83.66%", "elapsed_time": "2d 4h 8m 26s", "remaining_time": "10h 10m 54s"}
{"loss": 0.63386383, "token_acc": 0.83943555, "grad_norm": 9.45226288, "learning_rate": 7.1e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095856, "epoch": 0.83683322, "global_step/max_steps": "17995/21503", "percentage": "83.69%", "elapsed_time": "2d 4h 8m 49s", "remaining_time": "10h 9m 56s"}
{"loss": 0.61254458, "token_acc": 0.84035656, "grad_norm": 9.15321064, "learning_rate": 7.1e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095871, "epoch": 0.83706574, "global_step/max_steps": "18000/21503", "percentage": "83.71%", "elapsed_time": "2d 4h 9m 12s", "remaining_time": "10h 8m 58s"}
{"eval_loss": 0.55811346, "eval_runtime": 293.9767, "eval_samples_per_second": 11.821, "eval_steps_per_second": 11.821, "epoch": 0.83706574, "global_step/max_steps": "18000/21503", "percentage": "83.71%", "elapsed_time": "2d 4h 14m 6s", "remaining_time": "10h 9m 56s"}
{"loss": 0.76232696, "token_acc": 0.83327223, "grad_norm": 9.34335136, "learning_rate": 7.1e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095735, "epoch": 0.83729825, "global_step/max_steps": "18005/21503", "percentage": "83.73%", "elapsed_time": "2d 4h 14m 30s", "remaining_time": "10h 8m 58s"}
{"loss": 0.6272819, "token_acc": 0.83161117, "grad_norm": 9.57458115, "learning_rate": 7e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09575, "epoch": 0.83753077, "global_step/max_steps": "18010/21503", "percentage": "83.76%", "elapsed_time": "2d 4h 14m 53s", "remaining_time": "10h 8m 0s"}
{"loss": 0.63612843, "token_acc": 0.8403452, "grad_norm": 8.99874687, "learning_rate": 7e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095765, "epoch": 0.83776329, "global_step/max_steps": "18015/21503", "percentage": "83.78%", "elapsed_time": "2d 4h 15m 16s", "remaining_time": "10h 7m 2s"}
{"loss": 0.51761022, "token_acc": 0.87881098, "grad_norm": 8.09822559, "learning_rate": 7e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09578, "epoch": 0.83799581, "global_step/max_steps": "18020/21503", "percentage": "83.80%", "elapsed_time": "2d 4h 15m 39s", "remaining_time": "10h 6m 4s"}
{"loss": 0.66349635, "token_acc": 0.83236246, "grad_norm": 6.41280079, "learning_rate": 7e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095795, "epoch": 0.83822833, "global_step/max_steps": "18025/21503", "percentage": "83.83%", "elapsed_time": "2d 4h 16m 2s", "remaining_time": "10h 5m 6s"}
{"loss": 0.61159205, "token_acc": 0.8481153, "grad_norm": 10.50070095, "learning_rate": 7e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09581, "epoch": 0.83846085, "global_step/max_steps": "18030/21503", "percentage": "83.85%", "elapsed_time": "2d 4h 16m 25s", "remaining_time": "10h 4m 8s"}
{"loss": 0.58789735, "token_acc": 0.85446009, "grad_norm": 9.04712582, "learning_rate": 6.9e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095825, "epoch": 0.83869336, "global_step/max_steps": "18035/21503", "percentage": "83.87%", "elapsed_time": "2d 4h 16m 48s", "remaining_time": "10h 3m 11s"}
{"loss": 0.59659595, "token_acc": 0.85259434, "grad_norm": 8.66165733, "learning_rate": 6.9e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095839, "epoch": 0.83892588, "global_step/max_steps": "18040/21503", "percentage": "83.90%", "elapsed_time": "2d 4h 17m 11s", "remaining_time": "10h 2m 13s"}
{"loss": 0.61839533, "token_acc": 0.84434898, "grad_norm": 8.69489098, "learning_rate": 6.9e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095854, "epoch": 0.8391584, "global_step/max_steps": "18045/21503", "percentage": "83.92%", "elapsed_time": "2d 4h 17m 33s", "remaining_time": "10h 1m 15s"}
{"loss": 0.56013761, "token_acc": 0.85971223, "grad_norm": 8.67991734, "learning_rate": 6.9e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095869, "epoch": 0.83939092, "global_step/max_steps": "18050/21503", "percentage": "83.94%", "elapsed_time": "2d 4h 17m 56s", "remaining_time": "10h 0m 17s"}
{"eval_loss": 0.55845678, "eval_runtime": 292.551, "eval_samples_per_second": 11.878, "eval_steps_per_second": 11.878, "epoch": 0.83939092, "global_step/max_steps": "18050/21503", "percentage": "83.94%", "elapsed_time": "2d 4h 22m 49s", "remaining_time": "10h 1m 13s"}
{"loss": 0.57641397, "token_acc": 0.83496152, "grad_norm": 8.07751083, "learning_rate": 6.9e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095736, "epoch": 0.83962344, "global_step/max_steps": "18055/21503", "percentage": "83.97%", "elapsed_time": "2d 4h 23m 12s", "remaining_time": "10h 0m 15s"}
{"loss": 0.66126857, "token_acc": 0.83298884, "grad_norm": 10.26637936, "learning_rate": 6.8e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095751, "epoch": 0.83985595, "global_step/max_steps": "18060/21503", "percentage": "83.99%", "elapsed_time": "2d 4h 23m 34s", "remaining_time": "9h 59m 17s"}
{"loss": 0.6555274, "token_acc": 0.84327568, "grad_norm": 9.36128139, "learning_rate": 6.8e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095766, "epoch": 0.84008847, "global_step/max_steps": "18065/21503", "percentage": "84.01%", "elapsed_time": "2d 4h 23m 57s", "remaining_time": "9h 58m 20s"}
{"loss": 0.60300984, "token_acc": 0.85136468, "grad_norm": 7.15318394, "learning_rate": 6.8e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095781, "epoch": 0.84032099, "global_step/max_steps": "18070/21503", "percentage": "84.03%", "elapsed_time": "2d 4h 24m 20s", "remaining_time": "9h 57m 22s"}
{"loss": 0.60146322, "token_acc": 0.84040996, "grad_norm": 8.6301918, "learning_rate": 6.8e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095795, "epoch": 0.84055351, "global_step/max_steps": "18075/21503", "percentage": "84.06%", "elapsed_time": "2d 4h 24m 43s", "remaining_time": "9h 56m 24s"}
{"loss": 0.59193325, "token_acc": 0.84557867, "grad_norm": 6.67198944, "learning_rate": 6.8e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09581, "epoch": 0.84078603, "global_step/max_steps": "18080/21503", "percentage": "84.08%", "elapsed_time": "2d 4h 25m 6s", "remaining_time": "9h 55m 26s"}
{"loss": 0.65214863, "token_acc": 0.8404094, "grad_norm": 8.64497662, "learning_rate": 6.8e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095825, "epoch": 0.84101855, "global_step/max_steps": "18085/21503", "percentage": "84.10%", "elapsed_time": "2d 4h 25m 29s", "remaining_time": "9h 54m 29s"}
{"loss": 0.53949695, "token_acc": 0.8701394, "grad_norm": 8.98929024, "learning_rate": 6.7e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095839, "epoch": 0.84125106, "global_step/max_steps": "18090/21503", "percentage": "84.13%", "elapsed_time": "2d 4h 25m 53s", "remaining_time": "9h 53m 31s"}
{"loss": 0.60683379, "token_acc": 0.86342043, "grad_norm": 14.60966396, "learning_rate": 6.7e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095854, "epoch": 0.84148358, "global_step/max_steps": "18095/21503", "percentage": "84.15%", "elapsed_time": "2d 4h 26m 15s", "remaining_time": "9h 52m 33s"}
{"loss": 0.60841722, "token_acc": 0.84885705, "grad_norm": 8.15031147, "learning_rate": 6.7e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095869, "epoch": 0.8417161, "global_step/max_steps": "18100/21503", "percentage": "84.17%", "elapsed_time": "2d 4h 26m 38s", "remaining_time": "9h 51m 36s"}
{"eval_loss": 0.55879736, "eval_runtime": 292.6113, "eval_samples_per_second": 11.876, "eval_steps_per_second": 11.876, "epoch": 0.8417161, "global_step/max_steps": "18100/21503", "percentage": "84.17%", "elapsed_time": "2d 4h 31m 31s", "remaining_time": "9h 52m 31s"}
{"loss": 0.7102108, "token_acc": 0.83408933, "grad_norm": 9.31425285, "learning_rate": 6.7e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095735, "epoch": 0.84194862, "global_step/max_steps": "18105/21503", "percentage": "84.20%", "elapsed_time": "2d 4h 31m 55s", "remaining_time": "9h 51m 33s"}
{"loss": 0.57914386, "token_acc": 0.85775249, "grad_norm": 10.72185421, "learning_rate": 6.7e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09575, "epoch": 0.84218114, "global_step/max_steps": "18110/21503", "percentage": "84.22%", "elapsed_time": "2d 4h 32m 18s", "remaining_time": "9h 50m 36s"}
{"loss": 0.78994961, "token_acc": 0.79497751, "grad_norm": 9.09092808, "learning_rate": 6.6e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095764, "epoch": 0.84241366, "global_step/max_steps": "18115/21503", "percentage": "84.24%", "elapsed_time": "2d 4h 32m 42s", "remaining_time": "9h 49m 38s"}
{"loss": 0.74919958, "token_acc": 0.80683919, "grad_norm": 5.77055836, "learning_rate": 6.6e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095778, "epoch": 0.84264617, "global_step/max_steps": "18120/21503", "percentage": "84.27%", "elapsed_time": "2d 4h 33m 6s", "remaining_time": "9h 48m 41s"}
{"loss": 0.77201214, "token_acc": 0.81149504, "grad_norm": 7.77915335, "learning_rate": 6.6e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095793, "epoch": 0.84287869, "global_step/max_steps": "18125/21503", "percentage": "84.29%", "elapsed_time": "2d 4h 33m 29s", "remaining_time": "9h 47m 43s"}
{"loss": 0.63256674, "token_acc": 0.84814351, "grad_norm": 10.11951923, "learning_rate": 6.6e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095808, "epoch": 0.84311121, "global_step/max_steps": "18130/21503", "percentage": "84.31%", "elapsed_time": "2d 4h 33m 52s", "remaining_time": "9h 46m 45s"}
{"loss": 0.78093352, "token_acc": 0.80592992, "grad_norm": 9.07245255, "learning_rate": 6.6e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095822, "epoch": 0.84334373, "global_step/max_steps": "18135/21503", "percentage": "84.34%", "elapsed_time": "2d 4h 34m 16s", "remaining_time": "9h 45m 48s"}
{"loss": 0.66695247, "token_acc": 0.83562152, "grad_norm": 8.5133791, "learning_rate": 6.5e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095837, "epoch": 0.84357625, "global_step/max_steps": "18140/21503", "percentage": "84.36%", "elapsed_time": "2d 4h 34m 39s", "remaining_time": "9h 44m 50s"}
{"loss": 0.56200862, "token_acc": 0.86363636, "grad_norm": 7.08794308, "learning_rate": 6.5e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095852, "epoch": 0.84380877, "global_step/max_steps": "18145/21503", "percentage": "84.38%", "elapsed_time": "2d 4h 35m 2s", "remaining_time": "9h 43m 53s"}
{"loss": 0.60777693, "token_acc": 0.84661881, "grad_norm": 7.02882719, "learning_rate": 6.5e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095867, "epoch": 0.84404128, "global_step/max_steps": "18150/21503", "percentage": "84.41%", "elapsed_time": "2d 4h 35m 25s", "remaining_time": "9h 42m 55s"}
{"eval_loss": 0.55839944, "eval_runtime": 296.5266, "eval_samples_per_second": 11.719, "eval_steps_per_second": 11.719, "epoch": 0.84404128, "global_step/max_steps": "18150/21503", "percentage": "84.41%", "elapsed_time": "2d 4h 40m 21s", "remaining_time": "9h 43m 50s"}
{"loss": 0.51841359, "token_acc": 0.83554784, "grad_norm": 9.41649342, "learning_rate": 6.5e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095731, "epoch": 0.8442738, "global_step/max_steps": "18155/21503", "percentage": "84.43%", "elapsed_time": "2d 4h 40m 46s", "remaining_time": "9h 42m 53s"}
{"loss": 0.64052424, "token_acc": 0.84162896, "grad_norm": 9.20058918, "learning_rate": 6.5e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095746, "epoch": 0.84450632, "global_step/max_steps": "18160/21503", "percentage": "84.45%", "elapsed_time": "2d 4h 41m 9s", "remaining_time": "9h 41m 55s"}
{"loss": 0.58884983, "token_acc": 0.84496403, "grad_norm": 6.79008722, "learning_rate": 6.4e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09576, "epoch": 0.84473884, "global_step/max_steps": "18165/21503", "percentage": "84.48%", "elapsed_time": "2d 4h 41m 32s", "remaining_time": "9h 40m 57s"}
{"loss": 0.55579023, "token_acc": 0.86080586, "grad_norm": 8.71141434, "learning_rate": 6.4e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095775, "epoch": 0.84497136, "global_step/max_steps": "18170/21503", "percentage": "84.50%", "elapsed_time": "2d 4h 41m 54s", "remaining_time": "9h 40m 0s"}
{"loss": 0.66135654, "token_acc": 0.83361823, "grad_norm": 7.43539095, "learning_rate": 6.4e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095789, "epoch": 0.84520387, "global_step/max_steps": "18175/21503", "percentage": "84.52%", "elapsed_time": "2d 4h 42m 19s", "remaining_time": "9h 39m 2s"}
{"loss": 0.6953455, "token_acc": 0.83093146, "grad_norm": 8.60582352, "learning_rate": 6.4e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095804, "epoch": 0.84543639, "global_step/max_steps": "18180/21503", "percentage": "84.55%", "elapsed_time": "2d 4h 42m 41s", "remaining_time": "9h 38m 5s"}
{"loss": 0.70362272, "token_acc": 0.82489627, "grad_norm": 6.16467333, "learning_rate": 6.4e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095819, "epoch": 0.84566891, "global_step/max_steps": "18185/21503", "percentage": "84.57%", "elapsed_time": "2d 4h 43m 5s", "remaining_time": "9h 37m 7s"}
{"loss": 0.5725512, "token_acc": 0.85122807, "grad_norm": 11.07166767, "learning_rate": 6.4e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095833, "epoch": 0.84590143, "global_step/max_steps": "18190/21503", "percentage": "84.59%", "elapsed_time": "2d 4h 43m 29s", "remaining_time": "9h 36m 10s"}
{"loss": 0.79597411, "token_acc": 0.79780006, "grad_norm": 13.57465839, "learning_rate": 6.3e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095847, "epoch": 0.84613395, "global_step/max_steps": "18195/21503", "percentage": "84.62%", "elapsed_time": "2d 4h 43m 52s", "remaining_time": "9h 35m 13s"}
{"loss": 0.67181711, "token_acc": 0.83212735, "grad_norm": 6.55999517, "learning_rate": 6.3e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095862, "epoch": 0.84636647, "global_step/max_steps": "18200/21503", "percentage": "84.64%", "elapsed_time": "2d 4h 44m 15s", "remaining_time": "9h 34m 15s"}
{"eval_loss": 0.55787086, "eval_runtime": 290.8952, "eval_samples_per_second": 11.946, "eval_steps_per_second": 11.946, "epoch": 0.84636647, "global_step/max_steps": "18200/21503", "percentage": "84.64%", "elapsed_time": "2d 4h 49m 6s", "remaining_time": "9h 35m 8s"}
{"loss": 0.61859598, "token_acc": 0.83484208, "grad_norm": 8.80599785, "learning_rate": 6.3e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09573, "epoch": 0.84659898, "global_step/max_steps": "18205/21503", "percentage": "84.66%", "elapsed_time": "2d 4h 49m 29s", "remaining_time": "9h 34m 10s"}
{"loss": 0.64301872, "token_acc": 0.82970297, "grad_norm": 9.28918552, "learning_rate": 6.3e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095745, "epoch": 0.8468315, "global_step/max_steps": "18210/21503", "percentage": "84.69%", "elapsed_time": "2d 4h 49m 53s", "remaining_time": "9h 33m 13s"}
{"loss": 0.73909059, "token_acc": 0.80188393, "grad_norm": 8.73018742, "learning_rate": 6.3e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095759, "epoch": 0.84706402, "global_step/max_steps": "18215/21503", "percentage": "84.71%", "elapsed_time": "2d 4h 50m 16s", "remaining_time": "9h 32m 16s"}
{"loss": 0.70590091, "token_acc": 0.81620429, "grad_norm": 7.18215322, "learning_rate": 6.2e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095774, "epoch": 0.84729654, "global_step/max_steps": "18220/21503", "percentage": "84.73%", "elapsed_time": "2d 4h 50m 39s", "remaining_time": "9h 31m 18s"}
{"loss": 0.68410769, "token_acc": 0.82297364, "grad_norm": 8.97643566, "learning_rate": 6.2e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095788, "epoch": 0.84752906, "global_step/max_steps": "18225/21503", "percentage": "84.76%", "elapsed_time": "2d 4h 51m 3s", "remaining_time": "9h 30m 21s"}
{"loss": 0.55129418, "token_acc": 0.86025521, "grad_norm": 7.97347116, "learning_rate": 6.2e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095803, "epoch": 0.84776158, "global_step/max_steps": "18230/21503", "percentage": "84.78%", "elapsed_time": "2d 4h 51m 26s", "remaining_time": "9h 29m 23s"}
{"loss": 0.63143749, "token_acc": 0.83961593, "grad_norm": 8.2588377, "learning_rate": 6.2e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095818, "epoch": 0.84799409, "global_step/max_steps": "18235/21503", "percentage": "84.80%", "elapsed_time": "2d 4h 51m 48s", "remaining_time": "9h 28m 26s"}
{"loss": 0.62988825, "token_acc": 0.84511901, "grad_norm": 9.10682964, "learning_rate": 6.2e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095832, "epoch": 0.84822661, "global_step/max_steps": "18240/21503", "percentage": "84.83%", "elapsed_time": "2d 4h 52m 11s", "remaining_time": "9h 27m 28s"}
{"loss": 0.55759978, "token_acc": 0.85384615, "grad_norm": 9.71141624, "learning_rate": 6.1e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095847, "epoch": 0.84845913, "global_step/max_steps": "18245/21503", "percentage": "84.85%", "elapsed_time": "2d 4h 52m 36s", "remaining_time": "9h 26m 31s"}
{"loss": 0.56914492, "token_acc": 0.85343619, "grad_norm": 7.33255529, "learning_rate": 6.1e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095861, "epoch": 0.84869165, "global_step/max_steps": "18250/21503", "percentage": "84.87%", "elapsed_time": "2d 4h 52m 59s", "remaining_time": "9h 25m 34s"}
{"eval_loss": 0.55851024, "eval_runtime": 291.6188, "eval_samples_per_second": 11.916, "eval_steps_per_second": 11.916, "epoch": 0.84869165, "global_step/max_steps": "18250/21503", "percentage": "84.87%", "elapsed_time": "2d 4h 57m 50s", "remaining_time": "9h 26m 26s"}
{"loss": 0.6675292, "token_acc": 0.8349339, "grad_norm": 7.50723124, "learning_rate": 6.1e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095729, "epoch": 0.84892417, "global_step/max_steps": "18255/21503", "percentage": "84.90%", "elapsed_time": "2d 4h 58m 14s", "remaining_time": "9h 25m 29s"}
{"loss": 0.65015383, "token_acc": 0.83487408, "grad_norm": 7.45082331, "learning_rate": 6.1e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095744, "epoch": 0.84915669, "global_step/max_steps": "18260/21503", "percentage": "84.92%", "elapsed_time": "2d 4h 58m 37s", "remaining_time": "9h 24m 31s"}
{"loss": 0.75284677, "token_acc": 0.82891566, "grad_norm": 11.34519577, "learning_rate": 6.1e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095758, "epoch": 0.8493892, "global_step/max_steps": "18265/21503", "percentage": "84.94%", "elapsed_time": "2d 4h 59m 0s", "remaining_time": "9h 23m 34s"}
{"loss": 0.71205111, "token_acc": 0.83255814, "grad_norm": 9.89245796, "learning_rate": 6.1e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095773, "epoch": 0.84962172, "global_step/max_steps": "18270/21503", "percentage": "84.96%", "elapsed_time": "2d 4h 59m 23s", "remaining_time": "9h 22m 36s"}
{"loss": 0.67736292, "token_acc": 0.83918595, "grad_norm": 9.03705406, "learning_rate": 6e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095788, "epoch": 0.84985424, "global_step/max_steps": "18275/21503", "percentage": "84.99%", "elapsed_time": "2d 4h 59m 45s", "remaining_time": "9h 21m 39s"}
{"loss": 0.48967576, "token_acc": 0.87331536, "grad_norm": 9.72851849, "learning_rate": 6e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095803, "epoch": 0.85008676, "global_step/max_steps": "18280/21503", "percentage": "85.01%", "elapsed_time": "2d 5h 0m 8s", "remaining_time": "9h 20m 41s"}
{"loss": 0.67098989, "token_acc": 0.82875491, "grad_norm": 11.34868526, "learning_rate": 6e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095818, "epoch": 0.85031928, "global_step/max_steps": "18285/21503", "percentage": "85.03%", "elapsed_time": "2d 5h 0m 30s", "remaining_time": "9h 19m 44s"}
{"loss": 0.57372394, "token_acc": 0.85503582, "grad_norm": 11.7138176, "learning_rate": 6e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095832, "epoch": 0.85055179, "global_step/max_steps": "18290/21503", "percentage": "85.06%", "elapsed_time": "2d 5h 0m 54s", "remaining_time": "9h 18m 47s"}
{"loss": 0.58139448, "token_acc": 0.85329018, "grad_norm": 8.77761555, "learning_rate": 6e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095847, "epoch": 0.85078431, "global_step/max_steps": "18295/21503", "percentage": "85.08%", "elapsed_time": "2d 5h 1m 17s", "remaining_time": "9h 17m 50s"}
{"loss": 0.53083153, "token_acc": 0.85651491, "grad_norm": 9.69142151, "learning_rate": 5.9e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095861, "epoch": 0.85101683, "global_step/max_steps": "18300/21503", "percentage": "85.10%", "elapsed_time": "2d 5h 1m 40s", "remaining_time": "9h 16m 52s"}
{"eval_loss": 0.55766565, "eval_runtime": 292.1527, "eval_samples_per_second": 11.894, "eval_steps_per_second": 11.894, "epoch": 0.85101683, "global_step/max_steps": "18300/21503", "percentage": "85.10%", "elapsed_time": "2d 5h 6m 32s", "remaining_time": "9h 17m 43s"}
{"loss": 0.67600493, "token_acc": 0.83421134, "grad_norm": 9.32603836, "learning_rate": 5.9e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095729, "epoch": 0.85124935, "global_step/max_steps": "18305/21503", "percentage": "85.13%", "elapsed_time": "2d 5h 6m 56s", "remaining_time": "9h 16m 46s"}
{"loss": 0.74871316, "token_acc": 0.80749258, "grad_norm": 5.7671771, "learning_rate": 5.9e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095744, "epoch": 0.85148187, "global_step/max_steps": "18310/21503", "percentage": "85.15%", "elapsed_time": "2d 5h 7m 19s", "remaining_time": "9h 15m 49s"}
{"loss": 0.74493589, "token_acc": 0.81186284, "grad_norm": 7.88969469, "learning_rate": 5.9e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095758, "epoch": 0.85171439, "global_step/max_steps": "18315/21503", "percentage": "85.17%", "elapsed_time": "2d 5h 7m 42s", "remaining_time": "9h 14m 52s"}
{"loss": 0.65708256, "token_acc": 0.83115093, "grad_norm": 7.96507168, "learning_rate": 5.9e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095773, "epoch": 0.8519469, "global_step/max_steps": "18320/21503", "percentage": "85.20%", "elapsed_time": "2d 5h 8m 6s", "remaining_time": "9h 13m 54s"}
{"loss": 0.70975137, "token_acc": 0.83373301, "grad_norm": 10.87494469, "learning_rate": 5.9e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095787, "epoch": 0.85217942, "global_step/max_steps": "18325/21503", "percentage": "85.22%", "elapsed_time": "2d 5h 8m 28s", "remaining_time": "9h 12m 57s"}
{"loss": 0.70303392, "token_acc": 0.83766234, "grad_norm": 8.72624397, "learning_rate": 5.8e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095802, "epoch": 0.85241194, "global_step/max_steps": "18330/21503", "percentage": "85.24%", "elapsed_time": "2d 5h 8m 52s", "remaining_time": "9h 12m 0s"}
{"loss": 0.57980595, "token_acc": 0.84910394, "grad_norm": 10.56374168, "learning_rate": 5.8e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095817, "epoch": 0.85264446, "global_step/max_steps": "18335/21503", "percentage": "85.27%", "elapsed_time": "2d 5h 9m 14s", "remaining_time": "9h 11m 3s"}
{"loss": 0.7150753, "token_acc": 0.8208006, "grad_norm": 8.76270294, "learning_rate": 5.8e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095831, "epoch": 0.85287698, "global_step/max_steps": "18340/21503", "percentage": "85.29%", "elapsed_time": "2d 5h 9m 38s", "remaining_time": "9h 10m 5s"}
{"loss": 0.58096972, "token_acc": 0.86594761, "grad_norm": 8.71105099, "learning_rate": 5.8e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095845, "epoch": 0.8531095, "global_step/max_steps": "18345/21503", "percentage": "85.31%", "elapsed_time": "2d 5h 10m 1s", "remaining_time": "9h 9m 8s"}
{"loss": 0.68178282, "token_acc": 0.83693257, "grad_norm": 9.377635, "learning_rate": 5.8e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09586, "epoch": 0.85334201, "global_step/max_steps": "18350/21503", "percentage": "85.34%", "elapsed_time": "2d 5h 10m 24s", "remaining_time": "9h 8m 11s"}
{"eval_loss": 0.55779928, "eval_runtime": 294.47, "eval_samples_per_second": 11.801, "eval_steps_per_second": 11.801, "epoch": 0.85334201, "global_step/max_steps": "18350/21503", "percentage": "85.34%", "elapsed_time": "2d 5h 15m 18s", "remaining_time": "9h 9m 2s"}
{"loss": 0.64079795, "token_acc": 0.83432, "grad_norm": 10.52547455, "learning_rate": 5.7e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095727, "epoch": 0.85357453, "global_step/max_steps": "18355/21503", "percentage": "85.36%", "elapsed_time": "2d 5h 15m 42s", "remaining_time": "9h 8m 4s"}
{"loss": 0.69946146, "token_acc": 0.81560799, "grad_norm": 8.02486134, "learning_rate": 5.7e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095742, "epoch": 0.85380705, "global_step/max_steps": "18360/21503", "percentage": "85.38%", "elapsed_time": "2d 5h 16m 5s", "remaining_time": "9h 7m 7s"}
{"loss": 0.63584123, "token_acc": 0.82273948, "grad_norm": 7.52423811, "learning_rate": 5.7e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095756, "epoch": 0.85403957, "global_step/max_steps": "18365/21503", "percentage": "85.41%", "elapsed_time": "2d 5h 16m 28s", "remaining_time": "9h 6m 10s"}
{"loss": 0.57699142, "token_acc": 0.8603263, "grad_norm": 8.94053745, "learning_rate": 5.7e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095771, "epoch": 0.85427209, "global_step/max_steps": "18370/21503", "percentage": "85.43%", "elapsed_time": "2d 5h 16m 50s", "remaining_time": "9h 5m 13s"}
{"loss": 0.80547485, "token_acc": 0.79174484, "grad_norm": 9.15753269, "learning_rate": 5.7e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095786, "epoch": 0.85450461, "global_step/max_steps": "18375/21503", "percentage": "85.45%", "elapsed_time": "2d 5h 17m 14s", "remaining_time": "9h 4m 16s"}
{"loss": 0.66510596, "token_acc": 0.83681214, "grad_norm": 10.06224537, "learning_rate": 5.7e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.0958, "epoch": 0.85473712, "global_step/max_steps": "18380/21503", "percentage": "85.48%", "elapsed_time": "2d 5h 17m 37s", "remaining_time": "9h 3m 19s"}
{"loss": 0.60119619, "token_acc": 0.85560676, "grad_norm": 6.02538395, "learning_rate": 5.6e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095815, "epoch": 0.85496964, "global_step/max_steps": "18385/21503", "percentage": "85.50%", "elapsed_time": "2d 5h 18m 0s", "remaining_time": "9h 2m 21s"}
{"loss": 0.56665912, "token_acc": 0.8518024, "grad_norm": 7.60221434, "learning_rate": 5.6e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095829, "epoch": 0.85520216, "global_step/max_steps": "18390/21503", "percentage": "85.52%", "elapsed_time": "2d 5h 18m 23s", "remaining_time": "9h 1m 24s"}
{"loss": 0.48615289, "token_acc": 0.87710498, "grad_norm": 7.26624632, "learning_rate": 5.6e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095844, "epoch": 0.85543468, "global_step/max_steps": "18395/21503", "percentage": "85.55%", "elapsed_time": "2d 5h 18m 46s", "remaining_time": "9h 0m 27s"}
{"loss": 0.75594926, "token_acc": 0.82223747, "grad_norm": 9.02225876, "learning_rate": 5.6e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095859, "epoch": 0.8556672, "global_step/max_steps": "18400/21503", "percentage": "85.57%", "elapsed_time": "2d 5h 19m 9s", "remaining_time": "8h 59m 30s"}
{"eval_loss": 0.55776298, "eval_runtime": 292.6222, "eval_samples_per_second": 11.875, "eval_steps_per_second": 11.875, "epoch": 0.8556672, "global_step/max_steps": "18400/21503", "percentage": "85.57%", "elapsed_time": "2d 5h 24m 1s", "remaining_time": "9h 0m 19s"}
{"loss": 0.67267704, "token_acc": 0.83422678, "grad_norm": 9.03307915, "learning_rate": 5.6e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095727, "epoch": 0.85589971, "global_step/max_steps": "18405/21503", "percentage": "85.59%", "elapsed_time": "2d 5h 24m 24s", "remaining_time": "8h 59m 22s"}
{"loss": 0.6182632, "token_acc": 0.85207777, "grad_norm": 9.24986076, "learning_rate": 5.6e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095742, "epoch": 0.85613223, "global_step/max_steps": "18410/21503", "percentage": "85.62%", "elapsed_time": "2d 5h 24m 47s", "remaining_time": "8h 58m 25s"}
{"loss": 0.65151167, "token_acc": 0.83408216, "grad_norm": 8.26985645, "learning_rate": 5.5e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095756, "epoch": 0.85636475, "global_step/max_steps": "18415/21503", "percentage": "85.64%", "elapsed_time": "2d 5h 25m 11s", "remaining_time": "8h 57m 28s"}
{"loss": 0.61444411, "token_acc": 0.84784411, "grad_norm": 9.46462822, "learning_rate": 5.5e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095771, "epoch": 0.85659727, "global_step/max_steps": "18420/21503", "percentage": "85.66%", "elapsed_time": "2d 5h 25m 34s", "remaining_time": "8h 56m 31s"}
{"loss": 0.64643517, "token_acc": 0.85109983, "grad_norm": 10.57638359, "learning_rate": 5.5e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095785, "epoch": 0.85682979, "global_step/max_steps": "18425/21503", "percentage": "85.69%", "elapsed_time": "2d 5h 25m 56s", "remaining_time": "8h 55m 34s"}
{"loss": 0.60132546, "token_acc": 0.86177275, "grad_norm": 7.95229006, "learning_rate": 5.5e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.0958, "epoch": 0.85706231, "global_step/max_steps": "18430/21503", "percentage": "85.71%", "elapsed_time": "2d 5h 26m 19s", "remaining_time": "8h 54m 37s"}
{"loss": 0.72236977, "token_acc": 0.82378994, "grad_norm": 8.24420929, "learning_rate": 5.5e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095815, "epoch": 0.85729482, "global_step/max_steps": "18435/21503", "percentage": "85.73%", "elapsed_time": "2d 5h 26m 41s", "remaining_time": "8h 53m 40s"}
{"loss": 0.74408574, "token_acc": 0.81794349, "grad_norm": 7.92893505, "learning_rate": 5.4e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095829, "epoch": 0.85752734, "global_step/max_steps": "18440/21503", "percentage": "85.76%", "elapsed_time": "2d 5h 27m 5s", "remaining_time": "8h 52m 43s"}
{"loss": 0.67552266, "token_acc": 0.83333333, "grad_norm": 8.39036751, "learning_rate": 5.4e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095844, "epoch": 0.85775986, "global_step/max_steps": "18445/21503", "percentage": "85.78%", "elapsed_time": "2d 5h 27m 28s", "remaining_time": "8h 51m 46s"}
{"loss": 0.57070775, "token_acc": 0.85397924, "grad_norm": 7.6865077, "learning_rate": 5.4e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095858, "epoch": 0.85799238, "global_step/max_steps": "18450/21503", "percentage": "85.80%", "elapsed_time": "2d 5h 27m 52s", "remaining_time": "8h 50m 49s"}
{"eval_loss": 0.55881637, "eval_runtime": 295.8192, "eval_samples_per_second": 11.747, "eval_steps_per_second": 11.747, "epoch": 0.85799238, "global_step/max_steps": "18450/21503", "percentage": "85.80%", "elapsed_time": "2d 5h 32m 48s", "remaining_time": "8h 51m 38s"}
{"loss": 0.82021217, "token_acc": 0.83379278, "grad_norm": 7.94341707, "learning_rate": 5.4e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095725, "epoch": 0.8582249, "global_step/max_steps": "18455/21503", "percentage": "85.83%", "elapsed_time": "2d 5h 33m 12s", "remaining_time": "8h 50m 41s"}
{"loss": 0.74523435, "token_acc": 0.80561555, "grad_norm": 7.8258214, "learning_rate": 5.4e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095739, "epoch": 0.85845742, "global_step/max_steps": "18460/21503", "percentage": "85.85%", "elapsed_time": "2d 5h 33m 35s", "remaining_time": "8h 49m 44s"}
{"loss": 0.69434986, "token_acc": 0.84122449, "grad_norm": 9.75314236, "learning_rate": 5.4e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095754, "epoch": 0.85868993, "global_step/max_steps": "18465/21503", "percentage": "85.87%", "elapsed_time": "2d 5h 33m 57s", "remaining_time": "8h 48m 47s"}
{"loss": 0.60890684, "token_acc": 0.8480913, "grad_norm": 7.73141718, "learning_rate": 5.3e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095769, "epoch": 0.85892245, "global_step/max_steps": "18470/21503", "percentage": "85.89%", "elapsed_time": "2d 5h 34m 20s", "remaining_time": "8h 47m 49s"}
{"loss": 0.6576055, "token_acc": 0.83406114, "grad_norm": 10.87909126, "learning_rate": 5.3e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095783, "epoch": 0.85915497, "global_step/max_steps": "18475/21503", "percentage": "85.92%", "elapsed_time": "2d 5h 34m 42s", "remaining_time": "8h 46m 52s"}
{"loss": 0.669944, "token_acc": 0.83541247, "grad_norm": 9.33606243, "learning_rate": 5.3e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095798, "epoch": 0.85938749, "global_step/max_steps": "18480/21503", "percentage": "85.94%", "elapsed_time": "2d 5h 35m 5s", "remaining_time": "8h 45m 55s"}
{"loss": 0.71804633, "token_acc": 0.81659106, "grad_norm": 9.0700798, "learning_rate": 5.3e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095813, "epoch": 0.85962001, "global_step/max_steps": "18485/21503", "percentage": "85.96%", "elapsed_time": "2d 5h 35m 28s", "remaining_time": "8h 44m 58s"}
{"loss": 0.52822022, "token_acc": 0.86150943, "grad_norm": 8.30458736, "learning_rate": 5.3e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095827, "epoch": 0.85985253, "global_step/max_steps": "18490/21503", "percentage": "85.99%", "elapsed_time": "2d 5h 35m 50s", "remaining_time": "8h 44m 1s"}
{"loss": 0.55238404, "token_acc": 0.86080354, "grad_norm": 7.47076273, "learning_rate": 5.3e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095842, "epoch": 0.86008504, "global_step/max_steps": "18495/21503", "percentage": "86.01%", "elapsed_time": "2d 5h 36m 13s", "remaining_time": "8h 43m 4s"}
{"loss": 0.73306499, "token_acc": 0.80977643, "grad_norm": 8.00235462, "learning_rate": 5.2e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095857, "epoch": 0.86031756, "global_step/max_steps": "18500/21503", "percentage": "86.03%", "elapsed_time": "2d 5h 36m 35s", "remaining_time": "8h 42m 7s"}
{"eval_loss": 0.55712658, "eval_runtime": 296.8144, "eval_samples_per_second": 11.708, "eval_steps_per_second": 11.708, "epoch": 0.86031756, "global_step/max_steps": "18500/21503", "percentage": "86.03%", "elapsed_time": "2d 5h 41m 32s", "remaining_time": "8h 42m 56s"}
{"loss": 0.66159225, "token_acc": 0.83470441, "grad_norm": 6.63953018, "learning_rate": 5.2e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095724, "epoch": 0.86055008, "global_step/max_steps": "18505/21503", "percentage": "86.06%", "elapsed_time": "2d 5h 41m 56s", "remaining_time": "8h 41m 59s"}
{"loss": 0.70884628, "token_acc": 0.82173228, "grad_norm": 8.32151318, "learning_rate": 5.2e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095738, "epoch": 0.8607826, "global_step/max_steps": "18510/21503", "percentage": "86.08%", "elapsed_time": "2d 5h 42m 19s", "remaining_time": "8h 41m 2s"}
{"loss": 0.66912003, "token_acc": 0.81955128, "grad_norm": 10.79075432, "learning_rate": 5.2e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095753, "epoch": 0.86101512, "global_step/max_steps": "18515/21503", "percentage": "86.10%", "elapsed_time": "2d 5h 42m 42s", "remaining_time": "8h 40m 5s"}
{"loss": 0.71572146, "token_acc": 0.83340435, "grad_norm": 9.01181412, "learning_rate": 5.2e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095768, "epoch": 0.86124763, "global_step/max_steps": "18520/21503", "percentage": "86.13%", "elapsed_time": "2d 5h 43m 4s", "remaining_time": "8h 39m 8s"}
{"loss": 0.72512054, "token_acc": 0.8173913, "grad_norm": 9.20544815, "learning_rate": 5.2e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095782, "epoch": 0.86148015, "global_step/max_steps": "18525/21503", "percentage": "86.15%", "elapsed_time": "2d 5h 43m 27s", "remaining_time": "8h 38m 11s"}
{"loss": 0.71420383, "token_acc": 0.83075299, "grad_norm": 9.7839365, "learning_rate": 5.1e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095797, "epoch": 0.86171267, "global_step/max_steps": "18530/21503", "percentage": "86.17%", "elapsed_time": "2d 5h 43m 49s", "remaining_time": "8h 37m 14s"}
{"loss": 0.55129967, "token_acc": 0.85761227, "grad_norm": 8.41704273, "learning_rate": 5.1e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095811, "epoch": 0.86194519, "global_step/max_steps": "18535/21503", "percentage": "86.20%", "elapsed_time": "2d 5h 44m 12s", "remaining_time": "8h 36m 17s"}
{"loss": 0.58827853, "token_acc": 0.85141844, "grad_norm": 8.00424194, "learning_rate": 5.1e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095826, "epoch": 0.86217771, "global_step/max_steps": "18540/21503", "percentage": "86.22%", "elapsed_time": "2d 5h 44m 35s", "remaining_time": "8h 35m 20s"}
{"loss": 0.79919624, "token_acc": 0.79943146, "grad_norm": 7.50692177, "learning_rate": 5.1e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09584, "epoch": 0.86241023, "global_step/max_steps": "18545/21503", "percentage": "86.24%", "elapsed_time": "2d 5h 44m 58s", "remaining_time": "8h 34m 23s"}
{"loss": 0.62446671, "token_acc": 0.84121406, "grad_norm": 8.77875614, "learning_rate": 5.1e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095855, "epoch": 0.86264274, "global_step/max_steps": "18550/21503", "percentage": "86.27%", "elapsed_time": "2d 5h 45m 21s", "remaining_time": "8h 33m 26s"}
{"eval_loss": 0.55701512, "eval_runtime": 294.7339, "eval_samples_per_second": 11.79, "eval_steps_per_second": 11.79, "epoch": 0.86264274, "global_step/max_steps": "18550/21503", "percentage": "86.27%", "elapsed_time": "2d 5h 50m 15s", "remaining_time": "8h 34m 13s"}
{"loss": 0.65562015, "token_acc": 0.83462114, "grad_norm": 8.07455444, "learning_rate": 5.1e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095724, "epoch": 0.86287526, "global_step/max_steps": "18555/21503", "percentage": "86.29%", "elapsed_time": "2d 5h 50m 39s", "remaining_time": "8h 33m 16s"}
{"loss": 0.59825759, "token_acc": 0.84192557, "grad_norm": 8.43269634, "learning_rate": 5e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095738, "epoch": 0.86310778, "global_step/max_steps": "18560/21503", "percentage": "86.31%", "elapsed_time": "2d 5h 51m 2s", "remaining_time": "8h 32m 20s"}
{"loss": 0.66012869, "token_acc": 0.83707458, "grad_norm": 8.9275856, "learning_rate": 5e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095752, "epoch": 0.8633403, "global_step/max_steps": "18565/21503", "percentage": "86.34%", "elapsed_time": "2d 5h 51m 25s", "remaining_time": "8h 31m 23s"}
{"loss": 0.5904223, "token_acc": 0.84440497, "grad_norm": 7.21549177, "learning_rate": 5e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095767, "epoch": 0.86357282, "global_step/max_steps": "18570/21503", "percentage": "86.36%", "elapsed_time": "2d 5h 51m 48s", "remaining_time": "8h 30m 26s"}
{"loss": 0.56146727, "token_acc": 0.8630363, "grad_norm": 10.66939926, "learning_rate": 5e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095782, "epoch": 0.86380534, "global_step/max_steps": "18575/21503", "percentage": "86.38%", "elapsed_time": "2d 5h 52m 10s", "remaining_time": "8h 29m 29s"}
{"loss": 0.67997756, "token_acc": 0.83796856, "grad_norm": 9.13561535, "learning_rate": 5e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095796, "epoch": 0.86403785, "global_step/max_steps": "18580/21503", "percentage": "86.41%", "elapsed_time": "2d 5h 52m 32s", "remaining_time": "8h 28m 32s"}
{"loss": 0.69778609, "token_acc": 0.82577963, "grad_norm": 9.71619034, "learning_rate": 5e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095811, "epoch": 0.86427037, "global_step/max_steps": "18585/21503", "percentage": "86.43%", "elapsed_time": "2d 5h 52m 56s", "remaining_time": "8h 27m 35s"}
{"loss": 0.68473926, "token_acc": 0.83485873, "grad_norm": 8.21131611, "learning_rate": 4.9e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095825, "epoch": 0.86450289, "global_step/max_steps": "18590/21503", "percentage": "86.45%", "elapsed_time": "2d 5h 53m 18s", "remaining_time": "8h 26m 39s"}
{"loss": 0.5711319, "token_acc": 0.84741248, "grad_norm": 6.78834391, "learning_rate": 4.9e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09584, "epoch": 0.86473541, "global_step/max_steps": "18595/21503", "percentage": "86.48%", "elapsed_time": "2d 5h 53m 41s", "remaining_time": "8h 25m 42s"}
{"loss": 0.68722124, "token_acc": 0.82716049, "grad_norm": 8.99087048, "learning_rate": 4.9e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095854, "epoch": 0.86496793, "global_step/max_steps": "18600/21503", "percentage": "86.50%", "elapsed_time": "2d 5h 54m 5s", "remaining_time": "8h 24m 45s"}
{"eval_loss": 0.55739617, "eval_runtime": 295.4738, "eval_samples_per_second": 11.761, "eval_steps_per_second": 11.761, "epoch": 0.86496793, "global_step/max_steps": "18600/21503", "percentage": "86.50%", "elapsed_time": "2d 5h 59m 0s", "remaining_time": "8h 25m 31s"}
{"loss": 0.61983037, "token_acc": 0.83517233, "grad_norm": 11.36781406, "learning_rate": 4.9e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095722, "epoch": 0.86520045, "global_step/max_steps": "18605/21503", "percentage": "86.52%", "elapsed_time": "2d 5h 59m 23s", "remaining_time": "8h 24m 34s"}
{"loss": 0.64980416, "token_acc": 0.84308072, "grad_norm": 10.42632198, "learning_rate": 4.9e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095737, "epoch": 0.86543296, "global_step/max_steps": "18610/21503", "percentage": "86.55%", "elapsed_time": "2d 5h 59m 46s", "remaining_time": "8h 23m 38s"}
{"loss": 0.60208869, "token_acc": 0.83880825, "grad_norm": 7.45073986, "learning_rate": 4.9e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095752, "epoch": 0.86566548, "global_step/max_steps": "18615/21503", "percentage": "86.57%", "elapsed_time": "2d 6h 0m 8s", "remaining_time": "8h 22m 41s"}
{"loss": 0.64826674, "token_acc": 0.83682286, "grad_norm": 7.82098532, "learning_rate": 4.8e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095766, "epoch": 0.865898, "global_step/max_steps": "18620/21503", "percentage": "86.59%", "elapsed_time": "2d 6h 0m 31s", "remaining_time": "8h 21m 44s"}
{"loss": 0.7055738, "token_acc": 0.81751557, "grad_norm": 9.83179283, "learning_rate": 4.8e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095781, "epoch": 0.86613052, "global_step/max_steps": "18625/21503", "percentage": "86.62%", "elapsed_time": "2d 6h 0m 54s", "remaining_time": "8h 20m 47s"}
{"loss": 0.53336325, "token_acc": 0.87360275, "grad_norm": 7.08921099, "learning_rate": 4.8e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095795, "epoch": 0.86636304, "global_step/max_steps": "18630/21503", "percentage": "86.64%", "elapsed_time": "2d 6h 1m 17s", "remaining_time": "8h 19m 51s"}
{"loss": 0.60767727, "token_acc": 0.85383447, "grad_norm": 10.06370449, "learning_rate": 4.8e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09581, "epoch": 0.86659555, "global_step/max_steps": "18635/21503", "percentage": "86.66%", "elapsed_time": "2d 6h 1m 40s", "remaining_time": "8h 18m 54s"}
{"loss": 0.59073915, "token_acc": 0.83457579, "grad_norm": 8.08241558, "learning_rate": 4.8e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095824, "epoch": 0.86682807, "global_step/max_steps": "18640/21503", "percentage": "86.69%", "elapsed_time": "2d 6h 2m 3s", "remaining_time": "8h 17m 57s"}
{"loss": 0.6756155, "token_acc": 0.82277466, "grad_norm": 9.6817522, "learning_rate": 4.8e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095838, "epoch": 0.86706059, "global_step/max_steps": "18645/21503", "percentage": "86.71%", "elapsed_time": "2d 6h 2m 26s", "remaining_time": "8h 17m 1s"}
{"loss": 0.62558489, "token_acc": 0.83283663, "grad_norm": 6.71742058, "learning_rate": 4.7e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095852, "epoch": 0.86729311, "global_step/max_steps": "18650/21503", "percentage": "86.73%", "elapsed_time": "2d 6h 2m 49s", "remaining_time": "8h 16m 4s"}
{"eval_loss": 0.55728287, "eval_runtime": 293.8674, "eval_samples_per_second": 11.825, "eval_steps_per_second": 11.825, "epoch": 0.86729311, "global_step/max_steps": "18650/21503", "percentage": "86.73%", "elapsed_time": "2d 6h 7m 43s", "remaining_time": "8h 16m 49s"}
{"loss": 0.59623103, "token_acc": 0.83484755, "grad_norm": 6.9676199, "learning_rate": 4.7e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095722, "epoch": 0.86752563, "global_step/max_steps": "18655/21503", "percentage": "86.76%", "elapsed_time": "2d 6h 8m 6s", "remaining_time": "8h 15m 52s"}
{"loss": 0.65985022, "token_acc": 0.83525272, "grad_norm": 8.60448456, "learning_rate": 4.7e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095737, "epoch": 0.86775815, "global_step/max_steps": "18660/21503", "percentage": "86.78%", "elapsed_time": "2d 6h 8m 29s", "remaining_time": "8h 14m 55s"}
{"loss": 0.70012751, "token_acc": 0.81371191, "grad_norm": 10.31893635, "learning_rate": 4.7e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095751, "epoch": 0.86799066, "global_step/max_steps": "18665/21503", "percentage": "86.80%", "elapsed_time": "2d 6h 8m 52s", "remaining_time": "8h 13m 59s"}
{"loss": 0.74551582, "token_acc": 0.81621955, "grad_norm": 10.03147411, "learning_rate": 4.7e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095765, "epoch": 0.86822318, "global_step/max_steps": "18670/21503", "percentage": "86.83%", "elapsed_time": "2d 6h 9m 15s", "remaining_time": "8h 13m 2s"}
{"loss": 0.7342135, "token_acc": 0.81789474, "grad_norm": 8.31178761, "learning_rate": 4.7e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09578, "epoch": 0.8684557, "global_step/max_steps": "18675/21503", "percentage": "86.85%", "elapsed_time": "2d 6h 9m 38s", "remaining_time": "8h 12m 6s"}
{"loss": 0.66278815, "token_acc": 0.83977408, "grad_norm": 8.12555027, "learning_rate": 4.6e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095794, "epoch": 0.86868822, "global_step/max_steps": "18680/21503", "percentage": "86.87%", "elapsed_time": "2d 6h 10m 1s", "remaining_time": "8h 11m 9s"}
{"loss": 0.5405077, "token_acc": 0.86123437, "grad_norm": 10.39594746, "learning_rate": 4.6e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095809, "epoch": 0.86892074, "global_step/max_steps": "18685/21503", "percentage": "86.89%", "elapsed_time": "2d 6h 10m 23s", "remaining_time": "8h 10m 12s"}
{"loss": 0.58609204, "token_acc": 0.85275424, "grad_norm": 7.62852001, "learning_rate": 4.6e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095823, "epoch": 0.86915326, "global_step/max_steps": "18690/21503", "percentage": "86.92%", "elapsed_time": "2d 6h 10m 46s", "remaining_time": "8h 9m 16s"}
{"loss": 0.66305242, "token_acc": 0.82810164, "grad_norm": 9.4238863, "learning_rate": 4.6e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095837, "epoch": 0.86938577, "global_step/max_steps": "18695/21503", "percentage": "86.94%", "elapsed_time": "2d 6h 11m 10s", "remaining_time": "8h 8m 19s"}
{"loss": 0.61609921, "token_acc": 0.84155214, "grad_norm": 8.01968384, "learning_rate": 4.6e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095852, "epoch": 0.86961829, "global_step/max_steps": "18700/21503", "percentage": "86.96%", "elapsed_time": "2d 6h 11m 33s", "remaining_time": "8h 7m 23s"}
{"eval_loss": 0.5579505, "eval_runtime": 294.649, "eval_samples_per_second": 11.794, "eval_steps_per_second": 11.794, "epoch": 0.86961829, "global_step/max_steps": "18700/21503", "percentage": "86.96%", "elapsed_time": "2d 6h 16m 27s", "remaining_time": "8h 8m 7s"}
{"loss": 0.56413608, "token_acc": 0.83520289, "grad_norm": 7.52905655, "learning_rate": 4.6e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095721, "epoch": 0.86985081, "global_step/max_steps": "18705/21503", "percentage": "86.99%", "elapsed_time": "2d 6h 16m 50s", "remaining_time": "8h 7m 10s"}
{"loss": 0.65886889, "token_acc": 0.83019441, "grad_norm": 7.7951889, "learning_rate": 4.5e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095736, "epoch": 0.87008333, "global_step/max_steps": "18710/21503", "percentage": "87.01%", "elapsed_time": "2d 6h 17m 13s", "remaining_time": "8h 6m 14s"}
{"loss": 0.74494042, "token_acc": 0.81077147, "grad_norm": 7.79784536, "learning_rate": 4.5e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09575, "epoch": 0.87031585, "global_step/max_steps": "18715/21503", "percentage": "87.03%", "elapsed_time": "2d 6h 17m 37s", "remaining_time": "8h 5m 17s"}
{"loss": 0.5302115, "token_acc": 0.86441322, "grad_norm": 9.95466709, "learning_rate": 4.5e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095764, "epoch": 0.87054837, "global_step/max_steps": "18720/21503", "percentage": "87.06%", "elapsed_time": "2d 6h 17m 59s", "remaining_time": "8h 4m 20s"}
{"loss": 0.62806387, "token_acc": 0.83862123, "grad_norm": 9.29427528, "learning_rate": 4.5e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095779, "epoch": 0.87078088, "global_step/max_steps": "18725/21503", "percentage": "87.08%", "elapsed_time": "2d 6h 18m 22s", "remaining_time": "8h 3m 24s"}
{"loss": 0.71359344, "token_acc": 0.81397355, "grad_norm": 8.05164623, "learning_rate": 4.5e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095793, "epoch": 0.8710134, "global_step/max_steps": "18730/21503", "percentage": "87.10%", "elapsed_time": "2d 6h 18m 45s", "remaining_time": "8h 2m 27s"}
{"loss": 0.625419, "token_acc": 0.84133293, "grad_norm": 7.834764, "learning_rate": 4.5e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095807, "epoch": 0.87124592, "global_step/max_steps": "18735/21503", "percentage": "87.13%", "elapsed_time": "2d 6h 19m 8s", "remaining_time": "8h 1m 31s"}
{"loss": 0.73269186, "token_acc": 0.82333874, "grad_norm": 10.09204388, "learning_rate": 4.4e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095822, "epoch": 0.87147844, "global_step/max_steps": "18740/21503", "percentage": "87.15%", "elapsed_time": "2d 6h 19m 30s", "remaining_time": "8h 0m 34s"}
{"loss": 0.57263603, "token_acc": 0.84827123, "grad_norm": 9.58180904, "learning_rate": 4.4e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095836, "epoch": 0.87171096, "global_step/max_steps": "18745/21503", "percentage": "87.17%", "elapsed_time": "2d 6h 19m 53s", "remaining_time": "7h 59m 38s"}
{"loss": 0.55460005, "token_acc": 0.85888078, "grad_norm": 7.13664055, "learning_rate": 4.4e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095851, "epoch": 0.87194347, "global_step/max_steps": "18750/21503", "percentage": "87.20%", "elapsed_time": "2d 6h 20m 16s", "remaining_time": "7h 58m 41s"}
{"eval_loss": 0.55708444, "eval_runtime": 295.122, "eval_samples_per_second": 11.775, "eval_steps_per_second": 11.775, "epoch": 0.87194347, "global_step/max_steps": "18750/21503", "percentage": "87.20%", "elapsed_time": "2d 6h 25m 11s", "remaining_time": "7h 59m 25s"}
{"loss": 0.69797955, "token_acc": 0.83436175, "grad_norm": 9.21589279, "learning_rate": 4.4e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095721, "epoch": 0.87217599, "global_step/max_steps": "18755/21503", "percentage": "87.22%", "elapsed_time": "2d 6h 25m 34s", "remaining_time": "7h 58m 28s"}
{"loss": 0.55887575, "token_acc": 0.84420015, "grad_norm": 7.70645714, "learning_rate": 4.4e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095735, "epoch": 0.87240851, "global_step/max_steps": "18760/21503", "percentage": "87.24%", "elapsed_time": "2d 6h 25m 58s", "remaining_time": "7h 57m 32s"}
{"loss": 0.7292253, "token_acc": 0.8270793, "grad_norm": 10.51937866, "learning_rate": 4.4e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095748, "epoch": 0.87264103, "global_step/max_steps": "18765/21503", "percentage": "87.27%", "elapsed_time": "2d 6h 26m 22s", "remaining_time": "7h 56m 35s"}
{"loss": 0.64952083, "token_acc": 0.84447145, "grad_norm": 8.94310951, "learning_rate": 4.4e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095763, "epoch": 0.87287355, "global_step/max_steps": "18770/21503", "percentage": "87.29%", "elapsed_time": "2d 6h 26m 44s", "remaining_time": "7h 55m 39s"}
{"loss": 0.61663809, "token_acc": 0.85512232, "grad_norm": 9.06867504, "learning_rate": 4.3e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095777, "epoch": 0.87310607, "global_step/max_steps": "18775/21503", "percentage": "87.31%", "elapsed_time": "2d 6h 27m 8s", "remaining_time": "7h 54m 42s"}
{"loss": 0.43561468, "token_acc": 0.901219, "grad_norm": 8.14087296, "learning_rate": 4.3e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095791, "epoch": 0.87333858, "global_step/max_steps": "18780/21503", "percentage": "87.34%", "elapsed_time": "2d 6h 27m 30s", "remaining_time": "7h 53m 46s"}
{"loss": 0.58192062, "token_acc": 0.8629981, "grad_norm": 9.45922756, "learning_rate": 4.3e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095806, "epoch": 0.8735711, "global_step/max_steps": "18785/21503", "percentage": "87.36%", "elapsed_time": "2d 6h 27m 53s", "remaining_time": "7h 52m 49s"}
{"loss": 0.57733355, "token_acc": 0.85898743, "grad_norm": 6.87860727, "learning_rate": 4.3e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09582, "epoch": 0.87380362, "global_step/max_steps": "18790/21503", "percentage": "87.38%", "elapsed_time": "2d 6h 28m 16s", "remaining_time": "7h 51m 53s"}
{"loss": 0.60974736, "token_acc": 0.85360825, "grad_norm": 10.95009041, "learning_rate": 4.3e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095834, "epoch": 0.87403614, "global_step/max_steps": "18795/21503", "percentage": "87.41%", "elapsed_time": "2d 6h 28m 39s", "remaining_time": "7h 50m 57s"}
{"loss": 0.73978968, "token_acc": 0.80267014, "grad_norm": 10.07316875, "learning_rate": 4.3e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095849, "epoch": 0.87426866, "global_step/max_steps": "18800/21503", "percentage": "87.43%", "elapsed_time": "2d 6h 29m 1s", "remaining_time": "7h 50m 0s"}
{"eval_loss": 0.55718321, "eval_runtime": 291.4443, "eval_samples_per_second": 11.923, "eval_steps_per_second": 11.923, "epoch": 0.87426866, "global_step/max_steps": "18800/21503", "percentage": "87.43%", "elapsed_time": "2d 6h 33m 53s", "remaining_time": "7h 50m 42s"}
{"loss": 0.53268929, "token_acc": 0.83554973, "grad_norm": 8.84793854, "learning_rate": 4.2e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095721, "epoch": 0.87450118, "global_step/max_steps": "18805/21503", "percentage": "87.45%", "elapsed_time": "2d 6h 34m 17s", "remaining_time": "7h 49m 46s"}
{"loss": 0.62484035, "token_acc": 0.84692942, "grad_norm": 7.56963873, "learning_rate": 4.2e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095735, "epoch": 0.87473369, "global_step/max_steps": "18810/21503", "percentage": "87.48%", "elapsed_time": "2d 6h 34m 39s", "remaining_time": "7h 48m 49s"}
{"loss": 0.51187048, "token_acc": 0.87069864, "grad_norm": 7.65540123, "learning_rate": 4.2e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095749, "epoch": 0.87496621, "global_step/max_steps": "18815/21503", "percentage": "87.50%", "elapsed_time": "2d 6h 35m 3s", "remaining_time": "7h 47m 53s"}
{"loss": 0.53917184, "token_acc": 0.86338441, "grad_norm": 9.32550049, "learning_rate": 4.2e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095763, "epoch": 0.87519873, "global_step/max_steps": "18820/21503", "percentage": "87.52%", "elapsed_time": "2d 6h 35m 25s", "remaining_time": "7h 46m 56s"}
{"loss": 0.64951148, "token_acc": 0.83649953, "grad_norm": 7.18851852, "learning_rate": 4.2e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095778, "epoch": 0.87543125, "global_step/max_steps": "18825/21503", "percentage": "87.55%", "elapsed_time": "2d 6h 35m 48s", "remaining_time": "7h 46m 0s"}
{"loss": 0.75527587, "token_acc": 0.82045855, "grad_norm": 10.49199677, "learning_rate": 4.2e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095792, "epoch": 0.87566377, "global_step/max_steps": "18830/21503", "percentage": "87.57%", "elapsed_time": "2d 6h 36m 12s", "remaining_time": "7h 45m 4s"}
{"loss": 0.68581095, "token_acc": 0.83321033, "grad_norm": 11.448699, "learning_rate": 4.2e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095806, "epoch": 0.87589629, "global_step/max_steps": "18835/21503", "percentage": "87.59%", "elapsed_time": "2d 6h 36m 35s", "remaining_time": "7h 44m 7s"}
{"loss": 0.6972774, "token_acc": 0.83114558, "grad_norm": 9.61760807, "learning_rate": 4.1e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09582, "epoch": 0.8761288, "global_step/max_steps": "18840/21503", "percentage": "87.62%", "elapsed_time": "2d 6h 36m 59s", "remaining_time": "7h 43m 11s"}
{"loss": 0.71518378, "token_acc": 0.82490154, "grad_norm": 8.68656158, "learning_rate": 4.1e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095833, "epoch": 0.87636132, "global_step/max_steps": "18845/21503", "percentage": "87.64%", "elapsed_time": "2d 6h 37m 22s", "remaining_time": "7h 42m 15s"}
{"loss": 0.58536234, "token_acc": 0.85600579, "grad_norm": 9.85775185, "learning_rate": 4.1e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095848, "epoch": 0.87659384, "global_step/max_steps": "18850/21503", "percentage": "87.66%", "elapsed_time": "2d 6h 37m 45s", "remaining_time": "7h 41m 19s"}
{"eval_loss": 0.55710554, "eval_runtime": 289.6076, "eval_samples_per_second": 11.999, "eval_steps_per_second": 11.999, "epoch": 0.87659384, "global_step/max_steps": "18850/21503", "percentage": "87.66%", "elapsed_time": "2d 6h 42m 35s", "remaining_time": "7h 42m 0s"}
{"loss": 0.72835531, "token_acc": 0.8342097, "grad_norm": 9.50134468, "learning_rate": 4.1e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09572, "epoch": 0.87682636, "global_step/max_steps": "18855/21503", "percentage": "87.69%", "elapsed_time": "2d 6h 42m 59s", "remaining_time": "7h 41m 3s"}
{"loss": 0.67374234, "token_acc": 0.82366824, "grad_norm": 9.01169586, "learning_rate": 4.1e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095735, "epoch": 0.87705888, "global_step/max_steps": "18860/21503", "percentage": "87.71%", "elapsed_time": "2d 6h 43m 22s", "remaining_time": "7h 40m 7s"}
{"loss": 0.52900462, "token_acc": 0.87457483, "grad_norm": 9.30723953, "learning_rate": 4.1e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095749, "epoch": 0.87729139, "global_step/max_steps": "18865/21503", "percentage": "87.73%", "elapsed_time": "2d 6h 43m 45s", "remaining_time": "7h 39m 11s"}
{"loss": 0.61107326, "token_acc": 0.84669979, "grad_norm": 6.86055565, "learning_rate": 4e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095763, "epoch": 0.87752391, "global_step/max_steps": "18870/21503", "percentage": "87.76%", "elapsed_time": "2d 6h 44m 8s", "remaining_time": "7h 38m 14s"}
{"loss": 0.62371626, "token_acc": 0.85296353, "grad_norm": 7.62590933, "learning_rate": 4e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095778, "epoch": 0.87775643, "global_step/max_steps": "18875/21503", "percentage": "87.78%", "elapsed_time": "2d 6h 44m 30s", "remaining_time": "7h 37m 18s"}
{"loss": 0.65161233, "token_acc": 0.84630672, "grad_norm": 9.90052986, "learning_rate": 4e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095792, "epoch": 0.87798895, "global_step/max_steps": "18880/21503", "percentage": "87.80%", "elapsed_time": "2d 6h 44m 53s", "remaining_time": "7h 36m 22s"}
{"loss": 0.68181424, "token_acc": 0.83804397, "grad_norm": 11.61446571, "learning_rate": 4e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095806, "epoch": 0.87822147, "global_step/max_steps": "18885/21503", "percentage": "87.82%", "elapsed_time": "2d 6h 45m 16s", "remaining_time": "7h 35m 25s"}
{"loss": 0.58184667, "token_acc": 0.85409836, "grad_norm": 9.17426682, "learning_rate": 4e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09582, "epoch": 0.87845399, "global_step/max_steps": "18890/21503", "percentage": "87.85%", "elapsed_time": "2d 6h 45m 39s", "remaining_time": "7h 34m 29s"}
{"loss": 0.65908751, "token_acc": 0.84585366, "grad_norm": 7.93372774, "learning_rate": 4e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095835, "epoch": 0.8786865, "global_step/max_steps": "18895/21503", "percentage": "87.87%", "elapsed_time": "2d 6h 46m 2s", "remaining_time": "7h 33m 33s"}
{"loss": 0.84769192, "token_acc": 0.81375553, "grad_norm": 9.44780254, "learning_rate": 4e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095849, "epoch": 0.87891902, "global_step/max_steps": "18900/21503", "percentage": "87.89%", "elapsed_time": "2d 6h 46m 25s", "remaining_time": "7h 32m 37s"}
{"eval_loss": 0.5566783, "eval_runtime": 292.5011, "eval_samples_per_second": 11.88, "eval_steps_per_second": 11.88, "epoch": 0.87891902, "global_step/max_steps": "18900/21503", "percentage": "87.89%", "elapsed_time": "2d 6h 51m 17s", "remaining_time": "7h 33m 17s"}
{"loss": 0.48586311, "token_acc": 0.83556199, "grad_norm": 7.71899843, "learning_rate": 3.9e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095721, "epoch": 0.87915154, "global_step/max_steps": "18905/21503", "percentage": "87.92%", "elapsed_time": "2d 6h 51m 41s", "remaining_time": "7h 32m 21s"}
{"loss": 0.68696432, "token_acc": 0.83621642, "grad_norm": 8.55507278, "learning_rate": 3.9e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095735, "epoch": 0.87938406, "global_step/max_steps": "18910/21503", "percentage": "87.94%", "elapsed_time": "2d 6h 52m 4s", "remaining_time": "7h 31m 25s"}
{"loss": 0.83206654, "token_acc": 0.80744816, "grad_norm": 13.6451683, "learning_rate": 3.9e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095749, "epoch": 0.87961658, "global_step/max_steps": "18915/21503", "percentage": "87.96%", "elapsed_time": "2d 6h 52m 27s", "remaining_time": "7h 30m 28s"}
{"loss": 0.6564641, "token_acc": 0.83695652, "grad_norm": 8.65733051, "learning_rate": 3.9e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095763, "epoch": 0.8798491, "global_step/max_steps": "18920/21503", "percentage": "87.99%", "elapsed_time": "2d 6h 52m 50s", "remaining_time": "7h 29m 32s"}
{"loss": 0.61750379, "token_acc": 0.84649879, "grad_norm": 8.09855556, "learning_rate": 3.9e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095778, "epoch": 0.88008161, "global_step/max_steps": "18925/21503", "percentage": "88.01%", "elapsed_time": "2d 6h 53m 12s", "remaining_time": "7h 28m 36s"}
{"loss": 0.56668797, "token_acc": 0.85892726, "grad_norm": 10.00673962, "learning_rate": 3.9e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095792, "epoch": 0.88031413, "global_step/max_steps": "18930/21503", "percentage": "88.03%", "elapsed_time": "2d 6h 53m 36s", "remaining_time": "7h 27m 40s"}
{"loss": 0.61326342, "token_acc": 0.84852996, "grad_norm": 9.11505604, "learning_rate": 3.8e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095806, "epoch": 0.88054665, "global_step/max_steps": "18935/21503", "percentage": "88.06%", "elapsed_time": "2d 6h 53m 59s", "remaining_time": "7h 26m 44s"}
{"loss": 0.69559627, "token_acc": 0.82035928, "grad_norm": 6.63361263, "learning_rate": 3.8e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09582, "epoch": 0.88077917, "global_step/max_steps": "18940/21503", "percentage": "88.08%", "elapsed_time": "2d 6h 54m 21s", "remaining_time": "7h 25m 48s"}
{"loss": 0.73671732, "token_acc": 0.81527936, "grad_norm": 7.96159887, "learning_rate": 3.8e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095834, "epoch": 0.88101169, "global_step/max_steps": "18945/21503", "percentage": "88.10%", "elapsed_time": "2d 6h 54m 45s", "remaining_time": "7h 24m 51s"}
{"loss": 0.64436288, "token_acc": 0.84055518, "grad_norm": 8.60188198, "learning_rate": 3.8e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095848, "epoch": 0.88124421, "global_step/max_steps": "18950/21503", "percentage": "88.13%", "elapsed_time": "2d 6h 55m 7s", "remaining_time": "7h 23m 55s"}
{"eval_loss": 0.55640346, "eval_runtime": 291.7319, "eval_samples_per_second": 11.912, "eval_steps_per_second": 11.912, "epoch": 0.88124421, "global_step/max_steps": "18950/21503", "percentage": "88.13%", "elapsed_time": "2d 6h 59m 59s", "remaining_time": "7h 24m 35s"}
{"loss": 0.62189932, "token_acc": 0.83524545, "grad_norm": 9.40434265, "learning_rate": 3.8e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095721, "epoch": 0.88147672, "global_step/max_steps": "18955/21503", "percentage": "88.15%", "elapsed_time": "2d 7h 0m 22s", "remaining_time": "7h 23m 38s"}
{"loss": 0.65959268, "token_acc": 0.82202842, "grad_norm": 8.89560699, "learning_rate": 3.8e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095735, "epoch": 0.88170924, "global_step/max_steps": "18960/21503", "percentage": "88.17%", "elapsed_time": "2d 7h 0m 45s", "remaining_time": "7h 22m 42s"}
{"loss": 0.70806479, "token_acc": 0.82497332, "grad_norm": 9.17761135, "learning_rate": 3.8e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095749, "epoch": 0.88194176, "global_step/max_steps": "18965/21503", "percentage": "88.20%", "elapsed_time": "2d 7h 1m 9s", "remaining_time": "7h 21m 46s"}
{"loss": 0.66007991, "token_acc": 0.82905028, "grad_norm": 9.34961319, "learning_rate": 3.7e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095763, "epoch": 0.88217428, "global_step/max_steps": "18970/21503", "percentage": "88.22%", "elapsed_time": "2d 7h 1m 32s", "remaining_time": "7h 20m 50s"}
{"loss": 0.65813375, "token_acc": 0.83707202, "grad_norm": 8.50667763, "learning_rate": 3.7e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095777, "epoch": 0.8824068, "global_step/max_steps": "18975/21503", "percentage": "88.24%", "elapsed_time": "2d 7h 1m 56s", "remaining_time": "7h 19m 54s"}
{"loss": 0.62306662, "token_acc": 0.84576138, "grad_norm": 8.33461571, "learning_rate": 3.7e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095791, "epoch": 0.88263931, "global_step/max_steps": "18980/21503", "percentage": "88.27%", "elapsed_time": "2d 7h 2m 19s", "remaining_time": "7h 18m 58s"}
{"loss": 0.6874135, "token_acc": 0.82364865, "grad_norm": 7.22990704, "learning_rate": 3.7e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095805, "epoch": 0.88287183, "global_step/max_steps": "18985/21503", "percentage": "88.29%", "elapsed_time": "2d 7h 2m 42s", "remaining_time": "7h 18m 2s"}
{"loss": 0.73681912, "token_acc": 0.81069307, "grad_norm": 8.757658, "learning_rate": 3.7e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095819, "epoch": 0.88310435, "global_step/max_steps": "18990/21503", "percentage": "88.31%", "elapsed_time": "2d 7h 3m 5s", "remaining_time": "7h 17m 6s"}
{"loss": 0.5423563, "token_acc": 0.86605081, "grad_norm": 7.91193485, "learning_rate": 3.7e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095833, "epoch": 0.88333687, "global_step/max_steps": "18995/21503", "percentage": "88.34%", "elapsed_time": "2d 7h 3m 28s", "remaining_time": "7h 16m 10s"}
{"loss": 0.54443941, "token_acc": 0.86513158, "grad_norm": 9.33019543, "learning_rate": 3.7e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095848, "epoch": 0.88356939, "global_step/max_steps": "19000/21503", "percentage": "88.36%", "elapsed_time": "2d 7h 3m 50s", "remaining_time": "7h 15m 14s"}
{"eval_loss": 0.55617112, "eval_runtime": 292.1787, "eval_samples_per_second": 11.893, "eval_steps_per_second": 11.893, "epoch": 0.88356939, "global_step/max_steps": "19000/21503", "percentage": "88.36%", "elapsed_time": "2d 7h 8m 43s", "remaining_time": "7h 15m 52s"}
{"loss": 0.64570389, "token_acc": 0.83480063, "grad_norm": 10.37106228, "learning_rate": 3.6e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09572, "epoch": 0.88380191, "global_step/max_steps": "19005/21503", "percentage": "88.38%", "elapsed_time": "2d 7h 9m 6s", "remaining_time": "7h 14m 56s"}
{"loss": 0.65920348, "token_acc": 0.83749548, "grad_norm": 10.79605198, "learning_rate": 3.6e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095735, "epoch": 0.88403442, "global_step/max_steps": "19010/21503", "percentage": "88.41%", "elapsed_time": "2d 7h 9m 29s", "remaining_time": "7h 14m 0s"}
{"loss": 0.60925221, "token_acc": 0.84530387, "grad_norm": 8.91750717, "learning_rate": 3.6e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095749, "epoch": 0.88426694, "global_step/max_steps": "19015/21503", "percentage": "88.43%", "elapsed_time": "2d 7h 9m 52s", "remaining_time": "7h 13m 4s"}
{"loss": 0.60673118, "token_acc": 0.84398217, "grad_norm": 9.32725334, "learning_rate": 3.6e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095763, "epoch": 0.88449946, "global_step/max_steps": "19020/21503", "percentage": "88.45%", "elapsed_time": "2d 7h 10m 15s", "remaining_time": "7h 12m 8s"}
{"loss": 0.65536251, "token_acc": 0.84045182, "grad_norm": 10.3841362, "learning_rate": 3.6e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095777, "epoch": 0.88473198, "global_step/max_steps": "19025/21503", "percentage": "88.48%", "elapsed_time": "2d 7h 10m 38s", "remaining_time": "7h 11m 12s"}
{"loss": 0.6201921, "token_acc": 0.84052193, "grad_norm": 10.37766171, "learning_rate": 3.6e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095791, "epoch": 0.8849645, "global_step/max_steps": "19030/21503", "percentage": "88.50%", "elapsed_time": "2d 7h 11m 1s", "remaining_time": "7h 10m 16s"}
{"loss": 0.6653841, "token_acc": 0.85086129, "grad_norm": 8.83746815, "learning_rate": 3.6e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095805, "epoch": 0.88519702, "global_step/max_steps": "19035/21503", "percentage": "88.52%", "elapsed_time": "2d 7h 11m 24s", "remaining_time": "7h 9m 20s"}
{"loss": 0.57546067, "token_acc": 0.84967513, "grad_norm": 10.65556908, "learning_rate": 3.5e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095819, "epoch": 0.88542953, "global_step/max_steps": "19040/21503", "percentage": "88.55%", "elapsed_time": "2d 7h 11m 47s", "remaining_time": "7h 8m 24s"}
{"loss": 0.62897801, "token_acc": 0.84032429, "grad_norm": 8.41292667, "learning_rate": 3.5e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095833, "epoch": 0.88566205, "global_step/max_steps": "19045/21503", "percentage": "88.57%", "elapsed_time": "2d 7h 12m 10s", "remaining_time": "7h 7m 28s"}
{"loss": 0.56428752, "token_acc": 0.86307566, "grad_norm": 7.69016266, "learning_rate": 3.5e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095848, "epoch": 0.88589457, "global_step/max_steps": "19050/21503", "percentage": "88.59%", "elapsed_time": "2d 7h 12m 32s", "remaining_time": "7h 6m 32s"}
{"eval_loss": 0.55648804, "eval_runtime": 291.1297, "eval_samples_per_second": 11.936, "eval_steps_per_second": 11.936, "epoch": 0.88589457, "global_step/max_steps": "19050/21503", "percentage": "88.59%", "elapsed_time": "2d 7h 17m 23s", "remaining_time": "7h 7m 10s"}
{"loss": 0.6333631, "token_acc": 0.83499463, "grad_norm": 12.68165493, "learning_rate": 3.5e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095721, "epoch": 0.88612709, "global_step/max_steps": "19055/21503", "percentage": "88.62%", "elapsed_time": "2d 7h 17m 47s", "remaining_time": "7h 6m 14s"}
{"loss": 0.74888096, "token_acc": 0.81738521, "grad_norm": 6.69144344, "learning_rate": 3.5e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095735, "epoch": 0.88635961, "global_step/max_steps": "19060/21503", "percentage": "88.64%", "elapsed_time": "2d 7h 18m 10s", "remaining_time": "7h 5m 18s"}
{"loss": 0.62574635, "token_acc": 0.84259259, "grad_norm": 8.09365463, "learning_rate": 3.5e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095749, "epoch": 0.88659213, "global_step/max_steps": "19065/21503", "percentage": "88.66%", "elapsed_time": "2d 7h 18m 33s", "remaining_time": "7h 4m 22s"}
{"loss": 0.76039548, "token_acc": 0.80200907, "grad_norm": 6.56559706, "learning_rate": 3.5e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095763, "epoch": 0.88682464, "global_step/max_steps": "19070/21503", "percentage": "88.69%", "elapsed_time": "2d 7h 18m 57s", "remaining_time": "7h 3m 26s"}
{"loss": 0.54890509, "token_acc": 0.87121745, "grad_norm": 8.49645519, "learning_rate": 3.4e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095777, "epoch": 0.88705716, "global_step/max_steps": "19075/21503", "percentage": "88.71%", "elapsed_time": "2d 7h 19m 19s", "remaining_time": "7h 2m 30s"}
{"loss": 0.7015841, "token_acc": 0.81794706, "grad_norm": 6.79894829, "learning_rate": 3.4e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095791, "epoch": 0.88728968, "global_step/max_steps": "19080/21503", "percentage": "88.73%", "elapsed_time": "2d 7h 19m 42s", "remaining_time": "7h 1m 34s"}
{"loss": 0.62907796, "token_acc": 0.84427767, "grad_norm": 8.60586834, "learning_rate": 3.4e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095805, "epoch": 0.8875222, "global_step/max_steps": "19085/21503", "percentage": "88.76%", "elapsed_time": "2d 7h 20m 5s", "remaining_time": "7h 0m 38s"}
{"loss": 0.76151462, "token_acc": 0.80897959, "grad_norm": 7.3976202, "learning_rate": 3.4e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09582, "epoch": 0.88775472, "global_step/max_steps": "19090/21503", "percentage": "88.78%", "elapsed_time": "2d 7h 20m 28s", "remaining_time": "6h 59m 42s"}
{"loss": 0.64138613, "token_acc": 0.83192425, "grad_norm": 8.31637001, "learning_rate": 3.4e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095834, "epoch": 0.88798723, "global_step/max_steps": "19095/21503", "percentage": "88.80%", "elapsed_time": "2d 7h 20m 50s", "remaining_time": "6h 58m 46s"}
{"loss": 0.6109539, "token_acc": 0.84144207, "grad_norm": 9.32655144, "learning_rate": 3.4e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095848, "epoch": 0.88821975, "global_step/max_steps": "19100/21503", "percentage": "88.82%", "elapsed_time": "2d 7h 21m 13s", "remaining_time": "6h 57m 50s"}
{"eval_loss": 0.55633909, "eval_runtime": 293.6699, "eval_samples_per_second": 11.833, "eval_steps_per_second": 11.833, "epoch": 0.88821975, "global_step/max_steps": "19100/21503", "percentage": "88.82%", "elapsed_time": "2d 7h 26m 6s", "remaining_time": "6h 58m 27s"}
{"loss": 0.71339087, "token_acc": 0.83429013, "grad_norm": 8.04840946, "learning_rate": 3.4e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095721, "epoch": 0.88845227, "global_step/max_steps": "19105/21503", "percentage": "88.85%", "elapsed_time": "2d 7h 26m 30s", "remaining_time": "6h 57m 32s"}
{"loss": 0.65495281, "token_acc": 0.84012649, "grad_norm": 8.01759624, "learning_rate": 3.3e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095735, "epoch": 0.88868479, "global_step/max_steps": "19110/21503", "percentage": "88.87%", "elapsed_time": "2d 7h 26m 54s", "remaining_time": "6h 56m 36s"}
{"loss": 0.58106751, "token_acc": 0.85143824, "grad_norm": 7.82974195, "learning_rate": 3.3e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095748, "epoch": 0.88891731, "global_step/max_steps": "19115/21503", "percentage": "88.89%", "elapsed_time": "2d 7h 27m 17s", "remaining_time": "6h 55m 40s"}
{"loss": 0.69547706, "token_acc": 0.82318752, "grad_norm": 6.7980051, "learning_rate": 3.3e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095762, "epoch": 0.88914983, "global_step/max_steps": "19120/21503", "percentage": "88.92%", "elapsed_time": "2d 7h 27m 40s", "remaining_time": "6h 54m 44s"}
{"loss": 0.60074625, "token_acc": 0.85053885, "grad_norm": 7.311759, "learning_rate": 3.3e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095777, "epoch": 0.88938234, "global_step/max_steps": "19125/21503", "percentage": "88.94%", "elapsed_time": "2d 7h 28m 3s", "remaining_time": "6h 53m 48s"}
{"loss": 0.57010555, "token_acc": 0.84954359, "grad_norm": 8.57564259, "learning_rate": 3.3e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095791, "epoch": 0.88961486, "global_step/max_steps": "19130/21503", "percentage": "88.96%", "elapsed_time": "2d 7h 28m 25s", "remaining_time": "6h 52m 52s"}
{"loss": 0.70988383, "token_acc": 0.82148929, "grad_norm": 8.63494873, "learning_rate": 3.3e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095805, "epoch": 0.88984738, "global_step/max_steps": "19135/21503", "percentage": "88.99%", "elapsed_time": "2d 7h 28m 48s", "remaining_time": "6h 51m 56s"}
{"loss": 0.69471292, "token_acc": 0.82695925, "grad_norm": 7.49967384, "learning_rate": 3.3e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095819, "epoch": 0.8900799, "global_step/max_steps": "19140/21503", "percentage": "89.01%", "elapsed_time": "2d 7h 29m 11s", "remaining_time": "6h 51m 1s"}
{"loss": 0.65084596, "token_acc": 0.84484801, "grad_norm": 7.82797098, "learning_rate": 3.3e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095832, "epoch": 0.89031242, "global_step/max_steps": "19145/21503", "percentage": "89.03%", "elapsed_time": "2d 7h 29m 35s", "remaining_time": "6h 50m 5s"}
{"loss": 0.61008821, "token_acc": 0.84882329, "grad_norm": 10.99936008, "learning_rate": 3.2e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095846, "epoch": 0.89054494, "global_step/max_steps": "19150/21503", "percentage": "89.06%", "elapsed_time": "2d 7h 29m 58s", "remaining_time": "6h 49m 9s"}
{"eval_loss": 0.55686104, "eval_runtime": 293.2618, "eval_samples_per_second": 11.849, "eval_steps_per_second": 11.849, "epoch": 0.89054494, "global_step/max_steps": "19150/21503", "percentage": "89.06%", "elapsed_time": "2d 7h 34m 51s", "remaining_time": "6h 49m 45s"}
{"loss": 0.56272569, "token_acc": 0.83532403, "grad_norm": 7.64391184, "learning_rate": 3.2e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095719, "epoch": 0.89077745, "global_step/max_steps": "19155/21503", "percentage": "89.08%", "elapsed_time": "2d 7h 35m 16s", "remaining_time": "6h 48m 50s"}
{"loss": 0.6052701, "token_acc": 0.85702341, "grad_norm": 8.36119843, "learning_rate": 3.2e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095733, "epoch": 0.89100997, "global_step/max_steps": "19160/21503", "percentage": "89.10%", "elapsed_time": "2d 7h 35m 39s", "remaining_time": "6h 47m 54s"}
{"loss": 0.57384067, "token_acc": 0.87221764, "grad_norm": 12.7111454, "learning_rate": 3.2e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095747, "epoch": 0.89124249, "global_step/max_steps": "19165/21503", "percentage": "89.13%", "elapsed_time": "2d 7h 36m 2s", "remaining_time": "6h 46m 58s"}
{"loss": 0.65051699, "token_acc": 0.84451338, "grad_norm": 10.06771564, "learning_rate": 3.2e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09576, "epoch": 0.89147501, "global_step/max_steps": "19170/21503", "percentage": "89.15%", "elapsed_time": "2d 7h 36m 27s", "remaining_time": "6h 46m 2s"}
{"loss": 0.52173581, "token_acc": 0.85968586, "grad_norm": 8.28773689, "learning_rate": 3.2e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095774, "epoch": 0.89170753, "global_step/max_steps": "19175/21503", "percentage": "89.17%", "elapsed_time": "2d 7h 36m 50s", "remaining_time": "6h 45m 7s"}
{"loss": 0.64279604, "token_acc": 0.84455959, "grad_norm": 8.86487675, "learning_rate": 3.2e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095788, "epoch": 0.89194005, "global_step/max_steps": "19180/21503", "percentage": "89.20%", "elapsed_time": "2d 7h 37m 14s", "remaining_time": "6h 44m 11s"}
{"loss": 0.59566035, "token_acc": 0.85091543, "grad_norm": 9.91815853, "learning_rate": 3.1e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095802, "epoch": 0.89217256, "global_step/max_steps": "19185/21503", "percentage": "89.22%", "elapsed_time": "2d 7h 37m 37s", "remaining_time": "6h 43m 15s"}
{"loss": 0.70081124, "token_acc": 0.82003231, "grad_norm": 12.31291103, "learning_rate": 3.1e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095815, "epoch": 0.89240508, "global_step/max_steps": "19190/21503", "percentage": "89.24%", "elapsed_time": "2d 7h 38m 1s", "remaining_time": "6h 42m 20s"}
{"loss": 0.76417961, "token_acc": 0.79605688, "grad_norm": 9.34288216, "learning_rate": 3.1e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095829, "epoch": 0.8926376, "global_step/max_steps": "19195/21503", "percentage": "89.27%", "elapsed_time": "2d 7h 38m 24s", "remaining_time": "6h 41m 24s"}
{"loss": 0.64454303, "token_acc": 0.85620915, "grad_norm": 6.64834785, "learning_rate": 3.1e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095843, "epoch": 0.89287012, "global_step/max_steps": "19200/21503", "percentage": "89.29%", "elapsed_time": "2d 7h 38m 46s", "remaining_time": "6h 40m 28s"}
{"eval_loss": 0.55631316, "eval_runtime": 294.234, "eval_samples_per_second": 11.81, "eval_steps_per_second": 11.81, "epoch": 0.89287012, "global_step/max_steps": "19200/21503", "percentage": "89.29%", "elapsed_time": "2d 7h 43m 41s", "remaining_time": "6h 41m 4s"}
{"loss": 0.58877492, "token_acc": 0.83529157, "grad_norm": 9.46845436, "learning_rate": 3.1e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095716, "epoch": 0.89310264, "global_step/max_steps": "19205/21503", "percentage": "89.31%", "elapsed_time": "2d 7h 44m 4s", "remaining_time": "6h 40m 8s"}
{"loss": 0.59078584, "token_acc": 0.8505472, "grad_norm": 9.35183239, "learning_rate": 3.1e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09573, "epoch": 0.89333515, "global_step/max_steps": "19210/21503", "percentage": "89.34%", "elapsed_time": "2d 7h 44m 27s", "remaining_time": "6h 39m 12s"}
{"loss": 0.75391107, "token_acc": 0.81978799, "grad_norm": 11.74577522, "learning_rate": 3.1e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095744, "epoch": 0.89356767, "global_step/max_steps": "19215/21503", "percentage": "89.36%", "elapsed_time": "2d 7h 44m 50s", "remaining_time": "6h 38m 16s"}
{"loss": 0.53189793, "token_acc": 0.87657993, "grad_norm": 10.4527216, "learning_rate": 3.1e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095758, "epoch": 0.89380019, "global_step/max_steps": "19220/21503", "percentage": "89.38%", "elapsed_time": "2d 7h 45m 13s", "remaining_time": "6h 37m 21s"}
{"loss": 0.79538074, "token_acc": 0.7910621, "grad_norm": 8.62246418, "learning_rate": 3e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095772, "epoch": 0.89403271, "global_step/max_steps": "19225/21503", "percentage": "89.41%", "elapsed_time": "2d 7h 45m 37s", "remaining_time": "6h 36m 25s"}
{"loss": 0.65215321, "token_acc": 0.84143836, "grad_norm": 8.54239178, "learning_rate": 3e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095786, "epoch": 0.89426523, "global_step/max_steps": "19230/21503", "percentage": "89.43%", "elapsed_time": "2d 7h 46m 0s", "remaining_time": "6h 35m 30s"}
{"loss": 0.59877381, "token_acc": 0.85183657, "grad_norm": 9.39758968, "learning_rate": 3e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.0958, "epoch": 0.89449775, "global_step/max_steps": "19235/21503", "percentage": "89.45%", "elapsed_time": "2d 7h 46m 23s", "remaining_time": "6h 34m 34s"}
{"loss": 0.66768456, "token_acc": 0.84962992, "grad_norm": 9.28436947, "learning_rate": 3e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095814, "epoch": 0.89473026, "global_step/max_steps": "19240/21503", "percentage": "89.48%", "elapsed_time": "2d 7h 46m 46s", "remaining_time": "6h 33m 38s"}
{"loss": 0.54501843, "token_acc": 0.85807771, "grad_norm": 9.94536018, "learning_rate": 3e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095828, "epoch": 0.89496278, "global_step/max_steps": "19245/21503", "percentage": "89.50%", "elapsed_time": "2d 7h 47m 8s", "remaining_time": "6h 32m 43s"}
{"loss": 0.55781555, "token_acc": 0.85390071, "grad_norm": 6.83374405, "learning_rate": 3e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095842, "epoch": 0.8951953, "global_step/max_steps": "19250/21503", "percentage": "89.52%", "elapsed_time": "2d 7h 47m 31s", "remaining_time": "6h 31m 47s"}
{"eval_loss": 0.5563004, "eval_runtime": 292.9507, "eval_samples_per_second": 11.862, "eval_steps_per_second": 11.862, "epoch": 0.8951953, "global_step/max_steps": "19250/21503", "percentage": "89.52%", "elapsed_time": "2d 7h 52m 24s", "remaining_time": "6h 32m 21s"}
{"loss": 0.61628804, "token_acc": 0.83528752, "grad_norm": 8.07585526, "learning_rate": 3e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095716, "epoch": 0.89542782, "global_step/max_steps": "19255/21503", "percentage": "89.55%", "elapsed_time": "2d 7h 52m 47s", "remaining_time": "6h 31m 26s"}
{"loss": 0.60058947, "token_acc": 0.84961686, "grad_norm": 7.645998, "learning_rate": 2.9e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09573, "epoch": 0.89566034, "global_step/max_steps": "19260/21503", "percentage": "89.57%", "elapsed_time": "2d 7h 53m 10s", "remaining_time": "6h 30m 30s"}
{"loss": 0.55385613, "token_acc": 0.84688995, "grad_norm": 9.75020599, "learning_rate": 2.9e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095744, "epoch": 0.89589286, "global_step/max_steps": "19265/21503", "percentage": "89.59%", "elapsed_time": "2d 7h 53m 33s", "remaining_time": "6h 29m 34s"}
{"loss": 0.56161633, "token_acc": 0.85249307, "grad_norm": 7.04757929, "learning_rate": 2.9e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095758, "epoch": 0.89612537, "global_step/max_steps": "19270/21503", "percentage": "89.62%", "elapsed_time": "2d 7h 53m 56s", "remaining_time": "6h 28m 39s"}
{"loss": 0.64268565, "token_acc": 0.85398626, "grad_norm": 6.87275267, "learning_rate": 2.9e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095771, "epoch": 0.89635789, "global_step/max_steps": "19275/21503", "percentage": "89.64%", "elapsed_time": "2d 7h 54m 20s", "remaining_time": "6h 27m 43s"}
{"loss": 0.61195898, "token_acc": 0.84361037, "grad_norm": 6.30269957, "learning_rate": 2.9e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095785, "epoch": 0.89659041, "global_step/max_steps": "19280/21503", "percentage": "89.66%", "elapsed_time": "2d 7h 54m 44s", "remaining_time": "6h 26m 48s"}
{"loss": 0.66537957, "token_acc": 0.82787194, "grad_norm": 8.90680408, "learning_rate": 2.9e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095798, "epoch": 0.89682293, "global_step/max_steps": "19285/21503", "percentage": "89.69%", "elapsed_time": "2d 7h 55m 8s", "remaining_time": "6h 25m 52s"}
{"loss": 0.60089431, "token_acc": 0.84661417, "grad_norm": 7.29457092, "learning_rate": 2.9e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095812, "epoch": 0.89705545, "global_step/max_steps": "19290/21503", "percentage": "89.71%", "elapsed_time": "2d 7h 55m 32s", "remaining_time": "6h 24m 57s"}
{"loss": 0.63319159, "token_acc": 0.84353291, "grad_norm": 7.8179059, "learning_rate": 2.9e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095826, "epoch": 0.89728797, "global_step/max_steps": "19295/21503", "percentage": "89.73%", "elapsed_time": "2d 7h 55m 54s", "remaining_time": "6h 24m 1s"}
{"loss": 0.52191429, "token_acc": 0.87058824, "grad_norm": 8.82948303, "learning_rate": 2.8e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09584, "epoch": 0.89752048, "global_step/max_steps": "19300/21503", "percentage": "89.75%", "elapsed_time": "2d 7h 56m 17s", "remaining_time": "6h 23m 6s"}
{"eval_loss": 0.55606979, "eval_runtime": 291.6114, "eval_samples_per_second": 11.917, "eval_steps_per_second": 11.917, "epoch": 0.89752048, "global_step/max_steps": "19300/21503", "percentage": "89.75%", "elapsed_time": "2d 8h 1m 9s", "remaining_time": "6h 23m 39s"}
{"loss": 0.51243477, "token_acc": 0.83560655, "grad_norm": 7.60385799, "learning_rate": 2.8e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095714, "epoch": 0.897753, "global_step/max_steps": "19305/21503", "percentage": "89.78%", "elapsed_time": "2d 8h 1m 34s", "remaining_time": "6h 22m 44s"}
{"loss": 0.72543488, "token_acc": 0.81551076, "grad_norm": 7.67479992, "learning_rate": 2.8e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095728, "epoch": 0.89798552, "global_step/max_steps": "19310/21503", "percentage": "89.80%", "elapsed_time": "2d 8h 1m 57s", "remaining_time": "6h 21m 48s"}
{"loss": 0.65560379, "token_acc": 0.84980392, "grad_norm": 8.55947018, "learning_rate": 2.8e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095742, "epoch": 0.89821804, "global_step/max_steps": "19315/21503", "percentage": "89.82%", "elapsed_time": "2d 8h 2m 20s", "remaining_time": "6h 20m 53s"}
{"loss": 0.59156351, "token_acc": 0.86350021, "grad_norm": 9.70150566, "learning_rate": 2.8e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095756, "epoch": 0.89845056, "global_step/max_steps": "19320/21503", "percentage": "89.85%", "elapsed_time": "2d 8h 2m 43s", "remaining_time": "6h 19m 57s"}
{"loss": 0.66069078, "token_acc": 0.83277254, "grad_norm": 7.89941359, "learning_rate": 2.8e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095769, "epoch": 0.89868307, "global_step/max_steps": "19325/21503", "percentage": "89.87%", "elapsed_time": "2d 8h 3m 7s", "remaining_time": "6h 19m 2s"}
{"loss": 0.54002223, "token_acc": 0.87369421, "grad_norm": 9.5742054, "learning_rate": 2.8e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095783, "epoch": 0.89891559, "global_step/max_steps": "19330/21503", "percentage": "89.89%", "elapsed_time": "2d 8h 3m 30s", "remaining_time": "6h 18m 6s"}
{"loss": 0.66008387, "token_acc": 0.82665047, "grad_norm": 9.36733913, "learning_rate": 2.8e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095797, "epoch": 0.89914811, "global_step/max_steps": "19335/21503", "percentage": "89.92%", "elapsed_time": "2d 8h 3m 53s", "remaining_time": "6h 17m 11s"}
{"loss": 0.57846704, "token_acc": 0.85252452, "grad_norm": 8.38469028, "learning_rate": 2.7e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095811, "epoch": 0.89938063, "global_step/max_steps": "19340/21503", "percentage": "89.94%", "elapsed_time": "2d 8h 4m 16s", "remaining_time": "6h 16m 15s"}
{"loss": 0.62742171, "token_acc": 0.84589041, "grad_norm": 9.6863718, "learning_rate": 2.7e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095824, "epoch": 0.89961315, "global_step/max_steps": "19345/21503", "percentage": "89.96%", "elapsed_time": "2d 8h 4m 39s", "remaining_time": "6h 15m 20s"}
{"loss": 0.63289165, "token_acc": 0.8475351, "grad_norm": 9.73272705, "learning_rate": 2.7e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095839, "epoch": 0.89984567, "global_step/max_steps": "19350/21503", "percentage": "89.99%", "elapsed_time": "2d 8h 5m 1s", "remaining_time": "6h 14m 24s"}
{"eval_loss": 0.55583382, "eval_runtime": 293.162, "eval_samples_per_second": 11.854, "eval_steps_per_second": 11.854, "epoch": 0.89984567, "global_step/max_steps": "19350/21503", "percentage": "89.99%", "elapsed_time": "2d 8h 9m 55s", "remaining_time": "6h 14m 57s"}
{"loss": 0.62865195, "token_acc": 0.8351063, "grad_norm": 9.11772251, "learning_rate": 2.7e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095713, "epoch": 0.90007818, "global_step/max_steps": "19355/21503", "percentage": "90.01%", "elapsed_time": "2d 8h 10m 18s", "remaining_time": "6h 14m 1s"}
{"loss": 0.70224552, "token_acc": 0.82352941, "grad_norm": 8.88571167, "learning_rate": 2.7e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095727, "epoch": 0.9003107, "global_step/max_steps": "19360/21503", "percentage": "90.03%", "elapsed_time": "2d 8h 10m 41s", "remaining_time": "6h 13m 6s"}
{"loss": 0.73742266, "token_acc": 0.81678531, "grad_norm": 12.91928005, "learning_rate": 2.7e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09574, "epoch": 0.90054322, "global_step/max_steps": "19365/21503", "percentage": "90.06%", "elapsed_time": "2d 8h 11m 5s", "remaining_time": "6h 12m 11s"}
{"loss": 0.6170115, "token_acc": 0.84672304, "grad_norm": 8.28142929, "learning_rate": 2.7e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095754, "epoch": 0.90077574, "global_step/max_steps": "19370/21503", "percentage": "90.08%", "elapsed_time": "2d 8h 11m 28s", "remaining_time": "6h 11m 15s"}
{"loss": 0.6403152, "token_acc": 0.84203862, "grad_norm": 8.90435123, "learning_rate": 2.7e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095768, "epoch": 0.90100826, "global_step/max_steps": "19375/21503", "percentage": "90.10%", "elapsed_time": "2d 8h 11m 51s", "remaining_time": "6h 10m 20s"}
{"loss": 0.66738005, "token_acc": 0.8332737, "grad_norm": 10.57953358, "learning_rate": 2.6e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095782, "epoch": 0.90124078, "global_step/max_steps": "19380/21503", "percentage": "90.13%", "elapsed_time": "2d 8h 12m 13s", "remaining_time": "6h 9m 24s"}
{"loss": 0.66144862, "token_acc": 0.83314458, "grad_norm": 8.03888512, "learning_rate": 2.6e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095796, "epoch": 0.90147329, "global_step/max_steps": "19385/21503", "percentage": "90.15%", "elapsed_time": "2d 8h 12m 36s", "remaining_time": "6h 8m 29s"}
{"loss": 0.62329311, "token_acc": 0.84885177, "grad_norm": 10.71098518, "learning_rate": 2.6e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09581, "epoch": 0.90170581, "global_step/max_steps": "19390/21503", "percentage": "90.17%", "elapsed_time": "2d 8h 12m 59s", "remaining_time": "6h 7m 34s"}
{"loss": 0.60978899, "token_acc": 0.84618626, "grad_norm": 11.02890873, "learning_rate": 2.6e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095824, "epoch": 0.90193833, "global_step/max_steps": "19395/21503", "percentage": "90.20%", "elapsed_time": "2d 8h 13m 22s", "remaining_time": "6h 6m 38s"}
{"loss": 0.65169816, "token_acc": 0.84235716, "grad_norm": 9.04752827, "learning_rate": 2.6e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095838, "epoch": 0.90217085, "global_step/max_steps": "19400/21503", "percentage": "90.22%", "elapsed_time": "2d 8h 13m 45s", "remaining_time": "6h 5m 43s"}
{"eval_loss": 0.55552459, "eval_runtime": 291.9705, "eval_samples_per_second": 11.902, "eval_steps_per_second": 11.902, "epoch": 0.90217085, "global_step/max_steps": "19400/21503", "percentage": "90.22%", "elapsed_time": "2d 8h 18m 37s", "remaining_time": "6h 6m 14s"}
{"loss": 0.56597891, "token_acc": 0.83520524, "grad_norm": 8.49244976, "learning_rate": 2.6e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095714, "epoch": 0.90240337, "global_step/max_steps": "19405/21503", "percentage": "90.24%", "elapsed_time": "2d 8h 19m 0s", "remaining_time": "6h 5m 19s"}
{"loss": 0.7192893, "token_acc": 0.81598848, "grad_norm": 8.33986187, "learning_rate": 2.6e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095727, "epoch": 0.90263589, "global_step/max_steps": "19410/21503", "percentage": "90.27%", "elapsed_time": "2d 8h 19m 23s", "remaining_time": "6h 4m 24s"}
{"loss": 0.62945471, "token_acc": 0.83601071, "grad_norm": 10.29520988, "learning_rate": 2.6e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09574, "epoch": 0.9028684, "global_step/max_steps": "19415/21503", "percentage": "90.29%", "elapsed_time": "2d 8h 19m 48s", "remaining_time": "6h 3m 29s"}
{"loss": 0.61932592, "token_acc": 0.84159378, "grad_norm": 10.89443684, "learning_rate": 2.5e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095754, "epoch": 0.90310092, "global_step/max_steps": "19420/21503", "percentage": "90.31%", "elapsed_time": "2d 8h 20m 11s", "remaining_time": "6h 2m 33s"}
{"loss": 0.63299537, "token_acc": 0.85241324, "grad_norm": 8.60874081, "learning_rate": 2.5e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095768, "epoch": 0.90333344, "global_step/max_steps": "19425/21503", "percentage": "90.34%", "elapsed_time": "2d 8h 20m 33s", "remaining_time": "6h 1m 38s"}
{"loss": 0.63592567, "token_acc": 0.842723, "grad_norm": 9.99423313, "learning_rate": 2.5e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095782, "epoch": 0.90356596, "global_step/max_steps": "19430/21503", "percentage": "90.36%", "elapsed_time": "2d 8h 20m 56s", "remaining_time": "6h 0m 42s"}
{"loss": 0.58080378, "token_acc": 0.86668819, "grad_norm": 7.38197136, "learning_rate": 2.5e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095795, "epoch": 0.90379848, "global_step/max_steps": "19435/21503", "percentage": "90.38%", "elapsed_time": "2d 8h 21m 19s", "remaining_time": "5h 59m 47s"}
{"loss": 0.62052779, "token_acc": 0.84712529, "grad_norm": 7.36966801, "learning_rate": 2.5e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095809, "epoch": 0.90403099, "global_step/max_steps": "19440/21503", "percentage": "90.41%", "elapsed_time": "2d 8h 21m 42s", "remaining_time": "5h 58m 52s"}
{"loss": 0.71414385, "token_acc": 0.82378312, "grad_norm": 7.31138897, "learning_rate": 2.5e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095823, "epoch": 0.90426351, "global_step/max_steps": "19445/21503", "percentage": "90.43%", "elapsed_time": "2d 8h 22m 5s", "remaining_time": "5h 57m 57s"}
{"loss": 0.80548162, "token_acc": 0.79543809, "grad_norm": 7.69714212, "learning_rate": 2.5e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095837, "epoch": 0.90449603, "global_step/max_steps": "19450/21503", "percentage": "90.45%", "elapsed_time": "2d 8h 22m 28s", "remaining_time": "5h 57m 1s"}
{"eval_loss": 0.55569774, "eval_runtime": 292.9688, "eval_samples_per_second": 11.861, "eval_steps_per_second": 11.861, "epoch": 0.90449603, "global_step/max_steps": "19450/21503", "percentage": "90.45%", "elapsed_time": "2d 8h 27m 21s", "remaining_time": "5h 57m 32s"}
{"loss": 0.6010458, "token_acc": 0.8351868, "grad_norm": 8.82836533, "learning_rate": 2.5e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095712, "epoch": 0.90472855, "global_step/max_steps": "19455/21503", "percentage": "90.48%", "elapsed_time": "2d 8h 27m 44s", "remaining_time": "5h 56m 37s"}
{"loss": 0.60241098, "token_acc": 0.83650891, "grad_norm": 6.52286482, "learning_rate": 2.4e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095726, "epoch": 0.90496107, "global_step/max_steps": "19460/21503", "percentage": "90.50%", "elapsed_time": "2d 8h 28m 8s", "remaining_time": "5h 55m 42s"}
{"loss": 0.7021987, "token_acc": 0.81530139, "grad_norm": 10.06182766, "learning_rate": 2.4e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09574, "epoch": 0.90519359, "global_step/max_steps": "19465/21503", "percentage": "90.52%", "elapsed_time": "2d 8h 28m 30s", "remaining_time": "5h 54m 46s"}
{"loss": 0.60619292, "token_acc": 0.84003091, "grad_norm": 12.95335197, "learning_rate": 2.4e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095753, "epoch": 0.9054261, "global_step/max_steps": "19470/21503", "percentage": "90.55%", "elapsed_time": "2d 8h 28m 54s", "remaining_time": "5h 53m 51s"}
{"loss": 0.62105718, "token_acc": 0.84984312, "grad_norm": 11.29394531, "learning_rate": 2.4e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095767, "epoch": 0.90565862, "global_step/max_steps": "19475/21503", "percentage": "90.57%", "elapsed_time": "2d 8h 29m 17s", "remaining_time": "5h 52m 56s"}
{"loss": 0.58504725, "token_acc": 0.84894366, "grad_norm": 7.61016655, "learning_rate": 2.4e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095781, "epoch": 0.90589114, "global_step/max_steps": "19480/21503", "percentage": "90.59%", "elapsed_time": "2d 8h 29m 40s", "remaining_time": "5h 52m 1s"}
{"loss": 0.66630211, "token_acc": 0.83976608, "grad_norm": 11.88119984, "learning_rate": 2.4e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095795, "epoch": 0.90612366, "global_step/max_steps": "19485/21503", "percentage": "90.62%", "elapsed_time": "2d 8h 30m 3s", "remaining_time": "5h 51m 5s"}
{"loss": 0.75443702, "token_acc": 0.8081852, "grad_norm": 11.32091427, "learning_rate": 2.4e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095809, "epoch": 0.90635618, "global_step/max_steps": "19490/21503", "percentage": "90.64%", "elapsed_time": "2d 8h 30m 25s", "remaining_time": "5h 50m 10s"}
{"loss": 0.68390589, "token_acc": 0.83619345, "grad_norm": 11.55121613, "learning_rate": 2.4e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095822, "epoch": 0.9065887, "global_step/max_steps": "19495/21503", "percentage": "90.66%", "elapsed_time": "2d 8h 30m 48s", "remaining_time": "5h 49m 15s"}
{"loss": 0.64067435, "token_acc": 0.84550085, "grad_norm": 10.21449757, "learning_rate": 2.4e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095836, "epoch": 0.90682121, "global_step/max_steps": "19500/21503", "percentage": "90.69%", "elapsed_time": "2d 8h 31m 11s", "remaining_time": "5h 48m 20s"}
{"eval_loss": 0.55565685, "eval_runtime": 295.0302, "eval_samples_per_second": 11.778, "eval_steps_per_second": 11.778, "epoch": 0.90682121, "global_step/max_steps": "19500/21503", "percentage": "90.69%", "elapsed_time": "2d 8h 36m 6s", "remaining_time": "5h 48m 50s"}
{"loss": 0.80548477, "token_acc": 0.83307717, "grad_norm": 7.02323771, "learning_rate": 2.3e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09571, "epoch": 0.90705373, "global_step/max_steps": "19505/21503", "percentage": "90.71%", "elapsed_time": "2d 8h 36m 31s", "remaining_time": "5h 47m 55s"}
{"loss": 0.57842102, "token_acc": 0.84460548, "grad_norm": 9.72920513, "learning_rate": 2.3e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095724, "epoch": 0.90728625, "global_step/max_steps": "19510/21503", "percentage": "90.73%", "elapsed_time": "2d 8h 36m 55s", "remaining_time": "5h 47m 0s"}
{"loss": 0.64690266, "token_acc": 0.82184259, "grad_norm": 11.61776829, "learning_rate": 2.3e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095738, "epoch": 0.90751877, "global_step/max_steps": "19515/21503", "percentage": "90.75%", "elapsed_time": "2d 8h 37m 18s", "remaining_time": "5h 46m 5s"}
{"loss": 0.63912768, "token_acc": 0.84081287, "grad_norm": 9.73971558, "learning_rate": 2.3e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095752, "epoch": 0.90775129, "global_step/max_steps": "19520/21503", "percentage": "90.78%", "elapsed_time": "2d 8h 37m 40s", "remaining_time": "5h 45m 9s"}
{"loss": 0.5951901, "token_acc": 0.8453547, "grad_norm": 8.33720684, "learning_rate": 2.3e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095765, "epoch": 0.90798381, "global_step/max_steps": "19525/21503", "percentage": "90.80%", "elapsed_time": "2d 8h 38m 4s", "remaining_time": "5h 44m 14s"}
{"loss": 0.59206572, "token_acc": 0.85768581, "grad_norm": 8.90219116, "learning_rate": 2.3e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095778, "epoch": 0.90821632, "global_step/max_steps": "19530/21503", "percentage": "90.82%", "elapsed_time": "2d 8h 38m 28s", "remaining_time": "5h 43m 19s"}
{"loss": 0.68027649, "token_acc": 0.81954674, "grad_norm": 7.16819048, "learning_rate": 2.3e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095792, "epoch": 0.90844884, "global_step/max_steps": "19535/21503", "percentage": "90.85%", "elapsed_time": "2d 8h 38m 51s", "remaining_time": "5h 42m 24s"}
{"loss": 0.64065351, "token_acc": 0.83520276, "grad_norm": 8.61885643, "learning_rate": 2.3e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095806, "epoch": 0.90868136, "global_step/max_steps": "19540/21503", "percentage": "90.87%", "elapsed_time": "2d 8h 39m 14s", "remaining_time": "5h 41m 29s"}
{"loss": 0.66113505, "token_acc": 0.83414804, "grad_norm": 8.29869652, "learning_rate": 2.2e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095819, "epoch": 0.90891388, "global_step/max_steps": "19545/21503", "percentage": "90.89%", "elapsed_time": "2d 8h 39m 38s", "remaining_time": "5h 40m 34s"}
{"loss": 0.70694447, "token_acc": 0.84423926, "grad_norm": 8.72960949, "learning_rate": 2.2e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095833, "epoch": 0.9091464, "global_step/max_steps": "19550/21503", "percentage": "90.92%", "elapsed_time": "2d 8h 40m 0s", "remaining_time": "5h 39m 39s"}
{"eval_loss": 0.55589271, "eval_runtime": 292.7905, "eval_samples_per_second": 11.869, "eval_steps_per_second": 11.869, "epoch": 0.9091464, "global_step/max_steps": "19550/21503", "percentage": "90.92%", "elapsed_time": "2d 8h 44m 53s", "remaining_time": "5h 40m 8s"}
{"loss": 0.75751309, "token_acc": 0.83418633, "grad_norm": 8.66666698, "learning_rate": 2.2e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095709, "epoch": 0.90937891, "global_step/max_steps": "19555/21503", "percentage": "90.94%", "elapsed_time": "2d 8h 45m 16s", "remaining_time": "5h 39m 13s"}
{"loss": 0.60257006, "token_acc": 0.85668563, "grad_norm": 7.63339949, "learning_rate": 2.2e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095723, "epoch": 0.90961143, "global_step/max_steps": "19560/21503", "percentage": "90.96%", "elapsed_time": "2d 8h 45m 39s", "remaining_time": "5h 38m 18s"}
{"loss": 0.63073683, "token_acc": 0.84148666, "grad_norm": 6.44536972, "learning_rate": 2.2e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095736, "epoch": 0.90984395, "global_step/max_steps": "19565/21503", "percentage": "90.99%", "elapsed_time": "2d 8h 46m 3s", "remaining_time": "5h 37m 23s"}
{"loss": 0.5543891, "token_acc": 0.85815843, "grad_norm": 10.30349064, "learning_rate": 2.2e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09575, "epoch": 0.91007647, "global_step/max_steps": "19570/21503", "percentage": "91.01%", "elapsed_time": "2d 8h 46m 26s", "remaining_time": "5h 36m 27s"}
{"loss": 0.6006918, "token_acc": 0.84683619, "grad_norm": 6.99493647, "learning_rate": 2.2e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095764, "epoch": 0.91030899, "global_step/max_steps": "19575/21503", "percentage": "91.03%", "elapsed_time": "2d 8h 46m 49s", "remaining_time": "5h 35m 32s"}
{"loss": 0.82530308, "token_acc": 0.81205674, "grad_norm": 8.90293121, "learning_rate": 2.2e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095778, "epoch": 0.91054151, "global_step/max_steps": "19580/21503", "percentage": "91.06%", "elapsed_time": "2d 8h 47m 11s", "remaining_time": "5h 34m 37s"}
{"loss": 0.65102921, "token_acc": 0.85943601, "grad_norm": 11.87978268, "learning_rate": 2.2e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095792, "epoch": 0.91077402, "global_step/max_steps": "19585/21503", "percentage": "91.08%", "elapsed_time": "2d 8h 47m 34s", "remaining_time": "5h 33m 42s"}
{"loss": 0.62992473, "token_acc": 0.84025306, "grad_norm": 8.59546375, "learning_rate": 2.1e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095805, "epoch": 0.91100654, "global_step/max_steps": "19590/21503", "percentage": "91.10%", "elapsed_time": "2d 8h 47m 56s", "remaining_time": "5h 32m 47s"}
{"loss": 0.6486124, "token_acc": 0.849501, "grad_norm": 8.18715763, "learning_rate": 2.1e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095819, "epoch": 0.91123906, "global_step/max_steps": "19595/21503", "percentage": "91.13%", "elapsed_time": "2d 8h 48m 18s", "remaining_time": "5h 31m 52s"}
{"loss": 0.56458879, "token_acc": 0.85555966, "grad_norm": 7.3941412, "learning_rate": 2.1e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095833, "epoch": 0.91147158, "global_step/max_steps": "19600/21503", "percentage": "91.15%", "elapsed_time": "2d 8h 48m 41s", "remaining_time": "5h 30m 57s"}
{"eval_loss": 0.55649167, "eval_runtime": 291.8498, "eval_samples_per_second": 11.907, "eval_steps_per_second": 11.907, "epoch": 0.91147158, "global_step/max_steps": "19600/21503", "percentage": "91.15%", "elapsed_time": "2d 8h 53m 33s", "remaining_time": "5h 31m 25s"}
{"loss": 0.65575666, "token_acc": 0.83478861, "grad_norm": 9.97465229, "learning_rate": 2.1e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09571, "epoch": 0.9117041, "global_step/max_steps": "19605/21503", "percentage": "91.17%", "elapsed_time": "2d 8h 53m 56s", "remaining_time": "5h 30m 30s"}
{"loss": 0.62857437, "token_acc": 0.83818526, "grad_norm": 9.16475296, "learning_rate": 2.1e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095724, "epoch": 0.91193662, "global_step/max_steps": "19610/21503", "percentage": "91.20%", "elapsed_time": "2d 8h 54m 18s", "remaining_time": "5h 29m 35s"}
{"loss": 0.59006515, "token_acc": 0.84571632, "grad_norm": 7.62285233, "learning_rate": 2.1e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095738, "epoch": 0.91216913, "global_step/max_steps": "19615/21503", "percentage": "91.22%", "elapsed_time": "2d 8h 54m 42s", "remaining_time": "5h 28m 40s"}
{"loss": 0.67410183, "token_acc": 0.8318719, "grad_norm": 7.59403467, "learning_rate": 2.1e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095752, "epoch": 0.91240165, "global_step/max_steps": "19620/21503", "percentage": "91.24%", "elapsed_time": "2d 8h 55m 4s", "remaining_time": "5h 27m 45s"}
{"loss": 0.57132092, "token_acc": 0.85057471, "grad_norm": 7.63830471, "learning_rate": 2.1e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095765, "epoch": 0.91263417, "global_step/max_steps": "19625/21503", "percentage": "91.27%", "elapsed_time": "2d 8h 55m 27s", "remaining_time": "5h 26m 50s"}
{"loss": 0.6419744, "token_acc": 0.83413462, "grad_norm": 7.9101119, "learning_rate": 2.1e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095779, "epoch": 0.91286669, "global_step/max_steps": "19630/21503", "percentage": "91.29%", "elapsed_time": "2d 8h 55m 50s", "remaining_time": "5h 25m 55s"}
{"loss": 0.59537163, "token_acc": 0.85512947, "grad_norm": 10.28345394, "learning_rate": 2e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095793, "epoch": 0.91309921, "global_step/max_steps": "19635/21503", "percentage": "91.31%", "elapsed_time": "2d 8h 56m 13s", "remaining_time": "5h 25m 0s"}
{"loss": 0.59924903, "token_acc": 0.85701149, "grad_norm": 10.159235, "learning_rate": 2e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095806, "epoch": 0.91333173, "global_step/max_steps": "19640/21503", "percentage": "91.34%", "elapsed_time": "2d 8h 56m 36s", "remaining_time": "5h 24m 5s"}
{"loss": 0.551933, "token_acc": 0.85503504, "grad_norm": 7.88938332, "learning_rate": 2e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09582, "epoch": 0.91356424, "global_step/max_steps": "19645/21503", "percentage": "91.36%", "elapsed_time": "2d 8h 57m 0s", "remaining_time": "5h 23m 10s"}
{"loss": 0.58517814, "token_acc": 0.84821429, "grad_norm": 8.54048157, "learning_rate": 2e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095833, "epoch": 0.91379676, "global_step/max_steps": "19650/21503", "percentage": "91.38%", "elapsed_time": "2d 8h 57m 23s", "remaining_time": "5h 22m 15s"}
{"eval_loss": 0.55601805, "eval_runtime": 293.7189, "eval_samples_per_second": 11.831, "eval_steps_per_second": 11.831, "epoch": 0.91379676, "global_step/max_steps": "19650/21503", "percentage": "91.38%", "elapsed_time": "2d 9h 2m 16s", "remaining_time": "5h 22m 43s"}
{"loss": 0.66037388, "token_acc": 0.83453896, "grad_norm": 8.10605431, "learning_rate": 2e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09571, "epoch": 0.91402928, "global_step/max_steps": "19655/21503", "percentage": "91.41%", "elapsed_time": "2d 9h 2m 40s", "remaining_time": "5h 21m 48s"}
{"loss": 0.81711311, "token_acc": 0.80342815, "grad_norm": 7.77649784, "learning_rate": 2e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095724, "epoch": 0.9142618, "global_step/max_steps": "19660/21503", "percentage": "91.43%", "elapsed_time": "2d 9h 3m 2s", "remaining_time": "5h 20m 53s"}
{"loss": 0.51960869, "token_acc": 0.87062257, "grad_norm": 9.40766621, "learning_rate": 2e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095737, "epoch": 0.91449432, "global_step/max_steps": "19665/21503", "percentage": "91.45%", "elapsed_time": "2d 9h 3m 25s", "remaining_time": "5h 19m 58s"}
{"loss": 0.63638315, "token_acc": 0.84877301, "grad_norm": 9.2898407, "learning_rate": 2e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095751, "epoch": 0.91472683, "global_step/max_steps": "19670/21503", "percentage": "91.48%", "elapsed_time": "2d 9h 3m 48s", "remaining_time": "5h 19m 3s"}
{"loss": 0.62475824, "token_acc": 0.84285714, "grad_norm": 8.72482395, "learning_rate": 2e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095764, "epoch": 0.91495935, "global_step/max_steps": "19675/21503", "percentage": "91.50%", "elapsed_time": "2d 9h 4m 12s", "remaining_time": "5h 18m 8s"}
{"loss": 0.55403662, "token_acc": 0.86010363, "grad_norm": 9.43169498, "learning_rate": 2e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095777, "epoch": 0.91519187, "global_step/max_steps": "19680/21503", "percentage": "91.52%", "elapsed_time": "2d 9h 4m 36s", "remaining_time": "5h 17m 13s"}
{"loss": 0.6447968, "token_acc": 0.84263393, "grad_norm": 9.5504055, "learning_rate": 1.9e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09579, "epoch": 0.91542439, "global_step/max_steps": "19685/21503", "percentage": "91.55%", "elapsed_time": "2d 9h 5m 0s", "remaining_time": "5h 16m 18s"}
{"loss": 0.56231241, "token_acc": 0.86113428, "grad_norm": 9.51830578, "learning_rate": 1.9e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095804, "epoch": 0.91565691, "global_step/max_steps": "19690/21503", "percentage": "91.57%", "elapsed_time": "2d 9h 5m 23s", "remaining_time": "5h 15m 24s"}
{"loss": 0.69571767, "token_acc": 0.82641374, "grad_norm": 7.2550149, "learning_rate": 1.9e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095818, "epoch": 0.91588943, "global_step/max_steps": "19695/21503", "percentage": "91.59%", "elapsed_time": "2d 9h 5m 45s", "remaining_time": "5h 14m 29s"}
{"loss": 0.80651674, "token_acc": 0.76435045, "grad_norm": 10.80542755, "learning_rate": 1.9e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095831, "epoch": 0.91612194, "global_step/max_steps": "19700/21503", "percentage": "91.62%", "elapsed_time": "2d 9h 6m 9s", "remaining_time": "5h 13m 34s"}
{"eval_loss": 0.55607766, "eval_runtime": 294.8996, "eval_samples_per_second": 11.784, "eval_steps_per_second": 11.784, "epoch": 0.91612194, "global_step/max_steps": "19700/21503", "percentage": "91.62%", "elapsed_time": "2d 9h 11m 4s", "remaining_time": "5h 14m 1s"}
{"loss": 0.69487295, "token_acc": 0.8349877, "grad_norm": 6.11167192, "learning_rate": 1.9e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095707, "epoch": 0.91635446, "global_step/max_steps": "19705/21503", "percentage": "91.64%", "elapsed_time": "2d 9h 11m 27s", "remaining_time": "5h 13m 6s"}
{"loss": 0.6319417, "token_acc": 0.83981517, "grad_norm": 8.43687057, "learning_rate": 1.9e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095721, "epoch": 0.91658698, "global_step/max_steps": "19710/21503", "percentage": "91.66%", "elapsed_time": "2d 9h 11m 50s", "remaining_time": "5h 12m 11s"}
{"loss": 0.69568725, "token_acc": 0.82704604, "grad_norm": 9.34516907, "learning_rate": 1.9e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095735, "epoch": 0.9168195, "global_step/max_steps": "19715/21503", "percentage": "91.68%", "elapsed_time": "2d 9h 12m 13s", "remaining_time": "5h 11m 16s"}
{"loss": 0.55550199, "token_acc": 0.86475662, "grad_norm": 7.3564992, "learning_rate": 1.9e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095748, "epoch": 0.91705202, "global_step/max_steps": "19720/21503", "percentage": "91.71%", "elapsed_time": "2d 9h 12m 36s", "remaining_time": "5h 10m 21s"}
{"loss": 0.90571814, "token_acc": 0.78321274, "grad_norm": 6.53658104, "learning_rate": 1.9e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095762, "epoch": 0.91728454, "global_step/max_steps": "19725/21503", "percentage": "91.73%", "elapsed_time": "2d 9h 13m 0s", "remaining_time": "5h 9m 26s"}
{"loss": 0.53441997, "token_acc": 0.86944046, "grad_norm": 10.98261452, "learning_rate": 1.8e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095775, "epoch": 0.91751705, "global_step/max_steps": "19730/21503", "percentage": "91.75%", "elapsed_time": "2d 9h 13m 23s", "remaining_time": "5h 8m 32s"}
{"loss": 0.70984077, "token_acc": 0.81779661, "grad_norm": 9.25343037, "learning_rate": 1.8e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095789, "epoch": 0.91774957, "global_step/max_steps": "19735/21503", "percentage": "91.78%", "elapsed_time": "2d 9h 13m 46s", "remaining_time": "5h 7m 37s"}
{"loss": 0.60489521, "token_acc": 0.84233775, "grad_norm": 8.57931232, "learning_rate": 1.8e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095803, "epoch": 0.91798209, "global_step/max_steps": "19740/21503", "percentage": "91.80%", "elapsed_time": "2d 9h 14m 8s", "remaining_time": "5h 6m 42s"}
{"loss": 0.58175879, "token_acc": 0.85633449, "grad_norm": 8.82918262, "learning_rate": 1.8e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095816, "epoch": 0.91821461, "global_step/max_steps": "19745/21503", "percentage": "91.82%", "elapsed_time": "2d 9h 14m 31s", "remaining_time": "5h 5m 47s"}
{"loss": 0.65027504, "token_acc": 0.84438776, "grad_norm": 11.8612175, "learning_rate": 1.8e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09583, "epoch": 0.91844713, "global_step/max_steps": "19750/21503", "percentage": "91.85%", "elapsed_time": "2d 9h 14m 54s", "remaining_time": "5h 4m 52s"}
{"eval_loss": 0.55618262, "eval_runtime": 293.7773, "eval_samples_per_second": 11.829, "eval_steps_per_second": 11.829, "epoch": 0.91844713, "global_step/max_steps": "19750/21503", "percentage": "91.85%", "elapsed_time": "2d 9h 19m 48s", "remaining_time": "5h 5m 18s"}
{"loss": 0.63969793, "token_acc": 0.8350864, "grad_norm": 8.32117081, "learning_rate": 1.8e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095707, "epoch": 0.91867965, "global_step/max_steps": "19755/21503", "percentage": "91.87%", "elapsed_time": "2d 9h 20m 11s", "remaining_time": "5h 4m 24s"}
{"loss": 0.55263152, "token_acc": 0.85813149, "grad_norm": 6.91531944, "learning_rate": 1.8e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09572, "epoch": 0.91891216, "global_step/max_steps": "19760/21503", "percentage": "91.89%", "elapsed_time": "2d 9h 20m 34s", "remaining_time": "5h 3m 29s"}
{"loss": 0.67164431, "token_acc": 0.83483871, "grad_norm": 8.19785309, "learning_rate": 1.8e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095734, "epoch": 0.91914468, "global_step/max_steps": "19765/21503", "percentage": "91.92%", "elapsed_time": "2d 9h 20m 56s", "remaining_time": "5h 2m 34s"}
{"loss": 0.73274117, "token_acc": 0.81475541, "grad_norm": 8.29050255, "learning_rate": 1.8e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095748, "epoch": 0.9193772, "global_step/max_steps": "19770/21503", "percentage": "91.94%", "elapsed_time": "2d 9h 21m 19s", "remaining_time": "5h 1m 39s"}
{"loss": 0.5660604, "token_acc": 0.86198306, "grad_norm": 7.79584599, "learning_rate": 1.8e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095762, "epoch": 0.91960972, "global_step/max_steps": "19775/21503", "percentage": "91.96%", "elapsed_time": "2d 9h 21m 41s", "remaining_time": "5h 0m 44s"}
{"loss": 0.6886507, "token_acc": 0.82982396, "grad_norm": 7.26662874, "learning_rate": 1.7e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095776, "epoch": 0.91984224, "global_step/max_steps": "19780/21503", "percentage": "91.99%", "elapsed_time": "2d 9h 22m 3s", "remaining_time": "4h 59m 49s"}
{"loss": 0.60571737, "token_acc": 0.84861201, "grad_norm": 7.93756914, "learning_rate": 1.7e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09579, "epoch": 0.92007475, "global_step/max_steps": "19785/21503", "percentage": "92.01%", "elapsed_time": "2d 9h 22m 26s", "remaining_time": "4h 58m 55s"}
{"loss": 0.65546365, "token_acc": 0.84102983, "grad_norm": 8.47416973, "learning_rate": 1.7e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095803, "epoch": 0.92030727, "global_step/max_steps": "19790/21503", "percentage": "92.03%", "elapsed_time": "2d 9h 22m 48s", "remaining_time": "4h 58m 0s"}
{"loss": 0.64643092, "token_acc": 0.83846705, "grad_norm": 10.37956715, "learning_rate": 1.7e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095817, "epoch": 0.92053979, "global_step/max_steps": "19795/21503", "percentage": "92.06%", "elapsed_time": "2d 9h 23m 11s", "remaining_time": "4h 57m 5s"}
{"loss": 0.61796079, "token_acc": 0.85955649, "grad_norm": 7.70695353, "learning_rate": 1.7e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09583, "epoch": 0.92077231, "global_step/max_steps": "19800/21503", "percentage": "92.08%", "elapsed_time": "2d 9h 23m 35s", "remaining_time": "4h 56m 11s"}
{"eval_loss": 0.55602485, "eval_runtime": 293.0751, "eval_samples_per_second": 11.857, "eval_steps_per_second": 11.857, "epoch": 0.92077231, "global_step/max_steps": "19800/21503", "percentage": "92.08%", "elapsed_time": "2d 9h 28m 28s", "remaining_time": "4h 56m 36s"}
{"loss": 0.64132023, "token_acc": 0.83465191, "grad_norm": 10.09892273, "learning_rate": 1.7e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095708, "epoch": 0.92100483, "global_step/max_steps": "19805/21503", "percentage": "92.10%", "elapsed_time": "2d 9h 28m 51s", "remaining_time": "4h 55m 41s"}
{"loss": 0.74926534, "token_acc": 0.81836529, "grad_norm": 10.48345757, "learning_rate": 1.7e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095721, "epoch": 0.92123735, "global_step/max_steps": "19810/21503", "percentage": "92.13%", "elapsed_time": "2d 9h 29m 15s", "remaining_time": "4h 54m 46s"}
{"loss": 0.57197351, "token_acc": 0.85725839, "grad_norm": 8.32234097, "learning_rate": 1.7e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095735, "epoch": 0.92146986, "global_step/max_steps": "19815/21503", "percentage": "92.15%", "elapsed_time": "2d 9h 29m 38s", "remaining_time": "4h 53m 52s"}
{"loss": 0.69028997, "token_acc": 0.83084922, "grad_norm": 11.46911716, "learning_rate": 1.7e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095748, "epoch": 0.92170238, "global_step/max_steps": "19820/21503", "percentage": "92.17%", "elapsed_time": "2d 9h 30m 0s", "remaining_time": "4h 52m 57s"}
{"loss": 0.75112505, "token_acc": 0.81293233, "grad_norm": 7.6519556, "learning_rate": 1.7e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095762, "epoch": 0.9219349, "global_step/max_steps": "19825/21503", "percentage": "92.20%", "elapsed_time": "2d 9h 30m 24s", "remaining_time": "4h 52m 2s"}
{"loss": 0.49587245, "token_acc": 0.88280616, "grad_norm": 7.94031525, "learning_rate": 1.6e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095775, "epoch": 0.92216742, "global_step/max_steps": "19830/21503", "percentage": "92.22%", "elapsed_time": "2d 9h 30m 47s", "remaining_time": "4h 51m 7s"}
{"loss": 0.69386573, "token_acc": 0.82987106, "grad_norm": 8.77691555, "learning_rate": 1.6e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095789, "epoch": 0.92239994, "global_step/max_steps": "19835/21503", "percentage": "92.24%", "elapsed_time": "2d 9h 31m 10s", "remaining_time": "4h 50m 13s"}
{"loss": 0.56077456, "token_acc": 0.85562549, "grad_norm": 10.61273861, "learning_rate": 1.6e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095802, "epoch": 0.92263246, "global_step/max_steps": "19840/21503", "percentage": "92.27%", "elapsed_time": "2d 9h 31m 34s", "remaining_time": "4h 49m 18s"}
{"loss": 0.59844732, "token_acc": 0.84448755, "grad_norm": 7.88206434, "learning_rate": 1.6e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095815, "epoch": 0.92286497, "global_step/max_steps": "19845/21503", "percentage": "92.29%", "elapsed_time": "2d 9h 31m 57s", "remaining_time": "4h 48m 24s"}
{"loss": 0.72640319, "token_acc": 0.81809307, "grad_norm": 11.58521843, "learning_rate": 1.6e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095829, "epoch": 0.92309749, "global_step/max_steps": "19850/21503", "percentage": "92.31%", "elapsed_time": "2d 9h 32m 20s", "remaining_time": "4h 47m 29s"}
{"eval_loss": 0.55598038, "eval_runtime": 294.0643, "eval_samples_per_second": 11.817, "eval_steps_per_second": 11.817, "epoch": 0.92309749, "global_step/max_steps": "19850/21503", "percentage": "92.31%", "elapsed_time": "2d 9h 37m 14s", "remaining_time": "4h 47m 54s"}
{"loss": 0.57060332, "token_acc": 0.83508921, "grad_norm": 6.90625477, "learning_rate": 1.6e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095706, "epoch": 0.92333001, "global_step/max_steps": "19855/21503", "percentage": "92.34%", "elapsed_time": "2d 9h 37m 37s", "remaining_time": "4h 46m 59s"}
{"loss": 0.56716805, "token_acc": 0.85310345, "grad_norm": 6.35247612, "learning_rate": 1.6e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09572, "epoch": 0.92356253, "global_step/max_steps": "19860/21503", "percentage": "92.36%", "elapsed_time": "2d 9h 38m 0s", "remaining_time": "4h 46m 4s"}
{"loss": 0.76118689, "token_acc": 0.81836066, "grad_norm": 8.45851135, "learning_rate": 1.6e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095733, "epoch": 0.92379505, "global_step/max_steps": "19865/21503", "percentage": "92.38%", "elapsed_time": "2d 9h 38m 23s", "remaining_time": "4h 45m 10s"}
{"loss": 0.50990105, "token_acc": 0.87115922, "grad_norm": 11.12063885, "learning_rate": 1.6e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095747, "epoch": 0.92402757, "global_step/max_steps": "19870/21503", "percentage": "92.41%", "elapsed_time": "2d 9h 38m 46s", "remaining_time": "4h 44m 15s"}
{"loss": 0.66001706, "token_acc": 0.83730018, "grad_norm": 9.01286983, "learning_rate": 1.6e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09576, "epoch": 0.92426008, "global_step/max_steps": "19875/21503", "percentage": "92.43%", "elapsed_time": "2d 9h 39m 9s", "remaining_time": "4h 43m 20s"}
{"loss": 0.67556429, "token_acc": 0.83455497, "grad_norm": 7.92613506, "learning_rate": 1.5e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095774, "epoch": 0.9244926, "global_step/max_steps": "19880/21503", "percentage": "92.45%", "elapsed_time": "2d 9h 39m 32s", "remaining_time": "4h 42m 26s"}
{"loss": 0.58727956, "token_acc": 0.84277172, "grad_norm": 12.26133537, "learning_rate": 1.5e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095787, "epoch": 0.92472512, "global_step/max_steps": "19885/21503", "percentage": "92.48%", "elapsed_time": "2d 9h 39m 55s", "remaining_time": "4h 41m 31s"}
{"loss": 0.66687198, "token_acc": 0.83315954, "grad_norm": 7.18639946, "learning_rate": 1.5e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095801, "epoch": 0.92495764, "global_step/max_steps": "19890/21503", "percentage": "92.50%", "elapsed_time": "2d 9h 40m 17s", "remaining_time": "4h 40m 36s"}
{"loss": 0.62482057, "token_acc": 0.84790462, "grad_norm": 8.70663357, "learning_rate": 1.5e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095815, "epoch": 0.92519016, "global_step/max_steps": "19895/21503", "percentage": "92.52%", "elapsed_time": "2d 9h 40m 40s", "remaining_time": "4h 39m 42s"}
{"loss": 0.62369418, "token_acc": 0.84207202, "grad_norm": 7.30840349, "learning_rate": 1.5e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095828, "epoch": 0.92542267, "global_step/max_steps": "19900/21503", "percentage": "92.55%", "elapsed_time": "2d 9h 41m 3s", "remaining_time": "4h 38m 47s"}
{"eval_loss": 0.55592775, "eval_runtime": 293.4352, "eval_samples_per_second": 11.842, "eval_steps_per_second": 11.842, "epoch": 0.92542267, "global_step/max_steps": "19900/21503", "percentage": "92.55%", "elapsed_time": "2d 9h 45m 56s", "remaining_time": "4h 39m 11s"}
{"loss": 0.74255762, "token_acc": 0.83455453, "grad_norm": 8.53604794, "learning_rate": 1.5e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095706, "epoch": 0.92565519, "global_step/max_steps": "19905/21503", "percentage": "92.57%", "elapsed_time": "2d 9h 46m 20s", "remaining_time": "4h 38m 16s"}
{"loss": 0.60463891, "token_acc": 0.8460447, "grad_norm": 8.35055542, "learning_rate": 1.5e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09572, "epoch": 0.92588771, "global_step/max_steps": "19910/21503", "percentage": "92.59%", "elapsed_time": "2d 9h 46m 43s", "remaining_time": "4h 37m 22s"}
{"loss": 0.61180968, "token_acc": 0.84906303, "grad_norm": 9.97992229, "learning_rate": 1.5e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095733, "epoch": 0.92612023, "global_step/max_steps": "19915/21503", "percentage": "92.61%", "elapsed_time": "2d 9h 47m 6s", "remaining_time": "4h 36m 27s"}
{"loss": 0.57128868, "token_acc": 0.8495082, "grad_norm": 7.10206795, "learning_rate": 1.5e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095747, "epoch": 0.92635275, "global_step/max_steps": "19920/21503", "percentage": "92.64%", "elapsed_time": "2d 9h 47m 28s", "remaining_time": "4h 35m 33s"}
{"loss": 0.54467545, "token_acc": 0.86372288, "grad_norm": 10.69311619, "learning_rate": 1.5e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09576, "epoch": 0.92658527, "global_step/max_steps": "19925/21503", "percentage": "92.66%", "elapsed_time": "2d 9h 47m 51s", "remaining_time": "4h 34m 38s"}
{"loss": 0.5668972, "token_acc": 0.85443038, "grad_norm": 9.30135727, "learning_rate": 1.5e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095773, "epoch": 0.92681778, "global_step/max_steps": "19930/21503", "percentage": "92.68%", "elapsed_time": "2d 9h 48m 15s", "remaining_time": "4h 33m 44s"}
{"loss": 0.7747232, "token_acc": 0.80145719, "grad_norm": 12.60297203, "learning_rate": 1.4e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095787, "epoch": 0.9270503, "global_step/max_steps": "19935/21503", "percentage": "92.71%", "elapsed_time": "2d 9h 48m 38s", "remaining_time": "4h 32m 49s"}
{"loss": 0.67043877, "token_acc": 0.83100996, "grad_norm": 10.18844795, "learning_rate": 1.4e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.0958, "epoch": 0.92728282, "global_step/max_steps": "19940/21503", "percentage": "92.73%", "elapsed_time": "2d 9h 49m 1s", "remaining_time": "4h 31m 55s"}
{"loss": 0.63089981, "token_acc": 0.84690158, "grad_norm": 11.10385036, "learning_rate": 1.4e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095814, "epoch": 0.92751534, "global_step/max_steps": "19945/21503", "percentage": "92.75%", "elapsed_time": "2d 9h 49m 24s", "remaining_time": "4h 31m 0s"}
{"loss": 0.59653783, "token_acc": 0.84953624, "grad_norm": 8.78839588, "learning_rate": 1.4e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095827, "epoch": 0.92774786, "global_step/max_steps": "19950/21503", "percentage": "92.78%", "elapsed_time": "2d 9h 49m 46s", "remaining_time": "4h 30m 6s"}
{"eval_loss": 0.55594403, "eval_runtime": 295.1143, "eval_samples_per_second": 11.775, "eval_steps_per_second": 11.775, "epoch": 0.92774786, "global_step/max_steps": "19950/21503", "percentage": "92.78%", "elapsed_time": "2d 9h 54m 41s", "remaining_time": "4h 30m 29s"}
{"loss": 0.60070906, "token_acc": 0.83497225, "grad_norm": 9.41027069, "learning_rate": 1.4e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095705, "epoch": 0.92798038, "global_step/max_steps": "19955/21503", "percentage": "92.80%", "elapsed_time": "2d 9h 55m 5s", "remaining_time": "4h 29m 34s"}
{"loss": 0.61127944, "token_acc": 0.84229784, "grad_norm": 8.50885391, "learning_rate": 1.4e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095718, "epoch": 0.92821289, "global_step/max_steps": "19960/21503", "percentage": "92.82%", "elapsed_time": "2d 9h 55m 28s", "remaining_time": "4h 28m 40s"}
{"loss": 0.68421283, "token_acc": 0.81876413, "grad_norm": 10.25725174, "learning_rate": 1.4e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095732, "epoch": 0.92844541, "global_step/max_steps": "19965/21503", "percentage": "92.85%", "elapsed_time": "2d 9h 55m 51s", "remaining_time": "4h 27m 45s"}
{"loss": 0.7154809, "token_acc": 0.83024206, "grad_norm": 8.22706127, "learning_rate": 1.4e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095745, "epoch": 0.92867793, "global_step/max_steps": "19970/21503", "percentage": "92.87%", "elapsed_time": "2d 9h 56m 14s", "remaining_time": "4h 26m 51s"}
{"loss": 0.60900397, "token_acc": 0.83255647, "grad_norm": 6.01238012, "learning_rate": 1.4e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095759, "epoch": 0.92891045, "global_step/max_steps": "19975/21503", "percentage": "92.89%", "elapsed_time": "2d 9h 56m 37s", "remaining_time": "4h 25m 56s"}
{"loss": 0.63977604, "token_acc": 0.84293785, "grad_norm": 7.75961733, "learning_rate": 1.4e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095772, "epoch": 0.92914297, "global_step/max_steps": "19980/21503", "percentage": "92.92%", "elapsed_time": "2d 9h 57m 0s", "remaining_time": "4h 25m 2s"}
{"loss": 0.69279056, "token_acc": 0.83609166, "grad_norm": 7.18352556, "learning_rate": 1.4e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095785, "epoch": 0.92937549, "global_step/max_steps": "19985/21503", "percentage": "92.94%", "elapsed_time": "2d 9h 57m 23s", "remaining_time": "4h 24m 7s"}
{"loss": 0.52430134, "token_acc": 0.85525375, "grad_norm": 5.68193293, "learning_rate": 1.3e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095799, "epoch": 0.929608, "global_step/max_steps": "19990/21503", "percentage": "92.96%", "elapsed_time": "2d 9h 57m 46s", "remaining_time": "4h 23m 13s"}
{"loss": 0.64495702, "token_acc": 0.84256433, "grad_norm": 12.95312881, "learning_rate": 1.3e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095812, "epoch": 0.92984052, "global_step/max_steps": "19995/21503", "percentage": "92.99%", "elapsed_time": "2d 9h 58m 9s", "remaining_time": "4h 22m 19s"}
{"loss": 0.56182723, "token_acc": 0.85851319, "grad_norm": 8.76115417, "learning_rate": 1.3e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095826, "epoch": 0.93007304, "global_step/max_steps": "20000/21503", "percentage": "93.01%", "elapsed_time": "2d 9h 58m 32s", "remaining_time": "4h 21m 24s"}
{"eval_loss": 0.55585444, "eval_runtime": 294.6168, "eval_samples_per_second": 11.795, "eval_steps_per_second": 11.795, "epoch": 0.93007304, "global_step/max_steps": "20000/21503", "percentage": "93.01%", "elapsed_time": "2d 10h 3m 26s", "remaining_time": "4h 21m 46s"}
{"loss": 0.63081765, "token_acc": 0.83468268, "grad_norm": 8.4275074, "learning_rate": 1.3e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095704, "epoch": 0.93030556, "global_step/max_steps": "20005/21503", "percentage": "93.03%", "elapsed_time": "2d 10h 3m 50s", "remaining_time": "4h 20m 52s"}
{"loss": 0.65769506, "token_acc": 0.83845029, "grad_norm": 8.65264988, "learning_rate": 1.3e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095717, "epoch": 0.93053808, "global_step/max_steps": "20010/21503", "percentage": "93.06%", "elapsed_time": "2d 10h 4m 12s", "remaining_time": "4h 19m 57s"}
{"loss": 0.64390974, "token_acc": 0.83594952, "grad_norm": 7.49293041, "learning_rate": 1.3e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095731, "epoch": 0.93077059, "global_step/max_steps": "20015/21503", "percentage": "93.08%", "elapsed_time": "2d 10h 4m 35s", "remaining_time": "4h 19m 3s"}
{"loss": 0.59462004, "token_acc": 0.83936136, "grad_norm": 8.55933571, "learning_rate": 1.3e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095744, "epoch": 0.93100311, "global_step/max_steps": "20020/21503", "percentage": "93.10%", "elapsed_time": "2d 10h 4m 59s", "remaining_time": "4h 18m 9s"}
{"loss": 0.74387126, "token_acc": 0.81222853, "grad_norm": 7.12723398, "learning_rate": 1.3e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095757, "epoch": 0.93123563, "global_step/max_steps": "20025/21503", "percentage": "93.13%", "elapsed_time": "2d 10h 5m 21s", "remaining_time": "4h 17m 14s"}
{"loss": 0.78585367, "token_acc": 0.79173989, "grad_norm": 9.78085709, "learning_rate": 1.3e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095771, "epoch": 0.93146815, "global_step/max_steps": "20030/21503", "percentage": "93.15%", "elapsed_time": "2d 10h 5m 44s", "remaining_time": "4h 16m 20s"}
{"loss": 0.58189273, "token_acc": 0.85708753, "grad_norm": 10.97264957, "learning_rate": 1.3e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095785, "epoch": 0.93170067, "global_step/max_steps": "20035/21503", "percentage": "93.17%", "elapsed_time": "2d 10h 6m 7s", "remaining_time": "4h 15m 26s"}
{"loss": 0.68523407, "token_acc": 0.82818212, "grad_norm": 7.94609213, "learning_rate": 1.3e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095797, "epoch": 0.93193319, "global_step/max_steps": "20040/21503", "percentage": "93.20%", "elapsed_time": "2d 10h 6m 31s", "remaining_time": "4h 14m 31s"}
{"loss": 0.67365761, "token_acc": 0.83685601, "grad_norm": 10.45054054, "learning_rate": 1.3e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095811, "epoch": 0.9321657, "global_step/max_steps": "20045/21503", "percentage": "93.22%", "elapsed_time": "2d 10h 6m 54s", "remaining_time": "4h 13m 37s"}
{"loss": 0.69138451, "token_acc": 0.82825279, "grad_norm": 8.19155788, "learning_rate": 1.2e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095824, "epoch": 0.93239822, "global_step/max_steps": "20050/21503", "percentage": "93.24%", "elapsed_time": "2d 10h 7m 17s", "remaining_time": "4h 12m 43s"}
{"eval_loss": 0.55604064, "eval_runtime": 293.3635, "eval_samples_per_second": 11.845, "eval_steps_per_second": 11.845, "epoch": 0.93239822, "global_step/max_steps": "20050/21503", "percentage": "93.24%", "elapsed_time": "2d 10h 12m 10s", "remaining_time": "4h 13m 4s"}
{"loss": 0.70715008, "token_acc": 0.83426213, "grad_norm": 6.21106005, "learning_rate": 1.2e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095703, "epoch": 0.93263074, "global_step/max_steps": "20055/21503", "percentage": "93.27%", "elapsed_time": "2d 10h 12m 34s", "remaining_time": "4h 12m 10s"}
{"loss": 0.66779571, "token_acc": 0.82431086, "grad_norm": 8.84935474, "learning_rate": 1.2e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095717, "epoch": 0.93286326, "global_step/max_steps": "20060/21503", "percentage": "93.29%", "elapsed_time": "2d 10h 12m 56s", "remaining_time": "4h 11m 15s"}
{"loss": 0.56960793, "token_acc": 0.84610192, "grad_norm": 9.60523987, "learning_rate": 1.2e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09573, "epoch": 0.93309578, "global_step/max_steps": "20065/21503", "percentage": "93.31%", "elapsed_time": "2d 10h 13m 19s", "remaining_time": "4h 10m 21s"}
{"loss": 0.62728977, "token_acc": 0.83557951, "grad_norm": 8.32942295, "learning_rate": 1.2e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095743, "epoch": 0.9333283, "global_step/max_steps": "20070/21503", "percentage": "93.34%", "elapsed_time": "2d 10h 13m 42s", "remaining_time": "4h 9m 27s"}
{"loss": 0.69544201, "token_acc": 0.82925912, "grad_norm": 11.32128143, "learning_rate": 1.2e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095757, "epoch": 0.93356081, "global_step/max_steps": "20075/21503", "percentage": "93.36%", "elapsed_time": "2d 10h 14m 6s", "remaining_time": "4h 8m 32s"}
{"loss": 0.59144406, "token_acc": 0.86519511, "grad_norm": 9.60595322, "learning_rate": 1.2e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09577, "epoch": 0.93379333, "global_step/max_steps": "20080/21503", "percentage": "93.38%", "elapsed_time": "2d 10h 14m 28s", "remaining_time": "4h 7m 38s"}
{"loss": 0.62479815, "token_acc": 0.84124573, "grad_norm": 8.12417126, "learning_rate": 1.2e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095784, "epoch": 0.93402585, "global_step/max_steps": "20085/21503", "percentage": "93.41%", "elapsed_time": "2d 10h 14m 50s", "remaining_time": "4h 6m 44s"}
{"loss": 0.54280944, "token_acc": 0.86477862, "grad_norm": 8.13158989, "learning_rate": 1.2e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095797, "epoch": 0.93425837, "global_step/max_steps": "20090/21503", "percentage": "93.43%", "elapsed_time": "2d 10h 15m 13s", "remaining_time": "4h 5m 49s"}
{"loss": 0.66088824, "token_acc": 0.8396728, "grad_norm": 10.97762966, "learning_rate": 1.2e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095811, "epoch": 0.93449089, "global_step/max_steps": "20095/21503", "percentage": "93.45%", "elapsed_time": "2d 10h 15m 35s", "remaining_time": "4h 4m 55s"}
{"loss": 0.67091975, "token_acc": 0.83149418, "grad_norm": 9.83523083, "learning_rate": 1.2e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095824, "epoch": 0.9347234, "global_step/max_steps": "20100/21503", "percentage": "93.48%", "elapsed_time": "2d 10h 15m 58s", "remaining_time": "4h 4m 1s"}
{"eval_loss": 0.5560109, "eval_runtime": 294.2096, "eval_samples_per_second": 11.811, "eval_steps_per_second": 11.811, "epoch": 0.9347234, "global_step/max_steps": "20100/21503", "percentage": "93.48%", "elapsed_time": "2d 10h 20m 52s", "remaining_time": "4h 4m 21s"}
{"loss": 0.60773506, "token_acc": 0.8348843, "grad_norm": 8.34912205, "learning_rate": 1.2e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095703, "epoch": 0.93495592, "global_step/max_steps": "20105/21503", "percentage": "93.50%", "elapsed_time": "2d 10h 21m 16s", "remaining_time": "4h 3m 27s"}
{"loss": 0.67554135, "token_acc": 0.83972241, "grad_norm": 9.29889965, "learning_rate": 1.1e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095716, "epoch": 0.93518844, "global_step/max_steps": "20110/21503", "percentage": "93.52%", "elapsed_time": "2d 10h 21m 39s", "remaining_time": "4h 2m 33s"}
{"loss": 0.53334823, "token_acc": 0.86689076, "grad_norm": 8.75321579, "learning_rate": 1.1e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09573, "epoch": 0.93542096, "global_step/max_steps": "20115/21503", "percentage": "93.55%", "elapsed_time": "2d 10h 22m 2s", "remaining_time": "4h 1m 39s"}
{"loss": 0.599824, "token_acc": 0.8441383, "grad_norm": 7.72360373, "learning_rate": 1.1e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095743, "epoch": 0.93565348, "global_step/max_steps": "20120/21503", "percentage": "93.57%", "elapsed_time": "2d 10h 22m 25s", "remaining_time": "4h 0m 44s"}
{"loss": 0.65613484, "token_acc": 0.83838787, "grad_norm": 12.02857399, "learning_rate": 1.1e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095756, "epoch": 0.935886, "global_step/max_steps": "20125/21503", "percentage": "93.59%", "elapsed_time": "2d 10h 22m 49s", "remaining_time": "3h 59m 50s"}
{"loss": 0.59538155, "token_acc": 0.85078622, "grad_norm": 8.48429585, "learning_rate": 1.1e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095769, "epoch": 0.93611851, "global_step/max_steps": "20130/21503", "percentage": "93.61%", "elapsed_time": "2d 10h 23m 12s", "remaining_time": "3h 58m 56s"}
{"loss": 0.65173707, "token_acc": 0.83997299, "grad_norm": 9.17473507, "learning_rate": 1.1e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095783, "epoch": 0.93635103, "global_step/max_steps": "20135/21503", "percentage": "93.64%", "elapsed_time": "2d 10h 23m 35s", "remaining_time": "3h 58m 2s"}
{"loss": 0.69832201, "token_acc": 0.8345406, "grad_norm": 8.11098194, "learning_rate": 1.1e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095796, "epoch": 0.93658355, "global_step/max_steps": "20140/21503", "percentage": "93.66%", "elapsed_time": "2d 10h 23m 57s", "remaining_time": "3h 57m 8s"}
{"loss": 0.57776976, "token_acc": 0.86197831, "grad_norm": 7.59091663, "learning_rate": 1.1e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09581, "epoch": 0.93681607, "global_step/max_steps": "20145/21503", "percentage": "93.68%", "elapsed_time": "2d 10h 24m 20s", "remaining_time": "3h 56m 13s"}
{"loss": 0.58633738, "token_acc": 0.85661642, "grad_norm": 8.51714802, "learning_rate": 1.1e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095823, "epoch": 0.93704859, "global_step/max_steps": "20150/21503", "percentage": "93.71%", "elapsed_time": "2d 10h 24m 44s", "remaining_time": "3h 55m 19s"}
{"eval_loss": 0.55575866, "eval_runtime": 294.9179, "eval_samples_per_second": 11.783, "eval_steps_per_second": 11.783, "epoch": 0.93704859, "global_step/max_steps": "20150/21503", "percentage": "93.71%", "elapsed_time": "2d 10h 29m 39s", "remaining_time": "3h 55m 39s"}
{"loss": 0.59105864, "token_acc": 0.83528146, "grad_norm": 9.85257053, "learning_rate": 1.1e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095702, "epoch": 0.93728111, "global_step/max_steps": "20155/21503", "percentage": "93.73%", "elapsed_time": "2d 10h 30m 2s", "remaining_time": "3h 54m 45s"}
{"loss": 0.54379196, "token_acc": 0.86142677, "grad_norm": 7.41533279, "learning_rate": 1.1e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095715, "epoch": 0.93751362, "global_step/max_steps": "20160/21503", "percentage": "93.75%", "elapsed_time": "2d 10h 30m 24s", "remaining_time": "3h 53m 51s"}
{"loss": 0.76673636, "token_acc": 0.79759597, "grad_norm": 12.07981682, "learning_rate": 1.1e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095729, "epoch": 0.93774614, "global_step/max_steps": "20165/21503", "percentage": "93.78%", "elapsed_time": "2d 10h 30m 47s", "remaining_time": "3h 52m 57s"}
{"loss": 0.62586432, "token_acc": 0.83770807, "grad_norm": 8.33757973, "learning_rate": 1e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095742, "epoch": 0.93797866, "global_step/max_steps": "20170/21503", "percentage": "93.80%", "elapsed_time": "2d 10h 31m 10s", "remaining_time": "3h 52m 2s"}
{"loss": 0.5572742, "token_acc": 0.86987462, "grad_norm": 8.03079605, "learning_rate": 1e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095755, "epoch": 0.93821118, "global_step/max_steps": "20175/21503", "percentage": "93.82%", "elapsed_time": "2d 10h 31m 34s", "remaining_time": "3h 51m 8s"}
{"loss": 0.58881984, "token_acc": 0.85555129, "grad_norm": 7.42811823, "learning_rate": 1e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095768, "epoch": 0.9384437, "global_step/max_steps": "20180/21503", "percentage": "93.85%", "elapsed_time": "2d 10h 31m 56s", "remaining_time": "3h 50m 14s"}
{"loss": 0.69201484, "token_acc": 0.82847276, "grad_norm": 8.94504261, "learning_rate": 1e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095781, "epoch": 0.93867622, "global_step/max_steps": "20185/21503", "percentage": "93.87%", "elapsed_time": "2d 10h 32m 19s", "remaining_time": "3h 49m 20s"}
{"loss": 0.62252421, "token_acc": 0.83265896, "grad_norm": 7.53463936, "learning_rate": 1e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095795, "epoch": 0.93890873, "global_step/max_steps": "20190/21503", "percentage": "93.89%", "elapsed_time": "2d 10h 32m 42s", "remaining_time": "3h 48m 26s"}
{"loss": 0.56377554, "token_acc": 0.85220339, "grad_norm": 8.89157104, "learning_rate": 1e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095808, "epoch": 0.93914125, "global_step/max_steps": "20195/21503", "percentage": "93.92%", "elapsed_time": "2d 10h 33m 6s", "remaining_time": "3h 47m 32s"}
{"loss": 0.7433938, "token_acc": 0.83190534, "grad_norm": 9.54970837, "learning_rate": 1e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095821, "epoch": 0.93937377, "global_step/max_steps": "20200/21503", "percentage": "93.94%", "elapsed_time": "2d 10h 33m 28s", "remaining_time": "3h 46m 38s"}
{"eval_loss": 0.55585462, "eval_runtime": 294.94, "eval_samples_per_second": 11.782, "eval_steps_per_second": 11.782, "epoch": 0.93937377, "global_step/max_steps": "20200/21503", "percentage": "93.94%", "elapsed_time": "2d 10h 38m 23s", "remaining_time": "3h 46m 57s"}
{"loss": 0.60774255, "token_acc": 0.83515719, "grad_norm": 7.15224791, "learning_rate": 1e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.0957, "epoch": 0.93960629, "global_step/max_steps": "20205/21503", "percentage": "93.96%", "elapsed_time": "2d 10h 38m 47s", "remaining_time": "3h 46m 3s"}
{"loss": 0.57606311, "token_acc": 0.86814469, "grad_norm": 10.47177982, "learning_rate": 1e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095713, "epoch": 0.93983881, "global_step/max_steps": "20210/21503", "percentage": "93.99%", "elapsed_time": "2d 10h 39m 10s", "remaining_time": "3h 45m 9s"}
{"loss": 0.60340838, "token_acc": 0.8574081, "grad_norm": 8.63454151, "learning_rate": 1e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095727, "epoch": 0.94007132, "global_step/max_steps": "20215/21503", "percentage": "94.01%", "elapsed_time": "2d 10h 39m 34s", "remaining_time": "3h 44m 14s"}
{"loss": 0.67247615, "token_acc": 0.83046829, "grad_norm": 7.53818083, "learning_rate": 1e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09574, "epoch": 0.94030384, "global_step/max_steps": "20220/21503", "percentage": "94.03%", "elapsed_time": "2d 10h 39m 56s", "remaining_time": "3h 43m 20s"}
{"loss": 0.73830481, "token_acc": 0.82022472, "grad_norm": 10.40255737, "learning_rate": 1e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095753, "epoch": 0.94053636, "global_step/max_steps": "20225/21503", "percentage": "94.06%", "elapsed_time": "2d 10h 40m 19s", "remaining_time": "3h 42m 26s"}
{"loss": 0.67838769, "token_acc": 0.82813583, "grad_norm": 8.30245018, "learning_rate": 1e-07, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095767, "epoch": 0.94076888, "global_step/max_steps": "20230/21503", "percentage": "94.08%", "elapsed_time": "2d 10h 40m 42s", "remaining_time": "3h 41m 32s"}
{"loss": 0.54008975, "token_acc": 0.86995665, "grad_norm": 8.443573, "learning_rate": 9e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09578, "epoch": 0.9410014, "global_step/max_steps": "20235/21503", "percentage": "94.10%", "elapsed_time": "2d 10h 41m 5s", "remaining_time": "3h 40m 38s"}
{"loss": 0.747294, "token_acc": 0.81252027, "grad_norm": 11.56642437, "learning_rate": 9e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095793, "epoch": 0.94123392, "global_step/max_steps": "20240/21503", "percentage": "94.13%", "elapsed_time": "2d 10h 41m 29s", "remaining_time": "3h 39m 44s"}
{"loss": 0.71875215, "token_acc": 0.82341348, "grad_norm": 10.17760372, "learning_rate": 9e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095806, "epoch": 0.94146643, "global_step/max_steps": "20245/21503", "percentage": "94.15%", "elapsed_time": "2d 10h 41m 51s", "remaining_time": "3h 38m 50s"}
{"loss": 0.62620139, "token_acc": 0.84239975, "grad_norm": 10.40292931, "learning_rate": 9e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095819, "epoch": 0.94169895, "global_step/max_steps": "20250/21503", "percentage": "94.17%", "elapsed_time": "2d 10h 42m 15s", "remaining_time": "3h 37m 56s"}
{"eval_loss": 0.5554139, "eval_runtime": 294.8259, "eval_samples_per_second": 11.787, "eval_steps_per_second": 11.787, "epoch": 0.94169895, "global_step/max_steps": "20250/21503", "percentage": "94.17%", "elapsed_time": "2d 10h 47m 9s", "remaining_time": "3h 38m 14s"}
{"loss": 0.58203707, "token_acc": 0.83542149, "grad_norm": 8.74703693, "learning_rate": 9e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095699, "epoch": 0.94193147, "global_step/max_steps": "20255/21503", "percentage": "94.20%", "elapsed_time": "2d 10h 47m 33s", "remaining_time": "3h 37m 20s"}
{"loss": 0.66146283, "token_acc": 0.83298683, "grad_norm": 9.88424397, "learning_rate": 9e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095712, "epoch": 0.94216399, "global_step/max_steps": "20260/21503", "percentage": "94.22%", "elapsed_time": "2d 10h 47m 56s", "remaining_time": "3h 36m 26s"}
{"loss": 0.68482499, "token_acc": 0.8344437, "grad_norm": 7.94829416, "learning_rate": 9e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095725, "epoch": 0.94239651, "global_step/max_steps": "20265/21503", "percentage": "94.24%", "elapsed_time": "2d 10h 48m 20s", "remaining_time": "3h 35m 32s"}
{"loss": 0.5418972, "token_acc": 0.85909091, "grad_norm": 6.93036938, "learning_rate": 9e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095738, "epoch": 0.94262903, "global_step/max_steps": "20270/21503", "percentage": "94.27%", "elapsed_time": "2d 10h 48m 43s", "remaining_time": "3h 34m 38s"}
{"loss": 0.7256217, "token_acc": 0.81320613, "grad_norm": 6.27412415, "learning_rate": 9e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095751, "epoch": 0.94286154, "global_step/max_steps": "20275/21503", "percentage": "94.29%", "elapsed_time": "2d 10h 49m 7s", "remaining_time": "3h 33m 44s"}
{"loss": 0.66762109, "token_acc": 0.84128043, "grad_norm": 9.88782978, "learning_rate": 9e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095764, "epoch": 0.94309406, "global_step/max_steps": "20280/21503", "percentage": "94.31%", "elapsed_time": "2d 10h 49m 30s", "remaining_time": "3h 32m 50s"}
{"loss": 0.56249862, "token_acc": 0.86049724, "grad_norm": 11.91139793, "learning_rate": 9e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095777, "epoch": 0.94332658, "global_step/max_steps": "20285/21503", "percentage": "94.34%", "elapsed_time": "2d 10h 49m 53s", "remaining_time": "3h 31m 57s"}
{"loss": 0.69286971, "token_acc": 0.82784431, "grad_norm": 13.02669907, "learning_rate": 9e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095791, "epoch": 0.9435591, "global_step/max_steps": "20290/21503", "percentage": "94.36%", "elapsed_time": "2d 10h 50m 16s", "remaining_time": "3h 31m 3s"}
{"loss": 0.58877592, "token_acc": 0.83603657, "grad_norm": 9.05557823, "learning_rate": 9e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095804, "epoch": 0.94379162, "global_step/max_steps": "20295/21503", "percentage": "94.38%", "elapsed_time": "2d 10h 50m 38s", "remaining_time": "3h 30m 9s"}
{"loss": 0.6449069, "token_acc": 0.85077377, "grad_norm": 9.44039536, "learning_rate": 9e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095817, "epoch": 0.94402414, "global_step/max_steps": "20300/21503", "percentage": "94.41%", "elapsed_time": "2d 10h 51m 1s", "remaining_time": "3h 29m 15s"}
{"eval_loss": 0.55549806, "eval_runtime": 295.2399, "eval_samples_per_second": 11.77, "eval_steps_per_second": 11.77, "epoch": 0.94402414, "global_step/max_steps": "20300/21503", "percentage": "94.41%", "elapsed_time": "2d 10h 55m 57s", "remaining_time": "3h 29m 32s"}
{"loss": 0.65329289, "token_acc": 0.83498861, "grad_norm": 10.07537556, "learning_rate": 8e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095697, "epoch": 0.94425665, "global_step/max_steps": "20305/21503", "percentage": "94.43%", "elapsed_time": "2d 10h 56m 20s", "remaining_time": "3h 28m 38s"}
{"loss": 0.57486835, "token_acc": 0.86644592, "grad_norm": 8.44256401, "learning_rate": 8e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09571, "epoch": 0.94448917, "global_step/max_steps": "20310/21503", "percentage": "94.45%", "elapsed_time": "2d 10h 56m 42s", "remaining_time": "3h 27m 44s"}
{"loss": 0.65303507, "token_acc": 0.84513692, "grad_norm": 7.52908945, "learning_rate": 8e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095723, "epoch": 0.94472169, "global_step/max_steps": "20315/21503", "percentage": "94.48%", "elapsed_time": "2d 10h 57m 6s", "remaining_time": "3h 26m 50s"}
{"loss": 0.64954505, "token_acc": 0.83889097, "grad_norm": 8.56668186, "learning_rate": 8e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095736, "epoch": 0.94495421, "global_step/max_steps": "20320/21503", "percentage": "94.50%", "elapsed_time": "2d 10h 57m 29s", "remaining_time": "3h 25m 56s"}
{"loss": 0.58669143, "token_acc": 0.84958506, "grad_norm": 6.65736103, "learning_rate": 8e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09575, "epoch": 0.94518673, "global_step/max_steps": "20325/21503", "percentage": "94.52%", "elapsed_time": "2d 10h 57m 51s", "remaining_time": "3h 25m 2s"}
{"loss": 0.53616629, "token_acc": 0.85395538, "grad_norm": 7.88070583, "learning_rate": 8e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095763, "epoch": 0.94541924, "global_step/max_steps": "20330/21503", "percentage": "94.54%", "elapsed_time": "2d 10h 58m 14s", "remaining_time": "3h 24m 8s"}
{"loss": 0.62949705, "token_acc": 0.84052925, "grad_norm": 7.65647364, "learning_rate": 8e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095776, "epoch": 0.94565176, "global_step/max_steps": "20335/21503", "percentage": "94.57%", "elapsed_time": "2d 10h 58m 37s", "remaining_time": "3h 23m 15s"}
{"loss": 0.64773474, "token_acc": 0.83951005, "grad_norm": 6.87350607, "learning_rate": 8e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09579, "epoch": 0.94588428, "global_step/max_steps": "20340/21503", "percentage": "94.59%", "elapsed_time": "2d 10h 59m 0s", "remaining_time": "3h 22m 21s"}
{"loss": 0.56321802, "token_acc": 0.85885287, "grad_norm": 10.93025208, "learning_rate": 8e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095803, "epoch": 0.9461168, "global_step/max_steps": "20345/21503", "percentage": "94.61%", "elapsed_time": "2d 10h 59m 22s", "remaining_time": "3h 21m 27s"}
{"loss": 0.62536569, "token_acc": 0.82491684, "grad_norm": 7.76940966, "learning_rate": 8e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095816, "epoch": 0.94634932, "global_step/max_steps": "20350/21503", "percentage": "94.64%", "elapsed_time": "2d 10h 59m 45s", "remaining_time": "3h 20m 33s"}
{"eval_loss": 0.55557007, "eval_runtime": 296.4564, "eval_samples_per_second": 11.722, "eval_steps_per_second": 11.722, "epoch": 0.94634932, "global_step/max_steps": "20350/21503", "percentage": "94.64%", "elapsed_time": "2d 11h 4m 42s", "remaining_time": "3h 20m 50s"}
{"loss": 0.74940505, "token_acc": 0.83433913, "grad_norm": 10.45714855, "learning_rate": 8e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095695, "epoch": 0.94658184, "global_step/max_steps": "20355/21503", "percentage": "94.66%", "elapsed_time": "2d 11h 5m 6s", "remaining_time": "3h 19m 56s"}
{"loss": 0.63349872, "token_acc": 0.83688919, "grad_norm": 8.14748192, "learning_rate": 8e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095708, "epoch": 0.94681435, "global_step/max_steps": "20360/21503", "percentage": "94.68%", "elapsed_time": "2d 11h 5m 29s", "remaining_time": "3h 19m 2s"}
{"loss": 0.55735669, "token_acc": 0.86958425, "grad_norm": 10.9478054, "learning_rate": 8e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095721, "epoch": 0.94704687, "global_step/max_steps": "20365/21503", "percentage": "94.71%", "elapsed_time": "2d 11h 5m 53s", "remaining_time": "3h 18m 8s"}
{"loss": 0.60349441, "token_acc": 0.85377358, "grad_norm": 8.89441776, "learning_rate": 8e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095734, "epoch": 0.94727939, "global_step/max_steps": "20370/21503", "percentage": "94.73%", "elapsed_time": "2d 11h 6m 16s", "remaining_time": "3h 17m 14s"}
{"loss": 0.56389723, "token_acc": 0.85303147, "grad_norm": 9.17851257, "learning_rate": 8e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095748, "epoch": 0.94751191, "global_step/max_steps": "20375/21503", "percentage": "94.75%", "elapsed_time": "2d 11h 6m 38s", "remaining_time": "3h 16m 20s"}
{"loss": 0.69068403, "token_acc": 0.82278107, "grad_norm": 7.61156368, "learning_rate": 7e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095761, "epoch": 0.94774443, "global_step/max_steps": "20380/21503", "percentage": "94.78%", "elapsed_time": "2d 11h 7m 1s", "remaining_time": "3h 15m 27s"}
{"loss": 0.67280631, "token_acc": 0.83052464, "grad_norm": 9.940588, "learning_rate": 7e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095774, "epoch": 0.94797695, "global_step/max_steps": "20385/21503", "percentage": "94.80%", "elapsed_time": "2d 11h 7m 24s", "remaining_time": "3h 14m 33s"}
{"loss": 0.75058784, "token_acc": 0.82015066, "grad_norm": 8.79289913, "learning_rate": 7e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095787, "epoch": 0.94820946, "global_step/max_steps": "20390/21503", "percentage": "94.82%", "elapsed_time": "2d 11h 7m 47s", "remaining_time": "3h 13m 39s"}
{"loss": 0.75541644, "token_acc": 0.80825959, "grad_norm": 7.85763311, "learning_rate": 7e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.0958, "epoch": 0.94844198, "global_step/max_steps": "20395/21503", "percentage": "94.85%", "elapsed_time": "2d 11h 8m 10s", "remaining_time": "3h 12m 45s"}
{"loss": 0.6784575, "token_acc": 0.83473054, "grad_norm": 10.25812817, "learning_rate": 7e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095814, "epoch": 0.9486745, "global_step/max_steps": "20400/21503", "percentage": "94.87%", "elapsed_time": "2d 11h 8m 32s", "remaining_time": "3h 11m 51s"}
{"eval_loss": 0.55551046, "eval_runtime": 292.2526, "eval_samples_per_second": 11.89, "eval_steps_per_second": 11.89, "epoch": 0.9486745, "global_step/max_steps": "20400/21503", "percentage": "94.87%", "elapsed_time": "2d 11h 13m 24s", "remaining_time": "3h 12m 7s"}
{"loss": 0.73946314, "token_acc": 0.83410568, "grad_norm": 10.56047344, "learning_rate": 7e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095695, "epoch": 0.94890702, "global_step/max_steps": "20405/21503", "percentage": "94.89%", "elapsed_time": "2d 11h 13m 48s", "remaining_time": "3h 11m 13s"}
{"loss": 0.55681353, "token_acc": 0.86023166, "grad_norm": 11.77672863, "learning_rate": 7e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095709, "epoch": 0.94913954, "global_step/max_steps": "20410/21503", "percentage": "94.92%", "elapsed_time": "2d 11h 14m 11s", "remaining_time": "3h 10m 20s"}
{"loss": 0.71643815, "token_acc": 0.82404007, "grad_norm": 10.00248241, "learning_rate": 7e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095722, "epoch": 0.94937206, "global_step/max_steps": "20415/21503", "percentage": "94.94%", "elapsed_time": "2d 11h 14m 33s", "remaining_time": "3h 9m 26s"}
{"loss": 0.60156121, "token_acc": 0.85945152, "grad_norm": 11.49848557, "learning_rate": 7e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095736, "epoch": 0.94960457, "global_step/max_steps": "20420/21503", "percentage": "94.96%", "elapsed_time": "2d 11h 14m 55s", "remaining_time": "3h 8m 32s"}
{"loss": 0.66157436, "token_acc": 0.83985411, "grad_norm": 7.4594903, "learning_rate": 7e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095749, "epoch": 0.94983709, "global_step/max_steps": "20425/21503", "percentage": "94.99%", "elapsed_time": "2d 11h 15m 18s", "remaining_time": "3h 7m 38s"}
{"loss": 0.63100924, "token_acc": 0.85010267, "grad_norm": 8.48897076, "learning_rate": 7e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095762, "epoch": 0.95006961, "global_step/max_steps": "20430/21503", "percentage": "95.01%", "elapsed_time": "2d 11h 15m 42s", "remaining_time": "3h 6m 44s"}
{"loss": 0.60582623, "token_acc": 0.84347543, "grad_norm": 6.49838734, "learning_rate": 7e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095774, "epoch": 0.95030213, "global_step/max_steps": "20435/21503", "percentage": "95.03%", "elapsed_time": "2d 11h 16m 6s", "remaining_time": "3h 5m 51s"}
{"loss": 0.72258048, "token_acc": 0.81694561, "grad_norm": 10.15105534, "learning_rate": 7e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095788, "epoch": 0.95053465, "global_step/max_steps": "20440/21503", "percentage": "95.06%", "elapsed_time": "2d 11h 16m 27s", "remaining_time": "3h 4m 57s"}
{"loss": 0.65531454, "token_acc": 0.83380986, "grad_norm": 7.99804735, "learning_rate": 7e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095801, "epoch": 0.95076716, "global_step/max_steps": "20445/21503", "percentage": "95.08%", "elapsed_time": "2d 11h 16m 50s", "remaining_time": "3h 4m 3s"}
{"loss": 0.52394905, "token_acc": 0.86692759, "grad_norm": 9.50594997, "learning_rate": 7e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095814, "epoch": 0.95099968, "global_step/max_steps": "20450/21503", "percentage": "95.10%", "elapsed_time": "2d 11h 17m 13s", "remaining_time": "3h 3m 10s"}
{"eval_loss": 0.55568695, "eval_runtime": 296.071, "eval_samples_per_second": 11.737, "eval_steps_per_second": 11.737, "epoch": 0.95099968, "global_step/max_steps": "20450/21503", "percentage": "95.10%", "elapsed_time": "2d 11h 22m 9s", "remaining_time": "3h 3m 25s"}
{"loss": 0.70796151, "token_acc": 0.83424749, "grad_norm": 8.00426769, "learning_rate": 6e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095695, "epoch": 0.9512322, "global_step/max_steps": "20455/21503", "percentage": "95.13%", "elapsed_time": "2d 11h 22m 32s", "remaining_time": "3h 2m 31s"}
{"loss": 0.66168566, "token_acc": 0.8278098, "grad_norm": 8.82900524, "learning_rate": 6e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095708, "epoch": 0.95146472, "global_step/max_steps": "20460/21503", "percentage": "95.15%", "elapsed_time": "2d 11h 22m 55s", "remaining_time": "3h 1m 37s"}
{"loss": 0.57118769, "token_acc": 0.85746606, "grad_norm": 10.46105862, "learning_rate": 6e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095721, "epoch": 0.95169724, "global_step/max_steps": "20465/21503", "percentage": "95.17%", "elapsed_time": "2d 11h 23m 18s", "remaining_time": "3h 0m 44s"}
{"loss": 0.57664018, "token_acc": 0.85414739, "grad_norm": 6.82176113, "learning_rate": 6e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095734, "epoch": 0.95192976, "global_step/max_steps": "20470/21503", "percentage": "95.20%", "elapsed_time": "2d 11h 23m 41s", "remaining_time": "2h 59m 50s"}
{"loss": 0.657441, "token_acc": 0.81481481, "grad_norm": 5.28673935, "learning_rate": 6e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095747, "epoch": 0.95216227, "global_step/max_steps": "20475/21503", "percentage": "95.22%", "elapsed_time": "2d 11h 24m 4s", "remaining_time": "2h 58m 56s"}
{"loss": 0.58627148, "token_acc": 0.85024369, "grad_norm": 8.37171364, "learning_rate": 6e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09576, "epoch": 0.95239479, "global_step/max_steps": "20480/21503", "percentage": "95.24%", "elapsed_time": "2d 11h 24m 26s", "remaining_time": "2h 58m 2s"}
{"loss": 0.76069522, "token_acc": 0.80025349, "grad_norm": 7.86791372, "learning_rate": 6e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095773, "epoch": 0.95262731, "global_step/max_steps": "20485/21503", "percentage": "95.27%", "elapsed_time": "2d 11h 24m 50s", "remaining_time": "2h 57m 9s"}
{"loss": 0.65316911, "token_acc": 0.83689727, "grad_norm": 8.10650349, "learning_rate": 6e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095786, "epoch": 0.95285983, "global_step/max_steps": "20490/21503", "percentage": "95.29%", "elapsed_time": "2d 11h 25m 13s", "remaining_time": "2h 56m 15s"}
{"loss": 0.68884315, "token_acc": 0.83113354, "grad_norm": 12.39206791, "learning_rate": 6e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095799, "epoch": 0.95309235, "global_step/max_steps": "20495/21503", "percentage": "95.31%", "elapsed_time": "2d 11h 25m 37s", "remaining_time": "2h 55m 22s"}
{"loss": 0.55160246, "token_acc": 0.86283339, "grad_norm": 7.90261459, "learning_rate": 6e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095812, "epoch": 0.95332487, "global_step/max_steps": "20500/21503", "percentage": "95.34%", "elapsed_time": "2d 11h 26m 0s", "remaining_time": "2h 54m 28s"}
{"eval_loss": 0.55544001, "eval_runtime": 293.2617, "eval_samples_per_second": 11.849, "eval_steps_per_second": 11.849, "epoch": 0.95332487, "global_step/max_steps": "20500/21503", "percentage": "95.34%", "elapsed_time": "2d 11h 30m 53s", "remaining_time": "2h 54m 42s"}
{"loss": 0.57064257, "token_acc": 0.83517574, "grad_norm": 8.17837334, "learning_rate": 6e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095693, "epoch": 0.95355738, "global_step/max_steps": "20505/21503", "percentage": "95.36%", "elapsed_time": "2d 11h 31m 18s", "remaining_time": "2h 53m 49s"}
{"loss": 0.71441898, "token_acc": 0.83022774, "grad_norm": 6.95065737, "learning_rate": 6e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095706, "epoch": 0.9537899, "global_step/max_steps": "20510/21503", "percentage": "95.38%", "elapsed_time": "2d 11h 31m 41s", "remaining_time": "2h 52m 55s"}
{"loss": 0.6635859, "token_acc": 0.83322193, "grad_norm": 7.92769051, "learning_rate": 6e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095719, "epoch": 0.95402242, "global_step/max_steps": "20515/21503", "percentage": "95.41%", "elapsed_time": "2d 11h 32m 4s", "remaining_time": "2h 52m 1s"}
{"loss": 0.67911906, "token_acc": 0.83241758, "grad_norm": 14.15100384, "learning_rate": 6e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095732, "epoch": 0.95425494, "global_step/max_steps": "20520/21503", "percentage": "95.43%", "elapsed_time": "2d 11h 32m 27s", "remaining_time": "2h 51m 8s"}
{"loss": 0.58419123, "token_acc": 0.85584325, "grad_norm": 8.40728474, "learning_rate": 6e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095746, "epoch": 0.95448746, "global_step/max_steps": "20525/21503", "percentage": "95.45%", "elapsed_time": "2d 11h 32m 50s", "remaining_time": "2h 50m 14s"}
{"loss": 0.63443317, "token_acc": 0.84926787, "grad_norm": 8.08952141, "learning_rate": 6e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095758, "epoch": 0.95471998, "global_step/max_steps": "20530/21503", "percentage": "95.48%", "elapsed_time": "2d 11h 33m 13s", "remaining_time": "2h 49m 20s"}
{"loss": 0.61224184, "token_acc": 0.84010523, "grad_norm": 9.23490047, "learning_rate": 6e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095771, "epoch": 0.95495249, "global_step/max_steps": "20535/21503", "percentage": "95.50%", "elapsed_time": "2d 11h 33m 37s", "remaining_time": "2h 48m 27s"}
{"loss": 0.57748179, "token_acc": 0.85939691, "grad_norm": 11.10195732, "learning_rate": 5e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095784, "epoch": 0.95518501, "global_step/max_steps": "20540/21503", "percentage": "95.52%", "elapsed_time": "2d 11h 33m 59s", "remaining_time": "2h 47m 33s"}
{"loss": 0.62021308, "token_acc": 0.84876943, "grad_norm": 8.92069435, "learning_rate": 5e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095797, "epoch": 0.95541753, "global_step/max_steps": "20545/21503", "percentage": "95.54%", "elapsed_time": "2d 11h 34m 22s", "remaining_time": "2h 46m 40s"}
{"loss": 0.62256088, "token_acc": 0.82764977, "grad_norm": 7.19345951, "learning_rate": 5e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09581, "epoch": 0.95565005, "global_step/max_steps": "20550/21503", "percentage": "95.57%", "elapsed_time": "2d 11h 34m 45s", "remaining_time": "2h 45m 46s"}
{"eval_loss": 0.55550766, "eval_runtime": 292.2433, "eval_samples_per_second": 11.891, "eval_steps_per_second": 11.891, "epoch": 0.95565005, "global_step/max_steps": "20550/21503", "percentage": "95.57%", "elapsed_time": "2d 11h 39m 37s", "remaining_time": "2h 46m 0s"}
{"loss": 0.64171143, "token_acc": 0.83472884, "grad_norm": 10.84566784, "learning_rate": 5e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095693, "epoch": 0.95588257, "global_step/max_steps": "20555/21503", "percentage": "95.59%", "elapsed_time": "2d 11h 40m 1s", "remaining_time": "2h 45m 6s"}
{"loss": 0.73351731, "token_acc": 0.80397554, "grad_norm": 7.46735048, "learning_rate": 5e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095705, "epoch": 0.95611508, "global_step/max_steps": "20560/21503", "percentage": "95.61%", "elapsed_time": "2d 11h 40m 25s", "remaining_time": "2h 44m 13s"}
{"loss": 0.59670553, "token_acc": 0.85477018, "grad_norm": 7.15154123, "learning_rate": 5e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095718, "epoch": 0.9563476, "global_step/max_steps": "20565/21503", "percentage": "95.64%", "elapsed_time": "2d 11h 40m 48s", "remaining_time": "2h 43m 19s"}
{"loss": 0.69816236, "token_acc": 0.80312416, "grad_norm": 7.25467825, "learning_rate": 5e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095731, "epoch": 0.95658012, "global_step/max_steps": "20570/21503", "percentage": "95.66%", "elapsed_time": "2d 11h 41m 11s", "remaining_time": "2h 42m 26s"}
{"loss": 0.76225739, "token_acc": 0.8102981, "grad_norm": 7.20023537, "learning_rate": 5e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095744, "epoch": 0.95681264, "global_step/max_steps": "20575/21503", "percentage": "95.68%", "elapsed_time": "2d 11h 41m 34s", "remaining_time": "2h 41m 32s"}
{"loss": 0.7474844, "token_acc": 0.83258818, "grad_norm": 11.58319759, "learning_rate": 5e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095757, "epoch": 0.95704516, "global_step/max_steps": "20580/21503", "percentage": "95.71%", "elapsed_time": "2d 11h 41m 58s", "remaining_time": "2h 40m 38s"}
{"loss": 0.64908748, "token_acc": 0.83898669, "grad_norm": 10.9115057, "learning_rate": 5e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09577, "epoch": 0.95727768, "global_step/max_steps": "20585/21503", "percentage": "95.73%", "elapsed_time": "2d 11h 42m 21s", "remaining_time": "2h 39m 45s"}
{"loss": 0.66712403, "token_acc": 0.82559826, "grad_norm": 9.7913475, "learning_rate": 5e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095783, "epoch": 0.95751019, "global_step/max_steps": "20590/21503", "percentage": "95.75%", "elapsed_time": "2d 11h 42m 44s", "remaining_time": "2h 38m 51s"}
{"loss": 0.77338276, "token_acc": 0.81509177, "grad_norm": 7.19913244, "learning_rate": 5e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095796, "epoch": 0.95774271, "global_step/max_steps": "20595/21503", "percentage": "95.78%", "elapsed_time": "2d 11h 43m 7s", "remaining_time": "2h 37m 58s"}
{"loss": 0.60540509, "token_acc": 0.84804928, "grad_norm": 8.26630306, "learning_rate": 5e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095809, "epoch": 0.95797523, "global_step/max_steps": "20600/21503", "percentage": "95.80%", "elapsed_time": "2d 11h 43m 30s", "remaining_time": "2h 37m 4s"}
{"eval_loss": 0.55560422, "eval_runtime": 294.0624, "eval_samples_per_second": 11.817, "eval_steps_per_second": 11.817, "epoch": 0.95797523, "global_step/max_steps": "20600/21503", "percentage": "95.80%", "elapsed_time": "2d 11h 48m 24s", "remaining_time": "2h 37m 17s"}
{"loss": 0.6465342, "token_acc": 0.83472518, "grad_norm": 7.83603096, "learning_rate": 5e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095691, "epoch": 0.95820775, "global_step/max_steps": "20605/21503", "percentage": "95.82%", "elapsed_time": "2d 11h 48m 48s", "remaining_time": "2h 36m 24s"}
{"loss": 0.69766345, "token_acc": 0.82685026, "grad_norm": 7.72057009, "learning_rate": 5e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095704, "epoch": 0.95844027, "global_step/max_steps": "20610/21503", "percentage": "95.85%", "elapsed_time": "2d 11h 49m 11s", "remaining_time": "2h 35m 30s"}
{"loss": 0.68515353, "token_acc": 0.84212713, "grad_norm": 10.87919331, "learning_rate": 5e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095717, "epoch": 0.95867279, "global_step/max_steps": "20615/21503", "percentage": "95.87%", "elapsed_time": "2d 11h 49m 34s", "remaining_time": "2h 34m 37s"}
{"loss": 0.69706874, "token_acc": 0.82081097, "grad_norm": 8.68397999, "learning_rate": 5e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09573, "epoch": 0.9589053, "global_step/max_steps": "20620/21503", "percentage": "95.89%", "elapsed_time": "2d 11h 49m 57s", "remaining_time": "2h 33m 43s"}
{"loss": 0.6238224, "token_acc": 0.83678015, "grad_norm": 8.05622196, "learning_rate": 5e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095743, "epoch": 0.95913782, "global_step/max_steps": "20625/21503", "percentage": "95.92%", "elapsed_time": "2d 11h 50m 20s", "remaining_time": "2h 32m 50s"}
{"loss": 0.56131282, "token_acc": 0.86010363, "grad_norm": 11.85922337, "learning_rate": 4e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095756, "epoch": 0.95937034, "global_step/max_steps": "20630/21503", "percentage": "95.94%", "elapsed_time": "2d 11h 50m 43s", "remaining_time": "2h 31m 56s"}
{"loss": 0.64173684, "token_acc": 0.84033613, "grad_norm": 7.76819849, "learning_rate": 4e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095768, "epoch": 0.95960286, "global_step/max_steps": "20635/21503", "percentage": "95.96%", "elapsed_time": "2d 11h 51m 8s", "remaining_time": "2h 31m 3s"}
{"loss": 0.60348945, "token_acc": 0.8504886, "grad_norm": 9.25433254, "learning_rate": 4e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095781, "epoch": 0.95983538, "global_step/max_steps": "20640/21503", "percentage": "95.99%", "elapsed_time": "2d 11h 51m 31s", "remaining_time": "2h 30m 10s"}
{"loss": 0.60868492, "token_acc": 0.85022595, "grad_norm": 6.10519266, "learning_rate": 4e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095794, "epoch": 0.9600679, "global_step/max_steps": "20645/21503", "percentage": "96.01%", "elapsed_time": "2d 11h 51m 54s", "remaining_time": "2h 29m 16s"}
{"loss": 0.50379653, "token_acc": 0.87696224, "grad_norm": 8.75683498, "learning_rate": 4e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095806, "epoch": 0.96030041, "global_step/max_steps": "20650/21503", "percentage": "96.03%", "elapsed_time": "2d 11h 52m 19s", "remaining_time": "2h 28m 23s"}
{"eval_loss": 0.55554539, "eval_runtime": 292.1663, "eval_samples_per_second": 11.894, "eval_steps_per_second": 11.894, "epoch": 0.96030041, "global_step/max_steps": "20650/21503", "percentage": "96.03%", "elapsed_time": "2d 11h 57m 11s", "remaining_time": "2h 28m 35s"}
{"loss": 0.85318871, "token_acc": 0.83384151, "grad_norm": 8.11179638, "learning_rate": 4e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095689, "epoch": 0.96053293, "global_step/max_steps": "20655/21503", "percentage": "96.06%", "elapsed_time": "2d 11h 57m 34s", "remaining_time": "2h 27m 42s"}
{"loss": 0.64223924, "token_acc": 0.83687375, "grad_norm": 10.5524807, "learning_rate": 4e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095702, "epoch": 0.96076545, "global_step/max_steps": "20660/21503", "percentage": "96.08%", "elapsed_time": "2d 11h 57m 57s", "remaining_time": "2h 26m 48s"}
{"loss": 0.60032339, "token_acc": 0.85022595, "grad_norm": 8.83347607, "learning_rate": 4e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095715, "epoch": 0.96099797, "global_step/max_steps": "20665/21503", "percentage": "96.10%", "elapsed_time": "2d 11h 58m 20s", "remaining_time": "2h 25m 55s"}
{"loss": 0.54177647, "token_acc": 0.86724701, "grad_norm": 9.32202244, "learning_rate": 4e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095728, "epoch": 0.96123049, "global_step/max_steps": "20670/21503", "percentage": "96.13%", "elapsed_time": "2d 11h 58m 43s", "remaining_time": "2h 25m 1s"}
{"loss": 0.65947332, "token_acc": 0.83206634, "grad_norm": 8.25760269, "learning_rate": 4e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095741, "epoch": 0.961463, "global_step/max_steps": "20675/21503", "percentage": "96.15%", "elapsed_time": "2d 11h 59m 7s", "remaining_time": "2h 24m 8s"}
{"loss": 0.55123801, "token_acc": 0.85867312, "grad_norm": 9.28460407, "learning_rate": 4e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095754, "epoch": 0.96169552, "global_step/max_steps": "20680/21503", "percentage": "96.17%", "elapsed_time": "2d 11h 59m 30s", "remaining_time": "2h 23m 14s"}
{"loss": 0.65878992, "token_acc": 0.83515732, "grad_norm": 8.76818466, "learning_rate": 4e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095767, "epoch": 0.96192804, "global_step/max_steps": "20685/21503", "percentage": "96.20%", "elapsed_time": "2d 11h 59m 53s", "remaining_time": "2h 22m 21s"}
{"loss": 0.65560536, "token_acc": 0.82476569, "grad_norm": 6.43769407, "learning_rate": 4e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095779, "epoch": 0.96216056, "global_step/max_steps": "20690/21503", "percentage": "96.22%", "elapsed_time": "2d 12h 0m 17s", "remaining_time": "2h 21m 28s"}
{"loss": 0.68290591, "token_acc": 0.82396232, "grad_norm": 9.40335178, "learning_rate": 4e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095792, "epoch": 0.96239308, "global_step/max_steps": "20695/21503", "percentage": "96.24%", "elapsed_time": "2d 12h 0m 41s", "remaining_time": "2h 20m 34s"}
{"loss": 0.58292065, "token_acc": 0.8585293, "grad_norm": 8.33271313, "learning_rate": 4e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095805, "epoch": 0.9626256, "global_step/max_steps": "20700/21503", "percentage": "96.27%", "elapsed_time": "2d 12h 1m 4s", "remaining_time": "2h 19m 41s"}
{"eval_loss": 0.55554706, "eval_runtime": 294.213, "eval_samples_per_second": 11.811, "eval_steps_per_second": 11.811, "epoch": 0.9626256, "global_step/max_steps": "20700/21503", "percentage": "96.27%", "elapsed_time": "2d 12h 5m 58s", "remaining_time": "2h 19m 53s"}
{"loss": 0.73750205, "token_acc": 0.83463038, "grad_norm": 8.44229794, "learning_rate": 4e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095687, "epoch": 0.96285811, "global_step/max_steps": "20705/21503", "percentage": "96.29%", "elapsed_time": "2d 12h 6m 21s", "remaining_time": "2h 18m 59s"}
{"loss": 0.72697759, "token_acc": 0.81339869, "grad_norm": 8.54222679, "learning_rate": 4e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.0957, "epoch": 0.96309063, "global_step/max_steps": "20710/21503", "percentage": "96.31%", "elapsed_time": "2d 12h 6m 44s", "remaining_time": "2h 18m 6s"}
{"loss": 0.59584928, "token_acc": 0.84166967, "grad_norm": 8.21119785, "learning_rate": 4e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095713, "epoch": 0.96332315, "global_step/max_steps": "20715/21503", "percentage": "96.34%", "elapsed_time": "2d 12h 7m 7s", "remaining_time": "2h 17m 12s"}
{"loss": 0.67124472, "token_acc": 0.81851967, "grad_norm": 9.82761288, "learning_rate": 4e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095726, "epoch": 0.96355567, "global_step/max_steps": "20720/21503", "percentage": "96.36%", "elapsed_time": "2d 12h 7m 30s", "remaining_time": "2h 16m 19s"}
{"loss": 0.62321634, "token_acc": 0.84224806, "grad_norm": 11.41832066, "learning_rate": 4e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095739, "epoch": 0.96378819, "global_step/max_steps": "20725/21503", "percentage": "96.38%", "elapsed_time": "2d 12h 7m 53s", "remaining_time": "2h 15m 26s"}
{"loss": 0.74076781, "token_acc": 0.80978593, "grad_norm": 8.07766438, "learning_rate": 4e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095752, "epoch": 0.96402071, "global_step/max_steps": "20730/21503", "percentage": "96.41%", "elapsed_time": "2d 12h 8m 16s", "remaining_time": "2h 14m 32s"}
{"loss": 0.59694986, "token_acc": 0.84688995, "grad_norm": 7.36477232, "learning_rate": 3e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095764, "epoch": 0.96425322, "global_step/max_steps": "20735/21503", "percentage": "96.43%", "elapsed_time": "2d 12h 8m 40s", "remaining_time": "2h 13m 39s"}
{"loss": 0.63908596, "token_acc": 0.8565386, "grad_norm": 8.3806839, "learning_rate": 3e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095777, "epoch": 0.96448574, "global_step/max_steps": "20740/21503", "percentage": "96.45%", "elapsed_time": "2d 12h 9m 3s", "remaining_time": "2h 12m 46s"}
{"loss": 0.62789388, "token_acc": 0.84455411, "grad_norm": 8.91974354, "learning_rate": 3e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09579, "epoch": 0.96471826, "global_step/max_steps": "20745/21503", "percentage": "96.47%", "elapsed_time": "2d 12h 9m 26s", "remaining_time": "2h 11m 53s"}
{"loss": 0.73397927, "token_acc": 0.81444487, "grad_norm": 8.96792507, "learning_rate": 3e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095804, "epoch": 0.96495078, "global_step/max_steps": "20750/21503", "percentage": "96.50%", "elapsed_time": "2d 12h 9m 48s", "remaining_time": "2h 10m 59s"}
{"eval_loss": 0.55568463, "eval_runtime": 295.7774, "eval_samples_per_second": 11.749, "eval_steps_per_second": 11.749, "epoch": 0.96495078, "global_step/max_steps": "20750/21503", "percentage": "96.50%", "elapsed_time": "2d 12h 14m 44s", "remaining_time": "2h 11m 10s"}
{"loss": 0.6525394, "token_acc": 0.83484329, "grad_norm": 8.48138046, "learning_rate": 3e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095686, "epoch": 0.9651833, "global_step/max_steps": "20755/21503", "percentage": "96.52%", "elapsed_time": "2d 12h 15m 7s", "remaining_time": "2h 10m 17s"}
{"loss": 0.64595985, "token_acc": 0.83707152, "grad_norm": 13.11262131, "learning_rate": 3e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095699, "epoch": 0.96541582, "global_step/max_steps": "20760/21503", "percentage": "96.54%", "elapsed_time": "2d 12h 15m 29s", "remaining_time": "2h 9m 23s"}
{"loss": 0.63280029, "token_acc": 0.83400114, "grad_norm": 9.97814846, "learning_rate": 3e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095712, "epoch": 0.96564833, "global_step/max_steps": "20765/21503", "percentage": "96.57%", "elapsed_time": "2d 12h 15m 52s", "remaining_time": "2h 8m 30s"}
{"loss": 0.74919353, "token_acc": 0.79077148, "grad_norm": 8.67796135, "learning_rate": 3e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095725, "epoch": 0.96588085, "global_step/max_steps": "20770/21503", "percentage": "96.59%", "elapsed_time": "2d 12h 16m 16s", "remaining_time": "2h 7m 37s"}
{"loss": 0.58973055, "token_acc": 0.84300077, "grad_norm": 8.47712231, "learning_rate": 3e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095738, "epoch": 0.96611337, "global_step/max_steps": "20775/21503", "percentage": "96.61%", "elapsed_time": "2d 12h 16m 38s", "remaining_time": "2h 6m 44s"}
{"loss": 0.63011966, "token_acc": 0.8404821, "grad_norm": 8.10332298, "learning_rate": 3e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095751, "epoch": 0.96634589, "global_step/max_steps": "20780/21503", "percentage": "96.64%", "elapsed_time": "2d 12h 17m 1s", "remaining_time": "2h 5m 50s"}
{"loss": 0.55240011, "token_acc": 0.85945519, "grad_norm": 10.32742596, "learning_rate": 3e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095764, "epoch": 0.96657841, "global_step/max_steps": "20785/21503", "percentage": "96.66%", "elapsed_time": "2d 12h 17m 23s", "remaining_time": "2h 4m 57s"}
{"loss": 0.64752274, "token_acc": 0.84334023, "grad_norm": 9.89194202, "learning_rate": 3e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095777, "epoch": 0.96681092, "global_step/max_steps": "20790/21503", "percentage": "96.68%", "elapsed_time": "2d 12h 17m 46s", "remaining_time": "2h 4m 4s"}
{"loss": 0.58468976, "token_acc": 0.85072655, "grad_norm": 7.34171391, "learning_rate": 3e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09579, "epoch": 0.96704344, "global_step/max_steps": "20795/21503", "percentage": "96.71%", "elapsed_time": "2d 12h 18m 9s", "remaining_time": "2h 3m 11s"}
{"loss": 0.73128977, "token_acc": 0.82270607, "grad_norm": 8.49909782, "learning_rate": 3e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095803, "epoch": 0.96727596, "global_step/max_steps": "20800/21503", "percentage": "96.73%", "elapsed_time": "2d 12h 18m 31s", "remaining_time": "2h 2m 17s"}
{"eval_loss": 0.55539715, "eval_runtime": 295.0521, "eval_samples_per_second": 11.778, "eval_steps_per_second": 11.778, "epoch": 0.96727596, "global_step/max_steps": "20800/21503", "percentage": "96.73%", "elapsed_time": "2d 12h 23m 26s", "remaining_time": "2h 2m 27s"}
{"loss": 0.60298829, "token_acc": 0.83528059, "grad_norm": 7.44534159, "learning_rate": 3e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095686, "epoch": 0.96750848, "global_step/max_steps": "20805/21503", "percentage": "96.75%", "elapsed_time": "2d 12h 23m 50s", "remaining_time": "2h 1m 34s"}
{"loss": 0.55218892, "token_acc": 0.86684996, "grad_norm": 8.21157742, "learning_rate": 3e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095699, "epoch": 0.967741, "global_step/max_steps": "20810/21503", "percentage": "96.78%", "elapsed_time": "2d 12h 24m 12s", "remaining_time": "2h 0m 41s"}
{"loss": 0.63441014, "token_acc": 0.8490566, "grad_norm": 9.06532574, "learning_rate": 3e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095712, "epoch": 0.96797352, "global_step/max_steps": "20815/21503", "percentage": "96.80%", "elapsed_time": "2d 12h 24m 35s", "remaining_time": "1h 59m 48s"}
{"loss": 0.70124111, "token_acc": 0.83780761, "grad_norm": 8.10949516, "learning_rate": 3e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095725, "epoch": 0.96820603, "global_step/max_steps": "20820/21503", "percentage": "96.82%", "elapsed_time": "2d 12h 24m 58s", "remaining_time": "1h 58m 55s"}
{"loss": 0.67695909, "token_acc": 0.83251834, "grad_norm": 7.52706242, "learning_rate": 3e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095738, "epoch": 0.96843855, "global_step/max_steps": "20825/21503", "percentage": "96.85%", "elapsed_time": "2d 12h 25m 21s", "remaining_time": "1h 58m 1s"}
{"loss": 0.70466108, "token_acc": 0.8220979, "grad_norm": 7.48684597, "learning_rate": 3e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09575, "epoch": 0.96867107, "global_step/max_steps": "20830/21503", "percentage": "96.87%", "elapsed_time": "2d 12h 25m 45s", "remaining_time": "1h 57m 8s"}
{"loss": 0.68653989, "token_acc": 0.80925578, "grad_norm": 10.00309944, "learning_rate": 3e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095762, "epoch": 0.96890359, "global_step/max_steps": "20835/21503", "percentage": "96.89%", "elapsed_time": "2d 12h 26m 9s", "remaining_time": "1h 56m 15s"}
{"loss": 0.72720318, "token_acc": 0.81493277, "grad_norm": 9.59678173, "learning_rate": 3e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095775, "epoch": 0.96913611, "global_step/max_steps": "20840/21503", "percentage": "96.92%", "elapsed_time": "2d 12h 26m 32s", "remaining_time": "1h 55m 22s"}
{"loss": 0.65081654, "token_acc": 0.84009232, "grad_norm": 5.80021429, "learning_rate": 3e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095789, "epoch": 0.96936863, "global_step/max_steps": "20845/21503", "percentage": "96.94%", "elapsed_time": "2d 12h 26m 54s", "remaining_time": "1h 54m 29s"}
{"loss": 0.63977284, "token_acc": 0.84879572, "grad_norm": 9.02475452, "learning_rate": 3e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095802, "epoch": 0.96960114, "global_step/max_steps": "20850/21503", "percentage": "96.96%", "elapsed_time": "2d 12h 27m 16s", "remaining_time": "1h 53m 36s"}
{"eval_loss": 0.55554348, "eval_runtime": 294.1615, "eval_samples_per_second": 11.813, "eval_steps_per_second": 11.813, "epoch": 0.96960114, "global_step/max_steps": "20850/21503", "percentage": "96.96%", "elapsed_time": "2d 12h 32m 10s", "remaining_time": "1h 53m 45s"}
{"loss": 0.63643689, "token_acc": 0.83514314, "grad_norm": 7.54255342, "learning_rate": 2e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095685, "epoch": 0.96983366, "global_step/max_steps": "20855/21503", "percentage": "96.99%", "elapsed_time": "2d 12h 32m 34s", "remaining_time": "1h 52m 52s"}
{"loss": 0.66402254, "token_acc": 0.82763292, "grad_norm": 9.54093742, "learning_rate": 2e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095698, "epoch": 0.97006618, "global_step/max_steps": "20860/21503", "percentage": "97.01%", "elapsed_time": "2d 12h 32m 56s", "remaining_time": "1h 51m 59s"}
{"loss": 0.6791873, "token_acc": 0.81748072, "grad_norm": 5.91089869, "learning_rate": 2e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095711, "epoch": 0.9702987, "global_step/max_steps": "20865/21503", "percentage": "97.03%", "elapsed_time": "2d 12h 33m 20s", "remaining_time": "1h 51m 5s"}
{"loss": 0.66192832, "token_acc": 0.81634212, "grad_norm": 5.918437, "learning_rate": 2e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095724, "epoch": 0.97053122, "global_step/max_steps": "20870/21503", "percentage": "97.06%", "elapsed_time": "2d 12h 33m 43s", "remaining_time": "1h 50m 12s"}
{"loss": 0.5713192, "token_acc": 0.85211996, "grad_norm": 9.52810574, "learning_rate": 2e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095736, "epoch": 0.97076374, "global_step/max_steps": "20875/21503", "percentage": "97.08%", "elapsed_time": "2d 12h 34m 6s", "remaining_time": "1h 49m 19s"}
{"loss": 0.5619586, "token_acc": 0.85746269, "grad_norm": 11.29887486, "learning_rate": 2e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095749, "epoch": 0.97099625, "global_step/max_steps": "20880/21503", "percentage": "97.10%", "elapsed_time": "2d 12h 34m 29s", "remaining_time": "1h 48m 26s"}
{"loss": 0.54613357, "token_acc": 0.87300922, "grad_norm": 10.25270081, "learning_rate": 2e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095762, "epoch": 0.97122877, "global_step/max_steps": "20885/21503", "percentage": "97.13%", "elapsed_time": "2d 12h 34m 52s", "remaining_time": "1h 47m 33s"}
{"loss": 0.58287735, "token_acc": 0.8469764, "grad_norm": 5.91846323, "learning_rate": 2e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095775, "epoch": 0.97146129, "global_step/max_steps": "20890/21503", "percentage": "97.15%", "elapsed_time": "2d 12h 35m 16s", "remaining_time": "1h 46m 40s"}
{"loss": 0.60596881, "token_acc": 0.84760468, "grad_norm": 10.07883358, "learning_rate": 2e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095787, "epoch": 0.97169381, "global_step/max_steps": "20895/21503", "percentage": "97.17%", "elapsed_time": "2d 12h 35m 39s", "remaining_time": "1h 45m 47s"}
{"loss": 0.54138794, "token_acc": 0.85900141, "grad_norm": 9.27033138, "learning_rate": 2e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.0958, "epoch": 0.97192633, "global_step/max_steps": "20900/21503", "percentage": "97.20%", "elapsed_time": "2d 12h 36m 1s", "remaining_time": "1h 44m 54s"}
{"eval_loss": 0.55552524, "eval_runtime": 295.9192, "eval_samples_per_second": 11.743, "eval_steps_per_second": 11.743, "epoch": 0.97192633, "global_step/max_steps": "20900/21503", "percentage": "97.20%", "elapsed_time": "2d 12h 40m 57s", "remaining_time": "1h 45m 2s"}
{"loss": 0.65223136, "token_acc": 0.83496682, "grad_norm": 8.09380722, "learning_rate": 2e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095683, "epoch": 0.97215884, "global_step/max_steps": "20905/21503", "percentage": "97.22%", "elapsed_time": "2d 12h 41m 21s", "remaining_time": "1h 44m 9s"}
{"loss": 0.57634511, "token_acc": 0.86189474, "grad_norm": 9.61971664, "learning_rate": 2e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095696, "epoch": 0.97239136, "global_step/max_steps": "20910/21503", "percentage": "97.24%", "elapsed_time": "2d 12h 41m 44s", "remaining_time": "1h 43m 16s"}
{"loss": 0.54256158, "token_acc": 0.85928962, "grad_norm": 9.07841396, "learning_rate": 2e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095709, "epoch": 0.97262388, "global_step/max_steps": "20915/21503", "percentage": "97.27%", "elapsed_time": "2d 12h 42m 7s", "remaining_time": "1h 42m 23s"}
{"loss": 0.68626695, "token_acc": 0.83263246, "grad_norm": 12.81851864, "learning_rate": 2e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095722, "epoch": 0.9728564, "global_step/max_steps": "20920/21503", "percentage": "97.29%", "elapsed_time": "2d 12h 42m 30s", "remaining_time": "1h 41m 30s"}
{"loss": 0.65923376, "token_acc": 0.82504013, "grad_norm": 10.91645718, "learning_rate": 2e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095734, "epoch": 0.97308892, "global_step/max_steps": "20925/21503", "percentage": "97.31%", "elapsed_time": "2d 12h 42m 53s", "remaining_time": "1h 40m 37s"}
{"loss": 0.70359435, "token_acc": 0.82503001, "grad_norm": 8.57726765, "learning_rate": 2e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095747, "epoch": 0.97332144, "global_step/max_steps": "20930/21503", "percentage": "97.34%", "elapsed_time": "2d 12h 43m 16s", "remaining_time": "1h 39m 44s"}
{"loss": 0.64754734, "token_acc": 0.82865071, "grad_norm": 7.98715734, "learning_rate": 2e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095759, "epoch": 0.97355395, "global_step/max_steps": "20935/21503", "percentage": "97.36%", "elapsed_time": "2d 12h 43m 40s", "remaining_time": "1h 38m 51s"}
{"loss": 0.53327885, "token_acc": 0.87706358, "grad_norm": 8.40595245, "learning_rate": 2e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095772, "epoch": 0.97378647, "global_step/max_steps": "20940/21503", "percentage": "97.38%", "elapsed_time": "2d 12h 44m 3s", "remaining_time": "1h 37m 58s"}
{"loss": 0.68007617, "token_acc": 0.82647268, "grad_norm": 8.07293987, "learning_rate": 2e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095785, "epoch": 0.97401899, "global_step/max_steps": "20945/21503", "percentage": "97.41%", "elapsed_time": "2d 12h 44m 26s", "remaining_time": "1h 37m 5s"}
{"loss": 0.61317811, "token_acc": 0.83507171, "grad_norm": 9.69239998, "learning_rate": 2e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095798, "epoch": 0.97425151, "global_step/max_steps": "20950/21503", "percentage": "97.43%", "elapsed_time": "2d 12h 44m 49s", "remaining_time": "1h 36m 12s"}
{"eval_loss": 0.55571741, "eval_runtime": 294.7045, "eval_samples_per_second": 11.791, "eval_steps_per_second": 11.791, "epoch": 0.97425151, "global_step/max_steps": "20950/21503", "percentage": "97.43%", "elapsed_time": "2d 12h 49m 44s", "remaining_time": "1h 36m 20s"}
{"loss": 0.78086758, "token_acc": 0.83444331, "grad_norm": 8.89921093, "learning_rate": 2e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095681, "epoch": 0.97448403, "global_step/max_steps": "20955/21503", "percentage": "97.45%", "elapsed_time": "2d 12h 50m 9s", "remaining_time": "1h 35m 27s"}
{"loss": 0.61939716, "token_acc": 0.84255042, "grad_norm": 6.8839426, "learning_rate": 2e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095693, "epoch": 0.97471655, "global_step/max_steps": "20960/21503", "percentage": "97.47%", "elapsed_time": "2d 12h 50m 32s", "remaining_time": "1h 34m 34s"}
{"loss": 0.69886937, "token_acc": 0.82237762, "grad_norm": 7.8867979, "learning_rate": 2e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095706, "epoch": 0.97494906, "global_step/max_steps": "20965/21503", "percentage": "97.50%", "elapsed_time": "2d 12h 50m 56s", "remaining_time": "1h 33m 41s"}
{"loss": 0.6574934, "token_acc": 0.84053276, "grad_norm": 11.55400562, "learning_rate": 2e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095719, "epoch": 0.97518158, "global_step/max_steps": "20970/21503", "percentage": "97.52%", "elapsed_time": "2d 12h 51m 18s", "remaining_time": "1h 32m 48s"}
{"loss": 0.74569073, "token_acc": 0.81033416, "grad_norm": 6.18777275, "learning_rate": 2e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095732, "epoch": 0.9754141, "global_step/max_steps": "20975/21503", "percentage": "97.54%", "elapsed_time": "2d 12h 51m 41s", "remaining_time": "1h 31m 55s"}
{"loss": 0.67555666, "token_acc": 0.84247258, "grad_norm": 8.6123848, "learning_rate": 2e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095744, "epoch": 0.97564662, "global_step/max_steps": "20980/21503", "percentage": "97.57%", "elapsed_time": "2d 12h 52m 5s", "remaining_time": "1h 31m 2s"}
{"loss": 0.71417384, "token_acc": 0.82808952, "grad_norm": 6.69466734, "learning_rate": 2e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095757, "epoch": 0.97587914, "global_step/max_steps": "20985/21503", "percentage": "97.59%", "elapsed_time": "2d 12h 52m 28s", "remaining_time": "1h 30m 9s"}
{"loss": 0.66813755, "token_acc": 0.82914268, "grad_norm": 8.81119728, "learning_rate": 2e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09577, "epoch": 0.97611166, "global_step/max_steps": "20990/21503", "percentage": "97.61%", "elapsed_time": "2d 12h 52m 51s", "remaining_time": "1h 29m 16s"}
{"loss": 0.66144862, "token_acc": 0.82506074, "grad_norm": 8.20799828, "learning_rate": 2e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095783, "epoch": 0.97634417, "global_step/max_steps": "20995/21503", "percentage": "97.64%", "elapsed_time": "2d 12h 53m 14s", "remaining_time": "1h 28m 23s"}
{"loss": 0.66305408, "token_acc": 0.83982526, "grad_norm": 7.30731392, "learning_rate": 1e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095796, "epoch": 0.97657669, "global_step/max_steps": "21000/21503", "percentage": "97.66%", "elapsed_time": "2d 12h 53m 36s", "remaining_time": "1h 27m 30s"}
{"eval_loss": 0.55567712, "eval_runtime": 295.8602, "eval_samples_per_second": 11.745, "eval_steps_per_second": 11.745, "epoch": 0.97657669, "global_step/max_steps": "21000/21503", "percentage": "97.66%", "elapsed_time": "2d 12h 58m 32s", "remaining_time": "1h 27m 37s"}
{"loss": 0.52150345, "token_acc": 0.83549583, "grad_norm": 8.34924793, "learning_rate": 1e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095679, "epoch": 0.97680921, "global_step/max_steps": "21005/21503", "percentage": "97.68%", "elapsed_time": "2d 12h 58m 56s", "remaining_time": "1h 26m 44s"}
{"loss": 0.70740013, "token_acc": 0.81576535, "grad_norm": 8.14448738, "learning_rate": 1e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095691, "epoch": 0.97704173, "global_step/max_steps": "21010/21503", "percentage": "97.71%", "elapsed_time": "2d 12h 59m 20s", "remaining_time": "1h 25m 51s"}
{"loss": 0.60272355, "token_acc": 0.85690991, "grad_norm": 10.01538658, "learning_rate": 1e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095704, "epoch": 0.97727425, "global_step/max_steps": "21015/21503", "percentage": "97.73%", "elapsed_time": "2d 12h 59m 43s", "remaining_time": "1h 24m 59s"}
{"loss": 0.73214159, "token_acc": 0.80844037, "grad_norm": 6.50054121, "learning_rate": 1e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095717, "epoch": 0.97750676, "global_step/max_steps": "21020/21503", "percentage": "97.75%", "elapsed_time": "2d 13h 0m 6s", "remaining_time": "1h 24m 6s"}
{"loss": 0.52010374, "token_acc": 0.85851691, "grad_norm": 6.89545488, "learning_rate": 1e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095729, "epoch": 0.97773928, "global_step/max_steps": "21025/21503", "percentage": "97.78%", "elapsed_time": "2d 13h 0m 29s", "remaining_time": "1h 23m 13s"}
{"loss": 0.7142354, "token_acc": 0.81701708, "grad_norm": 7.91938686, "learning_rate": 1e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095742, "epoch": 0.9779718, "global_step/max_steps": "21030/21503", "percentage": "97.80%", "elapsed_time": "2d 13h 0m 53s", "remaining_time": "1h 22m 20s"}
{"loss": 0.66552176, "token_acc": 0.83611384, "grad_norm": 8.00972557, "learning_rate": 1e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095755, "epoch": 0.97820432, "global_step/max_steps": "21035/21503", "percentage": "97.82%", "elapsed_time": "2d 13h 1m 16s", "remaining_time": "1h 21m 27s"}
{"loss": 0.56458426, "token_acc": 0.85817918, "grad_norm": 10.15401745, "learning_rate": 1e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095767, "epoch": 0.97843684, "global_step/max_steps": "21040/21503", "percentage": "97.85%", "elapsed_time": "2d 13h 1m 39s", "remaining_time": "1h 20m 34s"}
{"loss": 0.65248022, "token_acc": 0.8433693, "grad_norm": 8.32124996, "learning_rate": 1e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09578, "epoch": 0.97866936, "global_step/max_steps": "21045/21503", "percentage": "97.87%", "elapsed_time": "2d 13h 2m 2s", "remaining_time": "1h 19m 41s"}
{"loss": 0.59446902, "token_acc": 0.85673931, "grad_norm": 8.50733566, "learning_rate": 1e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095793, "epoch": 0.97890187, "global_step/max_steps": "21050/21503", "percentage": "97.89%", "elapsed_time": "2d 13h 2m 25s", "remaining_time": "1h 18m 48s"}
{"eval_loss": 0.55531853, "eval_runtime": 296.9087, "eval_samples_per_second": 11.704, "eval_steps_per_second": 11.704, "epoch": 0.97890187, "global_step/max_steps": "21050/21503", "percentage": "97.89%", "elapsed_time": "2d 13h 7m 22s", "remaining_time": "1h 18m 55s"}
{"loss": 0.61957226, "token_acc": 0.83504915, "grad_norm": 11.04492283, "learning_rate": 1e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095676, "epoch": 0.97913439, "global_step/max_steps": "21055/21503", "percentage": "97.92%", "elapsed_time": "2d 13h 7m 45s", "remaining_time": "1h 18m 2s"}
{"loss": 0.67278981, "token_acc": 0.82645991, "grad_norm": 8.9643259, "learning_rate": 1e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095689, "epoch": 0.97936691, "global_step/max_steps": "21060/21503", "percentage": "97.94%", "elapsed_time": "2d 13h 8m 8s", "remaining_time": "1h 17m 9s"}
{"loss": 0.56252122, "token_acc": 0.87047425, "grad_norm": 8.25956821, "learning_rate": 1e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095702, "epoch": 0.97959943, "global_step/max_steps": "21065/21503", "percentage": "97.96%", "elapsed_time": "2d 13h 8m 30s", "remaining_time": "1h 16m 16s"}
{"loss": 0.54234848, "token_acc": 0.85709355, "grad_norm": 6.84136152, "learning_rate": 1e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095714, "epoch": 0.97983195, "global_step/max_steps": "21070/21503", "percentage": "97.99%", "elapsed_time": "2d 13h 8m 53s", "remaining_time": "1h 15m 23s"}
{"loss": 0.55987635, "token_acc": 0.85640086, "grad_norm": 8.64388657, "learning_rate": 1e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095727, "epoch": 0.98006447, "global_step/max_steps": "21075/21503", "percentage": "98.01%", "elapsed_time": "2d 13h 9m 16s", "remaining_time": "1h 14m 31s"}
{"loss": 0.59533334, "token_acc": 0.85877551, "grad_norm": 8.68425369, "learning_rate": 1e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09574, "epoch": 0.98029698, "global_step/max_steps": "21080/21503", "percentage": "98.03%", "elapsed_time": "2d 13h 9m 40s", "remaining_time": "1h 13m 38s"}
{"loss": 0.57744565, "token_acc": 0.84833539, "grad_norm": 8.7897644, "learning_rate": 1e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095752, "epoch": 0.9805295, "global_step/max_steps": "21085/21503", "percentage": "98.06%", "elapsed_time": "2d 13h 10m 3s", "remaining_time": "1h 12m 45s"}
{"loss": 0.63446503, "token_acc": 0.84719536, "grad_norm": 7.45166254, "learning_rate": 1e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095765, "epoch": 0.98076202, "global_step/max_steps": "21090/21503", "percentage": "98.08%", "elapsed_time": "2d 13h 10m 25s", "remaining_time": "1h 11m 52s"}
{"loss": 0.63679838, "token_acc": 0.84915705, "grad_norm": 9.51374722, "learning_rate": 1e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095778, "epoch": 0.98099454, "global_step/max_steps": "21095/21503", "percentage": "98.10%", "elapsed_time": "2d 13h 10m 47s", "remaining_time": "1h 10m 59s"}
{"loss": 0.72033114, "token_acc": 0.82042834, "grad_norm": 10.59443951, "learning_rate": 1e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095791, "epoch": 0.98122706, "global_step/max_steps": "21100/21503", "percentage": "98.13%", "elapsed_time": "2d 13h 11m 10s", "remaining_time": "1h 10m 7s"}
{"eval_loss": 0.55540955, "eval_runtime": 293.9435, "eval_samples_per_second": 11.822, "eval_steps_per_second": 11.822, "epoch": 0.98122706, "global_step/max_steps": "21100/21503", "percentage": "98.13%", "elapsed_time": "2d 13h 16m 4s", "remaining_time": "1h 10m 12s"}
{"loss": 0.57129254, "token_acc": 0.83538052, "grad_norm": 7.31891632, "learning_rate": 1e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095676, "epoch": 0.98145958, "global_step/max_steps": "21105/21503", "percentage": "98.15%", "elapsed_time": "2d 13h 16m 27s", "remaining_time": "1h 9m 19s"}
{"loss": 0.71724553, "token_acc": 0.80857354, "grad_norm": 9.15834236, "learning_rate": 1e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095689, "epoch": 0.98169209, "global_step/max_steps": "21110/21503", "percentage": "98.17%", "elapsed_time": "2d 13h 16m 50s", "remaining_time": "1h 8m 27s"}
{"loss": 0.56060858, "token_acc": 0.85523236, "grad_norm": 8.45883846, "learning_rate": 1e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095702, "epoch": 0.98192461, "global_step/max_steps": "21115/21503", "percentage": "98.20%", "elapsed_time": "2d 13h 17m 12s", "remaining_time": "1h 7m 34s"}
{"loss": 0.50419598, "token_acc": 0.87403881, "grad_norm": 8.79599953, "learning_rate": 1e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095715, "epoch": 0.98215713, "global_step/max_steps": "21120/21503", "percentage": "98.22%", "elapsed_time": "2d 13h 17m 35s", "remaining_time": "1h 6m 41s"}
{"loss": 0.53702655, "token_acc": 0.86501767, "grad_norm": 8.33820057, "learning_rate": 1e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095727, "epoch": 0.98238965, "global_step/max_steps": "21125/21503", "percentage": "98.24%", "elapsed_time": "2d 13h 17m 59s", "remaining_time": "1h 5m 48s"}
{"loss": 0.61971016, "token_acc": 0.84822647, "grad_norm": 8.37665653, "learning_rate": 1e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09574, "epoch": 0.98262217, "global_step/max_steps": "21130/21503", "percentage": "98.27%", "elapsed_time": "2d 13h 18m 21s", "remaining_time": "1h 4m 55s"}
{"loss": 0.66801882, "token_acc": 0.8227696, "grad_norm": 11.89041615, "learning_rate": 1e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095752, "epoch": 0.98285468, "global_step/max_steps": "21135/21503", "percentage": "98.29%", "elapsed_time": "2d 13h 18m 45s", "remaining_time": "1h 4m 3s"}
{"loss": 0.65328026, "token_acc": 0.83630823, "grad_norm": 7.54793072, "learning_rate": 1e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095765, "epoch": 0.9830872, "global_step/max_steps": "21140/21503", "percentage": "98.31%", "elapsed_time": "2d 13h 19m 8s", "remaining_time": "1h 3m 10s"}
{"loss": 0.57009692, "token_acc": 0.85061172, "grad_norm": 9.29373169, "learning_rate": 1e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095778, "epoch": 0.98331972, "global_step/max_steps": "21145/21503", "percentage": "98.34%", "elapsed_time": "2d 13h 19m 30s", "remaining_time": "1h 2m 17s"}
{"loss": 0.71249418, "token_acc": 0.82296833, "grad_norm": 11.20102406, "learning_rate": 1e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095791, "epoch": 0.98355224, "global_step/max_steps": "21150/21503", "percentage": "98.36%", "elapsed_time": "2d 13h 19m 52s", "remaining_time": "1h 1m 25s"}
{"eval_loss": 0.55563468, "eval_runtime": 293.5457, "eval_samples_per_second": 11.838, "eval_steps_per_second": 11.838, "epoch": 0.98355224, "global_step/max_steps": "21150/21503", "percentage": "98.36%", "elapsed_time": "2d 13h 24m 46s", "remaining_time": "1h 1m 30s"}
{"loss": 0.5556901, "token_acc": 0.83562205, "grad_norm": 10.6072197, "learning_rate": 1e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095676, "epoch": 0.98378476, "global_step/max_steps": "21155/21503", "percentage": "98.38%", "elapsed_time": "2d 13h 25m 9s", "remaining_time": "1h 0m 37s"}
{"loss": 0.68963079, "token_acc": 0.82680277, "grad_norm": 7.97178125, "learning_rate": 1e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095689, "epoch": 0.98401728, "global_step/max_steps": "21160/21503", "percentage": "98.40%", "elapsed_time": "2d 13h 25m 33s", "remaining_time": "59m 44s"}
{"loss": 0.61440535, "token_acc": 0.84011535, "grad_norm": 8.96098137, "learning_rate": 1e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095701, "epoch": 0.98424979, "global_step/max_steps": "21165/21503", "percentage": "98.43%", "elapsed_time": "2d 13h 25m 56s", "remaining_time": "58m 51s"}
{"loss": 0.60647106, "token_acc": 0.84439124, "grad_norm": 9.97770119, "learning_rate": 1e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095714, "epoch": 0.98448231, "global_step/max_steps": "21170/21503", "percentage": "98.45%", "elapsed_time": "2d 13h 26m 20s", "remaining_time": "57m 59s"}
{"loss": 0.62240152, "token_acc": 0.83962264, "grad_norm": 10.32964516, "learning_rate": 1e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095727, "epoch": 0.98471483, "global_step/max_steps": "21175/21503", "percentage": "98.47%", "elapsed_time": "2d 13h 26m 42s", "remaining_time": "57m 6s"}
{"loss": 0.52044597, "token_acc": 0.87097967, "grad_norm": 10.57801151, "learning_rate": 1e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095739, "epoch": 0.98494735, "global_step/max_steps": "21180/21503", "percentage": "98.50%", "elapsed_time": "2d 13h 27m 5s", "remaining_time": "56m 13s"}
{"loss": 0.66974559, "token_acc": 0.81529582, "grad_norm": 7.30665302, "learning_rate": 1e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095752, "epoch": 0.98517987, "global_step/max_steps": "21185/21503", "percentage": "98.52%", "elapsed_time": "2d 13h 27m 28s", "remaining_time": "55m 21s"}
{"loss": 0.67700114, "token_acc": 0.83243968, "grad_norm": 7.488276, "learning_rate": 1e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095765, "epoch": 0.98541239, "global_step/max_steps": "21190/21503", "percentage": "98.54%", "elapsed_time": "2d 13h 27m 51s", "remaining_time": "54m 28s"}
{"loss": 0.57521186, "token_acc": 0.85655456, "grad_norm": 7.64422607, "learning_rate": 1e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095777, "epoch": 0.9856449, "global_step/max_steps": "21195/21503", "percentage": "98.57%", "elapsed_time": "2d 13h 28m 15s", "remaining_time": "53m 35s"}
{"loss": 0.59683857, "token_acc": 0.83830764, "grad_norm": 7.49774361, "learning_rate": 1e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09579, "epoch": 0.98587742, "global_step/max_steps": "21200/21503", "percentage": "98.59%", "elapsed_time": "2d 13h 28m 37s", "remaining_time": "52m 43s"}
{"eval_loss": 0.55550367, "eval_runtime": 292.1935, "eval_samples_per_second": 11.893, "eval_steps_per_second": 11.893, "epoch": 0.98587742, "global_step/max_steps": "21200/21503", "percentage": "98.59%", "elapsed_time": "2d 13h 33m 30s", "remaining_time": "52m 47s"}
{"loss": 0.71674495, "token_acc": 0.83491513, "grad_norm": 9.11408329, "learning_rate": 1e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095676, "epoch": 0.98610994, "global_step/max_steps": "21205/21503", "percentage": "98.61%", "elapsed_time": "2d 13h 33m 53s", "remaining_time": "51m 54s"}
{"loss": 0.61598206, "token_acc": 0.83998624, "grad_norm": 8.94640064, "learning_rate": 1e-08, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095688, "epoch": 0.98634246, "global_step/max_steps": "21210/21503", "percentage": "98.64%", "elapsed_time": "2d 13h 34m 17s", "remaining_time": "51m 2s"}
{"loss": 0.61164088, "token_acc": 0.85015158, "grad_norm": 12.26001358, "learning_rate": 0.0, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095701, "epoch": 0.98657498, "global_step/max_steps": "21215/21503", "percentage": "98.66%", "elapsed_time": "2d 13h 34m 39s", "remaining_time": "50m 9s"}
{"loss": 0.64205098, "token_acc": 0.83465347, "grad_norm": 8.0435276, "learning_rate": 0.0, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095714, "epoch": 0.9868075, "global_step/max_steps": "21220/21503", "percentage": "98.68%", "elapsed_time": "2d 13h 35m 2s", "remaining_time": "49m 16s"}
{"loss": 0.56573782, "token_acc": 0.85345384, "grad_norm": 8.91065979, "learning_rate": 0.0, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095726, "epoch": 0.98704001, "global_step/max_steps": "21225/21503", "percentage": "98.71%", "elapsed_time": "2d 13h 35m 25s", "remaining_time": "48m 24s"}
{"loss": 0.59493732, "token_acc": 0.84171827, "grad_norm": 8.2872591, "learning_rate": 0.0, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095739, "epoch": 0.98727253, "global_step/max_steps": "21230/21503", "percentage": "98.73%", "elapsed_time": "2d 13h 35m 48s", "remaining_time": "47m 31s"}
{"loss": 0.53574739, "token_acc": 0.85929648, "grad_norm": 9.37922573, "learning_rate": 0.0, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095752, "epoch": 0.98750505, "global_step/max_steps": "21235/21503", "percentage": "98.75%", "elapsed_time": "2d 13h 36m 10s", "remaining_time": "46m 38s"}
{"loss": 0.50659008, "token_acc": 0.87504912, "grad_norm": 7.86110115, "learning_rate": 0.0, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095765, "epoch": 0.98773757, "global_step/max_steps": "21240/21503", "percentage": "98.78%", "elapsed_time": "2d 13h 36m 33s", "remaining_time": "45m 46s"}
{"loss": 0.67800751, "token_acc": 0.83448514, "grad_norm": 8.91444778, "learning_rate": 0.0, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095777, "epoch": 0.98797009, "global_step/max_steps": "21245/21503", "percentage": "98.80%", "elapsed_time": "2d 13h 36m 56s", "remaining_time": "44m 53s"}
{"loss": 0.61658864, "token_acc": 0.84795692, "grad_norm": 9.36049938, "learning_rate": 0.0, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09579, "epoch": 0.9882026, "global_step/max_steps": "21250/21503", "percentage": "98.82%", "elapsed_time": "2d 13h 37m 18s", "remaining_time": "44m 1s"}
{"eval_loss": 0.55532765, "eval_runtime": 292.8059, "eval_samples_per_second": 11.868, "eval_steps_per_second": 11.868, "epoch": 0.9882026, "global_step/max_steps": "21250/21503", "percentage": "98.82%", "elapsed_time": "2d 13h 42m 11s", "remaining_time": "44m 4s"}
{"loss": 0.67294478, "token_acc": 0.83493527, "grad_norm": 10.54782963, "learning_rate": 0.0, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095676, "epoch": 0.98843512, "global_step/max_steps": "21255/21503", "percentage": "98.85%", "elapsed_time": "2d 13h 42m 35s", "remaining_time": "43m 12s"}
{"loss": 0.61425843, "token_acc": 0.84630542, "grad_norm": 11.01703453, "learning_rate": 0.0, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095689, "epoch": 0.98866764, "global_step/max_steps": "21260/21503", "percentage": "98.87%", "elapsed_time": "2d 13h 42m 58s", "remaining_time": "42m 19s"}
{"loss": 0.62162948, "token_acc": 0.84229275, "grad_norm": 6.79549313, "learning_rate": 0.0, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095701, "epoch": 0.98890016, "global_step/max_steps": "21265/21503", "percentage": "98.89%", "elapsed_time": "2d 13h 43m 21s", "remaining_time": "41m 26s"}
{"loss": 0.63008499, "token_acc": 0.84957074, "grad_norm": 8.33559704, "learning_rate": 0.0, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095713, "epoch": 0.98913268, "global_step/max_steps": "21270/21503", "percentage": "98.92%", "elapsed_time": "2d 13h 43m 45s", "remaining_time": "40m 34s"}
{"loss": 0.64181871, "token_acc": 0.82731959, "grad_norm": 9.00970364, "learning_rate": 0.0, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095725, "epoch": 0.9893652, "global_step/max_steps": "21275/21503", "percentage": "98.94%", "elapsed_time": "2d 13h 44m 9s", "remaining_time": "39m 41s"}
{"loss": 0.60559268, "token_acc": 0.84517362, "grad_norm": 7.71968603, "learning_rate": 0.0, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095738, "epoch": 0.98959771, "global_step/max_steps": "21280/21503", "percentage": "98.96%", "elapsed_time": "2d 13h 44m 33s", "remaining_time": "38m 49s"}
{"loss": 0.57929807, "token_acc": 0.84735099, "grad_norm": 8.59275436, "learning_rate": 0.0, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09575, "epoch": 0.98983023, "global_step/max_steps": "21285/21503", "percentage": "98.99%", "elapsed_time": "2d 13h 44m 56s", "remaining_time": "37m 56s"}
{"loss": 0.73911819, "token_acc": 0.80898559, "grad_norm": 7.2387414, "learning_rate": 0.0, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095763, "epoch": 0.99006275, "global_step/max_steps": "21290/21503", "percentage": "99.01%", "elapsed_time": "2d 13h 45m 20s", "remaining_time": "37m 4s"}
{"loss": 0.66326809, "token_acc": 0.84085168, "grad_norm": 11.12053299, "learning_rate": 0.0, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095776, "epoch": 0.99029527, "global_step/max_steps": "21295/21503", "percentage": "99.03%", "elapsed_time": "2d 13h 45m 42s", "remaining_time": "36m 11s"}
{"loss": 0.69902997, "token_acc": 0.82094595, "grad_norm": 9.0011797, "learning_rate": 0.0, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095788, "epoch": 0.99052779, "global_step/max_steps": "21300/21503", "percentage": "99.06%", "elapsed_time": "2d 13h 46m 5s", "remaining_time": "35m 19s"}
{"eval_loss": 0.55535787, "eval_runtime": 297.4219, "eval_samples_per_second": 11.684, "eval_steps_per_second": 11.684, "epoch": 0.99052779, "global_step/max_steps": "21300/21503", "percentage": "99.06%", "elapsed_time": "2d 13h 51m 3s", "remaining_time": "35m 22s"}
{"loss": 0.63028932, "token_acc": 0.83463717, "grad_norm": 8.92105675, "learning_rate": 0.0, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095672, "epoch": 0.99076031, "global_step/max_steps": "21305/21503", "percentage": "99.08%", "elapsed_time": "2d 13h 51m 26s", "remaining_time": "34m 29s"}
{"loss": 0.60549049, "token_acc": 0.84383853, "grad_norm": 8.29236031, "learning_rate": 0.0, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095685, "epoch": 0.99099282, "global_step/max_steps": "21310/21503", "percentage": "99.10%", "elapsed_time": "2d 13h 51m 50s", "remaining_time": "33m 37s"}
{"loss": 0.53821173, "token_acc": 0.87685775, "grad_norm": 9.08748913, "learning_rate": 0.0, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095697, "epoch": 0.99122534, "global_step/max_steps": "21315/21503", "percentage": "99.13%", "elapsed_time": "2d 13h 52m 13s", "remaining_time": "32m 44s"}
{"loss": 0.58181329, "token_acc": 0.85374449, "grad_norm": 9.04285622, "learning_rate": 0.0, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09571, "epoch": 0.99145786, "global_step/max_steps": "21320/21503", "percentage": "99.15%", "elapsed_time": "2d 13h 52m 36s", "remaining_time": "31m 52s"}
{"loss": 0.77180281, "token_acc": 0.81960517, "grad_norm": 11.69762039, "learning_rate": 0.0, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095722, "epoch": 0.99169038, "global_step/max_steps": "21325/21503", "percentage": "99.17%", "elapsed_time": "2d 13h 52m 59s", "remaining_time": "30m 59s"}
{"loss": 0.60602961, "token_acc": 0.8515682, "grad_norm": 8.30551052, "learning_rate": 0.0, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095735, "epoch": 0.9919229, "global_step/max_steps": "21330/21503", "percentage": "99.20%", "elapsed_time": "2d 13h 53m 22s", "remaining_time": "30m 7s"}
{"loss": 0.6432456, "token_acc": 0.83450314, "grad_norm": 10.31928158, "learning_rate": 0.0, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095747, "epoch": 0.99215542, "global_step/max_steps": "21335/21503", "percentage": "99.22%", "elapsed_time": "2d 13h 53m 45s", "remaining_time": "29m 14s"}
{"loss": 0.60191674, "token_acc": 0.8467715, "grad_norm": 7.90204191, "learning_rate": 0.0, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09576, "epoch": 0.99238793, "global_step/max_steps": "21340/21503", "percentage": "99.24%", "elapsed_time": "2d 13h 54m 8s", "remaining_time": "28m 22s"}
{"loss": 0.66436753, "token_acc": 0.83714511, "grad_norm": 9.37174225, "learning_rate": 0.0, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095773, "epoch": 0.99262045, "global_step/max_steps": "21345/21503", "percentage": "99.27%", "elapsed_time": "2d 13h 54m 31s", "remaining_time": "27m 29s"}
{"loss": 0.68192115, "token_acc": 0.82282385, "grad_norm": 6.81335449, "learning_rate": 0.0, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095785, "epoch": 0.99285297, "global_step/max_steps": "21350/21503", "percentage": "99.29%", "elapsed_time": "2d 13h 54m 54s", "remaining_time": "26m 37s"}
{"eval_loss": 0.55557448, "eval_runtime": 295.7567, "eval_samples_per_second": 11.75, "eval_steps_per_second": 11.75, "epoch": 0.99285297, "global_step/max_steps": "21350/21503", "percentage": "99.29%", "elapsed_time": "2d 13h 59m 50s", "remaining_time": "26m 39s"}
{"loss": 0.59598899, "token_acc": 0.83490411, "grad_norm": 8.49965668, "learning_rate": 0.0, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09567, "epoch": 0.99308549, "global_step/max_steps": "21355/21503", "percentage": "99.31%", "elapsed_time": "2d 14h 0m 13s", "remaining_time": "25m 46s"}
{"loss": 0.67955117, "token_acc": 0.81443932, "grad_norm": 6.65378428, "learning_rate": 0.0, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095683, "epoch": 0.99331801, "global_step/max_steps": "21360/21503", "percentage": "99.33%", "elapsed_time": "2d 14h 0m 37s", "remaining_time": "24m 54s"}
{"loss": 0.57734942, "token_acc": 0.84610003, "grad_norm": 10.10082817, "learning_rate": 0.0, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095695, "epoch": 0.99355052, "global_step/max_steps": "21365/21503", "percentage": "99.36%", "elapsed_time": "2d 14h 1m 0s", "remaining_time": "24m 2s"}
{"loss": 0.6679565, "token_acc": 0.8149339, "grad_norm": 9.32225895, "learning_rate": 0.0, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095708, "epoch": 0.99378304, "global_step/max_steps": "21370/21503", "percentage": "99.38%", "elapsed_time": "2d 14h 1m 23s", "remaining_time": "23m 9s"}
{"loss": 0.63663869, "token_acc": 0.8308026, "grad_norm": 7.62095165, "learning_rate": 0.0, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09572, "epoch": 0.99401556, "global_step/max_steps": "21375/21503", "percentage": "99.40%", "elapsed_time": "2d 14h 1m 46s", "remaining_time": "22m 17s"}
{"loss": 0.67235713, "token_acc": 0.82513205, "grad_norm": 8.10721302, "learning_rate": 0.0, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095733, "epoch": 0.99424808, "global_step/max_steps": "21380/21503", "percentage": "99.43%", "elapsed_time": "2d 14h 2m 9s", "remaining_time": "21m 24s"}
{"loss": 0.6097724, "token_acc": 0.84405537, "grad_norm": 9.4669857, "learning_rate": 0.0, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095745, "epoch": 0.9944806, "global_step/max_steps": "21385/21503", "percentage": "99.45%", "elapsed_time": "2d 14h 2m 32s", "remaining_time": "20m 32s"}
{"loss": 0.61840773, "token_acc": 0.83906582, "grad_norm": 15.10063553, "learning_rate": 0.0, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095758, "epoch": 0.99471312, "global_step/max_steps": "21390/21503", "percentage": "99.47%", "elapsed_time": "2d 14h 2m 56s", "remaining_time": "19m 40s"}
{"loss": 0.58573098, "token_acc": 0.85940695, "grad_norm": 9.57985497, "learning_rate": 0.0, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09577, "epoch": 0.99494563, "global_step/max_steps": "21395/21503", "percentage": "99.50%", "elapsed_time": "2d 14h 3m 19s", "remaining_time": "18m 47s"}
{"loss": 0.69105811, "token_acc": 0.83388098, "grad_norm": 8.90571022, "learning_rate": 0.0, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095783, "epoch": 0.99517815, "global_step/max_steps": "21400/21503", "percentage": "99.52%", "elapsed_time": "2d 14h 3m 42s", "remaining_time": "17m 55s"}
{"eval_loss": 0.5554384, "eval_runtime": 298.0918, "eval_samples_per_second": 11.657, "eval_steps_per_second": 11.657, "epoch": 0.99517815, "global_step/max_steps": "21400/21503", "percentage": "99.52%", "elapsed_time": "2d 14h 8m 40s", "remaining_time": "17m 56s"}
{"loss": 0.82594929, "token_acc": 0.83382848, "grad_norm": 8.42966938, "learning_rate": 0.0, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095667, "epoch": 0.99541067, "global_step/max_steps": "21405/21503", "percentage": "99.54%", "elapsed_time": "2d 14h 9m 4s", "remaining_time": "17m 4s"}
{"loss": 0.65413055, "token_acc": 0.84677716, "grad_norm": 7.52883053, "learning_rate": 0.0, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09568, "epoch": 0.99564319, "global_step/max_steps": "21410/21503", "percentage": "99.57%", "elapsed_time": "2d 14h 9m 27s", "remaining_time": "16m 11s"}
{"loss": 0.63125753, "token_acc": 0.83463339, "grad_norm": 7.16205692, "learning_rate": 0.0, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095692, "epoch": 0.99587571, "global_step/max_steps": "21415/21503", "percentage": "99.59%", "elapsed_time": "2d 14h 9m 51s", "remaining_time": "15m 19s"}
{"loss": 0.6251492, "token_acc": 0.84507042, "grad_norm": 10.45735264, "learning_rate": 0.0, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095704, "epoch": 0.99610823, "global_step/max_steps": "21420/21503", "percentage": "99.61%", "elapsed_time": "2d 14h 10m 14s", "remaining_time": "14m 27s"}
{"loss": 0.62302623, "token_acc": 0.85630841, "grad_norm": 7.63365221, "learning_rate": 0.0, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095716, "epoch": 0.99634074, "global_step/max_steps": "21425/21503", "percentage": "99.64%", "elapsed_time": "2d 14h 10m 37s", "remaining_time": "13m 34s"}
{"loss": 0.65448537, "token_acc": 0.83709737, "grad_norm": 8.27695751, "learning_rate": 0.0, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095729, "epoch": 0.99657326, "global_step/max_steps": "21430/21503", "percentage": "99.66%", "elapsed_time": "2d 14h 11m 1s", "remaining_time": "12m 42s"}
{"loss": 0.58992596, "token_acc": 0.84364492, "grad_norm": 7.65335751, "learning_rate": 0.0, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095741, "epoch": 0.99680578, "global_step/max_steps": "21435/21503", "percentage": "99.68%", "elapsed_time": "2d 14h 11m 24s", "remaining_time": "11m 50s"}
{"loss": 0.6896132, "token_acc": 0.83929323, "grad_norm": 8.18580532, "learning_rate": 0.0, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095754, "epoch": 0.9970383, "global_step/max_steps": "21440/21503", "percentage": "99.71%", "elapsed_time": "2d 14h 11m 47s", "remaining_time": "10m 57s"}
{"loss": 0.63590899, "token_acc": 0.84553469, "grad_norm": 10.82808685, "learning_rate": 0.0, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095766, "epoch": 0.99727082, "global_step/max_steps": "21445/21503", "percentage": "99.73%", "elapsed_time": "2d 14h 12m 10s", "remaining_time": "10m 5s"}
{"loss": 0.67960024, "token_acc": 0.82796372, "grad_norm": 7.98701096, "learning_rate": 0.0, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095778, "epoch": 0.99750334, "global_step/max_steps": "21450/21503", "percentage": "99.75%", "elapsed_time": "2d 14h 12m 34s", "remaining_time": "9m 13s"}
{"eval_loss": 0.55536568, "eval_runtime": 295.3935, "eval_samples_per_second": 11.764, "eval_steps_per_second": 11.764, "epoch": 0.99750334, "global_step/max_steps": "21450/21503", "percentage": "99.75%", "elapsed_time": "2d 14h 17m 29s", "remaining_time": "9m 14s"}
{"loss": 0.58043566, "token_acc": 0.83537893, "grad_norm": 8.46850395, "learning_rate": 0.0, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095664, "epoch": 0.99773585, "global_step/max_steps": "21455/21503", "percentage": "99.78%", "elapsed_time": "2d 14h 17m 53s", "remaining_time": "8m 21s"}
{"loss": 0.72086072, "token_acc": 0.82894737, "grad_norm": 7.75885153, "learning_rate": 0.0, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095677, "epoch": 0.99796837, "global_step/max_steps": "21460/21503", "percentage": "99.80%", "elapsed_time": "2d 14h 18m 15s", "remaining_time": "7m 29s"}
{"loss": 0.69104724, "token_acc": 0.82906551, "grad_norm": 8.03931236, "learning_rate": 0.0, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09569, "epoch": 0.99820089, "global_step/max_steps": "21465/21503", "percentage": "99.82%", "elapsed_time": "2d 14h 18m 38s", "remaining_time": "6m 37s"}
{"loss": 0.73383679, "token_acc": 0.81016949, "grad_norm": 8.54366398, "learning_rate": 0.0, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095702, "epoch": 0.99843341, "global_step/max_steps": "21470/21503", "percentage": "99.85%", "elapsed_time": "2d 14h 19m 1s", "remaining_time": "5m 44s"}
{"loss": 0.54597273, "token_acc": 0.84989576, "grad_norm": 8.52961731, "learning_rate": 0.0, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095715, "epoch": 0.99866593, "global_step/max_steps": "21475/21503", "percentage": "99.87%", "elapsed_time": "2d 14h 19m 24s", "remaining_time": "4m 52s"}
{"loss": 0.64087858, "token_acc": 0.84433962, "grad_norm": 8.78616619, "learning_rate": 0.0, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095727, "epoch": 0.99889844, "global_step/max_steps": "21480/21503", "percentage": "99.89%", "elapsed_time": "2d 14h 19m 47s", "remaining_time": "4m 0s"}
{"loss": 0.6573844, "token_acc": 0.83929931, "grad_norm": 7.95462656, "learning_rate": 0.0, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.09574, "epoch": 0.99913096, "global_step/max_steps": "21485/21503", "percentage": "99.92%", "elapsed_time": "2d 14h 20m 10s", "remaining_time": "3m 8s"}
{"loss": 0.70264106, "token_acc": 0.81706835, "grad_norm": 10.05750465, "learning_rate": 0.0, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095752, "epoch": 0.99936348, "global_step/max_steps": "21490/21503", "percentage": "99.94%", "elapsed_time": "2d 14h 20m 33s", "remaining_time": "2m 15s"}
{"loss": 0.65646672, "token_acc": 0.84140827, "grad_norm": 7.51481342, "learning_rate": 0.0, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095765, "epoch": 0.999596, "global_step/max_steps": "21495/21503", "percentage": "99.96%", "elapsed_time": "2d 14h 20m 56s", "remaining_time": "1m 23s"}
{"loss": 0.62974634, "token_acc": 0.83414634, "grad_norm": 8.59062576, "learning_rate": 0.0, "memory(GiB)": 47.44, "train_speed(iter/s)": 0.095777, "epoch": 0.99982852, "global_step/max_steps": "21500/21503", "percentage": "99.99%", "elapsed_time": "2d 14h 21m 19s", "remaining_time": "31s"}
{"eval_loss": 0.55538362, "eval_runtime": 292.3276, "eval_samples_per_second": 11.887, "eval_steps_per_second": 11.887, "epoch": 0.99982852, "global_step/max_steps": "21500/21503", "percentage": "99.99%", "elapsed_time": "2d 14h 26m 11s", "remaining_time": "31s"}
{"eval_loss": 0.55538768, "eval_runtime": 296.6555, "eval_samples_per_second": 11.714, "eval_steps_per_second": 11.714, "epoch": 0.99996803, "global_step/max_steps": "21503/21503", "percentage": "100.00%", "elapsed_time": "2d 14h 31m 22s", "remaining_time": "0s"}
{"train_runtime": 225083.428, "train_samples_per_second": 1.529, "train_steps_per_second": 0.096, "total_flos": 2.1957843844152115e+18, "train_loss": 0.7626672, "epoch": 0.99996803, "global_step/max_steps": "21503/21503", "percentage": "100.00%", "elapsed_time": "2d 14h 31m 23s", "remaining_time": "0s"}